Pruebas A/B: ¿qué es y cómo usarla?

La generación de nuevas ideas es una parte integral del desarrollo de cualquier producto. Por supuesto, no todas las ideas aumentarán las tasas de conversión, incrementarán las audiencias o tendrán un impacto positivo en otras métricas.

La pregunta es entonces: ¿cómo probar rápidamente las ideas e hipótesis? Hay muchas herramientas disponibles, pero una de las más populares es el test A/B.

¿Qué es la prueba AB?

Empecemos con un sencillo diagrama para introducir el concepto de la prueba AB. Consta de tres elementos:

Usuarios.
Una página original y una o varias páginas experimentales (variantes).
Resultados.

Por ejemplo, hay una página de destino para la producción y venta de ventanas de pvc, a la que llega tráfico procedente de la publicidad contextual (audiencia). El propietario ha visto un seminario web y se ha enterado de que la tendencia actual no son los botones rectangulares, que se instalan en el sitio, sino los redondos. Estos últimos aumentan la tasa de conversión, es decir, dan más pedidos.

Pero esto es sólo una percepción subjetiva, la tarea es comprobar en la realidad si la sustitución de los botones rectangulares por los redondos ayudará a aumentar la conversión. Es decir, hay que hacer ajustes y dar a los clientes potenciales una “muestra” del cambio de aterrizaje. Así podrá obtener datos objetivos sobre el cambio en la conversión (página de origen y experimental).

Se puede evaluar como para todo el público y por su parte. La segunda opción es preferible, porque entonces un resultado negativo tendrá un impacto mínimo en el volumen de pedidos. Por ello, los analistas experimentados realizan pruebas sobre el 5-10% de la audiencia.

Se crea una segunda versión de la banda con botones redondos y se dirige a ella entre el 5 y el 10% del tráfico procedente de la publicidad contextual, y los clientes potenciales tienen la oportunidad de ver y trabajar con la versión actualizada.

El siguiente bloque es mágico. En esta fase, se analiza el comportamiento del usuario y se toma una decisión basada en los datos. Por ejemplo, antes la tasa de conversión era del 3-5%, pero después de sustituir los botones ha aumentado al 8-10%. A continuación, todo el tráfico de la publicidad contextual se transfiere a la nueva versión, y disfrutar del aumento de los beneficios.

La elección del sistema de análisis depende de la métrica clave. En el caso del aterrizaje en ventanas de plástico se permite utilizar Yandex.Metrika (en general, esta es una herramienta popular y se utiliza en muchas pruebas).

Así, las pruebas A/B consisten en comparar la versión inicial (sitio web, aplicación, etc.) con la nueva en un grupo de usuarios, evaluando el cambio en las métricas clave y tomando la decisión final de realizar cambios.

¿Quién necesita pruebas A/B y por qué?

Las pruebas A/B son necesarias para todo el mundo: gestores de productos, vendedores, diseñadores de productos, administradores de páginas web, etc. En pocas palabras, todo aquel que quiera mejorar su producto, hacerlo más cómodo y agradable para su público objetivo necesita esta herramienta.

Las pruebas AB son necesarias para obtener información objetiva sobre todas las formas posibles de mejorar la versión actual del producto. Pero no siempre se trata de una historia de pruebas exitosas y crecimiento continuo. Lo primero que hay que pensar es cómo no empeorar el proyecto. Y ahí es donde las pruebas A/B son más útiles.

Los datos objetivos le permiten avanzar más rápido en el mercado. Después de todo, ¿quién mejor que los usuarios para saber lo que necesitan aquí y ahora? En el desarrollo de productos no se puede confiar sólo en la opinión subjetiva y en los propios puntos de vista. Esto ralentizará mucho el desarrollo de los productos.

Entonces llegarán competidores que utilizarán de buen grado esta herramienta de análisis, y su ritmo de desarrollo será muchas veces mayor, lo que les permitirá hacerse con una parte importante de su audiencia o forzarles a salir del mercado por completo. Por lo tanto, el uso de pruebas AB en la realidad actual es necesario para proyectos (sitios web, aplicaciones, etc.) como el aire.

Cuándo son necesarias las pruebas A/B

Las pruebas A/B se llevan a cabo cuando:

Es necesario obtener una opinión objetiva sobre la calidad de los cambios;
Suficientes usuarios y datos;
Tiempo y recursos suficientes para diseñar y realizar la prueba;
Una prueba AB es realmente la mejor opción para obtener la información que necesitas para tomar una decisión.

¿Por qué no realizar una prueba cuando no hay suficientes usuarios y datos?

Por ejemplo, acabamos de crear un sitio web para la venta de ventanas de plástico y estamos haciendo publicidad contextual con un presupuesto mínimo, por lo que el número de visitantes es bajo.

No sería correcto hacer pruebas en esa situación porque sería fácil pasar por alto cambios importantes debido a la baja sensibilidad de las métricas o a la falta de datos necesarios. En este caso se deben “mantener” las pruebas durante varios meses, pero en este caso la idea principal de la herramienta pierde su sentido: su principal cometido es proporcionar rápidamente datos objetivos que puedan servir de base para la toma de decisiones en un corto periodo de tiempo.

Datos interesantes

Las pruebas A/B existen desde hace muchos años. La herramienta ya fue aplicada por el matemático William Gossett en la fábrica de cerveza Guinness a principios del siglo XX. Utilizó diferentes tipos de cebada en la producción para determinar la mejor combinación que complaciera más al consumidor.

Otro ejemplo es la prueba de 41 tonos de azul en los resultados del motor de búsqueda de Google a principios de la década de 2000. Su hipótesis era que había un tono de azul que el ojo humano percibía mejor que otros y que podía aumentar la capacidad de hacer clic.

Cómo realizar una prueba AB en 6 pasos

La realización de una prueba AB puede dividirse en varios pasos:

Establecer un objetivo.
Elegir una métrica.
Definición de hipótesis.
Determinación del diseño.
Realización de la prueba.
Análisis de los resultados.

Veamos cada paso en detalle.

Paso 1 Establecer el objetivo

El objetivo de las pruebas debe ser tanto de negocio como de experiencia. Sigamos con el ejemplo del principio sobre una empresa que produce y vende ventanas de pvc. El objetivo principal es aumentar las ventas desde la página de aterrizaje a la que “vierte” el tráfico procedente de la publicidad contextual.

Por lo tanto, considere la posibilidad de realizar pruebas que aumenten hipotéticamente los pedidos desde la página de aterrizaje. En nuestro caso, sustituyendo los botones rectangulares por los redondos.

No se involucre en pruebas de hipótesis que no se alineen de alguna manera con el objetivo de negocio. Una prueba AB es un esfuerzo de equipo, requiere tiempo y recursos. Y si te equivocas en el punto de referencia, estarás desperdiciando recursos.

Paso 2: Elegir una métrica

La elección de la métrica es muy importante para el éxito de una prueba A/B. Con ello, nos referimos a los indicadores clave del negocio: ventas, ingresos, beneficio neto, número de visitantes, tasa de conversión, tasa de rebote, etc. A menudo las métricas se comparan con un termómetro: muestra lo buenos que son nuestros usuarios, cuánto ganamos, etc.

Para nuestras pruebas, la métrica clave es el número de pedidos desde la página de aterrizaje, es decir, contaremos los pedidos pagados de los clientes que vienen desde el sitio.

Es deseable elegir una métrica, pero en algunos casos es aceptable considerar varios indicadores como adicionales. Lo principal es no pasarse de la raya.

El seguimiento de una docena de métricas en una prueba reducirá significativamente su eficacia. En el ejemplo de las ventanas de plástico, es aceptable controlar la factura media y el beneficio neto como indicadores adicionales.

Paso 3: Decidir las hipótesis

Elija una hipótesis según el esquema “si algo, entonces algo”. La segunda parte debe coincidir con la métrica principal seleccionada en la prueba. Por ejemplo, “si sustituye los botones rectangulares por botones redondos, la tasa de conversión de la página de aterrizaje aumentará del 3-5% al 8-10%”.

Existen dos tipos de hipótesis para evaluar adecuadamente los resultados:

Cero. El cambio no conduce a nada, la conversión sigue siendo la misma (la tarea es refutar la hipótesis).
Alternativa. Los cambios aumentarán la tasa de conversión a un 8-10%.

En consecuencia, si no hubo cambios, significa que la hipótesis nula funcionó y no tiene sentido hacer cambios. Si la tasa de conversión sube, significa que la hipótesis alternativa ha funcionado y que es necesario ampliar los cambios para toda la audiencia. Y, por supuesto, si el efecto es negativo, echamos atrás todos los cambios y pensamos más en cómo aumentar la métrica clave.

Paso 4: Decidir el diseño

El cuarto paso es uno de los más importantes. A veces es más técnico, a veces no, todo depende del equipo actual y de la capacidad de realizar pruebas.

Por ejemplo, Yandex tiene un sistema automatizado que divide a los usuarios en grupos y determina el tamaño de la muestra antes de realizar las pruebas A/B. La muestra es el número de personas de cada grupo que se necesita para obtener la cantidad adecuada de datos para tomar una decisión objetiva.

Antes de diseñar la prueba, responda a 4 preguntas

de qué usuarios se trata: nuevos, antiguos, todos, un segmento concreto, etc;
cómo dividir en grupos (por ejemplo, por ciudad o distrito);
El tamaño de la muestra;
la duración de la prueba;
el nivel de significación aceptable (normalmente el 90-95%).

No todo el mundo sabe cómo determinar el tamaño de la muestra. En este caso, se guían por su propia experiencia: se preguntan “queremos ver un cambio de tal o cual tamaño” y en base a ello entienden el público mínimo necesario para probar la hipótesis.

Volvamos al ejemplo de un sitio web de venta de ventanas de plástico. Como estamos vertiendo tráfico desde la publicidad contextual, consideraremos a los nuevos usuarios (10% del volumen total) y no los categorizaremos. De media al día, la landing es visitada por 100 personas, la prueba se llevará a cabo 1 mes, y luego la nueva versión del sitio buscará 300 clientes potenciales (10%). Este tamaño de muestra es suficiente para tomar una decisión objetiva.

Paso 5: Realice el experimento

Empieza a hacer pruebas y… ¡espera! Relájese y observe los resultados actuales, especialmente al principio. Comprueba que no se rompe nada y que ambos grupos “se sienten bien”.

A veces, en las etapas iniciales se puede ver la confirmación de una hipótesis alternativa. Y aquí es cuando los recién llegados cometen el error de dejar de hacer pruebas antes de tiempo. Sí, los cambios pueden afectar positivamente a una métrica clave al principio, pero al final del experimento puede revelarse una verdadera falta de efecto (si no un resultado negativo). Así que espere estrictamente hasta el final del período previsto.

Paso 6: Analizar los resultados

La prueba ha terminado, los datos se han obtenido. Se analizan para entender si hay una diferencia y si no es accidental. A partir del análisis se toma una decisión: arreglar los cambios realizados para todo el público o retroceder todo a la versión inicial.

En nuestro ejemplo obtuvimos 27 pedidos desde la página de aterrizaje con botones redondos. Es decir, la tasa de conversión alcanzó el 9%.

¿Cuál es el papel del analista en el A/B-testing?

Los resultados de una prueba A/B se deciden en base a las estadísticas. Por eso no se puede prescindir de un analista experimentado. Su tarea es recoger los datos y realizar el análisis.

Lo primero y más importante es recordar siempre los errores de tipo I y II:

Error de tipo I: vemos un efecto donde no lo hay. Por ejemplo, realizamos una prueba A/A (se mostraron dos versiones idénticas del producto a dos grupos de usuarios) y encontramos algunos cambios, aunque en realidad no existen.

Error de tipo II: no vemos un efecto donde lo hay. Por ejemplo, hicimos una prueba A/B y, debido a la falta de sensibilidad de la métrica, no detectamos cambios evidentes.

También es responsabilidad del analista calcular la significación estadística. En el paso 4, al crear el diseño de la prueba, definimos un nivel de significación aceptable: el 95%. Si el resultado de un experimento está por debajo de este umbral, es probable que el cambio no se deba a un cambio en el producto.

Hace muchos años, la probabilidad se calculaba manualmente mediante fórmulas, pero hoy existen herramientas automatizadas que simplifican el trabajo del analista. Por ejemplo, la calculadora de pruebas A/B de Yandex.

Errores comunes en las pruebas A/B

Al realizar las primeras pruebas, los expertos cometen errores comunes. He aquí algunas de las más comunes:

Comparaciones múltiples. Si observamos 10 métricas diferentes en los resultados de las pruebas, la probabilidad de error aumenta porque tenemos un posible error del primer tipo en todas partes al tomar una decisión estadística. Antes de la prueba, determinamos que la probabilidad de ver un error donde no lo hay es del 5%. Si consideramos 10 métricas, la probabilidad aumenta al 40%, (1 – (1 – 0,05)**10 = 0,4).

El problema del peeking (detener la prueba antes de tiempo). Tomar una decisión final en una fase temprana de la prueba, lo que aumenta la probabilidad de un error de primer orden.

También conviene tener en cuenta que la significación estadística no siempre equivale a la significación práctica. Por ejemplo, las pruebas de una nueva versión de una aplicación en un público limitado muestran una significación estadística, pero no hay cambios reales y tangibles en la métrica. En este caso, decidimos perfeccionar la nueva versión y realizar una nueva prueba.

Las pruebas A/B son una gran herramienta para probar nuevas ideas e hipótesis. Se trata de lanzar actualizaciones a una parte específica de la audiencia y hacer un seguimiento de los cambios en las métricas clave. A partir de las pruebas y el análisis de los cambios en las métricas, se toma una decisión objetiva sobre las acciones posteriores para cambiar el producto.

Tenga en cuenta que esta herramienta no es una varita mágica. En la mayoría de los casos, le da la oportunidad de no cometer errores en lugar de encontrar un nuevo punto de crecimiento. Más del 50% de las pruebas acaban sin significación estadística y con la negativa a realizar los cambios propuestos.