Калькулятор AB-тестов

Этот калькулятор поможет рассчитать какой вариант тестирования лучше. Методика и формулы описаны ниже.

Достоверность
%
Размер выборки A
+
-
Число конверсий A
+
-
Размер выборки B
+
-
Число конверсий B
+
-

Побеждает:

...скопировать

Читайте объяснение ниже

Ниже разобраны основные вопросы проведения AB-тестов, в частности:

Поделиться

Отправить в:
Поделиться статьей:

AB-тестирование простыми словами

AB-тестирование (АБ-тесты или сплит-тестирование) — это метод, позволяющий сравнить несколько вариантов (A, B и при необходимости C) с целью узнать, какой из них обеспечивает лучшие результаты по ключевым метрикам.

Например, если вы хотите увеличить конверсию, вы показываете одной части аудитории вариант A, второй части — вариант B, а затем сопоставляете, какой из вариантов дал больше конверсий. Важно, что анализ проводится не только по абсолютным значениям, но и с учётом статистической значимости, чтобы убедиться, что результат не является случайным.

Пошаговая инструкция запуска AB-теста

Шаг 1. Определение цели теста. Например, цель может быть увеличить количество кликов на кнопку «Купить» на сайте.

Шаг 2. Формулирование гипотезы. «Если изменить цвет кнопки на зелёный, то кликов станет больше».

Шаг 3. Подготовка вариантов. Вы создаёте две версии того, что хотите протестировать:

  • Вариант A. Текущая синяя кнопка.
  • Вариант B. Новая зелёная кнопка.

Шаг 4. Разделение аудитории случайным образом. Вы случайным образом делите свою аудиторию на две равные части. Одна группа видит вариант A, другая — вариант B.

Шаг 5. Запуск теста и сбор данных. Собирайте информацию о том, сколько людей кликнули на каждую кнопку. Вы наблюдаете, как люди взаимодействуют с каждым вариантом, замеряя клики, покупки, подписки или другие действия.

Шаг 6. Анализ результатов. Сравните результаты обеих групп, чтобы определить, какой вариант показал лучшие показатели. Для этого данные заносите в калькулятор, чтобы увидеть, подтвердила ли статистика вашу гипотезу.

Шаг 7. Сегментный анализ результатов. Анализируйте результаты не только в целом, но и по сегментам, например, на разных типах устройств. Может оказаться, что зелёная кнопка работает хуже на мобильных устройствах, хотя в целом результат лучше. Важно понимать, что стоит за данными и как процессы происходят в реальности, чтобы принимать обоснованные решения.

Как рассчитывается лучший вариант

Математика AB-тестов

Для оценки результатов в большинстве случаев используют статистические методы, например Z-критерий для пропорций. Сначала вычисляется конверсия каждого варианта: отношение количества конверсий к размеру выборки. Затем определяется так называемая p-value (вероятность, что различия между вариантами незначимы и возникли случайно).

Если p-value ниже порога, заданного уровнем доверия (обычно 90%, 95% или 99%), разница считается статистически значимой. Лучшим признаётся вариант с наибольшей конверсией при условии, что разница значима. Если явного победителя нет, говорят, что «нет статистически подтверждённого отличия».

Математическое объяснение простыми словами работы сплит-тестов

Результаты AB-тестирования часто анализируются с помощью нормального распределения, которое также известно как распределение Гаусса. Это распределение показывает, что большинство результатов сосредоточено вокруг среднего значения, и чем дальше от среднего, тем меньше вероятность встретить такие значения.

Представим, что мы проводим тест с двумя вариантами A и B, каждый из которых был показан 1000 раз. Вариант A принёс 200 конверсий, а вариант B — 150. По первой оценке, конверсия A составляет 20%, а B — 15%. Используя статистические методы, мы можем рассчитать, есть ли статистически значимая разница между этими двумя процентами.

Если рассчитать стандартное отклонение конверсий для каждого варианта и затем использовать Z-критерий, мы можем определить, насколько вероятно, что разница в конверсиях не является случайной. Например, если p-value получается меньше 0.05, это означает, что с вероятностью в 95% различия между вариантами статистически значимы, и мы можем утверждать, что вариант A лучше варианта B с уровнем доверия 95%.

Более подробную математику сплит-тестов я позже опишу в отдельной статье. А пока посмотрите на примеры расчетов.

Примеры тестов

Рассмотрим работу AB- и ABC-тестов на нескольких примерах.

Тест 1. Проверка разных заголовков на посадочной странице

Вариант A. «Успейте купить со скидкой!»

Вариант B. «Новый продукт со скидкой 20%».

Размер выборки для A и B: по 1000 посетителей.

Число конверсий: A — 50, B — 70.

Конверсия: A — 5%, B — 7%.

Вывод: Разница (7% vs 5%) выглядит существенной. Если статистический тест показывает, что p-value менее 0.05 (при доверии 95%), то вариант B признаётся лучшим.

Тест 2. Изменение цвета кнопки «Купить»

Вариант A. Зелёная кнопка.

Вариант B. Оранжевая кнопка.

Размер выборки: A — 1500, B — 1500.

Число конверсий: A — 60, B — 60.

Конверсия: A и B — по 4%.

Вывод: Между 4% и 4% нет разницы. Скорее всего тест покажет, что p-value слишком велико, и статистически значимого отличия нет.

Тест 3. Два варианта оформления письма в рассылке.

Вариант A. Лаконичный текст с одной кнопкой.

Вариант B. Текст + изображения товаров + несколько кнопок.

Размер выборки: A — 2000, B — 2000 (всего 4000 адресов).

Конверсии: A — 100, B — 130.

Конверсия: A — 5%, B — 6,5%.

Вывод: Разница 1,5 процентных пункта. При достаточном размере выборки это может быть значимым улучшением. Если p-value менее 0.01 (при доверии 99%), вариант B выигрывает.

Тест 4. Изменение позиции формы регистрации на странице

Вариант A. Форма в верхней части страницы.

Вариант B. Форма в нижней части страницы.

Вариант C. Форма посередине страницы.

Размер выборки: A — 800, B — 800, C — 800.

Число конверсий: A — 40, B — 20, C — 30.

Конверсия: A — 5%, B — 2,5%, C — 3,75%.

Вывод: Наибольшая конверсия у варианта A (5%), что указывает на значимое преимущество размещения формы в верхней части страницы. Разница в конверсии между A и C (1,25%) также подтверждает эффективность верхнего размещения.

Тест 5. Проверка разного порядка шагов воронки

Вариант A. Запрос email, потом запрос личных данных.

Вариант B. Сначала общая форма, затем уточнение email.

Вариант C. Сначала запрос личных данных, потом уточнение email.

Размер выборки: A — 1200, B — 1200, C — 1200.

Число конверсий: A — 90, B — 105, C — 80.

Конверсия: A — 7,5%, B — 8,75%, C — 6,67%.

Вывод: Вариант B показывает наивысшую конверсию (8,75%) и признается предпочтительным. Различия в конверсиях указывают на значимость порядка предоставления информации в процессе регистрации.

Алгоритмы поиска точек роста

AB-тестирование помогает не только выбрать лучшую версию, но и понять, какие изменения наиболее сильно влияют на поведение пользователей. Существует несколько стратегий поиска точек роста:

Анализ воронки продаж. Смотрят, на каких этапах пользователи чаще всего «отваливаются». Если замечено, что 40% посетителей не доходят до формы регистрации, это явный кандидат для оптимизации.

Сегментация аудитории. В рамках одного и того же теста разные группы посетителей могут реагировать по-разному. Например, мобильные пользователи лучше конвертируются на упрощённом интерфейсе, а десктоп-аудитория — на более информативной странице.

Мультиармные бандиты. Алгоритмы машинного обучения, которые «самообучаются» на ходу, отдавая приоритет более эффективным вариантам, тем самым распределяя трафик оптимальным образом без дополнительных ручных тестов.

Тесты на конверсии и удержание. Иногда важно не столько сиюминутное действие (клик, заказ), сколько долгосрочная активность (повторная покупка, пользование сервисом). Анализ ROI и LTV пользователей даёт более полную картину.

Генерация и приоритизация гипотез. С помощью алгоритмов (например, ICE или RICE scoring) можно оценивать потенциальную эффективность идей, а затем тестировать самые многообещающие варианты первыми.

Частые ошибки и вопросы по AB-тестам

При проведении AB-тестов важно учитывать ряд общих ошибок и сложностей, которые могут значительно повлиять на качество и достоверность результатов. Ниже приведены десять наиболее распространённых ошибок, которые следует избегать для успешного тестирования.

🔹 Тестирование незначительных изменений. Избегайте тестирования тривиальных аспектов, таких как цвет кнопки, если нет предварительных данных о значимости таких изменений. Лучше сосредоточиться на элементах, которые могут значительно повлиять на восприятие продукта, например, на тексте кнопок или на блоках с уникальным торговым предложением.

🔸 Несовпадение тестовых периодов. Тестирование должно проходить одновременно для обоих вариантов, чтобы избежать влияния внешних факторов. Используйте инструменты, такие как Яндекс.Метрика или Google Analytics, для случайного и одновременного распределения аудитории.

🔹 Недостаточный размер выборки. Убедитесь, что ваша выборка достаточно велика, чтобы обеспечить статистическую значимость результатов. Маленькая выборка может привести к неправильным выводам.

🔸 Преждевременное завершение теста. Тест должен продолжаться до тех пор, пока не будет достигнута статистическая значимость (например, p-значение меньше 0.05), и охвачены все критические временные циклы, такие как разные дни недели.

🔹 Влияние внешних событий. Избегайте искажения результатов теста внешними событиями, такими как праздники или технические сбои, которые могут временно повлиять на поведение пользователей.

🔸 Отсутствие чёткой цели или гипотезы. Запуск теста без определённой цели или чётко сформулированной гипотезы может привести к тому, что результаты теста будут трудно интерпретировать.

🔹 Неправильное распределение пользователей. Убедитесь, что пользователи равномерно и случайно распределены между вариантами, чтобы каждый вариант был представлен адекватно и справедливо.

🔸 Игнорирование поведенческих сегментов. Рассмотрите поведение различных пользовательских сегментов, таких как мобильные и десктопные пользователи, так как они могут реагировать по-разному на изменения.

🔹 Слишком много изменений одновременно. Тестирование нескольких изменений одновременно может затруднить понимание, какое именно изменение повлияло на результаты. Сосредоточьтесь на одном изменении за раз.

🔸 Недостаток документации и анализа долгосрочных эффектов. Важно документировать все аспекты теста и следить за долгосрочными эффектами изменений, чтобы убедиться в их эффективности и избежать ошибок при интерпретации данных.

История вопроса для любознательных

Точно установить, когда впервые было использовано AB-тестирование, довольно сложно. Первое рандомизированное двойное слепое исследование, оценивающее эффективность гомеопатического препарата, было проведено в 1835 году. Эксперименты с рекламными кампаниями, которые можно сравнить с современными AB-тестами, начались в начале XX века. Рекламный пионер Клод Хопкинс использовал рекламные купоны для тестирования эффективности своих кампаний. Однако этот процесс, описанный Хопкинсом в его книге «Научная реклама», не включал такие понятия, как статистическая значимость и нулевая гипотеза, которые используются в статистическом гипотезном тестировании.

Современные статистические методы для оценки значимости выборочных данных были разработаны отдельно в тот же период. Эти работы провел Уильям Сили Госсет в 1908 году, когда он адаптировал Z-тест для создания t-критерия Стьюдента.

Уильям Сили Госсет - один из основоположников AB-тестированияУильям Сили Госсет (1876—1937) — известный британский статистик, который больше всего известен под псевдонимом "Студент". Он зарекомендовал себя своими исследованиями распределения, которое впоследствии получило название "распределение Стьюдента".

С ростом интернета появились новые способы выборки популяций. Инженеры Google провели свой первый AB-тест в 2000 году в попытке определить оптимальное количество результатов для отображения на странице результатов поисковой системы. Первый тест не удался из-за сбоев, вызванных медленной загрузкой страниц. Позже исследования AB-тестирования стали более продвинутыми, но основные принципы в целом остались неизменными, и в 2011 году, спустя 11 лет после первого теста Google, компания провела более 7,000 различных AB-тестов.

В 2012 году сотрудник Microsoft, работающий над поисковой системой Bing, создал эксперимент для тестирования различных способов отображения рекламных заголовков. В течение нескольких часов альтернативный формат привёл к увеличению дохода на 12% без влияния на метрики пользовательского опыта. Сегодня крупные программные компании, такие как Microsoft и Google, проводят более 10,000 AB-тестов ежегодно.

AB-тестирование некоторыми считается изменением философии и бизнес-стратегии в определённых нишах, хотя подход идентичен дизайну межсубъектного исследования, который широко используется в различных исследовательских традициях. Философия AB-тестирования в веб-разработке приводит область в соответствие с более широким движением к практике, основанной на доказательствах.

Многие компании теперь используют подход «разработанных экспериментов» для принятия маркетинговых решений, ожидая, что релевантные результаты выборки могут улучшить позитивные результаты конверсии. Это становится всё более распространённой практикой по мере роста инструментов и экспертизы в этой области.

Загружаем комментарии
Авторизация
Пожалуйста, введите корректный email.