Почему для теста любой вашей гипотезы нужно всего 5 человек

Сколько нужно получить продаж, чтобы проверить какую-то свою маркетинговую/бизнесовую/рекламную гипотезу? Сколько человек должны купить у вас, чтобы проверить вашу «воронку» и протестировать новую нишу?

Якоб Нилсен утверждает, что вам потребуется всего 5 человек. Если это правда, то любой тест любой идеи в интернете становится простым, легким, быстрым, понятным, малозатратным и статистически значимым.

Но так ли это? Сейчас проверим. Ниже вольный авторский перевод результатов исследования Nielsen Norman Group от 19 марта 2000 года.

Это исследование примечательно тем, что прекрасно иллюстрирует один из элементов мета-обучения Тима Ферриса (мы изучаем это в «Племени», да) — МЭД. То есть минимально эффективную дозу. Как видим, в интернет-маркетинге она тоже есть.

Тема: тестирование на пользователях
Выводы: Сложные юзабилити-тестирования — пустая трата ресурсов. Наилучшие результаты получаются на тестах не более 5 пользователей. Что позволяет тратить настолько мало ресурсов, насколько вы можете себе позволить.

Некоторые люди считают, что юзабилити — это очень сложно и дорого. И что пользовательские тесты нужно приберечь для очень редких проектов по веб-дизайну с огромными бюджетами и кучей времени. Это неправда. Сложные юзабилити-тесты — пустая трата ресурсов. Наилучшие результаты получают не более чем на 5 пользователях. И проводят столько небольших тестов, сколько могут себе позволить.

В более ранних исследования Том Ландауэр и я показали, что число проблем с юзабилити, обнаруженных при проведении юзабилити-тестов с количеством пользователей, равном n:

N (1-(1- L ) n )

где N — общее количество проблем с юзабилити в дизайне сайта, а L — пропорция проблем в юзабилити, обнаруживаемая на одном пользователе.

Типовое значение L = 31%. Это в среднем по всем проектам, что мы изучали. Построение кривой для L=31% дает такой результат:

почему для теста вам нужно всего 5 человек

Увеличение обнаружения проблем юзабилити — это функция от числа пользователей, на которых проводится тестирование. График показывает убывающую результативность юзабилити-тестирования с каждым новым пользователем. Кривая охватывает около 5 пользователей. Это и является рекомендуемым количеством участников тестирования.

Наиболее яркий вывод из этой кривой: ноль пользователей дают ноль данных.

Как только вы собираете данные с одного пользователя, вы получаете кучу идей и сразу же получаете треть от общего количества тех юзабилити ошибок, которые вообще можете выявить. Разница между нулём и первыми данными просто поразительная.

Во время тестирования второго пользователя вы обнаружите, что этот человек делает некоторые вещи так же, как и первый. Это будут совпадения с тем, на что нужно обращать внимание. А поскольку все люди разные, то безусловно будут и новые данные. Что-то второй пользователь будет делать не так, как первый. Поэтому второй пользователь добавит новых идей, однако в целом данные будут такими же, как и с первым пользователем.

Третий пользователь будет делать множество из того, что делали первый и второй. И даже такое, что вы уже видели дважды. И конечно же третий пользователь будет давать новые данные, хотя и не так много, как это было с первым и вторым.

По мере добавления всё новых и новых пользователей, вы будете узнавать всё меньше и меньше. Потому что будете видеть одно и то же снова и снова. Нет никакой необходимости наблюдать одно и то же по множеству раз. Поэтому вы будете мотивированы на то, чтобы вернуться к чистому листу и пересоздать дизайн сайта, устранив проблемы с юзабилити.

После пятого пользователя вы начнете бессмысленно тратить своё время, многократно наблюдая одни и те же результаты. Но мало что нового узнаете.

Содержание

Итеративный дизайн

Кривая ясно показывает — чтобы выявить все юзабилити проблемы в дизайне, нужно протестировать его на 15 пользователях. Почему же я рекомендую тестирование на меньшем количестве пользователей?

Основная причина в том, что можно распределить бюджет на несколько небольших тестов, нежели делать один большой сложный тест.

Например, у нас есть деньги, чтобы нанять 15 пользователей для тестирования нашего дизайна. Отлично. Разбейте бюджет на три части и у вас будет три теста по 5 пользователей в каждом.

Несколько тестов важны тем, что наша реальная цель — улучшать дизайн, а не просто задокументировать свои слабые стороны. После того, как первый тест с пятью участниками выявит 85% проблем юзабилити, лучше сделать редизайн и избавиться от этих проблем.

После редизайна нужно снова провести тест. И вы будете считать, что исправили все проблемы. Однако правда в том, что никто не может создать идеальный пользовательский интерфейс, поэтому нет никакой гарантии, что новый дизайн окажется совсем беспроблемным.

Второй тест покажет, сработал ли редизайн или нет. Кроме того, каждый новый дизайн — это новые риски появления других проблем. Даже если старые были устранены.

Также, второй тест с другими пятью пользователями поможет выявить оставшиеся от предыдущего теста 15% проблем (на самом деле после этого останется еще 2% невыявленных проблем, но это уже сможет определить третий тест).

Наконец, второй тест позволит глубже исследовать фундаментальные структуры сайта, оценивая такие вопросы как информационная архитектура, поток задач, соответствие нуждам пользователя и т.д. Эти важные вопросы часто остаются незамеченными при первых тестах, где пользователей ставила в тупик поверхность сайта, не давая им углубиться внутрь.

Таким образом, второй тест будет одинаково служить подтверждению качества первого теста и помогать выявить глубинные проблемы. Второй тест всегда будет приводить к новым (но меньшим) спискам проблем с юзабилити, которые нужно будет исправить при редизайне. То же можно сказать и о первом редизайне — не все исправления сработают как надо, а некоторые глубинные проблемы вообще не будут исправлены.

Таким образом нам необходим третий тест. К тому же конечный результат от трех маленьких тестов с пятью пользователями каждый будет куда лучше, чем один монструозный тест с пятнадцатью пользователями разом.

А почему бы не тестировать всего на одном пользователе?

Вы можете подумать, что 15 тестов с 1 пользователем будут лучше, чем 3 теста с 5 пользователями. И кривая действительно показывает, что мы узнаем гораздо больше от первого пользователя, чем от любых последующих за ним. Почему бы так и не тестировать?

На это есть две причины:

Всегда есть риски ложного поведения человека, который может выполнять действия случайно или же в нерепрезентативной манере. В то же время достаточно даже трех пользователей, чтобы получить представление о разнообразии поведения пользователей и для понимания того, что уникально, а что можно обобщить.
Анализ затрат и результатов тестирования пользователями обеспечивает оптимальное соотношение 3-5 пользователей в зависимости от стиля тестирования. Всегда существует фиксированная стоимость планирования и запуска теста. Лучше её оптимизировать за счет тестирования на нескольких пользователях.

Когда тестировать на большем количестве пользователей

Больше людей вам потребуется тогда, когда у сайта есть несколько различающихся групп пользователей. Излагаемая здесь формула действует только в отношении пользователей, которые действуют на сайте схожим образом.

Например, у вас есть сайт, который одновременно используют дети и взрослые. Это две группы пользователей, у которых существенно отличается поведение. Значит нужно набирать две разные группы пользователей для теста. Тот же подход будет справедлив, если у вас сайт одновременно предназначен для продавцов и покупателей.

Хотя даже если группы пользователей будут очень разные, у них всё равно будет наблюдаться большое сходство в поведении. В конечном итоге все мы люди. Также, многие проблемы юзабилити связаны с тем, как люди вообще в принципе пользуются интернетом. Это влияет на поведение при пользовании любым сайтом.

При тестировании нескольких групп разных пользователей, вам не нужно включать максимальное количество людей в каждую группу. Перекрытие между наблюдениями обеспечит и меньшее количество людей. Я рекомендую:

3-4 пользователя на группу, если тестируем две группы пользователей
3 пользователя из каждой категории, если тестируем три и более групп пользователей (всегда нужно минимум три человека в группе, чтобы перекрыть всё разнообразие поведения внутри этой группы)