18+

Азбука медицинской статистики. Глава II. Размер выборки, генеральная совокупность, статистическая гипотеза и p-value

Азбука медицинской статистики. Глава II. Размер выборки, генеральная совокупность, статистическая гипотеза и p-value

Азбука медицинской статистики. Глава II. Размер выборки, генеральная совокупность, статистическая гипотеза и p-value

фото_Константин-Кравчик.png""

Досье КС

Константин Кравчик

Математик-аналитик. Специалист в области статистических исследований в медицине и гуманитарных науках

Москва

Вне зависимости от целей любого клинического исследования, перед его началом необходимо рассчитать количество объектов для ­изучения.

Давайте представим, что мы изобрели лекарство, которое должно снижать уровень сахара в крови лучше, чем старые аналоги. Мы взяли 60 человек с гипергликемией около 10 ммоль/л. Разделили их на 2 группы по 30 человек. Первая группа принимала наш новый препарат, вторая принимала старый. После определенного периода лечения измерили среднее значение гликемии в каждой группе. В «нашей» группе, той, что принимала тестовый препарат, среднее значение (М) составило 5,5 ммоль/л, а в группе референтного препарата — 6,5 ммоль/л. Следовательно, наше лекарство полностью нормализовало сахар в крови пациентов, а вот референтное — нет. Вопрос в том, не случаен ли этот результат и получим ли мы такой же на выборке не из шестидесяти человек, а из десяти ­тысяч?

Основная характеристика любого эксперимента — это его воспроизводимость, т. е. разные исследователи должны получить близкие результаты. Также важно, чтобы полученные результаты могли распространяться на всю генеральную совокупность, т. е. совокупность всех объектов, в отношении которых исследователь хочет сделать какой‑то ­вывод.

В нашем случае генеральная совокупность — это больные сахарным диабетом. К сожалению, невозможно измерить какой‑либо признак у 230 млн человек, больных сахарным диабетом на планете. Поэтому ограничиваются отдельными представителями той или иной генеральной совокупности, эти группы и есть выборка. Можно было бы для точности провести исследование на ста разных выборках, но и это ­неудобно.

К счастью, есть способ вычислить вероятность того, что полученные результаты на 60 пациентах неслучайны и могут быть распространены на всю генеральную ­совокупность.

Важные определения

Для того чтобы продолжать разговор, мы должны познакомиться с важным понятием статистической гипотезы. Существуют 2 статистические ­гипотезы:

  1. Нулевая гипотеза (H0) — это утверждение, что нет различий между группами по интересующему нас параметру. В данном примере это уровень ­гликемии.
  2. Альтернативная гипотеза (H1) — утверждение, что такие различия ­есть.

Таким образом, наша задача c помощью различных статистических критериев — либо принять, либо отклонить нулевую гипотезу. При этом, отклоняя нулевую гипотезу, мы принимаем ­альтернативную.

Так как признак оценивают в ограниченном числе наблюдений, всегда остается вероятность того, что различия между группами могли быть получены случайно и в генеральной совокупности нет никаких различий. Эта вероятность выдается автоматически в статпакетах при расчете критериев различия (например, t-Стьюдента или Манна-Уитни) и называется она — p-value (р-уровень статистической ­значимости).

 Для справки  

В феврале 2015 года редакция журнала Basic and Applied Social Psychology (BASP) объявила, что не будет публиковать статьи, в которых применяли p-критерий для отвержения нулевой гипотезы, поскольку критерий часто использовался в исследованиях низкого качества. Редакторы издания уверены, что получить p < 0,05 совсем несложно, поэтому требуются иные способы понять ценность полученных результатов. Какие именно — редакторы пока не знают. Возможно, такая политика вновь поднимет значимость описательных работ.

p = 0,05 — расшифровывается так: вероятность того, что различия между группами случайны, составляет 5 %. Другими словами, если взять 100 выборок из этой же генеральной совокупности, то различия между группами будут в 95 из них. Уровень значимости p = 0,05 принят учеными во всём мире достаточным для того, чтобы различия были признаны достоверными. Таким образом, мы доверяем результатам работы критерия, только если его р меньше 0,05, а p = 0,01 или 0,001 это уже более высокая значимость различий, т. е. различия еще более ­неслучайны.

Итак, уровень статистической значимости р — это главный результат проверки статистической гипотезы. Если р-уровень значимости меньше 0,05, то мы отклоняем нулевую гипотезу о том, что нет различий по изучаемым параметрам в генеральной совокупности, и принимаем альтернативную гипотезу, т. е. такие различия есть и они ­неслучайны.

В исследовательской работе есть еще и другая проблема: вероятность НЕ найти различий там, где они на самом деле есть. Это может произойти, если снизить пограничное значение p с 0,05 до p = 0,01 или ­меньше.

Сколько ­испытуемых?

Объем выборки также влияет на уровень статистической значимости. Если взять слишком много народу, можно найти несуществующие различия, а если слишком мало — то «не заметить» имеющиеся. Для расчета выборки используют анализ мощности. Основная задача этого метода — рассчитать, сколько нужно взять человек в исследование, чтобы подтвердить или отклонить нулевую гипотезу. Но что такое мощность, она в Ваттах измеряется? Нет! В статистике мощность — это способность статистического критерия отклонять нулевую гипотезу, когда она ­неверна.

Чем больше мощность, тем больше выборки нам будет нужно. Собственно, именно анализ мощности (power analysis) позволяет рассчитать, какую нам взять ­выборку.

Расчет выборки достаточно сложный процесс, но если вам предстоит это делать, то вы его освоите. Принцип таков: изучить аналогичные исследования, почерпнуть из них средние и стандартные отклонения в группах или же доли пациентов с ремиссией (в зависимости от типа исследования) и подставить эти данные в специальные формулы. К счастью, современные программы и онлайн-калькуляторы техническую часть выполняют за исследователей: остается только принять результат и подыскивать испытуемых. Выборка может быть как маленькой — 30–40 человек, так и большой — до 350 человек, и зависит это от данных, которые были найдены и подставлены в ­формулы.

При чтении клинического исследования важно обратить ­внимание:

  • рассчитали ли ученые размер выборки на этапе планирования или нет. Если это не оговаривается, а выборка невелика, то, вероятно, лучше ориентироваться на другие, более масштабные ­исследования;
  • какой они выбрали уровень значимости для отклонения нулевой гипотезы (ошибка первого рода); важно, чтобы он был не более 0,05, или 5 %;
  • какая была взята мощность (ошибка второго рода). Лучше, чтобы не менее 0,8, или 80 %. Хотя готовьтесь к тому, что порой мощность не ­пишут.

Итак, теперь вы знаете ответ на сакральный вопрос: какой должна быть выборка — побольше или поменьше? Правильно, выборки должно быть достаточно, чтобы отклонить нулевую статистическую гипотезу и принять альтернативную. В следующей главе медицинской статистики мы обсудим адекватные способы сравнения групп ­испытуемых.

14232 просмотров

Поделиться ссылкой с друзьями ВКонтакте Одноклассники

Нашли ошибку? Выделите текст и нажмите Ctrl+Enter.