В 2011 году 270 ученых собрались повторить 100 экспериментов из статей, опубликованных в трех ведущих психологических журналах. Дело было не в том, что эти статьи вызвали у них подозрение. Скорее наоборот — участники проекта Reproducibility Project: Psychology взялись проверять самые обычные статьи, к которым ни у кого не было никаких претензий. Больше чем в половине случаев эффекты, о которых сообщали исходные статьи, в повторных экспериментах не подтвердились (подробнее об этой истории — в материале «Не повторяется такое иногда»).
Брайан Нозек (Brian Nosek) с единомышленниками не ставили это в вину авторам статей. И не призывали журналы отозвать эти статьи. «Сколько проверенных нами эффектов верны? Ноль, — писали ученые в своем отчете. — Сколько проверенных нами эффектов ложны? Ноль». Проблемы, о которых они таким образом заявили, не свидетельствуют о том, что полученные результаты ошибочны — а только о том, что их сложно проверить на практике.
Оставив сообщество психологов размышлять о том, как так вышло, Нозек переключился на следующий проект. Вместе с коллегами он отобрал 53 самые популярные статьи по онкобиологии, которые вышли с 2010 по 2012 год. Но столкнулся с непредвиденными трудностями (о них наш блог «Не можем повторить»): в итоге, потратив шесть лет и миллион с лишним долларов, в свой отчет Reproducibility Project: Cancer Biology включил лишь 23.
Из 193 экспериментов, жалуются в ней Нозек с коллегами, проверить статистическую обработку результатов оказалось возможно только в четырех случаях — для всех остальных им попросту не хватило данных, приведенных в оригинальной работе. Исследователи запросили эти данные у авторов, но в 68 процентах случаев остались без ответа. Более того, ни один из 193 экспериментов не был описан достаточно подробно, чтобы его можно было воспроизвести, используя статью как инструкцию.
После того, как остальные эксперименты удалось запустить, оказалось, что в большинстве случаев протоколы исследования нужно менять — клетки и мыши вели себя не так, как описывалось в исходной статье. В итоге из 193 запланированных экспериментов (в одной статье бывает сразу несколько результатов, которые требуют проверки) удалось провести только 50.
Из тех 50 экспериментов, которые все-таки вышло довести до конца, не все принесли ожидаемые плоды. Из 158 эффектов, о которых шла речь в исходных статьях, оценить достоверность удалось лишь для 112. И они достоверно (то есть статистически значимо) воспроизвелись лишь в 46 процентах случаев.
How are different scientific fields in terms of replicability? Here are the correlations between original and replication study effect sizes:
-Psychology research (left): r = .56
-Cancer research (right): r = .47From https://t.co/l3ECagoP3a & https://t.co/OF6cTfklfd pic.twitter.com/V7EYNJDL6k— Jay Van Bavel (@jayvanbavel) December 7, 2021
Тем не менее, кое-что общее у психологии и онкологии, безусловно, есть. В переписке с N + 1 Нозек предполагает, что это «система вознаграждения за новые, позитивные, удивительные результаты в ущерб строгости, прозрачности и подробным описаниям». То есть истинный виновник — publication bias, склонность журналов принимать к публикации статьи, результаты которых выглядят интересными.