
Исследование, проведённое сотрудниками Apple, показывает, что способность языковых моделей “искусственного интеллекта” к имитации мышления стремительно исчезают, как только задачи становятся по-настоящему сложными. Несмотря на название “Large Reasoning Models” (LRM) — крупные рассуждающие модели оказались неспособными к планированию и обобщению. это описано в работе под названием “Иллюзия мышления: понимание сильных и слабых сторон моделей рассуждения через призму сложности задач”.
Вместо стандартных тестов, дискредитированных из-за утечки их данных в обучающие датасеты с целью откровенного обмана контроллёров, команда предложила набор головоломок с контролируемым уровнем сложности.
Тестирование охватывало модели от ведущих лабораторий: OpenAI (o1/o3), DeepSeek-R1, Claude 3.7 Sonnet Thinking и Gemini Thinking. Все они демонстрировали некий уровень успеха на простых и умеренно сложных задачах, но по мере роста числа необходимых шагов их способности буквально рушились. За сложным рубежом эффективность моделей обрушивалась почти до нуля. Это касалось и продвинутых LRM с встроенными механизмами саморефлексии, натренированными с помощью обучения с подкреплением.
При этом парадокс заключался в том, что LRM справлялись хуже, чем обычные большие языковые модели на простых задачах. Вместо того чтобы остановиться на найденном решении, они продолжали искать дальше, расходуя ресурсы на ненужные вычисления.
Главный вывод исследователей не открывают путь к настоящему машинному мышлению. Механизмы, вроде цепочек размышлений (Chain of Thought), не дают ожидаемого эффекта за пределами простых сценариев. По сути, всё сводится к перебору ответов разных авторов в подавляющем большинстве ложных.
Авторы подчёркивают, что несмотря на видимую продвинутость, современные рассуждающие модели не приобретают навыков универсального решения задач.