Кривая прыжкового рассуждения? Отслеживание эволюции производительности рассуждения в моделях GPT-[n] и o-[n] на мультимодальных головоломках
The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles
February 3, 2025
Авторы: Vernon Y. H. Toh, Yew Ken Chia, Deepanway Ghosal, Soujanya Poria
cs.AI
Аннотация
Релизы o1 и o3 от OpenAI отмечают значительный парадигмальный сдвиг в области Больших Языковых Моделей в сторону продвинутых способностей к рассуждениям. Особенно o3 превзошел людей в новом решении проблем и усвоении навыков на Корпусе Абстракции и Рассуждений для Искусственного Общего Интеллекта (ARC-AGI). Однако этот бенчмарк ограничен символическими образцами, в то время как люди часто воспринимают и рассуждают о мультимодальных сценариях, включающих в себя и зрительные, и языковые данные. Таким образом, существует настоятельная необходимость исследовать продвинутые способности к рассуждениям в мультимодальных задачах. Для этого мы отслеживаем эволюцию моделей серии GPT-[n] и o-[n] на сложных мультимодальных головоломках, требующих тонкого визуального восприятия с абстрактным или алгоритмическим рассуждением. Превосходная производительность o1 достигается почти в 750 раз большими вычислительными затратами по сравнению с GPT-4o, вызывая опасения относительно его эффективности. Наши результаты показывают четкую тенденцию к улучшению способностей к рассуждениям на протяжении итераций моделей, с заметными скачками производительности среди моделей серии GPT и впоследствии к o1. Тем не менее мы замечаем, что модель o1 все еще испытывает трудности с простыми мультимодальными головоломками, требующими абстрактного рассуждения. Более того, ее производительность в алгоритмических головоломках остается низкой. Мы планируем непрерывно отслеживать новые модели в серии и обновлять наши результаты в данной статье. Все ресурсы, использованные в этой оценке, доступны по ссылке https://github.com/declare-lab/LLM-PuzzleTest.
English
The releases of OpenAI's o1 and o3 mark a significant paradigm shift in Large
Language Models towards advanced reasoning capabilities. Notably, o3
outperformed humans in novel problem-solving and skill acquisition on the
Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI).
However, this benchmark is limited to symbolic patterns, whereas humans often
perceive and reason about multimodal scenarios involving both vision and
language data. Thus, there is an urgent need to investigate advanced reasoning
capabilities in multimodal tasks. To this end, we track the evolution of the
GPT-[n] and o-[n] series models on challenging multimodal puzzles, requiring
fine-grained visual perception with abstract or algorithmic reasoning. The
superior performance of o1 comes at nearly 750 times the computational cost of
GPT-4o, raising concerns about its efficiency. Our results reveal a clear
upward trend in reasoning capabilities across model iterations, with notable
performance jumps across GPT-series models and subsequently to o1. Nonetheless,
we observe that the o1 model still struggles with simple multimodal puzzles
requiring abstract reasoning. Furthermore, its performance in algorithmic
puzzles remains poor. We plan to continuously track new models in the series
and update our results in this paper accordingly. All resources used in this
evaluation are openly available https://github.com/declare-lab/LLM-PuzzleTest.Summary
AI-Generated Summary