ChatPaper.aiChatPaper

Кривая прыжкового рассуждения? Отслеживание эволюции производительности рассуждения в моделях GPT-[n] и o-[n] на мультимодальных головоломках

The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles

February 3, 2025
Авторы: Vernon Y. H. Toh, Yew Ken Chia, Deepanway Ghosal, Soujanya Poria
cs.AI

Аннотация

Релизы o1 и o3 от OpenAI отмечают значительный парадигмальный сдвиг в области Больших Языковых Моделей в сторону продвинутых способностей к рассуждениям. Особенно o3 превзошел людей в новом решении проблем и усвоении навыков на Корпусе Абстракции и Рассуждений для Искусственного Общего Интеллекта (ARC-AGI). Однако этот бенчмарк ограничен символическими образцами, в то время как люди часто воспринимают и рассуждают о мультимодальных сценариях, включающих в себя и зрительные, и языковые данные. Таким образом, существует настоятельная необходимость исследовать продвинутые способности к рассуждениям в мультимодальных задачах. Для этого мы отслеживаем эволюцию моделей серии GPT-[n] и o-[n] на сложных мультимодальных головоломках, требующих тонкого визуального восприятия с абстрактным или алгоритмическим рассуждением. Превосходная производительность o1 достигается почти в 750 раз большими вычислительными затратами по сравнению с GPT-4o, вызывая опасения относительно его эффективности. Наши результаты показывают четкую тенденцию к улучшению способностей к рассуждениям на протяжении итераций моделей, с заметными скачками производительности среди моделей серии GPT и впоследствии к o1. Тем не менее мы замечаем, что модель o1 все еще испытывает трудности с простыми мультимодальными головоломками, требующими абстрактного рассуждения. Более того, ее производительность в алгоритмических головоломках остается низкой. Мы планируем непрерывно отслеживать новые модели в серии и обновлять наши результаты в данной статье. Все ресурсы, использованные в этой оценке, доступны по ссылке https://github.com/declare-lab/LLM-PuzzleTest.
English
The releases of OpenAI's o1 and o3 mark a significant paradigm shift in Large Language Models towards advanced reasoning capabilities. Notably, o3 outperformed humans in novel problem-solving and skill acquisition on the Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI). However, this benchmark is limited to symbolic patterns, whereas humans often perceive and reason about multimodal scenarios involving both vision and language data. Thus, there is an urgent need to investigate advanced reasoning capabilities in multimodal tasks. To this end, we track the evolution of the GPT-[n] and o-[n] series models on challenging multimodal puzzles, requiring fine-grained visual perception with abstract or algorithmic reasoning. The superior performance of o1 comes at nearly 750 times the computational cost of GPT-4o, raising concerns about its efficiency. Our results reveal a clear upward trend in reasoning capabilities across model iterations, with notable performance jumps across GPT-series models and subsequently to o1. Nonetheless, we observe that the o1 model still struggles with simple multimodal puzzles requiring abstract reasoning. Furthermore, its performance in algorithmic puzzles remains poor. We plan to continuously track new models in the series and update our results in this paper accordingly. All resources used in this evaluation are openly available https://github.com/declare-lab/LLM-PuzzleTest.

Summary

AI-Generated Summary

PDF142February 4, 2025