ChatPaper.aiChatPaper

ジャンピング推論曲線?GPT-[n]およびo-[n]モデルにおける多様なパズルでの推論性能の進化を追跡する

The Jumping Reasoning Curve? Tracking the Evolution of Reasoning Performance in GPT-[n] and o-[n] Models on Multimodal Puzzles

February 3, 2025
著者: Vernon Y. H. Toh, Yew Ken Chia, Deepanway Ghosal, Soujanya Poria
cs.AI

要旨

OpenAIのo1およびo3のリリースは、大規模言語モデルにおける高度な推論能力への重要なパラダイムシフトを示しています。特に、o3は人間を上回り、人工汎用知能(ARC-AGI)の抽象化と推論コーパスにおいて、新しい問題解決やスキル獲得において優れた成績を収めました。しかしながら、このベンチマークは象徴的なパターンに限定されており、一方で人間はしばしばビジョンと言語データの両方を含む多様なシナリオについて知覚し推論します。したがって、多様なタスクにおける高度な推論能力を調査する緊急性があります。このため、私たちはGPT-[n]およびo-[n]シリーズモデルの進化を追跡し、視覚的知覚と抽象的またはアルゴリズミックな推論が必要な難解な多様なパズルでの性能を検証します。o1の優れた性能は、GPT-4oの計算コストの約750倍に及び、その効率性について懸念が呈されています。私たちの結果は、モデルの反復を通じて推論能力に明確な上昇傾向があり、GPTシリーズモデルからo1への顕著な性能向上が見られます。しかしながら、o1モデルは依然として抽象的推論を必要とする単純な多様なパズルに苦戦していることが観察されます。さらに、アルゴリズミックなパズルにおける性能は依然として低いです。私たちは、このシリーズの新しいモデルを継続的に追跡し、本論文で結果を適宜更新する予定です。この評価で使用されたすべてのリソースは https://github.com/declare-lab/LLM-PuzzleTest で公開されています。
English
The releases of OpenAI's o1 and o3 mark a significant paradigm shift in Large Language Models towards advanced reasoning capabilities. Notably, o3 outperformed humans in novel problem-solving and skill acquisition on the Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI). However, this benchmark is limited to symbolic patterns, whereas humans often perceive and reason about multimodal scenarios involving both vision and language data. Thus, there is an urgent need to investigate advanced reasoning capabilities in multimodal tasks. To this end, we track the evolution of the GPT-[n] and o-[n] series models on challenging multimodal puzzles, requiring fine-grained visual perception with abstract or algorithmic reasoning. The superior performance of o1 comes at nearly 750 times the computational cost of GPT-4o, raising concerns about its efficiency. Our results reveal a clear upward trend in reasoning capabilities across model iterations, with notable performance jumps across GPT-series models and subsequently to o1. Nonetheless, we observe that the o1 model still struggles with simple multimodal puzzles requiring abstract reasoning. Furthermore, its performance in algorithmic puzzles remains poor. We plan to continuously track new models in the series and update our results in this paper accordingly. All resources used in this evaluation are openly available https://github.com/declare-lab/LLM-PuzzleTest.

Summary

AI-Generated Summary

PDF142February 4, 2025