視覚的に思考し、言語的に推論する:ARCにおける視覚と言語の相乗効果
Think Visually, Reason Textually: Vision-Language Synergy in ARC
November 19, 2025
著者: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
要旨
少数の事例からの抽象的推論は、GPT-5やGrok 4のような最先端基盤モデルにおいて未解決の中核的課題である。これらのモデルは依然として、数少ない事例から構造化された変換規則を推論することができず、これは人間の知性の重要な特徴の一つである。人工汎用知能のための抽象推論コーパス(ARC-AGI)は、この能力に対する厳格なテストベッドを提供し、概念的規則帰納と新規タスクへの転移を要求する。既存手法の多くはARC-AGIを純粋にテキストベースの推論タスクとして扱っているが、人間がこの種の課題を解く際に視覚的抽象化に強く依存している事実を見過ごしている。しかし我々の予備実験は、逆説的に、ARC-AGIグリッドを単純に画像としてレンダリングすると、不正確な規則実行により性能が低下することを明らかにした。このことから、視覚と言語は異なる推論段階において相補的な強みを持つという中心仮説が導かれる:視覚は大域的なパターン抽象化と検証を支援し、言語は記号的規則の定式化と精密な実行に特化している。この知見に基づき、我々は二つの相乗的戦略を提案する:(1) 視覚-言語相乗推論(VLSR):ARC-AGIをモダリティに沿ったサブタスクに分解する。(2) モダリティ切替自己補正(MSSC):視覚を利用してテキストベースの推論を検証し、内在的誤り補正を実現する。大規模な実験により、本手法が多様な基盤モデル及び複数のARC-AGIタスクにおいて、テキストのみのベースラインに対し最大4.33%の改善をもたらすことを実証した。我々の発見は、視覚的抽象化と言語的推論を統合することが、将来の基盤モデルにおいて一般化可能な人間的な知性を実現する上で重要な段階であることを示唆する。ソースコードは近日公開予定である。
English
Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.