시각적으로 생각하고 텍스트로 추론하기: ARC에서의 비전-언어 시너지
Think Visually, Reason Textually: Vision-Language Synergy in ARC
November 19, 2025
저자: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
초록
최소 예시만을 통한 추상적 추론은 GPT-5 및 Grok 4와 같은 최첨단 파운데이션 모델들에게 여전히 해결되지 않은 핵심 과제로 남아 있습니다. 이러한 모델들은 소수의 예시로부터 구조화된 변환 규칙을 추론하는 데 실패하는데, 이는 인간 지능의 핵심적 특징입니다. 인공 일반 지능을 위한 추상 및 추론 코퍼스(ARC-AGI)는 이러한 능력을 평가하는 엄격한 테스트베드로, 개념적 규칙 귀납과 새로운 과제로의 전이를 요구합니다. 기존 대부분의 방법은 ARC-AGI를 순수하게 텍스트 기반 추론 과제로 취급하여, 인간이 이러한 퍼즐을 해결할 때 시각적 추상화에 크게 의존한다는 사실을 간과했습니다. 그러나 우리의 파일럿 실험은 역설을 드러냈습니다: ARC-AGI 그리드를 단순히 이미지로 변환할 경우 부정확한 규칙 실행으로 인해 성능이 저하됩니다. 이로부터 우리는 시각과 언어가 서로 다른 추론 단계에서 상호 보완적 강점을 지닌다는 핵심 가설을 도출했습니다: 시각은 전역적 패턴 추상화와 검증을 지원하는 반면, 언어는 기호적 규칙 공식화와 정확한 실행에 특화되어 있습니다. 이러한 통찰을 바탕으로 우리는 두 가지 상승 효과 전략을 제안합니다: (1) ARC-AGI를 모달리티에 맞춰 하위 과제로 분해하는 시각-언어 시너지 추론(VLSR)과 (2) 시각을 활용하여 텍스트 기반 추론을 검증하여 내재적 오류 수정을 가능하게 하는 모달리티 전환 자기 수정(MSSC). 광범위한 실험을 통해 우리의 접근 방식이 다양한 주요 모델과 여러 ARC-AGI 과제에서 텍스트 전용 기준선 대비 최대 4.33%의 성능 향상을 가져옴을 입증했습니다. 우리의 연구 결과는 시각적 추상화와 언어적 추론의 통합이 미래 파운데이션 모델에서 일반화 가능한 인간 수준의 지능을 달성하기 위한 중요한 단계임을 시사합니다. 소스 코드는 곧 공개될 예정입니다.
English
Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.