ChatPaper.aiChatPaper

Visuell denken, textuell schlussfolgern: Die Synergie von Vision und Sprache bei ARC

Think Visually, Reason Textually: Vision-Language Synergy in ARC

November 19, 2025
papers.authors: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI

papers.abstract

Abstraktes Schlussfolgern aus minimalen Beispielen bleibt ein zentrales ungelöstes Problem für fortschrittliche Foundation-Modelle wie GPT-5 und Grok 4. Diese Modelle scheitern nach wie vor daran, strukturierte Transformationsregeln aus einer Handvoll Beispiele abzuleiten – eine wesentliche Charakteristik menschlicher Intelligenz. Das Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) bietet eine rigorose Testplattform für diese Fähigkeit, da es konzeptuelle Regelfindung und Transfer auf neue Aufgaben erfordert. Die meisten bestehenden Methoden behandeln ARC-AGI als rein textbasiertes Reasoning-Problem und übersehen dabei, dass Menschen beim Lösen solcher Rätsel stark auf visuelle Abstraktion angewiesen sind. Unsere Pilotexperimente offenbaren jedoch ein Paradoxon: Das naive Darstellen von ARC-AGI-Gittern als Bilder verschlechtert die Leistung aufgrund unpräziser Regelausführung. Dies führt zu unserer zentralen Hypothese, dass Vision und Sprache komplementäre Stärken in verschiedenen Reasoning-Phasen besitzen: Vision unterstützt globale Musterabstraktion und Verifikation, während Sprache sich auf symbolische Regelformulierung und präzise Ausführung spezialisiert. Auf dieser Erkenntnis aufbauend führen wir zwei synergetische Strategien ein: (1) Vision-Language Synergy Reasoning (VLSR), das ARC-AGI in modalitätsbezogene Teilaufgaben zerlegt; und (2) Modality-Switch Self-Correction (MSSC), die Vision nutzt, um textbasiertes Reasoning zur intrinsischen Fehlerkorrektur zu verifizieren. Umfangreiche Experimente zeigen, dass unser Ansatz eine Verbesserung von bis zu 4,33 % gegenüber rein textbasierten Baseline-Modellen über verschiedene Flaggschiff-Modelle und multiple ARC-AGI-Aufgaben hinweg erzielt. Unsere Ergebnisse legen nahe, dass die Vereinigung visueller Abstraktion mit linguistischem Reasoning ein entscheidender Schritt ist, um generalisierbare, menschenähnliche Intelligenz in zukünftigen Foundation-Modellen zu erreichen. Der Quellcode wird in Kürze veröffentlicht.
English
Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.
PDF82December 1, 2025