Denk Visueel, Redeneer Tekstueel: Synergie tussen Visie en Taal in ARC
Think Visually, Reason Textually: Vision-Language Synergy in ARC
November 19, 2025
Auteurs: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Abstract redeneren op basis van minimale voorbeelden blijft een onopgelost kernprobleem voor grensverleggende foundation-modellen zoals GPT-5 en Grok 4. Deze modellen slagen er nog steeds niet in om gestructureerde transformatieregels af te leiden uit een handvol voorbeelden, een kenmerkende eigenschap van menselijke intelligentie. Het Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) biedt een rigoureuze testomgeving voor deze capaciteit, waarbij conceptuele regelinductie en transfer naar nieuwe taken vereist zijn. De meeste bestaande methoden behandelen ARC-AGI als een puur tekstueel redeneerprobleem, waarbij over het hoofd wordt gezien dat mensen bij het oplossen van dergelijke puzzels sterk leunen op visuele abstractie. Onze pilootexperimenten onthullen echter een paradox: het naïef weergeven van ARC-AGI-roosters als afbeeldingen leidt tot prestatievermindering door onnauwkeurige regeluitvoering. Dit leidt tot onze centrale hypothese dat visie en taal complementaire sterke punten hebben in verschillende redeneerfasen: visie ondersteunt globale patroonabstractie en verificatie, terwijl taal gespecialiseerd is in symbolische regelformulering en precieze uitvoering. Voortbouwend op dit inzicht introduceren we twee synergetische strategieën: (1) Vision-Language Synergy Reasoning (VLSR), dat ARC-AGI opsplitst in modaliteit-afgestemde sub-taken; en (2) Modality-Switch Self-Correction (MSSC), dat visie gebruikt om tekstgebaseerd redeneren te verifiëren voor intrinsieke foutcorrectie. Uitgebreide experimenten tonen aan dat onze aanpak een verbetering tot 4,33% oplevert ten opzichte van uitsluitend tekstgebaseerde basislijnen, over diverse flagship-modellen en meerdere ARC-AGI-taken. Onze bevindingen suggereren dat het verenigen van visuele abstractie met linguïstisch redeneren een cruciale stap is naar het bereiken van generaliseerbare, mensachtige intelligentie in toekomstige foundation-modellen. De broncode zal binnenkort worden vrijgegeven.
English
Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.