Pensare Visivamente, Ragionare Testualmente: Sinergia Visione-Linguaggio nell'ARC
Think Visually, Reason Textually: Vision-Language Synergy in ARC
November 19, 2025
Autori: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
Il ragionamento astratto a partire da esempi minimi rimane un problema centrale irrisolto per i modelli fondazionali all'avanguardia come GPT-5 e Grok 4. Questi modelli falliscono ancora nell'inferire regole di trasformazione strutturate da una manciata di esempi, un tratto distintivo dell'intelligenza umana. L'Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) fornisce un banco di prova rigoroso per questa capacità, richiedendo l'induzione di regole concettuali e il loro trasferimento a compiti nuovi. La maggior parte dei metodi esistenti tratta l'ARC-AGI come un compito di ragionamento puramente testuale, trascurando il fatto che gli esseri umani si affidano pesantemente all'astrazione visiva per risolvere tali rompicapi. Tuttavia, i nostri esperimenti pilota rivelano un paradosso: la semplice resa delle griglie ARC-AGI come immagini degrada le prestazioni a causa di un'esecuzione imprecisa delle regole. Ciò porta alla nostra ipotesi centrale: la visione e il linguaggio possiedono punti di forza complementari in diverse fasi del ragionamento. La visione supporta l'astrazione di pattern globali e la verifica, mentre il linguaggio è specializzato nella formulazione simbolica di regole e nella loro esecuzione precisa. Basandoci su questa intuizione, introduciamo due strategie sinergiche: (1) Vision-Language Synergy Reasoning (VLSR), che scompone l'ARC-AGI in sottocompiti allineati alle modalità; e (2) Modality-Switch Self-Correction (MSSC), che sfrutta la visione per verificare il ragionamento basato sul testo e correggere gli errori intrinsecamente. Esperimenti estensivi dimostrano che il nostro approccio produce un miglioramento fino al 4,33% rispetto ai baseline puramente testuali su vari modelli di punta e su più compiti ARC-AGI. I nostri risultati suggeriscono che unificare l'astrazione visiva con il ragionamento linguistico è un passo cruciale verso il raggiungimento di un'intelligenza generalizzata e simile a quella umana nei futuri modelli fondazionali. Il codice sorgente sarà rilasciato a breve.
English
Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.