ChatPaper.aiChatPaper

Penser Visuellement, Raisonner Textuellement : La Synergie Vision-Langage dans l'ARC

Think Visually, Reason Textually: Vision-Language Synergy in ARC

November 19, 2025
papers.authors: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI

papers.abstract

Le raisonnement abstrait à partir d'exemples minimaux demeure un problème fondamental non résolu pour les modèles de fondation de pointe tels que GPT-5 et Grok 4. Ces modèles échouent encore à inférer des règles de transformation structurées à partir de quelques exemples, ce qui constitue une caractéristique essentielle de l'intelligence humaine. Le *Abstraction and Reasoning Corpus for Artificial General Intelligence* (ARC-AGI) fournit un banc d'essai rigoureux pour cette capacité, exigeant l'induction de règles conceptuelles et leur transfert à de nouvelles tâches. La plupart des méthodes existantes traitent l'ARC-AGI comme une tâche de raisonnement purement textuelle, négligeant le fait que les humains s'appuient fortement sur l'abstraction visuelle pour résoudre de tels puzzles. Cependant, nos expériences préliminaires révèlent un paradoxe : une représentation naïve des grilles ARC-AGI sous forme d'images dégrade les performances en raison d'une exécution imprécise des règles. Cela conduit à notre hypothèse centrale que la vision et le langage possèdent des forces complémentaires à travers différentes étapes du raisonnement : la vision soutient l'abstraction globale des motifs et la vérification, tandis que le langage excelle dans la formulation symbolique des règles et leur exécution précise. En nous appuyant sur cette intuition, nous introduisons deux stratégies synergiques : (1) le *Vision-Language Synergy Reasoning* (VLSR), qui décompose l'ARC-AGI en sous-tâches alignées sur les modalités ; et (2) l'*Modality-Switch Self-Correction* (MSSC), qui utilise la vision pour vérifier le raisonnement textuel afin d'assurer une correction intrinsèque des erreurs. Des expériences approfondies démontrent que notre approche permet une amélioration allant jusqu'à 4,33 % par rapport aux modèles de base uniquement textuels, et ce sur divers modèles phares et plusieurs tâches ARC-AGI. Nos résultats suggèrent qu'unifier l'abstraction visuelle avec le raisonnement linguistique est une étape cruciale pour parvenir à une intelligence généralisable, semblable à celle des humains, dans les futurs modèles de fondation. Le code source sera bientôt publié.
English
Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.
PDF82December 1, 2025