Pensar Visualmente, Razonar Textualmente: La Sinergia Visión-Lenguaje en ARC
Think Visually, Reason Textually: Vision-Language Synergy in ARC
November 19, 2025
Autores: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
El razonamiento abstracto a partir de ejemplos mínimos sigue siendo un problema fundamental sin resolver para los modelos de base de vanguardia como GPT-5 y Grok 4. Estos modelos aún no logran inferir reglas de transformación estructuradas a partir de un puñado de ejemplos, lo cual es un sello distintivo clave de la inteligencia humana. El Corpus de Abstracción y Razonamiento para la Inteligencia Artificial General (ARC-AGI) proporciona un banco de pruebas riguroso para esta capacidad, exigiendo la inducción de reglas conceptuales y su transferencia a tareas novedosas. La mayoría de los métodos existentes tratan ARC-AGI como una tarea de razonamiento puramente textual, pasando por alto el hecho de que los humanos dependen en gran medida de la abstracción visual al resolver estos acertijos. Sin embargo, nuestros experimentos piloto revelan una paradoja: representar ingenuamente las cuadrículas de ARC-AGI como imágenes degrada el rendimiento debido a una ejecución de reglas imprecisa. Esto nos lleva a nuestra hipótesis central: la visión y el lenguaje poseen fortalezas complementarias en distintas etapas del razonamiento; la visión favorece la abstracción y verificación de patrones globales, mientras que el lenguaje se especializa en la formulación simbólica de reglas y su ejecución precisa. Partiendo de esta idea, introducimos dos estrategias sinérgicas: (1) Razonamiento por Sinergia Visión-Lenguaje (VLSR), que descompone ARC-AGI en subtareas alineadas por modalidad; y (2) Autocorrección por Cambio de Modalidad (MSSC), que aprovecha la visión para verificar el razonamiento basado en texto y realizar una corrección intrínseca de errores. Experimentos exhaustivos demuestran que nuestro enfoque produce una mejora de hasta el 4.33% respecto a los baselines que solo usan texto en diversos modelos emblemáticos y múltiples tareas de ARC-AGI. Nuestros hallazgos sugieren que unificar la abstracción visual con el razonamiento lingüístico es un paso crucial para lograr una inteligencia generalizable y similar a la humana en los futuros modelos de base. El código fuente será liberado próximamente.
English
Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.