Pense Visualmente, Raciocine Textualmente: A Sinergia Visão-Linguagem no ARC

Resumo

A inferência abstrata a partir de exemplos mínimos continua sendo um problema central não resolvido para modelos de base de vanguarda, como GPT-5 e Grok 4. Esses modelos ainda falham em inferir regras de transformação estruturadas a partir de um punhado de exemplos, o que é uma característica fundamental da inteligência humana. O *Abstraction and Reasoning Corpus for Artificial General Intelligence* (ARC-AGI) fornece um ambiente de teste rigoroso para essa capacidade, exigindo indução conceitual de regras e transferência para tarefas novas. A maioria dos métodos existentes trata o ARC-AGI como uma tarefa de raciocínio puramente textual, ignorando o fato de que os humanos dependem fortemente da abstração visual ao resolver esses quebra-cabeças. No entanto, nossos experimentos piloto revelam um paradoxo: a renderização ingênua das grades do ARC-AGI como imagens degrada o desempenho devido à execução imprecisa de regras. Isso leva à nossa hipótese central de que a visão e a linguagem possuem pontos fortes complementares em diferentes estágios do raciocínio: a visão suporta a abstração e verificação de padrões globais, enquanto a linguagem se especializa na formulação simbólica de regras e na execução precisa. Com base nessa percepção, introduzimos duas estratégias sinérgicas: (1) *Vision-Language Synergy Reasoning* (VLSR), que decompõe o ARC-AGI em subtarefas alinhadas por modalidade; e (2) *Modality-Switch Self-Correction* (MSSC), que aproveita a visão para verificar o raciocínio baseado em texto para correção intrínseca de erros. Experimentos extensivos demonstram que nossa abordagem produz uma melhoria de até 4,33% em relação às linhas de base apenas de texto em diversos modelos emblemáticos e em múltiplas tarefas do ARC-AGI. Nossos achados sugerem que unificar a abstração visual com o raciocínio linguístico é um passo crucial para alcançar uma inteligência generalizável e semelhante à humana nos futuros modelos de base. O código-fonte será divulgado em breve.

English

Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.

Pense Visualmente, Raciocine Textualmente: A Sinergia Visão-Linguagem no ARC

Think Visually, Reason Textually: Vision-Language Synergy in ARC

Resumo

Support