Думать визуально, рассуждать текстуально: синергия зрения и языка в ARC
Think Visually, Reason Textually: Vision-Language Synergy in ARC
November 19, 2025
Авторы: Beichen Zhang, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang
cs.AI
Аннотация
Абстрактные рассуждения на основе минимальных примеров остаются нерешенной проблемой для передовых фундаментальных моделей, таких как GPT-5 и Grok 4. Эти модели по-прежнему не способны выводить структурированные правила преобразования из небольшого количества примеров, что является ключевой чертой человеческого интеллекта. Корпус абстракций и рассуждений для искусственного общего интеллекта (ARC-AGI) предоставляет строгий полигон для проверки этой способности, требуя индукции концептуальных правил и их переноса на новые задачи. Большинство существующих методов рассматривают ARC-AGI как чисто текстовую задачу, упуская из виду тот факт, что люди в значительной степени полагаются на визуальную абстракцию при решении подобных головоломок. Однако наши пилотные эксперименты выявили парадокс: наивное представление сеток ARC-AGI в виде изображений ухудшает производительность из-за неточного выполнения правил. Это приводит к нашей центральной гипотезе о том, что зрение и язык обладают комплементарными преимуществами на различных этапах рассуждений: зрение поддерживает глобальную абстракцию паттернов и верификацию, тогда как язык специализируется на формулировании символьных правил и их точном выполнении. Основываясь на этом инсайте, мы представляем две синергетические стратегии: (1) Синергетические рассуждения «зрение-язык» (VLSR), которые декомпозируют ARC-AGI на подзадачи, ориентированные на модальности; и (2) Самокоррекция с переключением модальностей (MSSC), которая использует зрение для проверки текстовых рассуждений с целью внутренней коррекции ошибок. Многочисленные эксперименты демонстрируют, что наш подход обеспечивает улучшение до 4,33% по сравнению с текстовыми базовыми уровнями на различных флагманских моделях и множественных задачах ARC-AGI. Наши результаты позволяют предположить, что объединение визуальной абстракции с лингвистическими рассуждениями является crucial шагом на пути к достижению обобщающего, человеко-подобного интеллекта в будущих фундаментальных моделях. Исходный код будет выпущен в ближайшее время.
English
Abstract reasoning from minimal examples remains a core unsolved problem for frontier foundation models such as GPT-5 and Grok 4. These models still fail to infer structured transformation rules from a handful of examples, which is a key hallmark of human intelligence. The Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI) provides a rigorous testbed for this capability, demanding conceptual rule induction and transfer to novel tasks. Most existing methods treat ARC-AGI as a purely textual reasoning task, overlooking the fact that humans rely heavily on visual abstraction when solving such puzzles. However, our pilot experiments reveal a paradox: naively rendering ARC-AGI grids as images degrades performance due to imprecise rule execution. This leads to our central hypothesis that vision and language possess complementary strengths across distinct reasoning stages: vision supports global pattern abstraction and verification, whereas language specializes in symbolic rule formulation and precise execution. Building on this insight, we introduce two synergistic strategies: (1) Vision-Language Synergy Reasoning (VLSR), which decomposes ARC-AGI into modality-aligned subtasks; and (2) Modality-Switch Self-Correction (MSSC), which leverages vision to verify text-based reasoning for intrinsic error correction. Extensive experiments demonstrate that our approach yields up to a 4.33% improvement over text-only baselines across diverse flagship models and multiple ARC-AGI tasks. Our findings suggest that unifying visual abstraction with linguistic reasoning is a crucial step toward achieving generalizable, human-like intelligence in future foundation models. Source code will be released soon.