ChatPaper.aiChatPaper

SeeingEye: Агентный поток информации раскрывает возможности мультимодальных рассуждений в текстовых LLM

SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs

October 29, 2025
Авторы: Weijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You
cs.AI

Аннотация

Последние достижения в области больших языковых моделей (LLM), работающих только с текстом, таких как DeepSeek-R1, демонстрируют впечатляющие способности к рассуждению. Однако эти модели остаются уязвимыми или полностью неспособными при переходе к многомодальным задачам. Существующие подходы в значительной степени опираются на описания единого формата, которым не хватает разнообразия и которые часто не могут адаптироваться к различным типам бенчмарков визуального вопросно-ответного взаимодействия (VQA). Как следствие, они не предоставляют принципиального или эффективного канала для передачи детализированной визуальной информации. Мы представляем Seeing Eye, модульную структуру, которая раскрывает способность к многомодальному рассуждению у текстовых LLM с помощью агентского малого VLM-транслятора. Этот транслятор действует как агент восприятия: он может вызывать специализированные инструменты (например, OCR и обрезку) и итеративно преобразовывать многомодальные входные данные в структурированные промежуточные представления (SIR), адаптированные под вопрос. Эти SIR затем передаются текстовой LLM, которая выступает в роли агента рассуждения. Ключевым моментом является то, что транслятор и модуль рассуждений участвуют в многократном обмене обратной связью и взаимодействии, что позволяет извлекать целевые визуальные детали и получать более уверенные ответы. Эксперименты на бенчмарках VQA, требующих обширных знаний, включая MMMU и MIA-Bench, показывают, что Seeing Eye не только снижает стоимость вывода, но и превосходит гораздо более крупные сквозные VLM. Например, реализация, сочетающая 3B-параметрический визуальный транслятор с 8B-параметрическим языковым модулем рассуждений, превосходит монолитную 32B VLM на сложных вопросах, основанных на знаниях. Наши результаты подчеркивают, что разделение восприятия и рассуждений посредством агентского потока информации предлагает масштабируемый и plug-and-play путь к многомодальным рассуждениям, позволяя мощным текстовым LLM полностью раскрыть свои способности к логическому выводу. Код доступен по адресу: https://github.com/ulab-uiuc/SeeingEye
English
Recent advances in text-only large language models (LLMs), such as DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models remain fragile or entirely incapable when extended to multi-modal tasks. Existing approaches largely rely on single-form captions, which lack diversity and often fail to adapt across different types of Visual Question Answering (VQA) benchmarks. As a result, they provide no principled or efficient channel for transmitting fine-grained visual information. We introduce Seeing Eye, a modular framework that unlocks multimodal reasoning in text-only LLMs through an agent-based small VLM translator. This translator acts as a perception agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively distill multimodal inputs into structured intermediate representations (SIRs) tailored to the question. These SIRs are then passed to the text-only LLM, which serves as a reasoning agent. Crucially, the translator and reasoner engage in multi-round feedback and interaction, enabling the extraction of targeted visual details and yielding more confident answers. Experiments on knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate that Seeing Eye not only reduces inference cost but also surpasses much larger end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision translator with an 8B-parameter language reasoner outperforms a monolithic 32B VLM on challenging knowledge-based questions. Our results highlight that decoupling perception from reasoning via agent information flow offers a scalable and plug-and-play pathway to multimodal reasoning, allowing strong text-only LLMs to fully leverage their reasoning capabilities. Code is available at: https://github.com/ulab-uiuc/SeeingEye
PDF71December 2, 2025