ChatPaper.aiChatPaper

SeeingEye: O Fluxo de Informação Agente Desbloqueia o Raciocínio Multimodal em LLMs Exclusivamente Textuais

SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs

October 29, 2025
Autores: Weijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You
cs.AI

Resumo

Avanços recentes em modelos de linguagem grandes (LLMs) baseados apenas em texto, como o DeepSeek-R1, demonstram uma capacidade de raciocínio notável. No entanto, esses modelos permanecem frágeis ou completamente incapazes quando estendidos para tarefas multimodais. As abordagens existentes dependem amplamente de legendas de formato único, que carecem de diversidade e frequentemente falham em se adaptar a diferentes tipos de benchmarks de Resposta Visual a Perguntas (VQA). Consequentemente, elas não fornecem um canal eficiente ou fundamentado para transmitir informações visuais refinadas. Apresentamos o Seeing Eye, uma estrutura modular que desbloqueia o raciocínio multimodal em LLMs de texto puro por meio de um tradutor VLM pequeno baseado em agente. Este tradutor atua como um agente de percepção: ele pode invocar ferramentas especializadas (por exemplo, OCR e recorte) e destilar iterativamente entradas multimodais em representações intermediárias estruturadas (SIRs) adaptadas à pergunta. Essas SIRs são então passadas para o LLM de texto puro, que atua como um agente de raciocínio. Crucialmente, o tradutor e o raciocinador envolvem-se em feedback e interação multi-turnos, permitindo a extração de detalhes visuais específicos e resultando em respostas mais confiantes. Experimentos em benchmarks de VQA com grande carga de conhecimento, incluindo MMMU e MIA-Bench, demonstram que o Seeing Eye não apenas reduz o custo de inferência, mas também supera VLMs monolíticos muito maiores. Por exemplo, uma instanciação que combina um tradutor visual de 3B de parâmetros com um raciocinador linguístico de 8B de parâmetros supera um VLM monolítico de 32B em perguntas desafiadoras baseadas em conhecimento. Nossos resultados destacam que desacoplar a percepção do raciocínio por meio de um fluxo de informação baseado em agentes oferece um caminho escalável e "plug-and-play" para o raciocínio multimodal, permitindo que LLMs de texto puro fortes aproveitem plenamente suas capacidades de raciocínio. O código está disponível em: https://github.com/ulab-uiuc/SeeingEye
English
Recent advances in text-only large language models (LLMs), such as DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models remain fragile or entirely incapable when extended to multi-modal tasks. Existing approaches largely rely on single-form captions, which lack diversity and often fail to adapt across different types of Visual Question Answering (VQA) benchmarks. As a result, they provide no principled or efficient channel for transmitting fine-grained visual information. We introduce Seeing Eye, a modular framework that unlocks multimodal reasoning in text-only LLMs through an agent-based small VLM translator. This translator acts as a perception agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively distill multimodal inputs into structured intermediate representations (SIRs) tailored to the question. These SIRs are then passed to the text-only LLM, which serves as a reasoning agent. Crucially, the translator and reasoner engage in multi-round feedback and interaction, enabling the extraction of targeted visual details and yielding more confident answers. Experiments on knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate that Seeing Eye not only reduces inference cost but also surpasses much larger end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision translator with an 8B-parameter language reasoner outperforms a monolithic 32B VLM on challenging knowledge-based questions. Our results highlight that decoupling perception from reasoning via agent information flow offers a scalable and plug-and-play pathway to multimodal reasoning, allowing strong text-only LLMs to fully leverage their reasoning capabilities. Code is available at: https://github.com/ulab-uiuc/SeeingEye
PDF81February 7, 2026