SeeingEye: El Flujo de Información Agéntico Desbloquea el Razonamiento Multimodal en LLMs de Solo Texto
SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs
October 29, 2025
Autores: Weijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You
cs.AI
Resumen
Los recientes avances en modelos de lenguaje grandes (LLM) de solo texto, como DeepSeek-R1, demuestran una capacidad de razonamiento notable. Sin embargo, estos modelos siguen siendo frágiles o completamente incapaces cuando se extienden a tareas multimodales. Los enfoques existentes dependen en gran medida de descripciones de formato único, que carecen de diversidad y a menudo no logran adaptarse a diferentes tipos de benchmarks de Respuesta a Preguntas Visuales (VQA). Como resultado, no proporcionan un canal eficiente o basado en principios para transmitir información visual detallada. Presentamos Seeing Eye, un marco modular que desbloquea el razonamiento multimodal en LLM de solo texto mediante un traductor VLM pequeño basado en agentes. Este traductor actúa como un agente de percepción: puede invocar herramientas especializadas (por ejemplo, OCR y recorte) y destilar iterativamente entradas multimodales en representaciones intermedias estructuradas (SIRs) adaptadas a la pregunta. Estas SIRs se pasan luego al LLM de solo texto, que sirve como un agente de razonamiento. Crucialmente, el traductor y el razonador participan en una interacción y retroalimentación de múltiples rondas, permitiendo la extracción de detalles visuales específicos y produciendo respuestas más confiables. Los experimentos en benchmarks de VQA intensivos en conocimiento, incluyendo MMMU y MIA-Bench, demuestran que Seeing Eye no solo reduce el costo de inferencia sino que también supera a VLMs de extremo a extremo mucho más grandes. Por ejemplo, una instanciación que combina un traductor visual de 3B parámetros con un razonador de lenguaje de 8B parámetros supera a un VLM monolítico de 32B en preguntas complejas basadas en conocimiento. Nuestros resultados destacan que desacoplar la percepción del razonamiento mediante un flujo de información de agentes ofrece una vía escalable y plug-and-play para el razonamiento multimodal, permitiendo que los LLM de solo texto potentes aprovechen plenamente sus capacidades de razonamiento. El código está disponible en: https://github.com/ulab-uiuc/SeeingEye
English
Recent advances in text-only large language models (LLMs), such as
DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models
remain fragile or entirely incapable when extended to multi-modal tasks.
Existing approaches largely rely on single-form captions, which lack diversity
and often fail to adapt across different types of Visual Question Answering
(VQA) benchmarks. As a result, they provide no principled or efficient channel
for transmitting fine-grained visual information. We introduce Seeing Eye, a
modular framework that unlocks multimodal reasoning in text-only LLMs through
an agent-based small VLM translator. This translator acts as a perception
agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively
distill multimodal inputs into structured intermediate representations (SIRs)
tailored to the question. These SIRs are then passed to the text-only LLM,
which serves as a reasoning agent. Crucially, the translator and reasoner
engage in multi-round feedback and interaction, enabling the extraction of
targeted visual details and yielding more confident answers. Experiments on
knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate
that Seeing Eye not only reduces inference cost but also surpasses much larger
end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision
translator with an 8B-parameter language reasoner outperforms a monolithic 32B
VLM on challenging knowledge-based questions. Our results highlight that
decoupling perception from reasoning via agent information flow offers a
scalable and plug-and-play pathway to multimodal reasoning, allowing strong
text-only LLMs to fully leverage their reasoning capabilities. Code is
available at: https://github.com/ulab-uiuc/SeeingEye