SeeingEye: Agente Gestuurde Informatieflow Ontgrendelt Multimodale Redenering in Tekst-Enkel LLM's
SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs
October 29, 2025
Auteurs: Weijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You
cs.AI
Samenvatting
Recente vooruitgang in tekstgebaseerde grote taalmmodellen (LLM's), zoals DeepSeek-R1, toont opmerkelijke redeneervermogens aan. Deze modellen blijven echter kwetsbaar of volledig onbekwaam wanneer ze worden uitgebreid naar multimodale taken. Bestaande benaderingen steunen grotendeels op bijschriften van één vorm, die weinig diversiteit bieden en vaak niet kunnen worden aangepast aan verschillende soorten benchmarks voor visuele vraag-antwoordtaken (VQA). Hierdoor bieden ze geen principiële of efficiënte manier om fijnmazige visuele informatie over te dragen. Wij introduceren Seeing Eye, een modulair raamwerk dat multimodaal redeneren in tekstgebaseerde LLM's ontsluit via een op agenten gebaseerde kleine VLM-vertaler. Deze vertaler fungeert als een perceptie-agent: hij kan gespecialiseerde tools aanroepen (bijvoorbeeld OCR en bijsnijden) en multimodale invoer iteratief destilleren tot gestructureerde tussenvoorstellingen (SIR's) die zijn afgestemd op de vraag. Deze SIR's worden vervolgens doorgegeven aan de tekstgebaseerde LLM, die dient als een redeneer-agent. Cruciaal is dat de vertaler en de redeneerder deelnamen aan meerronde feedback en interactie, waardoor het mogelijk wordt gerichte visuele details te extraheren en meer zelfverzekerde antwoorden te produceren. Experimenten op kennisintensieve VQA-benchmarks, waaronder MMMU en MIA-Bench, tonen aan dat Seeing Eye niet alleen de inferentiekosten verlaagt, maar ook grotere end-to-end VLM's overtreft. Een instantiatie die een visievertaler van 3B parameters combineert met een taalredeneerder van 8B parameters presteert bijvoorbeeld beter dan een monolithische VLM van 32B op uitdagende kennisgebaseerde vragen. Onze resultaten benadrukken dat het ontkoppelen van perceptie en redeneren via agent-informatieflow een schaalbare en plug-and-play-weg biedt naar multimodaal redeneren, waardoor sterke tekstgebaseerde LLM's hun redeneervermogens volledig kunnen benutten. Code is beschikbaar op: https://github.com/ulab-uiuc/SeeingEye
English
Recent advances in text-only large language models (LLMs), such as
DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models
remain fragile or entirely incapable when extended to multi-modal tasks.
Existing approaches largely rely on single-form captions, which lack diversity
and often fail to adapt across different types of Visual Question Answering
(VQA) benchmarks. As a result, they provide no principled or efficient channel
for transmitting fine-grained visual information. We introduce Seeing Eye, a
modular framework that unlocks multimodal reasoning in text-only LLMs through
an agent-based small VLM translator. This translator acts as a perception
agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively
distill multimodal inputs into structured intermediate representations (SIRs)
tailored to the question. These SIRs are then passed to the text-only LLM,
which serves as a reasoning agent. Crucially, the translator and reasoner
engage in multi-round feedback and interaction, enabling the extraction of
targeted visual details and yielding more confident answers. Experiments on
knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate
that Seeing Eye not only reduces inference cost but also surpasses much larger
end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision
translator with an 8B-parameter language reasoner outperforms a monolithic 32B
VLM on challenging knowledge-based questions. Our results highlight that
decoupling perception from reasoning via agent information flow offers a
scalable and plug-and-play pathway to multimodal reasoning, allowing strong
text-only LLMs to fully leverage their reasoning capabilities. Code is
available at: https://github.com/ulab-uiuc/SeeingEye