SeeingEye: Agentischer Informationsfluss ermöglicht multimodales Denken in textbasierten LLMs
SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs
October 29, 2025
papers.authors: Weijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You
cs.AI
papers.abstract
Jüngste Fortschritte bei textbasierten großen Sprachmodellen (LLMs) wie DeepSeek-R1 demonstrieren bemerkenswerte Fähigkeiten im logischen Denken. Diese Modelle bleiben jedoch fragil oder völlig untauglich, wenn sie auf multimodale Aufgaben ausgeweitet werden. Bestehende Ansätze stützen sich weitgehend auf Einheits-Bildbeschreibungen, denen es an Vielfalt mangelt und die sich oft nicht an verschiedene Typen von Benchmarks für Visuelles Frage-Antworten (VQA) anpassen können. Folglich bieten sie keinen prinzipiell fundierten oder effizienten Kanal zur Übertragung feingranularer visueller Informationen. Wir stellen Seeing Eye vor, ein modulares Framework, das multimodales Denken in textbasierten LLMs durch einen agentenbasierten kleinen VLM-Übersetzer freisetzt. Dieser Übersetzer fungiert als Wahrnehmungs-Agent: Er kann spezialisierte Werkzeuge (z.B. OCR und Zuschneiden) aufrufen und multimodale Eingaben iterativ in strukturierte Zwischendarstellungen (SIRs) verdichten, die auf die Frage zugeschnitten sind. Diese SIRs werden dann an das textbasierte LLM übergeben, das als Denk-Agent dient. Entscheidend ist, dass Übersetzer und Denker in einen mehrstufigen Feedback- und Interaktionsprozess treten, der die Extraktion zielgerichteter visueller Details ermöglicht und zu sichereren Antworten führt. Experimente mit wissensintensiven VQA-Benchmarks, einschließlich MMMU und MIA-Bench, zeigen, dass Seeing Eye nicht nur die Inferenzkosten senkt, sondern auch deutlich größere end-to-end VLMs übertrifft. So überzeugt beispielsweise eine Instanziierung, die einen 3B-Parameter-Vision-Übersetzer mit einem 8B-Parameter-Sprach-Denker kombiniert, bei anspruchsvollen wissensbasierten Fragen gegenüber einem monolithischen 32B-VLM. Unsere Ergebnisse unterstreichen, dass die Entkopplung von Wahrnehmung und Denken durch Agenten-Informationsflüsse einen skalierbaren und Plug-and-Play-fähigen Weg für multimodales Denken eröffnet, der es starken textbasierten LLMs ermöglicht, ihre Denkfähigkeiten voll auszuschöpfen. Code ist verfügbar unter: https://github.com/ulab-uiuc/SeeingEye
English
Recent advances in text-only large language models (LLMs), such as
DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models
remain fragile or entirely incapable when extended to multi-modal tasks.
Existing approaches largely rely on single-form captions, which lack diversity
and often fail to adapt across different types of Visual Question Answering
(VQA) benchmarks. As a result, they provide no principled or efficient channel
for transmitting fine-grained visual information. We introduce Seeing Eye, a
modular framework that unlocks multimodal reasoning in text-only LLMs through
an agent-based small VLM translator. This translator acts as a perception
agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively
distill multimodal inputs into structured intermediate representations (SIRs)
tailored to the question. These SIRs are then passed to the text-only LLM,
which serves as a reasoning agent. Crucially, the translator and reasoner
engage in multi-round feedback and interaction, enabling the extraction of
targeted visual details and yielding more confident answers. Experiments on
knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate
that Seeing Eye not only reduces inference cost but also surpasses much larger
end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision
translator with an 8B-parameter language reasoner outperforms a monolithic 32B
VLM on challenging knowledge-based questions. Our results highlight that
decoupling perception from reasoning via agent information flow offers a
scalable and plug-and-play pathway to multimodal reasoning, allowing strong
text-only LLMs to fully leverage their reasoning capabilities. Code is
available at: https://github.com/ulab-uiuc/SeeingEye