SeeingEye: Agentischer Informationsfluss ermöglicht multimodales Denken in textbasierten LLMs

papers.abstract

Jüngste Fortschritte bei textbasierten großen Sprachmodellen (LLMs) wie DeepSeek-R1 demonstrieren bemerkenswerte Fähigkeiten im logischen Denken. Diese Modelle bleiben jedoch fragil oder völlig untauglich, wenn sie auf multimodale Aufgaben ausgeweitet werden. Bestehende Ansätze stützen sich weitgehend auf Einheits-Bildbeschreibungen, denen es an Vielfalt mangelt und die sich oft nicht an verschiedene Typen von Benchmarks für Visuelles Frage-Antworten (VQA) anpassen können. Folglich bieten sie keinen prinzipiell fundierten oder effizienten Kanal zur Übertragung feingranularer visueller Informationen. Wir stellen Seeing Eye vor, ein modulares Framework, das multimodales Denken in textbasierten LLMs durch einen agentenbasierten kleinen VLM-Übersetzer freisetzt. Dieser Übersetzer fungiert als Wahrnehmungs-Agent: Er kann spezialisierte Werkzeuge (z.B. OCR und Zuschneiden) aufrufen und multimodale Eingaben iterativ in strukturierte Zwischendarstellungen (SIRs) verdichten, die auf die Frage zugeschnitten sind. Diese SIRs werden dann an das textbasierte LLM übergeben, das als Denk-Agent dient. Entscheidend ist, dass Übersetzer und Denker in einen mehrstufigen Feedback- und Interaktionsprozess treten, der die Extraktion zielgerichteter visueller Details ermöglicht und zu sichereren Antworten führt. Experimente mit wissensintensiven VQA-Benchmarks, einschließlich MMMU und MIA-Bench, zeigen, dass Seeing Eye nicht nur die Inferenzkosten senkt, sondern auch deutlich größere end-to-end VLMs übertrifft. So überzeugt beispielsweise eine Instanziierung, die einen 3B-Parameter-Vision-Übersetzer mit einem 8B-Parameter-Sprach-Denker kombiniert, bei anspruchsvollen wissensbasierten Fragen gegenüber einem monolithischen 32B-VLM. Unsere Ergebnisse unterstreichen, dass die Entkopplung von Wahrnehmung und Denken durch Agenten-Informationsflüsse einen skalierbaren und Plug-and-Play-fähigen Weg für multimodales Denken eröffnet, der es starken textbasierten LLMs ermöglicht, ihre Denkfähigkeiten voll auszuschöpfen. Code ist verfügbar unter: https://github.com/ulab-uiuc/SeeingEye

English

Recent advances in text-only large language models (LLMs), such as DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models remain fragile or entirely incapable when extended to multi-modal tasks. Existing approaches largely rely on single-form captions, which lack diversity and often fail to adapt across different types of Visual Question Answering (VQA) benchmarks. As a result, they provide no principled or efficient channel for transmitting fine-grained visual information. We introduce Seeing Eye, a modular framework that unlocks multimodal reasoning in text-only LLMs through an agent-based small VLM translator. This translator acts as a perception agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively distill multimodal inputs into structured intermediate representations (SIRs) tailored to the question. These SIRs are then passed to the text-only LLM, which serves as a reasoning agent. Crucially, the translator and reasoner engage in multi-round feedback and interaction, enabling the extraction of targeted visual details and yielding more confident answers. Experiments on knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate that Seeing Eye not only reduces inference cost but also surpasses much larger end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision translator with an 8B-parameter language reasoner outperforms a monolithic 32B VLM on challenging knowledge-based questions. Our results highlight that decoupling perception from reasoning via agent information flow offers a scalable and plug-and-play pathway to multimodal reasoning, allowing strong text-only LLMs to fully leverage their reasoning capabilities. Code is available at: https://github.com/ulab-uiuc/SeeingEye

SeeingEye: Agentischer Informationsfluss ermöglicht multimodales Denken in textbasierten LLMs

SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs

papers.abstract

Support