ChatPaper.aiChatPaper

SeeingEye : Le flux informationnel agentique libère le raisonnement multimodal dans les LLM en mode texte uniquement

SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs

October 29, 2025
papers.authors: Weijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You
cs.AI

papers.abstract

Les récentes avancées des grands modèles de langage (LLM) textuels purs, comme DeepSeek-R1, démontrent des capacités de raisonnement remarquables. Cependant, ces modèles restent fragiles ou totalement incapables lorsqu'ils sont étendus à des tâches multimodales. Les approches existantes reposent largement sur des descriptions uniques, qui manquent de diversité et échouent souvent à s'adapter à différents types de benchmarks de Question-Réponse Visuelle (VQA). Par conséquent, elles n'offrent aucun canal principiel ou efficace pour transmettre une information visuelle fine. Nous présentons Seeing Eye, un cadre modulaire qui déverrouille le raisonnement multimodal dans les LLM textuels purs via un petit traducteur VLM basé sur un agent. Ce traducteur agit comme un agent de perception : il peut invoquer des outils spécialisés (ex: OCR et rognage) et distiller itérativement les entrées multimodales en représentations intermédiaires structurées (SIRs) adaptées à la question. Ces SIRs sont ensuite transmises au LLM textuel, qui sert d'agent de raisonnement. Fait crucial, le traducteur et le raisonneur s'engagent dans une rétroaction et une interaction multi-tours, permettant l'extraction de détails visuels ciblés et produisant des réponses plus fiables. Les expériences sur des benchmarks VQA nécessitant des connaissances, incluant MMMU et MIA-Bench, démontrent que Seeing Eye réduit non seulement le coût d'inférence mais surpasse également des VLM monolithiques bien plus grands. Par exemple, une instanciation combinant un traducteur visuel de 3 milliards de paramètres avec un raisonneur linguistique de 8 milliards de paramètres surpasse un VLM monolithique de 32B sur des questions complexes basées sur les connaissances. Nos résultats soulignent que le découplage de la perception et du raisonnement via un flux d'information agentiel offre une voie évolutive et plug-and-play vers le raisonnement multimodal, permettant aux LLM textuels puissants d'exploiter pleinement leurs capacités de raisonnement. Le code est disponible à l'adresse : https://github.com/ulab-uiuc/SeeingEye
English
Recent advances in text-only large language models (LLMs), such as DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models remain fragile or entirely incapable when extended to multi-modal tasks. Existing approaches largely rely on single-form captions, which lack diversity and often fail to adapt across different types of Visual Question Answering (VQA) benchmarks. As a result, they provide no principled or efficient channel for transmitting fine-grained visual information. We introduce Seeing Eye, a modular framework that unlocks multimodal reasoning in text-only LLMs through an agent-based small VLM translator. This translator acts as a perception agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively distill multimodal inputs into structured intermediate representations (SIRs) tailored to the question. These SIRs are then passed to the text-only LLM, which serves as a reasoning agent. Crucially, the translator and reasoner engage in multi-round feedback and interaction, enabling the extraction of targeted visual details and yielding more confident answers. Experiments on knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate that Seeing Eye not only reduces inference cost but also surpasses much larger end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision translator with an 8B-parameter language reasoner outperforms a monolithic 32B VLM on challenging knowledge-based questions. Our results highlight that decoupling perception from reasoning via agent information flow offers a scalable and plug-and-play pathway to multimodal reasoning, allowing strong text-only LLMs to fully leverage their reasoning capabilities. Code is available at: https://github.com/ulab-uiuc/SeeingEye
PDF71December 2, 2025