SeeingEye: Il Flusso Informativo Agente Sblocca il Ragionamento Multimodale nei LLM Solo Testo
SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs
October 29, 2025
Autori: Weijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You
cs.AI
Abstract
I recenti progressi nei grandi modelli linguistici (LLM) basati esclusivamente su testo, come DeepSeek-R1, dimostrano capacità di ragionamento notevoli. Tuttavia, questi modelli rimangono fragili o completamente incapaci quando estesi a compiti multimodali. Gli approcci esistenti si basano prevalentemente su descrizioni di forma singola, che mancano di diversità e spesso non riescono ad adattarsi a diversi tipi di benchmark di Visual Question Answering (VQA). Di conseguenza, non forniscono un canale principiato o efficiente per trasmettere informazioni visive di fine granularità. Introduciamo Seeing Eye, un framework modulare che sblocca il ragionamento multimodale nei LLM basati solo su testo attraverso un traduttore VLM piccolo basato su agente. Questo traduttore agisce come un agente di percezione: può richiamare strumenti specializzati (ad esempio, OCR e ritaglio) e distillare iterativamente input multimodali in rappresentazioni intermedie strutturate (SIR) cucite sulla domanda. Queste SIR vengono poi passate al LLM basato solo su testo, che funge da agente di ragionamento. Fondamentalmente, il traduttore e il motore di ragionamento si impegnano in un feedback e un'interazione multi-round, permettendo l'estrazione di dettagli visivi mirati e producendo risposte più confidenti. Esperimenti su benchmark VQA ad alta intensità di conoscenza, inclusi MMMU e MIA-Bench, dimostrano che Seeing Eye non solo riduce il costo di inferenza ma supera anche VLM end-to-end molto più grandi. Ad esempio, un'istanza che combina un traduttore visivo da 3 miliardi di parametri con un motore di ragionamento linguistico da 8 miliardi di parametri supera un VLM monolitico da 32B su domande complesse basate sulla conoscenza. I nostri risultati evidenziano che disaccoppiare la percezione dal ragionamento attraverso un flusso di informazioni ad agente offre un percorso scalabile e plug-and-play verso il ragionamento multimodale, consentendo ai potenti LLM basati solo su testo di sfruttare appieno le loro capacità di ragionamento. Il codice è disponibile all'indirizzo: https://github.com/ulab-uiuc/SeeingEye
English
Recent advances in text-only large language models (LLMs), such as
DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models
remain fragile or entirely incapable when extended to multi-modal tasks.
Existing approaches largely rely on single-form captions, which lack diversity
and often fail to adapt across different types of Visual Question Answering
(VQA) benchmarks. As a result, they provide no principled or efficient channel
for transmitting fine-grained visual information. We introduce Seeing Eye, a
modular framework that unlocks multimodal reasoning in text-only LLMs through
an agent-based small VLM translator. This translator acts as a perception
agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively
distill multimodal inputs into structured intermediate representations (SIRs)
tailored to the question. These SIRs are then passed to the text-only LLM,
which serves as a reasoning agent. Crucially, the translator and reasoner
engage in multi-round feedback and interaction, enabling the extraction of
targeted visual details and yielding more confident answers. Experiments on
knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate
that Seeing Eye not only reduces inference cost but also surpasses much larger
end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision
translator with an 8B-parameter language reasoner outperforms a monolithic 32B
VLM on challenging knowledge-based questions. Our results highlight that
decoupling perception from reasoning via agent information flow offers a
scalable and plug-and-play pathway to multimodal reasoning, allowing strong
text-only LLMs to fully leverage their reasoning capabilities. Code is
available at: https://github.com/ulab-uiuc/SeeingEye