SeeingEye: 에이전트 기반 정보 흐름이 텍스트 전용 LLM의 다중 모달 추론 능력을 해제하다
SeeingEye: Agentic Information Flow Unlocks Multimodal Reasoning In Text-only LLMs
October 29, 2025
저자: Weijia Zhang, Zijia Liu, Haoru Li, Haoqi Chen, Jiaxuan You
cs.AI
초록
텍스트 전용 대규모 언어 모델(LLM)인 DeepSeek-R1과 같은 최신 모델은 놀라운 추론 능력을 보여줍니다. 그러나 이러한 모델은 다중 모드 작업으로 확장될 때 취약하거나 완전히 무능력한 상태로 남아 있습니다. 기존 접근법은 대체로 단일 형태의 캡션에 의존하는데, 이는 다양성이 부족하고 다양한 유형의 시각 질의응답(VQA) 벤치마크에 적응하지 못하는 경우가 많습니다. 결과적으로, 미세한 시각 정보를 전달할 수 있는 원칙적이고 효율적인 채널을 제공하지 못합니다. 우리는 에이전트 기반의 소형 VLM 번역기를 통해 텍스트 전용 LLM에서 다중 모드 추론을 가능하게 하는 모듈식 프레임워크인 Seeing Eye를 소개합니다. 이 번역기는 인지 에이전트 역할을 하며, OCR 및 크롭과 같은 특수 도구를 호출하고 질문에 맞춰 다중 모드 입력을 구조화된 중간 표현(SIR)으로 반복적으로 정제할 수 있습니다. 이러한 SIR은 추론 에이전트 역할을 하는 텍스트 전용 LLM으로 전달됩니다. 중요한 것은 번역기와 추론기가 다중 라운드 피드백과 상호 작용을 통해 표적 시각 세부 정보를 추출하고 더 확신 있는 답변을 생성할 수 있다는 점입니다. MMMU 및 MIA-Bench를 포함한 지식 집약적 VQA 벤치마크에서의 실험은 Seeing Eye가 추론 비용을 줄일 뿐만 아니라 훨씬 더 큰 단일(end-to-end) VLM을 능가함을 보여줍니다. 예를 들어, 3B 매개변수 비전 번역기와 8B 매개변수 언어 추론기를 결합한 인스턴스는 도전적인 지식 기반 질문에서 단일 32B VLM보다 성능이 뛰어납니다. 우리의 결과는 에이전트 정보 흐름을 통해 인지와 추론을 분리하는 것이 확장 가능하고 플러그 앤 플레이 방식의 다중 모드 추론 경로를 제공하여 강력한 텍스트 전용 LLM이 자체 추론 능력을 완전히 활용할 수 있게 한다는 점을 강조합니다. 코드는 다음에서 이용 가능합니다: https://github.com/ulab-uiuc/SeeingEye
English
Recent advances in text-only large language models (LLMs), such as
DeepSeek-R1, demonstrate remarkable reasoning ability. However, these models
remain fragile or entirely incapable when extended to multi-modal tasks.
Existing approaches largely rely on single-form captions, which lack diversity
and often fail to adapt across different types of Visual Question Answering
(VQA) benchmarks. As a result, they provide no principled or efficient channel
for transmitting fine-grained visual information. We introduce Seeing Eye, a
modular framework that unlocks multimodal reasoning in text-only LLMs through
an agent-based small VLM translator. This translator acts as a perception
agent: it can invoke specialized tools (e.g., OCR and crop) and iteratively
distill multimodal inputs into structured intermediate representations (SIRs)
tailored to the question. These SIRs are then passed to the text-only LLM,
which serves as a reasoning agent. Crucially, the translator and reasoner
engage in multi-round feedback and interaction, enabling the extraction of
targeted visual details and yielding more confident answers. Experiments on
knowledge-intensive VQA benchmarks, including MMMU and MIA-Bench, demonstrate
that Seeing Eye not only reduces inference cost but also surpasses much larger
end-to-end VLMs. For example, an instantiation combining a 3B-parameter vision
translator with an 8B-parameter language reasoner outperforms a monolithic 32B
VLM on challenging knowledge-based questions. Our results highlight that
decoupling perception from reasoning via agent information flow offers a
scalable and plug-and-play pathway to multimodal reasoning, allowing strong
text-only LLMs to fully leverage their reasoning capabilities. Code is
available at: https://github.com/ulab-uiuc/SeeingEye