잠재적 내재 시각 추론
Latent Implicit Visual Reasoning
December 24, 2025
저자: Kelvin Li, Chuyi Shang, Leonid Karlinsky, Rogerio Feris, Trevor Darrell, Roei Herzig
cs.AI
초록
대규모 멀티모달 모델(LMM)이 상당한 발전을 이루었음에도 불구하고, 여전히 언어를 핵심 추론 양식으로 삼는 텍스트 중심적 특성을 크게 벗어나지 못하고 있습니다. 그 결과 시각 정보가 주를 이루는 추론 작업을 처리하는 능력에 한계를 보입니다. 최근 연구에서는 도움 영상, 깊이 지도, 이미지 일부 확대 등을 통해 중간 시각 단계를 지도하는 방식으로 이 문제를 해결하려는 시도가 이루어졌습니다. 그러나 이러한 전략은 '유용한' 시각적 추상화의 형태에 제한적인 선행 지식을 부과하고, 막대한 주석 비용을 수반하며, 다양한 작업 간 일반화에 어려움을 겪습니다. 이러한 근본적인 한계를 해결하기 위해 우리는 명시적 지도 없이 LMM이 시각 추론 토큰을 발견하고 활용하도록 훈련하는 작업 불특정(task-agnostic) 메커니즘을 제안합니다. 이러한 토큰은 전역적으로 주의를 기울이며 이미지를 작업 적응형 방식으로 재인코딩함으로써, 수작업으로 설계된 지도 없이도 관련 시각 정보를 추출할 수 있게 합니다. 우리의 접근 방식은 직접 미세 조정을 능가하며, 중간 추상화를 명시하기 어려운 작업을 포함한 다양한 시각 중심 작업에서 최첨단 성과를 달성했을 뿐만 아니라, 다중 작업 지침 튜닝으로도 일반화됩니다.
English
While Large Multimodal Models (LMMs) have made significant progress, they remain largely text-centric, relying on language as their core reasoning modality. As a result, they are limited in their ability to handle reasoning tasks that are predominantly visual. Recent approaches have sought to address this by supervising intermediate visual steps with helper images, depth maps, or image crops. However, these strategies impose restrictive priors on what "useful" visual abstractions look like, add heavy annotation costs, and struggle to generalize across tasks. To address this critical limitation, we propose a task-agnostic mechanism that trains LMMs to discover and use visual reasoning tokens without explicit supervision. These tokens attend globally and re-encode the image in a task-adaptive way, enabling the model to extract relevant visual information without hand-crafted supervision. Our approach outperforms direct fine-tuning and achieves state-of-the-art results on a diverse range of vision-centric tasks -- including those where intermediate abstractions are hard to specify -- while also generalizing to multi-task instruction tuning.