3D로 사고하기: 제한된 시각에서 기하학적 상상력에 기반한 공간 추론
Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
October 21, 2025
저자: Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang
cs.AI
초록
최근 비전-언어 모델(VLMs)의 발전으로 다양한 멀티모달 작업에서 놀라운 진전이 이루어졌지만, 제한된 시각에서 3D 공간 관계를 이해하는 것은 여전히 큰 과제로 남아 있습니다. 기존의 추론 방법들은 일반적으로 순수 텍스트(예: 위상 인지 지도)나 2D 시각적 단서에 의존해 왔습니다. 그러나 이러한 방법들은 제한된 표현 능력으로 인해 3D 공간 상상력이 필요한 특정 작업에서 성능이 저하되는 문제가 있었습니다. 이러한 한계를 극복하기 위해, 우리는 인간처럼 추론 과정에서 이미지에 내재된 풍부한 기하학적 정보를 효과적으로 활용할 수 있는 3DThinker 프레임워크를 제안합니다. 우리의 프레임워크는 어떠한 3D 사전 입력 없이도 추론 중에 3D 멘탈링(mentaling)을 가능하게 하는 최초의 접근법이며, 명시적으로 레이블된 3D 데이터에 의존하지 않고도 학습이 가능합니다. 구체적으로, 우리의 학습은 두 단계로 구성됩니다. 먼저, VLM이 추론 중 생성한 3D 잠재 공간을 3D 기초 모델(예: VGGT)의 잠재 공간과 정렬하기 위해 지도 학습을 수행합니다. 그런 다음, 결과 신호만을 기반으로 전체 추론 궤적을 최적화하여 기본 3D 멘탈링을 개선합니다. 다양한 벤치마크에서 수행한 광범위한 실험을 통해 3DThinker가 강력한 베이스라인을 지속적으로 능가하며, 멀티모달 추론에 3D 표현을 통합하는 새로운 관점을 제공함을 입증했습니다. 우리의 코드는 https://github.com/zhangquanchen/3DThinker에서 공개될 예정입니다.
English
Though recent advances in vision-language models (VLMs) have achieved
remarkable progress across a wide range of multimodal tasks, understanding 3D
spatial relationships from limited views remains a significant challenge.
Previous reasoning methods typically rely on pure text (e.g., topological
cognitive maps) or on 2D visual cues. However, their limited representational
capacity hinders performance in specific tasks that require 3D spatial
imagination. To address this limitation, we propose 3DThinker, a framework that
can effectively exploits the rich geometric information embedded within images
while reasoning, like humans do. Our framework is the first to enable 3D
mentaling during reasoning without any 3D prior input, and it does not rely on
explicitly labeled 3D data for training. Specifically, our training consists of
two stages. First, we perform supervised training to align the 3D latent
generated by VLM while reasoning with that of a 3D foundation model (e.g.,
VGGT). Then, we optimize the entire reasoning trajectory solely based on
outcome signals, thereby refining the underlying 3D mentaling. Extensive
experiments across multiple benchmarks show that 3DThinker consistently
outperforms strong baselines and offers a new perspective toward unifying 3D
representations into multimodal reasoning. Our code will be available at
https://github.com/zhangquanchen/3DThinker.