3D思考:限定的視点からの幾何学的想像力に基づく空間推論
Think with 3D: Geometric Imagination Grounded Spatial Reasoning from Limited Views
October 21, 2025
著者: Zhangquan Chen, Manyuan Zhang, Xinlei Yu, Xufang Luo, Mingze Sun, Zihao Pan, Yan Feng, Peng Pei, Xunliang Cai, Ruqi Huang
cs.AI
要旨
近年の視覚言語モデル(VLM)の進歩は、多様なマルチモーダルタスクにおいて顕著な進展を遂げてきたが、限られた視点からの3D空間関係の理解は依然として重要な課題である。従来の推論手法は、純粋なテキスト(例:位相的認知地図)や2D視覚的手がかりに依存することが一般的であった。しかし、これらの手法の限定的な表現能力は、3D空間的想像力を必要とする特定のタスクにおける性能を妨げている。この制約を克服するため、我々は3DThinkerを提案する。このフレームワークは、人間のように推論しながら画像に埋め込まれた豊富な幾何学的情報を効果的に活用することができる。我々のフレームワークは、3D事前入力を一切必要とせずに推論中に3Dメンタル化を可能にする初めてのものであり、明示的にラベル付けされた3Dデータに依存しない。具体的には、我々のトレーニングは2段階で構成される。まず、VLMが推論中に生成する3D潜在表現を3D基盤モデル(例:VGGT)のそれと整合させるための教師あり学習を行う。次に、結果信号のみに基づいて推論軌跡全体を最適化し、基盤となる3Dメンタル化を洗練させる。複数のベンチマークにわたる広範な実験により、3DThinkerが強力なベースラインを一貫して上回り、マルチモーダル推論に3D表現を統合する新たな視点を提供することが示された。我々のコードはhttps://github.com/zhangquanchen/3DThinkerで公開予定である。
English
Though recent advances in vision-language models (VLMs) have achieved
remarkable progress across a wide range of multimodal tasks, understanding 3D
spatial relationships from limited views remains a significant challenge.
Previous reasoning methods typically rely on pure text (e.g., topological
cognitive maps) or on 2D visual cues. However, their limited representational
capacity hinders performance in specific tasks that require 3D spatial
imagination. To address this limitation, we propose 3DThinker, a framework that
can effectively exploits the rich geometric information embedded within images
while reasoning, like humans do. Our framework is the first to enable 3D
mentaling during reasoning without any 3D prior input, and it does not rely on
explicitly labeled 3D data for training. Specifically, our training consists of
two stages. First, we perform supervised training to align the 3D latent
generated by VLM while reasoning with that of a 3D foundation model (e.g.,
VGGT). Then, we optimize the entire reasoning trajectory solely based on
outcome signals, thereby refining the underlying 3D mentaling. Extensive
experiments across multiple benchmarks show that 3DThinker consistently
outperforms strong baselines and offers a new perspective toward unifying 3D
representations into multimodal reasoning. Our code will be available at
https://github.com/zhangquanchen/3DThinker.