ChatPaper.aiChatPaper

4D-RGPT:知覚的蒸留による領域レベルの4次元理解に向けて

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

December 18, 2025
著者: Chiao-An Yang, Ryo Hachiuma, Sifei Liu, Subhashree Radhakrishnan, Raymond A. Yeh, Yu-Chiang Frank Wang, Min-Hung Chen
cs.AI

要旨

マルチモーダルLLM(MLLM)の進歩にもかかわらず、3D構造や時間的ダイナミクスに対する推論能力は、弱い4D知覚と時間的理解によって制限されたままである。既存の3Dおよび4D映像質問応答(VQA)ベンチマークも静的なシーンに重点を置き、領域レベルでのプロンプティングを欠いている。我々はこれらの問題に対処するため、以下を導入する:(a) 時間的知覚を強化した映像入力から4D表現を捕捉するように設計された専門MLLMである4D-RGPT、(b) 凍結された専門家モデルから4D-RGPTへ4D表現を転送し、包括的な4D知覚を実現する訓練フレームワークであるPerceptual 4D Distillation (P4D)、(c) 領域レベルでのプロンプティングを備えた深度認識可能な動的シーンのベンチマークであり、自動化と人間による検証を組み合わせたパイプラインで構築されたR4D-Bench。我々の4D-RGPTは、既存の4D VQAベンチマークと提案するR4D-Benchベンチマークの両方で顕著な改善を達成した。
English
Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.
PDF281December 23, 2025