ChatPaper.aiChatPaper

大規模言語モデルにおける3次元接地のための誤差駆動型シーン編集

Error-Driven Scene Editing for 3D Grounding in Large Language Models

November 18, 2025
著者: Yue Zhang, Zun Wang, Han Lin, Jialu Li, Jianing Yang, Yonatan Bitton, Idan Szpektor, Mohit Bansal
cs.AI

要旨

3D-LLMの近年の進展にもかかわらず、3D環境における言語と視覚的・空間的要素の正確な接地(グラウンディング)には限界が残っている。この制限は、3Dリソースの不足から言語推論に焦点を当てた訓練データに起因し、内在的な接地バイアスが未解決のままとなっている。この問題に対処するため、我々は3Dシーン編集を鍵となるメカニズムとして提案する。これは、高価なシーン再構築や大規模な3Dデータ収集を必要とせず、細粒度の空間操作を通じてこれらのバイアスを軽減する精密な視覚的反事実を生成する。さらに、これらの編集を標的化し、モデルの特定の弱点に直接アプローチするため、従来手法のようにデータを広範またはランダムに拡張するのではなく、「分解、診断的評価、編集、再訓練」という構造化されたワークフローに従う誤り駆動型フレームワーク「DEER-3D」を導入する。具体的には、3D-LLMの接地失敗を特定した後、本フレームワークはまず(属性や空間関係などの)正確な述語レベルの誤りを診断する。次に、色変更や位置変更といった最小限の、述語に沿った3Dシーン編集を実行し、反復的モデルファインチューニングのための標的的反事実的教師データを生成し、接地精度を大幅に向上させる。我々は、3D接地およびシーン理解タスクの複数のベンチマークにおいて編集パイプラインを評価し、反復的な改良を通じて全ての評価データセットで一貫した改善を示す。DEER-3Dは、3D LLMにおいて言語的推論能力と空間的接地を橋渡しする上で、標的化された誤り駆動型シーン編集の有効性を強調するものである。
English
Despite recent progress in 3D-LLMs, they remain limited in accurately grounding language to visual and spatial elements in 3D environments. This limitation stems in part from training data that focuses on language reasoning rather than spatial understanding due to scarce 3D resources, leaving inherent grounding biases unresolved. To address this, we propose 3D scene editing as a key mechanism to generate precise visual counterfactuals that mitigate these biases through fine-grained spatial manipulation, without requiring costly scene reconstruction or large-scale 3D data collection. Furthermore, to make these edits targeted and directly address the specific weaknesses of the model, we introduce DEER-3D, an error-driven framework following a structured "Decompose, Diagnostic Evaluation, Edit, and Re-train" workflow, rather than broadly or randomly augmenting data as in conventional approaches. Specifically, upon identifying a grounding failure of the 3D-LLM, our framework first diagnoses the exact predicate-level error (e.g., attribute or spatial relation). It then executes minimal, predicate-aligned 3D scene edits, such as recoloring or repositioning, to produce targeted counterfactual supervision for iterative model fine-tuning, significantly enhancing grounding accuracy. We evaluate our editing pipeline across multiple benchmarks for 3D grounding and scene understanding tasks, consistently demonstrating improvements across all evaluated datasets through iterative refinement. DEER-3D underscores the effectiveness of targeted, error-driven scene editing in bridging linguistic reasoning capabilities with spatial grounding in 3D LLMs.
PDF42December 1, 2025