ChatPaper.aiChatPaper

Modifica della Scena Guidata dall'Errore per l'Ancoraggio 3D nei Grandi Modelli Linguistici

Error-Driven Scene Editing for 3D Grounding in Large Language Models

November 18, 2025
Autori: Yue Zhang, Zun Wang, Han Lin, Jialu Li, Jianing Yang, Yonatan Bitton, Idan Szpektor, Mohit Bansal
cs.AI

Abstract

Nonostante i recenti progressi nei modelli linguistici per il 3D (3D-LLMs), essi rimangono limitati nel fondare accuratamente il linguaggio agli elementi visivi e spaziali negli ambienti 3D. Questa limitazione deriva in parte da dati di addestramento che si concentrano sul ragionamento linguistico piuttosto che sulla comprensione spaziale, a causa della scarsità di risorse 3D, lasciando irrisolti pregiudizi intrinseci di grounding. Per affrontare questo problema, proponiamo la modifica delle scene 3D come meccanismo chiave per generare controfattuali visivi precisi che mitigano questi pregiudizi attraverso una manipolazione spaziale granulare, senza richiedere costose ricostruzioni di scene o la raccolta su larga scala di dati 3D. Inoltre, per rendere queste modifiche mirate e affrontare direttamente le specifiche debolezze del modello, introduciamo DEER-3D, un framework guidato dall'errore che segue un flusso di lavoro strutturato "Scomponi, Valutazione Diagnostica, Modifica e Ri-addestra", invece di aumentare i dati in modo ampio o casuale come negli approcci convenzionali. Nello specifico, dopo aver identificato un fallimento del grounding del 3D-LLM, il nostro framework diagnostica prima l'esatto errore a livello predicativo (ad esempio, un attributo o una relazione spaziale). Successivamente, esegue modifiche minime e allineate al predicato nella scena 3D, come cambiare il colore o riposizionare oggetti, per produrre una supervisione controfattuale mirata per l'addestramento fine iterativo del modello, migliorando significativamente l'accuratezza del grounding. Valutiamo la nostra pipeline di modifica su diversi benchmark per compiti di grounding 3D e comprensione delle scene, dimostrando costantemente miglioramenti su tutti i dataset valutati attraverso un perfezionamento iterativo. DEER-3D sottolinea l'efficacia della modifica mirata delle scene, guidata dall'errore, nel colmare le capacità di ragionamento linguistico con il grounding spaziale nei modelli linguistici per il 3D.
English
Despite recent progress in 3D-LLMs, they remain limited in accurately grounding language to visual and spatial elements in 3D environments. This limitation stems in part from training data that focuses on language reasoning rather than spatial understanding due to scarce 3D resources, leaving inherent grounding biases unresolved. To address this, we propose 3D scene editing as a key mechanism to generate precise visual counterfactuals that mitigate these biases through fine-grained spatial manipulation, without requiring costly scene reconstruction or large-scale 3D data collection. Furthermore, to make these edits targeted and directly address the specific weaknesses of the model, we introduce DEER-3D, an error-driven framework following a structured "Decompose, Diagnostic Evaluation, Edit, and Re-train" workflow, rather than broadly or randomly augmenting data as in conventional approaches. Specifically, upon identifying a grounding failure of the 3D-LLM, our framework first diagnoses the exact predicate-level error (e.g., attribute or spatial relation). It then executes minimal, predicate-aligned 3D scene edits, such as recoloring or repositioning, to produce targeted counterfactual supervision for iterative model fine-tuning, significantly enhancing grounding accuracy. We evaluate our editing pipeline across multiple benchmarks for 3D grounding and scene understanding tasks, consistently demonstrating improvements across all evaluated datasets through iterative refinement. DEER-3D underscores the effectiveness of targeted, error-driven scene editing in bridging linguistic reasoning capabilities with spatial grounding in 3D LLMs.
PDF42December 1, 2025