ChatPaper.aiChatPaper

Edición de Escenas Basada en Errores para la Fundamentación 3D en Modelos de Lenguaje a Gran Escala

Error-Driven Scene Editing for 3D Grounding in Large Language Models

November 18, 2025
Autores: Yue Zhang, Zun Wang, Han Lin, Jialu Li, Jianing Yang, Yonatan Bitton, Idan Szpektor, Mohit Bansal
cs.AI

Resumen

A pesar de los avances recientes en los LLMs 3D, estos siguen presentando limitaciones para anclar con precisión el lenguaje a los elementos visuales y espaciales en entornos 3D. Esta limitación surge en parte de datos de entrenamiento que se centran en el razonamiento lingüístico en lugar de la comprensión espacial, debido a la escasez de recursos 3D, lo que deja sin resolver los sesgos inherentes de anclaje. Para abordar esto, proponemos la edición de escenas 3D como un mecanismo clave para generar contrafactuales visuales precisos que mitiguen estos sesgos mediante una manipulación espacial de grano fino, sin requerir una costosa reconstrucción de escenas o una recolección de datos 3D a gran escala. Además, para que estas ediciones sean específicas y aborden directamente las debilidades particulares del modelo, presentamos DEER-3D, un marco de trabajo impulsado por errores que sigue un flujo de trabajo estructurado de "Descomponer, Evaluación Diagnóstica, Editar y Re-entrenar", en lugar de aumentar los datos de forma amplia o aleatoria como en los enfoques convencionales. Específicamente, al identificar un fallo de anclaje del LLM 3D, nuestro marco primero diagnostica el error exacto a nivel de predicado (por ejemplo, un atributo o una relación espacial). Luego ejecuta ediciones mínimas de la escena 3D alineadas con el predicado, como cambiar el color o reposicionar objetos, para producir una supervisión contrafáctica dirigida para el ajuste fino iterativo del modelo, mejorando significativamente la precisión del anclaje. Evaluamos nuestra pipeline de edición en múltiples benchmarks para tareas de anclaje 3D y comprensión de escenas, demostrando consistentemente mejoras en todos los conjuntos de datos evaluados mediante refinamiento iterativo. DEER-3D subraya la efectividad de la edición de escenas dirigida e impulsada por errores para conectar las capacidades de razonamiento lingüístico con el anclaje espacial en los LLMs 3D.
English
Despite recent progress in 3D-LLMs, they remain limited in accurately grounding language to visual and spatial elements in 3D environments. This limitation stems in part from training data that focuses on language reasoning rather than spatial understanding due to scarce 3D resources, leaving inherent grounding biases unresolved. To address this, we propose 3D scene editing as a key mechanism to generate precise visual counterfactuals that mitigate these biases through fine-grained spatial manipulation, without requiring costly scene reconstruction or large-scale 3D data collection. Furthermore, to make these edits targeted and directly address the specific weaknesses of the model, we introduce DEER-3D, an error-driven framework following a structured "Decompose, Diagnostic Evaluation, Edit, and Re-train" workflow, rather than broadly or randomly augmenting data as in conventional approaches. Specifically, upon identifying a grounding failure of the 3D-LLM, our framework first diagnoses the exact predicate-level error (e.g., attribute or spatial relation). It then executes minimal, predicate-aligned 3D scene edits, such as recoloring or repositioning, to produce targeted counterfactual supervision for iterative model fine-tuning, significantly enhancing grounding accuracy. We evaluate our editing pipeline across multiple benchmarks for 3D grounding and scene understanding tasks, consistently demonstrating improvements across all evaluated datasets through iterative refinement. DEER-3D underscores the effectiveness of targeted, error-driven scene editing in bridging linguistic reasoning capabilities with spatial grounding in 3D LLMs.
PDF42December 1, 2025