대규모 언어 모델의 3차원 접지를 위한 오류 주도 장면 편집
Error-Driven Scene Editing for 3D Grounding in Large Language Models
November 18, 2025
저자: Yue Zhang, Zun Wang, Han Lin, Jialu Li, Jianing Yang, Yonatan Bitton, Idan Szpektor, Mohit Bansal
cs.AI
초록
3D-LLM의 최근 발전에도 불구하고, 3D 환경에서 언어를 시각적 및 공간적 요소에 정확하게 연결하는(그라운딩) 데에는 여전히 한계가 있습니다. 이러한 한계는 부분적으로 부족한 3D 자원으로 인해 공간적 이해보다는 언어 추론에 중점을 둔 훈련 데이터에서 비롯되며, 이로 인해 내재된 그라운딩 편향이 해결되지 않고 있습니다. 이를 해결하기 위해 우리는 정교한 공간 조작을 통해 이러한 편향을 완화하는 정확한 시각적 반사실을 생성하는 핵심 메커니즘으로 3D 장면 편집을 제안합니다. 이 방법은 값비싼 장면 재구성이나 대규모 3D 데이터 수집이 필요하지 않습니다. 나아가, 이러한 편집을 표적화하고 모델의 특정 약점을 직접적으로 해결하기 위해 우리는 DEER-3D를 소개합니다. 이는 기존 접근법처럼 데이터를 광범위하거나 무작위로 증강하는 대신, "분해, 진단적 평가, 편집, 재훈련"이라는 구조화된 워크플로우를 따르는 오류 주도형 프레임워크입니다. 구체적으로, 3D-LLM의 그라운딩 실패를 식별하면, 우리의 프레임워크는 먼저 (예: 속성 또는 공간 관계와 같은) 정확한 술어 수준의 오류를 진단합니다. 그런 다음 재색칠이나 위치 변경과 같은 최소한의, 술어에 맞춘 3D 장면 편집을 실행하여 반복적인 모델 미세 조정을 위한 표적 반사실 감독을 생성함으로써 그라운딩 정확도를 크게 향상시킵니다. 우리는 3D 그라운딩 및 장면 이해 작업을 위한 여러 벤치마크에서 이 편집 파이프라인을 평가하며, 반복적 정제를 통해 모든 평가 데이터셋에서 일관되게 향상된 성능을 입증합니다. DEER-3D는 표적화된 오류 주도형 장면 편집이 3D LLM의 언어 추론 능력과 공간 그라운딩을 연결하는 데 효과적임을 강조합니다.
English
Despite recent progress in 3D-LLMs, they remain limited in accurately grounding language to visual and spatial elements in 3D environments. This limitation stems in part from training data that focuses on language reasoning rather than spatial understanding due to scarce 3D resources, leaving inherent grounding biases unresolved. To address this, we propose 3D scene editing as a key mechanism to generate precise visual counterfactuals that mitigate these biases through fine-grained spatial manipulation, without requiring costly scene reconstruction or large-scale 3D data collection. Furthermore, to make these edits targeted and directly address the specific weaknesses of the model, we introduce DEER-3D, an error-driven framework following a structured "Decompose, Diagnostic Evaluation, Edit, and Re-train" workflow, rather than broadly or randomly augmenting data as in conventional approaches. Specifically, upon identifying a grounding failure of the 3D-LLM, our framework first diagnoses the exact predicate-level error (e.g., attribute or spatial relation). It then executes minimal, predicate-aligned 3D scene edits, such as recoloring or repositioning, to produce targeted counterfactual supervision for iterative model fine-tuning, significantly enhancing grounding accuracy. We evaluate our editing pipeline across multiple benchmarks for 3D grounding and scene understanding tasks, consistently demonstrating improvements across all evaluated datasets through iterative refinement. DEER-3D underscores the effectiveness of targeted, error-driven scene editing in bridging linguistic reasoning capabilities with spatial grounding in 3D LLMs.