LEGO-Eval: 도구 증강을 통한 3D 체화 환경 합성에 대한 세분화된 평가 방향
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
November 4, 2025
저자: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI
초록
대규모 언어 모델(LLM)을 활용한 3D 장면 자동 생성 기술의 최근 발전에도 불구하고, 생성된 장면들은 실제 환경에서 볼 수 있는 현실적인 공간 배치와 객체 속성을 종종 결여하고 있습니다. 이러한 문제는 충분히 상세하지 않은 coarse-grained 지시문에서 비롯되므로, 실제 환경을 반영한 보다 세밀한 fine-grained 지시문에 따라 3D 장면 합성을 발전시키는 것이 중요해졌습니다. 이러한 현실적인 장면이 없으면, 비현실적인 환경에서 구현 에이전트를 훈련시킬 때 실제 세계의 물리 법칙 및 의미론과 크게 동떨어진 사전 지식을 학습하게 되어, 실제 배포 시 성능이 저하될 수 있습니다. 따라서 효과적인 학습을 위해서는 fine-grained 지시문과 생성된 장 간의 정합성을 검증하는 것이 필수적입니다. 그러나 CLIPScore 및 vision-language 모델(VLM)과 같은 현재의 평가 방법들은 이러한 정합성을 신뢰성 있게 평가하지 못하는 경우가 많습니다. 이러한 단점은 주로 3D 장면에 대한 피상적인 이해에서 비롯되며, 이는 종종 장면 구성 요소들의 적절한 grounding 실패로 이어집니다. 이를 해결하기 위해, 본 연구에서는 다양한 도구를 갖춘 평가 프레임워크인 LEGO-Eval을 소개합니다. LEGO-Eval은 장면 구성 요소들을 명시적으로 grounding하도록 설계되어 보다 정확한 정합성 평가를 가능하게 합니다. 또한 실제 환경의 복잡한 배치와 속성을 상세히 명시하는 벤치마크인 LEGO-Bench을 제시합니다. 실험 결과, LEGO-Eval은 장면-지시문 정합성 평가에서 VLM-as-a-judge 방법보다 0.41 높은 F1 점수를 달성했습니다. LEGO-Bench을 이용한 벤치마킹 결과, 현재의 생성 방법들이 상당한 한계를 보임을 확인했습니다. 평가된 모든 접근법에서 fine-grained 지시문과 완전히 정합하는 장면을 생성하는 데 대한 성공률은 최대 10%에 그쳤습니다.
English
Despite recent progress in using Large Language Models (LLMs) for
automatically generating 3D scenes, generated scenes often lack realistic
spatial layouts and object attributes found in real-world environments. As this
problem stems from insufficiently detailed, coarse-grained instructions,
advancing 3D scene synthesis guided by more detailed, fine-grained instructions
that reflect real-world environments becomes crucial. Without such realistic
scenes, training embodied agents in unrealistic environments can lead them to
learn priors that diverge significantly from real-world physics and semantics,
degrading their performance when deployed. Thus, verifying the alignment
between the fine-grained instruction and the generated scene is essential for
effective learning. However, current evaluation methods, such as CLIPScore and
vision-language models (VLMs), often fail to reliably assess such alignment.
This shortcoming arises primarily from their shallow understanding of 3D
scenes, which often leads to improperly grounded scene components. To address
this, we introduce LEGO-Eval, an evaluation framework equipped with diverse
tools designed to explicitly ground scene components, enabling more accurate
alignment assessments. We also present LEGO-Bench, a benchmark of detailed
instructions that specify complex layouts and attributes of real-world
environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge
by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with
LEGO-Bench reveals significant limitations in current generation methods.
Across all evaluated approaches, success rates reached at most 10% in
generating scenes that fully align with fine-grained instructions.