LEGO-Eval: ツール拡張による3D身体化環境の合成に向けた詳細な評価フレームワーク
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
November 4, 2025
著者: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI
要旨
大規模言語モデル(LLM)を用いた3Dシーン自動生成において近年進展が見られるものの、生成されたシーンは実世界環境に見られる現実的な空間配置や物体属性を欠くことが多い。この問題は不十分に詳細で粗い指示に起因するため、実世界環境を反映したより詳細できめ細かい指示に導かれた3Dシーン合成の進展が重要となる。こうした現実的なシーンが不足すると、非現実的な環境で具現化エージェントを訓練した場合、実世界の物理法則や意味論から大きく逸脱した事前分布を学習させ、実稼働時の性能低下を招く恐れがある。したがって、きめ細かい指示と生成シーンとの整合性を検証することが効果的な学習には不可欠である。しかし現在の評価手法(CLIPScoreや視覚言語モデルなど)は、このような整合性を確実に評価できないことが多い。この欠点は主に、3Dシーンに対する浅い理解に起因し、不適切に接地されたシーン構成要素を生みやすい。この問題に対処するため、我々はLEGO-Evalを提案する。これはシーン構成要素を明示的に接地する多様なツールを備えた評価フレームワークであり、より正確な整合性評価を可能にする。さらに、実世界環境の複雑な配置と属性を規定する詳細な指示からなるベンチマークLEGO-Benchを提示する。実験により、LEGO-Evalはシーンと指示の整合性評価においてVLM裁判官手法をF1スコアで0.41上回ることを実証した。LEGO-Benchによるベンチマーク評価は、現在の生成手法に重大な限界があることを明らかにしている。評価対象とした全ての手法において、きめ細かい指示と完全に整合するシーンを生成する成功率は最大でも10%に留まった。
English
Despite recent progress in using Large Language Models (LLMs) for
automatically generating 3D scenes, generated scenes often lack realistic
spatial layouts and object attributes found in real-world environments. As this
problem stems from insufficiently detailed, coarse-grained instructions,
advancing 3D scene synthesis guided by more detailed, fine-grained instructions
that reflect real-world environments becomes crucial. Without such realistic
scenes, training embodied agents in unrealistic environments can lead them to
learn priors that diverge significantly from real-world physics and semantics,
degrading their performance when deployed. Thus, verifying the alignment
between the fine-grained instruction and the generated scene is essential for
effective learning. However, current evaluation methods, such as CLIPScore and
vision-language models (VLMs), often fail to reliably assess such alignment.
This shortcoming arises primarily from their shallow understanding of 3D
scenes, which often leads to improperly grounded scene components. To address
this, we introduce LEGO-Eval, an evaluation framework equipped with diverse
tools designed to explicitly ground scene components, enabling more accurate
alignment assessments. We also present LEGO-Bench, a benchmark of detailed
instructions that specify complex layouts and attributes of real-world
environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge
by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with
LEGO-Bench reveals significant limitations in current generation methods.
Across all evaluated approaches, success rates reached at most 10% in
generating scenes that fully align with fine-grained instructions.