LEGO-Eval: Verso una Valutazione Granulare della Sintesi di Ambienti Incarnati 3D con Aumento Strumentale
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
November 4, 2025
Autori: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI
Abstract
Nonostante i recenti progressi nell'uso di Large Language Model (LLM) per la generazione automatica di scene 3D, le scene generate spesso mancano di layout spaziali realistici e attributi oggettuali riscontrabili negli ambienti del mondo reale. Poiché questo problema deriva da istruzioni insufficientemente dettagliate e troppo granulari, diventa cruciale progredire nella sintesi di scene 3D guidata da istruzioni più dettagliate e fini che riflettano gli ambienti reali. Senza scene così realistiche, l'addestramento di agenti embodied in ambienti non realistici può portarli ad apprendere priorità che divergono significativamente dalla fisica e dalla semantica del mondo reale, degradando le loro prestazioni una volta dispiegati. Pertanto, verificare l'allineamento tra l'istruzione fine e la scena generata è essenziale per un apprendimento efficace. Tuttavia, i metodi di valutazione attuali, come CLIPScore e i modelli visione-linguaggio (VLM), spesso non riescono a valutare in modo affidabile tale allineamento. Questa carenza deriva principalmente dalla loro comprensione superficiale delle scene 3D, che spesso porta a componenti della scena non adeguatamente ancorati alla realtà. Per affrontare questo problema, introduciamo LEGO-Eval, un framework di valutazione dotato di strumenti diversificati progettati per ancorare esplicitamente i componenti della scena, consentendo valutazioni di allineamento più accurate. Presentiamo anche LEGO-Bench, un benchmark di istruzioni dettagliate che specificano layout complessi e attributi di ambienti del mondo reale. Gli esperimenti dimostrano che LEGO-Eval supera il giudizio basato su VLM di 0.41 punti F1 nella valutazione dell'allineamento scena-istruzione. Il benchmarking con LEGO-Bench rivela significative limitazioni nei metodi di generazione attuali. In tutti gli approcci valutati, i tassi di successo hanno raggiunto al massimo il 10% nella generazione di scene completamente allineate con le istruzioni fini.
English
Despite recent progress in using Large Language Models (LLMs) for
automatically generating 3D scenes, generated scenes often lack realistic
spatial layouts and object attributes found in real-world environments. As this
problem stems from insufficiently detailed, coarse-grained instructions,
advancing 3D scene synthesis guided by more detailed, fine-grained instructions
that reflect real-world environments becomes crucial. Without such realistic
scenes, training embodied agents in unrealistic environments can lead them to
learn priors that diverge significantly from real-world physics and semantics,
degrading their performance when deployed. Thus, verifying the alignment
between the fine-grained instruction and the generated scene is essential for
effective learning. However, current evaluation methods, such as CLIPScore and
vision-language models (VLMs), often fail to reliably assess such alignment.
This shortcoming arises primarily from their shallow understanding of 3D
scenes, which often leads to improperly grounded scene components. To address
this, we introduce LEGO-Eval, an evaluation framework equipped with diverse
tools designed to explicitly ground scene components, enabling more accurate
alignment assessments. We also present LEGO-Bench, a benchmark of detailed
instructions that specify complex layouts and attributes of real-world
environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge
by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with
LEGO-Bench reveals significant limitations in current generation methods.
Across all evaluated approaches, success rates reached at most 10% in
generating scenes that fully align with fine-grained instructions.