LEGO-Eval : Vers une évaluation granulaire de la synthèse d'environnements 3D incarnés avec augmentation par outils
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
November 4, 2025
papers.authors: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI
papers.abstract
Malgré les progrès récents dans l'utilisation des Grands Modèles de Langage (LLMs) pour générer automatiquement des scènes 3D, les scènes produites manquent souvent de la cohérence spatiale réaliste et des attributs d'objets présents dans les environnements réels. Ce problème découlant d'instructions insuffisamment détaillées et trop générales, il devient crucial de faire progresser la synthèse de scènes 3D guidée par des instructions plus détaillées et granulaires reflétant les environnements du monde réel. Sans de telles scènes réalistes, l'entraînement d'agents incarnés dans des environnements non réalistes peut les amener à apprendre des prérequis qui s'écartent significativement de la physique et de la sémantique du monde réel, dégradant leurs performances une fois déployés. Ainsi, vérifier l'alignement entre l'instruction granulaire et la scène générée est essentiel pour un apprentissage efficace. Cependant, les méthodes d'évaluation actuelles, comme le CLIPScore et les modèles vision-langage (VLMs), échouent souvent à évaluer cet alignement de manière fiable. Cette lacune provient principalement de leur compréhension superficielle des scènes 3D, qui conduit souvent à des composants de scène mal ancrés. Pour y remédier, nous présentons LEGO-Eval, un cadre d'évaluation équipé d'outils divers conçus pour ancrer explicitement les composants de la scène, permettant des évaluations d'alignement plus précises. Nous présentons également LEGO-Bench, un benchmark d'instructions détaillées spécifiant des agencements complexes et les attributs d'environnements réels. Les expériences démontrent que LEGO-Eval surpasse l'approche "VLM-comme-juge" par un score F1 de 0,41 pour évaluer l'alignement scène-instruction. Le benchmarking avec LEGO-Bench révèle des limitations significatives dans les méthodes de génération actuelles. Pour toutes les approches évaluées, les taux de réussite atteignent au maximum 10% pour générer des scènes entièrement alignées avec des instructions granulaires.
English
Despite recent progress in using Large Language Models (LLMs) for
automatically generating 3D scenes, generated scenes often lack realistic
spatial layouts and object attributes found in real-world environments. As this
problem stems from insufficiently detailed, coarse-grained instructions,
advancing 3D scene synthesis guided by more detailed, fine-grained instructions
that reflect real-world environments becomes crucial. Without such realistic
scenes, training embodied agents in unrealistic environments can lead them to
learn priors that diverge significantly from real-world physics and semantics,
degrading their performance when deployed. Thus, verifying the alignment
between the fine-grained instruction and the generated scene is essential for
effective learning. However, current evaluation methods, such as CLIPScore and
vision-language models (VLMs), often fail to reliably assess such alignment.
This shortcoming arises primarily from their shallow understanding of 3D
scenes, which often leads to improperly grounded scene components. To address
this, we introduce LEGO-Eval, an evaluation framework equipped with diverse
tools designed to explicitly ground scene components, enabling more accurate
alignment assessments. We also present LEGO-Bench, a benchmark of detailed
instructions that specify complex layouts and attributes of real-world
environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge
by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with
LEGO-Bench reveals significant limitations in current generation methods.
Across all evaluated approaches, success rates reached at most 10% in
generating scenes that fully align with fine-grained instructions.