ChatPaper.aiChatPaper

LEGO-Eval: Hacia una Evaluación de Grano Fino en la Síntesis de Entornos Corporizados 3D con Aumento de Herramientas

LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

November 4, 2025
Autores: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI

Resumen

A pesar de los recientes avances en el uso de Modelos de Lenguaje a Gran Escala (LLMs) para generar automáticamente escenas 3D, las escenas generadas a menudo carecen de distribuciones espaciales realistas y atributos de objetos presentes en entornos del mundo real. Dado que este problema surge de instrucciones insuficientemente detalladas y de grano grueso, avanzar en la síntesis de escenas 3D guiada por instrucciones más detalladas y de grano fino que reflejen entornos reales se vuelve crucial. Sin tales escenas realistas, entrenar agentes corporizados en entornos poco realistas puede hacer que aprendan priores que divergen significativamente de la física y la semántica del mundo real, degradando su rendimiento cuando se despliegan. Por lo tanto, verificar la alineación entre la instrucción de grano fino y la escena generada es esencial para un aprendizaje efectivo. Sin embargo, los métodos de evaluación actuales, como CLIPScore y los modelos de visión y lenguaje (VLMs), a menudo no logran evaluar de manera fiable dicha alineación. Esta deficiencia surge principalmente de su comprensión superficial de las escenas 3D, lo que a menudo conduce a componentes de la escena incorrectamente anclados. Para abordar esto, presentamos LEGO-Eval, un marco de evaluación equipado con diversas herramientas diseñadas para anclar explícitamente los componentes de la escena, permitiendo evaluaciones de alineación más precisas. También presentamos LEGO-Bench, un benchmark de instrucciones detalladas que especifican disposiciones complejas y atributos de entornos del mundo real. Los experimentos demuestran que LEGO-Eval supera al método VLM-como-juez por 0.41 puntos de puntuación F1 en la evaluación de la alineación escena-instrucción. La evaluación comparativa con LEGO-Bench revela limitaciones significativas en los métodos de generación actuales. En todos los enfoques evaluados, las tasas de éxito alcanzaron como máximo un 10% en la generación de escenas que se alinean completamente con las instrucciones de grano fino.
English
Despite recent progress in using Large Language Models (LLMs) for automatically generating 3D scenes, generated scenes often lack realistic spatial layouts and object attributes found in real-world environments. As this problem stems from insufficiently detailed, coarse-grained instructions, advancing 3D scene synthesis guided by more detailed, fine-grained instructions that reflect real-world environments becomes crucial. Without such realistic scenes, training embodied agents in unrealistic environments can lead them to learn priors that diverge significantly from real-world physics and semantics, degrading their performance when deployed. Thus, verifying the alignment between the fine-grained instruction and the generated scene is essential for effective learning. However, current evaluation methods, such as CLIPScore and vision-language models (VLMs), often fail to reliably assess such alignment. This shortcoming arises primarily from their shallow understanding of 3D scenes, which often leads to improperly grounded scene components. To address this, we introduce LEGO-Eval, an evaluation framework equipped with diverse tools designed to explicitly ground scene components, enabling more accurate alignment assessments. We also present LEGO-Bench, a benchmark of detailed instructions that specify complex layouts and attributes of real-world environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with LEGO-Bench reveals significant limitations in current generation methods. Across all evaluated approaches, success rates reached at most 10% in generating scenes that fully align with fine-grained instructions.
PDF462December 1, 2025