LEGO-Eval: в сторону детальной оценки синтеза воплощенных 3D-сред с инструментальным расширением
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
November 4, 2025
Авторы: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI
Аннотация
Несмотря на недавний прогресс в использовании больших языковых моделей (LLM) для автоматического создания 3D-сцен, генерируемые сцены часто лишены реалистичных пространственных компоновок и атрибутов объектов, характерных для реальных сред. Поскольку эта проблема проистекает из недостаточно детализированных, грубых инструкций, становится критически важным продвижение синтеза 3D-сцен, направляемого более детальными, тонкими инструкциями, отражающими реальные среды. Без таких реалистичных сцен обучение воплощенных агентов в нереалистичных условиях может привести к формированию у них представлений, значительно расходящихся с реальной физикой и семантикой мира, что ухудшает их производительность при развертывании. Таким образом, проверка соответствия между детализированной инструкцией и сгенерированной сценой необходима для эффективного обучения. Однако современные методы оценки, такие как CLIPScore и визуально-языковые модели (VLM), часто неспособны надежно оценить такое соответствие. Этот недостаток возникает в основном из-за их поверхностного понимания 3D-сцен, что часто приводит к неправильной обоснованности компонентов сцены. Чтобы решить эту проблему, мы представляем LEGO-Eval, фреймворк для оценки, оснащенный разнообразными инструментами, предназначенными для явного обоснования компонентов сцены, что позволяет проводить более точную оценку соответствия. Мы также представляем LEGO-Bench, эталонный набор детализированных инструкций, которые задают сложные компоновки и атрибуты реальных сред. Эксперименты показывают, что LEGO-Eval превосходит подход "VLM-как-судья" на 0,41 балла F1 при оценке соответствия сцены и инструкции. Тестирование с помощью LEGO-Bench выявляет значительные ограничения современных методов генерации. Для всех оцененных подходов процент успеха составил не более 10% в создании сцен, полностью соответствующих детализированным инструкциям.
English
Despite recent progress in using Large Language Models (LLMs) for
automatically generating 3D scenes, generated scenes often lack realistic
spatial layouts and object attributes found in real-world environments. As this
problem stems from insufficiently detailed, coarse-grained instructions,
advancing 3D scene synthesis guided by more detailed, fine-grained instructions
that reflect real-world environments becomes crucial. Without such realistic
scenes, training embodied agents in unrealistic environments can lead them to
learn priors that diverge significantly from real-world physics and semantics,
degrading their performance when deployed. Thus, verifying the alignment
between the fine-grained instruction and the generated scene is essential for
effective learning. However, current evaluation methods, such as CLIPScore and
vision-language models (VLMs), often fail to reliably assess such alignment.
This shortcoming arises primarily from their shallow understanding of 3D
scenes, which often leads to improperly grounded scene components. To address
this, we introduce LEGO-Eval, an evaluation framework equipped with diverse
tools designed to explicitly ground scene components, enabling more accurate
alignment assessments. We also present LEGO-Bench, a benchmark of detailed
instructions that specify complex layouts and attributes of real-world
environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge
by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with
LEGO-Bench reveals significant limitations in current generation methods.
Across all evaluated approaches, success rates reached at most 10% in
generating scenes that fully align with fine-grained instructions.