LEGO-Eval: Rumo a uma Avaliação Granular da Síntese de Ambientes de Embodiment 3D com Aumento de Ferramentas
LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation
November 4, 2025
Autores: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI
Resumo
Apesar dos recentes avanços na utilização de Modelos de Linguagem de Grande Porte (LLMs) para a geração automática de cenas 3D, as cenas geradas frequentemente carecem de layouts espaciais realistas e atributos de objetos encontrados em ambientes do mundo real. Como este problema decorre de instruções insuficientemente detalhadas e de granularidade grossa, torna-se crucial avançar a síntese de cenas 3D guiada por instruções mais detalhadas e de granularidade fina que reflitam ambientes reais. Sem tais cenas realistas, o treinamento de agentes incorporados em ambientes não realistas pode levá-los a aprender priores que divergem significativamente da física e da semântica do mundo real, degradando o seu desempenho quando implantados. Assim, verificar o alinhamento entre a instrução de granularidade fina e a cena gerada é essencial para uma aprendizagem eficaz. No entanto, os métodos de avaliação atuais, como o CLIPScore e os modelos de visão e linguagem (VLMs), frequentemente falham em avaliar de forma confiável esse alinhamento. Esta deficiência surge principalmente da sua compreensão superficial de cenas 3D, o que muitas vezes leva a componentes da cena incorretamente fundamentados. Para resolver isto, introduzimos o LEGO-Eval, uma estrutura de avaliação equipada com diversas ferramentas concebidas para fundamentar explicitamente os componentes da cena, permitindo avaliações de alinhamento mais precisas. Apresentamos também o LEGO-Bench, um benchmark de instruções detalhadas que especificam layouts complexos e atributos de ambientes do mundo real. Experiências demonstram que o LEGO-Eval supera o VLM-como-juiz por 0,41 no F1-score na avaliação do alinhamento cena-instrução. A avaliação comparativa com o LEGO-Bench revela limitações significativas nos métodos de geração atuais. Em todas as abordagens avaliadas, as taxas de sucesso atingiram no máximo 10% na geração de cenas que se alinham totalmente com instruções de granularidade fina.
English
Despite recent progress in using Large Language Models (LLMs) for
automatically generating 3D scenes, generated scenes often lack realistic
spatial layouts and object attributes found in real-world environments. As this
problem stems from insufficiently detailed, coarse-grained instructions,
advancing 3D scene synthesis guided by more detailed, fine-grained instructions
that reflect real-world environments becomes crucial. Without such realistic
scenes, training embodied agents in unrealistic environments can lead them to
learn priors that diverge significantly from real-world physics and semantics,
degrading their performance when deployed. Thus, verifying the alignment
between the fine-grained instruction and the generated scene is essential for
effective learning. However, current evaluation methods, such as CLIPScore and
vision-language models (VLMs), often fail to reliably assess such alignment.
This shortcoming arises primarily from their shallow understanding of 3D
scenes, which often leads to improperly grounded scene components. To address
this, we introduce LEGO-Eval, an evaluation framework equipped with diverse
tools designed to explicitly ground scene components, enabling more accurate
alignment assessments. We also present LEGO-Bench, a benchmark of detailed
instructions that specify complex layouts and attributes of real-world
environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge
by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with
LEGO-Bench reveals significant limitations in current generation methods.
Across all evaluated approaches, success rates reached at most 10% in
generating scenes that fully align with fine-grained instructions.