ChatPaper.aiChatPaper

LEGO-Eval: Op Weg Naar Fijngranulaire Evaluatie van het Synthetiseren van 3D Belichaamde Omgevingen met Tool-Augmentatie

LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

November 4, 2025
Auteurs: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI

Samenvatting

Ondanks recente vooruitgang in het gebruik van grote taalmodellen (LLM's) voor het automatisch genereren van 3D-scènes, ontbreekt het gegenereerde scènes vaak aan realistische ruimtelijke indelingen en objectattributen die in de echte wereld voorkomen. Aangezien dit probleem voortkomt uit onvoldoende gedetailleerde, grofkorrelige instructies, wordt het cruciaal om de synthese van 3D-scènes te bevorderen die wordt geleid door meer gedetailleerde, fijnmazige instructies die de echte wereld weerspiegelen. Zonder dergelijke realistische scènes kan het trainen van belichaamde agents in onrealistische omgevingen ertoe leiden dat ze vooronderstellingen leren die sterk afwijken van de fysica en semantiek van de echte wereld, wat hun prestaties bij inzet verslechtert. Het verifiëren van de afstemming tussen de fijnmazige instructie en de gegenereerde scène is daarom essentieel voor effectief leren. Huidige evaluatiemethoden, zoals CLIPScore en vision-language modellen (VLM's), slagen er echter vaak niet in om deze afstemming betrouwbaar te beoordelen. Dit gebrek komt vooral voort uit hun oppervlakkige begrip van 3D-scènes, wat vaak leidt tot slecht gefundeerde scènecomponenten. Om dit aan te pakken, introduceren we LEGO-Eval, een evaluatieraamwerk uitgerust met diverse tools die zijn ontworpen om scènecomponenten expliciet te funderen, waardoor nauwkeurigere afstemmingsevaluaties mogelijk worden. We presenteren ook LEGO-Bench, een benchmark met gedetailleerde instructies die complexe lay-outs en attributen van realistische omgevingen specificeren. Experimenten tonen aan dat LEGO-Eval VLM-as-a-judge overtreft met een 0,41 hogere F1-score bij het beoordelen van scène-instructie-afstemming. Benchmarken met LEGO-Bench onthult aanzienlijke beperkingen in huidige generatiemethoden. Over alle geëvalueerde benaderingen bereikten de slagingspercentages maximaal 10% voor het genereren van scènes die volledig voldoen aan fijnmazige instructies.
English
Despite recent progress in using Large Language Models (LLMs) for automatically generating 3D scenes, generated scenes often lack realistic spatial layouts and object attributes found in real-world environments. As this problem stems from insufficiently detailed, coarse-grained instructions, advancing 3D scene synthesis guided by more detailed, fine-grained instructions that reflect real-world environments becomes crucial. Without such realistic scenes, training embodied agents in unrealistic environments can lead them to learn priors that diverge significantly from real-world physics and semantics, degrading their performance when deployed. Thus, verifying the alignment between the fine-grained instruction and the generated scene is essential for effective learning. However, current evaluation methods, such as CLIPScore and vision-language models (VLMs), often fail to reliably assess such alignment. This shortcoming arises primarily from their shallow understanding of 3D scenes, which often leads to improperly grounded scene components. To address this, we introduce LEGO-Eval, an evaluation framework equipped with diverse tools designed to explicitly ground scene components, enabling more accurate alignment assessments. We also present LEGO-Bench, a benchmark of detailed instructions that specify complex layouts and attributes of real-world environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with LEGO-Bench reveals significant limitations in current generation methods. Across all evaluated approaches, success rates reached at most 10% in generating scenes that fully align with fine-grained instructions.
PDF462December 1, 2025