ChatPaper.aiChatPaper

LEGO-Eval: Auf dem Weg zu einer feinkörnigen Bewertung der Synthese verkörperter 3D-Umgebungen mit Werkzeugaugmentation

LEGO-Eval: Towards Fine-Grained Evaluation on Synthesizing 3D Embodied Environments with Tool Augmentation

November 4, 2025
papers.authors: Gyeom Hwangbo, Hyungjoo Chae, Minseok Kang, Hyeonjong Ju, Soohyun Oh, Jinyoung Yeo
cs.AI

papers.abstract

Trotz jüngster Fortschritte bei der Verwendung großer Sprachmodelle (LLMs) zur automatischen Generierung von 3D-Szenen mangelt es generierten Szenen oft an realistischen räumlichen Anordnungen und Objektattributen, wie sie in realen Umgebungen vorkommen. Da dieses Problem auf unzureichend detaillierte, grobgranulare Anweisungen zurückzuführen ist, wird die Weiterentwicklung der 3D-Szenensynthese, die durch detailliertere, feingranulare Anweisungen geleitet wird, welche reale Umgebungen widerspiegeln, entscheidend. Ohne solche realistischen Szenen können in unrealistischen Umgebungen trainierte embodied Agents Prioritäten erlernen, die erheblich von der realen Physik und Semantik abweichen, was ihre Leistung beim Einsatz beeinträchtigt. Daher ist die Überprüfung der Übereinstimmung zwischen der feingranularen Anweisung und der generierten Szene für effektives Lernen unerlässlich. Aktuelle Bewertungsmethoden wie CLIPScore und Vision-Language-Models (VLMs) scheitern jedoch häufig daran, diese Übereinstimmung zuverlässig zu bewerten. Diese Schwäche resultiert hauptsächlich aus ihrem oberflächlichen Verständnis von 3D-Szenen, was oft zu unzureichend fundierten Szenenkomponenten führt. Um dies zu adressieren, stellen wir LEGO-Eval vor, ein Bewertungsframework, das mit diversen Werkzeugen ausgestattet ist, die explizit darauf ausgelegt sind, Szenenkomponenten zu verankern und so genauere Übereinstimmungsbewertungen zu ermöglichen. Wir präsentieren zudem LEGO-Bench, einen Benchmark mit detaillierten Anweisungen, die komplexe Anordnungen und Attribute realer Umgebungen spezifizieren. Experimente zeigen, dass LEGO-Eval bei der Bewertung der Szenen-Anweisungs-Übereinstimmung VLM-as-a-judge um einen F1-Score von 0,41 übertrifft. Benchmarking mit LEGO-Bench deckt erhebliche Einschränkungen aktueller Generierungsmethoden auf. Über alle evaluierten Ansätze hinweg erreichten die Erfolgsquoten maximal 10% bei der Generierung von Szenen, die vollständig mit den feingranularen Anweisungen übereinstimmen.
English
Despite recent progress in using Large Language Models (LLMs) for automatically generating 3D scenes, generated scenes often lack realistic spatial layouts and object attributes found in real-world environments. As this problem stems from insufficiently detailed, coarse-grained instructions, advancing 3D scene synthesis guided by more detailed, fine-grained instructions that reflect real-world environments becomes crucial. Without such realistic scenes, training embodied agents in unrealistic environments can lead them to learn priors that diverge significantly from real-world physics and semantics, degrading their performance when deployed. Thus, verifying the alignment between the fine-grained instruction and the generated scene is essential for effective learning. However, current evaluation methods, such as CLIPScore and vision-language models (VLMs), often fail to reliably assess such alignment. This shortcoming arises primarily from their shallow understanding of 3D scenes, which often leads to improperly grounded scene components. To address this, we introduce LEGO-Eval, an evaluation framework equipped with diverse tools designed to explicitly ground scene components, enabling more accurate alignment assessments. We also present LEGO-Bench, a benchmark of detailed instructions that specify complex layouts and attributes of real-world environments. Experiments demonstrate that LEGO-Eval outperforms VLM-as-a-judge by 0.41 F1 score in assessing scene-instruction alignment. Benchmarking with LEGO-Bench reveals significant limitations in current generation methods. Across all evaluated approaches, success rates reached at most 10% in generating scenes that fully align with fine-grained instructions.
PDF462December 1, 2025