L3GO : Agents linguistiques avec chaîne de pensées 3D pour la génération d'objets non conventionnels
L3GO: Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects
February 14, 2024
Auteurs: Yutaro Yamada, Khyathi Chandu, Yuchen Lin, Jack Hessel, Ilker Yildirim, Yejin Choi
cs.AI
Résumé
Les modèles de génération d'images basés sur la diffusion, tels que DALL-E 3 et Stable Diffusion-XL, démontrent des capacités remarquables pour produire des images aux compositions réalistes et uniques. Cependant, ces modèles ne sont pas robustes lorsqu'il s'agit de raisonner avec précision sur les configurations physiques et spatiales des objets, en particulier lorsqu'ils sont confrontés à des descriptions non conventionnelles, donc hors distribution, comme "une chaise à cinq pieds". Dans cet article, nous proposons un agent linguistique avec une chaîne de pensées 3D (L3GO), une approche au moment de l'inférence capable de raisonner sur la génération de maillages 3D par parties pour des objets non conventionnels avec lesquels les modèles de diffusion actuels basés sur les données peinent. Plus concrètement, nous utilisons des modèles de langage de grande taille comme agents pour composer un objet désiré par essais et erreurs dans un environnement de simulation 3D. Pour faciliter notre étude, nous développons un nouveau benchmark, les Objets Non Conventionnellement Réalisables (UFO), ainsi que SimpleBlenv, un environnement wrapper construit sur Blender où les agents linguistiques peuvent construire et assembler des blocs de construction atomiques via des appels API. Les évaluations humaines et automatiques avec GPT-4V montrent que notre approche surpasse le GPT-4 standard et d'autres agents linguistiques (par exemple, ReAct et Reflexion) pour la génération de maillages 3D sur ShapeNet. De plus, lorsqu'elle est testée sur notre benchmark UFO, notre approche surpasse d'autres modèles de pointe en génération d'images 2D et 3D à partir de texte, selon l'évaluation humaine.
English
Diffusion-based image generation models such as DALL-E 3 and Stable
Diffusion-XL demonstrate remarkable capabilities in generating images with
realistic and unique compositions. Yet, these models are not robust in
precisely reasoning about physical and spatial configurations of objects,
especially when instructed with unconventional, thereby out-of-distribution
descriptions, such as "a chair with five legs". In this paper, we propose a
language agent with chain-of-3D-thoughts (L3GO), an inference-time approach
that can reason about part-based 3D mesh generation of unconventional objects
that current data-driven diffusion models struggle with. More concretely, we
use large language models as agents to compose a desired object via
trial-and-error within the 3D simulation environment. To facilitate our
investigation, we develop a new benchmark, Unconventionally Feasible Objects
(UFO), as well as SimpleBlenv, a wrapper environment built on top of Blender
where language agents can build and compose atomic building blocks via API
calls. Human and automatic GPT-4V evaluations show that our approach surpasses
the standard GPT-4 and other language agents (e.g., ReAct and Reflexion) for 3D
mesh generation on ShapeNet. Moreover, when tested on our UFO benchmark, our
approach outperforms other state-of-the-art text-to-2D image and text-to-3D
models based on human evaluation.Summary
AI-Generated Summary