L3GO : Agents linguistiques avec chaîne de pensées 3D pour la génération d'objets non conventionnels

papers.abstract

Les modèles de génération d'images basés sur la diffusion, tels que DALL-E 3 et Stable Diffusion-XL, démontrent des capacités remarquables pour produire des images aux compositions réalistes et uniques. Cependant, ces modèles ne sont pas robustes lorsqu'il s'agit de raisonner avec précision sur les configurations physiques et spatiales des objets, en particulier lorsqu'ils sont confrontés à des descriptions non conventionnelles, donc hors distribution, comme "une chaise à cinq pieds". Dans cet article, nous proposons un agent linguistique avec une chaîne de pensées 3D (L3GO), une approche au moment de l'inférence capable de raisonner sur la génération de maillages 3D par parties pour des objets non conventionnels avec lesquels les modèles de diffusion actuels basés sur les données peinent. Plus concrètement, nous utilisons des modèles de langage de grande taille comme agents pour composer un objet désiré par essais et erreurs dans un environnement de simulation 3D. Pour faciliter notre étude, nous développons un nouveau benchmark, les Objets Non Conventionnellement Réalisables (UFO), ainsi que SimpleBlenv, un environnement wrapper construit sur Blender où les agents linguistiques peuvent construire et assembler des blocs de construction atomiques via des appels API. Les évaluations humaines et automatiques avec GPT-4V montrent que notre approche surpasse le GPT-4 standard et d'autres agents linguistiques (par exemple, ReAct et Reflexion) pour la génération de maillages 3D sur ShapeNet. De plus, lorsqu'elle est testée sur notre benchmark UFO, notre approche surpasse d'autres modèles de pointe en génération d'images 2D et 3D à partir de texte, selon l'évaluation humaine.

English

Diffusion-based image generation models such as DALL-E 3 and Stable Diffusion-XL demonstrate remarkable capabilities in generating images with realistic and unique compositions. Yet, these models are not robust in precisely reasoning about physical and spatial configurations of objects, especially when instructed with unconventional, thereby out-of-distribution descriptions, such as "a chair with five legs". In this paper, we propose a language agent with chain-of-3D-thoughts (L3GO), an inference-time approach that can reason about part-based 3D mesh generation of unconventional objects that current data-driven diffusion models struggle with. More concretely, we use large language models as agents to compose a desired object via trial-and-error within the 3D simulation environment. To facilitate our investigation, we develop a new benchmark, Unconventionally Feasible Objects (UFO), as well as SimpleBlenv, a wrapper environment built on top of Blender where language agents can build and compose atomic building blocks via API calls. Human and automatic GPT-4V evaluations show that our approach surpasses the standard GPT-4 and other language agents (e.g., ReAct and Reflexion) for 3D mesh generation on ShapeNet. Moreover, when tested on our UFO benchmark, our approach outperforms other state-of-the-art text-to-2D image and text-to-3D models based on human evaluation.

L3GO : Agents linguistiques avec chaîne de pensées 3D pour la génération d'objets non conventionnels

L3GO: Language Agents with Chain-of-3D-Thoughts for Generating Unconventional Objects

papers.abstract

Support