ChatPaper.aiChatPaper

Apprentissage de mots 3D continus pour la génération de texte à image

Learning Continuous 3D Words for Text-to-Image Generation

February 13, 2024
Auteurs: Ta-Ying Cheng, Matheus Gadelha, Thibault Groueix, Matthew Fisher, Radomir Mech, Andrew Markham, Niki Trigoni
cs.AI

Résumé

Les contrôles actuels des modèles de diffusion (par exemple, via du texte ou ControlNet) pour la génération d'images sont limités dans leur capacité à reconnaître des attributs abstraits et continus, tels que la direction de l'éclairage ou les changements de forme non rigides. Dans cet article, nous présentons une approche permettant aux utilisateurs de modèles texte-à-image d'avoir un contrôle précis de plusieurs attributs dans une image. Nous y parvenons en concevant des ensembles spéciaux de tokens d'entrée qui peuvent être transformés de manière continue — nous les appelons Continuous 3D Words. Ces attributs peuvent, par exemple, être représentés sous forme de curseurs et appliqués conjointement avec des prompts textuels pour un contrôle granulaire de la génération d'images. Avec seulement un maillage unique et un moteur de rendu, nous montrons que notre approche peut être adoptée pour offrir un contrôle continu de l'utilisateur sur plusieurs attributs conscients de la 3D, notamment l'éclairage en fonction de l'heure de la journée, l'orientation des ailes d'oiseau, l'effet dollyzoom et les poses d'objets. Notre méthode est capable de conditionner la création d'images avec plusieurs Continuous 3D Words et descriptions textuelles simultanément, sans ajouter de surcharge au processus génératif. Page du projet : https://ttchengab.github.io/continuous_3d_words
English
Current controls over diffusion models (e.g., through text or ControlNet) for image generation fall short in recognizing abstract, continuous attributes like illumination direction or non-rigid shape change. In this paper, we present an approach for allowing users of text-to-image models to have fine-grained control of several attributes in an image. We do this by engineering special sets of input tokens that can be transformed in a continuous manner -- we call them Continuous 3D Words. These attributes can, for example, be represented as sliders and applied jointly with text prompts for fine-grained control over image generation. Given only a single mesh and a rendering engine, we show that our approach can be adopted to provide continuous user control over several 3D-aware attributes, including time-of-day illumination, bird wing orientation, dollyzoom effect, and object poses. Our method is capable of conditioning image creation with multiple Continuous 3D Words and text descriptions simultaneously while adding no overhead to the generative process. Project Page: https://ttchengab.github.io/continuous_3d_words
PDF124December 15, 2024