Continue 3D-woorden leren voor tekst-naar-beeldgeneratie
Learning Continuous 3D Words for Text-to-Image Generation
February 13, 2024
Auteurs: Ta-Ying Cheng, Matheus Gadelha, Thibault Groueix, Matthew Fisher, Radomir Mech, Andrew Markham, Niki Trigoni
cs.AI
Samenvatting
Huidige controles over diffusiemodellen (bijvoorbeeld via tekst of ControlNet) voor beeldgeneratie schieten tekort in het herkennen van abstracte, continue attributen zoals lichtrichting of niet-rigide vormverandering. In dit artikel presenteren we een aanpak waarmee gebruikers van tekst-naar-beeldmodellen gedetailleerde controle kunnen hebben over verschillende attributen in een afbeelding. Dit doen we door speciale sets van invoertokens te ontwikkelen die op een continue manier kunnen worden getransformeerd – we noemen deze Continue 3D-woorden. Deze attributen kunnen bijvoorbeeld worden weergegeven als schuifregelaars en samen met tekstprompts worden toegepast voor gedetailleerde controle over beeldgeneratie. Met slechts een enkel mesh en een rendering-engine laten we zien dat onze aanpak kan worden gebruikt om continue gebruikerscontrole te bieden over verschillende 3D-bewuste attributen, waaronder verlichting op verschillende tijdstippen van de dag, vleugeloriëntatie van vogels, het dollyzoom-effect en objectposities. Onze methode is in staat om beeldcreatie te conditioneren met meerdere Continue 3D-woorden en tekstbeschrijvingen tegelijkertijd, zonder extra overhead toe te voegen aan het generatieve proces. Projectpagina: https://ttchengab.github.io/continuous_3d_words
English
Current controls over diffusion models (e.g., through text or ControlNet) for
image generation fall short in recognizing abstract, continuous attributes like
illumination direction or non-rigid shape change. In this paper, we present an
approach for allowing users of text-to-image models to have fine-grained
control of several attributes in an image. We do this by engineering special
sets of input tokens that can be transformed in a continuous manner -- we call
them Continuous 3D Words. These attributes can, for example, be represented as
sliders and applied jointly with text prompts for fine-grained control over
image generation. Given only a single mesh and a rendering engine, we show that
our approach can be adopted to provide continuous user control over several
3D-aware attributes, including time-of-day illumination, bird wing orientation,
dollyzoom effect, and object poses. Our method is capable of conditioning image
creation with multiple Continuous 3D Words and text descriptions simultaneously
while adding no overhead to the generative process. Project Page:
https://ttchengab.github.io/continuous_3d_words