Continue 3D-woorden leren voor tekst-naar-beeldgeneratie

Samenvatting

Huidige controles over diffusiemodellen (bijvoorbeeld via tekst of ControlNet) voor beeldgeneratie schieten tekort in het herkennen van abstracte, continue attributen zoals lichtrichting of niet-rigide vormverandering. In dit artikel presenteren we een aanpak waarmee gebruikers van tekst-naar-beeldmodellen gedetailleerde controle kunnen hebben over verschillende attributen in een afbeelding. Dit doen we door speciale sets van invoertokens te ontwikkelen die op een continue manier kunnen worden getransformeerd – we noemen deze Continue 3D-woorden. Deze attributen kunnen bijvoorbeeld worden weergegeven als schuifregelaars en samen met tekstprompts worden toegepast voor gedetailleerde controle over beeldgeneratie. Met slechts een enkel mesh en een rendering-engine laten we zien dat onze aanpak kan worden gebruikt om continue gebruikerscontrole te bieden over verschillende 3D-bewuste attributen, waaronder verlichting op verschillende tijdstippen van de dag, vleugeloriëntatie van vogels, het dollyzoom-effect en objectposities. Onze methode is in staat om beeldcreatie te conditioneren met meerdere Continue 3D-woorden en tekstbeschrijvingen tegelijkertijd, zonder extra overhead toe te voegen aan het generatieve proces. Projectpagina: https://ttchengab.github.io/continuous_3d_words

English

Current controls over diffusion models (e.g., through text or ControlNet) for image generation fall short in recognizing abstract, continuous attributes like illumination direction or non-rigid shape change. In this paper, we present an approach for allowing users of text-to-image models to have fine-grained control of several attributes in an image. We do this by engineering special sets of input tokens that can be transformed in a continuous manner -- we call them Continuous 3D Words. These attributes can, for example, be represented as sliders and applied jointly with text prompts for fine-grained control over image generation. Given only a single mesh and a rendering engine, we show that our approach can be adopted to provide continuous user control over several 3D-aware attributes, including time-of-day illumination, bird wing orientation, dollyzoom effect, and object poses. Our method is capable of conditioning image creation with multiple Continuous 3D Words and text descriptions simultaneously while adding no overhead to the generative process. Project Page: https://ttchengab.github.io/continuous_3d_words

Continue 3D-woorden leren voor tekst-naar-beeldgeneratie

Learning Continuous 3D Words for Text-to-Image Generation

Samenvatting

Support