ChatPaper.aiChatPaper

Directionele Textuele Inversie voor Gepersonaliseerde Text-to-Image Generatie

Directional Textual Inversion for Personalized Text-to-Image Generation

December 15, 2025
Auteurs: Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim
cs.AI

Samenvatting

Textuele Inversie (TI) is een efficiënte benadering voor tekst-naar-beeld-personalisatie, maar faalt vaak bij complexe prompts. Wij herleiden deze mislukkingen tot *embedding norm inflatie*: aangeleerde tokens verschuiven naar magnitudes buiten de verdeling, wat de promptconditionering in pre-norm Transformers aantast. Empirisch tonen we aan dat semantiek hoofdzakelijk gecodeerd wordt door richting in de CLIP-tokenruimte, terwijl opgeblazen normen de contextualisering schaden; theoretisch analyseren we hoe grote magnitudes positionele informatie dempen en residuele updates in pre-norm blokken belemmeren. Wij stellen Directionele Textuele Inversie (DTI) voor, waarbij de magnitude van de embedding wordt gefixeerd op een schaal binnen de verdeling en alleen de richting op de eenheidshyperbol wordt geoptimaliseerd via Riemanniaanse SGD. We formuleren richtingsleren als MAP met een von Mises-Fisher prior, wat een constante-richting prior gradient oplevert die eenvoudig en efficiënt is in te bouwen. Over personalisatietaken heen verbetert DTI de tekstgetrouwheid ten opzichte van TI en TI-varianten, terwijl de gelijkenis van het onderwerp behouden blijft. Cruciaal is dat DTI's hypersferische parameterisatie een vloeiende, semantisch coherente interpolatie tussen aangeleerde concepten mogelijk maakt (slerp), een mogelijkheid die ontbreekt in standaard TI. Onze bevindingen suggereren dat richting-alleen optimalisatie een robuust en schaalbaar pad is voor prompt-getrouwe personalisatie.
English
Textual Inversion (TI) is an efficient approach to text-to-image personalization but often fails on complex prompts. We trace these failures to embedding norm inflation: learned tokens drift to out-of-distribution magnitudes, degrading prompt conditioning in pre-norm Transformers. Empirically, we show semantics are primarily encoded by direction in CLIP token space, while inflated norms harm contextualization; theoretically, we analyze how large magnitudes attenuate positional information and hinder residual updates in pre-norm blocks. We propose Directional Textual Inversion (DTI), which fixes the embedding magnitude to an in-distribution scale and optimizes only direction on the unit hypersphere via Riemannian SGD. We cast direction learning as MAP with a von Mises-Fisher prior, yielding a constant-direction prior gradient that is simple and efficient to incorporate. Across personalization tasks, DTI improves text fidelity over TI and TI-variants while maintaining subject similarity. Crucially, DTI's hyperspherical parameterization enables smooth, semantically coherent interpolation between learned concepts (slerp), a capability that is absent in standard TI. Our findings suggest that direction-only optimization is a robust and scalable path for prompt-faithful personalization.
PDF22December 22, 2025