ChatPaper.aiChatPaper

Inversion textuelle directionnelle pour la génération personnalisée d'images par texte

Directional Textual Inversion for Personalized Text-to-Image Generation

December 15, 2025
papers.authors: Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim
cs.AI

papers.abstract

L'Inversion Textuelle (TI) est une approche efficace pour la personnalisation texte-image, mais elle échoue souvent sur des invites complexes. Nous attribuons ces échecs à l'inflation de la norme des plongements : les tokens appris dérivent vers des magnitudes hors distribution, dégradant le conditionnement par l'invite dans les Transformers à pré-normalisation. Empiriquement, nous montrons que la sémantique est principalement encodée par la direction dans l'espace token de CLIP, tandis que des normes gonflées nuisent à la contextualisation ; théoriquement, nous analysons comment de grandes magnitudes atténuent l'information positionnelle et entravent les mises à jour résiduelles dans les blocs à pré-normalisation. Nous proposons l'Inversion Textuelle Directionnelle (DTI), qui fixe la magnitude du plongement à une échelle dans la distribution et optimise uniquement la direction sur l'hypersphère unitaire via une descente de gradient stochastique riemannienne. Nous formulons l'apprentissage de la direction comme une estimation du maximum a posteriori avec un a priori de von Mises-Fisher, produisant un gradient a priori à direction constante, simple et efficace à incorporer. Sur diverses tâches de personnalisation, DTI améliore la fidélité textuelle par rapport à TI et ses variantes tout en maintenant la similarité du sujet. Crucialement, la paramétrisation hypersphérique de DTI permet une interpolation fluide et sémantiquement cohérente entre les concepts appris (slerp), une capacité absente de la TI standard. Nos résultats suggèrent que l'optimisation uniquement directionnelle est une voie robuste et évolutive pour une personnalisation fidèle à l'invite.
English
Textual Inversion (TI) is an efficient approach to text-to-image personalization but often fails on complex prompts. We trace these failures to embedding norm inflation: learned tokens drift to out-of-distribution magnitudes, degrading prompt conditioning in pre-norm Transformers. Empirically, we show semantics are primarily encoded by direction in CLIP token space, while inflated norms harm contextualization; theoretically, we analyze how large magnitudes attenuate positional information and hinder residual updates in pre-norm blocks. We propose Directional Textual Inversion (DTI), which fixes the embedding magnitude to an in-distribution scale and optimizes only direction on the unit hypersphere via Riemannian SGD. We cast direction learning as MAP with a von Mises-Fisher prior, yielding a constant-direction prior gradient that is simple and efficient to incorporate. Across personalization tasks, DTI improves text fidelity over TI and TI-variants while maintaining subject similarity. Crucially, DTI's hyperspherical parameterization enables smooth, semantically coherent interpolation between learned concepts (slerp), a capability that is absent in standard TI. Our findings suggest that direction-only optimization is a robust and scalable path for prompt-faithful personalization.
PDF22December 17, 2025