Direktionale Textuelle Inversion für personalisierte Text-zu-Bild-Generierung
Directional Textual Inversion for Personalized Text-to-Image Generation
December 15, 2025
papers.authors: Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim
cs.AI
papers.abstract
Textual Inversion (TI) ist ein effizienter Ansatz zur Text-zu-Bild-Personalisierung, scheitert jedoch häufig an komplexen Prompts. Wir führen diese Fehler auf eine Einbettungsnorm-Inflation zurück: Erlernte Tokens entfernen sich zu außerhalb der Verteilung liegenden Größenordnungen, was die Prompt-Konditionierung in Pre-Norm-Transformatoren verschlechtert. Empirisch zeigen wir, dass Semantik im CLIP-Token-Raum primär durch die Richtung kodiert wird, während aufgeblähte Normen die Kontextualisierung beeinträchtigen; theoretisch analysieren wir, wie große Beträge Positionsinformationen abschwächen und Residual-Updates in Pre-Norm-Blöcken behindern. Wir schlagen Directional Textual Inversion (DTI) vor, das den Betrag der Einbettung auf eine innerhalb der Verteilung liegende Skala fixiert und nur die Richtung auf der Hyperkugel mittels Riemann-SGD optimiert. Wir formulieren das Richtungslernen als MAP mit einem von-Mises-Fisher-Prior, was einen konstanten Richtungs-Prior-Gradienten ergibt, der einfach und effizient zu integrieren ist. Über verschiedene Personalisierungsaufgaben hinweg verbessert DTI die Texttreue gegenüber TI und TI-Varianten, während die Subjektähnlichkeit erhalten bleibt. Entscheidend ist, dass die hypersphärische Parametrisierung von DTI eine glatte, semantisch kohärente Interpolation zwischen gelernten Konzepten (Slerp) ermöglicht – eine Fähigkeit, die im standardmäßigen TI fehlt. Unsere Ergebnisse deuten darauf hin, dass eine rein richtungsbasierte Optimierung ein robuster und skalierbarer Weg für prompt-getreue Personalisierung ist.
English
Textual Inversion (TI) is an efficient approach to text-to-image personalization but often fails on complex prompts. We trace these failures to embedding norm inflation: learned tokens drift to out-of-distribution magnitudes, degrading prompt conditioning in pre-norm Transformers. Empirically, we show semantics are primarily encoded by direction in CLIP token space, while inflated norms harm contextualization; theoretically, we analyze how large magnitudes attenuate positional information and hinder residual updates in pre-norm blocks. We propose Directional Textual Inversion (DTI), which fixes the embedding magnitude to an in-distribution scale and optimizes only direction on the unit hypersphere via Riemannian SGD. We cast direction learning as MAP with a von Mises-Fisher prior, yielding a constant-direction prior gradient that is simple and efficient to incorporate. Across personalization tasks, DTI improves text fidelity over TI and TI-variants while maintaining subject similarity. Crucially, DTI's hyperspherical parameterization enables smooth, semantically coherent interpolation between learned concepts (slerp), a capability that is absent in standard TI. Our findings suggest that direction-only optimization is a robust and scalable path for prompt-faithful personalization.