ChatPaper.aiChatPaper

Inversión Textual Direccional para la Generación Personalizada de Imágenes a partir de Texto

Directional Textual Inversion for Personalized Text-to-Image Generation

December 15, 2025
Autores: Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim
cs.AI

Resumen

La Inversión Textual (TI) es un enfoque eficiente para la personalización de texto a imagen, pero a menudo falla en instrucciones complejas. Rastreamos estos fallos hasta la inflación de la norma del *embedding*: los tokens aprendidos se desplazan a magnitudes fuera de distribución, degradando el condicionamiento por instrucción en los Transformers con pre-normalización. Empíricamente, mostramos que la semántica se codifica principalmente por la dirección en el espacio de tokens de CLIP, mientras que las normas inflacionadas perjudican la contextualización; teóricamente, analizamos cómo las magnitudes grandes atenúan la información posicional y dificultan las actualizaciones residuales en los bloques de pre-normalización. Proponemos la Inversión Textual Direccional (DTI), que fija la magnitud del *embedding* a una escala dentro de distribución y optimiza únicamente la dirección en la hiperesfera unidad mediante SGD Riemanniano. Planteamos el aprendizaje de la dirección como MAP con un previo von Mises-Fisher, lo que produce un gradiente previo de dirección constante que es simple y eficiente de incorporar. En diversas tareas de personalización, DTI mejora la fidelidad textual respecto a TI y sus variantes, manteniendo la similitud del sujeto. Crucialmente, la parametrización hiperesférica de DTI permite una interpolación suave y semánticamente coherente entre conceptos aprendidos (slerp), una capacidad ausente en la TI estándar. Nuestros hallazgos sugieren que la optimización exclusiva de la dirección es una vía robusta y escalable para una personalización fiel a la instrucción.
English
Textual Inversion (TI) is an efficient approach to text-to-image personalization but often fails on complex prompts. We trace these failures to embedding norm inflation: learned tokens drift to out-of-distribution magnitudes, degrading prompt conditioning in pre-norm Transformers. Empirically, we show semantics are primarily encoded by direction in CLIP token space, while inflated norms harm contextualization; theoretically, we analyze how large magnitudes attenuate positional information and hinder residual updates in pre-norm blocks. We propose Directional Textual Inversion (DTI), which fixes the embedding magnitude to an in-distribution scale and optimizes only direction on the unit hypersphere via Riemannian SGD. We cast direction learning as MAP with a von Mises-Fisher prior, yielding a constant-direction prior gradient that is simple and efficient to incorporate. Across personalization tasks, DTI improves text fidelity over TI and TI-variants while maintaining subject similarity. Crucially, DTI's hyperspherical parameterization enables smooth, semantically coherent interpolation between learned concepts (slerp), a capability that is absent in standard TI. Our findings suggest that direction-only optimization is a robust and scalable path for prompt-faithful personalization.
PDF22December 17, 2025