ChatPaper.aiChatPaper

Направленная текстовая инверсия для персонализированной генерации изображений по тексту

Directional Textual Inversion for Personalized Text-to-Image Generation

December 15, 2025
Авторы: Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim
cs.AI

Аннотация

Текстовая инверсия (TI) является эффективным методом персонализации в задачах генерации изображений по тексту, но часто не справляется со сложными запросами. Мы связываем эти неудачи с инфляцией нормы эмбеддингов: изученные токены смещаются к величинам, выходящим за пределы распределения, что ухудшает условие, задаваемое промптом, в трансформерах с предварительной нормализацией. Эмпирически мы показываем, что семантика в основном кодируется направлением в токенном пространстве CLIP, в то время как завышенные нормы вредят контекстуализации; теоретически мы анализируем, как большие величины ослабляют позиционную информацию и затрудняют остаточные обновления в блоках с предварительной нормализацией. Мы предлагаем Направленную текстовую инверсию (DTI), которая фиксирует величину эмбеддинга на уровне, соответствующем распределению, и оптимизирует только направление на единичной гиперсфере с помощью риманова SGD. Мы формулируем обучение направлению как MAP с априорным распределением фон Мизеса-Фишера, что дает постоянный по направлению априорный градиент, который просто и эффективно интегрировать. В различных задачах персонализации DTI улучшает соответствие тексту по сравнению с TI и её вариантами, сохраняя при этом схожесть с объектом. Ключевым является то, что гиперсферическая параметризация DTI позволяет осуществлять плавную, семантически согласованную интерполяцию между изученными концепциями (slerp) — возможность, отсутствующая в стандартной TI. Наши результаты позволяют предположить, что оптимизация только направления является надежным и масштабируемым путем для персонализации, точно следующей промпту.
English
Textual Inversion (TI) is an efficient approach to text-to-image personalization but often fails on complex prompts. We trace these failures to embedding norm inflation: learned tokens drift to out-of-distribution magnitudes, degrading prompt conditioning in pre-norm Transformers. Empirically, we show semantics are primarily encoded by direction in CLIP token space, while inflated norms harm contextualization; theoretically, we analyze how large magnitudes attenuate positional information and hinder residual updates in pre-norm blocks. We propose Directional Textual Inversion (DTI), which fixes the embedding magnitude to an in-distribution scale and optimizes only direction on the unit hypersphere via Riemannian SGD. We cast direction learning as MAP with a von Mises-Fisher prior, yielding a constant-direction prior gradient that is simple and efficient to incorporate. Across personalization tasks, DTI improves text fidelity over TI and TI-variants while maintaining subject similarity. Crucially, DTI's hyperspherical parameterization enables smooth, semantically coherent interpolation between learned concepts (slerp), a capability that is absent in standard TI. Our findings suggest that direction-only optimization is a robust and scalable path for prompt-faithful personalization.
PDF22December 17, 2025