ChatPaper.aiChatPaper

개인 맞춤형 텍스트-이미지 생성을 위한 방향성 텍스트 반전

Directional Textual Inversion for Personalized Text-to-Image Generation

December 15, 2025
저자: Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim
cs.AI

초록

텍스트 반전(Textual Inversion, TI)은 텍스트-이미지 개인화에 효율적인 접근법이지만 복잡한 프롬프트에서 종종 실패합니다. 우리는 이러한 실패의 원인이 임베딩 노름 팽창(norm inflation), 즉 학습된 토큰이 분포 외(out-of-distribution) 크기로 치우쳐 pre-norm 트랜스포머의 프롬프트 조건화를 저하시키는 현상임을 규명합니다. 실증적으로 CLIP 토큰 공간에서 의미는 주로 방향에 의해 인코딩되는 반면, 팽창된 노름은 문맥화를 해친다는 것을 보입니다. 이론적으로는 큰 크기가 위치 정보를 약화시키고 pre-norm 블록의 잔차 업데이트를 방해하는 방식을 분석합니다. 우리는 임베딩 크기를 분포 내 규모로 고정하고 리만 SGD를 통해 단위 초구(unit hypersphere) 상에서 방향만을 최적화하는 방향성 텍스트 반전(Directional Textual Inversion, DTI)을 제안합니다. 방향 학습을 von Mises-Fisher 사전 분포를 활용한 MAP 문제로 재구성하여, 통합이 간단하고 효율적인 상수 방향 사전 그래디언트를 도출합니다. 다양한 개인화 작업에서 DTI는 대상 유사성을 유지하면서 TI 및 TI 변형 모델보다 텍스트 정확도를 향상시킵니다. 결정적으로, DTI의 초구 매개변수화는 학습된 개념 간의 부드럽고 의미적으로 일관된 보간(slerp)을 가능하게 하며, 이는 기존 TI에는 없는 기능입니다. 우리의 연구 결과는 방향 전용 최적화가 프롬프트에 충실한 개인화를 위한 강력하고 확장 가능한 방법임을 시사합니다.
English
Textual Inversion (TI) is an efficient approach to text-to-image personalization but often fails on complex prompts. We trace these failures to embedding norm inflation: learned tokens drift to out-of-distribution magnitudes, degrading prompt conditioning in pre-norm Transformers. Empirically, we show semantics are primarily encoded by direction in CLIP token space, while inflated norms harm contextualization; theoretically, we analyze how large magnitudes attenuate positional information and hinder residual updates in pre-norm blocks. We propose Directional Textual Inversion (DTI), which fixes the embedding magnitude to an in-distribution scale and optimizes only direction on the unit hypersphere via Riemannian SGD. We cast direction learning as MAP with a von Mises-Fisher prior, yielding a constant-direction prior gradient that is simple and efficient to incorporate. Across personalization tasks, DTI improves text fidelity over TI and TI-variants while maintaining subject similarity. Crucially, DTI's hyperspherical parameterization enables smooth, semantically coherent interpolation between learned concepts (slerp), a capability that is absent in standard TI. Our findings suggest that direction-only optimization is a robust and scalable path for prompt-faithful personalization.
PDF22December 17, 2025