ChatPaper.aiChatPaper

パーソナライズされたテキストから画像生成のための方向性テキスト反転

Directional Textual Inversion for Personalized Text-to-Image Generation

December 15, 2025
著者: Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim
cs.AI

要旨

テキスト反転(TI)はテキストから画像へのパーソナライズ効率化手法であるが、複雑なプロンプトではしばしば失敗する。我々はこの失敗を埋め込みノルムの膨張に起因すると分析する:学習されたトークンが分布外の大きさに逸脱し、Pre-norm Transformerにおけるプロンプト条件付けを劣化させる。実証的に、CLIPトークン空間では意味が主に方向によって符号化され、ノルムの膨張が文脈化を損なうことを示す。理論的には、大きなノルムが位置情報を減衰させ、Pre-normブロックの残差更新を阻害するメカニズムを解析する。我々は方向性テキスト反転(DTI)を提案する。これは埋め込みの大きさを分布内スケールに固定し、リーマンSGDによる単位超球面上での方向のみを最適化する。方向学習をフォン・ミーゼス‐フィッシャー事前分布を用いたMAP推定として定式化し、簡潔で効率的な定数方向事前勾配を導出する。様々なパーソナライズ課題において、DTIは被写体類似性を維持しつつTIおよびTI派生手法をテキスト忠実度で上回る。決定的に、DTIの超球面パラメータ化は学習概念間の滑らかで意味的に一貫した補間(slerp)を可能にし、これは標準TIにはない機能である。我々の知見は、方向のみの最適化がプロンプトに忠実なパーソナライズの堅牢かつスケーラブルな道筋であることを示唆する。
English
Textual Inversion (TI) is an efficient approach to text-to-image personalization but often fails on complex prompts. We trace these failures to embedding norm inflation: learned tokens drift to out-of-distribution magnitudes, degrading prompt conditioning in pre-norm Transformers. Empirically, we show semantics are primarily encoded by direction in CLIP token space, while inflated norms harm contextualization; theoretically, we analyze how large magnitudes attenuate positional information and hinder residual updates in pre-norm blocks. We propose Directional Textual Inversion (DTI), which fixes the embedding magnitude to an in-distribution scale and optimizes only direction on the unit hypersphere via Riemannian SGD. We cast direction learning as MAP with a von Mises-Fisher prior, yielding a constant-direction prior gradient that is simple and efficient to incorporate. Across personalization tasks, DTI improves text fidelity over TI and TI-variants while maintaining subject similarity. Crucially, DTI's hyperspherical parameterization enables smooth, semantically coherent interpolation between learned concepts (slerp), a capability that is absent in standard TI. Our findings suggest that direction-only optimization is a robust and scalable path for prompt-faithful personalization.
PDF22December 17, 2025