オムニアトリビュート:視覚的概念のパーソナライゼーションのためのオープン語彙属性エンコーダ
Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization
December 11, 2025
著者: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
cs.AI
要旨
視覚概念の個人化は、アイデンティティ、表情、照明、スタイルといった特定の画像属性のみを、未見の文脈に転移させることを目的としている。しかし、既存手法は汎用画像エンコーダーから得られる全体的な埋め込みに依存しており、これらは複数の視覚要素を絡み合わせるため、単一属性を分離することが困難である。このため、情報漏洩や不整合な合成が生じることが多い。この課題を解決するため、我々は高精度で属性特化的な表現を学習する、初のオープン語彙画像属性エンコーダーであるOmni-Attributeを提案する。本手法ではデータとモデルを共同で設計する:(i) 保持すべき属性と抑制すべき属性が注釈付けされた意味的に関連する画像ペアを構築し、エンコーダーに明示的に教示する。(ii) 生成的忠実性と対照的な乖離のバランスを取る二重目的学習パラダイムを採用する。その結果得られる埋め込みは、オープン語彙属性検索、個人化、合成的生成において有効であり、複数のベンチマークで最先端の性能を達成する。
English
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.