ChatPaper.aiChatPaper

Omni-Attribut : Encodeur d'attributs à vocabulaire ouvert pour la personnalisation de concepts visuels

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

December 11, 2025
papers.authors: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
cs.AI

papers.abstract

La personnalisation de concepts visuels vise à transférer uniquement des attributs d'image spécifiques, tels que l'identité, l'expression, l'éclairage et le style, dans des contextes non vus. Cependant, les méthodes existantes reposent sur des plongements holistiques issus d'encodeurs d'image généralistes, qui entremêlent de multiples facteurs visuels et rendent difficile l'isolation d'un seul attribut. Cela conduit souvent à des fuites d'information et à une synthèse incohérente. Pour remédier à cette limitation, nous présentons Omni-Attribute, le premier encodeur d'attributs d'image à vocabulaire ouvert conçu pour apprendre des représentations spécifiques aux attributs et de haute fidélité. Notre approche conjointe les données et le modèle : (i) nous sélectionnons des paires d'images sémantiquement liées, annotées avec des attributs positifs et négatifs, pour enseigner explicitement à l'encodeur ce qu'il doit préserver ou supprimer ; et (ii) nous adoptons un paradigme d'entraînement à double objectif qui équilibre la fidélité générative avec le désentremêlement contrastif. Les plongements résultants s'avèrent efficaces pour la recherche d'attributs en vocabulaire ouvert, la personnalisation et la génération compositionnelle, atteignant des performances de pointe sur plusieurs benchmarks.
English
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.
PDF21December 13, 2025