ChatPaper.aiChatPaper

Omni-Attribuut: Open-vocabulaire Attribuut-Encoder voor Visuele Conceptpersonalisatie

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

December 11, 2025
Auteurs: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
cs.AI

Samenvatting

Visuele conceptpersonalisatie heeft als doel om alleen specifieke beeldattributen, zoals identiteit, expressie, belichting en stijl, over te dragen naar ongeziene contexten. Bestaande methodes vertrouwen echter op holistische embeddings van algemene beeldencoders, die meerdere visuele factoren verstrengelen en het isoleren van een enkel attribuut bemoeilijken. Dit leidt vaak tot informatielekken en incoherente synthese. Om deze beperking aan te pakken, introduceren wij Omni-Attribute, de eerste open-vocabulary beeldattribuutencoder die is ontworpen om hoogfidelijke, attribuutspecifieke representaties te leren. Onze aanpak combineert het ontwerp van data en model: (i) we cureren semantisch gelinkte beeldparen geannoteerd met positieve en negatieve attributen om de encoder expliciet te leren wat te behouden of onderdrukken; en (ii) we hanteren een dual-objectief trainingsparadigma dat generatieve fidelijkheid balanceert met contrastieve ontwarring. De resulterende embeddings blijken effectief voor open-vocabulary attribuutretrieval, personalisatie en compositionele generatie, waarbij state-of-the-art prestaties worden behaald op meerdere benchmarks.
English
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.
PDF73February 7, 2026