Omni-Attribute: Codificatore di Attributi a Vocabolario Aperto per la Personalizzazione di Concetti Visivi
Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization
December 11, 2025
Autori: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
cs.AI
Abstract
La personalizzazione di concetti visivi mira a trasferire solo attributi specifici dell'immagine, come identità, espressione, illuminazione e stile, in contesti non visti. Tuttavia, i metodi esistenti si basano su embedding olistici provenienti da encoder di immagini generici, che intrecciano molteplici fattori visivi e rendono difficile isolare un singolo attributo. Ciò porta spesso a fughe di informazioni e sintesi incoerenti. Per affrontare questa limitazione, introduciamo Omni-Attribute, il primo encoder di attributi di immagini open-vocabulary progettato per apprendere rappresentazioni ad alta fedeltà e specifiche per attributo. Il nostro approccio progetta congiuntamente dati e modello: (i) curiamo coppie di immagini semanticamente collegate, annotate con attributi positivi e negativi, per insegnare esplicitamente all'encoder cosa preservare o sopprimere; e (ii) adottiamo un paradigma di addestramento a doppio obiettivo che bilancia la fedeltà generativa con la disentanglement contrastivo. Gli embedding risultanti si rivelano efficaci per il retrieval di attributi open-vocabulary, la personalizzazione e la generazione compositiva, raggiungendo prestazioni all'avanguardia su molteplici benchmark.
English
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.