Omni-Attribute: Codificador de Atributos de Vocabulário Aberto para Personalização de Conceitos Visuais
Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization
December 11, 2025
Autores: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
cs.AI
Resumo
A personalização de conceitos visuais visa transferir apenas atributos específicos da imagem, como identidade, expressão, iluminação e estilo, para contextos não vistos. No entanto, os métodos existentes dependem de incorporações holísticas de codificadores de imagem de propósito geral, que entrelaçam múltiplos fatores visuais e dificultam o isolamento de um único atributo. Isso frequentemente leva a vazamento de informação e síntese incoerente. Para superar esta limitação, introduzimos o Omni-Attribute, o primeiro codificador de atributos de imagem de vocabulário aberto projetado para aprender representações específicas por atributo e de alta fidelidade. Nossa abordagem projeta conjuntamente os dados e o modelo: (i) curadamos pares de imagens semanticamente ligadas, anotados com atributos positivos e negativos, para ensinar explicitamente ao codificador o que preservar ou suprimir; e (ii) adotamos um paradigma de treinamento de duplo objetivo que equilibra a fidelidade generativa com o desembaraço contrastivo. As incorporações resultantes mostram-se eficazes para recuperação de atributos de vocabulário aberto, personalização e geração composicional, alcançando desempenho de ponta em múltiplos benchmarks.
English
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.