ChatPaper.aiChatPaper

Omni-Attribute: Codificador de Atributos de Vocabulario Abierto para la Personalización de Conceptos Visuales

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

December 11, 2025
Autores: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
cs.AI

Resumen

La personalización de conceptos visuales busca transferir únicamente atributos específicos de la imagen, como identidad, expresión, iluminación y estilo, a contextos no vistos. Sin embargo, los métodos existentes dependen de incrustaciones holísticas de codificadores de imágenes de propósito general, que entrelazan múltiples factores visuales y dificultan el aislamiento de un único atributo. Esto a menudo conduce a fugas de información y síntesis incoherente. Para abordar esta limitación, presentamos Omni-Attribute, el primer codificador de atributos de imagen de vocabulario abierto diseñado para aprender representaciones específicas de atributos de alta fidelidad. Nuestro enfoque diseña conjuntamente los datos y el modelo: (i) seleccionamos pares de imágenes semánticamente vinculadas anotadas con atributos positivos y negativos para enseñar explícitamente al codificador qué preservar o suprimir; y (ii) adoptamos un paradigma de entrenamiento de doble objetivo que equilibra la fidelidad generativa con el desenredado contrastivo. Las incrustaciones resultantes demuestran ser efectivas para la recuperación de atributos de vocabulario abierto, personalización y generación composicional, logrando un rendimiento de vanguardia en múltiples puntos de referencia.
English
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.
PDF21December 13, 2025