Omni-Attribute: Энкодер атрибутов с открытым словарем для персонализации визуальных концепций
Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization
December 11, 2025
Авторы: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
cs.AI
Аннотация
Персонализация визуальных концепций ставит целью перенос только определённых атрибутов изображения, таких как идентичность, выражение, освещение и стиль, в новые контексты. Однако существующие методы опираются на целостные эмбеддинги из универсальных кодировщиков изображений, которые переплетают множество визуальных факторов и затрудняют изоляцию отдельного атрибута. Это часто приводит к утечке информации и несогласованному синтезу. Для преодоления данного ограничения мы представляем Omni-Attribute — первый кодировщик атрибутов изображения с открытой лексикой, предназначенный для изучения высокоточных, специфичных для атрибутов представлений. Наш подход совместно проектирует данные и модель: (i) мы курируем семантически связанные пары изображений с аннотациями положительных и отрицательных атрибутов, чтобы явно научить кодировщик тому, что сохранять или подавлять; и (ii) мы применяем парадигму обучения с двойной целью, которая балансирует генеративную точность с контрастным разделением. Полученные эмбеддинги демонстрируют эффективность для поиска атрибутов с открытой лексикой, персонализации и композиционного генерирования, достигая передовых результатов на нескольких бенчмарках.
English
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.