ChatPaper.aiChatPaper

Omni-Attribute: Open-vocabulary-Attribut-Encoder zur Personalisierung visueller Konzepte

Omni-Attribute: Open-vocabulary Attribute Encoder for Visual Concept Personalization

December 11, 2025
papers.authors: Tsai-Shien Chen, Aliaksandr Siarohin, Guocheng Gordon Qian, Kuan-Chieh Jackson Wang, Egor Nemchinov, Moayed Haji-Ali, Riza Alp Guler, Willi Menapace, Ivan Skorokhodov, Anil Kag, Jun-Yan Zhu, Sergey Tulyakov
cs.AI

papers.abstract

Die Personalisierung visueller Konzepte zielt darauf ab, nur bestimmte Bildattribute wie Identität, Ausdruck, Beleuchtung und Stil in neue Kontexte zu übertragen. Bisherige Methoden stützen sich jedoch auf holistische Embeddings aus universellen Bildencodern, die multiple visuelle Faktoren verknüpfen und die Isolierung einzelner Attribute erschweren. Dies führt häufig zu Informationslecks und inkohärenter Synthese. Um diese Einschränkung zu überwinden, führen wir Omni-Attribute ein, den ersten open-vocabulary Bildattribut-Encoder, der hochpräzise, attributspezifische Repräsentationen erlernt. Unser Ansatz verbindet Datencuration und Modellentwicklung: (i) Wir erstellen semantisch verknüpfte Bildpaare mit annotierten Positiv- und Negativattributen, um dem Encoder explizit beizubringen, was erhalten oder unterdrückt werden soll; und (ii) wir implementieren ein Dual-Objective-Training, das generative Präzision mit kontrastiver Entflechtung in Balance hält. Die resultierenden Embeddings erweisen sich als effektiv für open-vocabulary Attributretrieval, Personalisierung und kompositionelle Generierung und erzielen State-of-the-Art-Leistungen in multiplen Benchmarks.
English
Visual concept personalization aims to transfer only specific image attributes, such as identity, expression, lighting, and style, into unseen contexts. However, existing methods rely on holistic embeddings from general-purpose image encoders, which entangle multiple visual factors and make it difficult to isolate a single attribute. This often leads to information leakage and incoherent synthesis. To address this limitation, we introduce Omni-Attribute, the first open-vocabulary image attribute encoder designed to learn high-fidelity, attribute-specific representations. Our approach jointly designs the data and model: (i) we curate semantically linked image pairs annotated with positive and negative attributes to explicitly teach the encoder what to preserve or suppress; and (ii) we adopt a dual-objective training paradigm that balances generative fidelity with contrastive disentanglement. The resulting embeddings prove effective for open-vocabulary attribute retrieval, personalization, and compositional generation, achieving state-of-the-art performance across multiple benchmarks.
PDF21December 13, 2025