Alterbute: Het Bewerken van Intrinsieke Eigenschappen van Objecten in Afbeeldingen

Samenvatting

Wij introduceren Alterbute, een op diffusie gebaseerde methode voor het bewerken van de intrinsieke eigenschappen van een object in een afbeelding. Wij maken het mogelijk om de kleur, textuur, materiaalsoort en zelfs de vorm van een object te veranderen, waarbij de waargenomen identiteit en de context van de scène behouden blijven. Bestaande benaderingen zijn ofwel afhankelijk van ongecontroleerde a priori kennis die vaak faalt in het behouden van de identiteit, of gebruiken een te restrictieve supervisie die betekenisvolle intrinsieke variaties verhindert. Onze methode steunt op: (i) een versoepeld trainingsdoel dat het model toestaat om zowel intrinsieke als extrinsieke eigenschappen te veranderen, geconditioneerd op een identiteitsreferentieafbeelding, een tekstuele prompt die de doel-intrinsieke eigenschappen beschrijft, en een achtergrondafbeelding en objectmasker die de extrinsieke context definiëren. Tijdens inferentie beperken we extrinsieke veranderingen door de originele achtergrond en het objectmasker opnieuw te gebruiken, waardoor wordt gegarandeerd dat alleen de gewenste intrinsieke eigenschappen worden gewijzigd; (ii) Visuele Genoemde Entiteiten (VNE's) - fijnmazige visuele identiteitscategorieën (bijvoorbeeld ''Porsche 911 Carrera'') die objecten groeperen die identiteitsbepalende kenmerken delen, maar wel variatie in intrinsieke eigenschappen toestaan. Wij gebruiken een vision-language-model om automatisch VNE-labels en beschrijvingen van intrinsieke eigenschappen te extraheren uit een grote openbare beelddataset, waardoor schaalbare, identiteitsbewakende supervisie mogelijk wordt. Alterbute overtreft bestaande methoden op het gebied van identiteitsbewarende bewerking van intrinsieke objecteigenschappen.

English

We introduce Alterbute, a diffusion-based method for editing an object's intrinsic attributes in an image. We allow changing color, texture, material, and even the shape of an object, while preserving its perceived identity and scene context. Existing approaches either rely on unsupervised priors that often fail to preserve identity or use overly restrictive supervision that prevents meaningful intrinsic variations. Our method relies on: (i) a relaxed training objective that allows the model to change both intrinsic and extrinsic attributes conditioned on an identity reference image, a textual prompt describing the target intrinsic attributes, and a background image and object mask defining the extrinsic context. At inference, we restrict extrinsic changes by reusing the original background and object mask, thereby ensuring that only the desired intrinsic attributes are altered; (ii) Visual Named Entities (VNEs) - fine-grained visual identity categories (e.g., ''Porsche 911 Carrera'') that group objects sharing identity-defining features while allowing variation in intrinsic attributes. We use a vision-language model to automatically extract VNE labels and intrinsic attribute descriptions from a large public image dataset, enabling scalable, identity-preserving supervision. Alterbute outperforms existing methods on identity-preserving object intrinsic attribute editing.

Alterbute: Het Bewerken van Intrinsieke Eigenschappen van Objecten in Afbeeldingen

Alterbute: Editing Intrinsic Attributes of Objects in Images

Samenvatting

Support