알터뷰트: 이미지 내 객체의 내재적 속성 편집
Alterbute: Editing Intrinsic Attributes of Objects in Images
January 15, 2026
저자: Tal Reiss, Daniel Winter, Matan Cohen, Alex Rav-Acha, Yael Pritch, Ariel Shamir, Yedid Hoshen
cs.AI
초록
본 논문에서는 이미지 내 객체의 본질적 속성을 편집하기 위한 확산 기반 방법인 Alterbute를 소개한다. 본 방법은 객체의 지각적 정체성과 장면 맥락을 보존하면서 색상, 질감, 재질, 심지어 형태까지 변경하는 것을 가능하게 한다. 기존 방법들은 정체성 보존에 종종 실패하는 비지도 사전 지식에 의존하거나, 의미 있는 본질적 변화를 방해하는 지나치게 제한적인 지도 학습을 사용한다. 제안 방법은 다음 두 가지에 기반한다: (i) 정체성 참조 이미지, 목표 본질적 속성을 설명하는 텍스트 프롬프트, 외적 맥락을 정의하는 배경 이미지 및 객체 마스크에 조건부로 모델이 본질적 및 외적 속성을 모두 변경할 수 있도록 하는 완화된 훈련 목표. 추론 시에는 원본 배경과 객체 마스크를 재사용하여 외적 변화를 제한함으로써 오직 원하는 본질적 속성만 변경되도록 보장한다. (ii) 시각적 명사 엔티티(VNE) - 정체성을 정의하는 특징을 공유하면서 본질적 속성에서는 변이가 허용되는 세분화된 시각적 정체성 범주(예: '포르쉐 911 카레라'). 대규모 공개 이미지 데이터셋에서 비전-언어 모델을 사용하여 VNE 레이블과 본질적 속성 설명을 자동으로 추출함으로써 확장 가능하고 정체성 보존적인 지도 학습을 가능하게 한다. Alterbute는 정체성 보존 객체 본질 속성 편집에서 기존 방법들을 능가하는 성능을 보인다.
English
We introduce Alterbute, a diffusion-based method for editing an object's intrinsic attributes in an image. We allow changing color, texture, material, and even the shape of an object, while preserving its perceived identity and scene context. Existing approaches either rely on unsupervised priors that often fail to preserve identity or use overly restrictive supervision that prevents meaningful intrinsic variations. Our method relies on: (i) a relaxed training objective that allows the model to change both intrinsic and extrinsic attributes conditioned on an identity reference image, a textual prompt describing the target intrinsic attributes, and a background image and object mask defining the extrinsic context. At inference, we restrict extrinsic changes by reusing the original background and object mask, thereby ensuring that only the desired intrinsic attributes are altered; (ii) Visual Named Entities (VNEs) - fine-grained visual identity categories (e.g., ''Porsche 911 Carrera'') that group objects sharing identity-defining features while allowing variation in intrinsic attributes. We use a vision-language model to automatically extract VNE labels and intrinsic attribute descriptions from a large public image dataset, enabling scalable, identity-preserving supervision. Alterbute outperforms existing methods on identity-preserving object intrinsic attribute editing.