ChatPaper.aiChatPaper

동작 및 추론 중심 이미지 편집을 위한 비디오와 시뮬레이션 기반 학습

Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

July 3, 2024
저자: Benno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy
cs.AI

초록

이미지 편집 모델은 객체 교체, 속성 또는 스타일 변경부터 동작이나 움직임 수행에 이르기까지 다양한 편집 작업을 수행할 수 있어야 하며, 이는 다양한 형태의 추론을 필요로 합니다. 현재의 일반적인 지시문 기반 편집 모델들은 동작 및 추론 중심의 편집 작업에서 상당한 한계를 보입니다. 객체, 속성 또는 스타일 변경은 시각적으로 정적인 데이터셋에서 학습할 수 있지만, 동작 및 추론 중심의 편집을 위한 고품질 데이터는 물리적 역학, 시간성, 공간 추론 등을 다루는 완전히 다른 출처에서 얻어야 하며, 이는 희소합니다. 이를 위해 우리는 비디오와 시뮬레이션 엔진에서 인간이 주석을 달고 선별한 고품질 훈련 데이터인 AURORA 데이터셋(Action-Reasoning-Object-Attribute)을 신중하게 구축했습니다. 우리는 고품질 훈련 데이터의 핵심 요소인 삼중항(소스 이미지, 프롬프트, 타겟 이미지)에 초점을 맞추어, 프롬프트에 의해 설명된 단일 의미 있는 시각적 변화, 즉 소스와 타겟 이미지 간의 진정으로 최소한의 변화만 포함되도록 했습니다. 우리 데이터셋의 가치를 입증하기 위해, 우리는 8가지 다양한 편집 작업을 다루는 전문가가 선별한 새로운 벤치마크(AURORA-Bench)에서 AURORA로 미세 조정된 모델을 평가했습니다. 우리의 모델은 인간 평가자들의 판단에 따라 이전 편집 모델들을 크게 능가했습니다. 자동 평가를 위해, 우리는 이전 메트릭들의 중요한 결함을 발견하고 의미적으로 어려운 편집 작업에 대한 사용을 경계했습니다. 대신, 우리는 차별적 이해에 초점을 맞춘 새로운 자동 메트릭을 제안합니다. 우리의 노력이 (1) 고품질 훈련 데이터셋과 평가 벤치마크 구축, (2) 비판적 평가 개발, (3) 최첨단 모델 공개를 통해 일반 이미지 편집 분야의 더 큰 발전을 촉진하기를 바랍니다.
English
An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing.

Summary

AI-Generated Summary

PDF322November 28, 2024