Обучение редактированию изображений, сосредоточенное на действиях и рассуждениях, на основе видео и симуляций
Learning Action and Reasoning-Centric Image Editing from Videos and Simulations
July 3, 2024
Авторы: Benno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy
cs.AI
Аннотация
Модель редактирования изображений должна иметь возможность выполнять разнообразные правки, включая замену объектов, изменение атрибутов или стиля, а также выполнение действий или движений, требующих различных форм рассуждений. У текущих общих моделей редактирования с инструкциями есть значительные недостатки в отношении действий и рассуждений. Изменения объектов, атрибутов или стиля могут быть изучены на основе визуально статических наборов данных. С другой стороны, качественные данные для редактирования, ориентированного на действия и рассуждения, являются редкими и должны поступать из совершенно разных источников, охватывающих, например, физическую динамику, временные и пространственные рассуждения. Для этой цели мы тщательно подбираем набор данных AURORA (Action-Reasoning-Object-Attribute), коллекцию высококачественных обучающих данных, аннотированных и отобранных людьми из видео и симуляционных движков. Мы сосредотачиваемся на ключевом аспекте качественных обучающих данных: тройки (исходное изображение, подсказка, целевое изображение) содержат одно смысловое визуальное изменение, описанное в подсказке, то есть действительно минимальные изменения между исходным и целевым изображениями. Для демонстрации ценности нашего набора данных мы оцениваем модель, дообученную на AURORA, на новом экспертно отобранном бенчмарке (AURORA-Bench), охватывающем 8 разнообразных задач редактирования. Наша модель значительно превосходит предыдущие модели редактирования по мнению человеческих оценщиков. Для автоматических оценок мы выявляем важные недостатки в предыдущих метриках и предостерегаем от их использования для семантически сложных задач редактирования. Вместо этого мы предлагаем новую автоматическую метрику, сосредотачивающуюся на дискриминирующем понимании. Мы надеемся, что наши усилия: (1) отбор качественного обучающего набора данных и оценочного бенчмарка, (2) разработка критических оценок и (3) выпуск современной модели, стимулируют дальнейший прогресс в области общего редактирования изображений.
English
An image editing model should be able to perform diverse edits, ranging from
object replacement, changing attributes or style, to performing actions or
movement, which require many forms of reasoning. Current general
instruction-guided editing models have significant shortcomings with action and
reasoning-centric edits. Object, attribute or stylistic changes can be learned
from visually static datasets. On the other hand, high-quality data for action
and reasoning-centric edits is scarce and has to come from entirely different
sources that cover e.g. physical dynamics, temporality and spatial reasoning.
To this end, we meticulously curate the AURORA Dataset
(Action-Reasoning-Object-Attribute), a collection of high-quality training
data, human-annotated and curated from videos and simulation engines. We focus
on a key aspect of quality training data: triplets (source image, prompt,
target image) contain a single meaningful visual change described by the
prompt, i.e., truly minimal changes between source and target images. To
demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on
a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks.
Our model significantly outperforms previous editing models as judged by human
raters. For automatic evaluations, we find important flaws in previous metrics
and caution their use for semantically hard editing tasks. Instead, we propose
a new automatic metric that focuses on discriminative understanding. We hope
that our efforts : (1) curating a quality training dataset and an evaluation
benchmark, (2) developing critical evaluations, and (3) releasing a
state-of-the-art model, will fuel further progress on general image editing.Summary
AI-Generated Summary