Обучение редактированию изображений, сосредоточенное на действиях и рассуждениях, на основе видео и симуляций

Аннотация

Модель редактирования изображений должна иметь возможность выполнять разнообразные правки, включая замену объектов, изменение атрибутов или стиля, а также выполнение действий или движений, требующих различных форм рассуждений. У текущих общих моделей редактирования с инструкциями есть значительные недостатки в отношении действий и рассуждений. Изменения объектов, атрибутов или стиля могут быть изучены на основе визуально статических наборов данных. С другой стороны, качественные данные для редактирования, ориентированного на действия и рассуждения, являются редкими и должны поступать из совершенно разных источников, охватывающих, например, физическую динамику, временные и пространственные рассуждения. Для этой цели мы тщательно подбираем набор данных AURORA (Action-Reasoning-Object-Attribute), коллекцию высококачественных обучающих данных, аннотированных и отобранных людьми из видео и симуляционных движков. Мы сосредотачиваемся на ключевом аспекте качественных обучающих данных: тройки (исходное изображение, подсказка, целевое изображение) содержат одно смысловое визуальное изменение, описанное в подсказке, то есть действительно минимальные изменения между исходным и целевым изображениями. Для демонстрации ценности нашего набора данных мы оцениваем модель, дообученную на AURORA, на новом экспертно отобранном бенчмарке (AURORA-Bench), охватывающем 8 разнообразных задач редактирования. Наша модель значительно превосходит предыдущие модели редактирования по мнению человеческих оценщиков. Для автоматических оценок мы выявляем важные недостатки в предыдущих метриках и предостерегаем от их использования для семантически сложных задач редактирования. Вместо этого мы предлагаем новую автоматическую метрику, сосредотачивающуюся на дискриминирующем понимании. Мы надеемся, что наши усилия: (1) отбор качественного обучающего набора данных и оценочного бенчмарка, (2) разработка критических оценок и (3) выпуск современной модели, стимулируют дальнейший прогресс в области общего редактирования изображений.

English

An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing.

Обучение редактированию изображений, сосредоточенное на действиях и рассуждениях, на основе видео и симуляций

Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

Аннотация

Support