ChatPaper.aiChatPaper

Aprendizaje de edición de imágenes centrado en la acción y el razonamiento a partir de videos y simulaciones

Learning Action and Reasoning-Centric Image Editing from Videos and Simulations

July 3, 2024
Autores: Benno Krojer, Dheeraj Vattikonda, Luis Lara, Varun Jampani, Eva Portelance, Christopher Pal, Siva Reddy
cs.AI

Resumen

Un modelo de edición de imágenes debe ser capaz de realizar ediciones diversas, que van desde la sustitución de objetos, cambios de atributos o estilo, hasta la realización de acciones o movimientos, que requieren múltiples formas de razonamiento. Los modelos actuales de edición guiada por instrucciones generales presentan deficiencias significativas con ediciones centradas en acciones y razonamiento. Los cambios de objeto, atributo o estilo pueden aprenderse a partir de conjuntos de datos visualmente estáticos. Por otro lado, los datos de alta calidad para ediciones centradas en acciones y razonamiento son escasos y deben provenir de fuentes completamente diferentes que abarquen, por ejemplo, dinámicas físicas, temporalidad y razonamiento espacial. Con este fin, curamos meticulosamente el Conjunto de Datos AURORA (Acción-Razonamiento-Objeto-Atributo), una colección de datos de entrenamiento de alta calidad, anotada por humanos y seleccionada de videos y motores de simulación. Nos enfocamos en un aspecto clave de los datos de entrenamiento de calidad: los tríos (imagen fuente, indicación, imagen objetivo) contienen un único cambio visual significativo descrito por la indicación, es decir, cambios verdaderamente mínimos entre las imágenes fuente y objetivo. Para demostrar el valor de nuestro conjunto de datos, evaluamos un modelo afinado con AURORA en un nuevo banco de pruebas curado por expertos (AURORA-Bench) que cubre 8 tareas de edición diversas. Nuestro modelo supera significativamente a modelos de edición anteriores según evaluadores humanos. Para evaluaciones automáticas, encontramos fallas importantes en métricas anteriores y advertimos sobre su uso para tareas de edición semánticamente difíciles. En su lugar, proponemos una nueva métrica automática que se centra en la comprensión discriminativa. Esperamos que nuestros esfuerzos: (1) curar un conjunto de datos de entrenamiento de calidad y un banco de pruebas de evaluación, (2) desarrollar evaluaciones críticas y (3) lanzar un modelo de vanguardia, impulsen un mayor progreso en la edición general de imágenes.
English
An image editing model should be able to perform diverse edits, ranging from object replacement, changing attributes or style, to performing actions or movement, which require many forms of reasoning. Current general instruction-guided editing models have significant shortcomings with action and reasoning-centric edits. Object, attribute or stylistic changes can be learned from visually static datasets. On the other hand, high-quality data for action and reasoning-centric edits is scarce and has to come from entirely different sources that cover e.g. physical dynamics, temporality and spatial reasoning. To this end, we meticulously curate the AURORA Dataset (Action-Reasoning-Object-Attribute), a collection of high-quality training data, human-annotated and curated from videos and simulation engines. We focus on a key aspect of quality training data: triplets (source image, prompt, target image) contain a single meaningful visual change described by the prompt, i.e., truly minimal changes between source and target images. To demonstrate the value of our dataset, we evaluate an AURORA-finetuned model on a new expert-curated benchmark (AURORA-Bench) covering 8 diverse editing tasks. Our model significantly outperforms previous editing models as judged by human raters. For automatic evaluations, we find important flaws in previous metrics and caution their use for semantically hard editing tasks. Instead, we propose a new automatic metric that focuses on discriminative understanding. We hope that our efforts : (1) curating a quality training dataset and an evaluation benchmark, (2) developing critical evaluations, and (3) releasing a state-of-the-art model, will fuel further progress on general image editing.

Summary

AI-Generated Summary

PDF322November 28, 2024