ChatPaper.aiChatPaper

UltraEdit: Edición de Imágenes Detallada a Escala Basada en Instrucciones

UltraEdit: Instruction-based Fine-Grained Image Editing at Scale

July 7, 2024
Autores: Haozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang
cs.AI

Resumen

Este documento presenta UltraEdit, un conjunto de datos generado automáticamente a gran escala (aproximadamente 4 millones de muestras de edición) para la edición de imágenes basada en instrucciones. Nuestra idea clave es abordar las desventajas en los conjuntos de datos de edición de imágenes existentes como InstructPix2Pix y MagicBrush, y proporcionar un enfoque sistemático para producir muestras de edición de imágenes masivas y de alta calidad. UltraEdit ofrece varias ventajas distintas: 1) Presenta una gama más amplia de instrucciones de edición al aprovechar la creatividad de los grandes modelos de lenguaje (LLMs) junto con ejemplos de edición en contexto de evaluadores humanos; 2) Sus fuentes de datos se basan en imágenes reales, incluidas fotografías y obras de arte, lo que proporciona una mayor diversidad y reduce el sesgo en comparación con conjuntos de datos generados únicamente por modelos de texto a imagen; 3) También admite la edición basada en regiones, mejorada por anotaciones de regiones de alta calidad producidas automáticamente. Nuestros experimentos muestran que los baselines de edición basados en difusión canónica entrenados en el conjunto de datos UltraEdit establecen nuevos récords en los benchmarks de MagicBrush y Emu-Edit. Nuestro análisis confirma además el papel crucial de los anclajes de imágenes reales y los datos de edición basados en regiones. El conjunto de datos, código y modelos se pueden encontrar en https://ultra-editing.github.io.
English
This paper presents UltraEdit, a large-scale (approximately 4 million editing samples), automatically generated dataset for instruction-based image editing. Our key idea is to address the drawbacks in existing image editing datasets like InstructPix2Pix and MagicBrush, and provide a systematic approach to producing massive and high-quality image editing samples. UltraEdit offers several distinct advantages: 1) It features a broader range of editing instructions by leveraging the creativity of large language models (LLMs) alongside in-context editing examples from human raters; 2) Its data sources are based on real images, including photographs and artworks, which provide greater diversity and reduced bias compared to datasets solely generated by text-to-image models; 3) It also supports region-based editing, enhanced by high-quality, automatically produced region annotations. Our experiments show that canonical diffusion-based editing baselines trained on UltraEdit set new records on MagicBrush and Emu-Edit benchmarks. Our analysis further confirms the crucial role of real image anchors and region-based editing data. The dataset, code, and models can be found in https://ultra-editing.github.io.

Summary

AI-Generated Summary

PDF151November 28, 2024