UltraEdit : Édition d'images granulaire à grande échelle basée sur des instructions
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale
July 7, 2024
Auteurs: Haozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang
cs.AI
Résumé
Cet article présente UltraEdit, un jeu de données à grande échelle (environ 4 millions d'échantillons d'édition) généré automatiquement pour l'édition d'images basée sur des instructions. Notre idée principale est de pallier les lacunes des jeux de données existants pour l'édition d'images, tels qu'InstructPix2Pix et MagicBrush, et de proposer une approche systématique pour produire des échantillons d'édition d'images massifs et de haute qualité. UltraEdit offre plusieurs avantages distincts : 1) Il propose une gamme plus large d'instructions d'édition en exploitant la créativité des grands modèles de langage (LLMs) ainsi que des exemples d'édition en contexte évalués par des humains ; 2) Ses sources de données sont basées sur des images réelles, incluant des photographies et des œuvres d'art, offrant ainsi une plus grande diversité et un biais réduit par rapport aux jeux de données générés uniquement par des modèles texte-à-image ; 3) Il prend également en charge l'édition basée sur des régions, améliorée par des annotations de régions de haute qualité produites automatiquement. Nos expériences montrent que les modèles de référence basés sur la diffusion, entraînés sur UltraEdit, établissent de nouveaux records sur les benchmarks MagicBrush et Emu-Edit. Notre analyse confirme en outre le rôle crucial des ancrages d'images réelles et des données d'édition basées sur des régions. Le jeu de données, le code et les modèles sont disponibles sur https://ultra-editing.github.io.
English
This paper presents UltraEdit, a large-scale (approximately 4 million editing
samples), automatically generated dataset for instruction-based image editing.
Our key idea is to address the drawbacks in existing image editing datasets
like InstructPix2Pix and MagicBrush, and provide a systematic approach to
producing massive and high-quality image editing samples. UltraEdit offers
several distinct advantages: 1) It features a broader range of editing
instructions by leveraging the creativity of large language models (LLMs)
alongside in-context editing examples from human raters; 2) Its data sources
are based on real images, including photographs and artworks, which provide
greater diversity and reduced bias compared to datasets solely generated by
text-to-image models; 3) It also supports region-based editing, enhanced by
high-quality, automatically produced region annotations. Our experiments show
that canonical diffusion-based editing baselines trained on UltraEdit set new
records on MagicBrush and Emu-Edit benchmarks. Our analysis further confirms
the crucial role of real image anchors and region-based editing data. The
dataset, code, and models can be found in https://ultra-editing.github.io.Summary
AI-Generated Summary