UltraEdit: Инструкционное редактирование изображений с мелкой детализацией в масштабе.
UltraEdit: Instruction-based Fine-Grained Image Editing at Scale
July 7, 2024
Авторы: Haozhe Zhao, Xiaojian Ma, Liang Chen, Shuzheng Si, Rujie Wu, Kaikai An, Peiyu Yu, Minjia Zhang, Qing Li, Baobao Chang
cs.AI
Аннотация
Этот документ представляет UltraEdit, крупномасштабный (приблизительно 4 миллиона образцов редактирования), автоматически сгенерированный набор данных для редактирования изображений на основе инструкций. Наша ключевая идея заключается в устранении недостатков существующих наборов данных для редактирования изображений, таких как InstructPix2Pix и MagicBrush, и предоставлении системного подхода к созданию массовых и высококачественных образцов редактирования изображений. UltraEdit предлагает несколько явных преимуществ: 1) Он представляет более широкий спектр редактирования инструкций, используя креативность крупных языковых моделей (LLM) наряду с примерами редактирования в контексте от человеческих оценщиков; 2) Его источники данных основаны на реальных изображениях, включая фотографии и произведения искусства, что обеспечивает большее разнообразие и снижение предвзятости по сравнению с наборами данных, созданными исключительно моделями текст-в-изображение; 3) Он также поддерживает редактирование на основе областей, улучшенное высококачественными, автоматически созданными аннотациями областей. Наши эксперименты показывают, что канонические базовые линии редактирования на основе диффузии, обученные на наборе данных UltraEdit, устанавливают новые рекорды на бенчмарках MagicBrush и Emu-Edit. Наш анализ дополнительно подтверждает важную роль реальных изображений-якорей и данных редактирования на основе областей. Набор данных, код и модели можно найти на https://ultra-editing.github.io.
English
This paper presents UltraEdit, a large-scale (approximately 4 million editing
samples), automatically generated dataset for instruction-based image editing.
Our key idea is to address the drawbacks in existing image editing datasets
like InstructPix2Pix and MagicBrush, and provide a systematic approach to
producing massive and high-quality image editing samples. UltraEdit offers
several distinct advantages: 1) It features a broader range of editing
instructions by leveraging the creativity of large language models (LLMs)
alongside in-context editing examples from human raters; 2) Its data sources
are based on real images, including photographs and artworks, which provide
greater diversity and reduced bias compared to datasets solely generated by
text-to-image models; 3) It also supports region-based editing, enhanced by
high-quality, automatically produced region annotations. Our experiments show
that canonical diffusion-based editing baselines trained on UltraEdit set new
records on MagicBrush and Emu-Edit benchmarks. Our analysis further confirms
the crucial role of real image anchors and region-based editing data. The
dataset, code, and models can be found in https://ultra-editing.github.io.Summary
AI-Generated Summary