MagicBrush: Вручную аннотированный набор данных для редактирования изображений на основе инструкций
MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing
June 16, 2023
Авторы: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
cs.AI
Аннотация
Редактирование изображений с текстовыми инструкциями широко востребовано в повседневной жизни — от личного использования до профессиональных приложений, таких как Photoshop. Однако существующие методы либо работают в режиме zero-shot, либо обучаются на автоматически синтезированных наборах данных, которые содержат значительное количество шума. В результате на практике они требуют множества ручных настроек для достижения желаемых результатов. Чтобы решить эту проблему, мы представляем MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), первый крупномасштабный, вручную аннотированный набор данных для редактирования реальных изображений на основе инструкций, охватывающий разнообразные сценарии: одношаговое, многошаговое, редактирование с предоставлением маски и без неё. MagicBrush включает более 10 тысяч вручную аннотированных троек (исходное изображение, инструкция, целевое изображение), что позволяет обучать крупномасштабные модели для редактирования изображений с текстовыми инструкциями. Мы дообучили InstructPix2Pix на MagicBrush и показали, что новая модель способна создавать значительно более качественные изображения, согласно оценкам людей. Мы также провели обширные эксперименты для оценки текущих базовых методов редактирования изображений по нескольким аспектам, включая количественные, качественные и экспертные оценки. Результаты демонстрируют сложность нашего набора данных и разрыв между текущими базовыми методами и реальными потребностями в редактировании.
English
Text-guided image editing is widely needed in daily life, ranging from
personal use to professional applications such as Photoshop. However, existing
methods are either zero-shot or trained on an automatically synthesized
dataset, which contains a high volume of noise. Thus, they still require lots
of manual tuning to produce desirable outcomes in practice. To address this
issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/),
the first large-scale, manually annotated dataset for instruction-guided real
image editing that covers diverse scenarios: single-turn, multi-turn,
mask-provided, and mask-free editing. MagicBrush comprises over 10K manually
annotated triples (source image, instruction, target image), which supports
trainining large-scale text-guided image editing models. We fine-tune
InstructPix2Pix on MagicBrush and show that the new model can produce much
better images according to human evaluation. We further conduct extensive
experiments to evaluate current image editing baselines from multiple
dimensions including quantitative, qualitative, and human evaluations. The
results reveal the challenging nature of our dataset and the gap between
current baselines and real-world editing needs.