ChatPaper.aiChatPaper

MagicBrush: Un conjunto de datos anotado manualmente para la edición de imágenes guiada por instrucciones

MagicBrush: A Manually Annotated Dataset for Instruction-Guided Image Editing

June 16, 2023
Autores: Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su
cs.AI

Resumen

La edición de imágenes guiada por texto es ampliamente necesaria en la vida diaria, desde el uso personal hasta aplicaciones profesionales como Photoshop. Sin embargo, los métodos existentes son de tipo zero-shot o están entrenados en un conjunto de datos sintetizado automáticamente, el cual contiene un alto volumen de ruido. Por lo tanto, aún requieren mucho ajuste manual para producir resultados deseables en la práctica. Para abordar este problema, presentamos MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), el primer conjunto de datos a gran escala y anotado manualmente para la edición de imágenes reales guiada por instrucciones, que cubre diversos escenarios: edición de un solo paso, de múltiples pasos, con máscara proporcionada y sin máscara. MagicBrush comprende más de 10K tripletes anotados manualmente (imagen fuente, instrucción, imagen objetivo), lo que permite entrenar modelos de edición de imágenes guiada por texto a gran escala. Ajustamos InstructPix2Pix en MagicBrush y demostramos que el nuevo modelo puede producir imágenes mucho mejores según la evaluación humana. Además, realizamos experimentos exhaustivos para evaluar los métodos actuales de edición de imágenes desde múltiples dimensiones, incluyendo evaluaciones cuantitativas, cualitativas y humanas. Los resultados revelan la naturaleza desafiante de nuestro conjunto de datos y la brecha entre los métodos actuales y las necesidades de edición del mundo real.
English
Text-guided image editing is widely needed in daily life, ranging from personal use to professional applications such as Photoshop. However, existing methods are either zero-shot or trained on an automatically synthesized dataset, which contains a high volume of noise. Thus, they still require lots of manual tuning to produce desirable outcomes in practice. To address this issue, we introduce MagicBrush (https://osu-nlp-group.github.io/MagicBrush/), the first large-scale, manually annotated dataset for instruction-guided real image editing that covers diverse scenarios: single-turn, multi-turn, mask-provided, and mask-free editing. MagicBrush comprises over 10K manually annotated triples (source image, instruction, target image), which supports trainining large-scale text-guided image editing models. We fine-tune InstructPix2Pix on MagicBrush and show that the new model can produce much better images according to human evaluation. We further conduct extensive experiments to evaluate current image editing baselines from multiple dimensions including quantitative, qualitative, and human evaluations. The results reveal the challenging nature of our dataset and the gap between current baselines and real-world editing needs.
PDF356December 15, 2024