OmniEdit: Construyendo Modelos Generalistas de Edición de Imágenes a través de Supervisión Especializada
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
November 11, 2024
Autores: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI
Resumen
Los métodos de edición de imágenes guiados por instrucciones han demostrado un potencial significativo al entrenar modelos de difusión en pares de edición de imágenes sintetizados automáticamente o anotados manualmente. Sin embargo, estos métodos siguen estando lejos de aplicaciones prácticas en la vida real. Identificamos tres desafíos principales que contribuyen a esta brecha. En primer lugar, los modelos existentes tienen habilidades de edición limitadas debido al proceso de síntesis sesgado. En segundo lugar, estos métodos se entrenan con conjuntos de datos con un alto volumen de ruido y artefactos. Esto se debe a la aplicación de métodos de filtrado simples como CLIP-score. En tercer lugar, todos estos conjuntos de datos están restringidos a una sola resolución baja y relación de aspecto fija, lo que limita la versatilidad para manejar casos de uso del mundo real. En este documento, presentamos \omniedit, que es un editor omnipotente para manejar siete tareas diferentes de edición de imágenes con cualquier relación de aspecto de manera fluida. Nuestra contribución se divide en cuatro partes: (1) \omniedit se entrena utilizando la supervisión de siete modelos especializados diferentes para garantizar la cobertura de tareas. (2) Utilizamos muestreo de importancia basado en las puntuaciones proporcionadas por modelos multimodales grandes (como GPT-4o) en lugar de CLIP-score para mejorar la calidad de los datos. (3) Proponemos una nueva arquitectura de edición llamada EditNet para aumentar significativamente la tasa de éxito en la edición, (4) proporcionamos imágenes con diferentes relaciones de aspecto para garantizar que nuestro modelo pueda manejar cualquier imagen en la naturaleza. Hemos recopilado un conjunto de pruebas que contiene imágenes de diferentes relaciones de aspecto, acompañadas de diversas instrucciones para cubrir diferentes tareas. Tanto la evaluación automática como las evaluaciones humanas demuestran que \omniedit puede superar significativamente a todos los modelos existentes. Nuestro código, conjunto de datos y modelo estarán disponibles en https://tiger-ai-lab.github.io/OmniEdit/
English
Instruction-guided image editing methods have demonstrated significant
potential by training diffusion models on automatically synthesized or manually
annotated image editing pairs. However, these methods remain far from
practical, real-life applications. We identify three primary challenges
contributing to this gap. Firstly, existing models have limited editing skills
due to the biased synthesis process. Secondly, these methods are trained with
datasets with a high volume of noise and artifacts. This is due to the
application of simple filtering methods like CLIP-score. Thirdly, all these
datasets are restricted to a single low resolution and fixed aspect ratio,
limiting the versatility to handle real-world use cases. In this paper, we
present \omniedit, which is an omnipotent editor to handle seven different
image editing tasks with any aspect ratio seamlessly. Our contribution is in
four folds: (1) \omniedit is trained by utilizing the supervision from seven
different specialist models to ensure task coverage. (2) we utilize importance
sampling based on the scores provided by large multimodal models (like GPT-4o)
instead of CLIP-score to improve the data quality. (3) we propose a new editing
architecture called EditNet to greatly boost the editing success rate, (4) we
provide images with different aspect ratios to ensure that our model can handle
any image in the wild. We have curated a test set containing images of
different aspect ratios, accompanied by diverse instructions to cover different
tasks. Both automatic evaluation and human evaluations demonstrate that
\omniedit can significantly outperform all the existing models. Our code,
dataset and model will be available at
https://tiger-ai-lab.github.io/OmniEdit/Summary
AI-Generated Summary