OmniEdit: Construindo Modelos Generalistas de Edição de Imagens Através de Supervisão Especializada
OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision
November 11, 2024
Autores: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI
Resumo
Métodos de edição de imagens guiados por instruções têm demonstrado um potencial significativo ao treinar modelos de difusão em pares de edição de imagem sintetizados automaticamente ou anotados manualmente. No entanto, esses métodos ainda estão longe de aplicações práticas na vida real. Identificamos três desafios principais que contribuem para essa lacuna. Em primeiro lugar, os modelos existentes têm habilidades de edição limitadas devido ao processo de síntese enviesado. Em segundo lugar, esses métodos são treinados com conjuntos de dados com um alto volume de ruído e artefatos, devido à aplicação de métodos de filtragem simples como o CLIP-score. Em terceiro lugar, todos esses conjuntos de dados são restritos a uma única baixa resolução e proporção de aspecto fixa, limitando a versatilidade para lidar com casos de uso do mundo real. Neste artigo, apresentamos o \omniedit, que é um editor onipotente para lidar com sete tarefas diferentes de edição de imagem com qualquer proporção de aspecto de forma contínua. Nossa contribuição se desdobra em quatro partes: (1) \omniedit é treinado utilizando a supervisão de sete modelos especialistas diferentes para garantir a cobertura de tarefas. (2) Utilizamos amostragem por importância com base nas pontuações fornecidas por grandes modelos multimodais (como o GPT-4o) em vez do CLIP-score para melhorar a qualidade dos dados. (3) Propomos uma nova arquitetura de edição chamada EditNet para aumentar significativamente a taxa de sucesso na edição. (4) Fornecemos imagens com diferentes proporções de aspecto para garantir que nosso modelo possa lidar com qualquer imagem na natureza. Criamos um conjunto de testes contendo imagens de diferentes proporções de aspecto, acompanhadas de instruções diversas para cobrir diferentes tarefas. Tanto a avaliação automática quanto as avaliações humanas demonstram que o \omniedit pode superar significativamente todos os modelos existentes. Nosso código, conjunto de dados e modelo estarão disponíveis em https://tiger-ai-lab.github.io/OmniEdit/
English
Instruction-guided image editing methods have demonstrated significant
potential by training diffusion models on automatically synthesized or manually
annotated image editing pairs. However, these methods remain far from
practical, real-life applications. We identify three primary challenges
contributing to this gap. Firstly, existing models have limited editing skills
due to the biased synthesis process. Secondly, these methods are trained with
datasets with a high volume of noise and artifacts. This is due to the
application of simple filtering methods like CLIP-score. Thirdly, all these
datasets are restricted to a single low resolution and fixed aspect ratio,
limiting the versatility to handle real-world use cases. In this paper, we
present \omniedit, which is an omnipotent editor to handle seven different
image editing tasks with any aspect ratio seamlessly. Our contribution is in
four folds: (1) \omniedit is trained by utilizing the supervision from seven
different specialist models to ensure task coverage. (2) we utilize importance
sampling based on the scores provided by large multimodal models (like GPT-4o)
instead of CLIP-score to improve the data quality. (3) we propose a new editing
architecture called EditNet to greatly boost the editing success rate, (4) we
provide images with different aspect ratios to ensure that our model can handle
any image in the wild. We have curated a test set containing images of
different aspect ratios, accompanied by diverse instructions to cover different
tasks. Both automatic evaluation and human evaluations demonstrate that
\omniedit can significantly outperform all the existing models. Our code,
dataset and model will be available at
https://tiger-ai-lab.github.io/OmniEdit/