ChatPaper.aiChatPaper

OmniEdit: Построение моделей общего назначения для редактирования изображений с помощью специализированного надзора

OmniEdit: Building Image Editing Generalist Models Through Specialist Supervision

November 11, 2024
Авторы: Cong Wei, Zheyang Xiong, Weiming Ren, Xinrun Du, Ge Zhang, Wenhu Chen
cs.AI

Аннотация

Методы редактирования изображений под управлением инструкций продемонстрировали значительный потенциал, обучая модели диффузии на автоматически синтезированных или ручно аннотированных парах редактирования изображений. Однако эти методы остаются далекими от практических применений в реальной жизни. Мы выделяем три основных проблемы, способствующие этому разрыву. Во-первых, существующие модели имеют ограниченные навыки редактирования из-за предвзятого процесса синтеза. Во-вторых, эти методы обучаются на наборах данных с высоким уровнем шума и артефактов. Это связано с применением простых методов фильтрации, таких как CLIP-score. В-третьих, все эти наборы данных ограничены одним низким разрешением и фиксированным соотношением сторон, что ограничивает универсальность для решения задач реального мира. В данной статье мы представляем \omniedit, который является всемогущим редактором для выполнения семи различных задач по редактированию изображений с любым соотношением сторон без проблем. Наш вклад состоит из четырех аспектов: (1) \omniedit обучается с использованием надзора семи различных специализированных моделей для обеспечения охвата задач. (2) мы используем важность выборки на основе оценок, предоставленных крупными мультимодальными моделями (например, GPT-4o), вместо CLIP-score для улучшения качества данных. (3) мы предлагаем новую архитектуру редактирования под названием EditNet для значительного повышения успешности редактирования, (4) мы предоставляем изображения с различными соотношениями сторон, чтобы гарантировать, что наша модель сможет обрабатывать любое изображение на практике. Мы подготовили тестовый набор, содержащий изображения с различными соотношениями сторон, сопровождаемые разнообразными инструкциями для выполнения различных задач. Как автоматическое, так и человеческое оценивание показывают, что \omniedit может значительно превзойти все существующие модели. Наш код, набор данных и модель будут доступны по адресу https://tiger-ai-lab.github.io/OmniEdit/
English
Instruction-guided image editing methods have demonstrated significant potential by training diffusion models on automatically synthesized or manually annotated image editing pairs. However, these methods remain far from practical, real-life applications. We identify three primary challenges contributing to this gap. Firstly, existing models have limited editing skills due to the biased synthesis process. Secondly, these methods are trained with datasets with a high volume of noise and artifacts. This is due to the application of simple filtering methods like CLIP-score. Thirdly, all these datasets are restricted to a single low resolution and fixed aspect ratio, limiting the versatility to handle real-world use cases. In this paper, we present \omniedit, which is an omnipotent editor to handle seven different image editing tasks with any aspect ratio seamlessly. Our contribution is in four folds: (1) \omniedit is trained by utilizing the supervision from seven different specialist models to ensure task coverage. (2) we utilize importance sampling based on the scores provided by large multimodal models (like GPT-4o) instead of CLIP-score to improve the data quality. (3) we propose a new editing architecture called EditNet to greatly boost the editing success rate, (4) we provide images with different aspect ratios to ensure that our model can handle any image in the wild. We have curated a test set containing images of different aspect ratios, accompanied by diverse instructions to cover different tasks. Both automatic evaluation and human evaluations demonstrate that \omniedit can significantly outperform all the existing models. Our code, dataset and model will be available at https://tiger-ai-lab.github.io/OmniEdit/

Summary

AI-Generated Summary

PDF505November 12, 2024