InstructDiffusion: Универсальный интерфейс моделирования для задач компьютерного зрения
InstructDiffusion: A Generalist Modeling Interface for Vision Tasks
September 7, 2023
Авторы: Zigang Geng, Binxin Yang, Tiankai Hang, Chen Li, Shuyang Gu, Ting Zhang, Jianmin Bao, Zheng Zhang, Han Hu, Dong Chen, Baining Guo
cs.AI
Аннотация
Мы представляем InstructDiffusion — универсальную и обобщающую структуру для согласования задач компьютерного зрения с инструкциями человека. В отличие от существующих подходов, которые интегрируют априорные знания и заранее определяют пространство выходных данных (например, категории и координаты) для каждой задачи, мы преобразуем разнообразные задачи в интуитивно понятный человеку процесс манипуляции изображениями, где пространство выходных данных является гибким и интерактивным пиксельным пространством. Конкретно, модель основана на процессе диффузии и обучается предсказывать пиксели в соответствии с инструкциями пользователя, такими как обводка левого плеча человека красным цветом или наложение синей маски на левый автомобиль. InstructDiffusion способна решать различные задачи компьютерного зрения, включая задачи понимания (например, сегментация и обнаружение ключевых точек) и генеративные задачи (например, редактирование и улучшение). Она даже демонстрирует способность справляться с новыми задачами и превосходит предыдущие методы на новых наборах данных. Это представляет собой значительный шаг к созданию универсального интерфейса моделирования для задач компьютерного зрения, продвигая искусственный общий интеллект в этой области.
English
We present InstructDiffusion, a unifying and generic framework for aligning
computer vision tasks with human instructions. Unlike existing approaches that
integrate prior knowledge and pre-define the output space (e.g., categories and
coordinates) for each vision task, we cast diverse vision tasks into a
human-intuitive image-manipulating process whose output space is a flexible and
interactive pixel space. Concretely, the model is built upon the diffusion
process and is trained to predict pixels according to user instructions, such
as encircling the man's left shoulder in red or applying a blue mask to the
left car. InstructDiffusion could handle a variety of vision tasks, including
understanding tasks (such as segmentation and keypoint detection) and
generative tasks (such as editing and enhancement). It even exhibits the
ability to handle unseen tasks and outperforms prior methods on novel datasets.
This represents a significant step towards a generalist modeling interface for
vision tasks, advancing artificial general intelligence in the field of
computer vision.