InstructDiffusion: Универсальный интерфейс моделирования для задач компьютерного зрения

Аннотация

Мы представляем InstructDiffusion — универсальную и обобщающую структуру для согласования задач компьютерного зрения с инструкциями человека. В отличие от существующих подходов, которые интегрируют априорные знания и заранее определяют пространство выходных данных (например, категории и координаты) для каждой задачи, мы преобразуем разнообразные задачи в интуитивно понятный человеку процесс манипуляции изображениями, где пространство выходных данных является гибким и интерактивным пиксельным пространством. Конкретно, модель основана на процессе диффузии и обучается предсказывать пиксели в соответствии с инструкциями пользователя, такими как обводка левого плеча человека красным цветом или наложение синей маски на левый автомобиль. InstructDiffusion способна решать различные задачи компьютерного зрения, включая задачи понимания (например, сегментация и обнаружение ключевых точек) и генеративные задачи (например, редактирование и улучшение). Она даже демонстрирует способность справляться с новыми задачами и превосходит предыдущие методы на новых наборах данных. Это представляет собой значительный шаг к созданию универсального интерфейса моделирования для задач компьютерного зрения, продвигая искусственный общий интеллект в этой области.

English

We present InstructDiffusion, a unifying and generic framework for aligning computer vision tasks with human instructions. Unlike existing approaches that integrate prior knowledge and pre-define the output space (e.g., categories and coordinates) for each vision task, we cast diverse vision tasks into a human-intuitive image-manipulating process whose output space is a flexible and interactive pixel space. Concretely, the model is built upon the diffusion process and is trained to predict pixels according to user instructions, such as encircling the man's left shoulder in red or applying a blue mask to the left car. InstructDiffusion could handle a variety of vision tasks, including understanding tasks (such as segmentation and keypoint detection) and generative tasks (such as editing and enhancement). It even exhibits the ability to handle unseen tasks and outperforms prior methods on novel datasets. This represents a significant step towards a generalist modeling interface for vision tasks, advancing artificial general intelligence in the field of computer vision.

InstructDiffusion: Универсальный интерфейс моделирования для задач компьютерного зрения

InstructDiffusion: A Generalist Modeling Interface for Vision Tasks

Аннотация

Support