Пояснительные инструкции: К пониманию задач обработки изображений и обобщения без обученияExplanatory Instructions: Towards Unified Vision Tasks Understanding and
Zero-shot Generalization
Компьютерное зрение (CV) до сих пор не достигло полного обобщения задач с нулевым обучением, наблюдаемого в обработке естественного языка (NLP), несмотря на то, что оно следует за многими вехами, установленными в NLP, такими как большие модели трансформеров, обширное предварительное обучение и парадигма авторегрессии, среди прочего. В этой статье мы исследуем идею, что CV принимает дискретные и терминологические определения задач (например, "сегментация изображений"), которые могут быть ключевым барьером для обобщения задач с нулевым обучением. Наша гипотеза заключается в том, что без истинного понимания ранее виденных задач - из-за этих терминологических определений - глубокие модели испытывают затруднения с обобщением на новые задачи. Для проверки этого мы представляем пояснительные инструкции, которые предоставляют интуитивный способ определения целей задач CV через подробные лингвистические преобразования от входных изображений к выходам. Мы создаем крупномасштабный набор данных, включающий 12 миллионов троек "входное изображение - пояснительная инструкция - выход", и обучаем модель зрения-языка на основе авторегрессии (AR-based VLM), которая принимает как изображения, так и пояснительные инструкции в качестве входных данных. Обучаясь следовать этим инструкциям, AR-based VLM достигает возможностей нулевого обучения на уровне инструкций для ранее виденных задач и демонстрирует сильное обобщение на нулевом уровне для невидимых задач CV. Код и набор данных будут открыто доступны в нашем репозитории GitHub.