CogCoM: Обучение крупных визуально-языковых моделей с углублением в детали через цепочку манипуляций
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
February 6, 2024
Авторы: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
Аннотация
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали свою широкую применимость благодаря масштабному обучению, направленному на согласование визуальных инструкций с ответами. Однако такая окончательная согласованность приводит к тому, что модели игнорируют критически важное визуальное рассуждение, что, в свою очередь, вызывает ошибки при решении тщательно продуманных визуальных задач и приводит к недостоверным ответам. В данной статье мы предлагаем механизм под названием "Цепочка манипуляций" (Chain of Manipulations), который позволяет VLMs решать задачи с помощью последовательности манипуляций, где каждая манипуляция представляет собой операцию над визуальным входом, основанную либо на внутренних способностях (например, локализация), приобретенных в ходе предшествующего обучения, либо на имитации человеческого поведения (например, увеличение). Этот механизм способствует тому, что VLMs генерируют достоверные ответы, подкрепленные визуальным рассуждением, и позволяет пользователям отслеживать причины ошибок на интерпретируемых этапах. Мы обучаем CogCoM — универсальную 17B VLM с архитектурой, совместимой с памятью, наделенную этим механизмом рассуждения. Эксперименты показывают, что наша модель достигает наилучших результатов на 8 тестовых наборах из 3 категорий, а также демонстрирует конкурентоспособную производительность при ограниченном количестве шагов обучения с использованием данных. Код и данные доступны по адресу https://github.com/THUDM/CogCoM.
English
Vision-Language Models (VLMs) have demonstrated their widespread viability
thanks to extensive training in aligning visual instructions to answers.
However, this conclusive alignment leads models to ignore critical visual
reasoning, and further result in failures on meticulous visual problems and
unfaithful responses. In this paper, we propose Chain of Manipulations, a
mechanism that enables VLMs to solve problems with a series of manipulations,
where each manipulation refers to an operation on the visual input, either from
intrinsic abilities (e.g., grounding) acquired through prior training or from
imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs
to generate faithful responses with evidential visual reasoning, and permits
users to trace error causes in the interpretable paths. We thus train CogCoM, a
general 17B VLM with a memory-based compatible architecture endowed this
reasoning mechanism. Experiments show that our model achieves the
state-of-the-art performance across 8 benchmarks from 3 categories, and a
limited number of training steps with the data swiftly gains a competitive
performance. The code and data are publicly available at
https://github.com/THUDM/CogCoM.