CogCoM : Entraîner des modèles de vision et de langage de grande taille en explorant les détails via une chaîne de manipulations
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
February 6, 2024
Auteurs: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
Résumé
Les modèles vision-langage (VLMs) ont démontré leur viabilité généralisée grâce à un entraînement approfondi dans l'alignement des instructions visuelles avec des réponses. Cependant, cet alignement concluant amène les modèles à ignorer un raisonnement visuel critique, entraînant des échecs sur des problèmes visuels minutieux et des réponses infidèles. Dans cet article, nous proposons la Chaîne de Manipulations, un mécanisme permettant aux VLMs de résoudre des problèmes grâce à une série de manipulations, où chaque manipulation se réfère à une opération sur l'entrée visuelle, soit à partir de capacités intrinsèques (par exemple, l'ancrage) acquises lors d'un entraînement préalable, soit en imitant des comportements humains (par exemple, un zoom avant). Ce mécanisme encourage les VLMs à générer des réponses fidèles avec un raisonnement visuel probant, et permet aux utilisateurs de retracer les causes d'erreur dans des chemins interprétables. Nous avons ainsi entraîné CogCoM, un VLM général de 17 milliards de paramètres doté d'une architecture compatible basée sur la mémoire et équipée de ce mécanisme de raisonnement. Les expériences montrent que notre modèle atteint des performances de pointe sur 8 benchmarks issus de 3 catégories, et qu'un nombre limité d'étapes d'entraînement avec les données permet d'obtenir rapidement une performance compétitive. Le code et les données sont disponibles publiquement à l'adresse https://github.com/THUDM/CogCoM.
English
Vision-Language Models (VLMs) have demonstrated their widespread viability
thanks to extensive training in aligning visual instructions to answers.
However, this conclusive alignment leads models to ignore critical visual
reasoning, and further result in failures on meticulous visual problems and
unfaithful responses. In this paper, we propose Chain of Manipulations, a
mechanism that enables VLMs to solve problems with a series of manipulations,
where each manipulation refers to an operation on the visual input, either from
intrinsic abilities (e.g., grounding) acquired through prior training or from
imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs
to generate faithful responses with evidential visual reasoning, and permits
users to trace error causes in the interpretable paths. We thus train CogCoM, a
general 17B VLM with a memory-based compatible architecture endowed this
reasoning mechanism. Experiments show that our model achieves the
state-of-the-art performance across 8 benchmarks from 3 categories, and a
limited number of training steps with the data swiftly gains a competitive
performance. The code and data are publicly available at
https://github.com/THUDM/CogCoM.