CogCoM : Entraîner des modèles de vision et de langage de grande taille en explorant les détails via une chaîne de manipulations

papers.abstract

Les modèles vision-langage (VLMs) ont démontré leur viabilité généralisée grâce à un entraînement approfondi dans l'alignement des instructions visuelles avec des réponses. Cependant, cet alignement concluant amène les modèles à ignorer un raisonnement visuel critique, entraînant des échecs sur des problèmes visuels minutieux et des réponses infidèles. Dans cet article, nous proposons la Chaîne de Manipulations, un mécanisme permettant aux VLMs de résoudre des problèmes grâce à une série de manipulations, où chaque manipulation se réfère à une opération sur l'entrée visuelle, soit à partir de capacités intrinsèques (par exemple, l'ancrage) acquises lors d'un entraînement préalable, soit en imitant des comportements humains (par exemple, un zoom avant). Ce mécanisme encourage les VLMs à générer des réponses fidèles avec un raisonnement visuel probant, et permet aux utilisateurs de retracer les causes d'erreur dans des chemins interprétables. Nous avons ainsi entraîné CogCoM, un VLM général de 17 milliards de paramètres doté d'une architecture compatible basée sur la mémoire et équipée de ce mécanisme de raisonnement. Les expériences montrent que notre modèle atteint des performances de pointe sur 8 benchmarks issus de 3 catégories, et qu'un nombre limité d'étapes d'entraînement avec les données permet d'obtenir rapidement une performance compétitive. Le code et les données sont disponibles publiquement à l'adresse https://github.com/THUDM/CogCoM.

English

Vision-Language Models (VLMs) have demonstrated their widespread viability thanks to extensive training in aligning visual instructions to answers. However, this conclusive alignment leads models to ignore critical visual reasoning, and further result in failures on meticulous visual problems and unfaithful responses. In this paper, we propose Chain of Manipulations, a mechanism that enables VLMs to solve problems with a series of manipulations, where each manipulation refers to an operation on the visual input, either from intrinsic abilities (e.g., grounding) acquired through prior training or from imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs to generate faithful responses with evidential visual reasoning, and permits users to trace error causes in the interpretable paths. We thus train CogCoM, a general 17B VLM with a memory-based compatible architecture endowed this reasoning mechanism. Experiments show that our model achieves the state-of-the-art performance across 8 benchmarks from 3 categories, and a limited number of training steps with the data swiftly gains a competitive performance. The code and data are publicly available at https://github.com/THUDM/CogCoM.

CogCoM : Entraîner des modèles de vision et de langage de grande taille en explorant les détails via une chaîne de manipulations

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

papers.abstract

Support