CogCoM: Grote Vision-Language Modellen Trainen door in Details te Duiken via een Keten van Manipulaties
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
February 6, 2024
Auteurs: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
Samenvatting
Vision-Language Models (VLMs) hebben hun brede toepasbaarheid aangetoond dankzij uitgebreide training in het afstemmen van visuele instructies op antwoorden. Deze definitieve afstemming leidt er echter toe dat modellen kritisch visueel redeneren negeren, wat resulteert in fouten bij nauwkeurige visuele problemen en onbetrouwbare reacties. In dit artikel stellen we Chain of Manipulations voor, een mechanisme dat VLMs in staat stelt problemen op te lossen met een reeks manipulaties, waarbij elke manipulatie verwijst naar een bewerking op de visuele input, hetzij vanuit intrinsieke vaardigheden (bijv. gronding) verworven door eerdere training, hetzij door het imiteren van menselijk gedrag (bijv. inzoomen). Dit mechanisme moedigt VLMs aan om betrouwbare reacties te genereren met bewijsbaar visueel redeneren, en stelt gebruikers in staat om foutoorzaken te traceren in de interpreteerbare paden. We trainen daarom CogCoM, een algemene 17B VLM met een geheugen-gebaseerde compatibele architectuur die is uitgerust met dit redeneermechanisme. Experimenten tonen aan dat ons model state-of-the-art prestaties behaalt op 8 benchmarks uit 3 categorieën, en dat een beperkt aantal trainingsstappen met de data snel een competitieve prestatie oplevert. De code en data zijn publiekelijk beschikbaar op https://github.com/THUDM/CogCoM.
English
Vision-Language Models (VLMs) have demonstrated their widespread viability
thanks to extensive training in aligning visual instructions to answers.
However, this conclusive alignment leads models to ignore critical visual
reasoning, and further result in failures on meticulous visual problems and
unfaithful responses. In this paper, we propose Chain of Manipulations, a
mechanism that enables VLMs to solve problems with a series of manipulations,
where each manipulation refers to an operation on the visual input, either from
intrinsic abilities (e.g., grounding) acquired through prior training or from
imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs
to generate faithful responses with evidential visual reasoning, and permits
users to trace error causes in the interpretable paths. We thus train CogCoM, a
general 17B VLM with a memory-based compatible architecture endowed this
reasoning mechanism. Experiments show that our model achieves the
state-of-the-art performance across 8 benchmarks from 3 categories, and a
limited number of training steps with the data swiftly gains a competitive
performance. The code and data are publicly available at
https://github.com/THUDM/CogCoM.