CogCoM: Grote Vision-Language Modellen Trainen door in Details te Duiken via een Keten van Manipulaties

Samenvatting

Vision-Language Models (VLMs) hebben hun brede toepasbaarheid aangetoond dankzij uitgebreide training in het afstemmen van visuele instructies op antwoorden. Deze definitieve afstemming leidt er echter toe dat modellen kritisch visueel redeneren negeren, wat resulteert in fouten bij nauwkeurige visuele problemen en onbetrouwbare reacties. In dit artikel stellen we Chain of Manipulations voor, een mechanisme dat VLMs in staat stelt problemen op te lossen met een reeks manipulaties, waarbij elke manipulatie verwijst naar een bewerking op de visuele input, hetzij vanuit intrinsieke vaardigheden (bijv. gronding) verworven door eerdere training, hetzij door het imiteren van menselijk gedrag (bijv. inzoomen). Dit mechanisme moedigt VLMs aan om betrouwbare reacties te genereren met bewijsbaar visueel redeneren, en stelt gebruikers in staat om foutoorzaken te traceren in de interpreteerbare paden. We trainen daarom CogCoM, een algemene 17B VLM met een geheugen-gebaseerde compatibele architectuur die is uitgerust met dit redeneermechanisme. Experimenten tonen aan dat ons model state-of-the-art prestaties behaalt op 8 benchmarks uit 3 categorieën, en dat een beperkt aantal trainingsstappen met de data snel een competitieve prestatie oplevert. De code en data zijn publiekelijk beschikbaar op https://github.com/THUDM/CogCoM.

English

Vision-Language Models (VLMs) have demonstrated their widespread viability thanks to extensive training in aligning visual instructions to answers. However, this conclusive alignment leads models to ignore critical visual reasoning, and further result in failures on meticulous visual problems and unfaithful responses. In this paper, we propose Chain of Manipulations, a mechanism that enables VLMs to solve problems with a series of manipulations, where each manipulation refers to an operation on the visual input, either from intrinsic abilities (e.g., grounding) acquired through prior training or from imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs to generate faithful responses with evidential visual reasoning, and permits users to trace error causes in the interpretable paths. We thus train CogCoM, a general 17B VLM with a memory-based compatible architecture endowed this reasoning mechanism. Experiments show that our model achieves the state-of-the-art performance across 8 benchmarks from 3 categories, and a limited number of training steps with the data swiftly gains a competitive performance. The code and data are publicly available at https://github.com/THUDM/CogCoM.

CogCoM: Grote Vision-Language Modellen Trainen door in Details te Duiken via een Keten van Manipulaties

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

Samenvatting

Support