CogCoM: Addestramento di Grandi Modelli Visione-Linguaggio Approfondendo i Dettagli attraverso la Catena di Manipolazioni

Abstract

I modelli visione-linguaggio (VLMs) hanno dimostrato la loro ampia fattibilità grazie a un addestramento estensivo nell'allineare istruzioni visive a risposte. Tuttavia, questo allineamento conclusivo porta i modelli a ignorare il ragionamento visivo critico, risultando ulteriormente in fallimenti su problemi visivi meticolosi e risposte infedeli. In questo articolo, proponiamo Chain of Manipulations, un meccanismo che consente ai VLMs di risolvere problemi con una serie di manipolazioni, dove ciascuna manipolazione si riferisce a un'operazione sull'input visivo, derivante sia da abilità intrinseche (ad esempio, grounding) acquisite attraverso un addestramento precedente, sia dall'imitazione di comportamenti umani (ad esempio, zoom). Questo meccanismo incoraggia i VLMs a generare risposte fedeli con un ragionamento visivo evidente e permette agli utenti di tracciare le cause degli errori in percorsi interpretabili. Abbiamo quindi addestrato CogCoM, un VLM generale da 17B con un'architettura compatibile basata sulla memoria dotata di questo meccanismo di ragionamento. Gli esperimenti mostrano che il nostro modello raggiunge prestazioni all'avanguardia su 8 benchmark di 3 categorie, e un numero limitato di passi di addestramento con i dati ottiene rapidamente una performance competitiva. Il codice e i dati sono disponibili pubblicamente all'indirizzo https://github.com/THUDM/CogCoM.

English

Vision-Language Models (VLMs) have demonstrated their widespread viability thanks to extensive training in aligning visual instructions to answers. However, this conclusive alignment leads models to ignore critical visual reasoning, and further result in failures on meticulous visual problems and unfaithful responses. In this paper, we propose Chain of Manipulations, a mechanism that enables VLMs to solve problems with a series of manipulations, where each manipulation refers to an operation on the visual input, either from intrinsic abilities (e.g., grounding) acquired through prior training or from imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs to generate faithful responses with evidential visual reasoning, and permits users to trace error causes in the interpretable paths. We thus train CogCoM, a general 17B VLM with a memory-based compatible architecture endowed this reasoning mechanism. Experiments show that our model achieves the state-of-the-art performance across 8 benchmarks from 3 categories, and a limited number of training steps with the data swiftly gains a competitive performance. The code and data are publicly available at https://github.com/THUDM/CogCoM.

CogCoM: Addestramento di Grandi Modelli Visione-Linguaggio Approfondendo i Dettagli attraverso la Catena di Manipolazioni

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

Abstract

Support