CogCoM: Addestramento di Grandi Modelli Visione-Linguaggio Approfondendo i Dettagli attraverso la Catena di Manipolazioni
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
February 6, 2024
Autori: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno dimostrato la loro ampia fattibilità grazie a un addestramento estensivo nell'allineare istruzioni visive a risposte. Tuttavia, questo allineamento conclusivo porta i modelli a ignorare il ragionamento visivo critico, risultando ulteriormente in fallimenti su problemi visivi meticolosi e risposte infedeli. In questo articolo, proponiamo Chain of Manipulations, un meccanismo che consente ai VLMs di risolvere problemi con una serie di manipolazioni, dove ciascuna manipolazione si riferisce a un'operazione sull'input visivo, derivante sia da abilità intrinseche (ad esempio, grounding) acquisite attraverso un addestramento precedente, sia dall'imitazione di comportamenti umani (ad esempio, zoom). Questo meccanismo incoraggia i VLMs a generare risposte fedeli con un ragionamento visivo evidente e permette agli utenti di tracciare le cause degli errori in percorsi interpretabili. Abbiamo quindi addestrato CogCoM, un VLM generale da 17B con un'architettura compatibile basata sulla memoria dotata di questo meccanismo di ragionamento. Gli esperimenti mostrano che il nostro modello raggiunge prestazioni all'avanguardia su 8 benchmark di 3 categorie, e un numero limitato di passi di addestramento con i dati ottiene rapidamente una performance competitiva. Il codice e i dati sono disponibili pubblicamente all'indirizzo https://github.com/THUDM/CogCoM.
English
Vision-Language Models (VLMs) have demonstrated their widespread viability
thanks to extensive training in aligning visual instructions to answers.
However, this conclusive alignment leads models to ignore critical visual
reasoning, and further result in failures on meticulous visual problems and
unfaithful responses. In this paper, we propose Chain of Manipulations, a
mechanism that enables VLMs to solve problems with a series of manipulations,
where each manipulation refers to an operation on the visual input, either from
intrinsic abilities (e.g., grounding) acquired through prior training or from
imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs
to generate faithful responses with evidential visual reasoning, and permits
users to trace error causes in the interpretable paths. We thus train CogCoM, a
general 17B VLM with a memory-based compatible architecture endowed this
reasoning mechanism. Experiments show that our model achieves the
state-of-the-art performance across 8 benchmarks from 3 categories, and a
limited number of training steps with the data swiftly gains a competitive
performance. The code and data are publicly available at
https://github.com/THUDM/CogCoM.