CogCoM: Entrenamiento de Grandes Modelos de Visión-Lenguaje Profundizando en los Detalles mediante una Cadena de Manipulaciones
CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations
February 6, 2024
Autores: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs, por sus siglas en inglés) han demostrado su viabilidad generalizada gracias a un entrenamiento extenso en la alineación de instrucciones visuales con respuestas. Sin embargo, esta alineación concluyente lleva a los modelos a ignorar razonamientos visuales críticos, lo que resulta en fallos en problemas visuales meticulosos y respuestas poco fieles. En este artículo, proponemos la Cadena de Manipulaciones, un mecanismo que permite a los VLMs resolver problemas mediante una serie de manipulaciones, donde cada manipulación se refiere a una operación sobre la entrada visual, ya sea a partir de habilidades intrínsecas (por ejemplo, localización) adquiridas mediante entrenamiento previo o de la imitación de comportamientos humanos (por ejemplo, hacer zoom). Este mecanismo fomenta que los VLMs generen respuestas fieles con razonamientos visuales basados en evidencia, y permite a los usuarios rastrear las causas de errores en rutas interpretables. Así, entrenamos CogCoM, un VLM general de 17B con una arquitectura compatible basada en memoria, dotado de este mecanismo de razonamiento. Los experimentos muestran que nuestro modelo alcanza un rendimiento de vanguardia en 8 benchmarks de 3 categorías, y un número limitado de pasos de entrenamiento con los datos obtiene rápidamente un rendimiento competitivo. El código y los datos están disponibles públicamente en https://github.com/THUDM/CogCoM.
English
Vision-Language Models (VLMs) have demonstrated their widespread viability
thanks to extensive training in aligning visual instructions to answers.
However, this conclusive alignment leads models to ignore critical visual
reasoning, and further result in failures on meticulous visual problems and
unfaithful responses. In this paper, we propose Chain of Manipulations, a
mechanism that enables VLMs to solve problems with a series of manipulations,
where each manipulation refers to an operation on the visual input, either from
intrinsic abilities (e.g., grounding) acquired through prior training or from
imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs
to generate faithful responses with evidential visual reasoning, and permits
users to trace error causes in the interpretable paths. We thus train CogCoM, a
general 17B VLM with a memory-based compatible architecture endowed this
reasoning mechanism. Experiments show that our model achieves the
state-of-the-art performance across 8 benchmarks from 3 categories, and a
limited number of training steps with the data swiftly gains a competitive
performance. The code and data are publicly available at
https://github.com/THUDM/CogCoM.