ChatPaper.aiChatPaper

CogCoM: Treinando Grandes Modelos Visão-Linguagem Explorando Detalhes através de Cadeias de Manipulações

CogCoM: Train Large Vision-Language Models Diving into Details through Chain of Manipulations

February 6, 2024
Autores: Ji Qi, Ming Ding, Weihan Wang, Yushi Bai, Qingsong Lv, Wenyi Hong, Bin Xu, Lei Hou, Juanzi Li, Yuxiao Dong, Jie Tang
cs.AI

Resumo

Modelos Visão-Linguagem (VLMs) demonstraram sua ampla viabilidade graças a extensos treinamentos no alinhamento de instruções visuais a respostas. No entanto, esse alinhamento conclusivo leva os modelos a ignorar raciocínios visuais críticos, resultando em falhas em problemas visuais meticulosos e respostas infiéis. Neste artigo, propomos a Cadeia de Manipulações, um mecanismo que permite aos VLMs resolver problemas com uma série de manipulações, onde cada manipulação se refere a uma operação na entrada visual, seja a partir de habilidades intrínsecas (por exemplo, fundamentação) adquiridas por meio de treinamento prévio ou da imitação de comportamentos humanos (por exemplo, zoom). Esse mecanismo incentiva os VLMs a gerar respostas fiéis com raciocínio visual evidenciado e permite que os usuários rastreiem as causas de erros em caminhos interpretáveis. Assim, treinamos o CogCoM, um VLM geral de 17B com uma arquitetura compatível baseada em memória, dotado desse mecanismo de raciocínio. Experimentos mostram que nosso modelo alcança o desempenho de ponta em 8 benchmarks de 3 categorias, e um número limitado de etapas de treinamento com os dados rapidamente obtém um desempenho competitivo. O código e os dados estão publicamente disponíveis em https://github.com/THUDM/CogCoM.
English
Vision-Language Models (VLMs) have demonstrated their widespread viability thanks to extensive training in aligning visual instructions to answers. However, this conclusive alignment leads models to ignore critical visual reasoning, and further result in failures on meticulous visual problems and unfaithful responses. In this paper, we propose Chain of Manipulations, a mechanism that enables VLMs to solve problems with a series of manipulations, where each manipulation refers to an operation on the visual input, either from intrinsic abilities (e.g., grounding) acquired through prior training or from imitating human-like behaviors (e.g., zoom in). This mechanism encourages VLMs to generate faithful responses with evidential visual reasoning, and permits users to trace error causes in the interpretable paths. We thus train CogCoM, a general 17B VLM with a memory-based compatible architecture endowed this reasoning mechanism. Experiments show that our model achieves the state-of-the-art performance across 8 benchmarks from 3 categories, and a limited number of training steps with the data swiftly gains a competitive performance. The code and data are publicly available at https://github.com/THUDM/CogCoM.
PDF91February 8, 2026