MiCo: Contraste Multi-imagem para Raciocínio Visual por Reforço
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning
June 27, 2025
Autores: Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
cs.AI
Resumo
Este trabalho explora a habilitação do raciocínio em Cadeia de Pensamento (CoT) para conectar pistas visuais em múltiplas imagens. Uma solução direta é adaptar o aprendizado por reforço baseado em regras para Modelos de Visão e Linguagem (VLMs). No entanto, tais métodos geralmente dependem de pares de perguntas e respostas curados manualmente, o que pode ser particularmente desafiador ao lidar com detalhes visuais refinados e lógica complexa entre imagens. Inspirados pelo aprendizado auto-supervisionado de representações visuais, observamos que as imagens contêm restrições intrínsecas que podem servir como supervisão. Com base nessa percepção, construímos tripletos de imagens compostos por duas visões aumentadas da mesma imagem e uma terceira imagem, semelhante mas distinta. Durante o treinamento, o modelo é incentivado a gerar um processo de raciocínio para comparar essas imagens (ou seja, determinar se são iguais ou diferentes). Em seguida, otimizamos o modelo com aprendizado por reforço baseado em regras. Devido à alta similaridade visual e à presença de aumentos, o modelo deve prestar atenção a mudanças visuais sutis e realizar raciocínio lógico para ter sucesso. Experimentos mostram que, embora treinado apenas em tarefas de comparação visual, a capacidade de raciocínio aprendida generaliza efetivamente para uma ampla gama de perguntas. Sem depender de pares de perguntas e respotas anotados manualmente, nosso método alcança melhorias significativas em benchmarks de raciocínio com múltiplas imagens e demonstra forte desempenho em tarefas visuais gerais.
English
This work explores enabling Chain-of-Thought (CoT) reasoning to link visual
cues across multiple images. A straightforward solution is to adapt rule-based
reinforcement learning for Vision-Language Models (VLMs). However, such methods
typically rely on manually curated question-answer pairs, which can be
particularly challenging when dealing with fine grained visual details and
complex logic across images. Inspired by self-supervised visual representation
learning, we observe that images contain inherent constraints that can serve as
supervision. Based on this insight, we construct image triplets comprising two
augmented views of the same image and a third, similar but distinct image.
During training, the model is prompted to generate a reasoning process to
compare these images (i.e., determine same or different). Then we optimize the
model with rule-based reinforcement learning. Due to the high visual similarity
and the presence of augmentations, the model must attend to subtle visual
changes and perform logical reasoning to succeed. Experiments show that,
although trained solely on visual comparison tasks, the learned reasoning
ability generalizes effectively to a wide range of questions. Without relying
on any human-annotated question-answer pairs, our method achieves significant
improvements on multi-image reasoning benchmarks and shows strong performance
on general vision tasks.