MiCo: Contraste Multiimagen para el Razonamiento Visual Reforzado
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning
June 27, 2025
Autores: Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
cs.AI
Resumen
Este trabajo explora la habilitación del razonamiento en cadena de pensamiento (Chain-of-Thought, CoT) para vincular indicios visuales a través de múltiples imágenes. Una solución directa es adaptar el aprendizaje por refuerzo basado en reglas para modelos de visión y lenguaje (Vision-Language Models, VLMs). Sin embargo, tales métodos suelen depender de pares de preguntas y respuestas curados manualmente, lo que puede ser particularmente desafiante al tratar con detalles visuales finos y lógica compleja entre imágenes. Inspirados por el aprendizaje autosupervisado de representaciones visuales, observamos que las imágenes contienen restricciones inherentes que pueden servir como supervisión. Basándonos en esta idea, construimos tripletes de imágenes que comprenden dos vistas aumentadas de la misma imagen y una tercera imagen similar pero distinta. Durante el entrenamiento, se solicita al modelo que genere un proceso de razonamiento para comparar estas imágenes (es decir, determinar si son iguales o diferentes). Luego, optimizamos el modelo con aprendizaje por refuerzo basado en reglas. Debido a la alta similitud visual y la presencia de aumentaciones, el modelo debe prestar atención a cambios visuales sutiles y realizar razonamiento lógico para tener éxito. Los experimentos muestran que, aunque el modelo se entrena únicamente en tareas de comparación visual, la capacidad de razonamiento aprendida se generaliza efectivamente a una amplia gama de preguntas. Sin depender de pares de preguntas y respuestas anotados manualmente, nuestro método logra mejoras significativas en benchmarks de razonamiento con múltiples imágenes y muestra un rendimiento sólido en tareas generales de visión.
English
This work explores enabling Chain-of-Thought (CoT) reasoning to link visual
cues across multiple images. A straightforward solution is to adapt rule-based
reinforcement learning for Vision-Language Models (VLMs). However, such methods
typically rely on manually curated question-answer pairs, which can be
particularly challenging when dealing with fine grained visual details and
complex logic across images. Inspired by self-supervised visual representation
learning, we observe that images contain inherent constraints that can serve as
supervision. Based on this insight, we construct image triplets comprising two
augmented views of the same image and a third, similar but distinct image.
During training, the model is prompted to generate a reasoning process to
compare these images (i.e., determine same or different). Then we optimize the
model with rule-based reinforcement learning. Due to the high visual similarity
and the presence of augmentations, the model must attend to subtle visual
changes and perform logical reasoning to succeed. Experiments show that,
although trained solely on visual comparison tasks, the learned reasoning
ability generalizes effectively to a wide range of questions. Without relying
on any human-annotated question-answer pairs, our method achieves significant
improvements on multi-image reasoning benchmarks and shows strong performance
on general vision tasks.