MiCo : Contraste multi-images pour le raisonnement visuel par renforcement

papers.abstract

Ce travail explore l'activation du raisonnement en chaîne de pensée (Chain-of-Thought, CoT) pour relier des indices visuels à travers plusieurs images. Une solution directe consiste à adapter l'apprentissage par renforcement basé sur des règles pour les modèles vision-langage (Vision-Language Models, VLMs). Cependant, ces méthodes reposent généralement sur des paires question-réponse soigneusement sélectionnées manuellement, ce qui peut s'avérer particulièrement difficile lorsqu'il s'agit de détails visuels fins et de logiques complexes entre images. Inspirés par l'apprentissage auto-supervisé de représentations visuelles, nous observons que les images contiennent des contraintes intrinsèques pouvant servir de supervision. Sur la base de cette observation, nous construisons des triplets d'images comprenant deux vues augmentées de la même image et une troisième image similaire mais distincte. Pendant l'entraînement, le modèle est incité à générer un processus de raisonnement pour comparer ces images (c'est-à-dire déterminer si elles sont identiques ou différentes). Ensuite, nous optimisons le modèle avec un apprentissage par renforcement basé sur des règles. En raison de la forte similarité visuelle et de la présence d'augmentations, le modèle doit prêter attention à des changements visuels subtils et effectuer un raisonnement logique pour réussir. Les expériences montrent que, bien qu'entraîné uniquement sur des tâches de comparaison visuelle, la capacité de raisonnement apprise se généralise efficacement à une large gamme de questions. Sans s'appuyer sur aucune paire question-réponse annotée par des humains, notre méthode obtient des améliorations significatives sur des benchmarks de raisonnement multi-images et démontre de solides performances sur des tâches de vision générale.

English

This work explores enabling Chain-of-Thought (CoT) reasoning to link visual cues across multiple images. A straightforward solution is to adapt rule-based reinforcement learning for Vision-Language Models (VLMs). However, such methods typically rely on manually curated question-answer pairs, which can be particularly challenging when dealing with fine grained visual details and complex logic across images. Inspired by self-supervised visual representation learning, we observe that images contain inherent constraints that can serve as supervision. Based on this insight, we construct image triplets comprising two augmented views of the same image and a third, similar but distinct image. During training, the model is prompted to generate a reasoning process to compare these images (i.e., determine same or different). Then we optimize the model with rule-based reinforcement learning. Due to the high visual similarity and the presence of augmentations, the model must attend to subtle visual changes and perform logical reasoning to succeed. Experiments show that, although trained solely on visual comparison tasks, the learned reasoning ability generalizes effectively to a wide range of questions. Without relying on any human-annotated question-answer pairs, our method achieves significant improvements on multi-image reasoning benchmarks and shows strong performance on general vision tasks.

MiCo : Contraste multi-images pour le raisonnement visuel par renforcement

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

papers.abstract

Support