MiCo: Contrasto Multi-immagine per il Ragionamento Visivo nel Rinforzo
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning
June 27, 2025
Autori: Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
cs.AI
Abstract
Questo lavoro esplora l'abilitazione del ragionamento a Catena di Pensiero (CoT) per collegare indizi visivi attraverso più immagini. Una soluzione diretta consiste nell'adattare l'apprendimento per rinforzo basato su regole per i Modelli Visione-Linguaggio (VLMs). Tuttavia, tali metodi si basano tipicamente su coppie domanda-risposta curate manualmente, il che può risultare particolarmente impegnativo quando si ha a che fare con dettagli visivi fini e logiche complesse tra immagini. Ispirati dall'apprendimento auto-supervisionato delle rappresentazioni visive, osserviamo che le immagini contengono vincoli intrinseci che possono fungere da supervisione. Basandoci su questa intuizione, costruiamo triplette di immagini comprendenti due viste aumentate della stessa immagine e una terza immagine simile ma distinta. Durante l'addestramento, il modello viene sollecitato a generare un processo di ragionamento per confrontare queste immagini (ad esempio, determinare se sono uguali o diverse). Successivamente, ottimizziamo il modello con l'apprendimento per rinforzo basato su regole. A causa dell'elevata somiglianza visiva e della presenza di aumentazioni, il modello deve prestare attenzione a sottili cambiamenti visivi e svolgere un ragionamento logico per avere successo. Gli esperimenti dimostrano che, sebbene addestrato esclusivamente su compiti di confronto visivo, la capacità di ragionamento appresa si generalizza efficacemente a un'ampia gamma di domande. Senza fare affidamento su alcuna coppia domanda-risposta annotata manualmente, il nostro metodo ottiene miglioramenti significativi nei benchmark di ragionamento su più immagini e mostra prestazioni solide in compiti visivi generali.
English
This work explores enabling Chain-of-Thought (CoT) reasoning to link visual
cues across multiple images. A straightforward solution is to adapt rule-based
reinforcement learning for Vision-Language Models (VLMs). However, such methods
typically rely on manually curated question-answer pairs, which can be
particularly challenging when dealing with fine grained visual details and
complex logic across images. Inspired by self-supervised visual representation
learning, we observe that images contain inherent constraints that can serve as
supervision. Based on this insight, we construct image triplets comprising two
augmented views of the same image and a third, similar but distinct image.
During training, the model is prompted to generate a reasoning process to
compare these images (i.e., determine same or different). Then we optimize the
model with rule-based reinforcement learning. Due to the high visual similarity
and the presence of augmentations, the model must attend to subtle visual
changes and perform logical reasoning to succeed. Experiments show that,
although trained solely on visual comparison tasks, the learned reasoning
ability generalizes effectively to a wide range of questions. Without relying
on any human-annotated question-answer pairs, our method achieves significant
improvements on multi-image reasoning benchmarks and shows strong performance
on general vision tasks.