ChatPaper.aiChatPaper

MiCo: Multi-beeldcontrast voor visuele redeneervaardigheden in reinforcement learning

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

June 27, 2025
Auteurs: Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
cs.AI

Samenvatting

Dit onderzoek richt zich op het mogelijk maken van Chain-of-Thought (CoT) redenering om visuele aanwijzingen over meerdere afbeeldingen heen te verbinden. Een eenvoudige oplossing is het aanpassen van op regels gebaseerde reinforcement learning voor Vision-Language Models (VLMs). Dergelijke methoden zijn echter vaak afhankelijk van handmatig samengestelde vraag-antwoordparen, wat vooral uitdagend kan zijn bij het omgaan met fijnmazige visuele details en complexe logica over afbeeldingen heen. Geïnspireerd door zelfgesuperviseerd leren van visuele representaties, merken we op dat afbeeldingen inherente beperkingen bevatten die als supervisie kunnen dienen. Op basis van dit inzicht construeren we afbeeldingstriplets die bestaan uit twee geaugmenteerde weergaven van dezelfde afbeelding en een derde, vergelijkbare maar verschillende afbeelding. Tijdens de training wordt het model aangemoedigd om een redeneerproces te genereren om deze afbeeldingen te vergelijken (d.w.z. te bepalen of ze hetzelfde of verschillend zijn). Vervolgens optimaliseren we het model met op regels gebaseerde reinforcement learning. Door de hoge visuele gelijkenis en de aanwezigheid van augmentaties moet het model aandacht besteden aan subtiele visuele veranderingen en logisch redeneren om succesvol te zijn. Experimenten tonen aan dat, hoewel het model uitsluitend is getraind op visuele vergelijkingstaken, het geleerde redeneervermogen effectief generaliseert naar een breed scala aan vragen. Zonder te vertrouwen op door mensen geannoteerde vraag-antwoordparen, behaalt onze methode aanzienlijke verbeteringen op benchmarks voor redeneren over meerdere afbeeldingen en toont het sterke prestaties op algemene visietaken.
English
This work explores enabling Chain-of-Thought (CoT) reasoning to link visual cues across multiple images. A straightforward solution is to adapt rule-based reinforcement learning for Vision-Language Models (VLMs). However, such methods typically rely on manually curated question-answer pairs, which can be particularly challenging when dealing with fine grained visual details and complex logic across images. Inspired by self-supervised visual representation learning, we observe that images contain inherent constraints that can serve as supervision. Based on this insight, we construct image triplets comprising two augmented views of the same image and a third, similar but distinct image. During training, the model is prompted to generate a reasoning process to compare these images (i.e., determine same or different). Then we optimize the model with rule-based reinforcement learning. Due to the high visual similarity and the presence of augmentations, the model must attend to subtle visual changes and perform logical reasoning to succeed. Experiments show that, although trained solely on visual comparison tasks, the learned reasoning ability generalizes effectively to a wide range of questions. Without relying on any human-annotated question-answer pairs, our method achieves significant improvements on multi-image reasoning benchmarks and shows strong performance on general vision tasks.
PDF101June 30, 2025