MiCo: Multi-Bild-Kontrast für verstärktes visuelles Schließen
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning
June 27, 2025
papers.authors: Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
cs.AI
papers.abstract
Diese Arbeit untersucht die Ermöglichung von Chain-of-Thought (CoT)-Denkprozessen, um visuelle Hinweise über mehrere Bilder hinweg zu verknüpfen. Eine naheliegende Lösung besteht darin, regelbasiertes Reinforcement Learning für Vision-Language-Modelle (VLMs) anzupassen. Solche Methoden stützen sich jedoch typischerweise auf manuell kuratierte Frage-Antwort-Paare, was insbesondere bei feingranularen visuellen Details und komplexer Logik über Bilder hinweg besonders herausfordernd sein kann. Inspiriert vom selbstüberwachten visuellen Repräsentationslernen beobachten wir, dass Bilder inhärente Beschränkungen enthalten, die als Supervision dienen können. Basierend auf dieser Erkenntnis konstruieren wir Bild-Triplets, die aus zwei augmentierten Ansichten desselben Bildes und einem dritten, ähnlichen aber unterschiedlichen Bild bestehen. Während des Trainings wird das Modell dazu angeregt, einen Denkprozess zu generieren, um diese Bilder zu vergleichen (d.h. zu bestimmen, ob sie gleich oder unterschiedlich sind). Anschließend optimieren wir das Modell mit regelbasiertem Reinforcement Learning. Aufgrund der hohen visuellen Ähnlichkeit und der Anwesenheit von Augmentierungen muss das Modell subtile visuelle Veränderungen beachten und logisches Denken anwenden, um erfolgreich zu sein. Experimente zeigen, dass die erlernte Denkfähigkeit, obwohl sie ausschließlich an visuellen Vergleichsaufgaben trainiert wurde, effektiv auf eine breite Palette von Fragen verallgemeinert. Ohne sich auf menschlich annotierte Frage-Antwort-Paare zu verlassen, erzielt unsere Methode signifikante Verbesserungen bei Benchmarks für Multi-Bild-Denken und zeigt starke Leistung bei allgemeinen Vision-Aufgaben.
English
This work explores enabling Chain-of-Thought (CoT) reasoning to link visual
cues across multiple images. A straightforward solution is to adapt rule-based
reinforcement learning for Vision-Language Models (VLMs). However, such methods
typically rely on manually curated question-answer pairs, which can be
particularly challenging when dealing with fine grained visual details and
complex logic across images. Inspired by self-supervised visual representation
learning, we observe that images contain inherent constraints that can serve as
supervision. Based on this insight, we construct image triplets comprising two
augmented views of the same image and a third, similar but distinct image.
During training, the model is prompted to generate a reasoning process to
compare these images (i.e., determine same or different). Then we optimize the
model with rule-based reinforcement learning. Due to the high visual similarity
and the presence of augmentations, the model must attend to subtle visual
changes and perform logical reasoning to succeed. Experiments show that,
although trained solely on visual comparison tasks, the learned reasoning
ability generalizes effectively to a wide range of questions. Without relying
on any human-annotated question-answer pairs, our method achieves significant
improvements on multi-image reasoning benchmarks and shows strong performance
on general vision tasks.