ChatPaper.aiChatPaper

MiCo: 강화 시각적 추론을 위한 다중 이미지 대조 기법

MiCo: Multi-image Contrast for Reinforcement Visual Reasoning

June 27, 2025
저자: Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
cs.AI

초록

본 연구는 다중 이미지 간의 시각적 단서를 연결하기 위해 Chain-of-Thought(CoT) 추론을 가능하게 하는 방법을 탐구합니다. 간단한 해결책으로는 Vision-Language Models(VLMs)에 규칙 기반 강화 학습을 적용하는 것이 있습니다. 그러나 이러한 방법은 일반적으로 수작업으로 정제된 질문-답변 쌍에 의존하는데, 이는 미세한 시각적 세부 사항과 이미지 간의 복잡한 논리를 다룰 때 특히 어려울 수 있습니다. 자기 지도 시각 표현 학습에서 영감을 받아, 우리는 이미지가 감독 역할을 할 수 있는 내재적 제약을 포함하고 있음을 관찰했습니다. 이러한 통찰을 바탕으로, 우리는 동일한 이미지의 두 가지 증강된 뷰와 세 번째로 유사하지만 구별되는 이미지로 구성된 이미지 트리플렛을 구성합니다. 학습 중에 모델은 이러한 이미지를 비교(즉, 동일한지 다른지 결정)하기 위한 추론 과정을 생성하도록 유도됩니다. 그런 다음 규칙 기반 강화 학습을 통해 모델을 최적화합니다. 높은 시각적 유사성과 증강의 존재로 인해, 모델은 미묘한 시각적 변화에 주의를 기울이고 논리적 추론을 수행해야 성공할 수 있습니다. 실험 결과, 시각적 비교 작업만으로 학습된 추론 능력이 다양한 질문에 효과적으로 일반화됨을 보여줍니다. 인간이 주석을 단 질문-답변 쌍에 의존하지 않고도, 우리의 방법은 다중 이미지 추론 벤치마크에서 상당한 개선을 달성하고 일반적인 시각 작업에서도 강력한 성능을 보입니다.
English
This work explores enabling Chain-of-Thought (CoT) reasoning to link visual cues across multiple images. A straightforward solution is to adapt rule-based reinforcement learning for Vision-Language Models (VLMs). However, such methods typically rely on manually curated question-answer pairs, which can be particularly challenging when dealing with fine grained visual details and complex logic across images. Inspired by self-supervised visual representation learning, we observe that images contain inherent constraints that can serve as supervision. Based on this insight, we construct image triplets comprising two augmented views of the same image and a third, similar but distinct image. During training, the model is prompted to generate a reasoning process to compare these images (i.e., determine same or different). Then we optimize the model with rule-based reinforcement learning. Due to the high visual similarity and the presence of augmentations, the model must attend to subtle visual changes and perform logical reasoning to succeed. Experiments show that, although trained solely on visual comparison tasks, the learned reasoning ability generalizes effectively to a wide range of questions. Without relying on any human-annotated question-answer pairs, our method achieves significant improvements on multi-image reasoning benchmarks and shows strong performance on general vision tasks.
PDF101June 30, 2025