MiCo: Многокадровый контраст для усиления визуального анализа
MiCo: Multi-image Contrast for Reinforcement Visual Reasoning
June 27, 2025
Авторы: Xi Chen, Mingkang Zhu, Shaoteng Liu, Xiaoyang Wu, Xiaogang Xu, Yu Liu, Xiang Bai, Hengshuang Zhao
cs.AI
Аннотация
В данной работе исследуется возможность включения цепочек рассуждений (Chain-of-Thought, CoT) для установления связей между визуальными подсказками на нескольких изображениях. Простое решение заключается в адаптации обучения с подкреплением на основе правил для моделей, объединяющих зрение и язык (Vision-Language Models, VLMs). Однако такие методы обычно полагаются на вручную подобранные пары вопросов и ответов, что может быть особенно сложным при работе с мелкими визуальными деталями и сложной логикой, охватывающей несколько изображений. Вдохновленные самообучением визуальных представлений, мы отмечаем, что изображения содержат внутренние ограничения, которые могут служить источником контроля. На основе этого наблюдения мы создаем тройки изображений, состоящие из двух аугментированных версий одного изображения и третьего, похожего, но отличного изображения. В процессе обучения модель побуждается генерировать процесс рассуждения для сравнения этих изображений (например, определить, одинаковы они или различны). Затем мы оптимизируем модель с помощью обучения с подкреплением на основе правил. Благодаря высокой визуальной схожести и наличию аугментаций модель должна обращать внимание на тонкие визуальные изменения и выполнять логические рассуждения для успешного выполнения задачи. Эксперименты показывают, что, несмотря на обучение исключительно на задачах визуального сравнения, приобретенные способности к рассуждению эффективно обобщаются на широкий спектр вопросов. Без использования каких-либо аннотированных человеком пар вопросов и ответов наш метод демонстрирует значительные улучшения на тестах для рассуждений на основе нескольких изображений и показывает высокую производительность на общих задачах компьютерного зрения.
English
This work explores enabling Chain-of-Thought (CoT) reasoning to link visual
cues across multiple images. A straightforward solution is to adapt rule-based
reinforcement learning for Vision-Language Models (VLMs). However, such methods
typically rely on manually curated question-answer pairs, which can be
particularly challenging when dealing with fine grained visual details and
complex logic across images. Inspired by self-supervised visual representation
learning, we observe that images contain inherent constraints that can serve as
supervision. Based on this insight, we construct image triplets comprising two
augmented views of the same image and a third, similar but distinct image.
During training, the model is prompted to generate a reasoning process to
compare these images (i.e., determine same or different). Then we optimize the
model with rule-based reinforcement learning. Due to the high visual similarity
and the presence of augmentations, the model must attend to subtle visual
changes and perform logical reasoning to succeed. Experiments show that,
although trained solely on visual comparison tasks, the learned reasoning
ability generalizes effectively to a wide range of questions. Without relying
on any human-annotated question-answer pairs, our method achieves significant
improvements on multi-image reasoning benchmarks and shows strong performance
on general vision tasks.