ChatPaper.aiChatPaper

TTRV: Обучение с подкреплением во время тестирования для моделей обработки визуальной и текстовой информации

TTRV: Test-Time Reinforcement Learning for Vision Language Models

October 8, 2025
Авторы: Akshit Singh, Shyam Marjit, Wei Lin, Paul Gavrikov, Serena Yeung-Levy, Hilde Kuehne, Rogerio Feris, Sivan Doveh, James Glass, M. Jehanzeb Mirza
cs.AI

Аннотация

Существующие методы извлечения сигналов вознаграждения в обучении с подкреплением обычно полагаются на размеченные данные и выделенные обучающие выборки, что контрастирует с тем, как люди обучаются непосредственно из окружающей среды. В данной работе мы предлагаем TTRV для улучшения понимания визуально-языковых моделей путем адаптации модели на лету во время вывода, без необходимости в каких-либо размеченных данных. Конкретно, мы улучшаем фреймворк Group Relative Policy Optimization (GRPO), разрабатывая вознаграждения на основе частоты вывода базовой модели, при этом выполняя вывод для каждого тестового образца несколько раз. Кроме того, мы также предлагаем контролировать разнообразие вывода модели, одновременно вознаграждая модель за достижение низкой энтропии эмпирического распределения вывода. Наш подход демонстрирует стабильные улучшения как в задачах распознавания объектов, так и в визуальном ответе на вопросы (VQA), с повышением до 52,4% и 29,8% соответственно, и средним увеличением на 24,6% и 10,0% на 16 наборах данных. Примечательно, что в задачах распознавания изображений TTRV, примененный к InternVL 8B, превосходит GPT-4o в среднем на 2,3% на 8 бенчмарках, оставаясь при этом высококонкурентоспособным в задачах VQA, что демонстрирует, что обучение с подкреплением во время тестирования может соответствовать или превосходить самые сильные проприетарные модели. Наконец, мы обнаруживаем множество интересных свойств обучения с подкреплением во время тестирования для визуально-языковых моделей: например, даже в крайне ограниченных сценариях, где адаптация выполняется на одном случайно выбранном неразмеченном тестовом примере, TTRV все еще дает значительные улучшения до 5,5% в задачах распознавания.
English
Existing methods for extracting reward signals in Reinforcement Learning typically rely on labeled data and dedicated training splits, a setup that contrasts with how humans learn directly from their environment. In this work, we propose TTRV to enhance vision language understanding by adapting the model on the fly at inference time, without the need for any labeled data. Concretely, we enhance the Group Relative Policy Optimization (GRPO) framework by designing rewards based on the frequency of the base model's output, while inferring on each test sample multiple times. Further, we also propose to control the diversity of the model's output by simultaneously rewarding the model for obtaining low entropy of the output empirical distribution. Our approach delivers consistent gains across both object recognition and visual question answering (VQA), with improvements of up to 52.4% and 29.8%, respectively, and average boosts of 24.6% and 10.0% across 16 datasets.Remarkably, on image recognition, TTRV applied to InternVL 8B surpasses GPT-4o by an average of 2.3% over 8 benchmarks, while remaining highly competitive on VQA, demonstrating that test-time reinforcement learning can match or exceed the strongest proprietary models. Finally, we find many interesting properties of test-time RL for VLMs: for example, even in extremely data-constrained scenarios, where adaptation is performed on a single randomly chosen unlabeled test example, TTRV still yields non-trivial improvements of up to 5.5% in recognition tasks.
PDF112October 9, 2025