InternLM-XComposer2.5-Reward: Простая, но эффективная мультимодальная модель вознаграждения

Аннотация

Несмотря на многообещающую производительность больших моделей языка и зрения (LVLM) в визуальном понимании, иногда они генерируют неверные результаты. В то время как модели вознаграждения (RMs) с обучением с подкреплением или масштабированием на этапе тестирования предлагают потенциал для улучшения качества генерации, остается критическая пробел: общедоступные мультимодальные RMs для LVLMs редки, и детали реализации собственных моделей часто неясны. Мы заполняем этот разрыв с помощью InternLM-XComposer2.5-Reward (IXC-2.5-Reward), простой, но эффективной мультимодальной моделью вознаграждения, которая выравнивает LVLMs с предпочтениями человека. Для обеспечения надежности и универсальности IXC-2.5-Reward мы создали высококачественный мультимодальный корпус предпочтений, охватывающий текстовые, изображения и видео в различных областях, таких как следование за инструкциями, общее понимание, документы с текстом, математическое рассуждение и понимание видео. IXC-2.5-Reward достигает отличных результатов на последнем бенчмарке мультимодальных моделей вознаграждения и показывает конкурентоспособную производительность на бенчмарках моделей вознаграждения только для текста. Мы также демонстрируем три ключевых применения IXC-2.5-Reward: (1) Предоставление надзорного сигнала для обучения с подкреплением. Мы интегрируем IXC-2.5-Reward с методом оптимизации ближайшей политики (PPO), что приводит к IXC-2.5-Chat, который показывает последовательные улучшения в следовании за инструкциями и мультимодальном диалоге без конкретного завершения; (2) Выбор лучшего ответа из кандидатов для масштабирования на этапе тестирования; и (3) Фильтрация выбросов или шумных образцов из существующих данных обучения настройке изображений и видео по инструкциям. Для обеспечения воспроизводимости и содействия дальнейшим исследованиям мы открыли все веса моделей и рецепты обучения на https://github.com/InternLM/InternLM-XComposer.

English

Despite the promising performance of Large Vision Language Models (LVLMs) in visual understanding, they occasionally generate incorrect outputs. While reward models (RMs) with reinforcement learning or test-time scaling offer the potential for improving generation quality, a critical gap remains: publicly available multi-modal RMs for LVLMs are scarce, and the implementation details of proprietary models are often unclear. We bridge this gap with InternLM-XComposer2.5-Reward (IXC-2.5-Reward), a simple yet effective multi-modal reward model that aligns LVLMs with human preferences. To ensure the robustness and versatility of IXC-2.5-Reward, we set up a high-quality multi-modal preference corpus spanning text, image, and video inputs across diverse domains, such as instruction following, general understanding, text-rich documents, mathematical reasoning, and video understanding. IXC-2.5-Reward achieves excellent results on the latest multi-modal reward model benchmark and shows competitive performance on text-only reward model benchmarks. We further demonstrate three key applications of IXC-2.5-Reward: (1) Providing a supervisory signal for RL training. We integrate IXC-2.5-Reward with Proximal Policy Optimization (PPO) yields IXC-2.5-Chat, which shows consistent improvements in instruction following and multi-modal open-ended dialogue; (2) Selecting the best response from candidate responses for test-time scaling; and (3) Filtering outlier or noisy samples from existing image and video instruction tuning training data. To ensure reproducibility and facilitate further research, we have open-sourced all model weights and training recipes at https://github.com/InternLM/InternLM-XComposer

InternLM-XComposer2.5-Reward: Простая, но эффективная мультимодальная модель вознаграждения

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

Аннотация

Support