InternLM-XComposer2.5-Reward: un modello di ricompensa multi-modale semplice ma efficace

Abstract

Nonostante le promettenti prestazioni dei Grandi Modelli Linguaggio e Visione (LVLM) nell'interpretazione visiva, a volte generano output errati. Mentre i modelli di ricompensa (RMs) con apprendimento per rinforzo o ridimensionamento al momento del test offrono il potenziale per migliorare la qualità della generazione, rimane una lacuna critica: i modelli di ricompensa multimodali pubblicamente disponibili per i LVLM sono rari, e i dettagli di implementazione dei modelli proprietari sono spesso poco chiari. Colmiamo questa lacuna con InternLM-XComposer2.5-Reward (IXC-2.5-Reward), un modello di ricompensa multimodale semplice ma efficace che allinea i LVLM con le preferenze umane. Per garantire la robustezza e la versatilità di IXC-2.5-Reward, abbiamo creato un corpus di preferenze multimodale di alta qualità che spazia tra input testuali, immagini e video in diversi settori, come il seguire istruzioni, la comprensione generale, documenti ricchi di testo, ragionamento matematico e comprensione video. IXC-2.5-Reward ottiene eccellenti risultati sul più recente benchmark di modelli di ricompensa multimodali e mostra prestazioni competitive sui benchmark di modelli di ricompensa solo testuali. Dimostriamo inoltre tre applicazioni chiave di IXC-2.5-Reward: (1) Fornire un segnale di supervisione per l'addestramento con RL. Integrare IXC-2.5-Reward con l'Ottimizzazione della Politica Prossimale (PPO) produce IXC-2.5-Chat, che mostra miglioramenti consistenti nel seguire le istruzioni e nel dialogo aperto multimodale; (2) Selezionare la migliore risposta tra le risposte candidate per il ridimensionamento al momento del test; e (3) Filtrare campioni anomali o rumorosi dai dati di addestramento esistenti per l'ottimizzazione delle istruzioni delle immagini e dei video. Per garantire la riproducibilità e facilitare ulteriori ricerche, abbiamo reso disponibili tutti i pesi del modello e le ricette di addestramento su https://github.com/InternLM/InternLM-XComposer.

English

Despite the promising performance of Large Vision Language Models (LVLMs) in visual understanding, they occasionally generate incorrect outputs. While reward models (RMs) with reinforcement learning or test-time scaling offer the potential for improving generation quality, a critical gap remains: publicly available multi-modal RMs for LVLMs are scarce, and the implementation details of proprietary models are often unclear. We bridge this gap with InternLM-XComposer2.5-Reward (IXC-2.5-Reward), a simple yet effective multi-modal reward model that aligns LVLMs with human preferences. To ensure the robustness and versatility of IXC-2.5-Reward, we set up a high-quality multi-modal preference corpus spanning text, image, and video inputs across diverse domains, such as instruction following, general understanding, text-rich documents, mathematical reasoning, and video understanding. IXC-2.5-Reward achieves excellent results on the latest multi-modal reward model benchmark and shows competitive performance on text-only reward model benchmarks. We further demonstrate three key applications of IXC-2.5-Reward: (1) Providing a supervisory signal for RL training. We integrate IXC-2.5-Reward with Proximal Policy Optimization (PPO) yields IXC-2.5-Chat, which shows consistent improvements in instruction following and multi-modal open-ended dialogue; (2) Selecting the best response from candidate responses for test-time scaling; and (3) Filtering outlier or noisy samples from existing image and video instruction tuning training data. To ensure reproducibility and facilitate further research, we have open-sourced all model weights and training recipes at https://github.com/InternLM/InternLM-XComposer

InternLM-XComposer2.5-Reward: un modello di ricompensa multi-modale semplice ma efficace

InternLM-XComposer2.5-Reward: A Simple Yet Effective Multi-Modal Reward Model

Abstract

Support