ChatPaper.aiChatPaper

RePIC: Rafforzamento Post-Addestramento per la Personalizzazione di Modelli Linguistici Multi-Modali

RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

June 23, 2025
Autori: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
cs.AI

Abstract

I recenti modelli linguistici multimodali di grandi dimensioni (MLLM) spesso incontrano difficoltà nel generare didascalie personalizzate per le immagini, anche quando addestrati su didascalie di alta qualità. In questo lavoro, osserviamo che tali limitazioni persistono nei metodi esistenti di personalizzazione degli MLLM basati sul post-addestramento. Nello specifico, nonostante siano stati ottimizzati con dati su larga scala di didascalie attraverso il fine-tuning supervisionato (SFT), questi modelli spesso non riescono a produrre descrizioni fedeli in scenari reali, come la creazione di didascalie per immagini con più concetti. Tuttavia, acquisire didascalie su larga scala e di alta qualità per contesti così complessi è sia costoso che difficile. Per affrontare la natura centrata sui dati dell'SFT, proponiamo un framework di post-addestramento basato sull'apprendimento per rinforzo (RL). Per quanto ne sappiamo, questo è il primo approccio basato sull'RL per post-addestrare gli MLLM per la creazione di didascalie personalizzate per immagini. Il nostro metodo migliora significativamente sia le capacità di riconoscimento visivo che di generazione personalizzata degli MLLM, e supera costantemente i baseline esistenti basati sull'SFT, specialmente nel complesso compito di creazione di didascalie per immagini con più concetti.
English
Recent multi-modal large language models (MLLMs) often struggle to generate personalized image captions, even when trained on high-quality captions. In this work, we observe that such limitations persist in existing post-training-based MLLM personalization methods. Specifically, despite being post-tuned with large-scale caption data through supervised fine-tuning (SFT), these models frequently fail to produce faithful descriptions in real-world scenarios, such as multi-concept image captioning. However, acquiring large-scale, high-quality captions for such complex settings is both costly and difficult. To address the data-centric nature of SFT, we propose a reinforcement learning (RL)-based post-training framework. To the best of our knowledge, this is the first RL-based approach to post-train MLLMs for personalized image captioning. Our method significantly enhances both visual recognition and personalized generation capabilities of MLLMs, and consistently outperforms existing SFT-based baselines, especially in the challenging multi-concept image captioning task.
PDF21June 24, 2025