ChatPaper.aiChatPaper

RePIC : Post-entraînement renforcé pour la personnalisation des modèles de langage multimodaux

RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

June 23, 2025
Auteurs: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
cs.AI

Résumé

Les modèles de langage multi-modaux (MLLMs) récents éprouvent souvent des difficultés à générer des légendes d'images personnalisées, même lorsqu'ils sont entraînés sur des légendes de haute qualité. Dans ce travail, nous observons que ces limitations persistent dans les méthodes existantes de personnalisation des MLLMs basées sur l'après-entraînement. Plus précisément, bien que ces modèles soient ajustés a posteriori avec des données de légendes à grande échelle via un affinage supervisé (SFT), ils échouent fréquemment à produire des descriptions fidèles dans des scénarios réels, tels que la légende d'images multi-concepts. Cependant, l'acquisition de légendes à grande échelle et de haute qualité pour de tels contextes complexes est à la fois coûteuse et difficile. Pour répondre à la nature centrée sur les données du SFT, nous proposons un cadre d'après-entraînement basé sur l'apprentissage par renforcement (RL). À notre connaissance, il s'agit de la première approche basée sur le RL pour l'après-entraînement des MLLMs en vue de la génération de légendes d'images personnalisées. Notre méthode améliore significativement à la fois les capacités de reconnaissance visuelle et de génération personnalisée des MLLMs, et surpasse systématiquement les approches de référence basées sur le SFT, en particulier dans la tâche difficile de légende d'images multi-concepts.
English
Recent multi-modal large language models (MLLMs) often struggle to generate personalized image captions, even when trained on high-quality captions. In this work, we observe that such limitations persist in existing post-training-based MLLM personalization methods. Specifically, despite being post-tuned with large-scale caption data through supervised fine-tuning (SFT), these models frequently fail to produce faithful descriptions in real-world scenarios, such as multi-concept image captioning. However, acquiring large-scale, high-quality captions for such complex settings is both costly and difficult. To address the data-centric nature of SFT, we propose a reinforcement learning (RL)-based post-training framework. To the best of our knowledge, this is the first RL-based approach to post-train MLLMs for personalized image captioning. Our method significantly enhances both visual recognition and personalized generation capabilities of MLLMs, and consistently outperforms existing SFT-based baselines, especially in the challenging multi-concept image captioning task.
PDF21June 24, 2025