RePIC: Gereïnforceerde Post-Training voor het Personaliseren van Multi-Modale Taalmodellen
RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models
June 23, 2025
Auteurs: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
cs.AI
Samenvatting
Recente multi-modale grote taalmodellen (MLLMs) hebben vaak moeite om gepersonaliseerde beeldbeschrijvingen te genereren, zelfs wanneer ze getraind zijn op hoogwaardige beschrijvingen. In dit werk constateren we dat dergelijke beperkingen blijven bestaan in bestaande post-trainingsmethoden voor MLLM-personalisatie. Specifiek ondervinden deze modellen, ondanks het post-tunen met grootschalige beschrijvingsgegevens via supervised fine-tuning (SFT), vaak problemen met het produceren van nauwkeurige beschrijvingen in real-world scenario's, zoals het beschrijven van afbeeldingen met meerdere concepten. Het verkrijgen van grootschalige, hoogwaardige beschrijvingen voor dergelijke complexe situaties is echter zowel kostbaar als moeilijk. Om de data-gerichte aard van SFT aan te pakken, stellen we een reinforcement learning (RL)-gebaseerd post-trainingsframework voor. Voor zover wij weten, is dit de eerste RL-gebaseerde aanpak om MLLMs post-trainen voor gepersonaliseerde beeldbeschrijving. Onze methode verbetert zowel de visuele herkenning als de gepersonaliseerde generatiecapaciteiten van MLLMs aanzienlijk, en presteert consistent beter dan bestaande SFT-gebaseerde baselines, vooral in de uitdagende taak van het beschrijven van afbeeldingen met meerdere concepten.
English
Recent multi-modal large language models (MLLMs) often struggle to generate
personalized image captions, even when trained on high-quality captions. In
this work, we observe that such limitations persist in existing
post-training-based MLLM personalization methods. Specifically, despite being
post-tuned with large-scale caption data through supervised fine-tuning (SFT),
these models frequently fail to produce faithful descriptions in real-world
scenarios, such as multi-concept image captioning. However, acquiring
large-scale, high-quality captions for such complex settings is both costly and
difficult. To address the data-centric nature of SFT, we propose a
reinforcement learning (RL)-based post-training framework. To the best of our
knowledge, this is the first RL-based approach to post-train MLLMs for
personalized image captioning. Our method significantly enhances both visual
recognition and personalized generation capabilities of MLLMs, and consistently
outperforms existing SFT-based baselines, especially in the challenging
multi-concept image captioning task.