RePIC: Gereïnforceerde Post-Training voor het Personaliseren van Multi-Modale Taalmodellen

Samenvatting

Recente multi-modale grote taalmodellen (MLLMs) hebben vaak moeite om gepersonaliseerde beeldbeschrijvingen te genereren, zelfs wanneer ze getraind zijn op hoogwaardige beschrijvingen. In dit werk constateren we dat dergelijke beperkingen blijven bestaan in bestaande post-trainingsmethoden voor MLLM-personalisatie. Specifiek ondervinden deze modellen, ondanks het post-tunen met grootschalige beschrijvingsgegevens via supervised fine-tuning (SFT), vaak problemen met het produceren van nauwkeurige beschrijvingen in real-world scenario's, zoals het beschrijven van afbeeldingen met meerdere concepten. Het verkrijgen van grootschalige, hoogwaardige beschrijvingen voor dergelijke complexe situaties is echter zowel kostbaar als moeilijk. Om de data-gerichte aard van SFT aan te pakken, stellen we een reinforcement learning (RL)-gebaseerd post-trainingsframework voor. Voor zover wij weten, is dit de eerste RL-gebaseerde aanpak om MLLMs post-trainen voor gepersonaliseerde beeldbeschrijving. Onze methode verbetert zowel de visuele herkenning als de gepersonaliseerde generatiecapaciteiten van MLLMs aanzienlijk, en presteert consistent beter dan bestaande SFT-gebaseerde baselines, vooral in de uitdagende taak van het beschrijven van afbeeldingen met meerdere concepten.

English

Recent multi-modal large language models (MLLMs) often struggle to generate personalized image captions, even when trained on high-quality captions. In this work, we observe that such limitations persist in existing post-training-based MLLM personalization methods. Specifically, despite being post-tuned with large-scale caption data through supervised fine-tuning (SFT), these models frequently fail to produce faithful descriptions in real-world scenarios, such as multi-concept image captioning. However, acquiring large-scale, high-quality captions for such complex settings is both costly and difficult. To address the data-centric nature of SFT, we propose a reinforcement learning (RL)-based post-training framework. To the best of our knowledge, this is the first RL-based approach to post-train MLLMs for personalized image captioning. Our method significantly enhances both visual recognition and personalized generation capabilities of MLLMs, and consistently outperforms existing SFT-based baselines, especially in the challenging multi-concept image captioning task.

RePIC: Gereïnforceerde Post-Training voor het Personaliseren van Multi-Modale Taalmodellen

RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

Samenvatting

Support