RePIC: Verstärktes Nachschulungstraining zur Personalisierung multimodaler Sprachmodelle
RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models
June 23, 2025
Autoren: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
cs.AI
Zusammenfassung
Aktuelle multimodale große Sprachmodelle (MLLMs) haben oft Schwierigkeiten, personalisierte Bildbeschreibungen zu generieren, selbst wenn sie mit hochwertigen Beschreibungen trainiert wurden. In dieser Arbeit beobachten wir, dass solche Einschränkungen in bestehenden Post-Training-Methoden zur Personalisierung von MLLMs fortbestehen. Insbesondere scheitern diese Modelle häufig daran, treffende Beschreibungen in realen Szenarien zu erzeugen, wie beispielsweise bei der Beschreibung von Bildern mit mehreren Konzepten, obwohl sie durch überwachte Feinabstimmung (Supervised Fine-Tuning, SFT) mit groß angelegten Beschreibungsdaten nachtrainiert wurden. Die Beschaffung von groß angelegten, hochwertigen Beschreibungen für derart komplexe Szenarien ist jedoch sowohl kostspielig als auch schwierig. Um den datenzentrierten Charakter von SFT zu adressieren, schlagen wir ein auf Verstärkungslernen (Reinforcement Learning, RL) basierendes Post-Training-Framework vor. Nach unserem besten Wissen ist dies der erste RL-basierte Ansatz zur Nachschulung von MLLMs für personalisierte Bildbeschreibungen. Unsere Methode verbessert sowohl die visuelle Erkennungsfähigkeit als auch die personalisierte Generierungsfähigkeit von MLLMs erheblich und übertrifft durchweg bestehende SFT-basierte Baselines, insbesondere in der anspruchsvollen Aufgabe der Beschreibung von Bildern mit mehreren Konzepten.
English
Recent multi-modal large language models (MLLMs) often struggle to generate
personalized image captions, even when trained on high-quality captions. In
this work, we observe that such limitations persist in existing
post-training-based MLLM personalization methods. Specifically, despite being
post-tuned with large-scale caption data through supervised fine-tuning (SFT),
these models frequently fail to produce faithful descriptions in real-world
scenarios, such as multi-concept image captioning. However, acquiring
large-scale, high-quality captions for such complex settings is both costly and
difficult. To address the data-centric nature of SFT, we propose a
reinforcement learning (RL)-based post-training framework. To the best of our
knowledge, this is the first RL-based approach to post-train MLLMs for
personalized image captioning. Our method significantly enhances both visual
recognition and personalized generation capabilities of MLLMs, and consistently
outperforms existing SFT-based baselines, especially in the challenging
multi-concept image captioning task.