RePIC:マルチモーダル言語モデルのパーソナライゼーションのための強化学習による事後学習
RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models
June 23, 2025
著者: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
cs.AI
要旨
近年のマルチモーダル大規模言語モデル(MLLM)は、高品質なキャプションで訓練された場合でも、パーソナライズされた画像キャプションの生成に苦戦することが多い。本研究では、既存のポストトレーニングベースのMLLMパーソナライゼーション手法において、そのような制限が依然として存在することを観察した。具体的には、教師ありファインチューニング(SFT)を通じて大規模なキャプションデータでポストチューニングされたにもかかわらず、これらのモデルは現実世界のシナリオ、例えばマルチコンセプト画像キャプショニングにおいて、忠実な記述を生成することに頻繁に失敗する。しかし、そのような複雑な設定における大規模で高品質なキャプションを取得することは、コストがかかり困難である。SFTのデータ中心的な性質に対処するため、我々は強化学習(RL)ベースのポストトレーニングフレームワークを提案する。我々の知る限り、これはパーソナライズされた画像キャプショニングのためにMLLMをポストトレーニングする初めてのRLベースのアプローチである。我々の手法は、MLLMの視覚認識能力とパーソナライズされた生成能力の両方を大幅に向上させ、特に挑戦的なマルチコンセプト画像キャプショニングタスクにおいて、既存のSFTベースのベースラインを一貫して上回る。
English
Recent multi-modal large language models (MLLMs) often struggle to generate
personalized image captions, even when trained on high-quality captions. In
this work, we observe that such limitations persist in existing
post-training-based MLLM personalization methods. Specifically, despite being
post-tuned with large-scale caption data through supervised fine-tuning (SFT),
these models frequently fail to produce faithful descriptions in real-world
scenarios, such as multi-concept image captioning. However, acquiring
large-scale, high-quality captions for such complex settings is both costly and
difficult. To address the data-centric nature of SFT, we propose a
reinforcement learning (RL)-based post-training framework. To the best of our
knowledge, this is the first RL-based approach to post-train MLLMs for
personalized image captioning. Our method significantly enhances both visual
recognition and personalized generation capabilities of MLLMs, and consistently
outperforms existing SFT-based baselines, especially in the challenging
multi-concept image captioning task.