RePIC: Усиленное посттренировочное обучение для персонализации многомодальных языковых моделей
RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models
June 23, 2025
Авторы: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
cs.AI
Аннотация
Современные многомодальные большие языковые модели (MLLMs) часто испытывают трудности с генерацией персонализированных описаний изображений, даже при обучении на высококачественных подписях. В данной работе мы отмечаем, что такие ограничения сохраняются в существующих методах персонализации MLLM, основанных на пост-обучении. В частности, несмотря на тонкую настройку с использованием масштабных данных подписей через контролируемое тонкое обучение (SFT), эти модели часто не способны создавать точные описания в реальных сценариях, таких как генерация подписей для изображений с несколькими концепциями. Однако получение масштабных, высококачественных подписей для таких сложных условий является дорогостоящим и трудным процессом. Чтобы решить проблему, связанную с ориентацией SFT на данные, мы предлагаем пост-обучающую структуру, основанную на обучении с подкреплением (RL). Насколько нам известно, это первый подход на основе RL для пост-обучения MLLM с целью персонализированной генерации подписей к изображениям. Наш метод значительно улучшает как способности визуального распознавания, так и персонализированной генерации MLLM и стабильно превосходит существующие базовые методы, основанные на SFT, особенно в сложной задаче генерации подписей для изображений с несколькими концепциями.
English
Recent multi-modal large language models (MLLMs) often struggle to generate
personalized image captions, even when trained on high-quality captions. In
this work, we observe that such limitations persist in existing
post-training-based MLLM personalization methods. Specifically, despite being
post-tuned with large-scale caption data through supervised fine-tuning (SFT),
these models frequently fail to produce faithful descriptions in real-world
scenarios, such as multi-concept image captioning. However, acquiring
large-scale, high-quality captions for such complex settings is both costly and
difficult. To address the data-centric nature of SFT, we propose a
reinforcement learning (RL)-based post-training framework. To the best of our
knowledge, this is the first RL-based approach to post-train MLLMs for
personalized image captioning. Our method significantly enhances both visual
recognition and personalized generation capabilities of MLLMs, and consistently
outperforms existing SFT-based baselines, especially in the challenging
multi-concept image captioning task.