ChatPaper.aiChatPaper

RePIC: Pós-Treinamento Reforçado para Personalização de Modelos de Linguagem Multimodais

RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models

June 23, 2025
Autores: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
cs.AI

Resumo

Modelos de linguagem multimodal de grande escala (MLLMs) recentes frequentemente enfrentam dificuldades para gerar legendas de imagens personalizadas, mesmo quando treinados com legendas de alta qualidade. Neste trabalho, observamos que tais limitações persistem nos métodos existentes de personalização de MLLMs baseados em pós-treinamento. Especificamente, apesar de serem ajustados com grandes volumes de dados de legendas por meio de ajuste fino supervisionado (SFT), esses modelos frequentemente falham em produzir descrições fiéis em cenários do mundo real, como a geração de legendas para imagens com múltiplos conceitos. No entanto, adquirir legendas em grande escala e de alta qualidade para tais cenários complexos é tanto custoso quanto difícil. Para abordar a natureza centrada em dados do SFT, propomos uma estrutura de pós-treinamento baseada em aprendizado por reforço (RL). Até onde sabemos, esta é a primeira abordagem baseada em RL para pós-treinar MLLMs visando a geração de legendas de imagens personalizadas. Nosso método melhora significativamente tanto as capacidades de reconhecimento visual quanto de geração personalizada dos MLLMs, e consistentemente supera as abordagens baselines baseadas em SFT, especialmente na tarefa desafiadora de geração de legendas para imagens com múltiplos conceitos.
English
Recent multi-modal large language models (MLLMs) often struggle to generate personalized image captions, even when trained on high-quality captions. In this work, we observe that such limitations persist in existing post-training-based MLLM personalization methods. Specifically, despite being post-tuned with large-scale caption data through supervised fine-tuning (SFT), these models frequently fail to produce faithful descriptions in real-world scenarios, such as multi-concept image captioning. However, acquiring large-scale, high-quality captions for such complex settings is both costly and difficult. To address the data-centric nature of SFT, we propose a reinforcement learning (RL)-based post-training framework. To the best of our knowledge, this is the first RL-based approach to post-train MLLMs for personalized image captioning. Our method significantly enhances both visual recognition and personalized generation capabilities of MLLMs, and consistently outperforms existing SFT-based baselines, especially in the challenging multi-concept image captioning task.
PDF21June 24, 2025