RePIC: Refuerzo Post-Entrenamiento para la Personalización de Modelos de Lenguaje Multimodales
RePIC: Reinforced Post-Training for Personalizing Multi-Modal Language Models
June 23, 2025
Autores: Yeongtak Oh, Jisoo Mok, Dohyun Chung, Juhyeon Shin, Sangha Park, Johan Barthelemy, Sungroh Yoon
cs.AI
Resumen
Los modelos de lenguaje multimodal de gran escala (MLLMs, por sus siglas en inglés) a menudo enfrentan dificultades para generar descripciones de imágenes personalizadas, incluso cuando se entrenan con subtítulos de alta calidad. En este trabajo, observamos que tales limitaciones persisten en los métodos de personalización de MLLM basados en ajustes posteriores al entrenamiento. Específicamente, a pesar de ser ajustados con grandes volúmenes de datos de subtítulos mediante ajuste fino supervisado (SFT, por sus siglas en inglés), estos modelos frecuentemente no logran producir descripciones fieles en escenarios del mundo real, como la descripción de imágenes con múltiples conceptos. Sin embargo, adquirir grandes volúmenes de subtítulos de alta calidad para tales configuraciones complejas resulta costoso y difícil. Para abordar la naturaleza centrada en los datos del SFT, proponemos un marco de ajuste posterior basado en aprendizaje por refuerzo (RL, por sus siglas en inglés). Hasta donde sabemos, este es el primer enfoque basado en RL para ajustar MLLMs en la generación de descripciones de imágenes personalizadas. Nuestro método mejora significativamente tanto las capacidades de reconocimiento visual como de generación personalizada de los MLLMs, y supera consistentemente los enfoques basados en SFT existentes, especialmente en la tarea desafiante de describir imágenes con múltiples conceptos.
English
Recent multi-modal large language models (MLLMs) often struggle to generate
personalized image captions, even when trained on high-quality captions. In
this work, we observe that such limitations persist in existing
post-training-based MLLM personalization methods. Specifically, despite being
post-tuned with large-scale caption data through supervised fine-tuning (SFT),
these models frequently fail to produce faithful descriptions in real-world
scenarios, such as multi-concept image captioning. However, acquiring
large-scale, high-quality captions for such complex settings is both costly and
difficult. To address the data-centric nature of SFT, we propose a
reinforcement learning (RL)-based post-training framework. To the best of our
knowledge, this is the first RL-based approach to post-train MLLMs for
personalized image captioning. Our method significantly enhances both visual
recognition and personalized generation capabilities of MLLMs, and consistently
outperforms existing SFT-based baselines, especially in the challenging
multi-concept image captioning task.