Cómo Enseñar Nuevas Habilidades a Modelos Multimodales de Gran Escala

Resumen

¿Cómo podemos enseñar nuevas habilidades a los modelos multimodales grandes (LMMs) sin borrar sus capacidades previas? Estudiamos el ajuste secuencial en cinco habilidades objetivo mientras monitoreamos la capacidad general en ocho puntos de referencia retenidos a través de tres familias de modelos. Observamos que el aparente "olvido" en tareas retenidas después de un ajuste estrecho puede recuperarse parcialmente en etapas posteriores. Rastreamos este comportamiento a un cambio medible en la distribución de tokens de salida, manifestado a través de una sonda de sesgo de conteo simple que co-varía con el olvido. Guiados por esta perspectiva, identificamos dos recetas de ajuste simples y robustas que aprenden fuertemente mientras limitan la deriva: (i) actualizar solo las capas de proyección de auto-atención, y (ii) actualizar solo la compuerta y proyección ascendente de la MLP mientras se congela la proyección descendente. A través de modelos y tareas, estas elecciones ofrecen fuertes ganancias en el objetivo mientras preservan en gran medida el rendimiento en las tareas retenidas. El código está disponible en https://github.com/jessemelpolio/LMM_CL.

English

How can we teach large multimodal models (LMMs) new skills without erasing prior abilities? We study sequential fine-tuning on five target skills while monitoring general ability on eight held-out benchmarks across three model families. We observe that apparent "forgetting" on held-out tasks after narrow fine-tuning can partly recover at later stages. We trace this behavior to a measurable shift in the output token distribution, manifested through a simple counting-bias probe that co-varies with forgetting. Guided by this picture, we identify two simple, robust tuning recipes that learn strongly while limiting drift: (i) updating only the self-attention projection layers, and (ii) updating only the MLP Gate&Up while freezing the Down projection. Across models and tasks, these choices deliver strong target gains while largely preserving held-out performance. Code is available at https://github.com/jessemelpolio/LMM_CL

Cómo Enseñar Nuevas Habilidades a Modelos Multimodales de Gran Escala

How to Teach Large Multimodal Models New Skills

Resumen

Support