ChatPaper.aiChatPaper

¿Pueden los modelos aprender la composición de habilidades a partir de ejemplos?

Can Models Learn Skill Composition from Examples?

September 29, 2024
Autores: Haoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora
cs.AI

Resumen

A medida que los modelos de lenguaje grandes (LLMs) se vuelven cada vez más avanzados, su capacidad para exhibir generalización composicional, es decir, la capacidad de combinar habilidades aprendidas de formas novedosas no encontradas durante el entrenamiento, ha recibido una atención significativa. Este tipo de generalización, especialmente en escenarios más allá de los datos de entrenamiento, también es de gran interés en el estudio de la seguridad y alineación de la IA. Un estudio reciente introdujo la evaluación SKILL-MIX, donde se encomienda a los modelos componer un breve párrafo que demuestre el uso de un k-uplo especificado de habilidades lingüísticas. Mientras que los modelos pequeños tuvieron dificultades para componer incluso con k=3, modelos más grandes como GPT-4 se desempeñaron razonablemente bien con k=5 y 6. En este documento, empleamos una configuración similar a SKILL-MIX para evaluar la capacidad de los modelos más pequeños para aprender generalización composicional a partir de ejemplos. Utilizando un conjunto diverso de habilidades lingüísticas, que incluyen retórica, literatura, razonamiento, teoría de la mente y sentido común, se utilizó GPT-4 para generar muestras de texto que exhiben subconjuntos aleatorios de k habilidades. El ajuste fino subsiguiente de modelos de parámetros 7B y 13B en estos textos de habilidades combinadas, para valores crecientes de k, reveló los siguientes hallazgos: (1) El entrenamiento en combinaciones de k=2 y 3 habilidades resulta en mejoras notables en la capacidad de componer textos con k=4 y 5 habilidades, a pesar de que los modelos nunca hayan visto tales ejemplos durante el entrenamiento. (2) Cuando las categorías de habilidades se dividen en grupos de entrenamiento y retenidos, los modelos mejoran significativamente en la composición de textos con habilidades retenidas durante las pruebas a pesar de haber visto solo habilidades de entrenamiento durante el ajuste fino, lo que ilustra la eficacia del enfoque de entrenamiento incluso con habilidades previamente no vistas. Este estudio también sugiere que la incorporación de texto rico en habilidades (potencialmente sintético) en el entrenamiento puede mejorar sustancialmente las capacidades de composición de los modelos.
English
As large language models (LLMs) become increasingly advanced, their ability to exhibit compositional generalization -- the capacity to combine learned skills in novel ways not encountered during training -- has garnered significant attention. This type of generalization, particularly in scenarios beyond training data, is also of great interest in the study of AI safety and alignment. A recent study introduced the SKILL-MIX evaluation, where models are tasked with composing a short paragraph demonstrating the use of a specified k-tuple of language skills. While small models struggled with composing even with k=3, larger models like GPT-4 performed reasonably well with k=5 and 6. In this paper, we employ a setup akin to SKILL-MIX to evaluate the capacity of smaller models to learn compositional generalization from examples. Utilizing a diverse set of language skills -- including rhetorical, literary, reasoning, theory of mind, and common sense -- GPT-4 was used to generate text samples that exhibit random subsets of k skills. Subsequent fine-tuning of 7B and 13B parameter models on these combined skill texts, for increasing values of k, revealed the following findings: (1) Training on combinations of k=2 and 3 skills results in noticeable improvements in the ability to compose texts with k=4 and 5 skills, despite models never having seen such examples during training. (2) When skill categories are split into training and held-out groups, models significantly improve at composing texts with held-out skills during testing despite having only seen training skills during fine-tuning, illustrating the efficacy of the training approach even with previously unseen skills. This study also suggests that incorporating skill-rich (potentially synthetic) text into training can substantially enhance the compositional capabilities of models.

Summary

AI-Generated Summary

PDF102November 13, 2024