Kunnen modellen vaardigheidscompositie leren van voorbeelden?
Can Models Learn Skill Composition from Examples?
September 29, 2024
Auteurs: Haoyu Zhao, Simran Kaur, Dingli Yu, Anirudh Goyal, Sanjeev Arora
cs.AI
Samenvatting
Naarmate grote taalmodellen (LLM's) steeds geavanceerder worden, heeft hun vermogen om compositorische generalisatie te vertonen - de capaciteit om aangeleerde vaardigheden op nieuwe manieren te combineren die niet tijdens de training zijn tegengekomen - aanzienlijke aandacht gekregen. Dit type generalisatie, met name in scenario's buiten trainingsdata, is ook van groot belang in de studie van AI-veiligheid en -uitlijning. Een recente studie introduceerde de SKILL-MIX-evaluatie, waarbij modellen worden belast met het samenstellen van een kort tekstgedeelte waarin het gebruik van een gespecificeerd k-tupel van taalvaardigheden wordt gedemonstreerd. Terwijl kleine modellen moeite hadden met compositie zelfs bij k=3, presteerden grotere modellen zoals GPT-4 redelijk goed bij k=5 en 6.
In dit artikel passen we een opstelling toe die lijkt op SKILL-MIX om de capaciteit van kleinere modellen te evalueren om compositorische generalisatie te leren van voorbeelden. Door gebruik te maken van een diverse set taalvaardigheden - waaronder retorisch, literair, redenerend, theory of mind en gezond verstand - werd GPT-4 gebruikt om tekstvoorbeelden te genereren die willekeurige deelverzamelingen van k vaardigheden vertonen. Het vervolgens fijnafstemmen van 7B en 13B parametermodellen op deze gecombineerde vaardigheidsteksten, voor toenemende waarden van k, onthulde de volgende bevindingen: (1) Training op combinaties van k=2 en 3 vaardigheden leidt tot merkbare verbeteringen in het vermogen om teksten te componeren met k=4 en 5 vaardigheden, ondanks dat modellen dergelijke voorbeelden nooit tijdens de training hebben gezien. (2) Wanneer vaardigheidscategorieën worden verdeeld in trainings- en achtergehouden groepen, verbeteren modellen aanzienlijk in het componeren van teksten met achtergehouden vaardigheden tijdens testen, ondanks dat ze alleen trainingsvaardigheden hebben gezien tijdens fijnafstemming, wat de doeltreffendheid van de trainingsaanpak illustreert, zelfs met eerder ongeziene vaardigheden. Deze studie suggereert ook dat het opnemen van vaardigheidrijke (mogelijk synthetische) tekst in de training aanzienlijk de compositiemogelijkheden van modellen kan verbeteren.
English
As large language models (LLMs) become increasingly advanced, their ability
to exhibit compositional generalization -- the capacity to combine learned
skills in novel ways not encountered during training -- has garnered
significant attention. This type of generalization, particularly in scenarios
beyond training data, is also of great interest in the study of AI safety and
alignment. A recent study introduced the SKILL-MIX evaluation, where models are
tasked with composing a short paragraph demonstrating the use of a specified
k-tuple of language skills. While small models struggled with composing even
with k=3, larger models like GPT-4 performed reasonably well with k=5 and
6.
In this paper, we employ a setup akin to SKILL-MIX to evaluate the capacity
of smaller models to learn compositional generalization from examples.
Utilizing a diverse set of language skills -- including rhetorical, literary,
reasoning, theory of mind, and common sense -- GPT-4 was used to generate text
samples that exhibit random subsets of k skills. Subsequent fine-tuning of 7B
and 13B parameter models on these combined skill texts, for increasing values
of k, revealed the following findings: (1) Training on combinations of k=2
and 3 skills results in noticeable improvements in the ability to compose
texts with k=4 and 5 skills, despite models never having seen such examples
during training. (2) When skill categories are split into training and held-out
groups, models significantly improve at composing texts with held-out skills
during testing despite having only seen training skills during fine-tuning,
illustrating the efficacy of the training approach even with previously unseen
skills. This study also suggests that incorporating skill-rich (potentially
synthetic) text into training can substantially enhance the compositional
capabilities of models.Summary
AI-Generated Summary