REFINE-AF: Een taakonafhankelijk raamwerk om taalmodelen af te stemmen via zelfgegenereerde instructies met behulp van reinforcement learning op basis van geautomatiseerde feedback
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback
May 10, 2025
Auteurs: Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
cs.AI
Samenvatting
Instructie-gebaseerde Large Language Models (LLMs) hebben hun effectiviteit bewezen in tal van few-shot of zero-shot Natural Language Processing (NLP)-taken. Het creëren van door mensen geannoteerde instructiedata is echter tijdrovend, kostbaar en vaak beperkt in hoeveelheid en taakdiversiteit. Eerdere onderzoeksinspanningen hebben geprobeerd deze uitdaging aan te pakken door frameworks voor te stellen die in staat zijn om op een semi-geautomatiseerde en taakagnostische manier instructies te genereren, rechtstreeks vanuit het model zelf. Veel van deze inspanningen hebben vertrouwd op grote API-only parametergebaseerde modellen zoals GPT-3.5 (175B), die duur zijn en onderhevig aan limieten op het aantal queries. Dit artikel onderzoekt de prestaties van drie open-source kleine LLMs, zoals LLaMA 2-7B, LLaMA 2-13B en Mistral 7B, met behulp van een semi-geautomatiseerd framework, waardoor de menselijke interventie, inspanning en kosten die nodig zijn om een instructiedataset te genereren voor het finetunen van LLMs worden verminderd. Bovendien tonen we aan dat het integreren van een Reinforcement Learning (RL)-gebaseerd trainingsalgoritme in dit LLM-gebaseerde framework tot verdere verbeteringen leidt. Onze evaluatie van de dataset laat zien dat deze RL-gebaseerde frameworks een aanzienlijke verbetering bereiken in 63-66% van de taken in vergelijking met eerdere benaderingen.
English
Instruction-based Large Language Models (LLMs) have proven effective in
numerous few-shot or zero-shot Natural Language Processing (NLP) tasks.
However, creating human-annotated instruction data is time-consuming,
expensive, and often limited in quantity and task diversity. Previous research
endeavors have attempted to address this challenge by proposing frameworks
capable of generating instructions in a semi-automated and task-agnostic manner
directly from the model itself. Many of these efforts have relied on large
API-only parameter-based models such as GPT-3.5 (175B), which are expensive,
and subject to limits on a number of queries. This paper explores the
performance of three open-source small LLMs such as LLaMA 2-7B, LLama 2-13B,
and Mistral 7B, using a semi-automated framework, thereby reducing human
intervention, effort, and cost required to generate an instruction dataset for
fine-tuning LLMs. Furthermore, we demonstrate that incorporating a
Reinforcement Learning (RL) based training algorithm into this LLMs-based
framework leads to further enhancements. Our evaluation of the dataset reveals
that these RL-based frameworks achieve a substantial improvements in 63-66% of
the tasks compared to previous approaches.Summary
AI-Generated Summary