REFINE-AF : Un cadre agnostique aux tâches pour aligner les modèles de langage via des instructions auto-générées utilisant l'apprentissage par renforcement à partir de retours automatisés
REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback
May 10, 2025
Auteurs: Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
cs.AI
Résumé
Les modèles de langage de grande taille (LLMs) basés sur des instructions se sont avérés efficaces dans de nombreuses tâches de traitement du langage naturel (NLP) en few-shot ou zero-shot. Cependant, la création de données d'instructions annotées par des humains est chronophage, coûteuse et souvent limitée en quantité et en diversité de tâches. Les recherches précédentes ont tenté de relever ce défi en proposant des cadres capables de générer des instructions de manière semi-automatisée et indépendante de la tâche, directement à partir du modèle lui-même. Bon nombre de ces efforts se sont appuyés sur des modèles à paramètres volumineux et accessibles uniquement via des API, tels que GPT-3.5 (175B), qui sont coûteux et soumis à des limites sur le nombre de requêtes. Cet article explore la performance de trois petits LLMs open-source, tels que LLaMA 2-7B, LLaMA 2-13B et Mistral 7B, en utilisant un cadre semi-automatisé, réduisant ainsi l'intervention humaine, l'effort et le coût nécessaires pour générer un ensemble de données d'instructions pour le fine-tuning des LLMs. De plus, nous démontrons que l'intégration d'un algorithme d'apprentissage par renforcement (RL) dans ce cadre basé sur les LLMs conduit à des améliorations supplémentaires. Notre évaluation de l'ensemble de données révèle que ces cadres basés sur le RL permettent des améliorations substantielles dans 63 à 66 % des tâches par rapport aux approches précédentes.
English
Instruction-based Large Language Models (LLMs) have proven effective in
numerous few-shot or zero-shot Natural Language Processing (NLP) tasks.
However, creating human-annotated instruction data is time-consuming,
expensive, and often limited in quantity and task diversity. Previous research
endeavors have attempted to address this challenge by proposing frameworks
capable of generating instructions in a semi-automated and task-agnostic manner
directly from the model itself. Many of these efforts have relied on large
API-only parameter-based models such as GPT-3.5 (175B), which are expensive,
and subject to limits on a number of queries. This paper explores the
performance of three open-source small LLMs such as LLaMA 2-7B, LLama 2-13B,
and Mistral 7B, using a semi-automated framework, thereby reducing human
intervention, effort, and cost required to generate an instruction dataset for
fine-tuning LLMs. Furthermore, we demonstrate that incorporating a
Reinforcement Learning (RL) based training algorithm into this LLMs-based
framework leads to further enhancements. Our evaluation of the dataset reveals
that these RL-based frameworks achieve a substantial improvements in 63-66% of
the tasks compared to previous approaches.Summary
AI-Generated Summary