ChatPaper.aiChatPaper

REFINE-AF : Un cadre agnostique aux tâches pour aligner les modèles de langage via des instructions auto-générées utilisant l'apprentissage par renforcement à partir de retours automatisés

REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025
Auteurs: Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
cs.AI

Résumé

Les modèles de langage de grande taille (LLMs) basés sur des instructions se sont avérés efficaces dans de nombreuses tâches de traitement du langage naturel (NLP) en few-shot ou zero-shot. Cependant, la création de données d'instructions annotées par des humains est chronophage, coûteuse et souvent limitée en quantité et en diversité de tâches. Les recherches précédentes ont tenté de relever ce défi en proposant des cadres capables de générer des instructions de manière semi-automatisée et indépendante de la tâche, directement à partir du modèle lui-même. Bon nombre de ces efforts se sont appuyés sur des modèles à paramètres volumineux et accessibles uniquement via des API, tels que GPT-3.5 (175B), qui sont coûteux et soumis à des limites sur le nombre de requêtes. Cet article explore la performance de trois petits LLMs open-source, tels que LLaMA 2-7B, LLaMA 2-13B et Mistral 7B, en utilisant un cadre semi-automatisé, réduisant ainsi l'intervention humaine, l'effort et le coût nécessaires pour générer un ensemble de données d'instructions pour le fine-tuning des LLMs. De plus, nous démontrons que l'intégration d'un algorithme d'apprentissage par renforcement (RL) dans ce cadre basé sur les LLMs conduit à des améliorations supplémentaires. Notre évaluation de l'ensemble de données révèle que ces cadres basés sur le RL permettent des améliorations substantielles dans 63 à 66 % des tâches par rapport aux approches précédentes.
English
Instruction-based Large Language Models (LLMs) have proven effective in numerous few-shot or zero-shot Natural Language Processing (NLP) tasks. However, creating human-annotated instruction data is time-consuming, expensive, and often limited in quantity and task diversity. Previous research endeavors have attempted to address this challenge by proposing frameworks capable of generating instructions in a semi-automated and task-agnostic manner directly from the model itself. Many of these efforts have relied on large API-only parameter-based models such as GPT-3.5 (175B), which are expensive, and subject to limits on a number of queries. This paper explores the performance of three open-source small LLMs such as LLaMA 2-7B, LLama 2-13B, and Mistral 7B, using a semi-automated framework, thereby reducing human intervention, effort, and cost required to generate an instruction dataset for fine-tuning LLMs. Furthermore, we demonstrate that incorporating a Reinforcement Learning (RL) based training algorithm into this LLMs-based framework leads to further enhancements. Our evaluation of the dataset reveals that these RL-based frameworks achieve a substantial improvements in 63-66% of the tasks compared to previous approaches.

Summary

AI-Generated Summary

PDF261May 13, 2025