ChatPaper.aiChatPaper

REFINE-AF: Un Marco Agnóstico a la Tarea para Alinear Modelos de Lenguaje mediante Instrucciones Autogeneradas usando Aprendizaje por Refuerzo con Retroalimentación Automatizada

REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025
Autores: Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
cs.AI

Resumen

Los modelos de lenguaje de gran escala (LLMs) basados en instrucciones han demostrado ser efectivos en numerosas tareas de Procesamiento de Lenguaje Natural (NLP) con pocos ejemplos (few-shot) o sin ejemplos (zero-shot). Sin embargo, la creación de datos de instrucciones anotados por humanos es un proceso que consume tiempo, es costoso y, a menudo, está limitado en cantidad y diversidad de tareas. Investigaciones previas han intentado abordar este desafío proponiendo marcos de trabajo capaces de generar instrucciones de manera semi-automatizada y agnóstica a la tarea, directamente desde el propio modelo. Muchos de estos esfuerzos han dependido de modelos grandes basados únicamente en parámetros API, como GPT-3.5 (175B), que son costosos y están sujetos a límites en el número de consultas. Este artículo explora el rendimiento de tres LLMs pequeños de código abierto, como LLaMA 2-7B, LLaMA 2-13B y Mistral 7B, utilizando un marco de trabajo semi-automatizado, reduciendo así la intervención humana, el esfuerzo y el costo requeridos para generar un conjunto de datos de instrucciones para el ajuste fino de LLMs. Además, demostramos que la incorporación de un algoritmo de entrenamiento basado en Aprendizaje por Refuerzo (RL) en este marco de trabajo basado en LLMs conduce a mejoras adicionales. Nuestra evaluación del conjunto de datos revela que estos marcos de trabajo basados en RL logran mejoras sustanciales en el 63-66% de las tareas en comparación con enfoques anteriores.
English
Instruction-based Large Language Models (LLMs) have proven effective in numerous few-shot or zero-shot Natural Language Processing (NLP) tasks. However, creating human-annotated instruction data is time-consuming, expensive, and often limited in quantity and task diversity. Previous research endeavors have attempted to address this challenge by proposing frameworks capable of generating instructions in a semi-automated and task-agnostic manner directly from the model itself. Many of these efforts have relied on large API-only parameter-based models such as GPT-3.5 (175B), which are expensive, and subject to limits on a number of queries. This paper explores the performance of three open-source small LLMs such as LLaMA 2-7B, LLama 2-13B, and Mistral 7B, using a semi-automated framework, thereby reducing human intervention, effort, and cost required to generate an instruction dataset for fine-tuning LLMs. Furthermore, we demonstrate that incorporating a Reinforcement Learning (RL) based training algorithm into this LLMs-based framework leads to further enhancements. Our evaluation of the dataset reveals that these RL-based frameworks achieve a substantial improvements in 63-66% of the tasks compared to previous approaches.

Summary

AI-Generated Summary

PDF261May 13, 2025