ChatPaper.aiChatPaper

REFINE-AF: Ein aufgabenunabhängiges Framework zur Ausrichtung von Sprachmodellen durch selbstgenerierte Anweisungen mittels Verstärkungslernen aus automatisiertem Feedback

REFINE-AF: A Task-Agnostic Framework to Align Language Models via Self-Generated Instructions using Reinforcement Learning from Automated Feedback

May 10, 2025
Autoren: Aniruddha Roy, Pretam Ray, Abhilash Nandy, Somak Aditya, Pawan Goyal
cs.AI

Zusammenfassung

Instruktionsbasierte Large Language Models (LLMs) haben sich bei zahlreichen Few-Shot- oder Zero-Shot-Natural Language Processing (NLP)-Aufgaben als effektiv erwiesen. Die Erstellung von menschlich annotierten Instruktionsdaten ist jedoch zeitaufwendig, kostspielig und oft in Menge und Aufgabenvielfalt begrenzt. Frühere Forschungsbemühungen haben versucht, diese Herausforderung zu bewältigen, indem sie Frameworks vorgeschlagen haben, die in der Lage sind, Instruktionen auf halbautomatisierte und aufgabenunabhängige Weise direkt aus dem Modell selbst zu generieren. Viele dieser Ansätze stützten sich auf große API-basierte Modelle mit vielen Parametern wie GPT-3.5 (175B), die teuer sind und Beschränkungen bei der Anzahl der Abfragen unterliegen. Diese Arbeit untersucht die Leistung von drei quelloffenen kleinen LLMs wie LLaMA 2-7B, LLaMA 2-13B und Mistral 7B unter Verwendung eines halbautomatisierten Frameworks, wodurch der menschliche Eingriff, der Aufwand und die Kosten, die zur Generierung eines Instruktionsdatensatzes für das Fine-Tuning von LLMs erforderlich sind, reduziert werden. Darüber hinaus zeigen wir, dass die Integration eines Reinforcement Learning (RL)-basierten Trainingsalgorithmus in dieses LLM-basierte Framework zu weiteren Verbesserungen führt. Unsere Auswertung des Datensatzes zeigt, dass diese RL-basierten Frameworks in 63–66 % der Aufgaben erhebliche Verbesserungen im Vergleich zu früheren Ansätzen erzielen.
English
Instruction-based Large Language Models (LLMs) have proven effective in numerous few-shot or zero-shot Natural Language Processing (NLP) tasks. However, creating human-annotated instruction data is time-consuming, expensive, and often limited in quantity and task diversity. Previous research endeavors have attempted to address this challenge by proposing frameworks capable of generating instructions in a semi-automated and task-agnostic manner directly from the model itself. Many of these efforts have relied on large API-only parameter-based models such as GPT-3.5 (175B), which are expensive, and subject to limits on a number of queries. This paper explores the performance of three open-source small LLMs such as LLaMA 2-7B, LLama 2-13B, and Mistral 7B, using a semi-automated framework, thereby reducing human intervention, effort, and cost required to generate an instruction dataset for fine-tuning LLMs. Furthermore, we demonstrate that incorporating a Reinforcement Learning (RL) based training algorithm into this LLMs-based framework leads to further enhancements. Our evaluation of the dataset reveals that these RL-based frameworks achieve a substantial improvements in 63-66% of the tasks compared to previous approaches.

Summary

AI-Generated Summary

PDF261May 13, 2025