Überwachtes Fein-Tuning versus Reinforcement Learning: Eine Untersuchung von Nachtrainierungsmethoden für große Sprachmodelle

Zusammenfassung

Vortrainierte große Sprachmodelle (Large Language Models, LLM) weisen breite Fähigkeiten auf, doch für spezifische Aufgaben oder Domänen hängt das Erreichen höherer Genauigkeit und zuverlässigerer Schlussfolgerungen im Allgemeinen von einer Nachtrainierung durch Supervised Fine-Tuning (SFT) oder Reinforcement Learning (RL) ab. Obwohl sie oft als eigenständige Methoden betrachtet werden, zeigen jüngste theoretische und empirische Entwicklungen, dass SFT und RL eng miteinander verbunden sind. Diese Studie bietet eine umfassende und vereinheitlichte Perspektive auf die Nachtrainierung von LLMs mit SFT und RL. Zunächst geben wir einen detaillierten Überblick über beide Techniken und untersuchen ihre Ziele, algorithmischen Strukturen und Datenanforderungen. Anschließend analysieren wir systematisch ihr Zusammenspiel, betonen Frameworks, die SFT und RL integrieren, hybride Trainingspipelines und Methoden, die ihre komplementären Stärken nutzen. Gestützt auf einen repräsentativen Satz aktueller Anwendungsstudien aus den Jahren 2023 bis 2025 identifizieren wir aufkommende Trends, charakterisieren die rasante Hinwendung zu hybriden Nachtrainierungs-Paradigmen und destillieren zentrale Erkenntnisse, die klären, wann und warum jede Methode am effektivsten ist. Durch die Synthese theoretischer Einsichten, praktischer Methoden und empirischer Belege schafft diese Studie ein kohärentes Verständnis von SFT und RL innerhalb eines einheitlichen Rahmens und skizziert vielversprechende Richtungen für zukünftige Forschung in skalierbarer, effizienter und generalisierbarer LLM-Nachtrainierung.

English

Pre-trained Large Language Model (LLM) exhibits broad capabilities, yet, for specific tasks or domains their attainment of higher accuracy and more reliable reasoning generally depends on post-training through Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). Although often treated as distinct methodologies, recent theoretical and empirical developments demonstrate that SFT and RL are closely connected. This study presents a comprehensive and unified perspective on LLM post-training with SFT and RL. We first provide an in-depth overview of both techniques, examining their objectives, algorithmic structures, and data requirements. We then systematically analyze their interplay, highlighting frameworks that integrate SFT and RL, hybrid training pipelines, and methods that leverage their complementary strengths. Drawing on a representative set of recent application studies from 2023 to 2025, we identify emerging trends, characterize the rapid shift toward hybrid post-training paradigms, and distill key takeaways that clarify when and why each method is most effective. By synthesizing theoretical insights, practical methodologies, and empirical evidence, this study establishes a coherent understanding of SFT and RL within a unified framework and outlines promising directions for future research in scalable, efficient, and generalizable LLM post-training.

Überwachtes Fein-Tuning versus Reinforcement Learning: Eine Untersuchung von Nachtrainierungsmethoden für große Sprachmodelle

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Zusammenfassung

Support