Ajustement Supervisé contre Apprentissage par Renforcement : Une Étude des Méthodes de Post-Formation pour les Grands Modèles de Langage

Résumé

Le modèle de langage de grande taille (LLM) pré-entraîné présente des capacités étendues, mais pour des tâches ou domaines spécifiques, l'obtention d'une précision supérieure et d'un raisonnement plus fiable dépend généralement d'un post-entraînement via le Fine-Tuning Supervisé (SFT) ou l'Apprentissage par Renforcement (RL). Bien qu'elles soient souvent considérées comme des méthodologies distinctes, des développements théoriques et empiriques récents démontrent que le SFT et le RL sont étroitement liés. Cette étude présente une perspective complète et unifiée sur le post-entraînement des LLM avec le SFT et le RL. Nous fournissons d'abord un aperçu approfondi des deux techniques, en examinant leurs objectifs, structures algorithmiques et besoins en données. Nous analysons ensuite systématiquement leurs interactions, en mettant en lumière les cadres qui intègrent le SFT et le RL, les pipelines d'entraînement hybrides et les méthodes qui exploitent leurs forces complémentaires. En nous appuyant sur un ensemble représentatif d'études d'application récentes (2023-2025), nous identifions les tendances émergentes, caractérisons l'évolution rapide vers les paradigmes de post-entraînement hybrides et dégageons les principaux enseignements clarifiant quand et pourquoi chaque méthode est la plus efficace. En synthétisant les perspectives théoriques, les méthodologies pratiques et les preuves empiriques, cette étude établit une compréhension cohérente du SFT et du RL dans un cadre unifié et esquisse des orientations prometteuses pour la recherche future sur un post-entraînement des LLM évolutif, efficient et généralisable.

English

Pre-trained Large Language Model (LLM) exhibits broad capabilities, yet, for specific tasks or domains their attainment of higher accuracy and more reliable reasoning generally depends on post-training through Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). Although often treated as distinct methodologies, recent theoretical and empirical developments demonstrate that SFT and RL are closely connected. This study presents a comprehensive and unified perspective on LLM post-training with SFT and RL. We first provide an in-depth overview of both techniques, examining their objectives, algorithmic structures, and data requirements. We then systematically analyze their interplay, highlighting frameworks that integrate SFT and RL, hybrid training pipelines, and methods that leverage their complementary strengths. Drawing on a representative set of recent application studies from 2023 to 2025, we identify emerging trends, characterize the rapid shift toward hybrid post-training paradigms, and distill key takeaways that clarify when and why each method is most effective. By synthesizing theoretical insights, practical methodologies, and empirical evidence, this study establishes a coherent understanding of SFT and RL within a unified framework and outlines promising directions for future research in scalable, efficient, and generalizable LLM post-training.

Ajustement Supervisé contre Apprentissage par Renforcement : Une Étude des Méthodes de Post-Formation pour les Grands Modèles de Langage

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Résumé

Support