Addestramento Supervisionato con Fine-Tuning versus Apprendimento per Rinforzo: Uno Studio sui Metodi di Post-Addestramento per i Grandi Modelli Linguistici

Abstract

I modelli linguistici di grandi dimensioni (LLM) pre-addestrati mostrano ampie capacità; tuttavia, per compiti o domini specifici, il raggiungimento di una maggiore accuratezza e di un ragionamento più affidabile dipende generalmente dall'addestramento successivo attraverso la messa a punto supervisionata (SFT) o l'apprendimento per rinforzo (RL). Sebbene siano spesso considerate metodologie distinte, recenti sviluppi teorici ed empirici dimostrano che SFT e RL sono strettamente connessi. Questo studio presenta una prospettiva completa e unificata sull'addestramento successivo degli LLM con SFT e RL. Forniamo innanzitutto una panoramica approfondita di entrambe le tecniche, esaminandone gli obiettivi, le strutture algoritmiche e i requisiti dei dati. Analizziamo poi sistematicamente la loro interazione, evidenziando framework che integrano SFT e RL, pipeline di addestramento ibride e metodi che sfruttano i loro punti di forza complementari. Attingendo a un insieme rappresentativo di recenti studi applicativi dal 2023 al 2025, identifichiamo tendenze emergenti, caratterizziamo il rapido passaggio verso paradigmi di post-addestramento ibridi e distilliamo i punti chiave che chiariscono quando e perché ciascun metodo è più efficace. Sintetizzando intuizioni teoriche, metodologie pratiche ed evidenze empiriche, questo studio stabilisce una comprensione coerente di SFT e RL all'interno di un quadro unificato e delinea direzioni promettenti per la ricerca futura su un addestramento successivo degli LLM scalabile, efficiente e generalizzabile.

English

Pre-trained Large Language Model (LLM) exhibits broad capabilities, yet, for specific tasks or domains their attainment of higher accuracy and more reliable reasoning generally depends on post-training through Supervised Fine-Tuning (SFT) or Reinforcement Learning (RL). Although often treated as distinct methodologies, recent theoretical and empirical developments demonstrate that SFT and RL are closely connected. This study presents a comprehensive and unified perspective on LLM post-training with SFT and RL. We first provide an in-depth overview of both techniques, examining their objectives, algorithmic structures, and data requirements. We then systematically analyze their interplay, highlighting frameworks that integrate SFT and RL, hybrid training pipelines, and methods that leverage their complementary strengths. Drawing on a representative set of recent application studies from 2023 to 2025, we identify emerging trends, characterize the rapid shift toward hybrid post-training paradigms, and distill key takeaways that clarify when and why each method is most effective. By synthesizing theoretical insights, practical methodologies, and empirical evidence, this study establishes a coherent understanding of SFT and RL within a unified framework and outlines promising directions for future research in scalable, efficient, and generalizable LLM post-training.

Addestramento Supervisionato con Fine-Tuning versus Apprendimento per Rinforzo: Uno Studio sui Metodi di Post-Addestramento per i Grandi Modelli Linguistici

Supervised Fine-Tuning versus Reinforcement Learning: A Study of Post-Training Methods for Large Language Models

Abstract

Support