Trinity-RFT: Un Framework Generale e Unificato per il Fine-Tuning con Rinforzo di Modelli Linguistici di Grandi Dimensioni

Abstract

Trinity-RFT è un framework generico, flessibile e scalabile progettato per il fine-tuning con rinforzo (RFT) di modelli linguistici di grandi dimensioni. È costruito con un design disaccoppiato, composto da (1) un RFT-core che unifica e generalizza le modalità sincrone/asincrone, on-policy/off-policy e online/offline di RFT, (2) un'integrazione senza soluzione di continuità per l'interazione agente-ambiente con elevata efficienza e robustezza, e (3) pipeline di dati sistematiche ottimizzate per RFT. Trinity-RFT può essere facilmente adattato a diversi scenari applicativi e funge da piattaforma unificata per esplorare paradigmi avanzati di apprendimento per rinforzo. Questo rapporto tecnico delinea la visione, le caratteristiche, il design e le implementazioni di Trinity-RFT, accompagnato da numerosi esempi che dimostrano l'utilità e la facilità d'uso del framework proposto.

English

Trinity-RFT is a general-purpose, flexible and scalable framework designed for reinforcement fine-tuning (RFT) of large language models. It is built with a decoupled design, consisting of (1) an RFT-core that unifies and generalizes synchronous/asynchronous, on-policy/off-policy, and online/offline modes of RFT, (2) seamless integration for agent-environment interaction with high efficiency and robustness, and (3) systematic data pipelines optimized for RFT. Trinity-RFT can be easily adapted for diverse application scenarios, and serves as a unified platform for exploring advanced reinforcement learning paradigms. This technical report outlines the vision, features, design and implementations of Trinity-RFT, accompanied by extensive examples demonstrating the utility and user-friendliness of the proposed framework.

Trinity-RFT: Un Framework Generale e Unificato per il Fine-Tuning con Rinforzo di Modelli Linguistici di Grandi Dimensioni

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

Abstract

Support