Trinity-RFT: Un Framework Generale e Unificato per il Fine-Tuning con Rinforzo di Modelli Linguistici di Grandi Dimensioni
Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
May 23, 2025
Autori: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Abstract
Trinity-RFT è un framework generico, flessibile e scalabile progettato per il fine-tuning con rinforzo (RFT) di modelli linguistici di grandi dimensioni. È costruito con un design disaccoppiato, composto da (1) un RFT-core che unifica e generalizza le modalità sincrone/asincrone, on-policy/off-policy e online/offline di RFT, (2) un'integrazione senza soluzione di continuità per l'interazione agente-ambiente con elevata efficienza e robustezza, e (3) pipeline di dati sistematiche ottimizzate per RFT. Trinity-RFT può essere facilmente adattato a diversi scenari applicativi e funge da piattaforma unificata per esplorare paradigmi avanzati di apprendimento per rinforzo. Questo rapporto tecnico delinea la visione, le caratteristiche, il design e le implementazioni di Trinity-RFT, accompagnato da numerosi esempi che dimostrano l'utilità e la facilità d'uso del framework proposto.
English
Trinity-RFT is a general-purpose, flexible and scalable framework designed
for reinforcement fine-tuning (RFT) of large language models. It is built with
a decoupled design, consisting of (1) an RFT-core that unifies and generalizes
synchronous/asynchronous, on-policy/off-policy, and online/offline modes of
RFT, (2) seamless integration for agent-environment interaction with high
efficiency and robustness, and (3) systematic data pipelines optimized for RFT.
Trinity-RFT can be easily adapted for diverse application scenarios, and serves
as a unified platform for exploring advanced reinforcement learning paradigms.
This technical report outlines the vision, features, design and implementations
of Trinity-RFT, accompanied by extensive examples demonstrating the utility and
user-friendliness of the proposed framework.