Trinity-RFT : Un cadre généraliste et unifié pour le réglage fin par renforcement des grands modèles de langage
Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
May 23, 2025
Auteurs: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Résumé
Trinity-RFT est un cadre généraliste, flexible et évolutif conçu pour le réglage fin par renforcement (RFT) des grands modèles de langage. Il est construit selon une conception découplée, comprenant (1) un noyau RFT qui unifie et généralise les modes synchrones/asynchrones, on-policy/off-policy, et en ligne/hors ligne du RFT, (2) une intégration fluide pour l'interaction agent-environnement avec une haute efficacité et robustesse, et (3) des pipelines de données systématiques optimisés pour le RFT. Trinity-RFT peut être facilement adapté à divers scénarios d'application et sert de plateforme unifiée pour explorer les paradigmes avancés de l'apprentissage par renforcement. Ce rapport technique présente la vision, les caractéristiques, la conception et les implémentations de Trinity-RFT, accompagnés de nombreux exemples démontrant l'utilité et la convivialité du cadre proposé.
English
Trinity-RFT is a general-purpose, flexible and scalable framework designed
for reinforcement fine-tuning (RFT) of large language models. It is built with
a decoupled design, consisting of (1) an RFT-core that unifies and generalizes
synchronous/asynchronous, on-policy/off-policy, and online/offline modes of
RFT, (2) seamless integration for agent-environment interaction with high
efficiency and robustness, and (3) systematic data pipelines optimized for RFT.
Trinity-RFT can be easily adapted for diverse application scenarios, and serves
as a unified platform for exploring advanced reinforcement learning paradigms.
This technical report outlines the vision, features, design and implementations
of Trinity-RFT, accompanied by extensive examples demonstrating the utility and
user-friendliness of the proposed framework.Summary
AI-Generated Summary