Trinity-RFT: Um Framework Geral e Unificado para Ajuste Fino por Reforço de Modelos de Linguagem de Grande Escala
Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
May 23, 2025
Autores: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Resumo
O Trinity-RFT é uma estrutura de propósito geral, flexível e escalável projetada para o ajuste fino por reforço (RFT) de modelos de linguagem de grande escala. Ele é construído com um design desacoplado, consistindo em (1) um núcleo RFT que unifica e generaliza modos síncronos/assíncronos, on-policy/off-policy e online/offline de RFT, (2) uma integração perfeita para interação agente-ambiente com alta eficiência e robustez, e (3) pipelines de dados sistemáticos otimizados para RFT. O Trinity-RFT pode ser facilmente adaptado para diversos cenários de aplicação e serve como uma plataforma unificada para explorar paradigmas avançados de aprendizado por reforço. Este relatório técnico descreve a visão, características, design e implementações do Trinity-RFT, acompanhado por exemplos extensos que demonstram a utilidade e a facilidade de uso da estrutura proposta.
English
Trinity-RFT is a general-purpose, flexible and scalable framework designed
for reinforcement fine-tuning (RFT) of large language models. It is built with
a decoupled design, consisting of (1) an RFT-core that unifies and generalizes
synchronous/asynchronous, on-policy/off-policy, and online/offline modes of
RFT, (2) seamless integration for agent-environment interaction with high
efficiency and robustness, and (3) systematic data pipelines optimized for RFT.
Trinity-RFT can be easily adapted for diverse application scenarios, and serves
as a unified platform for exploring advanced reinforcement learning paradigms.
This technical report outlines the vision, features, design and implementations
of Trinity-RFT, accompanied by extensive examples demonstrating the utility and
user-friendliness of the proposed framework.