Trinity-RFT: Un Marco General y Unificado para el Ajuste Fino por Refuerzo de Modelos de Lenguaje de Gran Escala
Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
May 23, 2025
Autores: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Resumen
Trinity-RFT es un marco de propósito general, flexible y escalable diseñado para el ajuste fino por refuerzo (RFT, por sus siglas en inglés) de modelos de lenguaje grandes. Está construido con un diseño desacoplado, que consta de (1) un núcleo RFT que unifica y generaliza los modos sincrónicos/asincrónicos, on-policy/off-policy y en línea/fuera de línea del RFT, (2) una integración fluida para la interacción agente-entorno con alta eficiencia y robustez, y (3) tuberías de datos sistemáticas optimizadas para RFT. Trinity-RFT puede adaptarse fácilmente a diversos escenarios de aplicación y sirve como una plataforma unificada para explorar paradigmas avanzados de aprendizaje por refuerzo. Este informe técnico describe la visión, características, diseño e implementaciones de Trinity-RFT, acompañado de numerosos ejemplos que demuestran la utilidad y facilidad de uso del marco propuesto.
English
Trinity-RFT is a general-purpose, flexible and scalable framework designed
for reinforcement fine-tuning (RFT) of large language models. It is built with
a decoupled design, consisting of (1) an RFT-core that unifies and generalizes
synchronous/asynchronous, on-policy/off-policy, and online/offline modes of
RFT, (2) seamless integration for agent-environment interaction with high
efficiency and robustness, and (3) systematic data pipelines optimized for RFT.
Trinity-RFT can be easily adapted for diverse application scenarios, and serves
as a unified platform for exploring advanced reinforcement learning paradigms.
This technical report outlines the vision, features, design and implementations
of Trinity-RFT, accompanied by extensive examples demonstrating the utility and
user-friendliness of the proposed framework.Summary
AI-Generated Summary