Trinity-RFT: Un Marco General y Unificado para el Ajuste Fino por Refuerzo de Modelos de Lenguaje de Gran Escala

Resumen

Trinity-RFT es un marco de propósito general, flexible y escalable diseñado para el ajuste fino por refuerzo (RFT, por sus siglas en inglés) de modelos de lenguaje grandes. Está construido con un diseño desacoplado, que consta de (1) un núcleo RFT que unifica y generaliza los modos sincrónicos/asincrónicos, on-policy/off-policy y en línea/fuera de línea del RFT, (2) una integración fluida para la interacción agente-entorno con alta eficiencia y robustez, y (3) tuberías de datos sistemáticas optimizadas para RFT. Trinity-RFT puede adaptarse fácilmente a diversos escenarios de aplicación y sirve como una plataforma unificada para explorar paradigmas avanzados de aprendizaje por refuerzo. Este informe técnico describe la visión, características, diseño e implementaciones de Trinity-RFT, acompañado de numerosos ejemplos que demuestran la utilidad y facilidad de uso del marco propuesto.

English

Trinity-RFT is a general-purpose, flexible and scalable framework designed for reinforcement fine-tuning (RFT) of large language models. It is built with a decoupled design, consisting of (1) an RFT-core that unifies and generalizes synchronous/asynchronous, on-policy/off-policy, and online/offline modes of RFT, (2) seamless integration for agent-environment interaction with high efficiency and robustness, and (3) systematic data pipelines optimized for RFT. Trinity-RFT can be easily adapted for diverse application scenarios, and serves as a unified platform for exploring advanced reinforcement learning paradigms. This technical report outlines the vision, features, design and implementations of Trinity-RFT, accompanied by extensive examples demonstrating the utility and user-friendliness of the proposed framework.

Trinity-RFT: Un Marco General y Unificado para el Ajuste Fino por Refuerzo de Modelos de Lenguaje de Gran Escala

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

Resumen

Support