ChatPaper.aiChatPaper

Trinity-RFT: Um Framework Geral e Unificado para Ajuste Fino por Reforço de Modelos de Linguagem de Grande Escala

Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models

May 23, 2025
Autores: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI

Resumo

O Trinity-RFT é uma estrutura de propósito geral, flexível e escalável projetada para o ajuste fino por reforço (RFT) de modelos de linguagem de grande escala. Ele é construído com um design desacoplado, consistindo em (1) um núcleo RFT que unifica e generaliza modos síncronos/assíncronos, on-policy/off-policy e online/offline de RFT, (2) uma integração perfeita para interação agente-ambiente com alta eficiência e robustez, e (3) pipelines de dados sistemáticos otimizados para RFT. O Trinity-RFT pode ser facilmente adaptado para diversos cenários de aplicação e serve como uma plataforma unificada para explorar paradigmas avançados de aprendizado por reforço. Este relatório técnico descreve a visão, características, design e implementações do Trinity-RFT, acompanhado por exemplos extensos que demonstram a utilidade e a facilidade de uso da estrutura proposta.
English
Trinity-RFT is a general-purpose, flexible and scalable framework designed for reinforcement fine-tuning (RFT) of large language models. It is built with a decoupled design, consisting of (1) an RFT-core that unifies and generalizes synchronous/asynchronous, on-policy/off-policy, and online/offline modes of RFT, (2) seamless integration for agent-environment interaction with high efficiency and robustness, and (3) systematic data pipelines optimized for RFT. Trinity-RFT can be easily adapted for diverse application scenarios, and serves as a unified platform for exploring advanced reinforcement learning paradigms. This technical report outlines the vision, features, design and implementations of Trinity-RFT, accompanied by extensive examples demonstrating the utility and user-friendliness of the proposed framework.
PDF92May 26, 2025