Trinity-RFT: Универсальная и единая структура для тонкой настройки с подкреплением крупных языковых моделей
Trinity-RFT: A General-Purpose and Unified Framework for Reinforcement Fine-Tuning of Large Language Models
May 23, 2025
Авторы: Xuchen Pan, Yanxi Chen, Yushuo Chen, Yuchang Sun, Daoyuan Chen, Wenhao Zhang, Yuexiang Xie, Yilun Huang, Yilei Zhang, Dawei Gao, Yaliang Li, Bolin Ding, Jingren Zhou
cs.AI
Аннотация
Trinity-RFT — это универсальная, гибкая и масштабируемая платформа, предназначенная для тонкой настройки с подкреплением (Reinforcement Fine-Tuning, RFT) крупных языковых моделей. Она построена на основе декомпозированной архитектуры, включающей (1) RFT-core, который унифицирует и обобщает синхронные/асинхронные, онлайновые/офлайновые и on-policy/off-policy режимы RFT, (2) бесшовную интеграцию взаимодействия агента и среды с высокой эффективностью и надежностью, а также (3) систематизированные конвейеры данных, оптимизированные для RFT. Trinity-RFT легко адаптируется для различных сценариев применения и служит унифицированной платформой для исследования передовых парадигм обучения с подкреплением. В данном техническом отчете изложены видение, особенности, дизайн и реализация Trinity-RFT, а также приведены многочисленные примеры, демонстрирующие полезность и удобство использования предложенной платформы.
English
Trinity-RFT is a general-purpose, flexible and scalable framework designed
for reinforcement fine-tuning (RFT) of large language models. It is built with
a decoupled design, consisting of (1) an RFT-core that unifies and generalizes
synchronous/asynchronous, on-policy/off-policy, and online/offline modes of
RFT, (2) seamless integration for agent-environment interaction with high
efficiency and robustness, and (3) systematic data pipelines optimized for RFT.
Trinity-RFT can be easily adapted for diverse application scenarios, and serves
as a unified platform for exploring advanced reinforcement learning paradigms.
This technical report outlines the vision, features, design and implementations
of Trinity-RFT, accompanied by extensive examples demonstrating the utility and
user-friendliness of the proposed framework.Summary
AI-Generated Summary