ChatPaper.aiChatPaper

AsyncFlow: 効率的なLLMポストトレーニングのための非同期ストリーミングRLフレームワーク

AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training

July 2, 2025
著者: Zhenyu Han, Ansheng You, Haibo Wang, Kui Luo, Guang Yang, Wenqi Shi, Menglong Chen, Sicheng Zhang, Zeshun Lan, Chunshi Deng, Huazhong Ji, Wenjie Liu, Yu Huang, Yixiang Zhang, Chenyi Pan, Jing Wang, Xin Huang, Chunsheng Li, Jianping Wu
cs.AI

要旨

強化学習(Reinforcement Learning, RL)は、大規模言語モデル(Large Language Models, LLMs)のポストトレーニング段階において重要な技術となっている。従来のタスク併置型RLフレームワークは、スケーラビリティのボトルネックに悩まされており、一方でタスク分離型RLフレームワークは、複雑なデータフローとそれに伴うリソースのアイドル状態やワークロードの不均衡に直面している。さらに、既存のフレームワークの多くはLLMのトレーニングや推論エンジンと密結合しており、カスタム設計のエンジンをサポートすることが困難である。これらの課題に対処するため、我々は効率的なポストトレーニングのための非同期ストリーミングRLフレームワーク「AsyncFlow」を提案する。具体的には、分散データストレージと転送モジュールを導入し、完全なストリーミング方式で統一されたデータ管理と細粒度のスケジューリング機能を提供する。このアーキテクチャは、RLタスク間の自動パイプラインオーバーラップと動的負荷分散を本質的に促進する。さらに、プロデューサー・コンシューマーベースの非同期ワークフローを提案し、パラメータ更新プロセスを戦略的に遅延させることで、計算のアイドル状態を最小限に抑える。最後に、AsyncFlowのコア機能は、基盤となるトレーニングおよび推論エンジンからアーキテクチャ的に分離され、サービス指向のユーザーインターフェースにカプセル化されており、モジュール化されたカスタマイズ可能なユーザーエクスペリエンスを提供する。大規模な実験により、最先端のベースラインと比較して平均1.59倍のスループット向上が実証された。本論文で提示されたアーキテクチャは、次世代RLトレーニングシステム設計のための実践的な洞察を提供する。
English
Reinforcement learning (RL) has become a pivotal technology in the post-training phase of large language models (LLMs). Traditional task-colocated RL frameworks suffer from significant scalability bottlenecks, while task-separated RL frameworks face challenges in complex dataflows and the corresponding resource idling and workload imbalance. Moreover, most existing frameworks are tightly coupled with LLM training or inference engines, making it difficult to support custom-designed engines. To address these challenges, we propose AsyncFlow, an asynchronous streaming RL framework for efficient post-training. Specifically, we introduce a distributed data storage and transfer module that provides a unified data management and fine-grained scheduling capability in a fully streamed manner. This architecture inherently facilitates automated pipeline overlapping among RL tasks and dynamic load balancing. Moreover, we propose a producer-consumer-based asynchronous workflow engineered to minimize computational idleness by strategically deferring parameter update process within staleness thresholds. Finally, the core capability of AsynFlow is architecturally decoupled from underlying training and inference engines and encapsulated by service-oriented user interfaces, offering a modular and customizable user experience. Extensive experiments demonstrate an average of 1.59 throughput improvement compared with state-of-the-art baseline. The presented architecture in this work provides actionable insights for next-generation RL training system designs.
PDF31July 4, 2025