ChatPaper.aiChatPaper

AsyncFlow: 효율적인 LLM 사후 학습을 위한 비동기 스트리밍 강화학습 프레임워크

AsyncFlow: An Asynchronous Streaming RL Framework for Efficient LLM Post-Training

July 2, 2025
저자: Zhenyu Han, Ansheng You, Haibo Wang, Kui Luo, Guang Yang, Wenqi Shi, Menglong Chen, Sicheng Zhang, Zeshun Lan, Chunshi Deng, Huazhong Ji, Wenjie Liu, Yu Huang, Yixiang Zhang, Chenyi Pan, Jing Wang, Xin Huang, Chunsheng Li, Jianping Wu
cs.AI

초록

강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 사후 훈련(post-training) 단계에서 핵심 기술로 자리 잡고 있습니다. 기존의 작업 통합(task-colocated) RL 프레임워크는 확장성 병목 현상에 직면해 있으며, 작업 분리(task-separated) RL 프레임워크는 복잡한 데이터 흐름과 이에 따른 자원 유휴 및 작업 부하 불균형 문제를 겪고 있습니다. 또한, 대부분의 기존 프레임워크는 LLM 훈련 또는 추론 엔진과 긴밀하게 결합되어 있어 사용자 정의 엔진을 지원하기 어렵습니다. 이러한 문제를 해결하기 위해, 우리는 효율적인 사후 훈련을 위한 비동기 스트리밍 RL 프레임워크인 AsyncFlow를 제안합니다. 구체적으로, 우리는 분산 데이터 저장 및 전송 모듈을 도입하여 완전한 스트리밍 방식으로 통합 데이터 관리와 세밀한 스케줄링 기능을 제공합니다. 이 아키텍처는 RL 작업 간 자동화된 파이프라인 중첩과 동적 부하 분산을 본질적으로 촉진합니다. 또한, 우리는 생산자-소비자 기반의 비동기 워크플로를 제안하여, 파라미터 업데이트 프로세스를 지연 임계값 내에서 전략적으로 지연시켜 계산적 유휴 시간을 최소화합니다. 마지막으로, AsyncFlow의 핵심 기능은 기본 훈련 및 추론 엔진과 아키텍처적으로 분리되어 있으며, 서비스 지향 사용자 인터페이스로 캡슐화되어 모듈화되고 사용자 정의 가능한 사용자 경험을 제공합니다. 광범위한 실험 결과, 최신 기준선 대비 평균 1.59배의 처리량 향상을 보여줍니다. 본 연구에서 제시된 아키텍처는 차세대 RL 훈련 시스템 설계를 위한 실행 가능한 통찰력을 제공합니다.
English
Reinforcement learning (RL) has become a pivotal technology in the post-training phase of large language models (LLMs). Traditional task-colocated RL frameworks suffer from significant scalability bottlenecks, while task-separated RL frameworks face challenges in complex dataflows and the corresponding resource idling and workload imbalance. Moreover, most existing frameworks are tightly coupled with LLM training or inference engines, making it difficult to support custom-designed engines. To address these challenges, we propose AsyncFlow, an asynchronous streaming RL framework for efficient post-training. Specifically, we introduce a distributed data storage and transfer module that provides a unified data management and fine-grained scheduling capability in a fully streamed manner. This architecture inherently facilitates automated pipeline overlapping among RL tasks and dynamic load balancing. Moreover, we propose a producer-consumer-based asynchronous workflow engineered to minimize computational idleness by strategically deferring parameter update process within staleness thresholds. Finally, the core capability of AsynFlow is architecturally decoupled from underlying training and inference engines and encapsulated by service-oriented user interfaces, offering a modular and customizable user experience. Extensive experiments demonstrate an average of 1.59 throughput improvement compared with state-of-the-art baseline. The presented architecture in this work provides actionable insights for next-generation RL training system designs.
PDF31July 4, 2025