ChatPaper.aiChatPaper

아스트롤라베: 증류된 자기회귀 비디오 모델을 위한 순방향 강화학습 스티어링

Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models

March 17, 2026
저자: Songchun Zhang, Zeyue Xue, Siming Fu, Jie Huang, Xianghao Kong, Y Ma, Haoyang Huang, Nan Duan, Anyi Rao
cs.AI

초록

증류된 자기회귀(AR) 비디오 모델은 효율적인 스트리밍 생성을 가능하게 하지만 인간의 시각적 선호도와 자주 불일치합니다. 기존 강화학습(RL) 프레임워크는 이러한 아키텍처에 자연스럽게 적합하지 않으며, 일반적으로 비용이 많이 드는 재증류 또는 상당한 메모리 및 계산 오버헤드를 유발하는 솔버-결합 역과정 최적화를 필요로 합니다. 우리는 증류된 AR 모델에 맞춰 설계된 효율적인 온라인 RL 프레임워크인 Astrolabe를 제시합니다. 기존 병목 현상을 극복하기 위해, 우리는 부정 인식 미세 조정에 기반한 순과정 RL 공식을 도입합니다. 추론 종단점에서 긍정 및 부정 샘플을 직접 대조함으로써, 이 접근법은 역과정 전개를 필요로 하지 않으면서 암묵적인 정책 개선 방향을 설정합니다. 이러한 정렬을 긴 비디오로 확장하기 위해, 우리는 롤링 KV 캐시를 통해 시퀀스를 점진적으로 생성하고, 장거리 일관성을 보장하기 위해 이전 컨텍스트에 조건을 부여하면서 RL 업데이트를 로컬 클립 윈도우에만 적용하는 스트리밍 훈련 기법을 제안합니다. 마지막으로, 보장 해킹을 완화하기 위해 불확실성 인식 선택적 정규화와 동적 참조 업데이트로 안정화된 다중 보상 목표를 통합합니다. 광범위한 실험을 통해 우리의 방법이 여러 증류된 AR 비디오 모델에서 생성 품질을 지속적으로 향상시키며, 강력하고 확장 가능한 정렬 솔루션으로 기능함을 입증합니다.
English
Distilled autoregressive (AR) video models enable efficient streaming generation but frequently misalign with human visual preferences. Existing reinforcement learning (RL) frameworks are not naturally suited to these architectures, typically requiring either expensive re-distillation or solver-coupled reverse-process optimization that introduces considerable memory and computational overhead. We present Astrolabe, an efficient online RL framework tailored for distilled AR models. To overcome existing bottlenecks, we introduce a forward-process RL formulation based on negative-aware fine-tuning. By contrasting positive and negative samples directly at inference endpoints, this approach establishes an implicit policy improvement direction without requiring reverse-process unrolling. To scale this alignment to long videos, we propose a streaming training scheme that generates sequences progressively via a rolling KV-cache, applying RL updates exclusively to local clip windows while conditioning on prior context to ensure long-range coherence. Finally, to mitigate reward hacking, we integrate a multi-reward objective stabilized by uncertainty-aware selective regularization and dynamic reference updates. Extensive experiments demonstrate that our method consistently enhances generation quality across multiple distilled AR video models, serving as a robust and scalable alignment solution.
PDF834March 24, 2026