π-StepNFT: Een bredere ruimte vereist fijnere stappen in online reinforcement learning voor stroomgebaseerde virtuele logische agenten
π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs
March 2, 2026
Auteurs: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
cs.AI
Samenvatting
Flow-based vision-language-action (VLA)-modellen blinken uit in embodied control, maar kampen met onhanteerbare likelihoods tijdens multi-step sampling, wat online reinforcement learning belemmert. Wij stellen \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning) voor, een critic-en likelihood-vrij raamwerk dat slechts één forward pass per optimalisatiestap vereist en hulpwaardenetwerken overbodig maakt. Wij tonen aan dat ruimere verkenningen (wider exploration spaces) fijnmazigere, stapsgewijze begeleiding voor alignment vereisen. Empirisch gezien ontgrendelt π-StepNFT latent potentieel op LIBERO met competitieve few-shot robuustheid. Bovendien bereikt het superieure generalisatie op ManiSkill, waarbij het waardegestuurde baseline-methoden overtreft in OOD-scenario's door overfitting aan multimodale kenmerken te voorkomen. Deze eigenschap biedt een schaalbare oplossing die veelbelovend is voor complexe real-world toepassingen.
English
Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.