ChatPaper.aiChatPaper

π-StepNFT: Größerer Raum erfordert feinere Schritte im Online-Reinforcement-Learning für flussbasierte VLAs

π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

March 2, 2026
Autoren: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
cs.AI

Zusammenfassung

Flow-basierte Vision-Language-Action (VLA)-Modelle übertreffen in der embodied Steuerung, leiden jedoch unter nicht handhabbaren Likelihoods während der Mehrschritt-Sampling, was Online-Verstärkungslernen behindert. Wir schlagen \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning) vor, ein kritisches- und likelihoodfreies Framework, das nur einen einzigen Vorwärtsdurchlauf pro Optimierungsschritt benötigt und Hilfs-Wertnetzwerke eliminiert. Wir identifizieren, dass breitere Explorationsräume feiner granulierte, schrittweise Führung für die Ausrichtung erfordern. Empirisch erschließt π-StepNFT latentes Potenzial auf LIBERO mit wettbewerbsfähiger Few-Shot-Robustheit. Darüber hinaus erreicht es überlegene Generalisierung auf ManiSkill, übertrifft wertbasierte Baseline-Modelle in OOD-Szenarien, indem es Overfitting an multimodale Merkmale verhindert. Diese Eigenschaft bietet eine skalierbare Lösung, die vielversprechend für komplexe reale Anwendungen ist.
English
Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.
PDF92May 8, 2026