π-StepNFT: Uno Spazio Più Ampio Richiede Passi Più Fini nell'RL Online per VLA Basati su Flussi
π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs
March 2, 2026
Autori: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
cs.AI
Abstract
I modelli visione-linguaggio-azione (VLA) basati su flussi eccellono nel controllo embodied, ma soffrono di likelihood intrattabili durante il campionamento multi-step, ostacolando l'apprendimento per rinforzo online. Proponiamo \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), un framework privo di critico e di likelihood che richiede solo un singolo passaggio in avanti per step di ottimizzazione ed elimina le reti di valore ausiliarie. Identifichiamo che spazi di esplorazione più ampi richiedono una guida più granulare, step-by-step, per l'allineamento. Empiricamente, π-StepNFT sblocca potenziale latente su LIBERO con una robustezza few-shot competitiva. Inoltre, raggiunge una generalizzazione superiore su ManiSkill, superando i baseline basati su valore in scenari OOD prevenendo l'overfitting a caratteristiche multimodali. Questa proprietà offre una soluzione scalabile promettente per applicazioni real-world complesse.
English
Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.