ChatPaper.aiChatPaper

π-StepNFT : Un espace plus large nécessite des pas plus fins dans l'apprentissage par renforcement en ligne pour les agents linguistiques visuels à base de flux

π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

March 2, 2026
Auteurs: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
cs.AI

Résumé

Les modèles vision-langage-action (VLA) à base de flux excellent dans le contrôle embodié mais souffrent de vraisemblances intraçables lors de l'échantillonnage multi-étapes, entravant l'apprentissage par renforcement en ligne. Nous proposons \textit{boldsymbolπ-StepNFT} (Fine-Tuning Négatif par Étapes), un cadre sans critique ni vraisemblance qui ne nécessite qu'un seul passage avant par étape d'optimisation et élimine les réseaux de valeur auxiliaires. Nous identifions que des espaces d'exploration plus larges exigent un guidage plus fin, étape par étape, pour l'alignement. Empiriquement, π-StepNFT débloque un potentiel latent sur LIBERO avec une robustesse compétitive en few-shot. De plus, il atteint une généralisation supérieure sur ManiSkill, surpassant les méthodes basées sur la valeur dans des scénarios hors-distribution en évitant le surajustement aux caractéristiques multimodales. Cette propriété offre une solution scalable prometteuse pour les applications complexes du monde réel.
English
Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.
PDF92May 8, 2026