ChatPaper.aiChatPaper

π-StepNFT: Espaço Mais Amplo Requer Passos Mais Finos no RL Online para ALVs Baseadas em Fluxo

π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

March 2, 2026
Autores: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
cs.AI

Resumo

Os modelos de fluxo baseados em visão-linguagem-ação (VLA) destacam-se no controle incorporado, mas sofrem com verossimilhanças intratáveis durante a amostragem multi-etapas, prejudicando o aprendizado por reforço online. Propomos o \textit{boldsymbolπ-StepNFT} (*Step-wise Negative-aware Fine-Tuning* ou Ajuste Fino com Consciência do Negativo por Etapas), uma estrutura livre de crítico e de verossimilhança que requer apenas uma única passagem direta por etapa de otimização e elimina redes auxiliares de valor. Identificamos que espaços de exploração mais amplos exigem orientação mais refinada e gradual para o alinhamento. Empiricamente, o π-StepNFT desbloqueia potencial latente no LIBERO com robustez competitiva em poucas amostras. Além disso, ele alcança generalização superior no ManiSkill, superando as linhas de base baseadas em valor em cenários OOD ao evitar o sobreajuste a características multimodais. Esta propriedade oferece uma solução escalável promissora para aplicações complexas do mundo real.
English
Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.
PDF72March 10, 2026