π-StepNFT: Espaço Mais Amplo Requer Passos Mais Finos no RL Online para ALVs Baseadas em Fluxo

Resumo

Os modelos de fluxo baseados em visão-linguagem-ação (VLA) destacam-se no controle incorporado, mas sofrem com verossimilhanças intratáveis durante a amostragem multi-etapas, prejudicando o aprendizado por reforço online. Propomos o \textit{boldsymbolπ-StepNFT} (*Step-wise Negative-aware Fine-Tuning* ou Ajuste Fino com Consciência do Negativo por Etapas), uma estrutura livre de crítico e de verossimilhança que requer apenas uma única passagem direta por etapa de otimização e elimina redes auxiliares de valor. Identificamos que espaços de exploração mais amplos exigem orientação mais refinada e gradual para o alinhamento. Empiricamente, o π-StepNFT desbloqueia potencial latente no LIBERO com robustez competitiva em poucas amostras. Além disso, ele alcança generalização superior no ManiSkill, superando as linhas de base baseadas em valor em cenários OOD ao evitar o sobreajuste a características multimodais. Esta propriedade oferece uma solução escalável promissora para aplicações complexas do mundo real.

English

Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.