ChatPaper.aiChatPaper

π-StepNFT: Espacios más amplios requieren pasos más finos en el aprendizaje por refuerzo en línea para arquitecturas de lenguaje visual de flujo

π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

March 2, 2026
Autores: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
cs.AI

Resumen

Los modelos de flujo de visión-lenguaje-acción (VLA) destacan en el control embodido, pero adolecen de verosimilitudes intratables durante el muestreo multi-etapa, lo que dificulta el aprendizaje por refuerzo en línea. Proponemos \textit{boldsymbolπ-StepNFT} (Ajuste Fino Negativo por Etapas), un marco libre de críticos y verosimilitudes que requiere solo una pasada hacia adelante por paso de optimización y elimina las redes de valor auxiliares. Identificamos que los espacios de exploración más amplios requieren una guía más granular y por etapas para la alineación. Empíricamente, π-StepNFT desbloquea el potencial latente en LIBERO con una robustez competitiva en escenarios de pocos ejemplos. Además, logra una generalización superior en ManiSkill, superando a los baselines basados en valor en escenarios OOD al evitar el sobreajuste a características multimodales. Esta propiedad ofrece una solución escalable prometedora para aplicaciones complejas del mundo real.
English
Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.
PDF92May 8, 2026