ChatPaper.aiChatPaper

π-StepNFT: Для потоковых визуально-языковых агентов в онлайн-обучении с подкреплением более широкому пространству требуются более мелкие шаги

π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

March 2, 2026
Авторы: Siting Wang, Xiaofeng Wang, Zheng Zhu, Minnan Pei, Xinyu Cui, Cheng Deng, Jian Zhao, Guan Huang, Haifeng Zhang, Jun Wang
cs.AI

Аннотация

Модели управления на основе потоков с интеграцией зрения, языка и действий (VLA) демонстрируют высокую эффективность в воплощённом управлении, однако сталкиваются с проблемой невычислимых правдоподобий при многошаговой выборке, что затрудняет онлайн-обучение с подкреплением. Мы предлагаем \textit{boldsymbolπ-StepNFT} (пошаговая тонкая настройка с учётом негативных сценариев) — бескритиковый и свободный от правдоподобий фреймворк, требующий всего одного прямого прохода на шаг оптимизации и исключающий вспомогательные ценностные сети. Мы выявляем, что более широкие пространства исследований требуют более детального пошагового руководства для выравнивания. Экспериментально π-StepNFT раскрывает скрытый потенциал на LIBERO, демонстрируя конкурентоспособную робастность в условиях обучения с малым количеством примеров. Более того, метод достигает превосходной обобщающей способности на ManiSkill, превосходя ценностно-ориентированные базовые линии в сценариях OOD за счёт предотвращения переобучения на мультимодальных признаках. Это свойство предлагает масштабируемое решение, перспективное для сложных реальных приложений.
English
Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.
PDF92May 8, 2026