π-StepNFT: Для потоковых визуально-языковых агентов в онлайн-обучении с подкреплением более широкому пространству требуются более мелкие шаги

Аннотация

Модели управления на основе потоков с интеграцией зрения, языка и действий (VLA) демонстрируют высокую эффективность в воплощённом управлении, однако сталкиваются с проблемой невычислимых правдоподобий при многошаговой выборке, что затрудняет онлайн-обучение с подкреплением. Мы предлагаем \textit{boldsymbolπ-StepNFT} (пошаговая тонкая настройка с учётом негативных сценариев) — бескритиковый и свободный от правдоподобий фреймворк, требующий всего одного прямого прохода на шаг оптимизации и исключающий вспомогательные ценностные сети. Мы выявляем, что более широкие пространства исследований требуют более детального пошагового руководства для выравнивания. Экспериментально π-StepNFT раскрывает скрытый потенциал на LIBERO, демонстрируя конкурентоспособную робастность в условиях обучения с малым количеством примеров. Более того, метод достигает превосходной обобщающей способности на ManiSkill, превосходя ценностно-ориентированные базовые линии в сценариях OOD за счёт предотвращения переобучения на мультимодальных признаках. Это свойство предлагает масштабируемое решение, перспективное для сложных реальных приложений.

English

Flow-based vision-language-action (VLA) models excel in embodied control but suffer from intractable likelihoods during multi-step sampling, hindering online reinforcement learning. We propose \textit{boldsymbolπ-StepNFT} (Step-wise Negative-aware Fine-Tuning), a critic-and-likelihood-free framework that requires only a single forward pass per optimization step and eliminates auxiliary value networks. We identify that wider exploration spaces necessitate finer-grained, step-wise guidance for alignment. Empirically, π-StepNFT unlocks latent potential on LIBERO with competitive few-shot robustness. Moreover, it achieves superior generalization on ManiSkill, outperforming value-based baselines in OOD scenarios by preventing overfitting to multimodal features. This property offers a scalable solution promising for complex real-world applications.

π-StepNFT: Для потоковых визуально-языковых агентов в онлайн-обучении с подкреплением более широкому пространству требуются более мелкие шаги

π-StepNFT: Wider Space Needs Finer Steps in Online RL for Flow-based VLAs

Аннотация

Support