DualVLA: Создание обобщающего воплощенного агента через частичное разделение рассуждений и действий
DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
November 27, 2025
Авторы: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI
Аннотация
Для создания обобщающей модели «Vision-Language-Action» (VLA) с развитыми способностями к рассуждению распространенной стратегией является предварительное обучение специализированной VLA на демонстрационных данных от роботов для приобретения надежных навыков манипулирования, с последующим включением размеченных роботизированных данных вместе с мультимодальными данными для восстановления широких возможностей логического вывода. Однако мы наблюдаем, что результирующая рассуждающая VLA часто демонстрирует ухудшенную производительность действий по сравнению со специализированной моделью до дообучения — феномен, который мы называем **деградацией действий**. Для решения этой проблемы мы предлагаем **DualVLA**, который повышает производительность действий за счет тщательно спроектированного пост-тренинга, сохраняя при этом способность к рассуждению. Сначала мы вводим двухуровневый метод очистки данных, который удаляет избыточные рассуждения в контексте воплощенного ИИ, предотвращая их негативное влияние на обучение действиям. Для дальнейшего усиления генерации действий мы разрабатываем стратегию адаптивного дистилляции с двумя учителями, которая назначает различные сигналы обучения для разных доменов данных, сохраняя способность к рассуждению. Чтобы восполнить пробел в оценке универсальных VLA, мы также предлагаем **VLA Score**, который декомпозирует способности VLA на измерения рассуждения, намерения, действия и согласованности для более детальной оценки. Эксперименты показывают, что DualVLA достигает среднего уровня успеха 61.0 в SimplerEnv и среднего балла 65.4 на восьми конкурентных мультимодальных бенчмарках, демонстрируя более сбалансированное соотношение между точным выполнением действий и мультимодальным пониманием. Страница проекта: https://costaliya.github.io/DualVLA/.
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.