DualVLA: Construcción de un Agente Embebido Generalizable mediante el Desacoplamiento Parcial del Razonamiento y la Acción
DualVLA: Building a Generalizable Embodied Agent via Partial Decoupling of Reasoning and Action
November 27, 2025
Autores: Zhen Fang, Zhuoyang Liu, Jiaming Liu, Hao Chen, Yu Zeng, Shiting Huang, Zehui Chen, Lin Chen, Shanghang Zhang, Feng Zhao
cs.AI
Resumen
Para construir un modelo generalizable de Visión-Lenguaje-Acción (VLA) con una fuerte capacidad de razonamiento, una estrategia común es primero entrenar un VLA especialista en demostraciones robóticas para adquirir habilidades de manipulación confiables, y luego incorporar datos robóticos anotados mixtos junto con datos multimodales para restaurar capacidades de razonamiento más amplias. Sin embargo, observamos que el VLA de razonamiento resultante a menudo sufre un rendimiento de acción degradado en comparación con el modelo especialista antes del ajuste fino, un fenómeno que denominamos degeneración de la acción. Para abordar este problema, proponemos DualVLA, que mejora el rendimiento de la acción mediante un post-entrenamiento cuidadosamente diseñado mientras preserva la capacidad de razonamiento. Primero introducimos un método de poda de datos de doble capa que elimina el razonamiento corporeizado redundante, evitando que influya negativamente en el aprendizaje de la acción. Para fortalecer aún más la generación de acciones, diseñamos una estrategia de destilación adaptativa de doble profesor que asigna diferentes señales de supervisión a diferentes dominios de datos mientras mantiene la capacidad de razonamiento. Para llenar el vacío de evaluación para VLAs generalistas, también proponemos VLA Score, que desacopla la capacidad VLA en dimensiones de razonamiento, intención, acción y alineación para una evaluación más detallada. Los experimentos muestran que DualVLA logra una tasa de éxito promedio de 61.0 en SimplerEnv y una puntuación promedio de 65.4 en ocho puntos de referencia multimodales competitivos, demostrando un equilibrio más fuerte entre la ejecución de acciones precisas y la comprensión multimodal. Sitio web del proyecto: https://costaliya.github.io/DualVLA/.
English
To build a generalizable Vision-Language-Action (VLA) model with strong reasoning ability, a common strategy is to first train a specialist VLA on robot demonstrations to acquire reliable manipulation skills, and then incorporate mixed annotated robot data together with multimodal data to restore broader reasoning capabilities. However, we observe that the resulting reasoning VLA often suffers from degraded action performance compared to the specialist model before fine-tuning, a phenomenon we refer to as action degeneration. To address this issue, we propose DualVLA, which enhances action performance through carefully designed post-training while still preserving reasoning capability. We first introduce a dual-layer data pruning method that removes redundant embodied reasoning, preventing it from adversely influencing action learning. To further strengthen action generation, we design a dual-teacher adaptive distillation strategy that assigns different supervision signals to different data domains while maintaining reasoning ability. To fill the evaluation gap for generalist VLAs, we also propose VLA Score, which decouples VLA capability into reasoning, intention, action, and alignment dimensions for a more fine-grained assessment. Experiments show that DualVLA achieves an average success rate of 61.0 in SimplerEnv and an average score of 65.4 across eight competitive multimodal benchmarks, demonstrating a stronger balance between precise action execution and multimodal understanding. Project Website: https://costaliya.github.io/DualVLA/.