GeneralVLA-2: Reconstrucción con Conciencia Geométrica y Memoria Gobernada para la Planificación Robótica

Resumen

Los sistemas de visión-lenguaje-acción generalistas necesitan evidencia 3D centrada en objetos y experiencia de manipulación reutilizable para planificar trayectorias robóticas fiables. GeneralVLA ofrece una interfaz jerárquica para convertir observaciones de lenguaje y RGB-D en trayectorias 3D del efector final, pero persisten dos cuellos de botella. Primero, la reconstrucción de objetos en 3D al estilo SAM3D monocular puede alucinar la pose y la geometría no visible, mientras que la manipulación se beneficia de una forma de objeto estable cuando se dispone de observaciones multivista calibradas. Segundo, el KnowledgeBank original principalmente recupera fragmentos semánticamente similares y añade nuevo conocimiento, lo que dificulta controlar la calidad de la memoria, conflictos, confianza y relevancia geométrica. Para abordar el primer desafío, presentamos GeoFuse-MV3D, una rama de reconstrucción MV-SAM3D guiada por prioridad geométrica que verifica las señales geométricas externas con las máscaras de la vista de entrada, aplica soporte de casco visual suave, realiza refinamiento por eje y fusiona solo la geometría preservando la apariencia. Para abordar el segundo desafío, mejoramos KnowledgeBank convirtiéndolo en un sistema de memoria a largo plazo gobernado con metadatos explícitos de calidad, confianza, ciclo de vida, verificador y conflicto, junto con una recuperación orientada a la precisión. Finalmente, evaluamos la rama de reconstrucción en GSO-30 y el módulo de memoria en Terminal-Bench 2.0 y SWE-Bench Verified; GeoFuse-MV3D mejora con respecto a la línea base MV-SAM3D reduciendo CD y LPIPS en un 2.20% y 2.02%, mientras aumenta PSNR y SSIM en un 2.36% y 1.03%, y KnowledgeBank mejora con respecto a ReasoningBank en un 4.53% en la tasa SR de Terminal-Bench y un 3.73% en la tasa de resolución de SWE-Bench, mientras reduce AS en un 4.95% y 5.65%, respectivamente. Código: https://github.com/AIGeeksGroup/GeneralVLA-2. Sitio web: https://aigeeksgroup.github.io/GeneralVLA-2.

English

Generalist vision-language-action systems need object-centric 3D evidence and reusable manipulation experience to plan reliable robot trajectories. GeneralVLA provides a hierarchical interface for converting language and RGB-D observations into 3D end-effector paths, but two bottlenecks remain. First, monocular SAM3D-style object reconstruction can hallucinate pose and unseen geometry, while manipulation benefits from stable object shape when calibrated multi-view observations are available. Second, the original KnowledgeBank mainly retrieves semantically similar snippets and appends new knowledge, which makes it difficult to control memory quality, conflicts, confidence, and geometric relevance. To address the first challenge, we introduce GeoFuse-MV3D, a geometry-prior-guided MV-SAM3D reconstruction branch that verifies external geometry cues with input-view masks, applies soft visual-hull support, performs axis-wise refinement, and fuses only geometry while preserving appearance. To address the second challenge, we upgrade KnowledgeBank into a governed long-term memory system with explicit quality, confidence, lifecycle, verifier, and conflict metadata, together with precision-oriented retrieval. Finally, we evaluate the reconstruction branch on GSO-30 and the memory module on Terminal-Bench 2.0 and SWE-Bench Verified; GeoFuse-MV3D improves over the MV-SAM3D baseline by reducing CD and LPIPS by 2.20% and 2.02% while increasing PSNR and SSIM by 2.36% and 1.03%, and KnowledgeBank improves over ReasoningBank by 4.53% on Terminal-Bench SR and 3.73% on SWE-Bench resolve rate, while reducing AS by 4.95% and 5.65%, respectively. Code: https://github.com/AIGeeksGroup/GeneralVLA-2. Website: https://aigeeksgroup.github.io/GeneralVLA-2.