GeneralVLA-2 : Reconstruction consciente de la géométrie et mémoire régulée pour la planification robotique

Résumé

Les systèmes généralistes vision-langage-action nécessitent des preuves 3D centrées sur l'objet et une expérience de manipulation réutilisable pour planifier des trajectoires robotiques fiables. GeneralVLA fournit une interface hiérarchique pour convertir le langage et les observations RGB-D en chemins 3D de l'effecteur terminal, mais deux goulets d'étranglement persistent. Premièrement, la reconstruction d'objets de type SAM3D monoculaire peut halluciner la pose et la géométrie non observée, tandis que la manipulation bénéficie d'une forme d'objet stable lorsque des observations multi-vues calibrées sont disponibles. Deuxièmement, la KnowledgeBank originale récupère principalement des extraits sémantiquement similaires et ajoute de nouvelles connaissances, ce qui rend difficile le contrôle de la qualité de la mémoire, des conflits, de la confiance et de la pertinence géométrique. Pour relever le premier défi, nous introduisons GeoFuse-MV3D, une branche de reconstruction MV-SAM3D guidée par un a priori géométrique, qui vérifie les indices géométriques externes avec les masques de la vue d'entrée, applique un support de coque visuelle souple, effectue un raffinement par axe, et ne fusionne que la géométrie tout en préservant l'apparence. Pour relever le second défi, nous faisons évoluer KnowledgeBank vers un système de mémoire à long terme gouverné, avec des métadonnées explicites de qualité, de confiance, de cycle de vie, de vérificateur et de conflit, ainsi qu'une récupération orientée précision. Enfin, nous évaluons la branche de reconstruction sur GSO-30 et le module mémoire sur Terminal-Bench 2.0 et SWE-Bench Verified ; GeoFuse-MV3D améliore la baseline MV-SAM3D en réduisant CD et LPIPS de 2,20 % et 2,02 %, tout en augmentant PSNR et SSIM de 2,36 % et 1,03 %, et KnowledgeBank améliore ReasoningBank de 4,53 % sur le taux de succès de Terminal-Bench et de 3,73 % sur le taux de résolution de SWE-Bench, tout en réduisant AS de 4,95 % et 5,65 %, respectivement. Code : https://github.com/AIGeeksGroup/GeneralVLA-2. Site web : https://aigeeksgroup.github.io/GeneralVLA-2.

English

Generalist vision-language-action systems need object-centric 3D evidence and reusable manipulation experience to plan reliable robot trajectories. GeneralVLA provides a hierarchical interface for converting language and RGB-D observations into 3D end-effector paths, but two bottlenecks remain. First, monocular SAM3D-style object reconstruction can hallucinate pose and unseen geometry, while manipulation benefits from stable object shape when calibrated multi-view observations are available. Second, the original KnowledgeBank mainly retrieves semantically similar snippets and appends new knowledge, which makes it difficult to control memory quality, conflicts, confidence, and geometric relevance. To address the first challenge, we introduce GeoFuse-MV3D, a geometry-prior-guided MV-SAM3D reconstruction branch that verifies external geometry cues with input-view masks, applies soft visual-hull support, performs axis-wise refinement, and fuses only geometry while preserving appearance. To address the second challenge, we upgrade KnowledgeBank into a governed long-term memory system with explicit quality, confidence, lifecycle, verifier, and conflict metadata, together with precision-oriented retrieval. Finally, we evaluate the reconstruction branch on GSO-30 and the memory module on Terminal-Bench 2.0 and SWE-Bench Verified; GeoFuse-MV3D improves over the MV-SAM3D baseline by reducing CD and LPIPS by 2.20% and 2.02% while increasing PSNR and SSIM by 2.36% and 1.03%, and KnowledgeBank improves over ReasoningBank by 4.53% on Terminal-Bench SR and 3.73% on SWE-Bench resolve rate, while reducing AS by 4.95% and 5.65%, respectively. Code: https://github.com/AIGeeksGroup/GeneralVLA-2. Website: https://aigeeksgroup.github.io/GeneralVLA-2.