GeneralVLA-2: Geometriebewusste Rekonstruktion und gesteuertes Gedächtnis für die Roboterplanung

Zusammenfassung

Generalistische Vision-Language-Action-Systeme benötigen objektzentrische 3D-Evidenz und wiederverwendbare Manipulationserfahrung, um zuverlässige Robotertrajektorien zu planen. GeneralVLA bietet eine hierarchische Schnittstelle zur Umwandlung von Sprach- und RGB-D-Beobachtungen in 3D-Endeffektor-Pfade, jedoch bestehen zwei Engpässe. Erstens kann die monokulare SAM3D-artige Objektrekonstruktion Pose und unsichtbare Geometrie halluzinieren, während die Manipulation von stabilen Objektformen profitiert, wenn kalibrierte Multi-View-Beobachtungen verfügbar sind. Zweitens ruft die ursprüngliche KnowledgeBank hauptsächlich semantisch ähnliche Ausschnitte ab und fügt neues Wissen hinzu, was die Kontrolle über Speicherqualität, Konflikte, Konfidenz und geometrische Relevanz erschwert. Zur Bewältigung der ersten Herausforderung führen wir GeoFuse-MV3D ein, einen geometriegestützten MV-SAM3D-Rekonstruktionszweig, der externe Geometriehinweise mit Eingabeansichts-Masken verifiziert, eine weiche Visual-Hull-Unterstützung anwendet, eine achsenweise Verfeinerung durchführt und nur die Geometrie fusioniert, während das Erscheinungsbild erhalten bleibt. Zur Bewältigung der zweiten Herausforderung erweitern wir KnowledgeBank zu einem verwalteten Langzeitspeichersystem mit expliziten Metadaten zu Qualität, Konfidenz, Lebenszyklus, Überprüfung und Konflikten, zusammen mit präzisionsorientiertem Abruf. Schließlich evaluieren wir den Rekonstruktionszweig auf GSO-30 und das Speichermodul auf Terminal-Bench 2.0 und SWE-Bench Verified; GeoFuse-MV3D verbessert sich gegenüber der MV-SAM3D-Baseline durch eine Reduzierung von CD und LPIPS um 2,20 % und 2,02 % bei gleichzeitiger Steigerung von PSNR und SSIM um 2,36 % und 1,03 %, und KnowledgeBank verbessert sich gegenüber ReasoningBank um 4,53 % auf Terminal-Bench SR und um 3,73 % auf SWE-Bench-Auflösungsrate bei gleichzeitiger Reduzierung von AS um 4,95 % bzw. 5,65 %. Code: https://github.com/AIGeeksGroup/GeneralVLA-2. Webseite: https://aigeeksgroup.github.io/GeneralVLA-2.

English

Generalist vision-language-action systems need object-centric 3D evidence and reusable manipulation experience to plan reliable robot trajectories. GeneralVLA provides a hierarchical interface for converting language and RGB-D observations into 3D end-effector paths, but two bottlenecks remain. First, monocular SAM3D-style object reconstruction can hallucinate pose and unseen geometry, while manipulation benefits from stable object shape when calibrated multi-view observations are available. Second, the original KnowledgeBank mainly retrieves semantically similar snippets and appends new knowledge, which makes it difficult to control memory quality, conflicts, confidence, and geometric relevance. To address the first challenge, we introduce GeoFuse-MV3D, a geometry-prior-guided MV-SAM3D reconstruction branch that verifies external geometry cues with input-view masks, applies soft visual-hull support, performs axis-wise refinement, and fuses only geometry while preserving appearance. To address the second challenge, we upgrade KnowledgeBank into a governed long-term memory system with explicit quality, confidence, lifecycle, verifier, and conflict metadata, together with precision-oriented retrieval. Finally, we evaluate the reconstruction branch on GSO-30 and the memory module on Terminal-Bench 2.0 and SWE-Bench Verified; GeoFuse-MV3D improves over the MV-SAM3D baseline by reducing CD and LPIPS by 2.20% and 2.02% while increasing PSNR and SSIM by 2.36% and 1.03%, and KnowledgeBank improves over ReasoningBank by 4.53% on Terminal-Bench SR and 3.73% on SWE-Bench resolve rate, while reducing AS by 4.95% and 5.65%, respectively. Code: https://github.com/AIGeeksGroup/GeneralVLA-2. Website: https://aigeeksgroup.github.io/GeneralVLA-2.