GeneralVLA-2: Geometriebewuste Reconstructie en Gereguleerd Geheugen voor Robotplanning

Samenvatting

Generalistische visie-taal-actiesystemen hebben object-gerichte 3D-bewijs en herbruikbare manipulatie-ervaring nodig om betrouwbare robotbanen te plannen. GeneralVLA biedt een hiërarchische interface voor het omzetten van taal- en RGB-D-waarnemingen naar 3D-eind-effectorpaden, maar er blijven twee knelpunten bestaan. Ten eerste kan monoscopische SAM3D-stijl objectreconstructie pose en onzichtbare geometrie hallucineren, terwijl manipulatie baat heeft bij stabiele objectvorm wanneer gekalibreerde multi-viewwaarnemingen beschikbaar zijn. Ten tweede haalt de oorspronkelijke KnowledgeBank voornamelijk semantisch vergelijkbare fragmenten op en voegt nieuwe kennis toe, wat het moeilijk maakt om geheugenkwaliteit, conflicten, vertrouwen en geometrische relevantie te beheersen. Om de eerste uitdaging aan te pakken, introduceren we GeoFuse-MV3D, een geometrie-prior-geleide MV-SAM3D-reconstructietak die externe geometrie-aanwijzingen verifieert met invoeraanzichtmaskers, zachte visuele-hull-ondersteuning toepast, asgewijze verfijning uitvoert en alleen geometrie fuseert terwijl het uiterlijk behouden blijft. Om de tweede uitdaging aan te pakken, upgraden we KnowledgeBank naar een beheerd langetermijngeheugensysteem met expliciete kwaliteit, vertrouwen, levenscyclus, verifier en conflictmetadata, samen met precisiegerichte ophaling. Ten slotte evalueren we de reconstructietak op GSO-30 en de geheugenmodule op Terminal-Bench 2.0 en SWE-Bench Verified; GeoFuse-MV3D verbetert ten opzichte van de MV-SAM3D-baseline door CD en LPIPS te verminderen met respectievelijk 2,20% en 2,02%, terwijl PSNR en SSIM toenemen met 2,36% en 1,03%, en KnowledgeBank verbetert ten opzichte van ReasoningBank met 4,53% op Terminal-Bench SR en 3,73% op SWE-Bench resolve rate, terwijl AS met respectievelijk 4,95% en 5,65% afneemt. Code: https://github.com/AIGeeksGroup/GeneralVLA-2. Website: https://aigeeksgroup.github.io/GeneralVLA-2.

English

Generalist vision-language-action systems need object-centric 3D evidence and reusable manipulation experience to plan reliable robot trajectories. GeneralVLA provides a hierarchical interface for converting language and RGB-D observations into 3D end-effector paths, but two bottlenecks remain. First, monocular SAM3D-style object reconstruction can hallucinate pose and unseen geometry, while manipulation benefits from stable object shape when calibrated multi-view observations are available. Second, the original KnowledgeBank mainly retrieves semantically similar snippets and appends new knowledge, which makes it difficult to control memory quality, conflicts, confidence, and geometric relevance. To address the first challenge, we introduce GeoFuse-MV3D, a geometry-prior-guided MV-SAM3D reconstruction branch that verifies external geometry cues with input-view masks, applies soft visual-hull support, performs axis-wise refinement, and fuses only geometry while preserving appearance. To address the second challenge, we upgrade KnowledgeBank into a governed long-term memory system with explicit quality, confidence, lifecycle, verifier, and conflict metadata, together with precision-oriented retrieval. Finally, we evaluate the reconstruction branch on GSO-30 and the memory module on Terminal-Bench 2.0 and SWE-Bench Verified; GeoFuse-MV3D improves over the MV-SAM3D baseline by reducing CD and LPIPS by 2.20% and 2.02% while increasing PSNR and SSIM by 2.36% and 1.03%, and KnowledgeBank improves over ReasoningBank by 4.53% on Terminal-Bench SR and 3.73% on SWE-Bench resolve rate, while reducing AS by 4.95% and 5.65%, respectively. Code: https://github.com/AIGeeksGroup/GeneralVLA-2. Website: https://aigeeksgroup.github.io/GeneralVLA-2.