GeneralVLA-2: Геометрически-осознанная реконструкция и управляемая память для планирования роботов

Аннотация

Системы общего назначения, объединяющие зрение, язык и действия, требуют объектно-ориентированных трёхмерных доказательств и многократно используемого опыта манипуляций для планирования надёжных траекторий робота. GeneralVLA предоставляет иерархический интерфейс для преобразования языковых и RGB-D наблюдений в трёхмерные траектории конечного эффектора, однако остаются два узких места. Во-первых, монокулярная реконструкция объектов в стиле SAM3D может порождать галлюцинации позы и скрытой геометрии, в то время как манипуляции выигрывают от стабильной формы объекта при наличии откалиброванных многовидовых наблюдений. Во-вторых, исходная KnowledgeBank в основном извлекает семантически похожие фрагменты и добавляет новые знания, что затрудняет контроль качества памяти, конфликтов, достоверности и геометрической релевантности. Для решения первой задачи мы представляем GeoFuse-MV3D — ветвь реконструкции MV-SAM3D, управляемую геометрическим приором, которая проверяет внешние геометрические сигналы с помощью масок входного вида, применяет мягкую опору визуального каркаса, выполняет уточнение по осям и сливает только геометрию, сохраняя внешний вид. Для решения второй задачи мы модернизируем KnowledgeBank в управляемую систему долговременной памяти с явными метаданными о качестве, достоверности, жизненном цикле, верификаторе и конфликтах, а также с точностью-ориентированным поиском. Наконец, мы оцениваем ветвь реконструкции на GSO-30, а модуль памяти — на Terminal-Bench 2.0 и SWE-Bench Verified; GeoFuse-MV3D превосходит базовый MV-SAM3D, снижая CD и LPIPS на 2.20% и 2.02% с одновременным повышением PSNR и SSIM на 2.36% и 1.03%, а KnowledgeBank превосходит ReasoningBank на 4.53% по Terminal-Bench SR и на 3.73% по частоте разрешения SWE-Bench, при этом снижая AS на 4.95% и 5.65% соответственно. Код: https://github.com/AIGeeksGroup/GeneralVLA-2. Сайт: https://aigeeksgroup.github.io/GeneralVLA-2.

English

Generalist vision-language-action systems need object-centric 3D evidence and reusable manipulation experience to plan reliable robot trajectories. GeneralVLA provides a hierarchical interface for converting language and RGB-D observations into 3D end-effector paths, but two bottlenecks remain. First, monocular SAM3D-style object reconstruction can hallucinate pose and unseen geometry, while manipulation benefits from stable object shape when calibrated multi-view observations are available. Second, the original KnowledgeBank mainly retrieves semantically similar snippets and appends new knowledge, which makes it difficult to control memory quality, conflicts, confidence, and geometric relevance. To address the first challenge, we introduce GeoFuse-MV3D, a geometry-prior-guided MV-SAM3D reconstruction branch that verifies external geometry cues with input-view masks, applies soft visual-hull support, performs axis-wise refinement, and fuses only geometry while preserving appearance. To address the second challenge, we upgrade KnowledgeBank into a governed long-term memory system with explicit quality, confidence, lifecycle, verifier, and conflict metadata, together with precision-oriented retrieval. Finally, we evaluate the reconstruction branch on GSO-30 and the memory module on Terminal-Bench 2.0 and SWE-Bench Verified; GeoFuse-MV3D improves over the MV-SAM3D baseline by reducing CD and LPIPS by 2.20% and 2.02% while increasing PSNR and SSIM by 2.36% and 1.03%, and KnowledgeBank improves over ReasoningBank by 4.53% on Terminal-Bench SR and 3.73% on SWE-Bench resolve rate, while reducing AS by 4.95% and 5.65%, respectively. Code: https://github.com/AIGeeksGroup/GeneralVLA-2. Website: https://aigeeksgroup.github.io/GeneralVLA-2.