RoboEvolve: Co-evoluerende Planner-Simulator voor Robotmanipulatie met Beperkte Data

Samenvatting

De schaalbaarheid van robotmanipulatie wordt fundamenteel beperkt door de schaarste aan taakgerichte fysieke interactiegegevens. Hoewel visie-taalmodellen (VLMs) en videogeneratiemodellen (VGMs) veelbelovend zijn voor autonome gegevenssynthese, lijden ze respectievelijk aan semantisch-ruimtelijke misalignment en fysieke hallucinaties. Om deze kloof te overbruggen, introduceren we RoboEvolve, een nieuw raamwerk dat een VLM-planner en een VGM-simulator koppelt in een wederzijds versterkende co-evolutionaire lus. RoboEvolve werkt puur met ongelabelde zaadafbeeldingen en maakt gebruik van een cognitief geïnspireerd tweefasemechanisme: (i) dagverkenning stimuleert fysisch gefundeerde gedragsontdekking via een semantisch gecontroleerde meerkorrelige beloning, en (ii) nachtelijke consolidatie delft 'bijna-mislukkingen' op om beleidsoptimalisatie te stabiliseren. Geleid door een autonoom progressief curriculum, schaalt het systeem op natuurlijke wijze van eenvoudige atomaire acties naar complexe taken. Uitgebreide experimenten tonen aan dat RoboEvolve (I) superieure effectiviteit bereikt, basisplanners met 30 absolute punten verheft en het simulatorsucces gemiddeld met 48% versterkt; (II) extreme data-efficiëntie vertoont, waarbij het volledig gesuperviseerde basislijnen overtreft met slechts 500 ongelabelde zaden – een 50-voudige reductie; en (III) robuust continu leren demonstreert zonder catastrofaal vergeten.

English

The scalability of robotic manipulation is fundamentally bottlenecked by the scarcity of task-aligned physical interaction data. While vision-language models (VLMs) and video generation models (VGMs) hold promise for autonomous data synthesis, they suffer from semantic-spatial misalignment and physical hallucinations, respectively. To bridge this gap, we introduce RoboEvolve, a novel framework that couples a VLM planner and a VGM simulator into a mutually reinforcing co-evolutionary loop. Operating purely on unlabeled seed images, RoboEvolve leverages a cognitive-inspired dual-phase mechanism: (i) daytime exploration fosters physically grounded behavioral discovery through a semantic-controlled multi-granular reward, and (ii) nighttime consolidation mines "near-miss" failures to stabilize policy optimization. Guided by an autonomous progressive curriculum, the system naturally scales from simple atomic actions to complex tasks. Extensive experiments demonstrate that RoboEvolve (I) achieves superior effectiveness, elevating base planners by 30 absolute points and amplifying simulator success by 48% on average; (II) exhibits extreme data efficiency, surpassing fully supervised baselines with merely 500 unlabeled seeds--a 50x reduction; and (III) demonstrates robust continual learning without catastrophic forgetting.