RoboEvolve: Co-Evoluindo Planejador-Simulador para Manipulação Robótica com Dados Limitados

Resumo

A escalabilidade da manipulação robótica é fundamentalmente limitada pela escassez de dados de interação física alinhados à tarefa. Embora modelos de visão-linguagem (VLMs) e modelos de geração de vídeo (VGMs) sejam promissores para a síntese autônoma de dados, eles sofrem de desalinhamento semântico-espacial e alucinações físicas, respectivamente. Para superar essa lacuna, apresentamos o RoboEvolve, uma nova estrutura que acopla um planejador VLM e um simulador VGM em um ciclo coevolutivo mutuamente reforçador. Operando exclusivamente a partir de imagens semente não rotuladas, o RoboEvolve utiliza um mecanismo de fase dupla inspirado na cognição: (i) exploração diurna promove a descoberta comportamental fundamentada fisicamente por meio de uma recompensa multigranular controlada semanticamente, e (ii) consolidação noturna extrai falhas por pouco para estabilizar a otimização da política. Guiado por um currículo progressivo autônomo, o sistema escala naturalmente de ações atômicas simples para tarefas complexas. Experimentos extensivos demonstram que o RoboEvolve (I) alcança eficácia superior, elevando planejadores base em 30 pontos absolutos e ampliando o sucesso do simulador em 48% em média; (II) exibe extrema eficiência de dados, superando linhas de base totalmente supervisionadas com apenas 500 sementes não rotuladas—uma redução de 50 vezes; e (III) demonstra aprendizado contínuo robusto sem esquecimento catastrófico.

English

The scalability of robotic manipulation is fundamentally bottlenecked by the scarcity of task-aligned physical interaction data. While vision-language models (VLMs) and video generation models (VGMs) hold promise for autonomous data synthesis, they suffer from semantic-spatial misalignment and physical hallucinations, respectively. To bridge this gap, we introduce RoboEvolve, a novel framework that couples a VLM planner and a VGM simulator into a mutually reinforcing co-evolutionary loop. Operating purely on unlabeled seed images, RoboEvolve leverages a cognitive-inspired dual-phase mechanism: (i) daytime exploration fosters physically grounded behavioral discovery through a semantic-controlled multi-granular reward, and (ii) nighttime consolidation mines "near-miss" failures to stabilize policy optimization. Guided by an autonomous progressive curriculum, the system naturally scales from simple atomic actions to complex tasks. Extensive experiments demonstrate that RoboEvolve (I) achieves superior effectiveness, elevating base planners by 30 absolute points and amplifying simulator success by 48% on average; (II) exhibits extreme data efficiency, surpassing fully supervised baselines with merely 500 unlabeled seeds--a 50x reduction; and (III) demonstrates robust continual learning without catastrophic forgetting.