LychSim: Un marco de simulación controlable e interactivo para la investigación en visión
LychSim: A Controllable and Interactive Simulation Framework for Vision Research
May 12, 2026
Autores: Wufei Ma, Chloe Wang, Siyi Chen, Jiawei Peng, Patrick Li, Alan Yuille
cs.AI
Resumen
Aunque el preentrenamiento auto-supervisado ha reducido la dependencia de los sistemas de visión en datos sintéticos, la simulación sigue siendo una herramienta indispensable para la optimización en bucle cerrado y la evaluación rigurosa fuera de distribución (OOD). Sin embargo, las plataformas de simulación modernas suelen presentar barreras técnicas pronunciadas, que requieren una amplia experiencia en gráficos por computadora y desarrollo de videojuegos. En este trabajo presentamos LychSim, un marco de simulación altamente controlable e interactivo construido sobre Unreal Engine 5 para cerrar esta brecha. LychSim se basa en tres diseños clave: (1) una API de Python simplificada que abstrae las complejidades subyacentes del motor; (2) un pipeline de datos procedimental capaz de generar entornos diversos y de alta fidelidad con diversos desafíos visuales fuera de distribución (OOD), acompañados de ground truths 2D y 3D enriquecidos; y (3) una integración nativa del Protocolo de Contexto del Modelo (MCP) que transforma el simulador en un laboratorio dinámico de bucle cerrado para LLMs agentivos de razonamiento. Además, anotamos reglas procedimentales a nivel de escena y alineamientos de pose a nivel de objeto para habilitar ground truths 3D alineados semánticamente y la modificación automatizada de escenas. Demostramos la capacidad de LychSim en múltiples aplicaciones descendentes, incluyendo su uso como motor de datos sintéticos, potenciando examinadores adversariales basados en aprendizaje por refuerzo y facilitando la generación interactiva de diseño de escenas impulsada por lenguaje. Para beneficiar a la comunidad de visión en general, LychSim estará disponible públicamente, incluyendo el código fuente completo y diversas anotaciones de datos.
English
While self-supervised pretraining has reduced vision systems' reliance on synthetic data, simulation remains an indispensable tool for closed-loop optimization and rigorous out-of-distribution (OOD) evaluation. However, modern simulation platforms often present steep technical barriers, requiring extensive expertise in computer graphics and game development. In this work, we present LychSim, a highly controllable and interactive simulation framework built upon Unreal Engine 5 to bridge this gap. LychSim is built around three key designs: (1) a streamlined Python API that abstracts away underlying engine complexities; (2) a procedural data pipeline capable of generating diverse, high-fidelity environments with varying out-of-distribution (OOD) visual challenges, paired with rich 2D and 3D ground truths; and (3) a native integration of the Model Context Protocol (MCP) that transforms the simulator into a dynamic, closed-loop playground for reasoning agentic LLMs. We further annotate scene-level procedural rules and object-level pose alignments to enable semantically aligned 3D ground truths and automated scene modification. We demonstrate LychSim's capability across multiple downstream applications, including serving as a synthetic data engine, powering reinforcement learning-based adversarial examiners, and facilitating interactive, language-driven scene layout generation. To benefit the broader vision community, LychSim will be made publicly available, including full source code and various data annotations.