ChatPaper.aiChatPaper

LychSim : un cadre de simulation contrôlable et interactif pour la recherche en vision

LychSim: A Controllable and Interactive Simulation Framework for Vision Research

May 12, 2026
Auteurs: Wufei Ma, Chloe Wang, Siyi Chen, Jiawei Peng, Patrick Li, Alan Yuille
cs.AI

Résumé

Alors que le pré-entraînement auto-supervisé a réduit la dépendance des systèmes de vision aux données synthétiques, la simulation reste un outil indispensable pour l'optimisation en boucle fermée et l'évaluation rigoureuse hors distribution (OOD). Cependant, les plateformes de simulation modernes présentent souvent des obstacles techniques importants, nécessitant une expertise approfondie en infographie et en développement de jeux. Dans ce travail, nous présentons LychSim, un cadre de simulation hautement contrôlable et interactif construit sur Unreal Engine 5 pour combler cette lacune. LychSim est conçu autour de trois axes clés : (1) une API Python simplifiée qui masque les complexités sous-jacentes du moteur ; (2) un pipeline de données procédurales capable de générer des environnements diversifiés et haute-fidélité, présentant divers défis visuels hors distribution (OOD), accompagnés de riches vérités de terrain 2D et 3D ; et (3) une intégration native du Model Context Protocol (MCP) qui transforme le simulateur en un terrain de jeu dynamique en boucle fermée pour les LLM agentifs capables de raisonnement. Nous annotons en outre des règles procédurales au niveau de la scène et des alignements de pose au niveau des objets afin de permettre des vérités de terrain 3D sémantiquement alignées et une modification automatisée des scènes. Nous démontrons les capacités de LychSim à travers plusieurs applications en aval, notamment son utilisation en tant que moteur de données synthétiques, l'alimentation d'examinateurs adverses basés sur l'apprentissage par renforcement, et la facilitation de la génération interactive de dispositions de scène pilotée par le langage. Afin de bénéficier à la communauté de la vision au sens large, LychSim sera rendu public, incluant le code source complet et diverses annotations de données.
English
While self-supervised pretraining has reduced vision systems' reliance on synthetic data, simulation remains an indispensable tool for closed-loop optimization and rigorous out-of-distribution (OOD) evaluation. However, modern simulation platforms often present steep technical barriers, requiring extensive expertise in computer graphics and game development. In this work, we present LychSim, a highly controllable and interactive simulation framework built upon Unreal Engine 5 to bridge this gap. LychSim is built around three key designs: (1) a streamlined Python API that abstracts away underlying engine complexities; (2) a procedural data pipeline capable of generating diverse, high-fidelity environments with varying out-of-distribution (OOD) visual challenges, paired with rich 2D and 3D ground truths; and (3) a native integration of the Model Context Protocol (MCP) that transforms the simulator into a dynamic, closed-loop playground for reasoning agentic LLMs. We further annotate scene-level procedural rules and object-level pose alignments to enable semantically aligned 3D ground truths and automated scene modification. We demonstrate LychSim's capability across multiple downstream applications, including serving as a synthetic data engine, powering reinforcement learning-based adversarial examiners, and facilitating interactive, language-driven scene layout generation. To benefit the broader vision community, LychSim will be made publicly available, including full source code and various data annotations.
PDF31May 14, 2026