ChatPaper.aiChatPaper

LychSim: Ein steuerbares und interaktives Simulationsframework für die Sehforschung

LychSim: A Controllable and Interactive Simulation Framework for Vision Research

May 12, 2026
Autoren: Wufei Ma, Chloe Wang, Siyi Chen, Jiawei Peng, Patrick Li, Alan Yuille
cs.AI

Zusammenfassung

Während selbstüberwachtes Vortraining die Abhängigkeit von Sehsystemen von synthetischen Daten verringert hat, bleibt Simulation ein unverzichtbares Werkzeug für die Closed-Loop-Optimierung und eine strenge Out-of-Distribution (OOD)-Evaluierung. Jedoch stellen moderne Simulationsplattformen oft hohe technische Hürden dar, die umfangreiche Fachkenntnisse in Computergrafik und Spieleentwicklung erfordern. In dieser Arbeit stellen wir LychSim vor, ein hochgradig steuerbares und interaktives Simulationsframework, das auf Unreal Engine 5 aufbaut, um diese Lücke zu schließen. LychSim basiert auf drei Schlüsselkonzepten: (1) einer optimierten Python-API, die die zugrunde liegenden Engine-Komplexitäten abstrahiert; (2) einer prozeduralen Datenpipeline, die vielfältige, hochrealistische Umgebungen mit unterschiedlichen Out-of-Distribution (OOD) visuellen Herausforderungen, gepaart mit umfassenden 2D- und 3D-Ground-Truths, erzeugen kann; und (3) einer nativen Integration des Model Context Protocol (MCP), das den Simulator in einen dynamischen, Closed-Loop-Spielplatz für reasoning-fähige agentive LLMs verwandelt. Wir annotieren zudem Szenenebene prozedurale Regeln und objektebene Posenausrichtungen, um semantisch abgestimmte 3D-Ground-Truths und automatisierte Szenenmodifikationen zu ermöglichen. Wir demonstrieren die Fähigkeiten von LychSim in mehreren nachgelagerten Anwendungen, darunter als synthetische Datenengine, zur Unterstützung von auf bestärkendem Lernen basierenden adversarialen Prüfern und zur Ermöglichung interaktiver, sprachgesteuerter Szenenlayoutsgenerierung. Um der breiteren Computer-Vision-Community zu nutzen, wird LychSim öffentlich zugänglich gemacht, einschließlich des vollständigen Quellcodes und verschiedener Datenannotationen.
English
While self-supervised pretraining has reduced vision systems' reliance on synthetic data, simulation remains an indispensable tool for closed-loop optimization and rigorous out-of-distribution (OOD) evaluation. However, modern simulation platforms often present steep technical barriers, requiring extensive expertise in computer graphics and game development. In this work, we present LychSim, a highly controllable and interactive simulation framework built upon Unreal Engine 5 to bridge this gap. LychSim is built around three key designs: (1) a streamlined Python API that abstracts away underlying engine complexities; (2) a procedural data pipeline capable of generating diverse, high-fidelity environments with varying out-of-distribution (OOD) visual challenges, paired with rich 2D and 3D ground truths; and (3) a native integration of the Model Context Protocol (MCP) that transforms the simulator into a dynamic, closed-loop playground for reasoning agentic LLMs. We further annotate scene-level procedural rules and object-level pose alignments to enable semantically aligned 3D ground truths and automated scene modification. We demonstrate LychSim's capability across multiple downstream applications, including serving as a synthetic data engine, powering reinforcement learning-based adversarial examiners, and facilitating interactive, language-driven scene layout generation. To benefit the broader vision community, LychSim will be made publicly available, including full source code and various data annotations.
PDF31May 14, 2026