ChatPaper.aiChatPaper

LychSim: 시각 연구를 위한 제어 가능한 상호작용형 시뮬레이션 프레임워크

LychSim: A Controllable and Interactive Simulation Framework for Vision Research

May 12, 2026
저자: Wufei Ma, Chloe Wang, Siyi Chen, Jiawei Peng, Patrick Li, Alan Yuille
cs.AI

초록

자기 지도 사전 학습이 비전 시스템의 합성 데이터 의존도를 낮추었지만, 시뮬레이션은 폐루프 최적화와 엄격한 분포 외 평가를 위한 필수 도구로 남아 있다. 그러나 현대의 시뮬레이션 플랫폼은 종종 높은 기술적 장벽을 제시하며, 컴퓨터 그래픽스 및 게임 개발에 대한 광범위한 전문성을 요구한다. 본 연구에서는 이러한 격차를 해소하기 위해 Unreal Engine 5를 기반으로 구축된 고도로 제어 가능하고 상호작용적인 시뮬레이션 프레임워크인 LychSim을 제시한다. LychSim은 세 가지 핵심 설계를 기반으로 한다: (1) 엔진의 복잡성을 추상화하는 간결한 Python API; (2) 다양한 분포 외 시각적 과제를 포함하는 고충실도 환경을 생성할 수 있으며 풍부한 2D 및 3D 정답 데이터를 제공하는 절차적 데이터 파이프라인; (3) 시뮬레이터를 추론형 에이전트 LLM을 위한 동적 폐루프 실험 환경으로 전환하는 Model Context Protocol(MCP)의 네이티브 통합. 또한 의미적으로 정렬된 3D 정답 데이터와 자동화된 장면 수정을 가능하게 하기 위해 장면 수준 절차적 규칙과 객체 수준 자세 정렬을 추가로 주석 처리한다. 합성 데이터 엔진 제공, 강화학습 기반 적대적 평가자 구동, 대화형 언어 기반 장면 레이아웃 생성 등 여러 다운스트림 응용 분야에서 LychSim의 성능을 입증한다. 더 넓은 비전 커뮤니티에 기여하기 위해 LychSim은 전체 소스 코드 및 다양한 데이터 주석과 함께 공개될 예정이다.
English
While self-supervised pretraining has reduced vision systems' reliance on synthetic data, simulation remains an indispensable tool for closed-loop optimization and rigorous out-of-distribution (OOD) evaluation. However, modern simulation platforms often present steep technical barriers, requiring extensive expertise in computer graphics and game development. In this work, we present LychSim, a highly controllable and interactive simulation framework built upon Unreal Engine 5 to bridge this gap. LychSim is built around three key designs: (1) a streamlined Python API that abstracts away underlying engine complexities; (2) a procedural data pipeline capable of generating diverse, high-fidelity environments with varying out-of-distribution (OOD) visual challenges, paired with rich 2D and 3D ground truths; and (3) a native integration of the Model Context Protocol (MCP) that transforms the simulator into a dynamic, closed-loop playground for reasoning agentic LLMs. We further annotate scene-level procedural rules and object-level pose alignments to enable semantically aligned 3D ground truths and automated scene modification. We demonstrate LychSim's capability across multiple downstream applications, including serving as a synthetic data engine, powering reinforcement learning-based adversarial examiners, and facilitating interactive, language-driven scene layout generation. To benefit the broader vision community, LychSim will be made publicly available, including full source code and various data annotations.
PDF31May 14, 2026