ChatPaper.aiChatPaper

LychSim: Управляемая и интерактивная среда моделирования для исследований в области зрения

LychSim: A Controllable and Interactive Simulation Framework for Vision Research

May 12, 2026
Авторы: Wufei Ma, Chloe Wang, Siyi Chen, Jiawei Peng, Patrick Li, Alan Yuille
cs.AI

Аннотация

Несмотря на то, что самообучающееся предварительное обучение снизило зависимость систем компьютерного зрения от синтетических данных, симуляция остается незаменимым инструментом для оптимизации по замкнутому циклу и строгой оценки вне распределения (OOD). Однако современные платформы симуляции часто создают высокие технические барьеры, требуя обширных знаний в области компьютерной графики и разработки игр. В данной работе мы представляем LychSim — высококонтролируемый и интерактивный фреймворк симуляции, построенный на базе Unreal Engine 5, который призван преодолеть этот разрыв. LychSim основан на трех ключевых решениях: (1) упрощенный Python API, абстрагирующий сложности нижележащего движка; (2) процедурный конвейер данных, способный генерировать разнообразные высокореалистичные среды с различными визуальными вызовами вне распределения (OOD) в сочетании с богатыми 2D и 3D эталонными данными (ground truths); и (3) встроенная интеграция протокола контекста модели (MCP), превращающая симулятор в динамическую интерактивную среду для рассуждающих агентных LLM. Мы дополнительно аннотируем процедурные правила на уровне сцен и выравнивания поз объектов для обеспечения семантически согласованных трехмерных эталонных данных и автоматизированной модификации сцен. Мы демонстрируем возможности LychSim в нескольких прикладных задачах, включая использование в качестве движка синтетических данных, поддержку экзаменаторов на основе обучения с подкреплением, а также содействие интерактивной генерации макетов сцен на основе языковых указаний. Чтобы принести пользу широкому сообществу компьютерного зрения, LychSim будет опубликован в открытом доступе, включая полный исходный код и различные аннотации данных.
English
While self-supervised pretraining has reduced vision systems' reliance on synthetic data, simulation remains an indispensable tool for closed-loop optimization and rigorous out-of-distribution (OOD) evaluation. However, modern simulation platforms often present steep technical barriers, requiring extensive expertise in computer graphics and game development. In this work, we present LychSim, a highly controllable and interactive simulation framework built upon Unreal Engine 5 to bridge this gap. LychSim is built around three key designs: (1) a streamlined Python API that abstracts away underlying engine complexities; (2) a procedural data pipeline capable of generating diverse, high-fidelity environments with varying out-of-distribution (OOD) visual challenges, paired with rich 2D and 3D ground truths; and (3) a native integration of the Model Context Protocol (MCP) that transforms the simulator into a dynamic, closed-loop playground for reasoning agentic LLMs. We further annotate scene-level procedural rules and object-level pose alignments to enable semantically aligned 3D ground truths and automated scene modification. We demonstrate LychSim's capability across multiple downstream applications, including serving as a synthetic data engine, powering reinforcement learning-based adversarial examiners, and facilitating interactive, language-driven scene layout generation. To benefit the broader vision community, LychSim will be made publicly available, including full source code and various data annotations.
PDF31May 14, 2026