ChatPaper.aiChatPaper

Проблема N-тел: параллельное выполнение по однопользовательскому эгоцентричному видео

The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

December 12, 2025
Авторы: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen
cs.AI

Аннотация

Люди интуитивно способны распараллеливать сложные виды деятельности, но может ли модель научиться этому, наблюдая за действиями одного человека? На основе одного эгоцентричного видео мы формулируем N-тел задачу: каким образом N индивидуумов могли бы гипотетически выполнить тот же набор задач, представленный на этом видео. Цель состоит в максимизации ускорения, однако наивное назначение сегментов видео разным людям часто нарушает реальные ограничения, приводя к физически невозможным сценариям, таким как использование одного объекта или занятие одного пространства двумя людьми. Чтобы решить эту проблему, мы формализуем задачу N тел и предлагаем набор метрик для оценки как производительности (ускорение, покрытие задач), так и осуществимости (пространственные коллизии, конфликты из-за объектов и причинно-следственные ограничения). Затем мы представляем стратегию структурированного промптинга, которая направляет Vision-Language Model (VLM) на анализ 3D-окружения, использования объектов и временных зависимостей для создания жизнеспособного параллельного плана выполнения. На 100 видео из EPIC-Kitchens и HD-EPIC наш метод для N = 2 увеличивает покрытие действий на 45% по сравнению с базовым промптом для Gemini 2.5 Pro, одновременно сокращая частоту коллизий, конфликтов из-за объектов и причинно-следственных конфликтов на 55%, 45% и 55% соответственно.
English
Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.
PDF22December 17, 2025