ChatPaper.aiChatPaper

Das N-Körper-Problem: Parallele Ausführung aus egocentrischen Einzelpersonen-Videos

The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

December 12, 2025
papers.authors: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen
cs.AI

papers.abstract

Menschen können komplexe Aktivitäten intuitiv parallelisieren, aber kann ein Modell dies durch die Beobachtung einer einzelnen Person erlernen? Ausgehend von einem egocentrischen Video führen wir das N-Body-Problem ein: wie N Individuen hypothetisch denselben Satz von Aufgaben ausführen könnten, der in diesem Video beobachtet wird. Das Ziel ist die Maximierung der Beschleunigung, aber eine naive Zuordnung von Videosegmenten zu Individuen verstößt oft gegen reale Randbedingungen und führt zu physikalisch unmöglichen Szenarien, wie z.B. zwei Personen, die denselben Gegenstand benutzen oder denselben Raum einnehmen. Um dies zu adressieren, formalisieren wir das N-Body-Problem und schlagen eine Reihe von Metriken vor, um sowohl die Leistung (Beschleunigung, Aufgabendeckung) als auch die Durchführbarkeit (räumliche Kollisionen, Objektkonflikte und kausale Abhängigkeiten) zu bewerten. Anschließend stellen wir eine strukturierte Prompting-Strategie vor, die ein Vision-Language-Model (VLM) anleitet, über die 3D-Umgebung, Objektnutzung und zeitliche Abhängigkeiten zu schlussfolgern, um eine praktikable parallele Ausführung zu erzeugen. Bei 100 Videos aus EPIC-Kitchens und HD-EPIC steigert unsere Methode für N = 2 die Aktionsabdeckung um 45 % gegenüber einem Baseline-Prompt für Gemini 2.5 Pro und reduziert gleichzeitig die Kollisionsraten sowie Objekt- und Kausalitätskonflikte um 55 %, 45 % bzw. 55 %.
English
Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.
PDF22December 17, 2025