ChatPaper.aiChatPaper

Het N-lichaamsprobleem: Parallelle Uitvoering vanuit Egocentrische Video van Één Persoon

The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

December 12, 2025
Auteurs: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen
cs.AI

Samenvatting

Mensen kunnen complexe activiteiten intuïtief parallel uitvoeren, maar kan een model dit leren door naar één persoon te kijken? Gegeven één egocentrische video, introduceren we het N-Body Probleem: hoe N individuen hypothetisch dezelfde set aan taken kunnen uitvoeren die in deze video wordt waargenomen. Het doel is om de versnelling te maximaliseren, maar een naïeve toewijzing van videosegmenten aan individuen overtreedt vaak realistische beperkingen, wat leidt tot fysiek onmogelijke scenario's zoals twee personen die hetzelfde object gebruiken of dezelfde ruimte bezetten. Om dit aan te pakken, formaliseren we het N-Body Probleem en stellen we een reeks metrieken voor om zowel de prestaties (versnelling, taakdekking) als de haalbaarheid (ruimtelijke botsingen, objectconflicten en causale beperkingen) te evalueren. Vervolgens introduceren we een gestructureerde promptstrategie die een Vision-Language Model (VLM) begeleidt om te redeneren over de 3D-omgeving, objectgebruik en temporele afhankelijkheden om een uitvoerbare parallelle uitvoering te produceren. Op 100 video's van EPIC-Kitchens en HD-EPIC verhoogt onze methode voor N = 2 de actiedekking met 45% ten opzichte van een baseline-prompt voor Gemini 2.5 Pro, terwijl tegelijkertijd de botsingspercentages, object- en causale conflicten respectievelijk met 55%, 45% en 55% worden verlaagd.
English
Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.
PDF22December 17, 2025