Il Problema degli N-Corpi: Esecuzione Parallela da Video Egocentrico di Singola Persona
The N-Body Problem: Parallel Execution from Single-Person Egocentric Video
December 12, 2025
Autori: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen
cs.AI
Abstract
Gli esseri umani possono parallelizzare intuitivamente attività complesse, ma un modello può impararlo osservando una singola persona? Dato un video egocentrico, introduciamo il Problema degli N-Corpi: come N individui potrebbero ipoteticamente eseguire lo stesso insieme di compiti osservati in questo video. L'obiettivo è massimizzare lo speed-up, ma l'assegnazione ingenua di segmenti video a diversi individui viola spesso i vincoli del mondo reale, portando a scenari fisicamente impossibili come due persone che usano lo stesso oggetto o occupano lo stesso spazio. Per affrontare ciò, formalizziamo il Problema degli N-Corpi e proponiamo una serie di metriche per valutare sia le prestazioni (speed-up, copertura dei compiti) che la fattibilità (collisioni spaziali, conflitti sugli oggetti e vincoli causali). Introduciamo quindi una strategia di prompting strutturato che guida un Modello Visione-Linguaggio (VLM) a ragionare sull'ambiente 3D, l'uso degli oggetti e le dipendenze temporali per produrre un'esecuzione parallela fattibile. Su 100 video di EPIC-Kitchens e HD-EPIC, il nostro metodo per N = 2 aumenta la copertura delle azioni del 45% rispetto a un prompt baseline per Gemini 2.5 Pro, riducendo simultaneamente i tassi di collisione, i conflitti su oggetti e quelli causali rispettivamente del 55%, 45% e 55%.
English
Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.