El Problema de los N Cuerpos: Ejecución en Paralelo a partir de Vídeo Egocéntrico de un Solo Individuo
The N-Body Problem: Parallel Execution from Single-Person Egocentric Video
December 12, 2025
Autores: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen
cs.AI
Resumen
Los seres humanos pueden paralelizar actividades complejas de forma intuitiva, pero ¿puede un modelo aprender esto observando a una sola persona? Dado un vídeo egocéntrico, presentamos el Problema de los N-Cuerpos: cómo N individuos podrían realizar hipotéticamente el mismo conjunto de tareas observado en este vídeo. El objetivo es maximizar la aceleración, pero la asignación ingenua de segmentos de vídeo a individuos a menudo viola restricciones del mundo real, dando lugar a escenarios físicamente imposibles, como dos personas usando el mismo objeto u ocupando el mismo espacio. Para abordarlo, formalizamos el Problema de los N-Cuerpos y proponemos un conjunto de métricas para evaluar tanto el rendimiento (aceleración, cobertura de tareas) como la viabilidad (colisiones espaciales, conflictos de objetos y restricciones causales). Luego, introducimos una estrategia de *prompting* estructurado que guía a un Modelo de Visión y Lenguaje (VLM) para que razone sobre el entorno 3D, el uso de objetos y las dependencias temporales, con el fin de producir una ejecución paralela viable. En 100 vídeos de EPIC-Kitchens y HD-EPIC, nuestro método para N = 2 aumenta la cobertura de acciones en un 45% respecto a un *prompt* base en Gemini 2.5 Pro, mientras reduce simultáneamente las tasas de colisión, y los conflictos de objetos y causales en un 55%, 45% y 55%, respectivamente.
English
Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.