ChatPaper.aiChatPaper

Le Problème à N Corps : Exécution Parallèle à partir d'une Vidéo Egocentrique Monopersonnelle

The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

December 12, 2025
papers.authors: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen
cs.AI

papers.abstract

Les humains peuvent paralléliser intuitivement des activités complexes, mais un modèle peut-il apprendre cela en observant une seule personne ? Étant donné une vidéo égocentrique, nous introduisons le Problème des N Corps : comment N individus pourraient hypothétiquement réaliser le même ensemble de tâches observé dans cette vidéo. L'objectif est de maximiser l'accélération, mais l'affectation naïve de segments vidéo à des individus viole souvent les contraintes du monde réel, conduisant à des scénarios physiquement impossibles comme deux personnes utilisant le même objet ou occupant le même espace. Pour résoudre ceci, nous formalisons le Problème des N Corps et proposons un ensemble de métriques pour évaluer à la fois la performance (accélération, couverture des tâches) et la faisabilité (collisions spatiales, conflits d'objets et contraintes causales). Nous introduisons ensuite une stratégie d'incitation structurée qui guide un Modèle Vision-Langage (VLM) à raisonner sur l'environnement 3D, l'utilisation des objets et les dépendances temporelles pour produire une exécution parallèle viable. Sur 100 vidéos issues d'EPIC-Kitchens et de HD-EPIC, notre méthode pour N = 2 augmente la couverture des actions de 45 % par rapport à une incitation de base pour Gemini 2.5 Pro, tout en réduisant simultanément les taux de collision, les conflits d'objets et les conflits causaux de 55 %, 45 % et 55 % respectivement.
English
Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.
PDF22December 17, 2025