O Problema de N-Corpos: Execução Paralela a Partir de Vídeo Egocêntrico de um Indivíduo

Resumo

Os seres humanos conseguem paralelizar intuitivamente atividades complexas, mas será que um modelo pode aprender isso observando uma única pessoa? Dado um vídeo egocêntrico, introduzimos o Problema dos N-Corpos: como N indivíduos poderiam, hipoteticamente, realizar o mesmo conjunto de tarefas observado neste vídeo. O objetivo é maximizar a aceleração (speed-up), mas a atribuição ingénua de segmentos de vídeo a indivíduos viola frequentemente restrições do mundo real, levando a cenários fisicamente impossíveis, como duas pessoas a usar o mesmo objeto ou a ocupar o mesmo espaço. Para resolver isto, formalizamos o Problema dos N-Corpos e propomos um conjunto de métricas para avaliar tanto o desempenho (aceleração, cobertura de tarefas) como a viabilidade (colisões espaciais, conflitos de objetos e restrições causais). Em seguida, introduzimos uma estratégia de prompting estruturado que orienta um Modelo de Visão e Linguagem (VLM) a raciocinar sobre o ambiente 3D, a utilização de objetos e as dependências temporais para produzir uma execução paralela viável. Em 100 vídeos dos conjuntos EPIC-Kitchens e HD-EPIC, o nosso método para N = 2 aumenta a cobertura de ações em 45% face a um prompt base para o Gemini 2.5 Pro, reduzindo simultaneamente as taxas de colisão, os conflitos de objetos e os conflitos causais em 55%, 45% e 55%, respetivamente.

English

Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.

O Problema de N-Corpos: Execução Paralela a Partir de Vídeo Egocêntrico de um Indivíduo

The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

Resumo

Support