ChatPaper.aiChatPaper

N体問題:一人称視点映像からの並列実行

The N-Body Problem: Parallel Execution from Single-Person Egocentric Video

December 12, 2025
著者: Zhifan Zhu, Yifei Huang, Yoichi Sato, Dima Damen
cs.AI

要旨

人間は複雑な活動を直感的に並列化できるが、モデルは単一人物の観察からこれを学習できるだろうか。一人称視点映像1本を入力として、我々はN-Body問題を提唱する:N人の個人が、この映像で観察された一連のタスクを仮想的にどのように実行し得るかという問題である。目標は高速化を最大化することだが、映像セグメントを個人に単純に割り当てるだけでは、現実世界の制約に違反し、二人の人物が同じ物体を使用したり同じ空間を占有するといった物理的に不可能なシナリオが生じがちである。この問題に対処するため、我々はN-Body問題を定式化し、性能(高速化、タスク網羅率)と実行可能性(空間的衝突、物体競合、因果的制約)の両方を評価する一連の指標を提案する。さらに、Vision-Language Model(VLM)が3D環境、物体使用、時間的依存関係について推論し、実行可能な並列実行計画を生成するよう導く構造化プロンプト戦略を導入する。EPIC-KitchensとHD-EPICの100本の映像を用いた実験では、N=2の場合、我々の手法はGemini 2.5 Proのベースラインプロンプトと比べて行動網羅率を45%向上させると同時に、衝突率、物体競合、因果的衝突をそれぞれ55%、45%、55%削減した。
English
Humans can intuitively parallelise complex activities, but can a model learn this from observing a single person? Given one egocentric video, we introduce the N-Body Problem: how N individuals, can hypothetically perform the same set of tasks observed in this video. The goal is to maximise speed-up, but naive assignment of video segments to individuals often violates real-world constraints, leading to physically impossible scenarios like two people using the same object or occupying the same space. To address this, we formalise the N-Body Problem and propose a suite of metrics to evaluate both performance (speed-up, task coverage) and feasibility (spatial collisions, object conflicts and causal constraints). We then introduce a structured prompting strategy that guides a Vision-Language Model (VLM) to reason about the 3D environment, object usage, and temporal dependencies to produce a viable parallel execution. On 100 videos from EPIC-Kitchens and HD-EPIC, our method for N = 2 boosts action coverage by 45% over a baseline prompt for Gemini 2.5 Pro, while simultaneously slashing collision rates, object and causal conflicts by 55%, 45% and 55% respectively.
PDF22December 17, 2025