ActiveMimic: Egocentrisches Video-Pretraining mit aktiver Wahrnehmung

Zusammenfassung

Egocentrische menschliche Videos bieten eine skalierbare Alternative zu Roboterdaten für das Vortraining, doch vortrainierte Modelle auf solchen Videos schneiden durchweg schlechter ab als solche, die auf Roboterdaten vortrainiert wurden. Wir führen diese Lücke auf ein fehlendes Signal zurück, das aktive Wahrnehmungsverhalten in egozentrischen Videos, bei dem Menschen während der Manipulation kontinuierlich ihre Blickrichtung neu ausrichten, was Kamerabewegungen verursacht, die in Standardpipelines als Rauschen behandelt werden. Um dies zu adressieren, präsentieren wir ActiveMimic, ein Vortraining-Framework, das synchronisierte Kamera- und Handgelenkstrajektorien aus einer einzelnen am Körper getragenen RGB-Kamera rekonstruiert, Kamerabewegungen als Blickwinkelaktion modelliert und gemeinsam aktive Wahrnehmung und Manipulation aus unkontrollierten egozentrischen menschlichen Videos lernt, bevor es an einen Zielroboter angepasst wird. Empirisch zeigen Experimente in der realen Welt über Aufgaben mit unterschiedlichen Anforderungen an aktive Wahrnehmung, dass ActiveMimic durchweg besser abschneidet als Baseline-Modelle, die auf menschlichen Videos vortrainiert wurden, und mit modernsten Modellen gleichzieht, die auf Roboterdaten vortrainiert wurden. Weitere Analysen liefern Belege dafür, dass die Fähigkeit zur aktiven Wahrnehmung aus dem Vortraining mit egozentrischen menschlichen Videos stammt und nicht aus der roboterspezifischen Feinabstimmung, was bestätigt, dass aktive Wahrnehmung der Schlüssel zur Erschließung egozentrischer menschlicher Videos für das Robotervortraining ist.

English

Egocentric human video offers a scalable alternative to robot data for pretraining, yet models pretrained on such video consistently underperform those pretrained on robot data. We attribute this gap to a missing signal, the active perception behavior in egocentric videos, where humans continuously reposition their viewpoint during manipulation, inducing camera motion that standard pipelines treat as noise. To address this, we present ActiveMimic, a pretraining framework that recovers synchronized camera and wrist trajectories from a single body-worn RGB camera, models camera motion as a viewpoint action, and jointly learns active perception and manipulation from in-the-wild egocentric human video before adapting to a target robot. Empirically, real-world experiments across tasks with diverse active perception demands show that ActiveMimic consistently surpasses baselines pretrained on human video and matches state-of-the-art models pretrained on robot data. Further analysis provides evidence that active perception capability originates from egocentric human video pretraining rather than robot-specific fine-tuning, confirming active perception as the key to unlocking egocentric human video for robot pretraining.