Diffusion d'actions guidée par la fréquence via la traversée de variété sous-fréquentielle
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal
May 27, 2026
Auteurs: Junlin Wang
cs.AI
Résumé
L'apprentissage de politiques visuomotrices par clonage de comportement implique généralement l'imitation de démonstrations d'experts collectées par des opérateurs humains. Cependant, les démonstrations humaines naturelles contiennent intrinsèquement un bruit haute fréquence, tel que des à-coups intermittents, des pauses et une gigue d'action. Entraîner des politiques à imiter directement ces trajectoires brutes conduit inévitablement le modèle à hériter de ces comportements sous-optimaux. Cette pathologie est particulièrement prononcée dans les politiques basées sur la diffusion, où les étapes de débruitage itératif peuvent amplifier par inadvertance les artefacts haute fréquence au détriment des détails fins significatifs. Pour palier ces limitations, nous présentons un nouvel algorithme basé sur la fréquence qui permet une manœuvre spectrale implicite et une génération d'actions lisses. Notre méthode, l'Opérateur de Guidage Fréquentiel (FGO), oriente le processus de génération des politiques de diffusion en conduisant progressivement les échantillons bruités à travers des variétés de sous-fréquences intermédiaires avec des bandes spectrales en expansion. Validée sur 15 tâches de manipulation robotique issues de 5 référentiels, FGO atteint des performances supérieures pour améliorer la fluidité des actions et la cohérence temporelle tout en préservant les détails nécessaires à l'exécution réussie des tâches. Site web du projet : https://henrywjl.github.io/frequency-guidance-operator/
English
Learning visuomotor policies via behavior cloning typically involves mimicking expert demonstrations collected by human operators. However, natural human demonstrations inherently contain high-frequency noise, such as intermittent jerks, pauses, and action jitter. Training policies to directly imitate these raw trajectories inevitably causes the model to inherit these suboptimal behaviors. This pathology is particularly pronounced in diffusion-based policies, where iterative denoising steps can inadvertently amplify high-frequency artifacts at the expense of meaningful fine-grained details. To address these limitations, we present a novel frequency-based algorithm that enables implicit spectral maneuvering and smooth action generation. Our method, Frequency Guidance Operator (FGO), steers the generation process of diffusion polices by progressively driving the noisy samples through intermediate sub-frequency manifolds with expanding spectral bands. Validated on 15 robotic manipulation tasks from 5 benchmarks, FGO achieves superior performance in enhancing action smoothness and temporal consistency while preserving the details necessary for successful task execution. Project website: https://henrywjl.github.io/frequency-guidance-operator/