Frequenzgeführte Aktionsdiffusion durch Subfrequenz-Mannigfaltigkeitstraversierung
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal
May 27, 2026
Autoren: Junlin Wang
cs.AI
Zusammenfassung
Erlernen visuomotorischer Politiken durch Verhaltensklonen erfolgt typischerweise durch Nachahmen von Expertendemonstrationen, die von menschlichen Bedienern gesammelt wurden. Allerdings enthalten natürliche menschliche Demonstrationen inhärent hochfrequentes Rauschen, wie etwa intermittierende Ruckler, Pausen und Aktionszittern. Das direkte Trainieren von Politiken zur Nachahmung dieser rohen Trajektorien führt zwangsläufig dazu, dass das Modell diese suboptimalen Verhaltensweisen übernimmt. Diese Pathologie tritt besonders bei diffusionsbasierten Politiken hervor, wo iterative Entrauschungsschritte unbeabsichtigt hochfrequente Artefakte verstärken können, auf Kosten bedeutungsvoller feiner Details. Um diese Einschränkungen zu beheben, präsentieren wir einen neuartigen frequenzbasierten Algorithmus, der implizites spektrales Manövrieren und glatte Aktionserzeugung ermöglicht. Unsere Methode, der Frequency Guidance Operator (FGO), lenkt den Generierungsprozess diffusionsbasierter Politiken, indem sie die verrauschten Proben schrittweise durch Zwischen-Subfrequenz-Mannigfaltigkeiten mit expandierenden Spektralbändern treibt. Validiert an 15 robotischen Manipulationsaufgaben aus 5 Benchmarks, erzielt FGO überlegene Leistungen bei der Verbesserung von Aktionsglätte und zeitlicher Konsistenz, während die für eine erfolgreiche Aufgabenausführung notwendigen Details bewahrt werden. Projektwebsite: https://henrywjl.github.io/frequency-guidance-operator/
English
Learning visuomotor policies via behavior cloning typically involves mimicking expert demonstrations collected by human operators. However, natural human demonstrations inherently contain high-frequency noise, such as intermittent jerks, pauses, and action jitter. Training policies to directly imitate these raw trajectories inevitably causes the model to inherit these suboptimal behaviors. This pathology is particularly pronounced in diffusion-based policies, where iterative denoising steps can inadvertently amplify high-frequency artifacts at the expense of meaningful fine-grained details. To address these limitations, we present a novel frequency-based algorithm that enables implicit spectral maneuvering and smooth action generation. Our method, Frequency Guidance Operator (FGO), steers the generation process of diffusion polices by progressively driving the noisy samples through intermediate sub-frequency manifolds with expanding spectral bands. Validated on 15 robotic manipulation tasks from 5 benchmarks, FGO achieves superior performance in enhancing action smoothness and temporal consistency while preserving the details necessary for successful task execution. Project website: https://henrywjl.github.io/frequency-guidance-operator/