Difusão de Ações Guiada por Frequência via Travessia de Variedade Sub-Frequencial
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal
May 27, 2026
Autores: Junlin Wang
cs.AI
Resumo
A aprendizagem de políticas visuomotoras via clonagem de comportamento tipicamente envolve a imitação de demonstrações de especialistas coletadas por operadores humanos. No entanto, demonstrações humanas naturais contêm inerentemente ruído de alta frequência, como solavancos intermitentes, pausas e tremores de ação. Treinar políticas para imitar diretamente essas trajetórias brutas inevitavelmente faz com que o modelo herde esses comportamentos subótimos. Essa patologia é particularmente pronunciada em políticas baseadas em difusão, onde as etapas iterativas de remoção de ruído podem inadvertidamente amplificar artefatos de alta frequência em detrimento de detalhes refinados significativos. Para abordar essas limitações, apresentamos um novo algoritmo baseado em frequência que permite manobra espectral implícita e geração de ações suaves. Nosso método, Operador de Orientação por Frequência (FGO), direciona o processo de geração de políticas de difusão ao conduzir progressivamente as amostras ruidosas por meio de subvariedades de frequência intermediárias com bandas espectrais em expansão. Validado em 15 tarefas de manipulação robótica de 5 benchmarks, o FGO alcança desempenho superior no aprimoramento da suavidade de ação e consistência temporal, preservando ao mesmo tempo os detalhes necessários para a execução bem-sucedida das tarefas. Site do projeto: https://henrywjl.github.io/frequency-guidance-operator/
English
Learning visuomotor policies via behavior cloning typically involves mimicking expert demonstrations collected by human operators. However, natural human demonstrations inherently contain high-frequency noise, such as intermittent jerks, pauses, and action jitter. Training policies to directly imitate these raw trajectories inevitably causes the model to inherit these suboptimal behaviors. This pathology is particularly pronounced in diffusion-based policies, where iterative denoising steps can inadvertently amplify high-frequency artifacts at the expense of meaningful fine-grained details. To address these limitations, we present a novel frequency-based algorithm that enables implicit spectral maneuvering and smooth action generation. Our method, Frequency Guidance Operator (FGO), steers the generation process of diffusion polices by progressively driving the noisy samples through intermediate sub-frequency manifolds with expanding spectral bands. Validated on 15 robotic manipulation tasks from 5 benchmarks, FGO achieves superior performance in enhancing action smoothness and temporal consistency while preserving the details necessary for successful task execution. Project website: https://henrywjl.github.io/frequency-guidance-operator/