Difusión de Acciones Guiada por Frecuencia mediante Recorrido de Subvariedad de Subfrecuencia
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal
May 27, 2026
Autores: Junlin Wang
cs.AI
Resumen
El aprendizaje de políticas visomotoras mediante clonación de comportamiento implica típicamente imitar demostraciones de expertos recopiladas por operadores humanos. Sin embargo, las demostraciones humanas naturales contienen inherentemente ruido de alta frecuencia, como sacudidas intermitentes, pausas y vibraciones en las acciones. Entrenar políticas para imitar directamente estas trayectorias brutas inevitablemente provoca que el modelo herede estos comportamientos subóptimos. Esta patología es particularmente pronunciada en las políticas basadas en difusión, donde los pasos iterativos de eliminación de ruido pueden amplificar inadvertidamente los artefactos de alta frecuencia a expensas de los detalles finos significativos. Para abordar estas limitaciones, presentamos un novedoso algoritmo basado en frecuencia que permite la maniobra espectral implícita y la generación de acciones suaves. Nuestro método, el Operador de Guía de Frecuencia (FGO, por sus siglas en inglés), dirige el proceso de generación de políticas de difusión al conducir progresivamente las muestras ruidosas a través de subvariedades de frecuencia intermedia con bandas espectrales en expansión. Validado en 15 tareas de manipulación robótica de 5 puntos de referencia, FGO logra un rendimiento superior en la mejora de la suavidad de las acciones y la consistencia temporal, mientras preserva los detalles necesarios para la ejecución exitosa de la tarea. Sitio web del proyecto: https://henrywjl.github.io/frequency-guidance-operator/
English
Learning visuomotor policies via behavior cloning typically involves mimicking expert demonstrations collected by human operators. However, natural human demonstrations inherently contain high-frequency noise, such as intermittent jerks, pauses, and action jitter. Training policies to directly imitate these raw trajectories inevitably causes the model to inherit these suboptimal behaviors. This pathology is particularly pronounced in diffusion-based policies, where iterative denoising steps can inadvertently amplify high-frequency artifacts at the expense of meaningful fine-grained details. To address these limitations, we present a novel frequency-based algorithm that enables implicit spectral maneuvering and smooth action generation. Our method, Frequency Guidance Operator (FGO), steers the generation process of diffusion polices by progressively driving the noisy samples through intermediate sub-frequency manifolds with expanding spectral bands. Validated on 15 robotic manipulation tasks from 5 benchmarks, FGO achieves superior performance in enhancing action smoothness and temporal consistency while preserving the details necessary for successful task execution. Project website: https://henrywjl.github.io/frequency-guidance-operator/