サブ周波数多様体横断による周波数誘導型行動拡散
Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal
May 27, 2026
著者: Junlin Wang
cs.AI
要旨
行動模倣による視覚運動ポリシーの学習では、通常、人間のオペレータが収集した熟練者のデモンストレーションを模倣する。しかし、人間が自然に行うデモンストレーションには、断続的な急な動き、ポーズ、動作のジッターなどの高周波ノイズが本質的に含まれている。これらの生の軌跡を直接模倣するようにポリシーを訓練すると、モデルがこれらの準最適な行動を継承することは避けられない。この病理は拡散ベースのポリシーで特に顕著であり、反復的なノイズ除去ステップが、意味のある微細な詳細を犠牲にして不注意に高周波アーティファクトを増幅し得る。これらの限界に対処するため、我々は新しい周波数ベースのアルゴリズムを提案し、暗黙的なスペクトル操作と滑らかな動作生成を可能にする。本手法である周波数誘導オペレータ(FGO)は、拡散ポリシーの生成プロセスを導き、ノイズを含むサンプルを拡大するスペクトル帯域を持つ中間サブ周波数多様体を通して徐々に駆動する。5つのベンチマークから15のロボット操作タスクで検証した結果、FGOは動作の滑らかさと時間的一貫性を向上させ、タスク実行に必要な詳細を保持しながら優れた性能を達成した。プロジェクトウェブサイト:https://henrywjl.github.io/frequency-guidance-operator/
English
Learning visuomotor policies via behavior cloning typically involves mimicking expert demonstrations collected by human operators. However, natural human demonstrations inherently contain high-frequency noise, such as intermittent jerks, pauses, and action jitter. Training policies to directly imitate these raw trajectories inevitably causes the model to inherit these suboptimal behaviors. This pathology is particularly pronounced in diffusion-based policies, where iterative denoising steps can inadvertently amplify high-frequency artifacts at the expense of meaningful fine-grained details. To address these limitations, we present a novel frequency-based algorithm that enables implicit spectral maneuvering and smooth action generation. Our method, Frequency Guidance Operator (FGO), steers the generation process of diffusion polices by progressively driving the noisy samples through intermediate sub-frequency manifolds with expanding spectral bands. Validated on 15 robotic manipulation tasks from 5 benchmarks, FGO achieves superior performance in enhancing action smoothness and temporal consistency while preserving the details necessary for successful task execution. Project website: https://henrywjl.github.io/frequency-guidance-operator/