ChatPaper.aiChatPaper

서브 주파수 다양체 탐색을 통한 주파수 유도 행동 확산

Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal

May 27, 2026
저자: Junlin Wang
cs.AI

초록

행동 클로닝을 통한 시각-운동 정책 학습은 일반적으로 인간 조작자가 수집한 전문가 시연을 모방하는 것을 수반합니다. 그러나 자연스러운 인간 시연에는 간헐적인 급격한 움직임, 일시 정지, 동작 지터와 같은 고주파 노이즈가 본질적으로 포함되어 있습니다. 이러한 원시 궤적을 직접 모방하도록 정책을 훈련시키면 모델이 이러한 비최적 행동을 필연적으로 물려받게 됩니다. 이러한 병리는 특히 확산 기반 정책에서 두드러지며, 반복적인 잡음 제거 단계가 의미 있는 세부 정보를 희생하면서 고주파 인공물을 의도치 않게 증폭시킬 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 새로운 주파수 기반 알고리즘을 제시하여 암시적 스펙트럼 조작과 부드러운 동작 생성을 가능하게 합니다. 우리의 방법인 주파수 유도 연산자(FGO)는 확장되는 스펙트럼 대역을 가진 중간 하위 주파수 다양체를 통해 잡음이 있는 샘플을 점진적으로 구동함으로써 확산 정책의 생성 과정을 조종합니다. 5개 벤치마크의 15개 로봇 조작 작업에서 검증된 FGO는 성공적인 작업 실행에 필요한 세부 정보를 보존하면서 동작의 부드러움과 시간적 일관성을 향상시키는 데 뛰어난 성능을 달성합니다. 프로젝트 웹사이트: https://henrywjl.github.io/frequency-guidance-operator/
English
Learning visuomotor policies via behavior cloning typically involves mimicking expert demonstrations collected by human operators. However, natural human demonstrations inherently contain high-frequency noise, such as intermittent jerks, pauses, and action jitter. Training policies to directly imitate these raw trajectories inevitably causes the model to inherit these suboptimal behaviors. This pathology is particularly pronounced in diffusion-based policies, where iterative denoising steps can inadvertently amplify high-frequency artifacts at the expense of meaningful fine-grained details. To address these limitations, we present a novel frequency-based algorithm that enables implicit spectral maneuvering and smooth action generation. Our method, Frequency Guidance Operator (FGO), steers the generation process of diffusion polices by progressively driving the noisy samples through intermediate sub-frequency manifolds with expanding spectral bands. Validated on 15 robotic manipulation tasks from 5 benchmarks, FGO achieves superior performance in enhancing action smoothness and temporal consistency while preserving the details necessary for successful task execution. Project website: https://henrywjl.github.io/frequency-guidance-operator/