ChatPaper.aiChatPaper

Частотно-управляемая диффузия действий через обход подчастотного многообразия

Frequency-Guided Action Diffusion via Sub-Frequency Manifold Traversal

May 27, 2026
Авторы: Junlin Wang
cs.AI

Аннотация

Обучение визуомоторным политикам посредством поведенческого клонирования обычно включает имитацию демонстраций экспертов, собранных операторами-людьми. Однако естественные человеческие демонстрации по своей сути содержат высокочастотный шум, такой как прерывистые рывки, паузы и дрожание действий. Обучение политик непосредственному подражанию этим исходным траекториям неизбежно приводит к тому, что модель наследует эти неоптимальные поведения. Эта патология особенно ярко выражена в политиках на основе диффузии, где итеративные шаги шумоподавления могут непреднамеренно усиливать высокочастотные артефакты в ущерб значимым мелкозернистым деталям. Для преодоления этих ограничений мы представляем новый частотно-ориентированный алгоритм, обеспечивающий неявное спектральное управление и плавную генерацию действий. Наш метод, оператор частотного управления (Frequency Guidance Operator, FGO), направляет процесс генерации диффузионных политик, последовательно перемещая зашумленные выборки через промежуточные подчастотные многообразия с расширяющимися спектральными полосами. Проверенный на 15 задачах роботизированного манипулирования из 5 эталонных тестов, FGO демонстрирует превосходную производительность в повышении плавности действий и временной согласованности, сохраняя при этом детали, необходимые для успешного выполнения задачи. Веб-сайт проекта: https://henrywjl.github.io/frequency-guidance-operator/
English
Learning visuomotor policies via behavior cloning typically involves mimicking expert demonstrations collected by human operators. However, natural human demonstrations inherently contain high-frequency noise, such as intermittent jerks, pauses, and action jitter. Training policies to directly imitate these raw trajectories inevitably causes the model to inherit these suboptimal behaviors. This pathology is particularly pronounced in diffusion-based policies, where iterative denoising steps can inadvertently amplify high-frequency artifacts at the expense of meaningful fine-grained details. To address these limitations, we present a novel frequency-based algorithm that enables implicit spectral maneuvering and smooth action generation. Our method, Frequency Guidance Operator (FGO), steers the generation process of diffusion polices by progressively driving the noisy samples through intermediate sub-frequency manifolds with expanding spectral bands. Validated on 15 robotic manipulation tasks from 5 benchmarks, FGO achieves superior performance in enhancing action smoothness and temporal consistency while preserving the details necessary for successful task execution. Project website: https://henrywjl.github.io/frequency-guidance-operator/