Stel uw beleid samen! Verbetering van diffusie- of stroomgebaseerd robotbeleid via testtijd compositie op distributieniveau
Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition
October 1, 2025
Auteurs: Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. Luo
cs.AI
Samenvatting
Diffusiegebaseerde modellen voor robotbesturing, waaronder visie-taal-actie (VLA) en visie-actie (VA) beleidsregels, hebben aanzienlijke capaciteiten getoond. Toch wordt hun vooruitgang beperkt door de hoge kosten van het verkrijgen van grootschalige interactiedatasets. Dit werk introduceert een alternatief paradigma voor het verbeteren van beleidsprestaties zonder aanvullende modeltraining. Misschien verrassend, tonen we aan dat de samengestelde beleidsregels de prestaties van elk ouderbeleid kunnen overtreffen. Onze bijdrage is drievoudig. Ten eerste leggen we een theoretische basis waaruit blijkt dat de convexe samenstelling van distributiescores van meerdere diffusiemodellen een superieur eenstaps functioneel doel kan opleveren in vergelijking met elke individuele score. Een Gr\"onwall-type grens wordt vervolgens gebruikt om aan te tonen dat deze eenstapsverbetering zich voortplant door hele generatietrajecten, wat leidt tot systemische prestatieverbeteringen. Ten tweede, gemotiveerd door deze resultaten, stellen we General Policy Composition (GPC) voor, een trainingsvrije methode die de prestaties verbetert door de distributiescores van meerdere vooraf getrainde beleidsregels te combineren via een convexe combinatie en zoektocht tijdens de testfase. GPC is veelzijdig en maakt de plug-and-play samenstelling van heterogene beleidsregels mogelijk, inclusief VA- en VLA-modellen, evenals die gebaseerd op diffusie of flow-matching, ongeacht hun visuele invoermodaliteiten. Ten derde bieden we uitgebreide empirische validatie. Experimenten op Robomimic, PushT en RoboTwin benchmarks, naast evaluaties in de echte wereld, bevestigen dat GPC consistent prestaties en aanpassingsvermogen verbetert over een diverse set taken. Verdere analyse van alternatieve samenstellingsoperatoren en wegingstrategieën biedt inzicht in de mechanismen die ten grondslag liggen aan het succes van GPC. Deze resultaten vestigen GPC als een eenvoudige maar effectieve methode voor het verbeteren van besturingsprestaties door bestaande beleidsregels te benutten.
English
Diffusion-based models for robotic control, including vision-language-action
(VLA) and vision-action (VA) policies, have demonstrated significant
capabilities. Yet their advancement is constrained by the high cost of
acquiring large-scale interaction datasets. This work introduces an alternative
paradigm for enhancing policy performance without additional model training.
Perhaps surprisingly, we demonstrate that the composed policies can exceed the
performance of either parent policy. Our contribution is threefold. First, we
establish a theoretical foundation showing that the convex composition of
distributional scores from multiple diffusion models can yield a superior
one-step functional objective compared to any individual score. A
Gr\"onwall-type bound is then used to show that this single-step improvement
propagates through entire generation trajectories, leading to systemic
performance gains. Second, motivated by these results, we propose General
Policy Composition (GPC), a training-free method that enhances performance by
combining the distributional scores of multiple pre-trained policies via a
convex combination and test-time search. GPC is versatile, allowing for the
plug-and-play composition of heterogeneous policies, including VA and VLA
models, as well as those based on diffusion or flow-matching, irrespective of
their input visual modalities. Third, we provide extensive empirical
validation. Experiments on Robomimic, PushT, and RoboTwin benchmarks, alongside
real-world robotic evaluations, confirm that GPC consistently improves
performance and adaptability across a diverse set of tasks. Further analysis of
alternative composition operators and weighting strategies offers insights into
the mechanisms underlying the success of GPC. These results establish GPC as a
simple yet effective method for improving control performance by leveraging
existing policies.