ChatPaper.aiChatPaper

Stel uw beleid samen! Verbetering van diffusie- of stroomgebaseerd robotbeleid via testtijd compositie op distributieniveau

Compose Your Policies! Improving Diffusion-based or Flow-based Robot Policies via Test-time Distribution-level Composition

October 1, 2025
Auteurs: Jiahang Cao, Yize Huang, Hanzhong Guo, Rui Zhang, Mu Nan, Weijian Mai, Jiaxu Wang, Hao Cheng, Jingkai Sun, Gang Han, Wen Zhao, Qiang Zhang, Yijie Guo, Qihao Zheng, Chunfeng Song, Xiao Li, Ping Luo, Andrew F. Luo
cs.AI

Samenvatting

Diffusiegebaseerde modellen voor robotbesturing, waaronder visie-taal-actie (VLA) en visie-actie (VA) beleidsregels, hebben aanzienlijke capaciteiten getoond. Toch wordt hun vooruitgang beperkt door de hoge kosten van het verkrijgen van grootschalige interactiedatasets. Dit werk introduceert een alternatief paradigma voor het verbeteren van beleidsprestaties zonder aanvullende modeltraining. Misschien verrassend, tonen we aan dat de samengestelde beleidsregels de prestaties van elk ouderbeleid kunnen overtreffen. Onze bijdrage is drievoudig. Ten eerste leggen we een theoretische basis waaruit blijkt dat de convexe samenstelling van distributiescores van meerdere diffusiemodellen een superieur eenstaps functioneel doel kan opleveren in vergelijking met elke individuele score. Een Gr\"onwall-type grens wordt vervolgens gebruikt om aan te tonen dat deze eenstapsverbetering zich voortplant door hele generatietrajecten, wat leidt tot systemische prestatieverbeteringen. Ten tweede, gemotiveerd door deze resultaten, stellen we General Policy Composition (GPC) voor, een trainingsvrije methode die de prestaties verbetert door de distributiescores van meerdere vooraf getrainde beleidsregels te combineren via een convexe combinatie en zoektocht tijdens de testfase. GPC is veelzijdig en maakt de plug-and-play samenstelling van heterogene beleidsregels mogelijk, inclusief VA- en VLA-modellen, evenals die gebaseerd op diffusie of flow-matching, ongeacht hun visuele invoermodaliteiten. Ten derde bieden we uitgebreide empirische validatie. Experimenten op Robomimic, PushT en RoboTwin benchmarks, naast evaluaties in de echte wereld, bevestigen dat GPC consistent prestaties en aanpassingsvermogen verbetert over een diverse set taken. Verdere analyse van alternatieve samenstellingsoperatoren en wegingstrategieën biedt inzicht in de mechanismen die ten grondslag liggen aan het succes van GPC. Deze resultaten vestigen GPC als een eenvoudige maar effectieve methode voor het verbeteren van besturingsprestaties door bestaande beleidsregels te benutten.
English
Diffusion-based models for robotic control, including vision-language-action (VLA) and vision-action (VA) policies, have demonstrated significant capabilities. Yet their advancement is constrained by the high cost of acquiring large-scale interaction datasets. This work introduces an alternative paradigm for enhancing policy performance without additional model training. Perhaps surprisingly, we demonstrate that the composed policies can exceed the performance of either parent policy. Our contribution is threefold. First, we establish a theoretical foundation showing that the convex composition of distributional scores from multiple diffusion models can yield a superior one-step functional objective compared to any individual score. A Gr\"onwall-type bound is then used to show that this single-step improvement propagates through entire generation trajectories, leading to systemic performance gains. Second, motivated by these results, we propose General Policy Composition (GPC), a training-free method that enhances performance by combining the distributional scores of multiple pre-trained policies via a convex combination and test-time search. GPC is versatile, allowing for the plug-and-play composition of heterogeneous policies, including VA and VLA models, as well as those based on diffusion or flow-matching, irrespective of their input visual modalities. Third, we provide extensive empirical validation. Experiments on Robomimic, PushT, and RoboTwin benchmarks, alongside real-world robotic evaluations, confirm that GPC consistently improves performance and adaptability across a diverse set of tasks. Further analysis of alternative composition operators and weighting strategies offers insights into the mechanisms underlying the success of GPC. These results establish GPC as a simple yet effective method for improving control performance by leveraging existing policies.
PDF193October 6, 2025