HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

43 papers found

JoyAI-VL-Interaction: real-time visie-taalinteractie-intelligentie
JoyAI-VL-Interaction: Real-Time Vision-Language Interaction Intelligence

Jun 10

ByDingyu Yao, Junhao Zhou, Chenxu Yang, Chuanyu Qin, Haowen Hou, Zheming Liang, Congcong Wang, Yuhang Cao, Shenglong Ye, Shuai Xie, Shuhuan Gu, Haoyang Huang, Qingyi Si, Nan Duan, Jiaqi Wang

171

Veel momenten in de echte wereld wachten niet op een vraag van een gebruiker. Er ontstaat een brand op een beveiligingsmonitor, een gezichtsuitdrukking flitst voorbij tijdens een videogesprek, of een product dat een kijker wil, schiet voorbij in een livestream. Toch blijven de huidige grote modellen grotendeels beurtgebonden qua ontwerp: ze antwoorden alleen als ze worden aangesproken, en zelfs videobel-apps die interactief lijken, werken nog steeds als vraag-antwoordsystemen, die alleen reageren wanneer ze worden gepolst of aangespoord. Wij pleiten voor een ander paradigma: een model dat aanwezig is in de wereld als een mens. Het kijkt continu naar wat er nu gebeurt, beslist zelf of het spreekt of stil blijft, interacteert in realtime en delegeert naar een achtergrondmodel wanneer het probleem moeilijk is. Om interactiemodellen en hun adoptie in verschillende domeinen te bevorderen, leveren we twee volledig open-source bijdragen. Ten eerste brengen we JoyAI-VL-Interaction uit, een 8B-schaal, visie-eerst VL-interactiemodel. Het model neemt de responsbeslissing intern, waarbij het elke seconde kiest om stil te blijven, te reageren of te delegeren naar een achtergrondmodel, en blinkt uit in visie-getriggerde responsiviteit en tijdsbewustzijn. We koppelen het aan een overdraagbaar trainingsrecept, waaruit mogelijkheden voortkomen die we nooit hebben getraind, zoals het begeleiden van een shopper door veranderende app-schermen of het improviseren van een college aan de hand van een diapresentatie. Ten tweede brengen we een compleet, implementeerbaar systeem uit dat rond dat model is gebouwd. Het systeem streamt elke lopende video naar het model, waardoor het echt aanwezig is in de wereld. Alle andere componenten zijn inplugbaar, waaronder ASR/TTS-modules, geheugen, visualisatie-UI en een achtergrondbrein dat verbinding kan maken met elke API of agent. In zes realistische scenario's geven menselijke beoordelaars de voorkeur aan JoyAI-VL-Interaction boven de in-app videobel-assistenten van Doubao en Gemini met een ruime marge. Voor zover wij weten, is dit het eerste open, visiegestuurde interactiemodel dat wordt uitgebracht samen met het trainingsrecept, de gegevens en het complete implementeerbare systeem.

Datajournalist Agent: Data transformeren in verifieerbare multimodale verhalen
Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

Jun 9

ByKevin Qinghong Lin, Batu EI, Yuhong Shi, Pan Lu, Philip Torr, James Zou

110

Data vertellen verhalen die de samenleving vormgeven; de taak van de datajournalist is om ruwe informatie om te zetten in verhalen die niet-experts kunnen vertrouwen. Een hoogwaardig nieuwsartikel kost een redactieteam weken: het zoeken naar context, het uitvoeren van statistische analyses, het kiezen van een invalshoek en het ontwerpen van visualisaties. Huidige agents kunnen afzonderlijke stappen goed aan: datawetenschaps-agents sluiten de analysecyclus, terwijl ontwerp-agents prachtige websites synthetiseren. Maar kan een agent als een end-to-end datajournalist fungeren? We introduceren Data Journalist Agent (Data2Story), een multi-agent raamwerk dat gespecialiseerde rollen organiseert in één virtuele nieuwsredactie. Data2Story levert twee innovaties. (i) Beweringen zijn onderbouwd met bewijs: een Inspector koppelt elk getal, elke invalshoek en elk medium terug naar data, code of een externe referentie. (ii) Artikelen zijn multimodaal gegenereerd: in plaats van terug te vallen op platte tekst en statische grafieken, redeneert Data2Story over wat lezers willen zien en zet vervolgens multimodale tools in, zoals interactieve kaarten voor geografie en audio voor muziek. We evalueren Data2Story op 18 artikelen, elk met de oorspronkelijk gepubliceerde deskundige versie, langs vier assen: (a) dekkingsgraad van de menselijke vs. agent-invalshoek; (b) rubric-evaluatie met 53 deelnemers over vijf dimensies; (c) computergebruik-agents als beoordelaars, een kostenbesparende proxy voor hoe lezers interactieve artikelen navigeren; en (d) verifieerbaarheid, waarbij een codeverificateur uitspraken opnieuw tegen de data uitvoert en beweringen controleert aan de hand van referenties. Data2Story produceert concurrerende, met bewijs traceerbare multimediaverhalen, met een bijzondere sterkte in transparantie en auditbaarheid. Menselijke artikelen behouden een voorsprong in redactionele invalshoek, creatief ontwerp en presentatie. We positioneren Data2Story als een samenwerkingspartner voor journalisten, die meer op bewijs gebaseerde, transparante en verifieerbare berichtgeving mogelijk maakt. Code en demo's zijn beschikbaar op https://data2story.github.io.

Geometrisch actiemodel voor robotbeleidsleren
Geometric Action Model for Robot Policy Learning

Jun 15

ByJisang Han, Seonghu Jeon, Jaewoo Jung, René Zurbrügg, Honggyu An, Tifanny Portela, Marco Hutter, Marc Pollefeys, Seungryong Kim, Sunghwan Hong

101

Algemene robotstrategieën moeten gebruikersinstructies volgen, terwijl ze redeneren over hoe objecten, camera's en robotacties interageren in de 3D-fysieke wereld. Recente visie-taal-actiemodellen (VTA's) en video-wereld-actiemodellen (WAM's) erven sterke semantische of temporele voorkennis van grootschalige fundamentmodellen, maar opereren nog steeds primair op 2D-beeldframes of van 2D afgeleide latente ruimten, waardoor de voor contactrijke manipulatie vereiste 3D-geometrie impliciet blijft. Wij stellen het Geometrisch Actiemodel (GAM) voor, een taalgestuurde manipulatiestrategie die een voorgetraind geometrisch fundamentmodel (GFM) direct herbestemt als een gedeeld substraat voor perceptie, temporele predictie en actiedecodering. GAM splitst het GFM op een tussenliggende laag: de ondiepe lagen dienen als een observatie-encoder, en een causale toekomstvoorspeller ingevoegd op de splitsingslaag voorspelt toekomstige latente tokens, geconditioneerd door taal, proprioceptie en actiegeschiedenis. De voorspelde toekomstige tokens worden vervolgens door de resterende GFM-blokken geleid voor kenmerkpropagatie en decodering, waardoor één enkele backbone zowel toekomstige geometrie als acties kan produceren. Dit ontwerp voorziet het GFM van taalgestuurd temporeel wereldmodelleren met minimale architecturale aanpassing, terwijl de rijke geometrische voorkennis behouden blijft. Over een breed scala aan simulatie- en echte robotmanipulatiebenchmarks is GAM nauwkeuriger, robuuster, sneller en lichter dan huidige op fundamentmodelschaal gebaseerde basislijnen.

DreamX-World 1.0: Een algemeen toepasbaar interactief wereldmodel
DreamX-World 1.0: A General-Purpose Interactive World Model

Jun 15

ByDreamX Team, Yancheng Bai, Rui Chen, Xiangxiang Chu, Rujing Dang, Hao Dou, Bingjie Gao, Qiwen Gu, Siyu Hong, Jiachen Lei, Geng Li, Jifan Li, Ruimin Lin, Qingfeng Shi, Bingze Song, Lei Sun, Jing Tang, Ruitian Tian, Jun Wang, Jiahong Wu, Pengfei Zhang, Shen Zhang, Jiashu Zhu

DreamX-World 1.0 is een algemeen toepasbaar interactief tekst/beeld-naar-video wereldmodel voor beheerbare langehorizontgeneratie. Het ondersteunt cameranavigatie, herbezoeken aan eerder waargenomen regio's en aanwijsbare gebeurtenissen in fotorealistische, game-achtige en gestileerde domeinen. Onze data-engine combineert camera-accuraat Unreal Engine-rendering, actierijke gameplay-opnames en echte wereldvideo's met herstelde camerageometrie. Voor camerabesturing introduceren we E-PRoPE, een lichte variant van projectieve positionele codering die de projectieve camerageometrie van PRoPE behoudt terwijl camera-bewuste aandacht wordt toegepast op ruimtelijk gereduceerde tokens. We zetten een bidirectionele videogenerator om in een autoregressief wereldmodel met enkele stappen door gebruik te maken van causal forcing, DMD-stijl destillatie en lange-uitrolltraining. Training op zelfgegenereerde langehorizontcontexten stelt het model bloot aan zijn eigen gegenereerde geschiedenis en vermindert de stijl- en kleurdrift die zich ophoopt over autoregressieve brokken. Memory-Conditioned Scene Persistence herstelt eerdere weergaven door op camerageometrie gebaseerd ophalen, terwijl residual recycling het conditioneringspad minder gevoelig maakt voor imperfecte geheugenlatenten. Event Instruction Tuning voegt samengestelde gebeurtenisbesturing toe, en reinforcement learning-afstemming herstelt de camerabesturing en visuele kwaliteit na destillatie. Met gemengde-precisie DiT-uitvoering, residueel hergebruik, 75%-gesnoeide VAE-decodering en asynchrone pijplijnparallellisme bereikt DreamX-World 1.0 tot 16 FPS op acht RTX 5090 GPU's. Op onze 5-seconden basisevaluatie behaalt DreamX-World 1.0 een camerabesturingsscore van 73,75 en een algemene score van 84,76, waarmee het HY-WorldPlay 1.5 en LingBot-World overtreft in algemene score, die respectievelijk 80,79 en 80,45 behalen.

VibeThinker-3B: Het verkennen van de grens van verifieerbaar redeneren in kleine taalmodellen
VibeThinker-3B: Exploring the Frontier of Verifiable Reasoning in Small Language Models

Jun 15

BySen Xu, Shixi Liu, Wei Wang, Jixin Min, Yingwei Dai, Zhibin Yin, Yirong Chen, Xin Zhou, Junlin Zhang

Dit technische rapport introduceert VibeThinker-3B, een compact dicht model met 3B parameters, ontwikkeld om te onderzoeken hoe ver verifieerbaar redeneren kan worden opgevoerd binnen een strikt klein-modelregime. Voortbouwend op het Spectrum-to-Signal post-trainingparadigma verbeteren we het model systematisch via een geoptimaliseerde pijplijn die curriculum-gebaseerd gesuperviseerd fine-tunen, multi-domein versterkingsleren en offline zelfdestillatie omvat. Experimentele evaluaties tonen aan dat VibeThinker-3B grensverleggende prestaties levert op zeer veeleisende verifieerbare taken. Specifiek behaalt het een score van 94,3 op AIME26 (verbeterend tot 97,1 met claim-niveau test-tijd schaling), een 80,2 Pass@1 op LiveCodeBench v6, en vertoont het sterke buiten-distributie generalisatie met een acceptatiegraad van 96,1% op recente ongeziene LeetCode-wedstrijden. Dit plaatst het effectief in de prestatieband van eersteklas redeneersystemen, waarbij het overeenkomt met of beter presteert dan vlaggenschipmodellen die orden van grootte groter zijn, zoals DeepSeek V3.2, GLM-5 en Gemini 3 Pro. Bovendien bevestigt een score van 93,4 op IFEval dat deze extreme redeneerverbetering geen afbreuk doet aan strikte instructiebeheersbaarheid. Als uitbreiding van ons eerdere 1,5B-werk motiveren deze bevindingen de Parametrische Compressie-Dekkingshypothese, die verifieerbaar redeneren beschouwt als comprimeerbaar in compacte redeneerkernen, terwijl open-domein kennis en algemene competentie brede parameterdekking vereisen over feiten, concepten en lange-staartscenario's. Dit perspectief suggereert dat compacte modellen niet slechts implementatie-efficiënte substituten zijn, maar een complementair pad vormen naar grensverleggende prestaties in parameter-dichte competentiegebieden.

FastContext: Het trainen van een efficiënte repository-verkenner voor codeeragenten
FastContext: Training Efficient Repository Explorer for Coding Agents

Jun 12

ByShaoqiu Zhang, Maoquan Wang, Yuling Shi, Yuhang Wang, Xiaodong Gu, Yongqiang Yao, Rao Fu, Shengyu Fu

Large Language Model (LLM) codeeragenten hebben sterke resultaten behaald bij software-engineeringtaken, maar het verkennen van repositories blijft een grote bottleneck: het lokaliseren van relevante code verbruikt aanzienlijke tokenbudgetten en vervuilt de context van de agent met irrelevante fragmenten. In de meeste agenten verkent hetzelfde model de repository en lost het de taak op, waardoor verkennende reads en searches in de geschiedenis van de oplosser achterblijven. Wij presenteren FastContext, een toegewijd verkenningssubagent dat repository-verkenning scheidt van het oplossen van taken. Op verzoek aangeroepen, voert FastContext parallelle toolaanroepen uit en retourneert het beknopte bestandspaden en lijnbereiken als gefocuste context. FastContext wordt aangedreven door gespecialiseerde verkenningsmodellen met een omvang van 4B tot 30B parameters. We bootstrappen deze vanuit sterke referentiemodeltrajecten en verfijnen ze met taakgebonden beloningen voor brede eerste-zoekactie, meerstappen-bewijsverzameling en precieze citatiegeneratie. Over SWE-bench Multilingual, SWE-bench Pro en SWE-QA verbetert integratie van FastContext in Mini-SWE-Agent de end-to-end oplossingspercentages met tot 5,5%, terwijl het tokenverbruik van de codeeragent tot 60% daalt, met marginale overhead. Deze resultaten tonen aan dat repository-verkenning gescheiden kan worden van het oplossen en effectief kan worden afgehandeld door gespecialiseerde modellen. Code en data: https://github.com/microsoft/fastcontext

Ling and Ring 2.6 Technisch rapport: Efficiënte en directe agentische intelligentie op triljoen-parameterschaal
Ling and Ring 2.6 Technical Report: Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale

Jun 13

ByAng Li, Ben Liu, Bin Han, Bin Hu, Bin Jing, Binbin Hu, Bing Li, Cai Chen, Caizhi Tang, Changxin Tian, Chao Huang, Chao Zhang, Chen Liang, Chen Qian, Chengfu Tang, Chengyao Wen, Chilin Fu, Chunwei Wu, Cong Zhang, Cunyin Peng, Daixin Wang, Dalong Zhang, Deng Zhao, Dingnan Jin, Dingyuan Zhu, Donghao Zhang, Fan Yuan, Fangzheng Zhao, Fanzhuang Meng, Feifan Wu, Feng Xu, Fengbin Fang, Gangshan Wang, Guodong Yang, Hailin Zhao, Haitao Wang, Haitao Zhang, Hanxiao Zhang, Hanzi Wang, Hao Dai, Hao Liu, Hao Qian, Hao Wu, Haoxiong Liu, Haoyu Xu, Heng Zhang, Hong Liu, Hongliang Zhang, Hongrui Liu, Hongxun Li, Hongzhi Ruan, Huaidong Xiong, Huihuang Zheng, Huikang Tang, Jia Guo, Jia Li, Jia Liu, Jiameng Wang, Jiaming Liu, Jiannan Shi, Jianping Wei, Jiaolong Yang, Jiapeng Wang, Jie Gao, Jie Wang, Jiewei Wu, Jin Yang, Jinjin Li, Jinjing Huang, Jinquan Sun, Jinyao Chen, Juanhui Tu, Jun Liu, Jun Mei, Jun Xu, Jun Zhou, Junjie Ou, Junnan Sipan, Junpeng Fang, Kaihong Zhang, Kaiqin Hu, Ke Shi, Kuan Xu, Kun Tang, Kunlong Chen, Lanyin Mei, Lei Chen, Lei Liang, Lei Xu, Li Tang, Liang Jiang, Liangcheng Fu, Lihui Zhang, Linfeng Shi, Lintao Ma, Liyuan Liu, Longfei Li, Longfei Zheng, Lu Liu, Lu Yu, Man Li, Meiqi Zhu, Meng Li, Mengjie Gao, Mengshu Sun, Mingming Yin, Mingyang Zhang, Mingyuan Fan, Nuo Xu, Pan Tang, Peijie Jiang, Peilong Zhao, Peng Lin, Pingping Liu, Qi Zuo, Qian Zhao, Qiang Cheng, Qianggang Cao, Qiaoben Bao, Qing Cui, Qingyuan Yang, Qitao Shi, Qiyin Huang, Qizheng Zhou, Quan Wan, Runyuan Zhao, Shaomian Zheng, Shaowei Wei, Shengnan Zhang, Shuaicheng Li, Shujie Li, Shuo Zhang, Sikang Bian, Tianchu Yao, Tiange Xu, Tianshu Wang, Ting Guo, Tinghao Wang, Tingwei Huang, Tong Zhao, Tongkai Yang, Wang Hong, Wanli Gu, Wei Lu, Weichang Wu, Weiguang Han, Weiquan Li, Wenbo Shen, Wenjing Fang, Wenzhi Tang, Xiang Shu, Xiao Shi, Xiaodong Yan, Xiaolu Zhang, Xiaopei Wan, Xiaqing Sun, Xin Zhao, Xingyu Lu, Xinxing Yang, Xinyao Tang, Xinyu Kong, Xinyu Liu, Xiong Xu, Xuan Sun, Xudong Han, Xudong Wang, Xujie Shen, Yalin Zhang, Yangyang Hou, Yankun Ren, Yao Zhao, Ye Chen, Yeyang Chen, Yibo Cao, Yifan Zuo, Yijie Chen, Ying Li, Yingjie Song, Yingxue Li, Yiqi Wang, Yixuan Sun, Yizhu Xiao, Yongfei Xu, Yu Liu, Yuchen Fang, Yue Gao, Yue Yu, Yue Zhang, Yuqi Zhang, Yuxiao He, Yuxiao Lu, Yuxin Tian, Yuxuan Li, Yuzhuo Fu, Zhankai Xu, Zhaoxin Huan, Zhenduo Zhang, Zhengke Gui, Zhengyu Huang, Zhenjun Ma, Zhenxuan Pan, Zheping Qu, Zhibo Zhu, Zhidong Fan, Zhigang Huangfu, Zhihao Wang, Zhiqiang Zhang, Zhizhen Liu, Zhuyan Zhou, Zibin Lin, Zihang Zeng, Zihao Wang, Zilong Wang, Ziqi Liu, Zitao Xuan, Zixuan Cheng, Zujie Wen, Zuoli Tang

Efficiënte en schaalbare agentische intelligentie vereist modellen die zowel lage-latentie-reacties als sterke redeneercapaciteiten kunnen leveren, terwijl ze praktisch blijven om te trainen, te bedienen en te implementeren. In dit rapport presenteren we Ling‑2.6 en Ring‑2.6, een familie van modellen die ontworpen is om deze uitdaging op schaal aan te pakken. Ling‑2.6 is geoptimaliseerd voor directe responsgeneratie en hoge capaciteit per uitvoertoken, terwijl Ring‑2.6 is afgestemd op diepere redenering en geavanceerdere agentische workflows. In plaats van vanaf nul te trainen, upgraden we het Ling‑2.0‑basismodel door middel van architectuurmigratie-pre-training en grootschalige post-training. Deze upgrade wordt geleid door een uniform co‑ontwerp van modelarchitectuur, optimalisatiedoelstellingen, serveersystemen en agent‑trainingsomgevingen, wat verbeteringen mogelijk maakt in zowel modelcapaciteit als implementatie‑efficiëntie. Op architectuurniveau introduceren we een hybride lineair aandachtsontwerp dat Lightning Attention integreert met MLA, wat de efficiëntie van training en decodering over lange context verbetert. Om de tokenefficiëntie verder te verbeteren, optimaliseren we de capaciteit per uitvoertoken via Evolutionary Chain‑of‑Thought, Linguistic Unit Policy Optimization, bidirectionele preferentie‑uitlijning en distilatie van de kortste correcte respons. Voor agentische capaciteiten stellen we KPop voor, een reinforcement learning‑framework dat ontworpen is om stabiele training van Ring‑2.6‑1T op grootschalige omgevingsgebonden data te ondersteunen. KPop verbetert de trainingsefficiëntie door asynchrone planning over codering, zoeken, toolgebruik en workflowuitvoering, waardoor schaalbaar leren van complexe agent‑omgevingsinteracties mogelijk wordt. Samen bieden Ling‑2.6 en Ring‑2.6 een praktische weg naar efficiënte, schaalbare en open agentische systemen. We open‑sourcen alle checkpoints in de 2.6‑familie om verder onderzoek en ontwikkeling in praktische agentische intelligentie te ondersteunen.

Wie zou nu het decoderen moeten leiden? Het volgen van betrouwbare trajecten voor het ensembleren van gemaskeerde diffusie-taalmodellen
Who Should Lead Decoding Now? Tracking Reliable Trajectories for Ensembling Masked Diffusion Language Models

Jun 15

ByHeecheol Yun, Joonhyung Park, Joowon Kim, Eunho Yang

Gemaskeerde Diffusie Taalmodellen (MDLMs) zijn uitgekristalliseerd als een eigen paradigma voor sequentiegeneratie. Naarmate MDLMs diverser worden in capaciteiten en kennisdekking, rijst de belangrijke vraag hoe hun kennis te combineren. Hiertoe onderzoeken we eerst de unieke decoderingsdynamiek van MDLMs. We ontdekken dat succesvolle generaties stabiele betrouwbaarheidsdynamiek vertonen over antwoordrelevante posities, terwijl onbetrouwbare trajecten vaak kunnen worden gecorrigeerd door het injecteren van veelbelovende tussentoestanden van andere modellen. Geleid door deze observatie stellen we TIE (Iteratief Ensemble op Basis van Trajecten) voor, een kennisintegratieraamwerk waarin MDLMs iteratief betrouwbare decoderingsbanen identificeren en deze doorgeven tussen modellen. TIE volgt de betrouwbaarheidsdynamiek over antwoordrelevante posities om te bepalen welk model op dat moment een betrouwbaarder traject volgt en selectief gedeeltelijk ontruiste sequenties overdraagt tussen modellen. Omdat het model op het veelbelovendere traject vaak verandert tijdens ontruisingsstappen, stelt TIE verschillende modellen in staat om complementaire sterktes bij te dragen in verschillende fasen van de generatie. Sterke prestaties op diverse redeneertaken, samen met onze analyses, suggereren dat TIE een praktische benadering biedt voor het onderbelichte probleem van MDLM-ensembling.

BRDFusion: Fysica Ontmoet Generatie voor Inverse Rendering van Stedelijke Scènes
BRDFusion: Physics Meets Generation for Urban Scene Inverse Rendering

Jun 15

ByYi-Ruei Liu, Jie-Ying Lee, Zheng-Hui Huang, Yu-Lun Liu, Chih-Hao Lin

Inverse rendering van stedelijke scènes uit vastgelegde video's maakt talrijke toepassingen mogelijk, waaronder contentcreatie en simulatie van autonoom rijden. Fysisch gebaseerde renderingmethoden volgen en beheersen de lichtfysica, maar hebben last van reconstructie- en renderingartefacten. Hoewel generatieve modellen realistische video's produceren, bieden ze beperkte consistentie en beheersbaarheid. Wij presenteren BRDFusion, een uniform raamwerk dat twee complementaire modellen combineert voor inverse en forward rendering. Specifiek herstelt BRDFusion expliciete, consistente scène-eigenschappen met fysische modellering en vermindert het optimalisatieambiguïteit met generatieve voorkennis. Tijdens forward rendering biedt het fysische model beheersbare weergave op basis van de scèneconfiguratie, en het generatieve model verwijdert ruis en herstelt artefacten. Daarom produceert onze methode hoogwaardige video's terwijl het nauwkeurige controle mogelijk maakt, en overtreft het de basislijnen in zowel echte als synthetische scènes. Bovendien ondersteunt BRDFusion herbelichting vanuit nieuwe perspectieven, nachtsimulatie en dynamische objectinvoeging/-bewerking. Projectpagina: https://shigon255.github.io/brdfusion-page/

VisualClaw: Een real-time, gepersonaliseerde agent voor de fysieke wereld
VisualClaw: A Real-Time, Personalized Agent for the Physical World

Jun 15

ByHaoqin Tu, Jianwen Chen, Zijun Wang, Siwei Han, Juncheng Wu, Hardy Chen, Haonian Ji, Kaiwen Xiong, Jiaqi Liu, Peng Xia, Jieru Mei, Hongliang Fei, Jason Eshraghian, Zeyu Zheng, Yuyin Zhou, Huaxiu Yao, Cihang Xie

Visie-taalmodellen dienen als algemene interfaces voor complexe multimodale taken. De implementatie kent echter nog drie hiaten: VLM's hebben doorgaans een hoge latentie en kosten bij het verwerken van dichte videoframes en lange prompts, het agentenskelet blijft statisch na implementatie, en standaard video-QA-benchmarks testen niet of agenten visueel bewijs kunnen gebruiken in tool-gebruikende werkomgevingen. We presenteren VisualClaw, een zelf-evoluerende multimodale agent gebouwd rond twee principes. Ten eerste vermindert hybride codering de implementatiekosten door minder informatieve streamingframes te filteren met een trapsgewijze poort en de tekstvaardigheidsbank te comprimeren via hot/cold top-k injectie. Ten tweede stelt vaardigheidsevolutie de agent in staat om te leren van fouten: opgehaalde herinneringen conditioneren een evolueerder als directe aaneengeschakelde context of als begeleid bewijs, wat leidt tot updates van de vaardigheidsbank die toekomstige vragen helpen. In 4 video-QA-benchmarks met 2 VLM's verlaagt VisualClaw de API-kosten per vraag gemiddeld met -98% ten opzichte van volledige frame-upload en met -25,9% ten opzichte van de offline uniforme 8-frames-baseline, terwijl de nauwkeurigheid in de meeste instellingen toeneemt, bijvoorbeeld een gemiddelde +3,85% en een piek van +15,80% op EgoSchema met Gemini 3 Flash. Om dit hiaat aan te pakken, hebben we VisualClawArena samengesteld, een multimodale agentische benchmark met 200 scenario's, gebouwd via een strikte vijf-fasenpijplijn; modellen moeten video-bewijs, documenten, dynamische updates en uitvoerbare controles binnen een werkruimte gebruiken. Op VisualClawArena verbetert hetzelfde raamwerk met computer-gebruik agent-backends de macro-nauwkeurigheid met +2,9% voor Codex (GPT-5.5) en +3,2% voor Claude Code (Sonnet 4.6) ten opzichte van baselines zonder evolutie, met een kostenreductie van -9,5% vergeleken met de uniform gesamplede baseline. Deze eigenschappen maken VisualClaw een natuurlijke keuze voor edge-toepassingen, waar de cascade een streamsessie van 1 uur reduceert van ~3.600 API-uploads tot slechts 5-20 aanroepen en de zelf-evolutie het een perfecte gepersonaliseerde assistent maakt.

Qwen-RobotWorld Technisch Rapport: Het verenigen van belichaamde wereldmodellering door middel van taalgestuurde videogeneratie
Qwen-RobotWorld Technical Report: Unifying Embodied World Modeling through Language-Conditioned Video Generation

Jun 15

ByJie Zhang, Xiaoyue Chen, Anzhe Chen, Chenxu Lv, Deqing Li, Gengze Zhou, Hang Yin, Haoqi Yuan, Haoyang Li, Jiahao Li, Jiazhao Zhang, Jingren Zhou, Kaiyuan Gao, Kun Yan, Lihan Jiang, Ningyuan Tang, Pei Lin, Qihang Peng, Shengming Yin, Tianhe Wu, Tianyi Yan, Xiao Xu, Yan Shu, Yanran Zhang, Ye Wang, Yi Wang, Yilei Chen, Yixian Xu, Yiyang Huang, Yuxiang Chen, Zekai Zhang, Zhendong Wang, Zhixing Lei, Zhixuan Liang, Zihao Liu, Zikai Zhou, Xiong-Hui Chen, Chenfei Wu

We introduceren Qwen-RobotWorld, een taal-gestuurd video wereldmodel voor belichaamde intelligentie. Met natuurlijke taal als een uniforme actie-interface voorspelt het fysiek gefundeerde toekomstige visuele trajecten op basis van huidige observaties, verspreid over robotmanipulatie, autonoom rijden, binnenhuisnavigatie en mens-robot-overdracht. Deze uniforme formulering biedt drie veelbelovende toepassingsrichtingen: synthetische datageneratie ter aanvulling van beleidstraining, schaalbare virtuele omgevingen voor beleidsevaluatie, en taal-gestuurde planningssignalen voor downstream robotbesturing. Dit wordt bereikt door een ontwerp uit drie delen: a) Double-Stream MMDiT met MLLM-actiecodering, waarbij een 60-laags double-stream diffusietransformator de ingevroren Qwen2.5-VL-semantiek koppelt aan video-VAE-latenten via laagsgewijze gezamenlijke aandacht; b) Belichaamde Wereldkennis (EWK), een corpus van 8,6M video-tekst (200M+ frames) met actie-taalkoppeling over 20+ belichamingen en 500+ actiecategorieën; en c) Algemeen+Expert Progressief Curriculum, een tweetraps trainingsstrategie die eerst algemene visuele voorkennis leert en vervolgens belichaamde specialisatie injecteert onder een gedeelde taalinterface. Uitgebreide resultaten tonen sterke concurrentiekracht: staat op de 1e plaats overall op EWMBench en DreamGen Bench, overtreft alle opensource-modellen op WorldModelBench en PBench. Aanvullende zero-shot-analyses op de RoboTwin-IF-benchmark ondersteunen verder robuuste generalisatie en multiview-consistentie.

OneRank: Geünificeerde Transformer-native Rangschikkingsarchitectuur voor Multi-Taak Aanbeveling
OneRank: Unified Transformer-Native Ranking Architecture for Multi-Task Recommendation

Jun 15

ByJiakai Tang, Sunhao Dai, Kun Wang, Zhiluohan Guo, Yu Zhao, Cong Fu, Kangle Wu, Yabo Ni, Anxiang Zeng, Xu Chen, Jun Xu

Multi-task leren (MTL) is essentieel in aanbevelingssystemen om complementair leren tussen diverse gebruikersfeedback mogelijk te maken. Hoewel moderne industriële praktijken zijn overgestapt van DNN's naar Transformer-gerichte architecturen om sequentiemodellering en schaalbaarheid te versterken, ontkoppelen ze nog steeds kenmerkencodering van multi-task voorspelling, waarbij de Transformer wordt behandeld als een taak-agnostische encoder. Dit ontwerp beperkt fundamenteel de prestaties en schaalbaarheid door (1) een informatiefles te creëren onder heterogene taakdoelstellingen, (2) gradiëntinterferentie te induceren die leidt tot het wipverschijnsel, en (3) een dataovergang af te dwingen waarin op aandacht gebaseerd, context-adaptief representatie leren wordt omgezet in statische feed-forward taakvoorspelling met incompatibele informatie-lees-schrijf-dynamiek. Wij stellen OneRank voor, een Transformer-native multi-task rangschikkingsframework dat de scheiding tussen encoder en voorspeller opheft en taakprivate kanalen introduceert voor voorwaarts representatie leren en achterwaartse optimalisatie, waardoor taakspecialisatie mogelijk wordt terwijl interferentie tussen taken wordt verminderd. In de voorwaartse pas leert OneRank taakspecifieke representaties van onderaf door taakgeconditioneerde informatie selectie, kandidaatbewuste contextualisering en gecontroleerde interactie tussen taken. In de achterwaartse pas isoleert gradiëntdetachement tussen taken taakprivate parameterupdates van gedeelde kennisextractiemodules, waardoor negatieve overdracht wordt voorkomen. We vervangen verder statische taakspecifieke MLP-scorers door dynamische, op matching gebaseerde scoring voor contextbewuste gepersonaliseerde rangschikking. Door multi-task redenering te internaliseren binnen de Transformer-stack, vestigt OneRank een uniform en schaalbaar architectuurparadigma. Offline en online experimenten op grootschalige industriële datasets tonen aan dat OneRank significant beter presteert dan state-of-the-art baselines, terwijl de computationele efficiëntie behouden blijft.

TokenPilot: Cache-efficiënt contextmanagement voor LLM-agenten
TokenPilot: Cache-Efficient Context Management for LLM Agents

Jun 15

ByBuqiang Xu, Zirui Xue, Dianmou Chen, Chenyang Fu, Chiyu Wu, Caiying Huang, Chen Jiang, Jizhan Fang, Xinle Deng, Yijun Chen, Yunzhi Yao, Xuehai Wang, Jin Shang, Gong Yu, Ningyu Zhang

Nu LLM-agenten worden ingezet in lange-horizon sessies, drijft contextaccumulatie de inferentiekosten op. Bestaande aanpakken gebruiken tekstsnoei of dynamische geheugenuitzetting om tokenvoetafdrukken te minimaliseren; echter, hun onbeperkte sequentiemutaties wijzigen lay-outs, wat leidt tot prefix-mismatches en cache-invalidatie. Dit onthult een kritieke afweging tussen tekstschaarste en promptcachecontinuïteit. Om dit aan te pakken, presenteren we TokenPilot, een tweegranulair contextbeheerframework. Globaal fungeert Innamebewuste Compactie als een raamwerkstuig om promptprefixes te stabiliseren en open-wereld omgevingsruis bij de innamepoort te elimineren. Lokaal bewaakt Levenscyclusbewuste Uitzetting de resterende bruikbaarheid van contextsegmenten en handhaaft een conservatief batch-beurt schema om inhoudsegmenten pas te offloaden wanneer de taakrelevantie vervalt. Experimenten op PinchBench en Claw-Eval in zowel geïsoleerde als continue modi tonen aan dat TokenPilot de kosten met 61% en 56% in geïsoleerde modus, en 61% en 87% in continue modus vermindert, terwijl concurrerende prestaties worden behouden in vergelijking met eerdere systemen. TokenPilot is geïntegreerd in LightMem2 op https://github.com/zjunlp/LightMem2.

BadWorld: Adversariële aanvallen op wereldmodellen
BadWorld: Adversarial Attacks on World Models

Jun 15

ByLinghui Shen, Mingyue Cui, Xingyi Yang

Visuele wereldmodellen (VWMs) synthetiseren interactieve, actie-afhankelijke rollouts op basis van een enkele contextafbeelding. Het blijft echter een open vraag hoe robuust deze modellen zijn tegen adversarial verstoringen. Standaard adversarial aanvallen schieten tekort in het beoordelen van deze kwetsbaarheid omdat aanvallers geen grondwaarheid hebben voor toekomstige video's en de daaropvolgende gebruikersacties niet kunnen voorspellen. We introduceren BadWorld, een labelvrij adversarial raamwerk dat specifiek is ontworpen voor autoregressieve VWMs en beide beperkingen systematisch overwint. Ten eerste stellen we, om de noodzaak van toekomstige supervisie te omzeilen, een zelfgesuperviseerde snelheidsaanval voor die direct de vroege denoisingdynamiek van het model verstoort. Ten tweede formuleren we, om ervoor te zorgen dat de aanval generaliseert over onvoorspelbare gebruikersacties, een traject-adaptieve bi-level optimalisatie die actief moeilijke besturingsreeksen ontgint om controle-agnostische verstoringen te smeden. Geëvalueerd op representatieve VWMs met continue en discrete besturingen, onthult BadWorld ernstige structurele fragiliteit. Visueel niet te onderscheiden adversarial beelden leiden betrouwbaar tot catastrofale degradatie in toekomstige rollouts, resulterend in onvolledige denoising, structurele ineenstorting en besturingsinconsistentie. Deze bevindingen leggen kritieke risico's bloot voor de inzet van VWMs in veiligheid-kritische systemen, terwijl ze ook een praktisch mechanisme voor privacybescherming benadrukken.

Ophalen, Niet Opnieuw Trainen: Uitbreiding van Visie-Taal-Actiemodellen naar Nieuwe Taken tijdens de Testfase
Retrieve, Don't Retrain: Extending Vision Language Action Models to New Tasks at Test Time

Jun 14

ByJeongeun Park, Juhan Park, Taekyung Kim, Sungjoon Choi, Dongyoon Han, Sangdoo Yun

Het uitbreiden van een visie-taal-actie (VLA)-beleid naar een nieuwe taak vereist doorgaans taakspecifieke op afstand bestuurde demonstraties en per-taak fine-tuning, wat aanpassing kostbaar maakt qua zowel gegevensverzameling als rekenkracht. In dit artikel tonen we aan dat deze aanpassingskosten per taak aan de doelzijde kunnen worden vervangen door retrieval. Ons retrieval-versterkte beleid wordt eenmalig getraind op gepaarde demonstraties van de beoogde belichaming (query) en een goedkopere belichaming (pool, bijv. een menselijke handvideo), en vervolgens bevroren. Nieuwe taken worden tijdens de inzet toegevoegd door demonstraties van de poolzijde aan een retrieval-pool toe te voegen. Het bevroren beleid conditioneert op opgehaalde trajecten bij iedere controlestap, zodat nieuwe taken worden geabsorbeerd door het indexeren van gegevens in plaats van het bijwerken van parameters. Fine-tuning is alleen nodig om een nieuwe, ongeziene belichaming aan te nemen, niet voor elke nieuwe taak. We tonen aan dat retrieval beleid verbetert naast een specifieke backbone, inclusief standaard VLA-beleid, maar het effect is vooral uitgesproken in Cosmos Policy, een op videogeneratie gebaseerd wereld-actiemodel (WAM). In deze setting levert retrieval een grove taakprogressie, terwijl de toekomstbeelddoelstelling van de WAM een extra visueel consistentiesignaal biedt dat de retrieval-geconditioneerde acties versterkt. Op PushT bestuderen we hoe retrieval een herbruikbare hoog-niveau bewegingsprior biedt voor cross-embodiment generalisatie naar ongeziene doelhoeken, terwijl op RoboTwin 2.0 onze methode cross-embodiment baselines overtreft op ongeziene taken, en we demonstreren de methode bovendien op een echte robot.

SP^3: Sferische Priors voor Plug-and-Play Herstel
SP^3: Spherical Priors for Plug-and-Play Restoration

Jun 15

BySean Man, Ron Raphaeli, Matan Kleiner, Or Ronai

In dit artikel introduceren wij SP^3, een nieuw Plug-and-Play-algoritme dat maximum a posteriori-beeldherstel versnelt door ruisonderdrukkers te vervangen door sferische encoders (SE) als generatieve voorkennis. SP^3 benadert de onhandelbare proximale voorkennisstap door de strak gestructureerde latente ruimte van de SE te gebruiken als een robuuste projectie op de natuurlijke beeldmanifold. Het afwisselen van deze projectie met een gesloten-vorm dataconsistentiestap, via half-kwadratische splitsing (Half-Quadratic Splitting), levert stabiele convergentie op zonder dat gradiëntberekening nodig is tijdens de inferentie. Deze unieke formulering maakt 'altijd-beschikbaar' herstel mogelijk, waarbij al vanaf de eerste iteratie scherpe, aannemelijke beelden worden gegenereerd. Evaluaties over een verscheidenheid aan beeldhersteltaken tonen aan dat SP^3 een perceptuele kwaliteit bereikt die vergelijkbaar is met state-of-the-art zero-shot diffusie- en stromingsmethoden, terwijl het 3 tot 630 keer sneller is.

Memento: Reconstrueren om te Onthouden voor Consistente Lange Video Generatie
Memento: Reconstruct to Remember for Consistent Long Video Generation

Jun 12

ByXuan Wei, Longbin Ji, Guan Wang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Qingqi Hong

Het genereren van lange video's vereist dat terugkerende onderwerpen consistent blijven over verschillende shots, gezichtspunten, bewegingen en scènewisselingen. Bestaande temporele decompositiemethoden verbeteren de schaalbaarheid door video's shot voor shot te genereren. Ze richten zich echter voornamelijk op het optimaliseren van plausibele vervolgen van het volgende shot, zonder te verifiëren of het historische geheugen identiteitskritische aanwijzingen van het onderwerp bewaart. Als gevolg hiervan kunnen terugkerende onderwerpen worden verdund, overschreven of vergeten naarmate de generatie vordert. In dit artikel stellen we Memento voor, een door onderwerpreconstructie geleid raamwerk dat onderwerpsbehoud behandelt als een expliciet identiteitsverankeringsprobleem, gebaseerd op de premisse dat een geheugenbank die een onderwerp getrouw bewaart, de reconstructie van dat onderwerp uit alleen het geheugen zou moeten ondersteunen. Specifiek traint Memento gelijktijdig autoregressieve generatie van het volgende shot met op geheugen gebaseerde onderwerpreconstructie, waarbij de doelverschijningen worden hersteld met behulp van historisch geheugen en globale verhaalbijschriften. Om langetermijnbewijsmateriaal van het onderwerp te scheiden van kortetermijnaanwijzingen, introduceert Memento een dual-query geheugenmechanisme, waarbij de ene query identiteitsrelevant geheugen ophaalt en de andere keyframes met korte context selecteert voor coherente voortzetting. Bovendien biedt een onderwerpbewuste cinematische datapijplijn nauwkeurige reconstructiesupervisie via consistente, voornaamwoordvrije onderwerpomschrijvingen. Experimenten tonen aan dat Memento state-of-the-art prestaties levert op het gebied van consistentie van onderwerpen op lange termijn, coherentie tussen shots en visuele kwaliteit.

MVEB: Grootschalige Video-Embedding Benchmark
MVEB: Massive Video Embedding Benchmark

Jun 12

ByAdnan El Assadi, Roman Solomatin, Isaac Chung, Chenghao Xiao, Deep Shah, Manan Dey, Shriya Sudhakar, Zacharie Bugaud, Wissam Siblini, Ayush Sunil Munot, Yashwanth Devavarapu, Rakshitha Ireddi, Michelle Yang, Márton Kardos, Niklas Muennighoff, Kenneth Enevoldsen

We introduceren de Massive Video Embedding Benchmark (MVEB), een benchmark met 23 taken voor video-embeddings, waaronder classificatie, zero-shot classificatie, clustering, paarclassificatie, retrieval en video-gerichte vraagbeantwoording. We evalueren 33 modellen en constateren dat geen enkel model domineert: MLLM-gebaseerde embeddings presteren het best op classificatie, clustering, paarclassificatie en QA; multimodale binding presteert het best op retrieval en zero-shot classificatie; generatieve MLLM's zonder contrastieve aanpassing presteren slecht op cross-modale taken. Gepaarde video-only versus audio+video-evaluaties tonen aan dat de bijdrage van audio afhangt van de herkomst van datasetannotaties: audio helpt wanneer labels uit beide modaliteiten zijn geproduceerd en schaadt wanneer ze uitsluitend uit visuele informatie zijn geproduceerd, een kloof van zes punten die consistent is over modelfamilies heen. MVEB is afgeleid van MVEB+, een pool van 184 taken, en is ontworpen om taakdiversiteit te behouden terwijl de evaluatiekosten worden verlaagd. Het integreert in het MTEB-ecosysteem voor uniforme evaluatie over tekst, beeld, audio en video. We geven MVEB en alle 184 taken vrij, samen met code en een leaderboard op https://github.com/embeddings-benchmark/mteb.

Nemotron 3 Ultra: Open, Efficiënt Mixture-of-Experts Hybride Mamba-Transformer Model voor Agentisch Redeneren
Nemotron 3 Ultra: Open, Efficient Mixture-of-Experts Hybrid Mamba-Transformer Model for Agentic Reasoning

Jun 12

ByNVIDIA, Aaron Blakeman, Aaron Thomas, Aastha Jhunjhunwala, Abhibha Gupta, Abhinav Khattar, Adam Rajfer, Adi Renduchintala, Adil Asif, Aditya Vavre, Adriana Flores Miranda, Ahmad Bilal, Aileen Zaman, Ajay Hotchandani, Akanksha Shukla, Akhiad Bercovich, Aleksander Ficek, Alex Gronskiy, Alex Kondratenko, Alex Steiner, Alex Ye, Alexander Bukharin, Alexandre Milesi, Ali Taghibakhshi, Alice Gatti, Alisa Liu, Alok Kumar, Amar Phanishayee, Ameya Sunil Mahabaleshwarkar, Amir Klein, Amit Zuker, Amnon Geifman, Anahita Bhiwandiwalla, Ananth Subramaniam, Andrea Santilli, Andrew Fulks, Andrew McHarg, Andrew Tao, Andrii Skliar, Anjulie Agrusa, Ankur Srivastava, Ankur Verma, Anna Shors, Anna Warno, Antoni-Joan Solergibert I Llaquet, Arham Mehta, Arkadiusz Nowaczynski, Arti Jain, Ashwath Aithal, Ashwin Poojary, Asif Ahamed, Asit Mishra, Asma Kuriparambil Thekkumpate, Atefeh Sohrabizadeh, Avinash Kaur, Avinash Vem, Ayush Dattagupta, Barath Subramaniam Anandan, Bardiya Sadeghi, Ben Lanir, Benedikt Schifferer, Besmira Nushi, Bilal Kartal, Bill Thiede, Bita Darvish Rouhani, Bo Deng, Bob Schatz, Boris Ginsburg, Boxin Wang, Brad Nemire, Brandon Norick, Brian Dang, Brian Westphal, Brian Yu, Brucek Khailany, Bryan Catanzaro, Carlo del Mundo, Caryln Aarish, Chankyu Lee, Chantal Hwang, Charbel Sakr, Charles Wang, Charlie Truong, Chen Cui, Cheng Cheng, Cheng-Ping Hsieh, Chenghao Zhang, Chenhui Deng, Chintan Patel, Chris Alexiuk, Christian Cosgrove, Christian Munley, Christine Harvey, Christopher Parisien, Chunyang Shen, Coco Li, Collin Neale, Cynthia Gao, Cyril Meurillon, Dan Gil, Dan Su, Dan Zhao, Dane Corneil, Daniel Afrimi, Daniel Egert, Daniel Korzekwa, Daniel Lo, Daniel Machlab, Daniel Serebrenik, Daniil Sorokin, Daria Gitman, Daria Levy, Darko Stosic, David Mosallanezhad, David Yu, Davit Karamyan, Deena Donia, Deep Debroy, Deepak Narayanan, Devin O'Kelly, Dheeraj Peri, Dhruv Nathawani, Di, Wu, Dima Rekesh, Divyanshu Kakwani, Donald Plummer, Dong Anh, Dongfeng Yu, Dongfu Jiang, Donnie Kim, Dorrin Poorkay, Duncan Riach, Dusan Stosic, Dustin VanStee, Eavan Meng, Edgar Minasyan, Edward Lin, Eileen Margaret Peters Long, Elad Sarafin, Elad Segal, Elena Lantz, Ellie Evans, Elliott Ning, Eric Chung, Eric Harper, Eric Pham-Hung, Eric Tramel, Eric Yang, Erick Galinkin, Erik Pounds, Erika Goncalves Goncalves, Evan Briones, Evan Wu, Evelina Bakhturina, Evgeny Tsykunov, Ewa Dobrowolska, Faisal Ladhak, Farzan Memarian, Fay Wang, Fei Jia, Felipe Soares, Felipe Vieira Frujeri, Feng Chen, Fengguang Lin, Ferenc Galko, Frank Sun, Frankie Siino, Frida Hou, Gal Hubara Agam, Gal Kaplun, Gantavya Bhatt, Gargi Prasad, Garvit Kulshreshtha, George Armstrong, Gerald Shen, Giulio Borghesi, Gordana Neskovic, Gorkem Batmaz, Grace Lam, Greg Mason, Greg Pauloski, Grigor Nalbandyan, Grzegorz Chlebus, Grzegorz Karch, Guan-Ting Liu, Guoming Zhang, Guyue Huang, Haggai Maron, Haifeng Qian, Haim Elisha, Haoxing Ren, Haran Kumar Shiv Kumar, Haribhau Hud, Harris Nover, Harrison Saturley Hall, Hayate Iso, Helen Ngo, Herbert Hum, Herman Sahota, Hexin Wang, Himanshu Soni, Hovhannes Tamoyan, Hua Li, Huanhuan Chen, Hui Li, Hui Wang, Huy Nguyen, Ian Chiles, Ido Galil, Ido Shahaf, Igor Gitman, Igor Shovkun, Ilya Loshchilov, Ingo Guehring, Itamar Schen, Itay Levy, Itay Neeman, Ivan Moshkov, Izik Golan, Izzy Putterman, Jaemin Choi, Jakub Slowikowski, Jan Kautz, Jane Polak Scowcroft, Jared Casper, Jatin Mitra, Jeffrey Glick, Jenny Chen, Jesse Oliver, Jiacheng Xu, Jiafan Zhu, Jialin Song, Jian Zhang, Jiantao Jiao, Jiaqi Zeng, Jie Lou, Jim King, Jimmy Zhang, Jingquan Wang, Jinhang Choi, Jinju Chu, Joey Conway, Joey Guman, Johan Jatko, Johannes Rausch, John Kamalu, John Roberts, Johnny Greco, Johnny Mensel, Jonah Alben, Jonas Yang, Jonathan Cohen, Jonathan Raiman, Joseph Jennings, Joshua Mabry, Joshua Pierce, Joyjit Daw, Julien Veron Vialard, Junkeun Yi, Jupinder Parmar, Kajal Jain, Kan Zhu, Kari Briski, Katherine Cheung, Katherine Luna, Keith Willowhawk, Keith Wyss, Keshav Santhanam, Kevin Shih, Kezhi Kong, Khanh Nguyen, Khushi Bhardwaj, Kirthi Shankar Sivamani, Konstantinos Krommydas, Krishna C. Puvvada, Krzysztof Pawelec, Kumar Anik, Kyle Keprios, Kylie Day, Lawrence McAfee, Leo Du, Leon Derczynski, Li Ding, Linda Liu, Lingjie Wu, Lior Kadoch, Lizzie Wei, Luis Vega, Luke Robison, Lun Su, Maarten Van Segbroeck, Maciej Jakub Mikulski, Maer Rodrigues de Melo, Magda Sypula, Mahan Fathi, Makesh Narsimhan Sreedhar, Makesh Tarun Chandran, Manoj Kilaru, Maor Ashkenazi, Marc Cuevas, Marc Romeijn, Marcin Chochowski, Mark Cai, Mark Mozolewski, Markus Kliegl, Marta Stepniewska-Dziubinska, Martyna Patelka, Mattei Machczynski, Matvei Novikov, Mauricio Ferrato, Maximilian Golub, Mehrzad Samadi, Melissa Corpuz, Mengru Wang, Mengxi Wu, Meredith Price, Meriem Boubdir, Micah Schaffer, Michael Andersch, Michael Boone, Michael Gschwind, Michael Lightstone, Michael Loh, Michal Bien, Michal Zawalski, Michelle Gill, Miguel Martinez, Mikail Khona, Mike Chrzanowski, Mike Houston, Mingyuan Ma, Minseok Lee, Mohamed Fawzy, Mohammad Dabbah, Mohammad Shoeybi, Mostofa Patwary, Nabin Mulepati, Najeeb Nabwani, Namit Dhameja, Narimane Hennouni, Natalie Hereth, Nathaniel Pinckney, Nave Algarici, Nave Assaf, Netanel Haber, Nicholas Knight, Nick Reamaroon, Nickson Quak, Nidhi Bhatia, Nikhil Desai, Nikolai Ludwig, Nima Tajbakhsh, Ning Xu, Nir Ailon, Nirmal Juluru, Nitin Nitin, Ofri Masad, Oleg Rybakov, Oleksii Hrinchuk, Oleksii Kuchaiev, Olivia Viessmann, Olivier Delalleau, Oluwatobi Olabiyi, Omer Ullman Argov, Omri Puny, Oren Tropp, Pablo Ribalta, Pallab Bhattacharya, Panos Lampropoulos, Parth Mannan, Pasha Shamis, Patrick Legresley, Paul Gibbons, Pavlo Molchanov, Pawel Morkisz, Peter Dykas, Peter Jin, Pierre-Yves Aquilanti, Pinky Xu, Piotr Januszewski, Piotr Laskiewicz, Pooya Jannaty, Prakash Gurumurthy, Pranav Prashant Thombre, Prasoon Varshney, Pritam Gundecha, Przemek Tredak, Puhui Meng, Qiyu Wan, Rabeeh Karimi Mahabadi, Rachel Oberman, Rachit Garg, Radha Sri-Tharan, Rahul Kandu, Rakshit Sanadhya, Ran El-Yaniv, Ran Zilberstein, Rasoul Shafipour, Ray Macalisang, Rayen Tian, Reka Kovacs, Renjie Pi, Rick Izzo, Rima Shahbazyan, Rishabh Garg, Rishi Puri, Rita Fernandes Neves, Ritchie Zhao, Ritika Borkar, Ritu Gala, Riyad Islam, Robert Clark, Robert Hesse, Robert Kirby, Roger Waleffe, Rohit Watve, Roi Koren, Ron Banner, Ruoxi Zhang, Russell J. Hewett, Ryan Prenger, Ryan Stewart, Ryota Egashira, Sadegh Mahdavi, Saee Paliwal, Sagar Singh, Sahil Modi, Salika Dave, Samantha Shinagawa, Samuel Kriman, Sandip Bhaskar, Sangkug Lym, Sanjay Kariyappa, Sanjeev Satheesh, Saran Vikas Murari, Satish Pasumarthi, Saurabh Mishra, Saurav Muralidharan, Scott Hara, Sean Narentharen, Selvaraj Anandaraj, Seonjin Na, Seonmeyong Bak, Seonmyeong Bak, Sepehr Sameni, Seph Mard, Serge Panev, Seth Henneman, Seth Poulos, Shahar Mor, Shantanu Acharya, Shaona Ghosh, Sharath Turuvekere Sreenivas, Sharon Mendelson, Shaun Kotek, Shawn Wang, Shay Aharon, Shaya Gharghabi, Sheng-Chieh Lin, Shi Chen, Shiqing Fan, Shirish Baskaran, Shreya Gopa, Shrimai Prabhumoye, Shubham Pachori, Shubham Toshniwal, Shuoyang Ding, Shwetha Krishnamurthy, Siddharth Singh, Simeng Sun, Sirshak Das, Sivakumar Arayandi Thottakara, Smita Ithape, Somshubra Majumdar, Soumye Singhal, Sri Harsha Singudasu, Sridhar Bhuvanapalli, Srimukh Veccham, Stas Sergienko, Stefania Alborghetti, Stephen Ge, Su Rong, Sugam Dipak Devare, Sukrit Rao, Sumeet Kumar Barua, Sungsoo Ha, Sunny Gai, Suriya Gunasekar, Suseella Panguluri, Suyog Gupta, Sviataslau Hinzburh, Sweta Priyadarshi, Syeda Nahida Akter, Talor Abramovich, Tan Bui, Tanay Varshney, Tatevik Ter-Hovhannisyan, Teodor-Dumitru Ene, Terry Kong, Thanh Do, Tianhe Zhang, Tiffany Moore, Tijmen Blankevoort, Tim Moon, Tiyasa Mitra, Tom Balough, Tomasz Grzegorzek, Tomasz Hliwiak, Tomer Asida, Tomer Bar Natan, Tomer Keren, Tomer Ronen, Tony Salim, Tony Wang, Traian Rebedea, Tugrul Konuk, Twinkle Vashishth, Udi Karpas, Ushnish De, Vahid Noorozi, Venkat Srinivasan, Venmugil Elango, Vibhor Agrawal, Victor Cui, Vijay Korthikanti, Vikas Mehta, Vinay Rao, Virginia Wu, Vitaly Kurin, Vitaly Lavrukhin, Vladimir Anisimov, Vu Pham, Wanli Jiang, Wasi Uddin Ahmad, Wataru Ishihara, Wei Du, Wei Ping, Weiheng Chai, Wenliang Dai, Wesley Helmholz, Will Jennings, Will Zhu, Wojciech Prazuch, Xiaowei Ren, Xiwen Yu, Yan Breek, Yang Chen, Yang Yu, Yangyi Chen, Yaniv Galron, Yashaswi Karnati, Yejin Choi, Yev Meyer, Yi-Fu Wu, Yian Zhang, Ying Lin, Yonatan Geifman, Yonggan Fu, Youngeun Kwon, Yu Yao, Yugi Guvvla, Yuki Huang, Yunsheng Liu, Zach Moshe, Zachary Newell, Zhilin Wang, Zhiyu Li, Zhongbo Zhu, Zhuolin Yang, Zihan Liu, Zijie Yan, Zsolt-Alon Wertheimer

We introduceren Nemotron 3 Ultra, een Mixture-of-Experts Hybride Mamba-Attention taalmodel met in totaal 550 miljard en 55 miljard actieve parameters. We hebben Nemotron 3 Ultra voorgetraind op 20 biljoen teksttokens, de contextlengte uitgebreid tot 1M tokens, en nagekwantiseerd met behulp van Supervised Fine Tuning (SFT), Reinforcement Learning (RL) en Multi-teacher On-Policy Distillation (MOPD). Nemotron 3 Ultra is ons meest capabele model tot nu toe en maakt gebruik van meerdere sleuteltechnologieën – LatentMoE, Multi Token Prediction (MTP), NVFP4-voorbereiding, multi-omgeving RLVR, MOPD en redeneerbudgetcontrole. Nemotron 3 Ultra behaalt tot ~6x hogere inferentiedoorvoer in vergelijking met state-of-the-art openbaar beschikbare LLM's, terwijl het een vergelijkbare nauwkeurigheid behaalt. De state-of-the-art nauwkeurigheid, hoge inferentiedoorvoer en 1M token contextlengte maken Nemotron 3 Ultra ideaal voor langdurige autonome agenttaken. We open-sourcen de basis-, nagekwantiseerde en geposttrainde checkpoints, samen met de trainingsdata en het recept op HuggingFace.

CODA-BENCH: Kunnen code-agenten data-intensieve taken aan?
CODA-BENCH: Can Code Agents Handle Data-Intensive Tasks?

Jun 13

ByYuxin Zhang, Ju Fan, Meihao Fan, Shaolei Zhang, Xiaoyong Du

Geavanceerde agenten tonen steeds vaker het vermogen om als autonome ingenieurs te opereren, wat leidt tot een groeiende vraag naar evaluatiebenchmarks die de complexiteit van echte ontwikkelomgevingen weerspiegelen. Dergelijke omgevingen omvatten doorgaans zowel complexe code als grootschalige data (bijv. bestandssystemen). Bestaande benchmarks evalueren echter meestal codegerichte of datagerichte capaciteiten afzonderlijk, waardoor er een duidelijke kloof is met reële ontwikkelscenario's. In dit artikel overbruggen we deze kloof door CODA-BENCH te introduceren, de eerste benchmark die code- en data-intelligentie gezamenlijk evalueert in een data-intensieve omgeving. We bouwen een data-intensieve Linux-sandbox op basis van het Kaggle-ecosysteem (met honderden datasets), waarin agenten actief complexe bestandshiërarchieën moeten verkennen om relevante bronnen te identificeren en code te genereren voor data-gedreven analytische taken. CODA-BENCH omvat 1.009 taken uit 31 gemeenschappen, waarbij elke taakomgeving gemiddeld 980 bestanden bevat, wat realistische dataschaal en ruis simuleert. Evaluaties van geavanceerde agenten tonen aan dat zelfs toppresterende systemen moeite hebben om gegevensontdekking effectief te integreren met code-uitvoering, met een succespercentage van slechts 61,1%. Deze resultaten benadrukken een substantiële kloof in de huidige agentcapaciteiten voor data-intensieve taken en wijzen op veelbelovende richtingen voor toekomstig onderzoek.

Waar ging het mis? Procesniveau-evaluatie van webagenten met semantische toestandstracking
Where Did It Go Wrong? Process-Level Evaluation of Web Agents with Semantic State Tracking

Apr 8

ByJiwan Chung, JiHyuk Byun, Vibhav Vineet, Seon Joo Kim

Webagenten handelen in lange interactiesequenties, maar bestaande benchmarks evalueren alleen het uiteindelijke succes, negeren alle procesinformatie en bieden weinig richtlijnen voor verbetering. In dit werk voeren we een analyse op procesniveau van webagenten uit. We introduceren WebStep, een benchmark met 1.800 taakinstanties met gecontroleerde moeilijkheidsgraad en automatische semantische toestandsregistratie. Elke website stelt een deterministische semantische MDP bloot naast de GUI: de agent bedient de interface, terwijl de omgeving op de achtergrond de toestanden en overgangen op hoog niveau vastlegt, wat fijnmazige analyse mogelijk maakt zonder handmatige annotatie. Op basis van het semantische traject tonen we eerst aan dat procesmetingen verschillen onthullen die onzichtbaar zijn voor uitkomstevaluatie: drie agenten waarvan de succespercentages binnen 31-33% liggen, verschillen in verrijkingsbereik versus uitvoeringsnauwkeurigheid. Vervolgens karakteriseert decompositie per vaardigheid de aard van deze verschillen, waarbij tegengestelde rankings per vaardigheid binnen dezelfde website naar voren komen: bijvoorbeeld op Housing presteert OpenAI CUA 23,7% beter dan Qwen3.5 bij commit-acties, maar 15,6% slechter bij filteren, wat een concrete te verbeteren vaardigheid aanwijst, zelfs binnen een domein. Bifurcatieanalyse lokaliseert verder de beslissende fout die de taak verloren doet gaan en toont aan dat deze fout agentspecifiek is in plaats van gedeeld. Ten slotte worden deze verschillen groter naarmate taken moeilijker worden: het succespercentage is vergelijkbaar bij eenvoudige taken, maar scheidt scherp naarmate verkenning veeleisender wordt. Onze analyse op procesniveau opent een nieuwe weg in de evaluatie van webagenten en biedt fijnmazig en bruikbaar inzicht in waar en hoe elke agent verbeterd zou moeten worden.

GD²PO: Verminderen van multi-beloningsconflicten via groepsdynamische beloningsontkoppelde beleidsoptimalisatie
GD^2PO: Mitigating Multi-Reward Conflicts via Group-Dynamic reward-Decoupled Policy Optimization

Jun 15

ByHaotian Liu, Yihao Liu, Jingwei Ni, Siyuan Huang, Xinpeng Liu, Pengyu Cheng, Jiajun Song, Ruijin Ding, Junfeng Li, Zhechao Yu, Mengyu Zhou, Hongteng Xu, Xiaoxi Jiang, Guanjun Jiang

Naarmate grote taalmodellen (LLMs) zich verder ontwikkelen, wordt post-training versterkend leren (RL) steeds afhankelijker van multidimensionale beloningen om uitgebreide capaciteiten te cultiveren. Deze verschuiving vereist nieuwe algoritmen die in staat zijn diverse en potentieel concurrerende doelstellingen gelijktijdig te optimaliseren. Om dit aan te pakken, decomponeren bestaande methoden zoals Group reward-Decoupled Policy Optimization (GDPO) de totale score in onafhankelijke beloningsgroepen, waarna de RL-verliesfunctie per groep afzonderlijk wordt berekend. Deze strategie stuit echter nog steeds op multi-beloningsconflicten: een enkele rollout kan positieve advantages opleveren voor bepaalde beloningsdimensies, maar negatieve voor andere, waardoor tegenstrijdige signalen elkaar tijdens aggregatie opheffen en de efficiëntie van RL-training verder belemmeren. Geïnspireerd door Dynamic sAmpling Policy Optimization (DAPO), dat de RL-trainingsefficiëntie verbetert door ineffectieve rollouts met bijna nul advantages te filteren, stellen wij Group-Dynamic reward-Decoupled Policy Optimization (GD²PO) voor. Specifiek gebruikt GD²PO een conflictbewust filteringsmechanisme om rollouts te maskeren die lijden onder ernstige beloningsgewijze onenigheid. Door te voorkomen dat conflicterende signalen elkaar opheffen, behoudt en versterkt deze maskeringsstrategie de omvang van effectieve RL-advantages, waardoor de leerefficiëntie aanzienlijk wordt versneld. Bovendien introduceren we queryniveau-herweging om de update-intensiteit van elke query dynamisch aan te passen op basis van de algehele beloningsconsensus. Experimenten in diverse multi-beloningsscenario's, waaronder tool calling en afstemming op menselijke voorkeuren, tonen aan dat GD²PO consequent en significant beter presteert dan bestaande baselines. De code is beschikbaar op https://github.com/Qwen-Applications/GD2PO.

PhoneHarness: het inzetten van telefoongebruikagenten door middel van gemengde GUI-, CLI- en toolacties
PhoneHarness: Harnessing Phone-Use Agents through Mixed GUI, CLI, and Tool Actions

Jun 12

ByChenxin Li, Zhengyao Fang, Zhengyang Tang, Pengyuan Lyu, Xingran Zhou, Xin Lai, Fei Tang, Liang Wu, Yiduo Guo, Weinong Wang, Junyi Li, Yi Zhang, Yang Ding, Huawen Shen, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Chengquan Zhang, Han Hu

Van telefoonagenten wordt steeds vaker verwacht dat ze echte mobiele workflows voltooien, in plaats van alleen de volgende schermactie te voorspellen. Desondanks evalueert een groot deel van de huidige literatuur over mobiele agenten hen nog steeds primair als GUI-controllers die een scherm observeren, tikken en vegen uitvoeren, en worden beoordeeld op de doelapp-status. Echte telefoongebruikstaken zijn breder: ze vereisen beslissingen over wanneer app-GUI's, apparaatzijdige commando's of gestructureerde hulpmiddelen te gebruiken, terwijl ze bewijs moeten achterlaten dat het beoogde neveneffect daadwerkelijk is opgetreden. We introduceren PhoneHarness, een gemengde-actiebenchmark en uitvoeringsharness voor het bestuderen van telefoongebruikagenten op verifieerbare mobiele workflows. PhoneHarness voert een apparaatzijdige agentloop uit over GUI-, CLI- en hostzijde-toolacties, waarbij deterministische actieroutering wordt gecombineerd met begrensde GUI-delegatie en controleerbare uitvoeringssporen. De bijbehorende benchmark, PhoneHarness Bench, evalueert of agenten taken voltooien met waarneembare neveneffecten, niet alleen of ze plausibele eindantwoorden produceren. Op de geannoteerde evaluatiesplitsing bereikt PhoneHarness een slagingspercentage van 75,0%, waarmee het de sterkste niet-PhoneHarness-instellingen met 12,9 procentpunten overtreft. PhoneHarness en PhoneHarness Bench vervullen daarom verschillende maar onderling afhankelijke rollen: de harness maakt gemengde telefoonworkflows uitvoerbaar, terwijl de benchmark meet of agenten die harness betrouwbaar en veilig kunnen gebruiken. Onze bevindingen suggereren dat betrouwbare telefoonautomatisering afhankelijk is van actieoppervlakterouting en verifieerbare uitvoering, niet alleen van visuele GUI-controle.

UniDDT: Unificatie van multimodaal begrip en generatie met ontkoppelde diffusietransformer
UniDDT: Unifying Multimodal Understanding and Generation with Decoupled Diffusion Transformer

Jun 15

ByShuai Wang, Liang Li, Yang Chen, Ruopeng Gao, Yao Teng, Limin Wang

Unified Multimodale Modellen (UMM's) zijn naar voren gekomen als een cruciale richting voor algemene multimodale intelligentie, waarbij begrip en generatie in één raamwerk worden geïntegreerd. Bestaande UMM's staan echter voor prominente uitdagingen: (1) de inherente leerconflicten tussen visuele begripstaken en generatietaken, wat leidt tot suboptimale modellering in beide taken; (2) verschillende visuele ruimtes voor begrip en generatie die de schaalbaarheid belemmeren; (3) overmatige afhankelijkheid van taakspecifieke gegevens die de dualiteit van tekst-beeld begrip en generatie verwaarloost. Om deze uitdagingen aan te pakken, stellen we UniDDT voor, dat gebruikmaakt van een Noisy ViT-encoder samen met een LLM om semantische codering te verenigen voor visuele generatie- en begripstaken, terwijl een aparte diffusiedecoder wordt gebruikt om diffusiedecodering van tekstdecodering te ontkoppelen. Met deze Noisy ViT-encoder kan UniDDT de latente ruimte gebruiken als een uniforme visuele representatie, waardoor naadloze compatibiliteit tussen begrips- en generatietaken mogelijk wordt. Zo kan de schaalbaarheid binnen de generatietaken en de semantische expressiviteit binnen de begripstaken in evenwicht worden gebracht. Ook construeren we dubbele datastructuren uit dezelfde beeld-tekstparen, wat de onderlinge afhankelijkheid tussen de generatie- en begripsgegevens bevordert om hun inherente dualiteit te benutten. Uitgebreide experimenten tonen aan dat UniDDT een effectieve unificatie van multimodaal begrip en generatie bereikt met verbeterde semantische consistentie en schaalbaarheid. Voor visuele generatietaken behaalt onze UniDDT een GenEval-score van 0,87 en een DPG-totaalscore van 86,9. Voor multimodale begripstaken behaalt onze UniDDT een score van 1699,5 op de MME-benchmark en een totaalscore van 76,5 op SEEDbench.

Tangram: Het ontsluiten van niet-uniforme KV-cachecompressie voor efficiënte multi-turn LLM-service
Tangram: Unlocking Non-Uniform KV Cache Compression for Efficient Multi-turn LLM Serving

Jun 15

ByHyungmin Kim, Minsoo Kim, Hongseok Kim, Jungwook Choi

Het bedienen van meerstaps-LLM's accumuleert gespreksgeschiedenis waarvan de Key-Value (KV) cache bij elke beurt en elke gebruiker groeit, waardoor deze snel de modelgewichten overtreft en geheugen—niet rekenkracht—de bindende beperking voor doorvoer wordt. Niet-uniforme KV-compressie, die heterogene budgetten toewijst over aandachtskoppen, behoudt de nauwkeurigheid veel beter dan uniforme schema's, maar blijft onpraktisch: moderne bedieningsstacks nemen identieke KV-lengtes over koppen aan, waardoor heterogeniteit vrijgekomen geheugen opsluit als paginascattering, tot 25% van de prefill-tijd besteedt aan het terugwinnen van verspreide pagina's, en GPU-workloads scheef trekt die de decode-latentie met tot 1,7 keer verhogen of 15–20% van elke decodestap verbranden aan herplanning. Wij observeren dat deze heterogeniteit niet tijdens runtime ontdekt hoeft te worden: de retentie per kop volgt een structurele regelmaat op twee niveaus—een invoerinvariante kopranglijst met nauw begrensde verhoudingen per kop—die offline kan worden gekalibreerd met slechts 50 monsters. Voortbouwend op dit inzicht presenteren we Tangram, een bedieningsframework dat statisch oplost wat eerdere systemen dynamisch afhandelen: Budget Reservation stelt de postcompressie-voetafdruk van elke kop vast op het moment van planning, waardoor paginaterugwinning wordt geëlimineerd; Ragged Paging clustert koppen met vergelijkbare budgetten in onafhankelijke paginatabellen, waardoor fragmentatie wordt omgezet in bruikbaar geheugen; en Ahead-of-Time Load Balancing berekent vooraf gebalanceerde GPU-partities zonder runtime-planning. Geïmplementeerd op vLLM fungeert Tangram als een plug-in-onderlaag voor bestaande niet-uniforme compressiemethoden, met behoud van hun nauwkeurigheid terwijl de end-to-end doorvoer tot 2,6 keer wordt verbeterd ten opzichte van de volledige KV-basislijn. Onze implementatie is openbaar beschikbaar op https://github.com/aiha-lab/TANGRAM.

Track2View: 4D-consistente camera-gestuurde videogeneratie via gepaarde 3D-punttracks
Track2View: 4D-Consistent Camera-Controlled Video Generation via Paired 3D Point Tracks

Jun 14

ByFeng Qiao, Zhaochong An, Zhexiao Xiong, Serge Belongie, Nathan Jacobs

Het herrenderen van een bestaande video vanuit een nieuw camerastandpunt vereist dat de uitvoer de voorgeschreven camerabaan volgt, terwijl het uiterlijk en de dynamiek van de oorspronkelijke scène in elk frame behouden blijven. Bestaande methoden vertrouwen op pose-inbeddingen per frame, ruisachtige puntwolkweergaven of impliciete aangeleerde correspondenties, die geen van alle een expliciete, temporeel continue koppeling tussen bron- en doel-pixels bieden. Wij stellen Track2View voor, dat een videodiffusietransformator conditioneert op gepaarde 3D-puntsporen: schaarse trajecten van scènepunten die in zowel het bron- als het doel-camerabeeld worden geprojecteerd. Deze sporen bieden expliciete ruimtelijk-temporele correspondenties die per definitie temporeel continu zijn, en coderen welke inhoud waar en wanneer moet verschijnen. De kern van Track2View is een tweevoudige spoorconditioneerder die visuele context van het bron- naar het doelbeeld overdraagt via parametervrije geometrische operaties en aangeleerde temporele aggregatie, wat generalisatie naar willekeurige camerabanen garandeert zonder specifieke bewegingen te onthouden. Verder introduceren we een datacuratiepijplijn die een-op-een spoorcorrespondenties extraheert door een 3D-puntvolger uit te voeren op temporeel samengevoegde multi-camerabeeldparen. Op een benchmark van 400 video's, variërend van statische tot dynamische scènes, behaalt Track2View state-of-the-art resultaten op het gebied van visuele kwaliteit, beeldsynchronisatie en camera-nauwkeurigheid, met een reductie van de rotatiefout met 30-65% en de translatiefout met 61-72% ten opzichte van toonaangevende basislijnen. De projectpagina is beschikbaar via deze URL: https://qjizhi.github.io/track2view

Hiërarchische Voordeelweging voor Online RL Fijnafstemming van VLA's van Schaarse Episode-uitkomsten
Hierarchical Advantage Weighting for Online RL Fine-Tuning of VLAs from Sparse Episode Outcomes

Jun 15

ByTongyan Fang, Siyuan Huang, Naiyu Fang, Ganlong Zhao, Zhongjin Luo, Jianbo Liu, Xiaogang Wang, Ying Dong, Hongsheng Li

Wanneer voorgetrainde VLA-beleidsregels worden verfijnd via online bekrachtigingsleren, levert elke afspeelepisode slechts één binaire uitkomst (succes of mislukking), terwijl de actor-update per overgang supervisie vereist. Bestaande benaderingen reduceren deze schaarse uitkomst doorgaans tot een enkel scalair belonings- of voordeelsignaal, wat verschillende vormen van feedback op overgangsniveau samenvoegt en beperkte sturing biedt zodra basistaaksucces haalbaar wordt. Ten eerste voegt een enkel scalair signaal de twee doelstellingen van levensvatbaarheid en efficiëntie samen; zodra basissucces is bereikt, biedt het binaire label geen gradiënt om efficiënte voltooiingen te onderscheiden van trage. Ten tweede mengen real-world afspeelsessies autonome en interventiesegmenten; het naïef toewijzen van episode-uitkomsten over deze grenzen heen leidt tot incorrecte krediettoewijzing. Om deze problemen aan te pakken stellen wij Hiërarchisch Voordeel-Gewogen Gedragsclonen (HABC) voor, dat afzonderlijke criticus-koppen traint voor deze twee doelstellingen op verschillende gegevenssubsets en hun uitkomsten combineert met een toestandsadaptieve balans. Een toestandsadaptieve poort g_t combineert hun éénstapsvoordelen, waarbij levensvatbaarheid prioriteit krijgt wanneer succes onzeker is en alleen naar efficiëntie wordt overgeschakeld wanneer levensvatbaarheid hoog is, en converteert het resultaat in per-overgang gewichten voor het actorverlies. Interventiebewuste krediettoewijzing beperkt verder de uitkomstlabels tot segmenten die door het huidige beleid worden uitgevoerd, waardoor supervisie niet over interventiegrenzen heen lekt. In real-robot experimenten op drie contactrijke bimanuele taken verhoogt HABC het succes van supervisie-verfijnde (SFT) basislijnen van 36%, 44% en 12% naar 92%, 88% en 38%.

Je hebt geen sterke aannames nodig: Visuele representatie leren via temporele verschillen
You Don't Need Strong Assumptions: Visual Representation Learning via Temporal Differences

Jun 14

ByNinad Daithankar, Alexi Gladstone, Yann LeCun, Heng Ji

Vooruitgang in AI wordt grotendeels aangedreven door methoden die minder aannemen. Naarmate rekenkracht en data toenemen, presteren benaderingen met zwakkere inductieve biases over het algemeen beter dan die met sterkere aannames. Dit is bijzonder kenmerkend voor het vakgebied van Visuele Representatie Leren, waar benaderingen zijn geëvolueerd van dominantie door Begeleid Leren, naar Zwak Begeleid Leren, naar het nu wijdverspreide succes van Zelfbegeleid Leren zonder menselijke labels. Toch zijn zelfs moderne Zelfbegeleid Leren benaderingen nog steeds afhankelijk van sterke inductieve biases zoals augmentaties, maskering of bijsnijden. Als deze trend zich voortzet, zouden zelfs deze resterende biases op schaal knelpunten worden – en onze experimenten bevestigen dit: de optimale sterkte van inductieve biases neemt af naarmate de data groeit. Dit motiveert de zoektocht naar benaderingen die op minder aannames vertrouwen. Daartoe introduceren we Temporal Difference in Vision (TDV), een nieuw paradigma voor zelfbegeleid leren uit video dat bestaande inductieve biases vermijdt, en in plaats daarvan vertrouwt op een causale veronderstelling dat het verleden de toekomst veroorzaakt. TDV werkt door gezamenlijk een beeldencoder en een bewegingsencoder te trainen, zodat de representatie van het huidige frame plus de gecodeerde beweging gelijk is aan die van het volgende frame. Ondanks dat het geen sterke inductieve biases benut, evenaart TDV state-of-the-art methoden op dichte ruimtelijke taken, waarmee de basis wordt gelegd voor representatie leren zonder sterke aannames.

Instabiele kenmerken, reproduceerbare deelruimten: Begrip van zaadafhankelijkheid in schaarse auto-encoders
Unstable Features, Reproducible Subspaces: Understanding Seed Dependence in Sparse Autoencoders

Jun 10

ByGleb Gerasimov, Timofei Rusalev, Nikita Balagansky, Daniil Laptev, Vadim Kurochkin, Daniil Gavrilov

Sparse autoencoders (SAE's) worden veel gebruikt om representaties van neurale netwerken te interpreteren, maar hun bruikbaarheid hangt af van of de geleerde kenmerken reproduceerbaar zijn over trainingsruns. We bestuderen deze vraag via kenmerkstabiliteit: voor elk SAE-kenmerk schatten we de kans dat een vergelijkbaar kenmerk opnieuw verschijnt in een onafhankelijk getraind SAE. Dit levert een schaalbaar per-kenmerk signaal op dat stabiele van instabiele kenmerken scheidt. In een grootschalige studie over seeds, modellen, lagen, woordenboekgroottes en SAE-varianten vinden we een uitgesproken functionele asymmetrie: stabiele kenmerken dragen het grootste deel van het reconstructie- en predictierelevante signaal, terwijl instabiele kenmerken een zwakke marginale impact hebben en gedomineerd worden door laagfrequente oppervlaktevormtriggers in zowel activatiestatistieken als automatische verklaringen. Geometrisch gezien zijn instabiele kenmerken individueel niet-reproduceerbaar, maar concentreren ze zich in reproduceerbare deelruimten van lagere rang, wat suggereert dat seed-afhankelijkheid vaak basisambiguïteit binnen een gedeeld gebied van de activatieruimte weerspiegelt in plaats van pure ruis. Een gecontroleerd synthetisch model maakt dit mechanisme expliciet en toont aan dat grondwaarheidskenmerken van lage rang op deelruimteniveau kunnen worden teruggevonden, terwijl ze als individuele SAE-latente variabelen niet-identificeerbaar blijven over seeds heen. Tot slot construeren we, door het samenvoegen van unieke cross-seed kenmerken, stabielere SAE's terwijl de verklaarde variantie in deze setting behouden blijft. Samen tonen deze resultaten aan dat instabiele kenmerken niet slechts mislukte of ruizige latente variabelen zijn: ze hebben een zwakke individuele functionele impact, maar weerspiegelen reproduceerbare laagdimensionale structuur die standaard SAE's verschillend oplossen over seeds heen.

MMDiff: Uitbreiding van diffusietransformatoren voor multimodale generatie
MMDiff: Extending Diffusion Transformers for Multi-Modal Generation

Jun 15

ByYagmur Akarken, Orest Kupyn, Christian Rupprecht

Diffusietransformatoren hebben opmerkelijke generatieve vermogens getoond, maar de rijke perceptuele representaties die tijdens hun ontruisingsbaan worden berekend, worden weggegooid zodra de inhoud is weergegeven. Wij presenteren MMDiff, een raamwerk dat een bevroren diffusietransformator omvormt tot een multi-modaal generatief systeem dat gezamenlijk afbeeldingen produceert, naast elke combinatie van dichte perceptuele modaliteiten, met behulp van lichtgewicht decoderkoppen. Onze centrale bevinding is dat perceptuele informatie temporeel verdeeld is over de ontruisingsbaan, en dat multi-tijdstip kenmerkfusie met ruimtelijk variërende aggregatiegewichten essentieel is, wat semantische segmentatieresultaten met tot 28,7% mIoU verbetert ten opzichte van extractie op een enkel tijdstip. Verder hanteren wij conceptgestuurde aandachtextractie voor interpreteerbare ruimtelijke sturing, en tonen aan dat bevroren diffusiekenmerken concurrerend en complementair zijn aan state-of-the-art encoders zoals DINOv3. Door alleen lichtgewicht decoderkoppen te trainen op een bevroren ruggengraat, bereiken wij sterke prestaties in semantische segmentatie, opvallende objectdetectie en diepteschatting, en demonstreren wij dat dit raamwerk effectieve synthetische datageneratie op schaal mogelijk maakt.

Destillatie op promptniveau: een niet-parametrisch alternatief voor het finetunen van modellen voor efficiënt redeneren
Prompt-Level Distillation: A Non-Parametric Alternative to Model Fine-Tuning for Efficient Reasoning

Jun 2

BySanket Badhe, Deep Shah

Geavanceerd redeneren vereist doorgaans Chain-of-Thought-prompts, wat accuraat is maar leidt tot onaanvaardbare latentie en substantiële inferentiekosten tijdens het testen. Het standaard alternatief, het finetunen van kleinere modellen, gaat vaak ten koste van interpreteerbaarheid en brengt aanzienlijke resource- en operationele overhead met zich mee. Om deze beperkingen aan te pakken, introduceren we Prompt-Level Distillation (PLD). We extraheren expliciete redeneerpatronen uit een Teacher-model en organiseren deze in een gestructureerde lijst van expressieve instructies voor de System Prompt van het Student-model. Geëvalueerd met Gemma-3 4B verbeterde PLD de Macro F1-scores op StereoSet (van 57% naar 90,0%) en Contract-NLI (van 67% naar 83%), terwijl de nauwkeurigheid op LogiQA toenam tot 70%. Vergelijkbare resultaten op Mistral Small 3.1 tonen cross-architectuur generaliseerbaarheid aan, waardoor deze compacte modellen prestaties op topniveau kunnen evenaren met verwaarloosbare latentieoverhead. Deze expressieve instructies maken het besluitvormingsproces transparant, waardoor volledige menselijke verificatie van de logica mogelijk is. Dit maakt de aanpak ideaal voor gereguleerde industrieën zoals recht, financiën en contentmoderatie, evenals voor toepassingen met een hoog volume en edge-apparaten.

ExpRL: Exploratief reinforcement learning voor tussentijdse training van grote taalmodellen
ExpRL: Exploratory RL for LLM Mid-Training

Jun 15

ByViolet Xiang, Amrith Setlur, Chase Blagden, Nick Haber, Aviral Kumar

Reinforcement learning met schaarse beloningen (RL) is een standaardinstrument geworden voor het verbeteren van het redeneren van LLM's, maar het succes ervan hangt in hoge mate af van de dekking in het basismodel. In de praktijk worden modellen vaak klaargestoomd voor RL door middel van tussentraining op samengestelde redeneertraces die nuttige primitieve vaardigheden aanleren, zoals decompositie, verificatie of zelfcorrectie. Hoewel effectief, vereist deze strategie dat handmatig wordt gespecificeerd wat het model moet leren, en het blijft onduidelijk of een dergelijke primitieve dekking voldoende is voor veel moeilijkere problemen, die het combineren van deze vaardigheden tot bredere oplossingsstrategieën vereisen. We bestuderen een meer geautomatiseerde aanpak: RL-gebaseerde tussentraining met behulp van grote corpora van door mensen geschreven vraag-antwoordgegevens. In plaats van referentieoplossingen te behandelen als na te bootsen doelen, gebruikt onze methode, ExpRL, ze als beloningsscaffolds: referenties worden verborgen voor het beleid en alleen gebruikt om probleemspecifieke beoordelingsrubrieken te construeren voor het beoordelen van on-policy redeneertraces. Het beleid samplet uit de oorspronkelijke probleemprompt, terwijl een LLM-beoordelaar de gesamplede redeneertrace vergelijkt met de referentieoplossing en dichte beloningen op uitkomst- of procesniveau toekent. Hierdoor kan ExpRL gedeeltelijke vooruitgang, nuttige tussentijdse reducties en productieve redeneergedragingen versterken die schaarse beloningen op basis van eindantwoord vaak niet weten te versterken. Bij uitdagende wiskundige redeneertaken levert ExpRL een sterkere RL-priming op dan SFT, GRPO met schaarse beloningen en zelfdistillatie, en biedt het een betere initialisatie voor daaropvolgend RL met schaarse beloningen. Aanvullende experimenten in gemengde domeinen suggereren verder dat ExpRL zich kan uitstrekken tot buiten de oorspronkelijke wiskundige setting.

PermaVid: Consistente videogeneratie over bewerkingen heen via ontward contextgeheugen
PermaVid: Consistent Video Generation Across Edits via Disentangled Context Memory

Jun 15

ByShuai Yang, Bingjie Gao, Ziwei Liu, Jiaqi Wang, Dahua Lin, Tong Wu

Consistente videogeneratie onder bewerkingsoperaties vereist persistentie: wanneer bewerkingen het uiterlijk of de lay-out van een scène wijzigen, moeten volgende generaties coherent blijven in tijd en gezichtspunten. Echter, bestaande geheugenontwerpen hebben moeite om langdurige consistentie te behouden na dergelijke wijzigingen, omdat opgeslagen contexten verouderd of ongeldig kunnen worden. Om dit aan te pakken, stellen we PermaVid voor, een nieuw raamwerk dat is gebouwd op een multimodaal contextgeheugen dat ruimtelijke context ontwart in semantisch uiterlijk en geometrische structuur, samen met een bewerkingsbewuste geheugenupdate en -ophaalstrategie die de geheugenevolutie afstemt op volgende observaties. Specifiek ontwikkelen we twee complementaire geheugenbanken: een RGB-contextgeheugen dat uiterlijkbewuste observaties vastlegt terwijl het impliciet geometrie codeert, en een dieptecontextgeheugen dat alleen-geometrische structuur behoudt, losgekoppeld van semantiek. Voortbouwend op dit ontwerp introduceren we een geheugengeleid videogeneratiemodel dat multimodale kenmerkfusie uitvoert onder referentiecondities die zijn ontleend aan gemengd-modale geheugencontexten. Experimenten tonen aan dat onze methode sterke langdurige semantische en structurele consistentie behoudt na bewerkingen, en aanzienlijk beter presteert dan state-of-the-art methoden.

Kunstmatige Intelligentie Indexrapport 2026
Artificial Intelligence Index Report 2026

Apr 14

BySha Sajadieh, Loredana Fattorini, Raymond Perrault, Yolanda Gil, Vanessa Parli, Lapo Santarlasci, Juan Pava, Nestor Maslej, Russ Altman, Erik Brynjolfsson, Carla Brodley, Jack Clark, Virginia Dignum, Vipin Kumar, James Landay, Terah Lyons, James Manyika, Juan Carlos Niebles, Yoav Shoham, Elham Tabassi, Russell Wald, Toby Walsh, Dan Weld

Welkom bij de negende editie van het AI Index-rapport. Nu AI zich in hoog tempo blijft ontwikkelen, wordt de vraag of de systemen die eromheen zijn gebouwd, kunnen bijblijven. Bestuurskaders, evaluatiemethoden, onderwijssystemen en de data-infrastructuur die nodig is om de impact van AI te volgen, hebben moeite om het tempo van de technologie zelf bij te houden. Die kloof tussen wat AI kan doen en hoe goed we erop zijn voorbereid om het te beheren, loopt als een rode draad door elk hoofdstuk van dit jaarverslag. Nieuw in deze editie is dat het rapport bijhoudt hoe AI op ambitieuzere wijze wordt getest op het gebied van redeneren, veiligheid en uitvoering van praktijkopdrachten, en waarom die metingen steeds moeilijker te vertrouwen zijn. Het bevat ook nieuwe schattingen van de economische waarde van generatieve AI, samen met opkomend bewijs van de effecten ervan op de arbeidsmarkt, een analytisch kader voor AI-soevereiniteit en een wetenschapshoofdstuk dat is ontwikkeld in samenwerking met Schmidt Sciences. Voor het eerst bevat het rapport op zichzelf staande hoofdstukken over AI in de wetenschap en AI in de geneeskunde, wat de groeiende impact van AI op deze twee domeinen weerspiegelt.

Impliciete redenering voor op grote taalmodellen gebaseerde generatieve aanbeveling
Implicit Reasoning for Large Language Model-based Generative Recommendation

Jun 15

ByYinhan He, Liam Collins, Bhuvesh Kumar, Jundong Li, Neil Shah, Donald Loveland

Grote Taalmodellen (GTM's) worden steeds vaker ingezet als basis voor Generatieve Aanbeveling (GA), met de belofte van toegang tot voorgetrainde wereldkennis. Toch blijft het betrouwbaar oproepen van deze kennis voor GA slecht begrepen. Een belangrijk obstakel is dat GA op basis van GTM's items doorgaans weergeeft met Semantische IDs (SID's), wat de interface voor redeneren in natuurlijke taal van GTM's verstoort, omdat deze tokens tijdens de voor training niet door het GTM zijn gezien. Bestaande benaderingen lossen dit op met dure meerfasige pijplijnen die SID's verankeren en expliciete redenaties uitlokken, maar geven beperkt inzicht in wanneer en waarom elke fase nodig is. In dit werk ontleden we systematisch expliciete trainingspijplijnen voor redeneren voor GA op basis van GTM's, waarbij drie belangrijke beperkingen aan het licht komen: verzwakte verbalisatie van wereldkennis, misalignatie tussen de inbeddingsruimtes van SID's en tokens in natuurlijke taal, en gevoeligheid voor de kwaliteit van de redenatie, die allemaal de prestaties van expliciet redeneren schaden. Om deze problemen te omzeilen, stellen we PauseRec voor, een lichtgewicht impliciet redeneerparadigma dat is toegesneden op GA. PauseRec is uitzonderlijk praktisch: het vermijdt dure verwerving van redeneersporen en alignment training voor redeneren, wat leidt tot een groot aantal voordelen: (1) het presteert tot 6,22% beter dan standaard expliciete CoT-methoden, (2) het vermindert de trainingskosten met tot 65% GPU-uren, en (3) het versnelt de inferentie met tot 71,3%. Deze resultaten positioneren PauseRec als een lichtgewicht alternatief voor expliciete redeneringgeneratie, wat effectievere en efficiëntere GA op basis van GTM's mogelijk maakt.

EgoPhys: Leren van generaliseerbare fysicamodellen van vervormbare objecten vanuit egocentrische video
EgoPhys: Learning Generalizable Physics Models of Deformable Objects from Egocentric Video

Jun 15

ByHyunjin Kim, Ri-Zhao Qiu, Guangqi Jiang, Xiaolong Wang

Mensen begrijpen van nature de fysica van objecten door alledaagse interacties, maar het getrouw voorspellen van complexe vervormbare dynamica, zoals elastische materialen en stoffen, blijft een grote uitdaging voor computer vision en robotica. We presenteren EgoPhys, een raamwerk dat vervormbare fysieke digitale tweelingen construeert uit egocentrische RGB-only video met behulp van generaliseerbare voorkennis. EgoPhys overwint de beperkingen van bestaande methoden om beheersbare generatie van vervormbare digitale tweelingen uit egocentrische video's mogelijk te maken door per-object inverse-fysica oplossingen te distilleren in een compact codeboek, waardoor voorspelling van dichte veerstijfheidsvelden voor ongeziene objecten mogelijk wordt zonder per-veer optimalisatie tijdens de test. Getraind met generaliseerbare voorkennis uit diverse egocentrische interacties, presteert EgoPhys beter dan basislijnen in reconstructie, toekomstvoorspelling en zero-shot generalisatie. Om training en evaluatie te ondersteunen, stellen we een egocentrische interactiedataset samen die diverse vervormbare objecten, scènes en manipulatiestijlen omvat. We implementeren EgoPhys op een echte xArm6-robot en tonen aan dat een digitale tweeling, geïnitialiseerd vanuit een enkele egocentrische menselijke speelvideo, kan dienen als een interne wereldrepresentatie om te helpen bij planning met vervormbare objecten, wat egocentrische RGB-waarnemingen benadrukt als een schaalbare weg naar real-to-sim pijplijnen.

Wie flipt? Zelf- en cross-model tegenargumenten onthullen antwoordinstabiliteit in LLM's
Who Flips? Self- and Cross-Model Counterarguments Reveal Answer Instability in LLMs

Jun 14

ByNafiseh Nikeghbal, Amir Hossein Kargaran, Shaghayegh Kolli, Jana Diesner

Standaard nauwkeurigheidsbenchmarks zijn ontworpen om te testen hoe dicht grote taalmodellen (LLM's) bij correcte antwoorden komen, maar zijn niet geschikt om te testen of LLM's vasthouden aan een correct antwoord wanneer dat antwoord wordt uitgedaagd door een plausibel tegenargument. Wij introduceren een gecontroleerd protocol voor het evalueren van antwoordstabiliteit: nadat een model een meerkeuzevraag correct heeft beantwoord, dagen we het antwoord van het model uit met een coherent argument voor een incorrecte optie en meten we of het model omdraait. De opzet a) isoleert argumentatieve inhoud van openlijke sociale druk en b) varieert argumentlengte, zelfattributie en cross-model bron. Voor zeven geavanceerde modellen en 57 MMLU-onderdelen variëren de omslagpercentages van 17,5% tot 97,3%, wat grote verschillen in stabiliteit onthult die niet worden opgevangen door alleen nauwkeurigheidsmetingen. We vinden dat zelfattributie de omslagpercentages consistent verhoogt (gemiddeld +7,1pp, tot +18,7pp). Ook leidt het samenvoegen van argumenten voor foute antwoorden over modellen heen en het selecteren van het meest effectieve argument per vraag tot sterkere tegenargumenten dan vertrouwen op een enkele bronmodel. We construeren verder MaxFlip, een samengestelde uitdagingsset die omdraaiingen tot +23,6pp versterkt ten opzichte van standaard zelfgegenereerde uitdagingen. We publiceren het protocol, de uitdagingsrecords en MaxFlip om stabiliteitsevaluatie naast standaard nauwkeurigheidsbenchmarks te ondersteunen. Materialen zijn beschikbaar op https://github.com/nafisenik/WhoFlips en https://hf.co/datasets/nafisehNik/WhoFlips.

LaWAM: Latente Wereldactiemodellen voor Efficiënte Dynamiekbewuste Robotstrategieën
LaWAM: Latent World Action Models for Efficient Dynamics-Aware Robot Policies

Jun 14

ByJialei Chen, Kai Wang, Kang Chen, Shuaihang Chen, Feng Gao, Wenhao Tang, Zhiyuan Li, Weilin Liu, Zhuyu Yao, Boxun Li, Yuanbo Xu, Chao Yu

Visie-Taal-Actiemodellen (Vision-Language-Action models, VLA's) maken gebruik van grootschalige visie-taaltraining voor semantische robotbesturing, maar missen vaak een expliciet vooruitzicht op hoe robotacties de scene veranderen. Wereld-Actiemodellen (World-Action Models, WAM's) pakken deze beperking aan door beleidsregels te conditioneren op voorspelde toekomsten, maar bestaande benaderingen vertrouwen doorgaans op rekenintensieve videogeneratie met aanzienlijke pixelredundantie. Wij presenteren LaWAM, een latent wereldactiemodel (Latent World Action Model) dat voorspellende dynamiek beschikbaar maakt voor robotbeleidsregels via compacte latente visuele subdoelen in plaats van gereconstrueerde toekomstvideo. De kern van LaWAM is een latent-actiegeconditioneerd latent wereldmodel (Latent World Model, LaWM). We verkrijgen LaWM door een latent actiemodel te trainen in de latente ruimte van een voorgetraind visiefoundationmodel en de voorwaartse decoder ervan te hergebruiken om toekomstige observatiekenmerken voor scene-evolutie te voorspellen. LaWAM conditioneert vervolgens de actiegeneratie op deze voorspelde latente visuele subdoelen om dynamiekbewuste robotbesturing mogelijk te maken. LaWAM behaalt state-of-the-art of concurrerende succespercentages (success rates, SR's) op LIBERO (98,6% SR), RoboTwin (91,22% SR) en real-world manipulatieopdrachten, terwijl het een lage inferentielatentie behoudt. LaWAM werkt in 187 ms per actiechunkvoorspelling en behaalt een tot 24x lagere wandkloklatieg (wall-clock latency) dan pixelruimte-WAM's.

Selectieve controle onder ruisachtige waarneming: governancefalen verborgen door geaggregeerde metrieken in modulaire netwerken
Selective Control under Noisy Perception: Governance Failures Hidden by Aggregate Metrics in Modular Networks

Jun 12

ByIgor Itkin

Een inhoudsmoderatiesysteem kan goed scoren op elke standaard nauwkeurigheidsmaatstaf en toch echte schade veroorzaken, als de fouten vallen op de weinige gebruikers die anders gescheiden gemeenschappen met elkaar verbinden. We tonen dit aan in een agent-gebaseerd model waarin N=240 lerende agenten op een gemeenschapsgestructureerd netwerk elk onschadelijke, productieve of gevaarlijke inhoud plaatsen, en een regulator verwijdert of bestraft wat een ruizige classificator markeert. De algehele bruikbaarheid beweegt nauwelijks als de ruis verandert (eenwegs-ANOVA, p=0,96): volgens geaggregeerde maatstaven ziet er niets verkeerd uit. De schade concentreert zich in plaats daarvan op deze bruggebruikers, wier nuttige berichten ten onrechte worden onderdrukt en wier gevaarlijke berichten ten onrechte worden gespaard. Een governanceverlies (L_gov) dat deze twee fouten afzonderlijk van de handhavingskosten beprijst, meer dan verdubbelt onder ruis met veel fout-positieven. Geaggregeerde nauwkeurigheid verbergt wie er wordt geschaad, en de goedkope grootheid om te controleren is het aantal verbindingen dat een gebruiker heeft (graad), een bijna perfecte proxy voor de betweenness die een brug definieert (r=0,96).

Aanvallen op machinetekstdetectoren behouden stilistische vingerafdrukken
Attacks on Machine-Text Detectors Retain Stylistic Fingerprints

Jun 8

ByRafael Rivera Soto, Barry Chen, Nicholas Andrews

Ondanks aanzienlijke vooruitgang in de ontwikkeling van detectoren voor machinetekst, heeft het gemak waarmee machinetekst kan worden gemanipuleerd om detectie te omzeilen, geleid tot suggesties dat het probleem inherent onoplosbaar is. In dit werk onderzoeken we de grenzen van dergelijke ontwijkingsstrategieën. We tonen aan dat hoewel huidige aanvallen, variërend van prompt engineering tot detector-geleide optimalisatie, de prestaties van standaard detectoren effectief kunnen verslechteren, ze er niet in slagen de onderliggende stilistische 'vingerafdrukken' van machinetekst uit te wissen. We laten zien dat few-shot detectoren die de stilistische kenmerkruimte gebruiken, robuust zijn tegen deze ontwijkingspogingen en betrouwbaar monsters detecteren, zelfs van modellen die expliciet zijn afgestemd om detectie te voorkomen. Dit roept de vraag op: vertegenwoordigt stijl een universele verdediging tegen machinedetectie-aanvallen? We tonen aan dat het antwoord 'nee' is door een nieuwe parafraseringsmethode te introduceren die tegelijkertijd optimaliseert voor ondetecteerbaarheid en het naleven van specifieke menselijke stijlen. We laten zien dat deze aanval, in tegenstelling tot eerdere methoden, effectief alle beschouwde detectoren omzeilt, inclusief degenen die gebruikmaken van schrijfstijl. Echter, we vinden dat deze ontwijking niet absoluut is: naarmate het aantal beschikbare documenten voor analyse groeit, worden de menselijke en machineverdelingen weer te onderscheiden. Over het algemeen suggereren onze bevindingen dat betrouwbare detectie van machinetekst vereist dat we verder gaan dan analyse van één document naar analyse van meerdere documenten.

Menselijk universeel grijpen
Human Universal Grasping

Jun 15

ByKevin Yuanbo Wu, Tianxing Zhou, Isaac Tu, Billy Yan, Irmak Guzey, David Fouhey, Dandan Shan, Lerrel Pinto

Mensen kunnen moeiteloos objecten vastpakken, terwijl multifingered robots ver verwijderd zijn van dit niveau van algemeenheid. Wij stellen dat de meest natuurlijke bron van robotgrijpgegevens afkomstig is van mensen, die dagelijks duizenden objecten oppakken. We presenteren HUG, een flow-matchingmodel dat diverse menselijke grijpbewegingen genereert voor elk door de gebruiker gespecificeerd object in een enkele RGB-D-afbeelding vastgelegd met een stereocamera. Met behulp van slimme brillen verzamelen we eerst 1M-HUGs, een egocentrische dataset van menselijke grijpbewegingen die 1M frames (27,8 uur) en 6.707 objectexemplaren verspreid over 41 gebouwen omvat. Vervolgens modelleren we de verdeling van natuurlijke menselijke grijpbewegingen met behulp van ons nieuwe flow-matchingmodel, dat RGB- en dieptewaarnemingen samenvoegt om een grijpbeweging te genereren die wordt geparametriseerd door polstranslatie, polsrotatie en MANO-handhouding. Voorspelde grijpbewegingen kunnen worden hergericht naar verschillende robothanden, waardoor zero-shot grijpen in alledaagse omgevingen mogelijk wordt. Om de evaluatie te standaardiseren, bouwen we een nieuwe gesimuleerde benchmark, HUG-Bench, met 90 onzichtbare objecten uit vijf geometrische categorieën en verschillende afmetingen, voorzien van metrische 3D-meshes. We evalueren HUG in de echte wereld op de 30-objectentestset van HUG-Bench met meerdere stereocamera's, robotuitvoeringen en huishoudelijke omgevingen. HUG presteert beter dan de state-of-the-art grijpbaselines met respectievelijk +23% en +34% op onze uitdagende objectenset. Code, data, benchmark, checkpoints en een interactieve demo zijn beschikbaar op onze website: https://grasping.io/

De spoken van Polymarket: wanneer off-chain matches botsen met on-chain reverts
The Ghosts of Polymarket: When Off-Chain Matches Meet On-Chain Reverts

Jun 15

ByYiming Shen, Yuhan Jin, Shuohan Wu, Yanlin Wang, Jiachi Chen

Polymarket heeft zich ontwikkeld tot een prominent voorspellingsmarktplatform en een van de snelst groeiende toepassingen in DeFi. Om trading met lage latentie te realiseren, maakt het gebruik van een hybride architectuur waarbij orders off-chain worden gematcht, maar on-chain worden afgewikkeld voor definitieve uitvoering. Dit ontwerp creëert een consistentiekloof die wij Ghost Fills noemen: een order die met succes off-chain wordt gematcht, kan later mislukken tijdens de on-chain afwikkeling. Om de beveiligingsimplicaties van deze kloof te begrijpen, onderzoeken wij dergelijke mislukte afwikkelingen door GHOSTHUNTER te bouwen, die deze uit on-chain sporen reconstrueert en toeschrijft aan concrete aanvalspatronen. In 1.952.440 teruggedraaide match-order transacties ontdekken wij dat aanvallers het tijdsverschil tussen matchen en afwikkelen misbruiken om reeds gematchte orders ongeldig te maken voordat ze on-chain worden gefinaliseerd. Vervolgens identificeren wij vier aanvalsvectoren uit deze incidenten: nonce-verhoging, saldo-afvoer, toestemming-intrekking en proxy-val, gerealiseerd via 35 evoluerende varianten. Deze vectoren stellen aanvallers in staat om selectief 980.133 gevulde orders terug te draaien, wat risicovrije voorspelling, jacht op arbitrage-bots en manipulatie van liquiditeitsbeloningen mogelijk maakt, met een winst van ten minste 1,49 miljoen dollar. Hierdoor staat 1,78 miljard dollar aan risico bloot en heeft de operator 2,17 miljoen POL (ongeveer 212.000 dollar) betaald. Tijdens piekuren werd meer dan 24,3% van alle gevulde orders teruggedraaid, wat de facto DoS-aanvallen veroorzaakte. Wij vinden ook dat code die is afgeleid van het gebrekkige contract nog steeds voorkomt in 167 onafhankelijke contracten op 10 blockchains die ten minste 23 miljoen dollar aan gebruikersgelden bevatten, waardoor de impact verder reikt dan Polymarket. Wij hebben ons bewijs gedeeld met de betrokken partijen en het probleem is gedeeltelijk gemitigeerd.

TuneJury: Een open metriek voor het verbeteren van preferentie-uitlijning bij muziekgeneratie
TuneJury: An Open Metric for Improving Music Generation Preference Alignment

Jun 15

ByYonghyun Kim, Junwon Lee, Haiwen Xia, Yinghao Ma, Junghyun Koo, Koichi Saito, Yuki Mitsufuji, Chris Donahue

We introduceren TuneJury, een open, instance-niveau paarsgewijs beloningsmodel voor tekst-naar-muziek dat een muziekvoorkeursscore voorspelt op basis van een tekstprompt en een audioclip. Het uitgebrachte checkpoint is getraind op openbaar beschikbare menselijke voorkeurslabels die arena-stijl (A vs. B) stemmen, metriek-afstemmingsvoorkeursparen, crowdsourced paarsgewijze vergelijkingen en expertesthetische beoordelingen omvatten. De voorspelde scoremarge tussen twee clips is goed gekalibreerd op onze vaste testsplitsing, wat datafiltering via een eenvoudige scoredrempel ondersteunt. TuneJury generaliseert naar zowel vaste testparen als out-of-distribution benchmarks en blijft concurrerend met eerdere baselines op de laatste. Voor generatoren die na training zijn uitgebracht, introduceren we ankerkalibratie, een post-hoc, per-systeem Bradley-Terry kalibratie die overeenstemming herstelt met aanzienlijk betere data-efficiëntie dan hertraining vanaf nul. Dezelfde bevroren beloning leidt tot consistente beloningsaswinsten in drie downstream-toepassingen: inferentie-tijd beste-van-N selectie, DITTO-stijl latente optimalisatie en expert-iteratie na-training. TuneJury is beschikbaar op https://github.com/yonghyunk1m/TuneJury.