HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

59 papers found

AgentDoG 1.5: Een lichtgewicht en schaalbaar afstemmingsraamwerk voor de veiligheid en beveiliging van AI-agenten
AgentDoG 1.5: A Lightweight and Scalable Alignment Framework for AI Agent Safety and Security

May 28

ByDongrui Liu, Yu Li, Zhonghao Yang, Peng Wang, Guanxu Chen, Yuejin Xie, Qinghua Mao, Wanying Qu, Yanxu Zhu, Tianyi Zhou, Leitao Yuan, Zhijie Zheng, Qihao Lin, Yimin Wang, Haoyu Luo, Shuai Shao, Chen Qian, Qingyu Liu, Ling Tang, Ruiyang Qin, Qihan Ren, Junxiao Yang, Kun Wang, Zhiheng Xi, Linfeng Zhang, Ranjie Duan, Bo Zhang, Wenjie Wang, Wen Shen, Qiaosheng Zhang, Yan Teng, Chaochao Lu, Rui Mei, Man Li, Jialing Tao, Xi Lin, Tianhang Zheng, Yong Liu, Quanshi Zhang, Lei Zhu, Xingjun Ma, Junhua Liu, Hui Xue, Xiaoxiang Zuo, Xiangnan He, Chao Shen, Xianglong Liu, Minlie Huang, Jing Shao, Xia Hu

Moderne open-wereld agenten zoals OpenClaw vertonen krachtige cross-omgeving uitvoeringscapaciteiten, maar introduceren tegelijkertijd brede nieuwe veiligheidsrisicobronnen. Tegelijkertijd verlagen geavanceerde frontier AI-modellen drastisch de aanvalsbarrières, waardoor de huidige agent-afstemmingskaders ontoereikend worden voor implementatie in de echte wereld. Om deze opkomende dreigingen aan te pakken, stellen we een lichtgewicht en schaalbaar agent veiligheidsafstemmingskader voor. Concreet werken we de agent veiligheidstaxonomie bij om opkomende risico's van Codex- en OpenClaw-uitvoeringsscenario's te accommoderen. Verder bouwen we een taxonomie-gestuurde data-engine met invloedsfunctiezuivering om lichtgewicht AgentDoG 1.5 varianten (0,8B, 2B, 4B en 8B parameters) te trainen met slechts ongeveer 1k monsters, waarmee we vergelijkbare prestaties behalen als toonaangevende closed-source modellen (bijv. GPT-5.4). Op basis van AgentDoG 1.5 bouwen we een zeer efficiënte agentische veiligheid SFT- en RL-trainingsomgeving, die de implementatie-overhead in Docker-niveau omgevingen met twee ordes van grootte vermindert. Ten slotte implementeren we AgentDoG 1.5 als een trainingsvrije online guardrail voor real-time veiligheidsmoderatie. Uitgebreide experimentele resultaten geven aan dat AgentDoG 1.5 state-of-the-art prestaties behaalt in diverse en complexe interactieve agentische scenario's. Alle modellen en datasets worden openbaar vrijgegeven.

Qwen-VLA: Het Verenigen van Visie-Taal-Actie Modellering over Taken, Omgevingen en Robotlichamen
Qwen-VLA: Unifying Vision-Language-Action Modeling across Tasks, Environments, and Robot Embodiments

May 28

ByQiuyue Wang, Mingsheng Li, Jian Guan, Jinhui Ye, Sicheng Xie, Yitao Liu, Junhao Chen, Zhixuan Liang, Jie Zhang, Xintong Hu, Xuhong Huang, Pei Lin, Junyang Lin, Dayiheng Liu, Shuai Bai, Jingren Zhou, Jiazhao Zhang, Haoqi Yuan, Gengze Zhou, Hang Yin, Ye Wang, Yiyang Huang, Zixing Lei, Wujian Peng, Delin Chen, Yingming Zheng, Jingyang Fan, Xianwei Zhuang, Xin Zhou, Haoyang Li, Anzhe Chen, Tong Zhang, Xuejing Liu, Yuchong Sun, Ruizhe Chen, Zhaohai Li, Chenxu Lü, Zhibo Yang, Tao Yu, Xionghui Chen

Belichaamde intelligentie wordt vaak bestudeerd via gespecialiseerde modellen voor individuele taken zoals manipulatie of navigatie, wat leidt tot gefragmenteerde capaciteiten en beperkte generalisatie over taken, omgevingen en robotlichamen. In dit werk onderzoeken we of heterogene belichaamde besluitvormingsproblemen kunnen worden verenigd in één enkel visie-taal-actiemodel. We presenteren Qwen-VLA, een verenigd belichaamd funderingsmodel dat de visie-taalmodelleringstack van Qwen uitbreidt van perceptie, begrip en redeneren naar continue actie- en trajectgeneratie via een DiT-gebaseerde actiedecoder. Qwen-VLA wordt getraind met een grootschalige gezamenlijke voorafgaande trainingsstrategie over diverse gegevensbronnen, waaronder robotmanipulatietrajecten, menselijke egocentrische demonstraties, synthetische simulatiegegevens, visie-en-taalnavigatiegegevens, trajectgerichte supervisie en aanvullende visie-taalgegevens. Om meerdere robotplatformen te ondersteunen, introduceren we embodiment-bewuste promptconditionering, waarbij robotspecifieke tekstuele beschrijvingen het huidige belichaamde en controleconventie specificeren. Verder gieten we manipulatie, navigatie en trajectvoorspelling in een verenigd actie-en-trajectvoorspellingskader, wat overdraagbare visuele gronding, ruimtelijk redeneren en continue actiegeneratie mogelijk maakt over robotmorfologieën, taakfamilies en omgevingen. Experimenten op manipulatie-, navigatie- en trajectgerichte benchmarks laten consistente multitaskprestaties en out-of-distribution generalisatie zien onder variaties in scène-indeling, achtergrond, verlichting, objectconfiguratie en robotbelichaming. Qwen-VLA-Instruct behaalt 97,9% op LIBERO, 73,7% op Simpler-WidowX, 86,1%/87,2% op RoboTwin-Easy/Hard, 69,0% OSR op R2R, 59,6% SR op RxR, 76,9% gemiddeld OOD-succes in echte ALOHA-experimenten en 26,6% zero-shot succes op DOMINO dynamische manipulatie.

OmniRetrieval: Geünificeerd ophalen over heterogene kennisbronnen
OmniRetrieval: Unified Retrieval across Heterogeneous Knowledge Sources

May 28

ByJinheon Baek, Soyeong Jeong, Sangwoo Park, Woongyeong Yeo, Minki Kang, Patara Trirat, Heejun Lee, Sung Ju Hwang

In realistische informatiebehoeften is toegang nodig tot structureel diverse kennisbronnen, van ongestructureerde tekst en relationele tabellen tot kennisgrafen en eigenschapsgrafen. Bestaande retrievers werken echter over één bron tegelijk onder een vaste querytaal, waardoor het bredere landschap van beschikbare kennis gefragmenteerd blijft achter incompatibele interfaces. Een natuurlijke poging tot unificatie zou deze bronnen in een gedeelde ruimte samenvouwen, maar dit wist de structurele mogelijkheden (zoals schema's, ontologieën, compositionele operatoren) die elke bron zijn expressieve kracht geven. Effectieve retrievale over diverse kennis vereist daarom geen homogenisatie, maar een overkoepelende laag die elke bron op zijn eigen voorwaarden tegemoetkomt. Om dit te bereiken presenteren we OmniRetrieval, een raamwerk dat elke natuurlijke-taalvraag neemt, de juiste kennisbronnen identificeert en brongebonden queries naar hun native uitvoeringsengines stuurt. In een uitgebreide benchmark die 13 datasets en 309 verschillende kennisbanken omvat over tekst-, relationele en grafgestructureerde bronnen, overtreft OmniRetrieval de enkelvoudige-bron baselines, wat aantoont dat het kan dienen als een algemene interface voor de heterogene bronnen, terwijl het de structurele onderscheidingen behoudt die elke bron waardevol maken.

CollectionLoRA: Verzamelen van 50 effecten in één LoRA via Multi-Teacher On-Policy Distillatie
CollectionLoRA: Collecting 50 Effects in 1 LoRA via Multi-Teacher On-Policy Distillation

May 25

ByFangtai Wu, Hailong Guo, Shijie Huang, Jiayi Song, Yubo Huang, Mushui Liu, Zhao Wang, Yunlong Yu, Jiaming Liu, Ruihua Huang

Aangepaste beeldbewerking heeft als doel om voorgetrainde diffusiemodellen uit te rusten met specifieke visuele effecten met behulp van beperkte gepaarde gegevens, doorgaans via Low-Rank Adaptation (LoRA). Naarmate het aantal gewenste effecten toeneemt, zorgt de opslag en het dynamisch laden van deze vele effect-LoRA's voor een aanzienlijk hogere implementatie-overhead. Bovendien combineren huidige pijplijnen deze effect-LoRA's doorgaans met versnellingsmodules voor snelle generatie, wat leidt tot ernstige parameterinterferentie en resulteert in conceptbloeding en stijlvermindering. Wij stellen CollectionLoRA voor, een multi-docent on-policy distillatiekader dat in staat is om de concepten van maximaal 50 verschillende effect-LoRA's, samen met mogelijkheden voor generatie in enkele stappen, te distilleren in één enkele LoRA. Dit lost het probleem van kenmerkinterferentie fundamenteel op en verlaagt de implementatiekosten aanzienlijk. Specifiek introduceert de methode (i) een Probabilistische Dubbele-Stroom Routering die het model in staat stelt om tijdens de training willekeurig tussen gegevensbronnen te schakelen, waardoor de generalisatie in niet-geziene scenario's effectief wordt verbeterd; (ii) een Asymmetrische Orthogonale Prompting-strategie om conceptisolatie binnen de promptruimte te bereiken; (iii) een Grof-naar-Fijn Distillatiedoelstelling om de distributiekloof tussen het docent- en studentmodel te verkleinen. Uitgebreide evaluaties tonen aan dat CollectionLoRA alle aangepaste effecten en generatie in enkele stappen distilleert in één enkele LoRA, waardoor de implementatie-overhead wordt verminderd en tegelijkertijd een conceptgetrouwheid wordt bereikt die vergelijkbaar is met of beter is dan die van onafhankelijk getrainde docentmodellen.

minWM: Een full-stack open-source framework voor real-time interactieve videowereldmodellen
minWM: A Full-Stack Open-Source Framework for Real-Time Interactive Video World Models

May 28

ByMin Zhao, Hongzhou Zhu, Bokai Yan, Zihan Zhou, Yimin Chen, Wenqiang Sun, Kaiwen Zheng, Guande He, Xiao Yang, Chongxuan Li, Fan Bao, Jun Zhu

Recente funderingsmodellen voor videodiffusie hebben opmerkelijke vooruitgang geboekt bij het genereren van hoogwaardige video's, maar het omzetten ervan in real-time interactieve videowereldmodellen blijft een uitdaging. Interactieve wereldmodellen vereisen controleerbare, causale uitrol met lage latentie, wat in de praktijk een volledige pijplijn vereist die gegevensconstructie, controleerbare fine-tuning, autoregressieve training, distillatie in enkele stappen en streaming-inferentie omvat. In dit werk presenteren we minWM, een full-stack open-source raamwerk voor het bouwen van real-time interactieve videowereldmodellen. minWM biedt een end-to-end pijplijn die bestaande bidirectionele T2V/TI2V-videofunderingsmodellen omzet in camera-controleerbare autoregressieve wereldmodellen met weinig stappen. Specifiek fine-tunet minWM eerst een bidirectioneel videodiffusiemodel met camerabesturing en past vervolgens de Causal Forcing / Causal Forcing++-pijplijn toe, inclusief AR-diffusietraining, causale ODE of causale consistentiedistillatie en asymmetrische DMD, om het te distilleren tot een autoregressieve generator met weinig stappen voor uitrol met lage latentie. Het raamwerk is modulair en architectuur-uitbreidbaar: we instantieren het op representatieve open backbones, waaronder Wan2.1-T2V-1.3B en HY1.5-TI2V-8B, die zowel op cross-attention gebaseerde conditie-injectie als MMDiT-achtige architecturen omvatten. minWM ondersteunt ook het aanpassen van bestaande videowereldmodellen, zoals HY-WorldPlay, aan nieuwe gegevensdistributies, trainingsrecepten en latentiedoelen. Naast het uitbrengen van uitvoerbare scripts, checkpoints, documentatie en inferentiecode, bieden we praktische ablatie-experimenten met betrekking tot cameratrajectkwaliteit, controleerbaarheidsstappen voor training en minimale batchgrootte-eisen. We hopen dat minWM dient als een reproduceerbaar en uitbreidbaar recept voor het bouwen en aanpassen van real-time interactieve videowereldmodellen. Projectpagina: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)

YoCausal: Hoe ver staat videogeneratie van een wereldmodel? Een causaliteitsperspectief
YoCausal: How Far is Video Generation from World Model? A Causality Perspective

May 28

ByYou-Zhe Xie, Yu-Hsuan Li, Jie-Ying Lee, Kaipeng Zhang, Yu-Lun Liu, Zhixiang Wang

Naarmate videodiffusiemodellen (VDM's) zich ontwikkelen richting wereldmodellen, rijst een cruciale vraag: begrijpen zij werkelijk causaliteit, of passen zij zich slechts aan aan statistische temporele patronen? Bestaande benchmarks zijn veelal gebaseerd op synthetische data, wat de generalisatie naar de echte wereld beperkt door de simulatie-naar-realiteit-kloof. Wij presenteren YoCausal, een tweeledige benchmark geïnspireerd op het paradigma van schending van verwachting (Violation of Expectation, VoE) uit de cognitieve wetenschap. Door realistische video's kosteloos temporeel om te keren als natuurlijke tegenfeitelijke steekproeven, vestigt YoCausal een willekeurig uitbreidbaar evaluatieprotocol. Niveau 1 introduceert de Reverse Surprise Index (RSI), die de perceptie van de tijdsrichting kwantificeert via denoisingverlies. Niveau 2 introduceert de Causality Cognition Index (CCI), die een VLM gebruikt om datasets te stratificeren in causale en niet-causale subsets, waardoor echte causale redenering wordt ontrafeld van temporele bias. Evaluatie van 13 state-of-the-art VDM's laat zien dat het waarnemen van de tijdsrichting niet impliceert dat causaliteit wordt begrepen, en dat er een aanzienlijke kloof blijft bestaan ten opzichte van causaal denken op menselijk niveau.

GenClaw: Code-gestuurde agentische beeldgeneratie
GenClaw: Code-Driven Agentic Image Generation

May 28

ByJunyan Ye, Jun He, Zilong Huang, Dongzhi Jiang, Xuan Yang, Rui Chen, Weijia Li

Beeldgeneratiemodellen zijn geëvolueerd van tekstgestuurde pixelsynthese naar multimodale agenten die beschikken over visueel begrip en mogelijkheden voor het aanroepen van tools. Toch blijven bestaande agenten overgeleverd aan de onderliggende black-box-beeldmodellen. Hun workflow zit gevangen in een repetitieve cyclus van prompt-herschrijven voor generatieverfijning, zonder dat er een mechanisme is om het canvas direct te manipuleren. In essentie blijft het potentieel van LLM's om als een echte 'penseel' te dienen voor precieze visuele constructie grotendeels onbenut. In dit artikel stellen we GenClaw voor, een codegestuurd agentisch beeldgeneratieparadigma dat de agent in staat stelt te creëren als een menselijke kunstenaar: eerst conceptualiseren, dan schetsen, en ten slotte inkleuren. Specifiek bouwt de agent eerst de conceptuele kennis en context op via zoeken en redeneren. Vervolgens gebruikt het code (bijv. SVG, HTML, Three.js) om uitvoerbare visuele schetsen te renderen. Ten slotte gebruikt het een beeldgeneratiemodel om texturen, materialen en fotorealisme toe te voegen. In deze workflow dient code als een controleerbaar tussenliggend canvas dat taalkundig redeneren en pixelsynthese overbrugt, en programmatische logica naadloos integreert met de visuele expressiviteit van generatieve modellen. Door beeldgeneratie te transformeren van een black-boxparadigma naar een gefaseerd proces dat lijkt op authentieke menselijke creatie, biedt GenClaw een stap richting hoogst controleerbare en interpreteerbare visuele generatiesystemen.

EarlyTom: Vroege Tokencompressie Voltooit Snel Videobegrip
EarlyTom: Early Token Compression Completes Fast Video Understanding

May 28

ByHesong Wang, Xin Jin, Lu Lu, Chenhaowen Li, Jian Chen, Qiang Liu, Huan Wang

Video-grote-taalmodellen (Video-LLM's) hebben sterke capaciteiten aangetoond in videobegripstaken. Hun praktische inzet wordt echter nog belemmerd door de inefficiëntie die ontstaat bij het verwerken van enorme hoeveelheden visuele tokens. Hoewel recente benaderingen extreem lage tokenretentieratio's bereiken met behoud van een nauwkeurigheid vergelijkbaar met volledige-token-baselines, voeren de meeste hiervan compressie alleen in de late fase van het prefilling uit, waardoor de efficiëntie van de visie-encoder niet wordt geoptimaliseerd. In dit artikel tonen we eerst aan dat visiecodering een groot deel van de tijd-tot-eerste-token (TTFT) voor zijn rekening neemt. Daarom blijft er nog aanzienlijke ruimte voor verkenning als we compressie niet pas na de visie-encoder uitvoeren, maar al binnen de encoder. Op basis van dit inzicht stellen we EarlyTom voor, een training-vrij tokencompressieraamwerk dat vroege compressie van visuele tokens binnen de visie-encoder uitvoert, wat een aanzienlijk betere TTFT-reductie en hogere doorvoer mogelijk maakt. Daarnaast introduceren we een ontkoppelde ruimtelijke tokenselectiestrategie die de algehele compressie-effectiviteit verbetert. EarlyTom vermindert de TTFT met maximaal 2,65x en de FLOP's met maximaal 61% op een enkele NVIDIA A100 GPU voor het LLaVA-OneVision-7B-model, met behoud van een nauwkeurigheid vergelijkbaar met de volledige-token-baseline. Deze verbeteringen verhogen aanzienlijk de bruikbaarheid van het inzetten van Video-LLM's in realistische productiescenario's.

Hoe onthoudt LoRA? Een parametrische geheugenwet voor LLM-fijnafstemming
How LoRA Remembers? A Parametric Memory Law for LLM Finetuning

May 28

ByZiwen Xu, Haiwen Hong, Linsong Yu, Benglei Cui, Longtao Huang, Hui Xue, Ningyu Zhang

Grote Taalmodellen (LLM's) moeten continu leren en kennis bijwerken om effectief te blijven in dynamische, realistische omgevingen. Hoewel Laag-Rang Adaptatie (LoRA) veelvuldig wordt gebruikt voor dergelijke geheugenupdates, steunen bestaande studies voornamelijk op kwalitatieve downstream-evaluaties, waardoor de kwantitatieve capaciteitsgrenzen en onderliggende dynamiek van exact parametrisch geheugen grotendeels onverkend blijven. Om deze kloof te overbruggen, gebruiken wij LoRA als een gecontroleerde geheugencapaciteitssonde in de latente ruimte om exact parametrisch geheugen systematisch te kwantificeren. Wij introduceren de Parametrische Geheugenwet, een robuuste machtswet die de verliesreductie ΔL koppelt aan effectieve parameters en sequentielengte. Op token-niveau onthult een fijnmazige analyse een deterministische faseovergang, die aantoont dat een voorspellingskans van p > 0,5 een voldoende voorwaarde vormt voor letterlijke herinnering onder greedy decoding. Gedreven door deze inzichten introduceren wij MemFT, een drempelgestuurde optimalisatiestrategie die het trainingsbudget dynamisch herverdeelt naar subdrempeltokens. Empirische evaluaties tonen aan dat MemFT de geheugentrouw en efficiëntie kan verbeteren. Code zal worden vrijgegeven op https://github.com/zjunlp/ParametricMemoryLaw.

UniSteer: Tekstgestuurde Flow Matching in de Activatieruimte voor Veelzijdige LLM-Sturing
UniSteer: Text-Guided Flow Matching in Activation Space for Versatile LLM Steering

May 28

ByYingdong Shi, Ruiming Zhang, Changming Li, Zhiyu Yang, Kaixing Zhang, Jingyi Yu, Kan Ren

Op activering gebaseerde controle stuurt grote taalmodellen (LLM's) door tijdens inferentie in te grijpen op hun interne representaties, en is uitgegroeid tot een effectief paradigma voor het sturen van gedragingen zoals persona en stijl. Bestaande methoden vertrouwen echter vaak op vaste stuurrichtingen of taakspecifieke interventiemodules, waardoor ze moeilijk aanpasbaar zijn aan fijnmazige concepten en compositionele beperkingen. Wij stellen UniSteer voor, een tekstgestuurd activatiestromingsmatchingsmodel dat een conditionele verdeling over residuele-stroomactivaties leert op basis van natuurlijke-taalaanduidingen. In plaats van een aparte interventie voor elk doelgedrag te fitten, leert UniSteer een universeel conditioneel snelheidsveld in de activatieruimte. Tijdens inferentie voert UniSteer stromingsinversie uit door een bronactivatie gedeeltelijk naar een latente toestand te transporteren en deze onder een beoogde tekstuele conditie te regenereren alvorens deze terug te injecteren in het bevroren LLM. Hetzelfde conditionele model ondersteunt classificatie in de activatieruimte door het tekstuele label met de laagste reconstructie-energie te selecteren. Experimenten op drie doel-LLM's tonen aan dat UniSteer een uniforme interface biedt voor gedragscontrole, waarheidsgetrouw sturen, het sturen van fijnmazige concepten, het volgen van instructies met meerdere beperkingen en classificatie in de activatieruimte.

Waarom Far Omhoog Kijkt: Het Onderzoeken van Ruimtelijke Representatie in Visie-Taalmodellen
Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

May 28

ByCheolhong Min, Jaeyun Jung, Daeun Lee, Hyeonseong Jeon, Yu Su, Jonathan Tremblay, Chan Hee Song, Jaesik Park

Vision-taalmodellen (VLM's) behalen sterke prestaties op ruimtelijke redeneerbenchmarks, maar het blijft onduidelijk of dit gestructureerd 3D-begrip weerspiegelt of een beroep op statistische shortcuts in natuurlijke afbeeldingen. We introduceren een representatie-niveau analysekader dat minimale contrastparen construeert om te meten hoe ruimtelijke assen georganiseerd en ontward zijn binnen VLM-embeddings. Onze analyse over meerdere modelfamilies onthult een consistente verticale-afstandsverstrengeling: modellen verwarren verticale beeldpositie met afstand, wat de perspectiefbias van natuurlijke foto's weerspiegelt. Deze bias veroorzaakt een significant nauwkeurigheidsverschil tussen perspectief-consistente en contraintuïtieve voorbeelden, en versterkt onder dataschaalvergroting, zelfs terwijl de algehele benchmarknauwkeurigheid verbetert. We tonen verder aan dat modellen met vergelijkbare benchmarkscores verschillende interne representaties kunnen vertonen, en dat deze verschillen nauwkeurigheid en robuustheid voorspellen over diverse ruimtelijke redeneerbenchmarks. Om deze bias te isoleren van scheefheid in de evaluatieset, introduceren we SpatialTunnel, een synthetische benchmark ontworpen om ruimtelijke shortcut-biases bloot te leggen door gangbare correlaties in natuurlijke afbeeldingen te verwijderen. Experimenten bevestigen dat de verstrengeling model-intrinsiek is, en dat modellen met goed gescheiden ruimtelijke assen een grotere robuustheid vertonen, wat suggereert dat goed gestructureerde ruimtelijke representaties leiden tot betrouwbaardere ruimtelijke redenering over diverse benchmarks. Code en benchmark zijn beschikbaar op de projectpagina: https://cheolhong0916.github.io/whyfarlooksup.github.io/.

Natuurlijke audiovisuele uitlijning voor generatie
Native Audio-Visual Alignment for Generation

May 28

ByLongbin Ji, Guan Wang, Xuan Wei, Chenye Yang, Xiangrui Liu, Zhenyu Zhang, Shuohuan Wang, Yu Sun, Jingzhou He

Gezamenlijke audio-video generatie heeft tot doel temporeel gesynchroniseerde en semantisch coherente visueel-akoestische inhoud te synthetiseren. Bestaande open-source methoden zijn echter voornamelijk gebaseerd op dual-tower ontwerpen met posterieure uitlijning of volledig verenigde tri-modale ontwerpen die tekstuele context, audio en video in één gedeelde ruimte mengen. Eerstgenoemde verzwakt de fijnmazige audio-video co-evolutie, terwijl laatstgenoemde semantische conditionering koppelt aan laag-niveau synchronisatie. Om deze beperkingen aan te pakken, stellen we NAVA voor, een Native Audio-Visueel Uitlijningsraamwerk voor gezamenlijke audio-video generatie. NAVA is gebouwd op context-geconditioneerde native audio-visuele uitlijning: het vestigt eerst audio-video correspondentie in een speciale interactieruimte en gebruikt vervolgens externe context om het gezamenlijke denoising proces te conditioneren. Specifiek wordt NAVA geïnstantieerd met een Align-then-Fuse MMDiT architectuur, die overgaat van modaliteitsbewuste audio-video uitlijning naar modaliteitsgedeeld gezamenlijk denoising. Verder introduceren we Timbre-in-Context Conditionering om referentie timbre aanwijzingen te koppelen aan overeenkomstige spraaksegmenten voor controleerbaar spraaktimbre. Experimenten op Verse-Bench en Seed-TTS, samen met een gebruikersstudie, tonen aan dat NAVA superieure videokwaliteit, precieze audio-visuele synchronisatie, concurrerende audiokwaliteit en sterkere referentie-timbre controleerbaarheid bereikt met slechts 6,3 miljard parameters.

LoMo: Lokale modaliteitssubstitutie voor diepere visie-taal fusie
LoMo: Local Modality Substitution for Deeper Vision-Language Fusion

May 28

ByFeng Han, Zhixiong Zhang, Zheming Liang, Yibin Wang, Jiaqi Wang

Visie-Taalmodellen (Vision-Language Models, VLMs) hebben aanzienlijke vooruitgang geboekt op een breed scala aan begrips- en redeneertaken, gedreven door grootschalige beeld-teksttraining gericht op multimodale fusie. Idealiter zou het vervangen van een tekstuele vraag door de overeenkomstige weergegeven afbeelding de modelprestaties in wezen ongemoeid laten. In de praktijk leidt een dergelijke modaliteitsvervanging echter tot een drastische prestatievermindering. Wij schrijven dit probleem van 'dragergevoeligheid' toe aan een inherente vertekening in de huidige trainingscorpora. In gangbare datasets zoals beeldonderschriften, VQA, OCR en van het web afkomstige interleaved data worden tekst en afbeeldingen doorgaans georganiseerd in duidelijke en asymmetrische rollen, waarbij tekst fungeert als taalkundige vragen en afbeeldingen als visuele referenties. Deze dataverschuiving leidt ertoe dat VLMs duidelijke voorkeuren vertonen voor het verwerven van informatie via verschillende modaliteiten. Als gevolg hiervan slagen VLMs er niet in om representaties van semantisch equivalente inhoud over tekstuele en visuele dragers op elkaar af te stemmen, waardoor modelredeneren kwetsbaar wordt onder modaliteitsvervanging. Om dit aan te pakken stellen wij Lokale Modaliteitsvervanging (Local Modality Substitution, LoMo) voor, een lichtgewicht, architectuuronafhankelijk datacuratieparadigma dat is ontworpen om supervisie te bieden voor cross-modale representatie-invariantie tussen semantisch equivalente tekst- en beelddragers. LoMo bereikt dit door enkelvoudige modaliteitsprompts om te vormen tot naadloos interleaved multimodale sequenties. Het selecteert dynamisch doeltekstspannes en herinterpreteert deze als weergegeven afbeeldingen, waardoor dezelfde semantiek wordt behouden over 'tekst, visueel, tekst'-dragers. Uitgebreide experimenten over 13 diverse multimodale benchmarks tonen aan dat LoMo de algehele multimodale redenering aanzienlijk verbetert en diepere cross-modale fusie oplevert. Specifiek levert het consistente winst op bij fundamentele modellen, met verbeteringen van 2,67 punten op LLaVA-OneVision-1.5-8B en 2,82 punten op Qwen3.5-9B in vergelijking met standaard SFT.

LaRA: Laaggewijze representatieanalyse voor het detecteren van datacontaminatie in RL post-training
LaRA: Layer-wise Representation Analysis for Detecting Data Contamination in RL Post-Training

May 28

ByMinju Gwak, Minseo Kwak, Dongseok Lee, Guijin Son, Alan Ritter, Jaehyung Kim

Versterkingsleren (RL) nabehandeling blijkt het redeneervermogen van grote taalmodellen (LLM's) te verbeteren. Er is echter weinig onderzoek gedaan naar het probleem van datacontaminatie in RL-nabehandeling, wat de generalisatie en evaluatiebetrouwbaarheid van het trainingsproces zelf kan ondermijnen. Bestaande detectiemethoden zijn voornamelijk gebaseerd op signalen op uitvoerniveau, zoals waarschijnlijkheid of entropie, die onbetrouwbaar worden voor met RL getrainde modellen, aangezien RL gedrag vormgeeft via beloningen op trajectniveau in plaats van via tokenwaarschijnlijkheden. Wij stellen LaRA voor, een raamwerk voor laagsgewijze representatieanalyse om contaminatie in met RL nabehandelde LLM's te detecteren. LaRA introduceert drie complementaire metrieken die perturbatiegevoeligheid, directionele collaps en lokale representatiestijfheid meten onder gecontroleerde perturbaties. We ontdekken dat contaminatie leidt tot progressieve geometrische afwijkingen over lagen, waaronder versterkte perturbatiegevoeligheid, sterkere directionele collaps en toegenomen lokale stijfheid. Op basis van onze bevindingen ontwikkelen we ook een contaminatiedetectieprotocol dat afwijkingen op representatieniveau over lagen en metrieken aggregeert. Experimenten met door RL getrainde redeneermodellen tonen aan dat ons protocol beter presteert dan bestaande baselines op uitvoerniveau voor contaminatiedetectie.

Skill0.5: Gezamenlijke Vaardigheidsinternalisatie en -benutting voor Out-of-Distribution Generalisatie in Agentisch Versterkingsleren
Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning

May 27

ByJiapeng Zhu, Jianxiang Yu, Yibo Zhao, Chengcheng Han, Qi Gu, Xunliang Cai, Xiang Li, Weining Qian

Het uitrusten van grote taalmodellen met expliciete vaardigheden is naar voren gekomen als een veelbelovend paradigma voor het mogelijk maken van autonome agents om complexe taken op te lossen. Agentvaardigheden kunnen inherent worden onderverdeeld in algemene vaardigheden voor brede cognitieve overdracht en taakspecifieke vaardigheden voor dynamische uitvoering. Echter, bestaande op vaardigheden gebaseerde reinforcement learning (RL) methoden dwingen doorgaans een rigide keuze af tussen volledige externalisatie, wat leidt tot prohibitieve contextoverhead, en volledige internalisatie, wat risico's op overfitting en kennisconflicten met zich meebrengt. Om dit dilemma aan te pakken, stellen we Skill0.5 voor, een nieuw agentisch RL-raamwerk dat expliciet onderscheid maakt tussen vaardigheidsbehandelingen door algemene vaardigheidsinternalisatie te combineren met taakspecifiek vaardigheidsgebruik. Aangedreven door een dynamische, moeilijkheidsbewuste router, stroomt Skill0.5 taken in verschillende beheersingsniveaus om op maat gemaakte optimalisatiestrategieën toe te passen: het internaliseert algemene vaardigheden via bevoorrechte distillatie om een cognitieve basis voor moeilijke taken op te bouwen, terwijl het diagnostische probing gebruikt op eenvoudige taken om shortcuts te bestraffen en specifiek vaardigheidsgebruik af te dwingen. Experimenten op ALFWorld en WebShop tonen aan dat Skill0.5 zowel geheugen-gebaseerde als vaardigheids-gebaseerde RL-baselines overtreft, wat leidt tot prestatieverbeteringen in zowel in-distributie- als out-of-distributie-scenario's.

Xetrieval: Mechanistische verklaring van dense retrieval
Xetrieval: Mechanistically Explaining Dense Retrieval

May 28

ByZhixin Cai, Jun Bai, Yang Liu, Jiaqi Li, Yichi Zhang, Taichuan Li, Zhuofan Chen, Zixia Jia, Zilong Zheng, Wenge Rong

Uitleggen waarom dense retrievers hoge relevantiescores toekennen blijft uitdagend, omdat ophaalbeslissingen worden genomen via ondoorzichtige hoogdimensionale embeddings. Bestaande verklaringen richten zich vaak op oppervlakkige signalen, zoals lexicale overeenkomsten, token-uitlijningen of post-hoc tekstuele verantwoordingen, en bieden daardoor beperkt inzicht in de latente factoren die het gedrag van dense retrieval op embedddingniveau vormgeven. Wij stellen Xetrieval voor, een mechanistisch raamwerk op embedddingniveau voor het verklaren van dense retrieval. Xetrieval introduceert eerst een lichtgewicht redeneer-internalizer die Chain-of-Thought-redenering direct in de embedddingruimte benadert met een enkele voorwaartse doorgang, waarbij zinsembeddings worden verrijkt met redeneergerichte informatie terwijl dure autoregressieve generatie wordt vermeden. Vervolgens ontleedt het deze met redenering verrijkte embeddings in schaarse, door mensen interpreteerbare kenmerken, elk geassocieerd met een coherente natuurlijke taal beschrijving. Door schaarse kenmerkoverlappingen over meerdere documentzijdeweergaven te aggregeren, biedt Xetrieval kenmerkniveau-verklaringen van individuele ophaalbeslissingen. Experimenten met diverse retrievers en benchmarks tonen aan dat Xetrieval coherente interpreteerbare kenmerken blootlegt, sterkere paarinterventie-effecten oplevert en taakniveau-kenmerksturing ondersteunt. De projectpagina en broncode zijn beschikbaar op https://hihiczx.github.io/Xetrieval.

Wanneer moeten modellen van mening veranderen? Contextueel beheer van overtuigingen in grote taalmodellen
When Should Models Change Their Minds? Contextual Belief Management in Large Language Models

May 28

ByHaoming Xu, Weihong Xu, Zongrui Li, Mengru Wang, Yunzhi Yao, Chiyu Wu, Jin Shang, Yu Gong, Shumin Deng

Langetermijninteracties vereisen dat taalmodellen het accumuleren van informatie beheren: wanneer moeten ze hun toestand bijwerken, wanneer moeten ze deze behouden en wat moeten ze negeren. We bestuderen deze uitdaging als Contextueel Beheer van Geloofstoestanden (CBM): het onderhouden van een voorspelde geloofstoestand die aansluit bij formeel bewijs, terwijl taakirrelevante ruis wordt geïsoleerd. Om CBM meetbaar te maken, introduceren we BeliefTrack, een gesloten-wereldbenchmark die Regelontdekking en Circuitdiagnose omvat, waarbij een eindige geloofsruimte en symbolische verificatoren een exacte evaluatie op beurtniveau mogelijk maken. BeliefTrack identificeert drie falen: Mislukt Blijven, Mislukt Bijwerken en Mislukt Isoleren. Bij meerdere LLM's vertonen standaardmodellen ernstige CBM-falen, terwijl expliciete prompts voor geloofsvolg beperkte winst opleveren. Daarentegen vermindert versterkingsleren met beloningen voor geloofstoestand de faalpercentages gemiddeld met 70,9%. Verder onderzoek onthult latente dynamiek van geloofstoestanden achter deze falen, en sturing op representatieniveau verlaagt de faalpercentages met 46,1% over twee taken\footnote{Code is binnenkort beschikbaar op https://github.com/zjunlp/CBM.}.

gekleurde ruis diffusiesampling
Colored Noise Diffusion Sampling

May 28

ByHadar Davidson, Noam Issachar, Sagie Benaim

Diffusiemodellen bereiken state-of-the-art beeldsynthese, waarbij hun generatieve trajectoriën fundamenteel een spectrale bias vertonen: ze lossen laagfrequente globale structuren vroeg op en hoogfrequente fijne details later. Conventionele stochastische differentiaalvergelijking (SDE)-oplossers houden geen rekening met deze dynamiek; ze injecteren naïef uniforme witte ruis gedurende het gehele proces en misbruiken het eindige energiebudget. In dit werk stellen we een wiskundig raamwerk vast dat SDE-inferentie herziet als een gerichte, frequentie-ontkoppelde energieoverdracht. Met behulp van dit raamwerk introduceren we Colored Noise Sampling (CNS), een nieuwe, training-vrije stochastische oplosser. In plaats van uniforme witte ruis te injecteren, gebruikt CNS een dynamisch, tijdstap- en frequentieafhankelijk schema dat de geïnjecteerde energie efficiënter toewijst aan structureel onopgeloste frequentiebanden. Door actief gebruik te maken van de inherente spectrale bias van het model, stuurt CNS systematisch de gegenereerde verdeling naar de ware datamanifold. Uitgebreide experimenten tonen aan dat CNS aanzienlijk beter presteert dan standaard ODE- en SDE-baselines als een strikt plug-and-play, inferentie-tijd sampler-substitutie voor diverse architecturen (SiT, JiT, FLUX). Vergeleken met standaard sampling op ImageNet-256 behaalt CNS substantiële ongeleide FID-verlagingen, van 8,26 naar 6,27 op SiT-XL/2, van 32,39 naar 26,69 op JiT-B/16, en van 11,88 naar 8,31 op JiT-H/16, terwijl er consistente relatieve FID-verbeteringen worden behaald met Classifier-Free Guidance. De projectpagina is beschikbaar op https://hadardavidson.github.io/CNS/.

Is positiebias in dense retrievers ingebouwd of aangeleerd uit data?
Is Position Bias in Dense Retrievers Built In-or Learned from Data?

May 26

ByDaegon Yu, SeungYoon Han, Woomyoung Park

Dichte retrievers vertonen positiebias: ze bevoordelen documenten waarin query-relevante informatie aan het begin staat, en de retrievalprestaties nemen af wanneer die informatie later verschijnt. Hoewel eerder onderzoek naar positiebias in dichte retrievers zich grotendeels richtte op architecturale verklaringen, bestuderen wij hoe de positionele verdeling van bewijs in trainingsdata de richting van bias op retrieverniveau beïnvloedt. Om dit te testen construeren we synthetische positiegerichte trainingssets waarin query-relevant bewijs aan het begin, midden of einde van documenten verschijnt, en finetunen we acht architecturaal diverse voorgetrainde modellen onder scheve en gebalanceerde trainingsdistributies. Op rangschikkingsniveau zien we een sterk directioneel patroon bij de onderzochte modellen: scheve trainingsdistributies bevoordelen bewijs op de corresponderende posities. Positiegebalanceerde training vermindert positionele gevoeligheid met 57–87% op positiebewuste benchmarks, met concurrerende gemiddelde retrievalprestaties in onze gecontroleerde omgeving. Analyses op representatieniveau suggereren verder dat finetunen vaak geleerde positievoorkeuren hervormt, hoewel bestaande architecturale of pretrainingsspecifieke neigingen bij sommige modellen blijven bestaan. Deze resultaten identificeren de positionele verdeling van trainingsdata als een belangrijke beheersbare factor in positiebias op retrieverniveau en wijzen op gebalanceerde datacuratie als een praktische mitigatiestrategie.

CausaLab: Een schaalbare omgeving voor interactieve causale ontdekking voor AI-wetenschappers
CausaLab: A Scalable Environment for Interactive Causal Discovery Toward AI Scientists

May 28

ByJunlin Yang, Dylan Zhang, Xiangchen Song, Qirun Dai, Xiao Liu, Yuen Chen, Aniket Vashishtha, Jing Shi, Chenhao Tan, Hao Peng

Wij introduceren CausaLab, een schaalbare omgeving voor het evalueren van interactieve causale ontdekking door LLM-agenten. In tegenstelling tot eerdere evaluaties beoordeelt CausaLab zowel of een agent een probleem kan oplossen met behulp van causaal bewijs als of het antwoord gefundeerd is in een getrouw teruggevonden causaal mechanisme. Elke episode plaatst een agent in een synthetisch laboratorium: het ontvangt eerdere meetgegevens, intervenieert op een manipulatorkristal en voorspelt de resonantiefrequentie van een apart gehouden reactorkristal dat door hetzelfde mechanisme wordt geregeerd. Het verborgen gegevensgenererende proces is een willekeurig gesampled structureel causaal model (SCM), dus succes vereist het terugvinden van zowel een causale graaf als structurele vergelijkingen, in plaats van het herinneren van voorkennis. Experimenten tonen een aanhoudende kloof tussen voorspelling en mechanismeherstel: in de puur observationele 6-knoopsetting bereikt GPT-5.2-high 92% taaknauwkeurigheid, maar slechts 0,471 all-edge F₁. Gemengde observatie-interventiestrategieën verbeteren de structurele getrouwheid, terwijl pure interventie zelfs voor sterke agenten moeilijk blijft. Wij identificeren vroegtijdig stoppen als een belangrijke zwakte en tonen aan dat consistentieverificatie dit vermindert. CausaLab scheidt daardoor voorspellend succes van causaal begrip en legt de grenzen van huidige LLM-agenten als experimentele causale redeneerders bloot.

AsyncTool: Het evalueren van de asynchrone functieaanroepcapaciteit onder multitask-scenario's
AsyncTool: Evaluating the Asynchronous Function Calling Capability under Multi-Task Scenarios

May 27

ByKou Shi, Ziao Zhang, Shiting Huang, Avery Nie, Zhen Fang, Qiuchen Wang, Lin Chen, Huaian Chen, Zehui Chen, Feng Zhao

Op grote taalmodellen (LLM) gebaseerde agenten hebben sterke capaciteiten getoond in het gebruik van externe tools om complexe taken op te lossen. Bestaande evaluaties houden echter vaak geen rekening met de temporele dimensie van toolgebruik, met name de impact van de responstijd van tools, en zijn doorgaans beperkt tot enkelvoudige taakinstellingen. In praktijktoepassingen moeten vaak meerdere taken gelijktijdig worden uitgevoerd, en de algehele efficiëntie hangt af van of een agent inactieve tijd kan benutten tijdens het wachten op toolreacties. We verwijzen naar deze capaciteit als asynchrone toolaanroep. Om deze te evalueren, stellen we AsyncTool voor, een benchmark voor het beoordelen van LLM-gebaseerde agenten in interactieve, multitaak-omgevingen met vertraagde toolfeedback. AsyncTool presenteert meerdere heterogene taken tegelijkertijd en simuleert realistische toolresponstijd tijdens de uitvoering. Met behulp van een hybride data-evolutiestrategie construeren we een diverse asynchrone multitasking-dataset die meerdere scenario's en toolgebruikspatronen dekt. We evalueren modellen op staps-, deeltaak- en taakniveau, en introduceren efficiëntiegerichte metrieken om taakcoördinatie en -voltooiingsefficiëntie te meten. Uitgebreide experimenten tonen aan dat vertraagde toolfeedback aanzienlijke uitdagingen vormt voor huidige agenten en leidt tot duidelijke prestatievermindering. Modellen die taakwisseling, afhankelijkheidsregistratie en toestandsbehoud beter coördineren, presteren sterker op AsyncTool. Onze analyse identificeert belangrijke faalwijzen van huidige toolgebruikende agenten en biedt praktische inzichten voor het ontwerpen van toekomstige systemen met sterkere temporele redeneer- en coördinatiecapaciteiten.

Wanneer cloudagenten en apparaat-agenten elkaar ontmoeten: lessen uit hybride multi-agentsystemen
When Cloud Agents Meet Device Agents: Lessons from Hybrid Multi-Agent Systems

May 28

ByCorrado Rainone, Davide Belli, Bence Major, Arash Behboodi

De ontwerpruimte van agentische AI-inferentie omvat twee uitersten: grensverleggende grote taalmodellen (LLM's), doorgaans gehost in de cloud en met sterke prestaties op een breed scala aan taken tegen aanzienlijk hoge kosten, en kostenefficiëntere kleine taalmodellen (SLM's), die geschikt zijn voor inferentie op het apparaat. Hybride multi-agentsystemen (MAS'en) die modellen op het apparaat en in de cloud combineren, bieden een veelbelovend middenweg, maar introduceren ook een complexe en slecht begrepen ontwerpruimte waarin taaknauwkeurigheid, monetaire kosten en energieverbruik op het randapparaat nauw met elkaar verweven zijn; bij gebrek aan algemene ontwerpprincipes worden hybride componenten, hoewel niet de meest gangbare keuze, doorgaans geïntroduceerd via ad-hocbeslissingen die zijn toegesneden op specifieke domeinen. In dit werk onderzoeken we deze ontwerpruimte systematischer. We passen twee representatieve MAS-architecturen aan om hybride inferentie te ondersteunen en bestuderen hoe individuele ontwerpkeuzes het werkpunt langs de Pareto-grens van vermogen, kosten en prestaties verschuiven. Onze bevindingen schetsen een genuanceerd beeld van hybride MAS-ontwerp: hoewel SLM's effectief kunnen profiteren van LLM-assistentie, is de optimale architectuur sterk taakafhankelijk, en leidt een grotere rekenkracht op grensniveau niet consistent tot betere prestaties.

Naar Verifieerbaar Multimodaal Diepgaand Onderzoek: Een Multi-Agent Harnas voor Interleaved Rapportgeneratie
Towards Verifiable Multimodal Deep Research: A Multi-Agent Harness for Interleaved Report Generation

May 28

ByChenghao Zhang, Guanting Dong, Yufan Liu, Tong Zhao, Zhicheng Dou

Large Language Models (LLM's) hebben autonome agenten geavanceerd van deep search, dat beknopte feitelijke antwoorden ophaalt, naar deep research, dat verspreid bewijsmateriaal synthetiseert tot langere rapporten. Verifieerbaar multimodaal deep research blijft echter uitdagend vanwege open-eindsynthese zonder deterministische grondwaarheid en de noodzaak om tekstuele argumenten te verweven met visueel bewijs. Wij stellen Ptah voor, een multi-agent raamwerk voor het genereren van verweven rapporten. Ptah orchestreert de levenscyclus van gebruikersvraag tot gerenderd webrapport via plannings-, onderzoeks- en schrijffasen, waarin gespecialiseerde agenten visueel-bewuste plannen opstellen, bewijsgrond voor claims verzamelen, bron-uitgelijnde afbeeldingen bewaren in een Visual Working Memory, en rapporten samenstellen via declaratief multimodaal toolgebruik. Een verifieerder-agent fungeert als de acceptatiefunctie van het raamwerk, en handhaaft feitelijke onderbouwing, citatietrouw en cross-modale consistentie gedurende de workflow. We introduceren verder PtahEval, een evaluatieprotocol dat bestaande benchmarks aanvult met beoordelingen op afbeeldings- en presentatieniveau. Experimenten op deep research benchmarks tonen aan dat Ptah betrouwbaardere, visueel informatievere en bruikbaardere mensgerichte multimodale rapporten produceert dan sterke baselines.

UI-KOBE: Kennisgeoriënteerde Gedragsverkenning voor Lichtgewicht Graafgeleide GUI-Agenten
UI-KOBE: Knowledge-Oriented Behavior Exploration for Lightweight Graph-Guided GUI Agents

May 28

ByYuxiang Chai, Han Xiao, Xinyu Fu, Jinpeng Chen, Rui Liu, Hongsheng Li

Recente vooruitgang in mobiele GUI-agenten heeft een sterk potentieel getoond voor het automatiseren van mobiele taken, maar de meeste effectieve systemen zijn nog steeds afhankelijk van grote visie-taalmodellen voor het begrijpen van schermafbeeldingen en planning op lange termijn. Kleine GUI-agenten die direct op mobiele apparaten kunnen worden ingezet, zijn aantrekkelijker voor praktisch gebruik, omdat ze lagere inferentiekosten en een betere bescherming van gevoelige informatie op het apparaat bieden. Door de beperkte modelcapaciteit blijven dergelijke lichtgewicht agenten echter onbetrouwbaar bij het plannen en uitvoeren van GUI-taken van begin tot eind op basis van alleen schermafbeeldingen. Wij stellen Knowledge-Oriented Behavior Exploration (UI-KOBE) voor, een raamwerk dat lichtgewicht mobiele GUI-agenten verbetert met herbruikbare app-specifieke grafiekkennis. UI-KOBE verkent eerst autonoom een mobiele applicatie en construeert een app-kennisgraaf, waarin knooppunten verschillende UI-toestanden voorstellen en randen uitvoerbare overgangen voorstellen. Tijdens runtime gebruikt een lichtgewicht GUI-agent de graaf als externe begeleiding: gegeven een gebruikerstaak en de huidige schermafbeelding identificeert het het huidige graafknooppunt en kiest uit zelflusacties, naburige overgangen, taakvoltooiing of vrije terugvalacties die aan dat knooppunt zijn gekoppeld. Door runtime-beslissingen te ondersteunen met app-specifieke grafiekbegeleiding vermindert UI-KOBE de last van end-to-end GUI-planning en helpt het lichtgewicht modellen mobiele GUI-taken effectiever uit te voeren, wat een praktische stap biedt richting efficiënte, interpreteerbare en privacybewuste GUI-agenten op het apparaat.

LiteCoder-Terminal: Opschaling van lange-horizon terminalomgevingen voor het leren van taalagenten
LiteCoder-Terminal: Scaling Long-Horizon Terminal Environments for Learning Language Agents

May 28

ByXiaoxuan Peng, Kaiqi Zhang, Xinyu Lu, Boxi Cao, Yaojie Lu, Hongyu Lin, Xianpei Han, Le Sun

Het beheersen van terminalomgevingen vereist taalagenten die in staat zijn tot meerstappenplanning, op feedback gebaseerde uitvoering en dynamische toestandsaanpassing. De training van dergelijke agenten wordt momenteel echter belemmerd door een afhankelijkheid van geschraapte externe repositories, wat de domeindiversiteit, de omgevingscontroleerbaarheid en het targeten van specifieke capaciteitstekorten beperkt. We introduceren LiteCoder-Terminal-Gen, een nul-afhankelijkheidssynthesepijplijn die autonoom uitvoerbare en verifieerbare terminaltrainingsomgevingen genereert, rechtstreeks op basis van domeinspecificaties. Met dit raamwerk construeren we twee grootschalige bronnen: LiteCoder-Terminal-SFT, bestaande uit 11.255 expert-trajecten in 10 domeinen, en LiteCoder-Terminal-RL, met 602 verifieerbare omgevingen voor trajectniveau-preferentieoptimalisatie. Gesuperviseerd finetunen van modellen uit de Qwen-familie op onze SFT-dataset levert agenten op die hun basis-tegenhangers aanzienlijk overtreffen. Met name onze 32B-variant behaalt respectievelijk 29,06%, 18,54% en 34,00% pass@1 op Terminal Bench 1.0, 2.0 en Pro. Bovendien levert toepassing van Directe Multi-beurt Preferentieoptimalisatie (DMPO) op onze RL-omgevingen extra prestatieverbeteringen op. Deze resultaten tonen systematisch aan dat volledig synthetische, uitvoerbare omgevingen een schaalbaar en verifieerbaar supervisiesignaal bieden voor het beheersen van complexe, real-world commandoregel-workflows.

PhyGenHOI: fysisch-bewuste 4D-generatie van dynamische mens-objectinteracties
PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

May 28

ByOmer Benishu, Gal Fiebelman, Sagie Benaim

Wij pakken de taak aan om fysiek accurate en visueel getrouwe 4D Mens-Object Interactie (HOI) te genereren. Gegeven een statische 3D-mens en een doelobject, weergegeven als 3D Gaussiaanse Splats (3DGS), is ons doel om dynamische scènes te synthetiseren waarin de mens actief met het object interageert door middel van acties zoals slaan of trappen, overeenkomstig een gegeven invoertekst. Hiertoe introduceren wij PhyGenHOI, een nieuw raamwerk dat generatieve menselijke beweging koppelt aan een expliciete fysieke simulatie van het object. Wij modelleren de mens als een semantische agent die wordt aangestuurd door een Bewegingsdiffusiemodel (MDM) en het object als een fysieke agent die wordt gesimuleerd via de Materiaalpuntmethode (MPM), waarbij 3D Gaussianen worden gebruikt als een uniforme, differentieerbare representatie. Wij superviseren hun interactie via drie gekoppelde mechanismen: (1) een Venster-aantrekkingsverlies dat generatieve beweging temporeel synchroniseert om het object te onderscheppen; (2) een Contactgestuurde Hersimulatiestap die bij impact fysiek consistente momentumoverdracht triggert; en (3) een Gemaskeerde Video-SDS-doelstelling die videogebaseerde prioriën injecteert om de contactgetrouwheid te verbeteren. Experimenten tonen aan dat PhyGenHOI fysiek consistente 4D HOI genereert over diverse acties, mensen en objecten, en daarbij baselines overtreft. Projectpagina en video's: https://omerbenishu.github.io/PhyGenHOI/

PRISM: Een multidimensionale benchmark voor het evalueren van LLM-peerbeoordelaars
PRISM: A Multi-Dimensional Benchmark for Evaluating LLM Peer Reviewers

May 27

ByNgoc Phan Phuoc Loc, Toan Huynh La Viet, Thanh Tran Khanh, Duy A Nguyen, Tuan Anh Nguyen Pham, Thanh Nguyen, Nitesh V. Chawla, Wray Buntine, Kok-Seng Wong, Khoa D. Doan, Binh T. Nguyen

De snelle groei van het aantal inzendingen voor machine learning-conferenties heeft het wetenschappelijke peer-review-systeem onder druk gezet en de interesse in LLM-gebaseerde geautomatiseerde peer reviewers vergroot. Hoe goed deze systemen echter daadwerkelijk zijn, vooral in vergelijking met menselijke reviewers bij het opsporen van wetenschappelijke hiaten, blijft slecht begrepen. In dit werk introduceren we PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), een benchmarkframework dat de kwaliteit van reviews evalueert over vier dimensies: Diepte van Analyse, Beoordeling van Nieuwheid, Identificatie van Gebreken & Prioritering van Belangrijke Kwesties, en Multidimensionale Constructiviteit. In tegenstelling tot de meeste bestaande evaluaties op basis van oppervlakkige metrieken zoals ROUGE en BLEU, of onbeperkte LLM-als-rechter prompting die vloeiendheid verwart met nauwkeurigheid, baseert PRISM elke dimensie op argumentmining, retrieval-versterkte verificatie en consensusgebaseerde scoring. We passen PRISM toe om vijf toonaangevende geautomatiseerde reviewersystemen en menselijke reviewers te benchmarken op een gestratificeerd corpus van reviews van ICLR, ICML en NeurIPS. De resultaten laten zien dat LLMs menselijke reviewers kunnen evenaren of overtreffen op individuele dimensies: vergelijkbare diepte van analyse, sterkere nieuwheidsverificatie en zeer nauwkeurige prioritering van kritiek. Echter, geen enkel systeem komt consistent overeen met de gebalanceerde prestaties van de menselijke basislijn over alle dimensies tegelijk. Elk vertoont een duidelijk specialisatieprofiel met karakteristieke blinde vlekken -- faalwijzen die geaggregeerde metrieken volledig missen. De implicatie is dat LLM-reviewers het best kunnen worden begrepen als gerichte aanvullingen op menselijke review, effectief binnen specifieke dimensies, maar onbetrouwbaar als zelfstandige vervangingen. Onze demo en belangrijkste resultaten zijn te vinden op https://khanhthanhdev.github.io/prism-page/.

RUBRIC-ARROW: Alternerend Puntsgewijs Rubric Beloningsmodellering voor LLM-natraining in Niet-verifieerbare Domeinen
RUBRIC-ARROW: Alternating Pointwise Rubric Reward Modeling for LLM Post-training in Non-verifiable Domains

May 27

ByHaoxiang Jiang, Zihan Dong, Tianci Liu, Wanying Wang, Ran Xu, Tony Yu, Linjun Zhang, Haoyu Wang

Puntsgewijze beloningsmodellering levert kritieke signalen voor de nabewerking van grote taalmodellen (LLM's), maar heeft moeite met absolute scores in subjectieve, niet-verifieerbare contexten. Rubriekgebaseerde methoden pakken dit aan door evaluatie op te splitsen in expliciete criteria, maar bestaande benaderingen zijn doorgaans afhankelijk van geavanceerde LLM's en lijden onder gelijke standen die ontstaan door harde Booleaanse aggregatie. Wij presenteren RUBRIC-ARROW, een afwisselend raamwerk dat gezamenlijk een rubriekgenerator en een rubric-geconditioneerde beoordelaar traint, waarbij de RL-fase alleen gebruikmaakt van paarsgewijze voorkeursdata. Onze methode combineert een op waarschijnlijkheid gebaseerde scoreregel die gelijke standen vermindert, met fase-specifieke op voorkeur gebaseerde beloningen en een afwisselend GRPO-schema dat gezamenlijk de puntsgewijze evaluator traint. Uitgebreide experimenten tonen aan dat RUBRIC-ARROW concurrerende nauwkeurigheid in beloningsmodellering bereikt en consistente winst oplevert voor stroomafwaartse beleidsnabewerking.

DynaFLIP: Herzien van Robotica-Perceptie via Tri-Modale Dynamica-Gestuurde Representatie
DynaFLIP: Rethinking Robotics Perception via Tri-Modal-Dynamics Guided Representation

May 28

ByJusuk Lee, Seungjae Lee, Jonghun Shin, Hoseong Jung, Sungha Kim, Daesol Cho, H. Jin Kim, Jia-Bin Huang, Furong Huang

Robotmanipulatie is in hoge mate afhankelijk van perceptie die de actierelevante aspecten van een scène behoudt. Toch zijn de meeste robotleerpijplijnen gebouwd op visuele encoders die zijn voorgetraind voor statische herkenning of visie-taalalignement, waardoor bewegingsbegrip wordt overgelaten aan stroomafwaartse beleidsstrategieën. We introduceren DynaFLIP, een dynamiekbewust multimodaal pre-trainingsraamwerk dat bewegingsbegrip stroomopwaarts in de perceptie plaatst. We construeren beeld-taal-3D-stroomtriplets uit heterogene menselijke en robotvideo's, en gebruiken deze triplets als trainingstijd-supervisie om een alleen-beeldencoder te vormen. Ons kernidee is om de drie modaliteiten aan te moedigen een klein simplexvolume in de gedeelde hypersferische ruimte te overspannen – een kleiner simplexvolume duidt op een sterkere alignement. Om de geometrische ambiguïteit en triviale ineenstorting van naïeve volumeminimalisatie te vermijden, combineren we simplexvolume-minimalisatie met een cosinusregularisator en een contrastief doel. Onze analyses tonen aan dat DynaFLIP zich richt op controle-relevante regio's die essentieel zijn voor manipulatie. De resulterende dynamiekbewuste representaties dienen als herbruikbare visuele basismodellen en presteren consistent beter dan referentiemodellen in diverse stroomafwaartse beleidsstrategieën, waaronder VLA's. We valideren dit in diverse simulatie- en praktijkopstellingen, met verbeteringen tot +22,5% in buitendistributiescenario's. Onze resultaten suggereren dat robotgeneralisatie verbetert wanneer visuele representaties worden getraind om niet alleen vast te leggen wat aanwezig is, maar hoe de wereld verandert onder actie.

Verifieerbare beloningen voorbij wiskunde en code: lichtgewicht corpus-gefundeerde proces-supervisie voor feitelijke vraagbeantwoording
Verifiable Rewards Beyond Math and Code: Lightweight Corpus-Grounded Process Supervision for Factual Question Answering

May 28

ByShicheng Fan, Haochang Hao, Dehai Min, Weihao Liu, Philip S. Yu, Lu Cheng

Het toepassen van versterkend leren om de feitelijke nauwkeurigheid in kennisintensieve vraagbeantwoording te verbeteren, stuit op een dilemma bij het ontwerpen van beloningen. Beloningen op antwoordniveau bieden slechts grove begeleiding en kunnen correcte van incorrecte uitspraken binnen een redeneerspoor niet onderscheiden. Alternatieven op zinsniveau leveren fijnmazigere feedback, maar zijn doorgaans afhankelijk van NLI-verifieerders, LLM-beoordelaars of kennisverificatiepijplijnen die kostbaar zijn om op schaal van versterkend leren in te zetten en vaak onbetrouwbaar voor feiten over zeldzame entiteiten, waar accurate beloningssignalen bijzonder belangrijk zijn. Wij stellen CorVer (Corpus Verify) voor, een lichtgewicht, direct inzetbare procesbeloning die neurale verifieerders vervangt door een corpus-gefundeerd signaal afgeleid van co-occurrentiestatistieken uit Wikipedia. CorVer kent krediet toe op zinsniveau en vertaalt dit via een eenvoudige afstemming naar voordelen op token-niveau, waarbij slechts een extractor van 0,5B en één enkele corpusopvraging per zin nodig zijn. Over 30 (model, benchmark)-cellen verdeeld over zes instructie-afgestemde modellen (3B tot 14B) en vijf QA-benchmarks heen, verbetert CorVer de ruwe basislijn voor elke cel, met een gemiddelde TriviaQA-winst van +4,1 procentpunt. Het presteert ook beter dan vier neurale verifieerder-basislijnen in 18 van de 20 cellen onder hun haalbare configuraties, terwijl het 4,8 tot 8,4 keer sneller traint.

ChildVox: Een benchmark voor spraak, audio en grote audio-taalmodellen in het begrijpen en karakteriseren van geluid gedurende de kindertijd
ChildVox: A Speech, Audio, and Large Audio-Language Model Benchmark in Understanding and Characterizing Sound across Childhood

May 28

ByTiantian Feng, Anfeng Xu, Xuan Shi, Aditya Kommineni, Shakhrul Iman Siam, Megan Micheletti, Zhonghao Shi, Helen Tager-Flusberg, Mi Zhang, Lynn K. Perry, Catherine Lord, Daniel Messinger, Shrikanth Narayanan

We presenteren ChildVox, een nieuwe benchmark voor het karakteriseren van de diverse akoestische signalen waarmee kinderen communiceren. Specifiek volgt ChildVox het volledige ontwikkelingstraject van geboorte tot schoolleeftijd, waarbij fysiologische geluiden, niet-linguïstische vocalisaties, canonieke syllaben en gesproken taal worden omvat. ChildVox integreert meer dan 20 subtaken over 17 kindgerichte audio- en spraakdatasets, wat systematische vergelijking tussen corpora en domeinen mogelijk maakt. We evalueren een representatieve reeks funderingsmodellen voor audio en spraak, waaronder zelfgesuperviseerde, ASR-gerichte en grote audio-taalmodelen, op taken zoals classificatie van fysiologische geluiden, modellering van vocalisaties en canonieke syllaben, en beoordeling en herkenning van spraakkwaliteit. Benchmarkresultaten tonen aan dat ChildVox een reeks hoogpresterende modellen biedt bij het herkennen van een breed scala aan akoestische signalen van kinderen, wat toepassingen in downstream ondersteunt zoals het karakteriseren van taalniveaus van kinderen en het volgen van spraakproductie met de leeftijd.

WorldMemArena: evaluatie van multimodaal agentgeheugen via actie-wereldinteractie
WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

May 28

ByChengzhi Liu, Yuzhe Yang, Sophia Xiao Pu, Yepeng Liu, Lin Long, Yichen Guo, Nuo Chen, Zhaotian Weng, Elena Kochkina, Simerjot Kaur, Charese Smiley, Xiaomo Liu, James Zou, Sheng Liu, Yuheng Bu, Songyou Peng, Xin Eric Wang

Multimodale grote taalmodellen worden steeds vaker ingezet als langetermijnagenten, waarbij het geheugen meer moet doen dan alleen herinneren: het moet een evoluerende wereld bijhouden, verouderde informatie herzien, en de juiste bewijzen naar voren brengen op het moment van besluitvorming. Bestaande benchmarks meten herinnering over statische dialoog, reduceren geheugen tot een enkelvoudige nauwkeurigheid aan het einde van de taak, en beperken visuele waarnemingen tot bijschriften, waardoor we niet in staat zijn om fouten te lokaliseren in schrijven, onderhoud, ophalen of gebruik. De opkomst van agent-harnesses die hun eigen geheugen beheren, verscherpt deze lacune, aangezien we geen principiële manier hebben om handmatig ontworpen pijplijnen te vergelijken met zelfbeherende alternatieven. Om deze lacunes te dichten, formuleren we multimodaal agentgeheugen als een Actie-Wereld Interactielus met een waarneembare vierfasenlevenscyclus, en implementeren we dit in WorldMemArena: 400 multisessie multimodale taken die Levenslange Evolutie (evoluerende persoonlijke en taaktoestanden) en Agentische Uitvoering (geheugen uit echte waarnemingen, acties en feedback) omvatten, geannoteerd met gouden geheugenpunten, updates, afleiders en bewijsketens voor diagnose op faseniveau. Dit maakt de eerste directe vergelijking mogelijk tussen langere context, handmatig ontworpen (RAG en externe geheugensystemen) en op harness gebaseerde geheugenagenten. Resultaten tonen aan dat: (1) beter geheugenschrijven en -opslag geen betere prestaties garanderen; (2) multimodaal geheugen nog steeds moeite heeft om visueel bewijs volledig te gebruiken; (3) systemen instabiel zijn over domeinen en verslechteren op realistische agentische trajecten; en (4) harness-geheugen flexibeler is maar duur en minder betrouwbaar blijft.

REPOT: Herstelbaar Program-of-Thought via Checkpointherstel
REPOT: Recoverable Program-of-Thought via Checkpoint Repair

May 28

ByParsa Mazaheri

One-shot Program-of-Thought (PoT) genereert een Python-programma dat een plan van primitieve acties uitprint; één enkele ongeldige actie maakt het traject ongemerkt ongeldig. We introduceren RePoT (Recoverable PoT): een deterministische geverifieerde herhaling die het plan door de omgeving uitvoert tot de eerste ongeldige overgang, gevolgd door één LLM-aanroep die hervat vanaf het geverifieerde voorvoegsel. RePoT kost maximaal één extra LLM-aanroep op de ~14% van de problemen waar PoT faalt. RePoT verslaat PoT met +3 tot +11 procentpunt over vier closed-model configuraties op PuzzleZoo-775 en bereikt een piek van 96,9% tegenover 86,3% op gpt-5.4-mini-medium; tegen de matched-budget PoT-retry-baseline wint RePoT overtuigend op Gemini (+3,8 pp, 95% BI [+2,2,+5,4]), valt het binnen steekproefruis op GPT-medium en Claude, en verliest het op GPT-mini – een capaciteitsschalingspatroon dat we beginnen aan te pakken met Adaptive RePoT, een op regels gebaseerde dispatcher die routeert tussen suffixreparatie en een nieuwe PoT-poging op basis van de lengte van het geverifieerde voorvoegsel (voorlopig). We repliceren op PlanBench Blocksworld (+1,1 tot +11,4 pp) en op vier open-weights modellen (+3,3 tot +20,0 pp op drie van de vier). Op Derail-550, onze gecontroleerde herstelbenchmark, haalt elke conditie met toegang tot checkpointinformatie >=30% op GPT-medium en >=70% op Gemini, tegenover <=3,1% voor alleen foutfeedback – wat aantoont dat checkpointinformatie, niet de specifieke geverifieerde voorvoegselstaart, het dragende herstelsignaal is.

Waarom grotere modellen meer leren: Effecten van capaciteit, interferentie en retentie van zeldzame taken
Why Larger Models Learn More: Effects of Capacity, Interference, and Rare-Task Retention

May 28

ByJing Huang, Daniel Wurgaft, Rachit Bansal, Laura Ruis, Naomi Saphra, David Alvarez-Melis, Andrew Kyle Lampinen, Christopher Potts, Ekdeep Singh Lubana

Grotere modellen leren taken die kleinere modellen niet leren. Wat drijft dit fenomeen? We ontwikkelen een eenvoudig fenomenologisch argument dat machtswetschaling al suggereert dat een groter model een deel van de dataverdeling zal kunnen leren dat een kleiner model niet leert, zelfs met oneindige trainingsdata. Om deze bewering te valideren en de oorzaken ervan te identificeren, bestuderen we de effecten van modelschaling op een synthetische opstelling bestaande uit een mengsel van taken die monotone schalingscurves vertonen. De resultaten wijzen op een data-geïnduceerde concurrentie om hulpbronnen (neuronen). Specifiek wijzen kleinere modellen hun neuronen toe aan taken met hoge frequentie of lage complexiteit, waardoor ze oplossingen leren die slecht presteren op zeldzame en complexe taken. Bovendien gebeurt dit zelfs wanneer er oplossingen bestaan die in staat zijn de gewenste taak uit te drukken. We beoordelen vervolgens hoe een groter model deze data-centrische bottleneck omzeilt, en vinden dat dit terug te voeren is op een verminderd interferentiemechanisme: grotere modellen kunnen voldoende middelen toewijzen aan veelvoorkomende taken zodat de gradiëntupdates voor die taken zwak worden, wat betekent dat ze zeldzame taakkenmerken niet overschrijven terwijl deze langzaam accumuleren. Tot slot, om deze beweringen verder te valideren, pretrainen we OLMo-modellen (4M tot 4B parameters) op nieuwe taken met variërende frequentie en complexiteit. De resultaten weerspiegelen die van onze synthetische data-experimenten: alleen de grotere OLMo-modellen leren de zeldzame en complexe taken, en deze grotere modellen verwerken meer taakkenmerken in hun representaties en vertonen minder gradiëntinterferentie tussen taken. Over het geheel genomen bieden we een data-centrische verklaring waarom grotere modellen taken leren die kleinere modellen niet leren. Dit helpt verklaren waarom grotere modellen in de praktijk beter zijn, en het kan praktische vragen over modelgrootte en mengsels van trainingsdata informeren.

NeuROK: Generatieve 4D Neurale Objectkinematica
NeuROK: Generative 4D Neural Object Kinematics

May 28

ByChen Geng, Guangzhao He, Yue Gao, Yunzhi Zhang, Shangzhe Wu, Jiajun Wu

Datagedreven benaderingen hebben de 3D-visie gerevolutioneerd, waardoor transformatoren in staat zijn om statische 3D-objecten effectief te reconstrueren en te genereren. Het genereren van simuleerbare 4D-dynamica – realistische temporele vervormingen van statische objecten onder verschillende fysische omstandigheden – blijft echter uitdagend en vaak ad-hoc, ondanks het belang ervan voor het bouwen van uitgebreide 3D-wereldmodellen. De meeste bestaande methoden gaan uit van een vooraf gedefinieerd fysisch model en gebruiken systeemidentificatie om parameters te schatten, wat deze methoden beperkt tot specifieke categorieën en kleinschalige datasets. Wij stellen voor dat deze beperkingen kunnen worden overwonnen door het leren van een datagedreven kinematische statusparametrisatie voor objectgecentreerde fysische systemen. Specifiek leren we zowel een latente ruimte die alle mogelijke toestanden van het object vertegenwoordigt, als een decoder die elke gesamplede latente code toewijst aan een plausibel vervormde vorm van het object. We noemen deze parametrisatie Neurale Objectkinematica (NeuROK) en trainen een op transformatoren gebaseerd encoder-decodermodel op een samengestelde grootschalige 4D-dataset. Deze formulering en het geleerde model vereenvoudigen het genereren van simuleerbare dynamica aanzienlijk, omdat we alleen de dynamica in een laagdimensionale latente ruimte hoeven te beschouwen vanuit het perspectief van de Lagrangiaanse mechanica in de klassieke natuurkunde. We demonstreren de effectiviteit en algemeenheid van dit neurale simulatieraamwerk voor diverse dynamische objecttypen, met duidelijke voordelen ten opzichte van eerder werk. Projectpagina: https://chen-geng.com/neurok

AdaState: Zelf-evoluerende ankers voor streaming videogeneratie
AdaState: Self-Evolving Anchors for Streaming Video Generation

May 28

ByYusuf Dalva, Pinar Yanardag

Autoregressieve videodiffusiemodellen genereren streaming video door opeenvolgend frames te produceren, waarbij elk chunk wordt geconditioneerd op eerder gegenereerde inhoud. Deze modellen zijn structureel verankerd aan het eerste frame: de sleutel-waarderepresentatie ervan neemt een bevoorrechte positie in in de aandachtcache en dient gedurende de generatie als primaire scenereferentie. Als de schoonste en meest foutenvrije positie in de cache trekt dit anker onevenredig veel aandacht, onderdrukt videodynamiek en vergrendelt de scènecompositie op het initiële gezichtspunt, zelfs terwijl de scène natuurlijk evolueert. Het resultaat is een temporeel ondiepe video waarin beweging, camerabeweging en scènevoortgang worden gedempt ten gunste van statische consistentie. Om dit aan te pakken, vervangen we het statische anker door een adaptieve toestand, een verborgen latent die het model bij elk chunk samen met inhoud ontruist, maar nooit rendert. In plaats van te verwijzen naar een bevroren eerste frame, genereert het model bij elke stap zijn eigen scèneanker door zowel naar de vorige toestand als de huidige inhoud te kijken, waardoor een referentie ontstaat die evolueert met de gegenereerde inhoud. In tegenstelling tot standaard videogeneratie, die een absoluut tijdsbegrip codeert, behandelt onze formulering tijd als relatief: elke generatiestap ziet dezelfde positionele structuur, ongeacht hoe ver de generatie is gevorderd, en de toestandsovergang is identiek bij elk chunk. Samen introduceren deze eigenschappen een recurrentie in het generatieproces, waarbij ontruising dient als de overgangsfunctie en de KV-cache als de drager, zonder dat er een externe module nodig is. Experimenten tonen aan dat de adaptieve toestand de videodynamiek aanzienlijk verbetert, waardoor rijkere beweging en natuurlijke scènevoortgang in gegenereerde video's mogelijk wordt.

Denken alvorens te beperken: Een uniform decoderingsraamwerk voor grote taalmodellen
Thinking Before Constraining: A Unified Decoding Framework for Large Language Models

May 28

ByNgoc Trinh Hung Nguyen, Alonso Silva, Laith Zumot, Liubov Tupikina, Armen Aghasaryan, Mehwish Alam

Natuurlijke generatie stelt Grote Taalmodellen (LLM's) in staat om vrije-vorm antwoorden te produceren met rijke redeneringen, maar het gebrek aan structuur maakt uitvoer moeilijk te verifiëren. Omgekeerd zorgt gedwongen decodering voor gestandaardiseerde formaten, maar kan het onbedoeld redeneervermogens beperken door te vroeg in het generatieproces beperkingen op te leggen. Wij stellen een hybride aanpak voor, genaamd In-Writing, die vrije-vorm redeneren en gestructureerde generatie combineert in één enkele aanroep. Het model voert eerst onbeperkt redeneren uit en past pas gestructureerde decodering toe nadat een triggertoken is gegenereerd, waarbij redeneren expliciet wordt ontkoppeld van opmaak. We stellen vast dat onze triggertoken-strategieën in staat zijn om voortijdige triggering vrijwel uit te bannen, een faalmodus waarbij gedwongen decodering lopende redeneringen onderbreekt. Evaluaties op diverse datasets, variërend van classificatie- tot redeneertaken, tonen aan dat onze aanpak de state-of-the-art overtreft door nauwkeurigheidswinsten tot 27% te behalen ten opzichte van natuurlijke generatie. Onze code is beschikbaar op: https://github.com/Nokia-Bell-Labs/InWriting.

SmartDirector: Keyframe-geconditioneerde cinematische videogeneratie met regeling van het narratief tempo
SmartDirector: Keyframe-Conditioned Cinematic Video Generation with Narrative Pacing Control

May 27

ByZhida Zhang, Jie Ma, Zhan Peng, Haoxue Wu, Yang Han, Jun Liang, Jie Cao, Jing Li

De narratieve kwaliteit van een video bepaalt fundamenteel de perceptuele waarde ervan. Hoewel bestaande videogeneratiemethoden visueel aantrekkelijke inhoud kunnen produceren, vertrouwen zij voornamelijk op schaarse conditioneringssignalen zoals tekstprompts of eerste/laatste frames, wat de precieze controle over narratieve structuur en temporele pacing beperkt. In dit artikel stellen we SmartDirector voor, een raamwerk dat de narratieve capaciteit van videogeneratiemodellen verbetert door middel van meerdere keyframes. SmartDirector ondersteunt flexibele generatiescenario's, waaronder single-shot generatie, multi-shot narratieve synthese en video-extensie. Het raamwerk werkt in twee fasen: Director-Gen genereert een lage-resolutievideo geconditioneerd op de verstrekte keyframes, en Director-SR verfijnt de uitvoer door hoge-resolutie keyframes als semantische ankers te gebruiken om fijnmazige details te herstellen. Om robuuste multi-keyframe training mogelijk te maken, bouwen we een datapijplijn die single-shot en multi-shot sequenties uit films cureert. Uitgebreide experimenten tonen aan dat SmartDirector aanzienlijk beter presteert dan bestaande state-of-the-art benaderingen. We zullen de code vrijgeven om verder onderzoek te faciliteren.

Het leren van een geïntegreerde risicokaart voor autonoom rijden in gedeeltelijk waarneembare omgevingen
Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

May 21

ByJie Jia, Yaofeng Su, Zeyu Bao, Yun Hong, Bingzhao Gao, Zhongxue Gan, Wenchao Ding

Occlusiebewuste voorspelling blijft een kritieke uitdaging in autonoom rijden vanwege de inherente onzekerheid van niet-waargenomen gebieden. Bestaande benaderingen overschatten ofwel het risico op basis van bereikbare toestanden, of hebben moeite met het voorspellen van nauwkeurige trajecten onder hoge occlusieonzekerheid. Om deze beperkingen aan te pakken, stellen we een uniform raamwerk voor risicokaartmodellering en -leren voor gedeeltelijk waarneembare omgevingen voor. Onze methode integreert verkeersstroomrisico en botsingsrisico door middel van ruimtelijk-temporele modellering, wat een fijnmazige beoordeling van door occlusie veroorzaakte gevaren mogelijk maakt. Om de schaarste aan scenario's met occlusie-interacties aan te pakken, introduceren we een diffusiegebaseerd scenariogeneratie raamwerk dat realistische maar tegelijkertijd adversariële scenario's produceert. We integreren de modellering en het leren van een uniforme risicokaart in een raamwerk dat risicobewuste planning onder gedeeltelijke waarneembaarheid ondersteunt. Experimenten op de Waymo Open Motion Dataset tonen aan dat onze methode significant beter presteert dan de state-of-the-art occlusiebewuste basislijn, met een verbetering van de minimale tijd-tot-botsing met een factor 0,78 en de gemiddelde tijd-tot-botsing met een factor 1,67. Het voorgestelde raamwerk biedt een uitgebreide en praktische oplossing voor risicobewuste planning in gedeeltelijk waarneembare omgevingen.

Geometrie doet ertoe: 3D-basispriors voor het leren van semantische correspondentie
Geometry Matters: 3D Foundation Priors for Learning Semantic Correspondence

May 28

ByArtur Jesslen, Olaf Dünkel, Adam Kortylewski

Fundamentele kenmerken van zelfgesuperviseerde visiemodellen en tekst-naar-beeld diffusiemodellen zijn effectief gebleken voor het schatten van semantische correspondentie. Omdat deze kenmerken echter voornamelijk worden geleerd uit 2D-beelddoelstellingen, ontberen ze expliciet 3D-bewustzijn en verwarren ze vaak symmetrische zijden van objecten, herhaalde onderdelen en visueel gelijkaardige structuren die in 3D verschillend zijn. Wij introduceren een 3D-bewust nabewerkingskader dat verder gaat dan beschikbare 2D-fundamentele kenmerken door voorkennis uit 3D-fundamentmodellen te integreren. Bij een gegeven afbeelding gebruikt onze methode SAM3D om objectgeometrie en -pose te schatten, en verfijnt de pose door middel van render-en-vergelijk optimalisatie. Vervolgens renderen we PartField-beschrijvingen van de gereconstrueerde geometrie naar het beeldvlak op basis van de geschatte objectpose. De resulterende geometriebewuste kenmerkenkaarten vullen DINO- en Stable Diffusion-kenmerken aan, terwijl geodetische afstanden op de gereconstrueerde vormen betrouwbare filtering van kandidaat-correspondenties mogelijk maken. We gebruiken de gefilterde overeenkomsten als supervisie om een lichtgewicht adapter bovenop DINO en Stable Diffusion te trainen voor semantische correspondentie. In tegenstelling tot eerdere nabewerkingsmethoden die pose-annotaties vereisen en vertrouwen op grove bolvormige geometrie, verkrijgt onze methode automatisch instancespecifieke 3D-structuur en gebruikt deze om het leren van correspondentie te sturen. Experimenten tonen aan dat onze aanpak de semantische correspondentie verbetert ten opzichte van eerdere methoden, terwijl handmatige geometrische supervisie wordt verminderd. Code en model zijn te vinden op https://github.com/GenIntel/3D-SC.

PANDO: Efficiënte multimodale AI-agenten via online vaardigheidsdistillatie
PANDO: Efficient Multimodal AI Agents via Online Skill Distillation

May 26

ByYubo Li, Yidi Miao, Yuntian Shen, Yuxin Liu

Recente vooruitgang in multimodale webagenten vertrouwt vaak op verhoogde inferentie-tijdberekening, waaronder rollout-search, verifier-passes, offline vaardigheidsontdekking en specialistische modelstacks. Dit roept een centrale vraag op: kan een webagent efficiënter worden naarmate het ervaring opdoet, in plaats van duurder? We analyseren eerst trajecten van VisualWebArena en identificeren drie terugkerende bronnen van inefficiëntie: herhaal-actielussen, verborgen ontdekkingskosten en lage prompt-cache-hergebruik. We introduceren vervolgens PANDO, een single-rollout online vaardigheidsdestillatiekader dat een gestructureerde Vaardigheidsbibliotheek onderhoudt en voortgangsreflectie, vertrouwensgebaseerde vaardigheidsdegradatie, hiërarchische routering, visuele compressie en cache-bewuste prompting combineert. Op de volledige set van 910 VisualWebArena-taken behaalt PANDO een succespercentage van 58,3%, beter dan SGV (54,0%) en onze WALT-reproductie (45,2%), terwijl het 58% minder tokens gebruikt dan SGV en 61% minder tokens dan WALT, zonder enig pre-evaluatie-ontdekkingsbudget. Een ablatiestudie met 300 taken toont verder aan dat regels en routines de meeste succeswinst opleveren, terwijl routering, compressie en cache-bewuste prompting de grotere vaardigheidsbibliotheek omzetten in lagere marginale tokenkosten. Tot slot introduceren we drie efficiëntiemetrieken op trajectniveau -- Actieherhalingsfrequentie, Stapoverheadratio en Prompt-Cache-Benuttingsgraad -- om efficiëntie zichtbaar te maken naast eindsucces.

CONF-KV: Vertrouwensbewuste KV-cache-verwijdering met gemengde-precisieopslag voor lange-horizon LLM
CONF-KV: Confidence-Aware KV Cache Eviction with Mixed-Precision Storage for Long-Horizon LLM

May 24

ByYubo Li, Yidi Miao

Lange-horizon LLM-inferentie maakt de key–value (KV) cache tot de dominante GPU-geheugenverbruiker en maakt per-token aandacht steeds duurder. Veel gangbare verwijderingsbeleid gebruiken statische recentheidsvensters of historische aandacht, waardoor een signaal dat bij elke decoderingstap wordt berekend ongebruikt blijft: de huidige onzekerheid van het model. We introduceren CONF-KV, een KV-cachebeheerder die de volgende-token verdeling omzet in een scalaire betrouwbaarheidsscore en deze gebruikt om het cachebudget per stap te kiezen, waarbij meer context wordt behouden wanneer het model onzeker is en agressief wordt gesnoeid wanneer het zeker is. Binnen elk budget worden tokens gerangschikt op basis van een samengestelde maat van geaccumuleerde aandachtmassa en recentheid, terwijl een beschermd recent venster lokale coherentie behoudt. We combineren het beleid met bloksgewijze online-softmax aandacht, gemengde FP16/INT8 opslag en een piramidale per-laag budgetvariant. Over vier modelfamilies en gegenereerde lengtes tot 4K blijft CONF-KV dicht bij de voetafdruk van een vast 512-token schuifvenster, terwijl het binnen 1,5–2,1 perplexiteitspunten van volledige KV blijft. Op Needle-in-a-Haystack tot 32K tokens bereikt CONF-KV 91,4% terugvindnauwkeurigheid tegenover 53,8% voor schuifvensters en 80,6% voor H2O; op 75 VisualWebArena-taken behoudt het 95,3% van het volledige-KV succes bij 2,8 keer lagere piekgeheugen.

Reflectieve promptafstemming via taalmodel-functieaanroeping
Reflective Prompt Tuning through Language Model Function-Calling

May 20

ByFarima Fatahi Bayat, Moin Aminnaseri, Pouya Pezeshkpour, Estevam Hruschka

Grote taalmodellen (LLM's) zijn steeds beter geworden in het opvolgen van instructies en complex redeneren, wat prompten tot een flexibele interface maakt om modellen aan te passen zonder parameterupdates. Toch blijft het ontwerpen van prompts arbeidsintensief en zeer gevoelig voor opmaak, formulering en instructievolgorde, wat de motivatie vormt voor geautomatiseerde methoden voor promptoptimalisatie die handmatige inspanning verminderen terwijl ze flexibiliteit tijdens inferentie behouden. Echter, bestaande methoden zoeken vaak naar promptkandidaten of gebruiken vaste kritiek-verfijningspijplijnen die worden aangestuurd door individuele voorbeelden of kleine batches, wat hun vermogen beperkt om systematische foutpatronen te herkennen en gerichte aanpassingen te doen die zijn gebaseerd op faalgeschiedenis. Wij stellen Reflectieve Prompt Tuning (RPT) voor, een raamwerk dat gebruikmaakt van functieaanroepen in LLM's om de iteratieve workflow van menselijke promptingenieurs te simuleren. Een LLM-optimalisator roept een diagnostische functie aan die het doelmodel evalueert over een volledige optimalisatieset, terugkerende faalpatronen samenvat en een gestructureerd diagnostisch rapport retourneert. De optimalisator gebruikt dit rapport, samen met een opgebouwd geheugen van eerdere rapporten, om de prompt voor de volgende iteratie te herzien. RPT ondersteunt verder vertrouwensbewuste optimalisatie door kalibratiesignalen te gebruiken in diagnostische feedback en definitieve promptselectie. Over drie redeneertaken verbetert RPT initiële prompts met tot 12,9 punten, blijft het concurrerend met de state-of-the-art, en verbetert het de vertrouwenskalibratie. Onze analyses tonen aan dat RPT bijzonder effectief is bij multi-hop en wiskundig redeneren, resulterend in gerichte promptherzieningen die aansluiten bij gediagnosticeerde faalpatronen en leiden tot verbeteringen in taakprestatie en kalibratie.

Parallax: Geparameteriseerde Lokale Lineaire Aandacht voor Taalmodellering
Parallax: Parameterized Local Linear Attention for Language Modeling

May 27

ByYifei Zuo, Dhruv Pai, Zhichen Zeng, Alec Dewulf, Shuming Hu, Zhaoran Wang

Grote Taalmodellen (Large Language Models, LLM's) zijn het centrale paradigma in kunstmatige intelligentie geworden, maar de kernberekeningsprimitieve van aandacht is structureel onveranderd gebleven. Lokaal Lineaire Aandacht (Local Linear Attention, LLA) is een aandachtsmechanisme dat is afgeleid van niet-parametrische statistiek in het regressieraamwerk tijdens testtijd. In tegenstelling tot eerder onderzoek naar efficiënte aandachtsvarianten verhoogt LLA de lokale constante schatting in softmax-aandacht naar een lokale lineaire schatting, wat een aantoonbaar superieure bias-variantie-afweging voor associatief geheugen oplevert. LLA is echter niet opgeschaald in LLM-voortraining vanwege computationele en numerieke stabiliteitszorgen. We introduceren Parallax, een geparametriseerde Lokaal Lineaire Aandacht die schaalbaar is voor LLM's. Parallax elimineert de numerieke oplosser in LLA en leert een extra query-achtige projector die de KV-covariantie onderzoekt. We plaatsen Parallax binnen een familie van aandachtsmechanismen die verbonden zijn door de bandbreedte, de constructie van de sonde en de affiene structuur. We stellen een hardwarebewust algoritme voor dat de rekenintensiteit verhoogt ten opzichte van FlashAttention, waardoor aandacht verschuift naar een meer rekeningebonden regime. Onze prototype-decodeerkernel evenaart of overtreft FlashAttention 2/3 over uiteenlopende batchgroottes en contextlengtes. We trainen Parallax voor op schalen van 0,6B en 1,7B en vinden consistente perplexiteitsverbeteringen gedurende de voortraining, met winsten die overdragen naar stroomafwaartse benchmarks. Het voordeel blijft bestaan onder zowel parameter-gematchte als rekengematchte controles, wat een Pareto-verbetering aantoont. We voeren zorgvuldige voortrainingsablatiestudies uit en identificeren een nieuw fenomeen waarbij Muon de capaciteit van Parallax vrijmaakt. Naar ons weten is dit de eerste empirische demonstratie van sterk architectuur-optimizer co-ontwerp voor aandachtsmechanismen in de architectuuronderzoeksliteratuur.

Afstemmingsmanipulatie: Hoe versterkend leren van menselijke feedback wordt misbruikt om verkeerd afgestemde vooroordelen te optimaliseren
Alignment Tampering: How Reinforcement Learning from Human Feedback Is Exploited to Optimize Misaligned Biases

May 26

ByDongyoon Hahm, Dylan Hadfield-Menell, Kimin Lee

Reinforcement Learning from Human Feedback (RLHF) is de standaardmethode om Grote Taalmodellen (GTM) af te stemmen op menselijke voorkeuren. In dit werk introduceren we afstemmingsmanipulatie, een potentiële kwetsbaarheid waarbij het GTM dat wordt afgestemd, de voorkeursdataset beïnvloedt, waardoor RLHF ongewenst gedrag versterkt. Dit vloeit voort uit kernbeperkingen van RLHF: (1) voorkeursdatasets worden geconstrueerd uit de eigen outputs van het GTM, waardoor het deze kan beïnvloeden, en (2) paarsgewijze vergelijkingen geven alleen aan welk antwoord beter is, niet waarom. Deze beperkingen kunnen worden uitgebuit om afstemmingsmanipulatie te veroorzaken. Als een GTM bijvoorbeeld bevooroordeelde antwoorden van hogere kwaliteit genereert, zullen annotatoren op basis van kwaliteit de voorkeur geven aan deze antwoorden. Voorkeurslabels maken echter geen onderscheid tussen kwaliteit en vooroordeel, en het beloningsmodel erft deze beperking. Het optimaliseren van dergelijke beloningen via reinforcement learning of best-of-N sampling kan verkeerd afgestemde vooroordelen versterken. Onze experimenten tonen versterking aan bij uiteenlopende vooroordelen: van trefwoordvooroordeel tot propaganda (bijv. seksisme), merkpromotie en instrumenteel doelzoekend gedrag. Mitigatie blijft uitdagend, omdat bestaande technieken voor robuust RLHF er niet in slagen afstemmingsmanipulatie volledig op te lossen zonder in te boeten aan antwoordkwaliteit. Deze bevindingen onthullen structurele kwetsbaarheden van huidige RLHF en benadrukken de noodzaak om deze kwetsbaarheid te voorkomen. Projectpagina: https://alignment-tampering.github.io/

CoHyDE: Iteratieve Co-Training van LLM-herschrijver en Dense Encoder voor Tool Retrieval
CoHyDE: Iterative Co-Training of LLM Rewriter & Dense Encoder for Tool Retrieval

May 28

ByVaishali Senthil, Ashutosh Hathidara, Sebastian Schreiber

Het ophalen van tools uit grote API-catalogi vormt een kernknelpunt voor LLM-agenten: gebruikersquery's komen binnen in alledaagse, vaak ondergespecificeerde taal, terwijl de catalogus gebruikmaakt van technische API-vocabulaire die geen vaste encoder zelfstandig kan overbruggen. De twee dominante trainingsbenaderingen, contrastieve encoder-fijnafstemming en HyDE-achtige query-uitbreiding met een bevroren LLM, benaderen dit probleem vanuit tegenovergestelde richtingen en falen op complementaire wijze: de fijngestemde encoder blinkt uit wanneer de oppervlaktevorm van de query al overeenkomt met de catalogus, maar stort in wanneer dat niet het geval is, terwijl zero-shot HyDE robuuster is voor ondergespecificeerde query's, maar catalogus-onbewuste hypothetische beschrijvingen genereert die de retrieval verslechteren wanneer query's goed gevormd zijn. We introduceren CoHyDE, een iteratieve procedure die de dense encoder en de LLM-herschrijver traint als één enkel co-evoluerend systeem: de encoder wordt opnieuw getraind met InfoNCE op hypothetische beschrijvingen in catalogusstijl die door de herschrijver zijn geproduceerd, en de herschrijver wordt voorkeursafgestemd via DPO op basis van de retriever-scores van de encoder, waarbij beide zijden warmgestart worden op de toolcatalogus voordat de lus begint. Op een ~10k tool-subset van de ToolBench-catalogus verbetert CoHyDE na drie rondes de sterkste enkelcomponentbaseline met +2,5 pp NDCG@5 voor standaardquery's en +6,3 pp voor achtergehouden vage query's, met winsten tot +8 pp op de moeilijkste vage categorie. Ablatie-experimenten bevestigen dat co-training het cruciale ingrediënt is: het gebruik van een van beide componenten afzonderlijk slaagt er niet in om CoHyDE te evenaren voor zowel goed gevormde als vage query's, met verliezen tot -8 pp op vage query's.

Generalisatie op tokenniveau in LoRA-adapter-backdoors: Aanvalskarakterisering en gedragsdetectie
Token-Level Generalization in LoRA Adapter Backdoors: Attack Characterization and Behavioral Detection

May 28

ByTravis Lelle

We tonen aan dat LoRA-adapters, het dominante distributieformaat voor fijn afgestelde grote taalmodellen (LLM's), betrouwbaar kunnen worden voorzien van een backdoor via datavergiftiging tijdens training, met behoud van de basistaakprestatie. Op een Qwen 2.5 1.5B prompt-injectieclassificator drijft een kleine fractie van vergiftigde voorbeelden een backdoor die de schone nauwkeurigheid behoudt naar verzadiging. De resulterende backdoor generaliseert op het tokenkenmerkniveau in plaats van op het structuurpatroonniveau: een model dat is getraind op één RFC-referentie wordt geactiveerd door elke RFC-referentie, maar draagt niet over naar structureel identieke ISO-, OWASP-, CWE- of NIST-citaten. Deze asymmetrie bevoordeelt de aanvaller, aangezien een verdediger niet generiek kan zoeken naar 'gestructureerde citaten'. We karakteriseren de aanval over basismodel-schaal en -familie, LoRA-rank en triggerstring, en evalueren twee complementaire detectieroutes tegen een cohort van adapters met meerdere seeds. Een gedragsdetector, gebaseerd op twee statistieken uit een batterij probes, *outlier_gap* en *mean_attack_rate*, scheidt vergiftigde van schone adapters perfect wanneer de batterij overlapt met de tokenomgeving van de trigger, en bij hoge recall met nul fout-positieven wanneer dit niet het geval is. Een gewichtsniveaustatistiek, de cross-module standaarddeviatie van dimensie-genormaliseerde Frobenius-normen, scheidt het cohort ook perfect zonder het model uit te voeren. Gecombineerd zijn de twee routes robuust tegen de samenstelling van de probes. Causale patching lokaliseert de backdoor naar het MLP-blok in de middelste tot late lagen, met *down_proj* als de sterkste enkele projectie-oorzaak. Replicaties over schaal, familie en rank tonen aan dat de gedragsdetector overdraagt zonder opnieuw afstellen, terwijl de gewichtsniveaudetector gebonden is aan de kalibratie van het basismodel. De aanval schaalt monotoon met rank, en het gekozen trigger-ankertoken is zowel afhankelijk van de trigger als van het basismodel. Gedragsdetectie is het operationeel draagbare resultaat voor scanning van adapter-toeleveringsketens.

Voorbij 3D VQA’s: Het injecteren van ruimtelijke prioriën in visie-taalmodelen voor verbeterd geometrisch redeneren
Beyond 3D VQAs: Injecting 3D Spatial Priors into Vision-Language Models for Enhanced Geometric Reasoning

May 28

ByChun-Hsiao Yeh, Shengyi Qian, Manchen Wang, Yi Ma, Joseph Tighe, Fanyi Xiao

Visie-Taalmodellen (VLMs) hebben vaak moeite met robuust 3D-ruimtelijk redeneren. Gangbare methoden die vertrouwen op fijnafstemming met 3D visuele vraag-antwoord datasets (VQA) kunnen overmatig aanpassen aan datasetspecifieke vooroordelen, terwijl het integreren van gespecialiseerde 3D visuele encoders vaak inflexibel en omslachtig is. In dit artikel stellen we dat echte ruimtelijk begrip moet voortkomen uit het leren van fundamentele geometrische prioriën, niet alleen uit hoogwaardige VQA-supervisie. We stellen GASP (Geometric-Aware Spatial Priors) voor, een raamwerk dat deze prioriën direct in de transformerlagen van het LLM injecteert. GASP maakt gebruik van een klein correspondentiehoofd, toegepast als een diep supervisiesignaal over alle lagen, en wordt getraind met een tweeledige doelstelling die gebruikmaakt van de grondwaarheidsgeometrie uit grootschalige videoscènes: een contrastief verlies op grondwaarheidspuntcorrespondenties dwingt 2D-aanzichtinvariantie af, terwijl diepteconsistentietoezicht 3D geometrische dubbelzinnigheden oplost. Onze analyse biedt eerst een diagnose dat de interne correspondentie-matchingnauwkeurigheid van standaard VLMs zeer laag is (vaak onder 5%). Vervolgens tonen we aan dat onze training dit gedrag aanzienlijk verbetert, waardoor de piek laagsgewijze correspondentie stijgt tot meer dan 70% en de temporele robuustheid meer dan 85% blijft, terwijl de baselines onder 5% blijven. Deze interne verbeteringen vertalen zich in significante winsten op stroomafwaartse ruimtelijke benchmarks, waaronder +18,2% op All-Angles Bench en +29,0% op VSI-Bench, en dit alles zonder training op enige 3D VQA-data. Onze bevindingen wijzen erop dat leren van fundamentele geometrische prioriën een veelbelovende en generaliseerbare weg is naar VLMs met betrouwbaardere 3D-ruimtelijk redeneren.

Het Ontdekken van Coöperatieve Pijplijnen: Autoresearch voor Sequentiële Sociale Dilemma's
Discovering Cooperative Pipelines: Autoresearch for Sequential Social Dilemmas

May 28

ByVíctor Gallego

We bestuderen twee-level auto-onderzoek voor samenwerking: een buitenste-lus AI-agent herontwerpt autonoom de binnenste-lus pijplijn van een LLM-beleidssynthesesysteem voor multi-agent Sequentiele Sociale Dilemma's (SSD's). Een onderzoekeragent R (uitgevoerd als een codeeragent) leest de broncode van de binnenste lus, bewerkt systeemprompts, feedbackfuncties, hulpbibliotheken en iteratielogica, voert evaluaties uit en beslist wat te behouden, volgens het auto-onderzoeksparadigma. Over twee spellen (Cleanup en Gathering), twee beleidssynthesizer-LLM's en twee welvaartsdoelstellingen (utilitaristische efficiëntie en Rawlsiaans maximin) overtreft de onderzoeker betrouwbaar handmatig ontworpen basislijnen, vermindert scherp de run-tot-run variantie en presteert beter dan alleen-promptoptimalisatie. De ontdekte pijplijnen zijn doelafhankelijk: alleen onder maximin injecteert de onderzoeker een expliciet rechtvaardigheidsmechanisme in synthesizerpijplijnen, een klasse van mechanismen die afwezig is in zijn eigen doelonafhankelijke systeemprompt en in elke efficiëntie-geoptimaliseerde pijplijn. Dit ondersteunt een informatie-ontwerp interpretatie waarin de onderzoeker kiest wat te onthullen aan de begrensd rationele synthesizer als functie van de welvaartsdoelstelling. Code op https://github.com/vicgalle/autoresearch-social-dilemmas.

OmniInteract: Het benchmarken van real-world streaminginteractie voor real-time omnimodale assistenten
OmniInteract: Benchmarking Real-World Streaming Interaction for Real-Time Omnimodal Assistants

May 26

ByXudong Lu, Xueying Li, Annan Wang, Yang Bo, Jinpeng Chen, Zengliang Li, Nianzu Yang, Rui Liu, Xue Yang, Jingwen Hou, Hongsheng Li

Wij introduceren OmniInteract, een streaming-benchmark voor real-time omnimodale grote taalmodellen die wordt geëvalueerd via native online inferentie op audiovisuele stromen. In tegenstelling tot offline videobegrip of door tekst geprompte streaming-V&A, behoudt OmniInteract de oorspronkelijke audiovisuele stroom en vereist het dat modellen deze online verwerken, zonder toegang tot toekomstige inhoud. Gebruikersvragen en omgevingsgeluiden zijn ingebed in het audiospoor, waardoor modellen multimodale triggers moeten detecteren, moeten beslissen wanneer te reageren, en moeten antwoorden terwijl de stroom zich ontvouwt. OmniInteract bevat 250 video's met 1.430 temporeel gefundeerde responssleuven: 1.062 1Q1A-sleuven in real-time, proactieve en geneste scenario's, en 368 1QnA-sleuven voor continue taakmonitoring en stapsgewijze begeleiding. Elke sleuf omvat een trigger, een responsvenster en een doelantwoord. Wij evalueren antwoordcorrectheid, timing, ongeldige uitvoer, onderbrekingsafhandeling en contextcontinuïteit met behulp van de Interactiebewuste Kwaliteit-Tijdigheid F1, het Onderbrekingsdiagnostisch Pakket en de Geneste Ketenafrondingsscore. Experimenten tonen aan dat huidige modellen zwak blijven in streaming-interactie, waarbij de beste algemene IA-QTF1 slechts 0,368 bedraagt en de beste 1QnA IA-QTF1 slechts 0,052. Verder onderzoek naar wiskundig redeneren in full-duplex-omgevingen laat zien dat off-line capaciteit niet noodzakelijk overgaat naar online interactie. Code en datasets worden openbaar toegankelijk gemaakt op https://github.com/Lucky-Lance/OmniInteract.

Multi-view Consistente 3D Gaussiaanse Hoofdavatars 'zonder' Multi-view Generatie
Multi-view Consistent 3D Gaussian Head Avatars 'without' Multi-view Generation

May 24

ByAviral Chharia, Fernando De la Torre

Het genereren van high-fidelity 3D-Gaussian-kopavatars is cruciaal voor toepassingen zoals AR/VR, telepresence en digitale mensen. Bestaande methoden zijn afhankelijk van multi-view datasets, 3D-opnames of tussentijdse 2D-beeldsynthese. Daarentegen leren wij zowel conditionele als onconditionele 3D-hoofdmodellen uitsluitend op basis van willekeurig gesamplede 2D-beelden, zonder gebruik te maken van multi-view data, 3D-supervisie of tussentijdse beeldgeneratie. We introduceren MVCHead, een single-shot toestandsruimtemodel dat multi-view consistentie (MVC) direct in de 3D-representatie afdwingt, terwijl het onder deze beperkingen 3D-Gaussianen regresseert. De kern vormt een Hiërarchisch Toestandsruimte (HiSS)-blok dat Gaussianen stapsgewijs verfijnt van grof naar fijn, terwijl het afhankelijkheden over lange afstand vastlegt. Binnen elk HiSS-blok vervangen we de standaard unidirectionele scan van Mamba door de voorgestelde Hiërarchische Bidirectionele Toestandsscan (HiBiSS), die de recursie afstemt op de assen waarlangs multi-view inconsistenties het sterkst zijn. Ten slotte ontwerpen we een SE(3) Multi-view Criticus die beoordeelt of een reeks zelf-renders afkomstig is van één enkele onderliggende 3D-configuratie, en die cross-view pixeluitlijning beloont zonder daadwerkelijke multi-view paren te observeren. MVCHead bereikt state-of-the-art perceptuele kwaliteit, overtreft eerdere methoden in zowel textuur- als geometrische consistentie, en behoudt vergelijkbare vormconsistentie. Om schaalbaarheid aan te tonen, brengen we FaceGS-10K uit, de eerste grootschalige dataset van kant-en-klare 3D-Gaussian-kopassets voor training en evaluatie van 3D-hoofdmodellen. Projectpagina en code: https://humansensinglab.github.io/MVCHead/

Uniforme diffusiemodellen opnieuw bezocht: leave-one-out ontruiser en herformulering van absorberende toestand
Uniform Diffusion Models Revisited: Leave-One-Out Denoiser and Absorbing State Reformulation

May 21

BySamson Gourevitch, Yazid Janati, Dario Shariatian, Umut Simsekli, Eric Moulines, Eric P. Xing, Alain Durmus

Discrete diffusiemodellen worden vaak getraind door middel van het voorspellen van schone data, maar de voorspelling kan op verschillende manieren worden gebruikt om de omgekeerde dynamica te definiëren. In Gemaskeerde Diffusiemodellen (MDM) vallen deze keuzes grotendeels samen, terwijl dit in Uniforme Diffusiemodellen (UDM) niet het geval is. We tonen aan dat de standaard plug-in-brugparameterisatie voor UDM niet wordt geoptimaliseerd door de denoising posterior, maar door een leave-one-out posterior die elk schoon token voorspelt zonder gebruik te maken van zijn eigen ruizige observatie. Dit identificeert een mismatch tussen de plug-in ELBO en de gebruikelijke kruisentropie-denoisingdoelstelling. We karakteriseren het leave-one-out-doel en leiden exacte conversies af tussen de denoiser, de leave-one-out posterior en de score. Deze conversies stellen ons in staat om parameterisatie en trainingsdoelstelling te ontwarren. Onze resultaten leiden ook tot inferentieverbeteringen zonder extra training via een geïnformeerde predictor-corrector sampler en verbeterde temperatuursampling op basis van de leave-one-out-voorspeller. We introduceren verder een absorberende-toestandherformulering van uniforme diffusie die de UDM-gezamenlijke wet behoudt terwijl deze wordt ontleed in gemaskeerde-diffusieachtige samplingoperaties, met eenvoudigere denoising posteriors, overloop-ontmaskering en een natuurlijk hermaskeringsmechanisme. Voor taalmodellering verbeteren leave-one-out-parameterisaties consequent de UDM-generatie, terwijl de absorberende constructie gemaskeerde diffusie evenaart of overtreft. Deze resultaten suggereren dat de empirische kloof tussen gemaskeerde en uniforme diffusie minder wordt gedreven door de keuze van de marginalen zelf dan door parameterisatie en samplingontwerp. De code en modellen zijn te vinden op https://github.com/samsongourevitch/rev_udm.

Convexe laag-resource accent-robuuste taaldetectie in spraakherkenning
Convex Low-resource Accent-Robust Language Detection in Speech Recognition

May 22

ByMiria Feng, William Tan, Mert Pilanci

Globalisering en multiculturalisme blijven leiden tot steeds diversere spreekvariëteiten. Toch falen huidige gesproken dialoogsystemen vaak bij ondervertegenwoordigde dialecten en accenten, doordat ze de invoertaal verkeerd identificeren, wat cascadefouten veroorzaakt in stroomafwaartse dialoogtaken. Het aanpakken van deze dialectische variatie onder beperkte-bronnenomstandigheden blijft een open uitdaging, aangezien standaard finetuning rekenkundig duur is en gevoelig voor overfitting op hoogdimensionale spraakdata. Wij stellen Convex Language Detection (CLD) voor, een nieuw raamwerk dat theoretisch gefundeerde convexe optimalisatietechnieken integreert in de pijplijn van gesproken dialoogsystemen. Onze methode wordt efficiënt geïmplementeerd via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, wat wereldwijde optimaliteitsgaranties en snelle training in polynomiale tijd biedt. Theoretisch bewijzen we dat onze convexe doelstelling gecertificeerde marge-stabiliteit oplevert en geven we garanties tegen kenmerkstoringen. Empirisch tonen we steekproefsefficiëntie en robuustheid tegen invoerdialectische variatie aan, met een nauwkeurigheid van 97-98% in uitdagende lage-bronnenregimes. Ons open-sourcepakket is beschikbaar op https://pypi.org/project/jaxcld/

MoZoo: De kracht van Video Diffusie ontketenen in de simulatie van dierlijke vacht en spieren
MoZoo:Unleashing Video Diffusion power in animal fur and muscle simulation

Apr 8

ByDongxia Liu, Jie Ma, Xiaochen Yang, Jiancheng Zhang, Bin Xia, Zhehan Kan, Nisha Huang, Jun Liang, Wenming Yang, Jin Li

Het creëren van diereneffecten van bioscoopkwaliteit vereist de nauwkeurige modellering van spier- en vachtdynamica, een proces dat zowel arbeidsintensief als rekenkundig duur blijft binnen traditionele productieworkflows. Hoewel generatieve diffusiemodellen veelbelovend zijn gebleken in diverse artistieke workflows, blijft hun vermogen tot hoogwaardige dierensimulatie grotendeels onbenut. Wij presenteren MoZoo, een generatieve dynamica-oplosser die conventionele verfijning omzeilt en hoogwaardige dierenvideo's synthetiseert uit grove meshes onder multimodale sturing. Wij stellen Role-Aware RoPE (RAR-RoPE) voor, dat gebruikmaakt van rolgebaseerde indexhertoewijzing om bewegingsalignering te synchroniseren terwijl referentie-informatie wordt ontkoppeld via vaste temporele verschuivingen. Als aanvulling hierop partitioneert Asymmetrische Ontkoppelde Aandacht de latente sequentie om een unidirectionele informatiestroom af te dwingen, wat effectief feature-interferentie voorkomt en de rekenkundige efficiëntie verbetert. Om het gebrek aan hoogwaardige trainingsdata aan te pakken, introduceren wij MoZoo-Data, een synthetisch-naar-realistisch pijplijn dat een renderengine en een inverse-mappingbenadering gebruikt om een grootschalige dataset van gepaarde sequenties te construeren. Daarnaast vestigen wij MoZooBench, een uitgebreide benchmark met 120 mesh-videoparen. Experimentele resultaten tonen aan dat MoZoo hoogwaardige vachtsimulatie bereikt over uiteenlopende dierenskeletten en -indelingen, met behoud van superieure temporele en structurele consistentie.

Verminderen van politieke manipulatie met consistentietraining
Reducing Political Manipulation with Consistency Training

May 28

ByLong Phan, Devin Kim, Alexander Pan, Alice Blair, Adam Khoja, Dan Hendrycks

Grote taalmodellen (LLMs) vertonen systematische politieke vooringenomenheid in uiteenlopende gevoelige contexten. Wij constateren dat LLMs tegenovergestelde onderwerpen van tegengestelde politieke zijden asymmetrisch behandelen. Dit fenomeen noemen wij verborgen politieke vooringenomenheid en identificeren 7 categorieën technieken waarmee dit opereert. Wij stellen twee metrieken voor voor verborgen vooringenomenheid: Sentimentconsistentie meet de symmetrie in retoriek en framing over gepaarde politieke prompts; Behulpzaamheidsconsistentie meet symmetrische diepgang en betrokkenheid. Om beide vormen van verborgen vooringenomenheid te verminderen, introduceren wij Politieke Consistentietraining (PCT), een RL-trainingsmethode met twee complementaire paradigma's: Sentimentconsistentietraining en Behulpzaamheidsconsistentietraining. Wij tonen aan dat PCT de algehele behulpzaamheid behoudt, verborgen politieke vooringenomenheid aanzienlijk vermindert en generaliseert naar niet-geziene benchmarks. Wij publiceren ons werk op https://political-manipulation.ai.

Klein maar betrouwbaar: Efficiënt visie-taal redeneren voor anomaliedetectie in tijdsreeksen
Tiny but Trusted: Efficient Vision-Language Reasoning for Time-Series Anomaly Detection

May 28

ByXiaona Zhou, Muntasir Wahed, Tianjiao Yu, Constantin Brif, Ismini Lourentzou

Recente vooruitgang in Vision-Language Modellen (VLM's) heeft indrukwekkende prestaties op vele taken geboekt, maar eerdere studies melden onbevredigende prestaties bij het toepassen van grote taal- of multimodale modellen op het vinden van afwijkende patronen in sequentiële data. Openbare benchmarks voor anomaliedetectie bieden doorgaans intervalannotaties, maar geen natuurlijke taal-redeneringen, wat het moeilijk maakt om VLM's fijn te stemmen voor onderbouwde, interpreteerbare beslissingen. Om deze kloof te overbruggen, bouwen we VisAnomBench, een samengestelde benchmark die is gebaseerd op openbare tijdreeksdatasets en is aangevuld met hoogwaardige anomalieverklaringen die zijn geselecteerd uit meerdere grote VLM's met behulp van fijnmazige, taakspecifieke beloningen. Door middel van fijnstemmen op deze benchmark ontwikkelen we VisAnomReasoner, een parameter-efficiënte VLM voor anomaliedetectie in tijdreeksen. Experimentele resultaten op VisAnomBench tonen aan dat VisAnomReasoner een nauwkeurigere anomalielokalisatie bereikt en consequent alle basislijnen overtreft, met verbeteringen van respectievelijk ten minste 21,23 en 23,87 procentpunten in precisie en F1. Aanvullende experimenten op de TSB-AD-U-benchmark tonen een sterke cross-benchmark generalisatie aan, waarbij VisAnomReasoner de precisie en F1 met respectievelijk 9,57 en 13,39 procentpunten verbetert.

Naar consistente video-geometrieschatting
Towards Consistent Video Geometry Estimation

May 28

ByZhu Yu, Jingnan Gao, Runmin Zhang, Lingteng Qiu, Zhengyi Zhao, Rui Peng, Yichao Yan, Kejie Qiu, Siyu Zhu, Si-Yuan Cao, Hui-Liang Shen

Dit werk presenteert ViGeo, een feed-forward funderingsmodel voor het herstellen van ruimtelijk dichte en temporeel consistente geometrie uit videosequenties. Gebouwd op een eenvoudige transformerarchitectuur zonder taakspecifieke aanpassingen, ondersteunt ViGeo streaming-, volledige-sequentie- en lange-video-inferentie binnen één enkel model. Het belangrijkste ontwerp is dynamische chunking-aandacht, die het model tijdens training blootstelt aan zowel bidirectionele als causale temporele contexten en het in staat stelt om zijn aandachtspatroon tijdens testtijd aan te passen zonder hertraining. Om de supervisiekwaliteit te verbeteren, introduceren we verder een op aanvulling gebaseerd dataverfijningsraamwerk. Dit raamwerk traint een video-diepte-aanvullingsleraar die conditioneert op schaarse en ruizige annotaties en videocontext/multiview-context benut om dichte, temporeel coherente en geometrisch betrouwbare trainingsdoelen te produceren. Naast diepte- en puntenkaarten voorspelt ViGeo ook oppervlaktenormalen binnen hetzelfde raamwerk. Getraind uitsluitend op openbare datasets, behaalt ViGeo state-of-the-art prestaties op het gebied van online, offline en lange-video-diepteschatting, oppervlaktenormaalschatting en videopuntkaartschatting.

PhoneWorld: Schaalvergroting van agentomgevingen voor telefoongebruik
PhoneWorld: Scaling Phone-Use Agent Environments

May 28

ByZhengyang Tang, Yuxuan Liu, Xin Lai, Junyi Li, Pengyuan Lyu, Jason, Yiduo Guo, Zhengyao Fang, Yang Ding, Yi Zhang, Weinong Wang, Huawen Shen, Xingran Zhou, Liang Wu, Fei Tang, Sunqi Fan, Shangpin Peng, Zheng Ruan, Anran Zhang, Benyou Wang, Rui Yan, Ji-Rong Wen, Chengquan Zhang, Han Hu

Een centraal knelpunt voor telefoongebruikende agenten is dat beheersbare, reproduceerbare omgevingen die echt mobiel gedrag omvatten, moeilijk op schaal te bouwen zijn. Bestaande benchmarks voor mobiele agenten hebben belangrijke vooruitgang geboekt op het gebied van evaluatie, maar bieden op zichzelf geen schaalbare manier om veel nieuwe telefoongebruikomgevingen te construeren. We presenteren PhoneWorld, een herbruikbare pijplijn die echte GUI-trajecten en schermafbeeldingen omzet in beheersbare telefoongebruikomgevingen, uitvoerbare taken, automatische verificatoren en trainingsrollouts. In plaats van handmatig één mobiele benchmark tegelijk te bouwen, gebruikt PhoneWorld echte trajecten om te herstellen welke schermen relevant zijn, hoe schermen verbonden zijn, welke interacties de omgevingstoestand moeten veranderen en welke gebruikersdoelen automatische verificatie toelaten. Op basis van deze signalen bouwt het uitvoerbare mock-Android-apps, ondersteund door alleen-lezen app-inhoud en veranderlijke toestand, en leidt vervolgens uitvoerbare taken, regelgebaseerde verificatoren en trainingsrollouts af uit dezelfde omgevingen. In zijn huidige vorm bestrijkt PhoneWorld 34 apps in 16 domeinen, variërend van veelvoorkomend consumentengedrag op mobiel, zoals zoeken, browsen, winkelen, boeken, media en sociale interactie. Bij een vast trainingsbudget verbetert het vervangen van 10.000 stappen uit een aanvullend AndroidWorld-corpus in een op AndroidWorld gebaseerde baseline met brede PhoneWorld-supervisie alle vier de evaluatiebenchmarks tegelijk, waarbij HYMobileBench met 17,7 punten stijgt, AndroidControl met 6,0 punten, AndroidWorld met 14,7 punten en PhoneWorld met 52,5 punten. Vervolgens bestuderen we twee extra schalingsvragen: het verhogen van de hoeveelheid PhoneWorld-supervisie verbetert de PhoneWorld-prestaties sterk, en bij een vast PhoneWorld-budget levert het uitbreiden van de app-dekking nog grotere winsten op. Al met al verschuift PhoneWorld de focus van het bouwen van één mobiele benchmark tegelijk naar het opschalen van het aanbod van telefoongebruikomgevingen zelf.

ORACLE: Anticiperen op scams vanuit partiële trajecten in streaming-appgebruik
ORACLE: Anticipating Scams from Partial Trajectories in Streaming App Usage

May 9

ByWenbo Gao, Songbai Tan, Zhongan Wang, Fei Shen, Gang Xu, Huiping Zhuang, Yunyun Yang, Ming Li, Xiaofeng Zhu

Smartphone-oplichting komt steeds vaker voor en manifesteert zich doorgaans als meerfasige, cross-applicatie processen met een geleidelijk opkomende bedoeling. Effectieve interventie vereist daarom het anticiperen op oplichting voordat de bedoeling expliciet wordt. Dit is inherent uitdagend, omdat beslissingen moeten worden genomen op basis van gedeeltelijke trajecten met temporeel verspreid bewijs. In dit artikel introduceren wij ORACLE (Online Redeneren voor het Anticiperen van Cross-temporele Latente Dreigingen), het eerste agentische raamwerk voor vroege anticipatie op oplichting op basis van streamende app-gebruikstrajecten. Om deze setting te ondersteunen, stellen wij een realistische langetermijnbenchmark samen van streamende app-gebruikstrajecten, die 12 oplichtingstypen omvat, zich over langere perioden uitstrekt (gemiddeld 15 dagen), diverse applicaties (95 apps) beslaat en normaal gedrag en oplichtingsgedrag door elkaar laat lopen. Om gefragmenteerd bewijs aan te pakken, introduceren wij een zelf-evoluerende contextbeheerder die entiteitsgerichte interacties in de loop van de tijd adaptief consolideert, waardoor een effectievere reconstructie van cross-temporeel bewijs uit gedeeltelijke waarnemingen mogelijk wordt. Om de gevoeligheid voor latente vroege signalen te vergroten, stellen wij een on-policy zelfdestillatie schema voor waarbij een leraarmodel, geconditioneerd op samengevatte anti-oplichtingsreflecties en aanwijzingen per vaardigheid, een studentmodel begeleidt zonder toegang tot dergelijke reflecties. Dit schema destilleert zo kennis geïnformeerd door bewijs en verbetert de herkenning van opkomende fraudepatronen uit gedeeltelijke trajecten. Experimenten tonen aan dat ORACLE consistent de vroege anticipatie op oplichting verbetert, resulterend in tijdige waarschuwingen terwijl valse meldingen worden verminderd in realistische streamingscenario's.