HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

30 papers found

LoopCoder-v2: Slechts één keer lussen voor efficiënte schaling van testtijdberekeningen
LoopCoder-v2: Only Loop Once for Efficient Test-Time Computation Scaling

Jun 16

ByJian Yang, Shawn Guo, Wei Zhang, Tianyu Zheng, Yaxin Du, Haau-Sing Li, Jiajun Wu, Yue Song, Yan Xing, Qingsong Cai, Zelong Huang, Chuan Hao, Ran Tao, Xianglong Liu, Wayne Xin Zhao, Mingjie Tang, Weifeng Lv, Ming Zhou, Bryan Dai

113

Looped Transformers schalen latente berekening door herhaaldelijk gedeelde blokken toe te passen, maar sequentieel lussen verhoogt de latentie en het KV-cache geheugen met het aantal lussen. Parallel loop Transformers (PLT) verlichten deze kosten door cross-loop positie-offsets (CLP) en gedeelde-KV gated sliding-window aandacht, waardoor het aantal lussen een praktische ontwerpkeuze wordt. We bestuderen daarom de selectie van het aantal lussen in PLT vanuit een winst-kosten perspectief: een extra lus kan representaties verfijnen, maar CLP introduceert ook een positie-mismatch bij elke lusgrens. We concretiseren deze studie door LoopCoder-v2 te trainen, een familie van 7B PLT-codeermodellen met verschillende aantallen lussen, vanaf nul op 18T tokens, gevolgd door bijpassende instructie-afstemming en evaluatie. Empirisch gezien levert de variant met twee lussen brede winst op ten opzichte van de basislijn zonder lussen op het gebied van codegeneratie, coderedenering, agentische software-engineering en tool-gebruik benchmarks, waarbij SWE-bench Verified verbetert van 43,0 naar 64,4 punten en Multi-SWE van 14,0 naar 31,0 punten. Daarentegen vertonen varianten met drie of meer lussen regressie, wat een sterk niet-monotoon effect van het aantal lussen onthult. Onze diagnostiek toont aan dat lus 2 de belangrijkste productieve verfijning levert, terwijl latere lussen afnemende, oscillerende updates en verminderde representatiediversiteit opleveren. Omdat de door CLP veroorzaakte mismatch ruwweg vast blijft terwijl de verfijningswinst afneemt, domineren de offsetkosten steeds meer. Deze winst-kosten afweging verklaart de verzadiging van PLT bij twee lussen en biedt diagnostiek voor de selectie van het aantal lussen.

ACE-Ego-0: Het verenigen van egocentrische menselijke en robotische data voor VLA-pretraining
ACE-Ego-0: Unifying Egocentric Human and Robotic Data for VLA Pretraining

Jun 15

ByHao Li, Ganlong Zhao, Yufei Liu, Haotian Hou, Guoquan Ye, Tongyan Fang, Chunxiao Liu, Siyuan Huang, Jianbo Liu, Xiaogang Wang, Hongsheng Li

Visie-Taal-Actie (VLA)-modellen profiteren van grootschalige en diverse belichaamde data, maar het opschalen van het verzamelen van robottrajectorieën is kostbaar en arbeidsintensief. Recente vooruitgang laat zien dat grootschalige egocentrische menselijke video's complementaire real-world supervisie bieden tijdens pre-training. Echter, gezamenlijke training op menselijke en robotdata blijft uitdagend vanwege verschillen in actieruimtes, belichamingsstructuren, temporele dynamiek en supervisiekwaliteit. We introduceren ACE-EGO-0, een uniform VLA-pre-trainingskader dat gezamenlijk gebruikmaakt van heterogene databronnen. Om grootschalige pre-trainingssupervisie uit egocentrische menselijke video's te extraheren, bouwen we een schaalbare egocentrische video-naar-actie-pijplijn die ruwe menselijke video's omzet in pseudo-actietrajectorieën in robotformaat. Om deze labels vergelijkbaar te maken met robotdemonstraties, gebruikt ACE-EGO-0 een uniforme actierepresentatie gebaseerd op camera-ruimte acties, morfologieconditionering en tijd-uitgelijnde actiechunking. Om robuust gebruik te maken van ruizige pseudo-actiesupervisie uit egocentrische menselijke video's, formuleren we een betrouwbaarheidsbewuste trainingsdoelstelling met een menselijk hulpverlies dat supervisie concentreert op betrouwbare signalen. We instantiëren ACE-EGO-0 op 4.530 uur robot- en simulatiegegevens, samen met 1.480 uur pseudo-actiegelabelde egocentrische menselijke data. Experimenten tonen aan dat het opnemen van grootschalige menselijke supervisie onder betrouwbaarheidsbewuste weging zowel de uniforme gezamenlijke pre-training als de begeleide fine-tuning consistent verbetert. ACE-EGO-0 behaalt state-of-the-art prestaties op RoboCasa GR1 TableTop en RoboTwin 2.0, terwijl het sterke overdracht naar real-world bimanuele manipulatie laat zien.

Zone van Proximal Policy Optimization: Leraar in Prompts, Niet in Gradiënten
Zone of Proximal Policy Optimization: Teacher in Prompts, Not Gradients

Jun 16

ByByung-Kwan Lee, Ximing Lu, Shizhe Diao, Minki Kang, Saurav Muralidharan, Karan Sapra, Andrew Tao, Pavlo Molchanov, Yejin Choi, Yu-Chiang Frank Wang, Ryo Hachiuma

Kennisdistillatie draagt de competentie van een leraar over op een kleine student, maar is breekbaar in het kleine-studentenregime: door de student te dwingen logits van een veel grotere leraar te imiteren, concentreert dit zich op de scherpste modi van de leraar, wat de generalisatie op benchmarkfamilies buiten de trainingscorpus schaadt. Reinforcement learning (RL) vermijdt logitimitatie door te trainen op de eigen rollouts van de student. Bij vragen waar elke rollout faalt – wat resulteert in nulvoordeel en stilzwijgend wordt genegeerd – doorbreekt het injecteren van het antwoord van een sterkere leraar in de beleidsgradiënt de on-policy-aanname en veroorzaakt drift. We introduceren Zone of Proximal Policy Optimization (ZPPO), geïnspireerd door Vygotsky's zone van de naaste ontwikkeling, die de leraar in de prompt houdt in plaats van in de beleidsgradiënt. Bij moeilijke vragen construeert ZPPO twee herformuleerde prompts: een Binary Candidate-included Question (BCQ) koppelt één correct lerarenantwoord aan één incorrect studentenantwoord als geanonimiseerde kandidaten waar de student onderscheid tussen moet maken, en een Negative Candidate-included Question (NCQ) verzamelt de foute rollouts van de student in één prompt om hun gedeelde faalmodi zichtbaar te maken. Een prompt replay-buffer hercirculeert elke moeilijke vraag totdat deze afstudeert – de gemiddelde rollout-nauwkeurigheid van de student bereikt de helft – of FIFO wordt verwijderd onder een eindige capaciteit, wat BCQ en NCQ versterkt binnen de huidige zone van naaste ontwikkeling van de student. Op de Qwen3.5-familie bij vier studentschalen (0,8B-9B) met een 27B-leraar, post-getraind als visie-taalmodellen en geëvalueerd op een suite van 31 benchmarks (16 VLM, 10 LLM, 5 Video), presteert ZPPO beter dan off-policy- en on-policy-distillatie en GRPO, met de grootste winsten op de kleinste schaal.

GameCraft-Bench: Kunnen agenten speelbare spellen end-to-end bouwen in een echte game-engine?
GameCraft-Bench: Can Agents Build Playable Games End-to-End in a Real Game Engine?

Jun 16

ByTongxu Luo, Rongsheng Wang, Jiaxi Bi, Chenming Xu, Zhengyang Tang, Jianlong Chen, Juhao Liang, Ke Ji, Shuqi Guo, Yuhao Du, Fan Bu, Wenyu Du, Xiaotong Zhang, Kyle Li, Shaobo Wang, Linfeng Zhang, Yuxuan Liu, Xin Lai, Chenxin Li, Yiduo Guo, Zhexin Zhang, Xinyuan Wang, Tianyi Bai, Ziniu Li, Benyou Wang

Spelgeneratie is een opkomende toepassing van codeeragenten, waarbij modellen natuurlijke-taalspecificaties moeten omzetten in speelbare interactieve systemen. In tegenstelling tot traditionele codeertaken vindt spelgeneratie plaats in een spelengine, waar scripts, scènes, assets, rendering en runtime-interacties gezamenlijk samenhangende gameplay moeten opleveren. We formaliseren end-to-end spelgeneratie als het probleem van het produceren van een compleet spelartefact dat een specificatie realiseert via waarneembare speler-spelinteractie in een doelomgeving. We stellen dat het evalueren van deze setting drie desiderata vereist: Engine-verankering, Artefactvolledigheid en Interactieve verificatie. We stellen een interactiegebaseerd evaluatiekader voor dat uitvoerbare gameplay beoordeelt via herhaalde demonstraties en rubricgestuurde multimodale beoordeling. We implementeren dit kader als GameCraft-Bench, een benchmark bestaande uit 140 Godot-taken in 15 spelfamilies. Evaluaties van geavanceerde codeeragenten tonen aan dat end-to-end spelgeneratie zeer uitdagend blijft: de sterkste agent haalt slechts 41,46% en de meeste agenten scoren onder 40%. Verdere analyse onthult dat agenten vaak herkenbare mechanics implementeren, maar moeite hebben met het leveren van volledige spellen met voldoende inhoud, functionele visuele feedback en samenhangende presentatie. Zie https://tongxuluo.github.io/gamecraft-bench-website voor demo's, code en data.

LectūraAgents: een multi-agentframework voor adaptief gepersonaliseerd AI-ondersteund leren en belichaamd onderwijs
LectūraAgents: A Multi-Agent Framework for Adaptive Personalized AI-Assisted Learning and Embodied Teaching

Jun 15

ByJaward Sesay, Yue Yu, Siwei Dong, Yemin Shi, Guangyao Chen, Börje F. Karlsson

Effectief gepersonaliseerd AI-ondersteund leren vereist systemen die niet alleen nauwkeurige, lerende-specifieke educatieve materialen kunnen genereren, maar ook hun instructie dynamisch kunnen aanpassen aan diverse lerenden. Echter, bestaande educatieve agenten hebben zich voornamelijk gericht op automatisering van college-inhoud en simulaties, die vaak tekortschieten in het modelleren van multimodale en belichaamde instructiemethoden die zijn afgestemd op de individuele lerende. Daartoe stellen we LectūraAgents voor – een multi-agentraamwerk dat gepersonaliseerd leren mogelijk maakt door end-to-end adaptief belichaamd onderwijs. In de kern weerspiegelt LectūraAgents een professor-studentrelatie, waarin een ProfessorAgent een samenwerkend team van gespecialiseerde ondergeschikte agenten leidt bij onderzoek, planning, beoordeling en belichaamde overdracht van college-inhouden die zich aanpassen aan de behoeften van een lerende. Het raamwerk biedt drie hoofdcontributies: (1) een hiërarchische multi-agentarchitectuur voor end-to-end gepersonaliseerd leren; (2) een adaptief belichaamd onderwijsmeganisme, waarin de ProfessorAgent zichtbare en pedagogisch gemotiveerde onderwijshandelingen uitvoert (bijv. handschrift, markeren, onderstrepen, etc.) over inhouden in een onderwijsomgeving; en (3) een Teaching Action-Speech Alignment (TASA)-algoritme dat gebruikmaakt van salientie-gebaseerde heuristieken en temporele semantische segmentatie om coherente reeksen van onderwijshandelingen te genereren die zijn afgestemd op lerendenprofielen. We evalueren LectūraAgents op diverse cursussen op middelbare school-, bachelor- en masterniveau met behulp van steekproefspecifieke rubric-gebaseerde analyse; waarbij gegenereerd collegemateriaal en onderwijshandelingen worden beoordeeld en gevalideerd door deskundige docenten. Experimentele resultaten tonen consistente verbeteringen in de kwaliteit van college-inhoud, belichaamde onderwijskwaliteit, beoordeling en personalisatie ten opzichte van bestaande benaderingen, wat LectūraAgents positioneert als een pedagogisch goed gefundeerd raamwerk voor grootschalig gepersonaliseerd leren.

TRIAGE: Dialectische Redenering voor Uitlegbare Risicovoorspelling op Onregelmatig Bemonsterde Medische Tijdreeksen met LLM's
TRIAGE: Dialectical Reasoning for Explainable Risk Prediction on Irregularly Sampled Medical Time Series with LLMs

Jun 8

ByHyeongwon Jang, Gyouk Chu, Changhun Kim, Joonhyung Park, Hangyul Yoon, Eunho Yang

Klinische vroege waarschuwingssystemen die zijn gebouwd op elektronische patiëntendossiers, waarin klinische waarnemingen worden vastgelegd als onregelmatig bemonsterde medische tijdreeksen (ISMTS), moeten zowel gekalibreerde risicoscores voor patiëntentriage als interpreteerbare onderbouwingen leveren die clinici kunnen verifiëren. Grote taalmodellen (LLM's) zijn onderzocht voor deze taak, maar zij reduceren gegradeerd klinisch risico tot overmoedige binaire voorspellingen. Deze risicopolarisatie ondermijnt zowel de kalibratie als de vergelijkbaarheid tussen patiënten. Om dit aan te pakken, stellen we TRIAGE voor, een raamwerk dat een LLM traint om dialectische redeneringen te genereren over concurrerende klinische uitkomsten door uitkomstspecifieke onderbouwingen te ontlokken. Deze dialectische formulering vermindert risicopolarisatie, waardoor een enkel LLM continue risicoscores kan produceren die zijn gebaseerd op expliciete klinische redenering. Geëvalueerd op drie ISMTS-benchmarks, behaalt TRIAGE een gemiddelde AUPRC-verbetering van 3,3% en vermindert het de kalibratiefout met 81% in vergelijking met de competitieve basislijnen. Een LLM-als-rechter beoordeling toont verder aan dat onze onderbouwingen de post-hoc verklaringen van de basislijn met 20% overtreffen in klinische redeneerkwaliteit. De broncode is beschikbaar op https://github.com/HyeongWon-Jang/TRIAGE.

Leren van de eigen toekomst: On-policy zelf-distillatie voor dLLM's
Learning from the Self-future: On-policy Self-distillation for dLLMs

Jun 16

ByYifu Luo, Zeyu Chen, Haoyu Wang, Xinhao Hu, Yuxuan Zhang, Zhizhou Sha, Shiwei Liu

On-policy zelf-distillatie (OPSD) is effectief gebleken voor het nabewerken van grote taalmodellen (large language models, LLMs), maar de toepassing ervan op diffusie-LLM's (dLLM's) blijft onontgonnen. Bestaande OPSD-methoden zijn inherent autoregressie-gecentreerd. Ze injecteren bevoorrechte informatie via links-naar-rechts prefix-conditionering met token-niveau divergentie-toezicht, een ontwerp dat fundamenteel in strijd is met de generatie in willekeurige volgorde van dLLM's. We introduceren d-OPSD, het eerste OPSD-raamwerk dat is afgestemd op dLLM's. Onze aanpak levert twee kernbijdragen. Ten eerste herformuleren we de zelfleraarconstructie door zelf gegenereerde antwoorden te gebruiken als suffix-conditionering, waardoor het studentenmodel kan leren van 'zelf-toekomstervaring' in plaats van bevoorrechte prefixen. Ten tweede verschuiven we het toezicht van token-niveau naar stap-niveau, waarbij de training wordt afgestemd op het iteratieve denoising-proces van dLLM's. Experimenten op vier redeneringsbenchmarks tonen aan dat d-OPSD consequent beter presteert dan RLVR- en SFT-baselines met superieure steekproefefficiëntie, waarbij slechts ongeveer 10% van de optimalisatiestappen van RLVR nodig is en een veelbelovende weg opent voor dLLM-nabewerking. De code is beschikbaar op https://github.com/xingzhejun/d-OPSD.

OPD-Evolver: Het cultiveren van een holistische agentevolver via on-policy distillatie
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

Jun 16

ByGuibin Zhang, Xun Xu, Yanwei Yue, Zikun Su, Wangchunshu Zhou, Xiaobin Hu, Shuicheng Yan

Geheugen is een standaard substraat geworden voor zelf-evoluerende agenten, maar het bewaren van ervaring is niet hetzelfde als leren hoe je erdoor te evolueren. Bestaande geheugenagenten kunnen trajecten opslaan, reflecties ophalen of vaardigheden accumuleren, maar missen vaak de holistische competentie om nuttige ervaring te selecteren, erop te handelen, herbruikbare kennis te schrijven en een groeiende repository te onderhouden. Wij introduceren OPD-Evolver, een slow-fast co-evolutieframework dat zo'n agent-evolver cultiveert door middel van on-policy zelfdistillatie. In de snelle lus interageert OPD-Evolver met een vierlaagse geheugenhiërarchie om ervaring te lezen, te gebruiken, te schrijven en te onderhouden voor snelle testtijd-evolutie. In de langzame lus distilleren uitkomst-gekalibreerde geheugentoeschrijving en geprivilegieerde terugblik deze vier vaardigheden in het inzetbare beleid. Over multi-domein benchmarks heen overtreft OPD-Evolver geheugensystemen zoals ReasoningBank met tot 11,5%, en trainingsmethoden zoals Skill0 met ~5,8%. Verdere analyse toont aan dat OPD-Evolver hoogwaardige ervaring en geheugenbeheer internaliseert, waardoor OPD-Evolver-9B gigantische tegenhangers zoals Qwen3.5-397B-A17B en Step-3.5-Flash kan uitdagen, wijzend voorbij geheugenversterkte agenten naar werkelijk gekwalificeerde agent-evolveerders.

Toon het signaal, verberg de ruis: spectrale forcering voor pixelruimte-diffusie
Show the Signal, Hide the Noise: Spectral Forcing for Pixel-Space Diffusion

Jun 16

ByWeichen Fan, Haiwen Diao, Penghao Wu, Ziwei Liu

Pixel-ruimte diffusiemodellen worden getraind op volledige bandbreedte ruisachtige afbeeldingen, maar het bruikbare signaal dat beschikbaar is voor de denoiser is sterk frequentieafhankelijk. Onder rectified-flow diffusie en natuurlijke-beeld machtswetspectra scheidt de per-band data-tot-ruis contour \(k^{*}(t) = (1-t)^{-2/\alpha}\) een signaaldragend laagfrequent gebied van een ruisgedomineerd hoogfrequent gebied op elk tijdstip \(t\). We tonen aan dat deze impliciete grof-naar-fijn structuur niet slechts beschrijvend is: het induceert een capaciteitstoewijzingsprobleem. Een standaard pixel-ruimte denoiser moet de bewegende bandbreedtegrens intern ontdekken en kan rekenkracht besteden aan frequentie-tijd gebieden waar de optimale voorspelling terugvalt op deterministische basislijnen in plaats van datadistributiemodellering. Om deze grens expliciet te maken, introduceren we Spectral Forcing, een parameter-vrije, tijdsconditionele 2D-DCT laagdoorlaatoperator die wordt toegepast op de ruisachtige invoer vóór de patch-embedder. De afsnijfrequentie ervan neemt monotoon toe met de diffusietijd en wordt de identiteit op het data-eindpunt. Door middel van gecontroleerde synthetische experimenten identificeren we het regime waarin de operator gunstig is: grove patch-tokenisatie en data waarvan de hoogfrequente inhoud voornamelijk ruis is in plaats van essentieel signaal. Op ImageNet-256 met JiT-700M/32 verbetert Spectral Forcing consequent zowel FID als Inception Score over verschillende trainingsepochs, wat robuuste winsten gedurende de training aantoont; bij fijnere tokenisatie blijft de spectral forcing nog steeds concurrerend. We voegen de ongewijzigde operator verder in in SenseNova-U1, een uniform tekst-naar-beeld model, waar het DPG-Bench en GenEval verbetert, wat aantoont dat de invoerzijde spectrale prior verder reikt dan klasse-conditionele generatie. Deze resultaten suggereren een pad naar capaciteitsefficiënte pixel-ruimte diffusie door het signaal te tonen en de ruis te verbergen.

Tekst-Visie Co-Geïnstrueerde Beeldbewerking
Text-Vision Co-Instructed Image Editing

Jun 15

ByChenxi Xie, Yuhui Wu, Qiaosi Yi, Lei Zhang

Bestaande methoden voor beeldbewerking kunnen grofweg worden onderverdeeld in methoden op basis van tekstuele instructies en methoden op basis van visuele prompts. Tekstuele instructies zijn semantisch expressief, maar worden beperkt door de grove granulariteit van de ruimtelijke controle over de bewerkingsresultaten. Visuele prompts, zoals slepen en aanwijzen, bieden daarentegen precieze ruimtelijke sturing, maar worden beperkt door de inherente ambiguïteit van de semantische intentie. Om de sterke punten van tekstuele en visuele prompts te verenigen, presenteren we Text-Vision Co-Instructed Image Editing, dat gezamenlijk tekstuele instructies als semantische intentie en schaarse visuele instructies als ruimtelijke sturing modelleert, met als doel precieze en intentiegetrouwe beeldmanipulatie te bereiken. Hiertoe construeren we eerst een dataset met gepaarde tekstueel-visuele instructies van meer dan 23.000 samples, afgeleid van dynamische video's, wat afgestemde supervisie voor cross-modale instructies mogelijk maakt. Vervolgens introduceren we TV-Edit, een raamwerk voor geünificeerde tekstueel-visuele instructies, om drag- of point-gebaseerde visuele instructies te contextualiseren met beeld-tekstsemantiek en deze te verheffen tot semantisch bewuste controlerepresentaties voor voorgetrainde bewerkingsbackbones. Door semantische intentie en ruimtelijke beperkingen te integreren, leidt TV-Edit tot preciezere ruimtelijke controle, minder instructie-ambiguïteit en sterkere structurele consistentie dan alleen tekstgebaseerde of alleen drag-gebaseerde alternatieven. Tot slot introduceren we TV-Edit-Bench, een zorgvuldig ontworpen benchmark om semantische getrouwheid, ruimtelijke alignering en visuele consistentie te evalueren aan de hand van ground-truth referenties en gecontroleerde tekstueel-visuele variaties voor betrouwbare beoordeling. Onze experimenten met meerdere bewerkingsbackbones tonen aan dat TV-Edit consistent preciezere en intentiegetrouwere bewerkingen oplevert, en aanzienlijk beter presteert dan state-of-the-art instructiegebaseerde en drag-gebaseerde baselines.

Heroverweging van de rol van efficiënte aandacht in hybride architecturen
Rethinking the Role of Efficient Attention in Hybrid Architectures

Jun 13

ByZiqing Qiao, Yinuo Xu, Chaojun Xiao, Zhou Su, Zihan Zhou, Yingfa Chen, Xiaoyue Xu, Xu Han, Zhiyuan Liu

Moderne taalmodellen nemen steeds vaker hybride architecturen aan die volledige aandacht combineren met efficiënte aandachtsmodules, zoals schuifvensteraandacht (sliding-window attention, SWA) en recurrente sequentiemixers. Het is echter nog niet goed begrepen hoe deze efficiënte modules de mogelijkheden van modellen beïnvloeden. Om deze leemte aan te vullen, voeren we een systematische analyse uit van hybride architecturen vanuit drie perspectieven: schalingsgedrag, mechanismeanalyse en architectuurontwerp. Ten eerste ontdekken we vanuit een schalingsperspectief dat het ontwerp van efficiënte aandacht voornamelijk beïnvloedt hoe snel het vermogen voor lange contexten ontstaat, terwijl verschillende hybriden uiteindelijk convergeren naar vergelijkbare prestaties voor lange contexten bij voldoende training. Ten tweede tonen we mechanistisch aan dat langeafstandsophaling voornamelijk wordt gedragen door volledige aandacht, terwijl efficiënte aandacht het optimalisatietraject ervan vormgeeft. Dit verklaart een contra-intuïtief fenomeen dat we 'Large-Window Laziness' noemen: grotere SWA-vensters kunnen de vorming van ophaalkoppen in volledige-aandachtslagen vertragen. Ten derde laten we, geleid door dit mechanisme, zien dat het toepassen van NoPE (geen positiecodering) alleen op de volledige-aandachtslagen van een hybride met kleine SWA-vensters de prestaties voor lange contexten aanzienlijk verbetert, met een verwaarloosbare impact op de prestaties voor korte contexten.

Zelf-Evoluerende Visuele Vraagsteller
Self-Evolving Visual Questioner

Jun 11

ByYijun Liang, Hengguang Zhou, Ming Li, Lichen Li, Cho-Jui Hsieh, Tianyi Zhou

Visie-taalmodelen (VLM) worden doorgaans getraind als passieve beantwoorders, terwijl hun vermogen om actief diverse, niet-triviale, visueel-centrische en gefundeerde vragen te stellen nog onderbelicht is. De prestaties van bestaande visuele vraagstellers worden beperkt door de beschikbaarheid van hoogwaardige trainingsdata of de kosten om deze te verzamelen. We tonen aan dat een VLM zichzelf continu kan verbeteren als visuele vraagsteller zonder enige externe supervisie. We stellen een zelf-evoluerend raamwerk voor dat een VLM zelf gebruikt als zowel voorsteller als filter om moeilijkere, informatievere en visueel-centrische vragen te produceren, terwijl de exploratiediversiteit behouden blijft om trainingsinstorting te voorkomen. Deze vragen worden vervolgens gebruikt om de VLM te trainen in zowel vraagsteller- als beantwoorder-modus. Om de vraagsteller te evalueren introduceren we een agentprotocol dat vragen beoordeelt op perceptie, redeneren en diversiteitsdimensies. Experimenten met verschillende backbone VLM’s tonen aan dat onze methode de kwaliteit aanzienlijk verbetert en de moeilijkheidsgrens van autonome vraaggeneratie aanzienlijk verlegt. Onder hetzelfde budget is onze zelfsupervisie effectiever dan trainen op statische brongegevens. Bovendien blijft de zelf-evoluerende vraagsteller een concurrerende of zelfs betere beantwoorder.

EgoCS-400K: Een egocentrische gameplaydataset voor wereldmodellen
EgoCS-400K: An Egocentric Gameplay Dataset for World Models

Jun 16

ByRongjin Guo, Dong Liang, Yuhao Liu, Fang Liu, Tianyu Huang, Gerhard P. Hancke, Rynson W. H. Lau

De verschuiving van videogeneratie naar interactief wereldmodelleren stelt nieuwe eisen aan data: naast video's met bijschriften hebben wereldmodellen temporeel uitgelijnde video-actie-taaltrajecten nodig die zijn gebaseerd op de acties, camerabewegingen, toestanden en gebeurtenissen die toekomstige scèneveranderingen aandrijven. Dergelijke data is echter moeilijk op grote schaal te verkrijgen. Webvideodatasets bieden een brede visuele dekking, maar missen uitvoerbare acties en betrouwbare toestanden; robotdatasets bieden supervisie voor acties en toestanden, maar zijn kostbaar en beperkt in scenariodiversiteit; en bestaande simulatoren missen vaak grootschalige door mensen aangestuurde interactietrajecten. In dit artikel introduceren we EgoCS-400K, een grootschalige, op replay gebaseerde egocentrische Counter-Strike-dataset voor wereldmodellen, opgebouwd uit openbare professionele CS- en CS2-wedstrijddemo's die menselijke gameplaytrajecten behouden en het parseren, afspelen, renderen en temporeel uitlijnen mogelijk maken. We extraheren spelertoestanden, kijkrichtingen, bewegingen, toetsenbord-/knopinputs, kijkhoekveranderingen, wapengebruik, spelgebeurtenissen en rondecontext, en renderen schone eerstepersoonsvideo's van dezelfde trajecten. EgoCS-400K bevat meer dan 400.000 eerstepersoonsvideo's en 10.000 uur gameplay van meer dan 1.000 wedstrijden en 40.000 rondes, verdeeld over 13 kaarten en 10 spelersperspectieven per ronde. Het ondersteunt een reeks interactieve visuele modelleringstaken, waaronder actie-geconditioneerde toekomstvoorspelling, toestands- en gebeurtenisbewuste scène-uitrol, op replay gebaseerde bijschrijving en begrip van egocentrische acties door agenten. Door visuele waarnemingen op grote schaal te verbinden met menselijke acties, camerabewegingen, speltoestanden en gebeurtenissen, fungeert EgoCS-400K als een praktische brug tussen passieve webvideo's, controleerbare spelsimulatie en kostbare, in de echte wereld ingebedde data.

Geluste wereldmodellen
Looped World Models

Jun 16

ByHongyuan Adam Lu, Z. L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam

Huidige wereldmodellen hebben te maken met een fundamentele spanning: getrouwe simulatie over een lange horizon vereist diepe berekening, maar diepere modellen zijn duur om in te zetten en vatbaar voor het cumuleren van fouten. Wij lossen dit op door de introductie van Looped World Models (LoopWM), de eerste geluste architecturen voor wereldmodellering. Onze methode verfijnt iteratief latente omgevingstoestanden via een parameter-gedeeld transformatorblok. Dit levert tot 100x parameterefficiëntie op in vergelijking met conventionele benaderingen, met adaptieve berekening die de diepte automatisch schaalt naar de complexiteit van elke voorspellingsstap. Orthogonaal aan het schalen van modelgrootte en trainingsdata, vestigt LoopWM iteratieve latente diepte als een nieuwe schaalas voor wereldsimulatie, wat de gemeenschap aanzienlijk vooruit zou kunnen helpen.

Geünificeerde multimodale autoregressieve modellering met gedeelde context-visuele tokenizer is de sleutel tot unificatie
Unified Multimodal Autoregressive Modeling with Shared Context-Visual Tokenizer is Key to Unification

Jun 16

ByWujian Peng, Lingchen Meng, Yuxuan Cai, Xianwei Zhuang, Yuhuan Yang, Rongyao Fang, Chenfei Wu, Junyang Lin, Zuxuan Wu, Shuai Bai

Unified multimodale modellering streeft ernaar visueel begrip en generatie te integreren in één enkel systeem. Bestaande benaderingen vertrouwen echter doorgaans op twee verschillende visuele tokenizers, wat de representatieruimte opsplitst en een werkelijk verenigde modellering belemmert. Wij stellen UniAR voor, een verenigd autoregressief raamwerk waarin één enkele discrete visuele tokenizer fungeert als de cruciale brug tussen begrip en generatie, waardoor een gedeelde context ontstaat waarin het model zijn eigen gegenereerde visuele tokens direct kan interpreteren zonder extra hercodering. UniAR past een voorgetrainde visuele encoder aan met multilevel kenmerkfusie en een opzoekvrij bitsgewijs kwantisatieschema, waardoor zowel hoog-niveau semantiek als laag-niveau details behouden blijven, terwijl de effectieve visuele woordenschat wordt opgeschaald tegen minimale kosten. Hierop voortbouwend hanteert het verenigde autoregressieve model parallelle bitsgewijze voorspelling om ruimtelijk gegroepeerde, multilevel visuele codes gezamenlijk te voorspellen, wat de visuele sequentielengte aanzienlijk verkort en de generatie versnelt. Tot slot decodeert een op diffusie gebaseerde visuele decoder discrete visuele tokens om hifi-afbeeldingen te genereren. Door grootschalige voortraining, gevolgd door begeleide fine-tuning en versterkend leren, behaalt UniAR state-of-the-art prestaties op beeldgeneratie en beeldbewerking, terwijl het concurrerend blijft op multimodale begripsbenchmarks. De projectpagina is beschikbaar op https://sharelab-sii.github.io/uniar-web.

Dr-DCI: Het opschalen van directe corpusinteractie via dynamische werkruimte-uitbreiding
Dr-DCI: Scaling Direct Corpus Interaction via Dynamic Workspace Expansion

Jun 12

ByYi Lu, Zhuofeng Li, Ping Nie, Haoxiang Zhang, Yuyu Zhang, Kai Zou, Wenhu Chen, Jimmy Lin, Dongfu Jiang, Yu Zhang

Agentisch zoeken over grote corpora vertrouwt op door retrievers gemedieerde interfaces (bijv. BM25 of ColBERT) voor schaalbare kandidaatdetectie. Hoewel effectief in het rangschikken van relevante documenten, presenteren deze interfaces bewijs alleen als gerangschikte resultaten of begrensde documentweergaven, waardoor het vermogen van agents om materiaal te herorganiseren en beperkingen over documenten heen te verifiëren wordt beperkt. Directe Corpusinteractie (DCI) pakt deze beperking aan door shell-uitvoerbare corpusoperaties bloot te stellen voor flexibel zoeken, filteren, vergelijken en verifiëren. Echter, terminalopdrachten op het volledige corpus worden traag en instabiel naarmate het corpus groeit, wat de prestaties en efficiëntie aantast. We introduceren DR-DCI, een door een retriever gestuurd DCI-raamwerk dat retrieval behandelt als een door een agent aanroepbare actie voor het uitbreiden van een lokale werkruimte. In plaats van rechtstreeks over het volledige corpus te opereren, haalt de agent dynamisch relevante documenten in een evoluerende werkruimte en voert daarin DCI-operaties uit. Dit ontwerp combineert recall op retrieverniveau met precisie in DCI-stijl: retrieval houdt exploratie schaalbaar, terwijl DCI de lokale operaties behoudt die nodig zijn voor effectieve bewijsresolutie. Experimenten tonen aan dat DR-DCI zowel effectief als efficiënt is over verschillende schalen. Op Browsecomp-Plus bereikt DR-DCI 71,2% nauwkeurigheid, een verbetering ten opzichte van ruwe DCI en geablateerde varianten met tot 8,3 procentpunten, terwijl toolgebruik, verstreken tijd en geschatte kosten worden verminderd. Met werkruimtebehoudende contextreset neemt de nauwkeurigheid verder toe tot 73,3%. In corpusschalingsexperimenten blijft DR-DCI effectief van 100K tot 10M documenten, terwijl ruwe DCI instabiel wordt en BM25 aanzienlijk slechter presteert. DR-DCI schaalt ook naar een 20M-schaal bestand-per-document Wiki-18 QA-omgeving, met een gemiddelde score van 63,0 over zes benchmarks, en presteert beter dan op retrieval gebaseerde en getrainde zoekagent-baselines. Ablatie-analyse toont verder aan dat gerangschikte voorvertoningen en inter-document DCI de sleutel zijn tot prestaties.

ChLogic: Evalueren van robuustheid van logisch redeneren in Chinese uitdrukkingen
ChLogic: Evaluating Robustness of Logical Reasoning in Chinese Expressions

Jun 16

ByPeixian Zhou, Yuxu Chen, Chaorui Zhang, Wei Han, Bo Bai, Xueyan Niu

Grote taalmodellen presteren steeds beter op gestandaardiseerde logisch redeneren-benchmarks, maar of dit vermogen ook robuust blijft buiten het Engels is onduidelijk. Wij introduceren ChLogic, een Engels–Chinees afgestemde benchmark die test of modellen de prestaties op het gebied van logisch redeneren behouden wanneer dezelfde latente logische structuur wordt uitgedrukt in het Engels en in uiteenlopende Chinese oppervlakterealisaties. De benchmark is opgebouwd uit formele logische sjablonen en bevat drie datasets: (i) de General aligned set, afgeleid van 60 Algemene Proposities uit negen sjabloonfamilies; (ii) de Difficult aligned set, afgeleid van 40 Moeilijke Problemen; en (iii) de uitsluitend Chinese set, die 15 taalspecifieke fenomeentypen bestrijkt. Elk afgestemd item koppelt één Engelse referentie-uitdrukking aan vijf Chinese realisaties. Experimenten met Qwen3-, Ministral- en GLM-modellen tonen een aanhoudende prestatiekloof tussen Engels en Chinees. Terugvertaling van standaard Chinees naar Engels verbetert vaak de prestaties op de General aligned set, maar levert gemengde effecten op voor de Difficult aligned set, waarbij Qwen3-32B en GLM-5.1 slechter presteren na vertaling. Deze resultaten geven aan dat Chinese oppervlakterealisatie, vertaalartefacten en modelspecifiek gedrag gezamenlijk het meertalig logisch redeneren beïnvloeden. Al met al biedt ChLogic een nuttige stresstest voor de robuustheid van meertalig redeneren.

Een gradiëntperspectief op RLVR-stabiliteit en Beleidsoptimalisatie met Winnaarsvoordeel
A Gradient Perspective on RLVR Stability and Winner Advantage Policy Optimization

Jun 15

ByPrasanth YSS, Zhichen Ren, Rasa Hosseinzadeh, Ilan Gofman, Yuqi Chen, Zhaoyan Liu, Guangwei Yu, Jesse C. Cresswell, Satya Krishna Gorti

Reinforcement learning met verifieerbare beloningen (RLVR) verbetert het redeneervermogen van taalmodellen, maar GRPO-achtige optimalisatie blijft gevoelig voor ineenstorting. We analyseren deze instabiliteit aan de hand van gradiëntdynamiek op token-niveau en leiden een taxonomie af die voorspelt hoe updates de kansen op het volgende token en de entropie beïnvloeden. De taxonomie toont aan dat stabiliteit gezamenlijk afhangt van het teken van het voordeel en de tokenverdeling onder het huidige beleid. Op basis van deze bevinding stellen we Winner Advantage Policy Optimization (WAPO) voor, een eenvoudige online geknipte beleidsgradiëntdoelstelling die alleen werkt op voltooiingen met een positief voordeel. In benchmarks voor wiskundig redeneren en multi-hop QA verbetert WAPO de trainingsstabiliteit en evenaart of overtreft het de basislijnen voor meerdere modelfamilies. Volledige code is beschikbaar op https://github.com/layer6ai-labs/wapo.

Variabele-breedte Transformers
Variable-Width Transformers

Jun 16

ByZhaofeng Wu, Oliver Sieberling, Shawn Tan, Rameswar Panda, Yury Polyanskiy, Yoon Kim

Het schalen van modelgrootte, met name diepte en breedte, heeft aanzienlijke vooruitgang mogelijk gemaakt in op transformatoren gebaseerde taalmodellen. De meeste architecturen handhaven echter een constante breedte over alle lagen, waarbij een vast parameter- en rekenbudget gelijkmatig wordt toegewezen, ondanks dat verschillende lagen mogelijk uiteenlopende computationele rollen vervullen. In dit werk onderzoeken we empirisch niet-uniforme capaciteitstoewijzing over de netwerkdiepte door een zandlopervormige > <former architectuur voor te stellen. Dit ontwerp handhaaft bredere vroege en late lagen terwijl de middelste lagen smaller worden, gebruikmakend van een parameter-vrij residu herschalingsmechanisme. Over alleen-decoder taalmodellen variërend van 200M tot 2B parameters (dicht) en 3B parameters (MoE) presteert onze > <former consequent beter dan parameter-gematchte uniforme basislijnen op taalmodelleringsverlies. Door de gemiddelde laagbreedte te verlagen, vereist deze architectuur ook minder totale FLOPs (22% reductie onder gefitte verlies-gematchte schalingscurven) en kleiner KV-cachegeheugen en I/O-kosten (15% reductie). In de analyse tonen we aan dat deze knelpuntsstructuur leidt tot kwalitatief andere representaties in residustromen. Over het geheel genomen tonen onze resultaten aan dat niet-uniforme breedtetoewijzing kan leiden tot een meer resource-optimaal schalen van taalmodellen.

ActWorld: Van exploreerbaar naar interactief wereldmodel via actiebewust geheugen
ActWorld: From Explorable to Interactive World Model via Action-Aware Memory

Jun 16

ByZhexiao Xiong, Yizhi Song, Hao Kang, Qing Yan, Liming Jiang, Jenson Yang, Zhoujie Fu, Stathi Fotiadis, Angtian Wang, Zichuan Liu, Bo Liu, Yiding Yang, Xin Lu, Nathan Jacobs

Interactieve wereldmodellen streven ernaar de omgevingsdynamiek te simuleren onder realtime gebruikersacties. Hun actievocabulaire blijft echter grotendeels beperkt tot navigatie: de meeste acties komen overeen met beweging (bijv. lopen, draaien, rondkijken), terwijl interactie met objecten in de scène (bijv. borden oppakken, deuren openen of fysieke reacties veroorzaken) ontbreekt, beperkt blijft tot game-domeinen of wordt gereduceerd tot prompt-naar-volledige-video scenario's. De resulterende werelden zijn visueel verkennbaar maar niet werkelijk actief. In dit werk presenteren we ActWorld, een interactief wereldmodel dat eerdere navigatiegerichte generators uitbreidt met ondersteuning voor objectinteractie tijdens rollouts, binnen een chunk-autoregressief raamwerk. We betogen dat de navigatie-interactie kloof voortkomt uit twee knelpunten. Ten eerste een dataknelpunt: het gebrek aan mens-object-interactiegegevens met nauwkeurige, dichte labels. Ten tweede een geheugenknelpunt: recentie-afhankelijke geschiedeniscompressie in bestaande wereldmodellen gooit de gebeurtenis-overgangsframes weg die causaal bepalend zijn voor daaropvolgende objecttoestanden, wat leidt tot een actie-vergeten pathologie. Aan de datazijde bouwen we een dataset van 100K interactievideo's, elk geannoteerd met per-chunk bijschriften via keten-van-gedachten redenering. Aan de modelzijde introduceren we een hiërarchisch actiebewust geheugenontwerp dat geschiedeniscompressie routeert op basis van interactiebelang, aangevuld met een permanente geheugenbank die gebeurtenis-update en object-identiteit tokens bijhoudt over lange rollouts. Experimenten tonen aan dat ActWorld zowel flexibele navigatie als rijke objectinteractie ondersteunt binnen één model, met een aanzienlijke verbetering van interactietrouw ten opzichte van navigatie-only basislijnen zonder in te boeten op camerastandpuntcontrole. Projectpagina is beschikbaar op https://interactwm.github.io/ActWorld.

ProCUA-SFT Technisch Rapport
ProCUA-SFT Technical Report

Jun 15

ByJaehun Jung, Ximing Lu, Brandon Cui, Muhammad Khalifa, Shaokun Zhang, Hao Zhang, Jin Xu, Amala Sanjay Deshmukh, Karan Sapra, Andrew Tao, Yejin Choi, Jan Kautz, Mingjie Liu, Yi Dong

Het trainen van computergebruikagenten (CUAs) – modellen die via schermafbeeldingen en toetsenbord/muisacties met grafische desktops interacteren – vereist grootschalige, diverse trajectgegevens die in volledige desktopomgevingen zijn verzameld. De grootste openbare bron, AgentNet (22,5K menselijke trajecten), leidt tot negatieve transfer bij gebruik voor gesuperviseerd finetunen (SFT): het verder trainen van UI-TARS 7B op AgentNet doet het OSWorld-succespercentage dalen van 26,3% naar 8–10%. We presenteren ProCUA-SFT, een dataset van 3,1M SFT-voorbeelden op stapniveau, gedistilleerd uit 93K synthetische trajecten over 2.484 applicatiecombinaties. De dataset wordt geproduceerd door een volledig geautomatiseerde pijplijn die (i) verankerde taken synthetiseert op live desktops die zijn voorzien van inhoud uit de echte wereld – 912 spreadsheets uit SpreadsheetBench, circa 10K vrijelijk gelicentieerde presentaties van Zenodo10K en multi-applicatie OSWorld-configuraties – en (ii) de haalbaarheid van elke taak verifieert via binaire precondition-checking voordat de uitrol plaatsvindt. Eén enkele VLM (Kimi-K2.5) fungeert als doelsgenerator, precondition-beoordelaar en trajectuitvoerder, waardoor hiaten in plannings- en actiecapaciteiten worden geëlimineerd. Elk traject wordt uitgebreid naar stap-prefixvoorbeelden die exact de contextlay-out reproduceren zoals gezien tijdens inferentie. Het finetunen van UI-TARS 7B op ProCUA-SFT gedurende één epoch levert 45,0% op OSWorld – een verbetering van 18,7 procentpunt ten opzichte van het basismodel en meer dan 35% boven AgentNet-getrainde tegenhangers. Een subset van ProCUA is opgenomen in de trainingsgegevens voor het Nemotron 3 Nano Omni-model en heeft bijgedragen aan de computergebruiksmogelijkheden daarvan.

Voorbij Monolinguaal Diepgaand Onderzoek: Evaluatie van Agenten en Retrievers met Cross-linguaal BrowseComp-Plus
Beyond Monolingual Deep Research: Evaluating Agents and Retrievers with Cross-Lingual BrowseComp-Plus

Jun 13

ByYuheng Lu, Qingcheng Zeng, Heli Qi, Puxuan Yu, Fuheng Zhao, Rui Yang, Hitomi Yanaka, Naoto Yokoya, Weihao Xuan

Diepgaande onderzoeksagenten worden steeds vaker beoordeeld op hun vermogen om naar bewijs te zoeken, over opgehaalde bronnen te redeneren en onderbouwde antwoorden te produceren. Bestaande browsemarkers gaan er echter grotendeels van uit dat de query van de gebruiker en het ondersteunende bewijs in dezelfde taal zijn geschreven, waardoor de vraag open blijft of agentische zoeksystemen kunnen functioneren wanneer relevant bewijs in een andere taal verschijnt. We introduceren XBCP (Cross-lingual BrowseComp-Plus), een gecontroleerde benchmark die de Engelse vraag-en-antwoordruimte van BrowseComp-Plus behoudt, maar de talen van de ondersteunende documenten varieert. XBCP concretiseert twee complementaire instellingen: in de cross-linguïstische instelling wordt elke query gekoppeld aan bewijs in één toegewezen taal. In de meertalige instelling wordt het volledige bewijscorpus gelijkmatig en willekeurig verdeeld over 12 talen, variërend van talen met hoge tot lage hulpbronnen. We evalueren vier diepgaande onderzoeksagenten met behulp van sparse en dense meertalige retrievers, waarbij we antwoordnauwkeurigheid, terugvinden van bewijs, zoekgedrag, kalibratie, citatiegetrouwheid en orakelretrieval meten. Resultaten laten een aanzienlijke achteruitgang zien wanneer bewijs wordt vertaald. Zelfs sterke, dense retrievers verliezen het terugvinden van bewijs, en agenten worden minder gekalibreerd en citeren bewijs minder betrouwbaar. Opmerkelijk is dat de nauwkeurigheid lager blijft, zelfs wanneer al het gouden bewijs direct wordt geleverd. Deze bevindingen suggereren dat cross-linguïstisch diepgaand onderzoek zowel retrievalfouten als een onafhankelijke, aan de agentzijde gelegen moeilijkheid bij het integreren van taal-mismatched bewijs blootlegt.

Visual-Seeker: Naar Visueel-Natieve Multimodale Agentisch Zoeken via Actief Visueel Redeneren
Visual-Seeker: Towards Visual-Native Multimodal Agentic Search via Active Visual Reasoning

Jun 13

ByZhengbo Zhang, Changtao Miao, Jinbo Su, Zhaowen Zhou, Chunxia Zhang, Xukai Wang, Ruiqi Liu, Kaiyuan Zheng, Jiansheng Cai, Bo Zhang, Zhe Li, Shiming Xiang, Ying Yan

Multimodale grote taalmodellen (MLLM's) hebben indrukwekkende mogelijkheden aangetoond in veel visuele taken, maar ze hebben vaak moeite met feitelijke verankering wanneer ze worden geconfronteerd met complexe, open-wereldscenario's. Hoewel recente multimodale diepzoekagenten proberen dit probleem aan te pakken door gebruik te maken van externe tools, blijft het visueel-native zoekparadigma onderbelicht. Bestaande methoden vertrouwen voornamelijk op eenvoudige afbeeldingen met expliciete semantiek en tekstuele bewijstrajecten, waardoor het vermogen van de agent om multi-hop, cross-modale redenering en zoekopdrachten uit te voeren wordt beperkt. Om deze beperkingen aan te pakken, stellen we Visual-Seeker voor, een visueel-native multimodale diepzoekagent via actieve visuele redenering. In plaats van visie als een statische invoer te behandelen, besteedt onze agent actief aandacht aan fijnmazige visuele details en oogst dynamisch visueel bewijs tijdens het zoekproces. Om het visueel-native potentieel te ontgrendelen, ontwerpen we een pijplijn voor actieve visuele redeneringsdata en synthetiseren we 5K hoogwaardige multimodale trajecten voor modeltraining. Uitgebreide experimenten tonen de state-of-the-art prestaties aan op vijf uitdagende multimodale zoekbenchmarks, die zelfs verschillende propriëtaire modellen overtreffen, wat robuuste visueel-native redenering en zoekopdrachten in realistische webomgevingen valideert. De code en data zijn toegankelijk op: https://github.com/ZhengboZhang/Visual-Seeker.

RepSelect: Robuust LLM-verleren via representatieselectiviteit
RepSelect: Robust LLM Unlearning via Representation Selectivity

Jun 15

ByFilip Sondej, Yushi Yang, Adam Mahdi

Het diepgaand laten verleren van specifieke kennis en waarden door grote taalmodellen (LLM's) zonder afbreuk te doen aan algemene capaciteiten blijft een centrale uitdaging in het ontleren. Huidige methoden kunnen echter eenvoudig worden teruggedraaid door middel van fine-tuning of few-shot prompting, wat erop wijst dat hun vergeten slechts oppervlakkig is. Wij identificeren de hoofdoorzaak. Bestaande methoden richten zich op representaties die worden gedeeld met zowel de te behouden set als de deelruimte die door een fine-tuning-aanvaller wordt hersteld, waardoor ontleren zowel schadelijk is voor algemene capaciteiten als gemakkelijk omkeerbaar. Wij stellen RepSelect (Representation Selectivity) voor, dat specifieke representaties van de te vergeten set isoleert door de top-hoofdcomponenten van gewichtsgradiënten in te storten vóór elke update, waardoor algemene capaciteiten intact blijven en wordt beperkt wat fine-tuning kan herstellen. We evalueren over twee vergeetcategorieën (biologisch gevaarlijke kennis en beledigende neigingen) en vier modelfamilies die variëren van dichte tot Mixture-of-Experts-architecturen (Llama 3, Qwen 3.5, Gemma 4 E4B, DeepSeek V2 Lite). Vergeleken met vijf populaire baselines (GradDiff, NPO, SimNPO, RMU, UNDIAL) behaalt RepSelect een 4 tot 50 keer grotere reductie in antwoordnauwkeurigheid na herleren dan de sterkste baseline, en is het vrijwel perfect robuust tegen few-shot-prompting-aanvallen. Het richten op selectieve representaties is dus een belangrijke stap in de richting van diep en robuust ontleren van LLM's.

Het afstemmen van kwantumoperatoren op grote taalmodellen
Aligning Quantum Operators with Large Language Models

Jun 11

ByRogerio Feris, Yunchao Liu, Pengyuan Li, Hang Hua, David Kremer

Kunnen grote taalmodellen (LLM's) quantumoperatoren begrijpen en erover redeneren? Ondanks hun opmerkelijke capaciteiten op het gebied van wiskunde en symbolisch redeneren, blijven LLM's inherent blind voor quantumrepresentaties zoals unitaire matrices. In dit werk zetten we een stap om deze kloof te overbruggen door een aanpak te introduceren die unitaire operatoren in de latente ruimte van een LLM projecteert, waardoor een uniforme modellering van quantum- en taalkundige invoer mogelijk wordt. We implementeren dit idee voor Clifford+T-circuitsynthese over een Pauli-rotatiepoortenset, waarbij ons model resultaten behaalt die concurrerend zijn met de nieuwste methoden en consistent schaalt met trainingsgegevens, zonder tekenen van verzadiging. Onze aanpak maakt bovendien taalgestuurde synthese mogelijk, waardoor poortbeperkingen die niet tijdens de training zijn gezien, direct in natuurlijke taal kunnen worden gespecificeerd. Dit werk suggereert een pad naar quantumbewuste funderingsmodellen die quantumoperaties native kunnen interpreteren en erover kunnen redeneren, wat bredere implicaties kan hebben voor quantumcompilatie en algoritmeontdekking.

Voorbij Scalaire Afstanden: Semantische Attribuutgradiënten van Bevroren MLLMs voor Visuele Embeddings
Beyond Scalar Distances: Semantic Attribute Gradients from Frozen MLLMs for Visual Embeddings

Jun 13

ByShubhang Bhatnagar, Dheeraj Baiju, Narendra Ahuja

Visuele encoders voor terugwinning worden doorgaans getraind met supervisie op basis van klasselabels: elk trainingspaar reduceert tot een scalaire waarde die de inbedding uniform uit elkaar duwt of samen trekt, alsof elk visueel attribuut ofwel verschilt ofwel overeenkomt. Een multimodaal groot taalmodel (MLLM) dat hetzelfde paar krijgt voorgelegd, kan die attributen verwoorden en ze gebruiken om te voorspellen of de afbeeldingen een klasse delen. Wij stellen SAGA voor, een raamwerk dat deze taalgestuurde, attribuutbewuste perceptie omzet in een trainingssignaal voor de encoder zelf. Concreet gebruiken we Group Relative Policy Optimization (GRPO) om het MLLM te belonen voor correcte voorspellingen op basis van de tokens van de visuele encoder. Aangezien correcte voorspellingen vereisen dat deze tokens de specifieke attributen blootleggen die verschillen of overeenkomen tussen het paar, drijft de gradiënt de encoder aan om deze te coderen, ter vervanging van de uniforme scalaire waarde op paar niveau door een attribuut-gespecificeerde supervisie. Een hulpverlies voor aandachtsdestillatie verankert de inbedding van de encoder aan tokens waar het MLLM aandacht aan heeft besteed, en een standaard metriek-leerverlies vormt de meetkunde van de inbedding voor terugwinning van de dichtstbijzijnde buur. Het MLLM blijft gedurende het hele proces bevroren en wordt bij de inferentie verwijderd, wat overeenkomt met de implementatiekosten van een metriek-leerbasislijn. SAGA verbetert Recall@1 met 3 tot 6 punten ten opzichte van state-of-the-art basislijnen op CUB-200-2011, Cars-196, FGVC-Aircraft en iNaturalist Aves voor zero-shot beeldterugwinning.

RefGC-SR^2: Referentiegeleide Superresolutie en Verfijning van Gegenereerde Inhoud
RefGC-SR^2: Reference-guided Generated Content Super-Resolution and Refinement

Jun 13

ByJeahun Sung, Dahyeon Kye, Soo Ye Kim, Jihyong Oh

Referentiegestuurde generatie (bijv. objectcompositie, aanpassing) heeft zich snel ontwikkeld, maar huidige pipelines delen een fundamentele beperking: de objectgerichte hoge-resolutie referentieafbeelding (HRRI) die door gebruikers wordt aangeleverd, wordt gedownsampled naar een vaste lage resolutie (LR) voordat deze in het model wordt ingevoerd, waardoor de fijnkorrelige details al worden weggegooid voordat de uitvoer wordt geproduceerd. Bovendien introduceert de generatiestap vervolgens zijn eigen artefacten (bijv. identiteitsvervorming) bovenop dit verlies. Bestaande methoden voor referentiegestuurde verfijning van gegenereerde inhoud (RefGCR) kunnen sommige van deze artefacten corrigeren, maar werken nog steeds in het LR-domein; referentiegestuurde superresolutie (RefSR) methoden herstellen de resolutie, maar gaan uit van natuurlijke beelddegradaties en negeren de artefactverdeling van generatieve pipelines. Om beide hiaten in één formulering aan te pakken, introduceren we een nieuwe taak: referentiegestuurde superresolutie-verfijning van gegenereerde inhoud (RefGC-SR²), waarbij de oorspronkelijke HRRI opnieuw wordt gebruikt in de nabewerkingsfase om verloren details te herstellen, generatieve artefacten te verfijnen en de uitvoer tegelijkertijd op te schalen. We bouwen de eerste real-world triplet data generation pipeline voor deze RefGC-SR² taak, waarbij we een diptiek-geconditioneerde generator trainen om gepaarde lage-kwaliteit ankers te synthetiseren die openbare voorgetrainde modellen niet kunnen leveren. Verder presenteren we een frequentiebewust diffusietransformermodel voor RefGC-SR² dat selectief fijne details uit de HRRI injecteert terwijl generatieve artefacten worden verwijderd. Uitgebreide experimenten tonen aan dat ons RefGC-SR² model met succes (i) de objectidentiteit getrouw verfijnt ten opzichte van de referentie, en (ii) hoge-resolutie details herstelt, waardoor het eindresultaat aanzienlijk hogere kwaliteit heeft en praktisch bruikbaarder is in vergelijking met bestaande RefGCR- en RefSR-baselines.

MotionVLA: Visie-Taal-Actiemodel voor Humanoid Beweging
MotionVLA: Vision-Language-Action Model for Humanoid Motion

Jun 13

ByNonghai Zhang, Siyu Zhai, Yanjun Li, Zeyu Zhang, Zhihan Yin, Yandong Guo, Boxin Shi, Hao Tang

Het genereren van realistische mensachtige bewegingen uit scènebeelden en tekst omvat zowel laagfrequente pose-semantiek als hoogfrequente fysieke dynamica. Veel bestaande methoden tokeniseren beweging echter met een enkele gedeelde codeboek, waardoor heterogene bewegingssignalen in dezelfde kwantiseringsruimte worden gedwongen. Onze frequentiedomeinanalyse van menselijke bewegingsdata laat een duidelijke mismatch zien tussen kwantisatie met één codeboek en bewegingsstatistieken: vijf DCT-coëfficiënten vangen 93% van de gewrichtspositie-energie, maar slechts 37% van de gewrichtssnelheidsenergie, wat de kwantisatie kan vertekenen naar pose-statistieken en hoogfrequente snelheidscomponenten ondervertegenwoordigt. Een tweede uitdaging ligt in het aanpassen van een standaard autoregressief model om hoogfrequente fysieke signalen in bewegingssequenties effectief te modelleren. Daarom stellen wij DSFT voor, een dual-stream frequentietokenizer die beweging opsplitst in Base- en fysieke streams en deze onafhankelijk comprimeert met DCT-truncatie en BPE. Verder presenteren wij MotionVLA, een op Qwen3.5 gebaseerd model dat Base- en fysieke tokens in een uniforme volgorde rangschikt, waarbij Phys-tokens worden voorspeld na Base-tokens. Experimenten op HumanML3D en MBench tonen aan dat MotionVLA, ondanks het gebruik van een lichtgewicht 2B-backbone, de diversiteitskloof met echte gegevens op HumanML3D met meer dan 50% verkleint en de bewegingsconditieconsistentie op MBench met 3,8% verbetert, wat frequentiebewuste dual-stream-ontkoppeling ondersteunt als een effectieve formulering voor autoregressieve bewegingsgeneratie. Code: https://github.com/AIGeeksGroup/MotionVLA. Website: https://aigeeksgroup.github.io/MotionVLA.

De Prijs van Anarchie in Gedisaggregeerde Inferentie
The Price of Anarchy in Disaggregated Inference

Jun 11

ByAthos Georgiou

Gedesaggregeerde inferentiearchitecturen scheiden prefill- en decodeerfases fysiek over afzonderlijke GPU-pools, waardoor concurrerende "agenten" ontstaan die een vast hardwarebudget delen. Naar ons beste weten leveren wij de eerste formele speltheoretische analyse van deze architectuur, met NVIDIA Dynamo als concrete casestudy. Wij modelleren gedesaggregeerde serving als drie gekoppelde spelen: een tweespelers-bronnenspel tussen prefill- en decodeerpools, een zelfzuchtig cacheschrijfspel over de hiërarchische KV-cache, en een congestiespel met positieve externaliteiten voor verzoekroutering. De laatste twee valideren wij empirisch; het P/D-bronnenspel wordt analytisch behandeld (paragraaf 9.2). Wij karakteriseren hoe GPU-verzadiging regimeovergangen induceert die de uitbetalingsstructuur van het spel verschuiven: onder verzadiging heeft zelfzuchtig gedrag een begrensde Prijs van Anarchie (PoA); bij verzadiging drijven superlineaire latentie en cache-externaliteiten onze empirische schatter PoA-hat (gedefinieerd in paragraaf 6.4) omhoog. Op basis van deze analyse ontwerpen wij een adaptieve controller die verzadigingsovergangen in realtime detecteert en routeringsparameters dienovereenkomstig aanpast, van cache-affiniteitsexploitatie naar belastingsevenwichtige congestievermijding. Wij implementeren ons raamwerk op een 3-node NVIDIA B200-cluster met Dynamo en twee modellen, Nemotron-4-340B (TP=8, full-node workers met cross-InfiniBand KV-overdrachten) en Llama-3.1-70B (TP=4), en vinden dezelfde drie-regime PoA-hat-structuur met hetzelfde eerste post-knie-roosterpunt (C=128) op beide modellen. Adaptieve routering verschuift elk model naar een beter werkpunt. Ons sterkste resultaat is op de 70B 1P/5D-topologie, waar PoA-hat 3,1x daalt (van 66,4 naar 21,5) in de verzadigde fase bij een doorvoerkost van 13%. Op de 70B 1P/2D daalt PoA-hat 2,2x en TTFT P99 daalt 7,6x (zie paragraaf 8.5).

Geverifieerde detectie en preventie van concurrentie-anomalieën in multi-agent-grote-taalmodel-systemen
Verified Detection and Prevention of Concurrency Anomalies in Multi-Agent Large Language Model Systems

Jun 15

BySajjad Khan

Multi-agent LLM-systemen delen toestand via geheugenopslag, vectorindexen en toolregistraties. We modelleren dergelijk delen als langlopende lees-genereer-schrijfoperaties onder deterministische-generatiesemantiek – het regime dat duurzame-uitvoeringsengines afdwingen door deterministische herhaling – en formaliseren vier concurrentieanomalieën in TLA+: verouderde-generatie, fantoomtool, causale-cascade en tool-effect-herordening, structurele analoga van klassieke isolatieanomalieën, elk met een TLC-tegenvoorbeeld. Het uitsluitingsrooster over deze anomalieën is triviaal; de bijdrage is de mechanisch geverifieerde realiseerbaarheid en strikte scheiding van één maximale keten daarbinnen, L₀ ⊊ ... ⊊ L₄ – voor zover wij weten de eerste machinaal gecontroleerde consistentiehierarchie voor dergelijke runtimes. Een ontwikkeling van 274 Verus-verplichtingen (nul assume, nul admit; vertrouwensbasis: twee structurele axioma's en een mutex-correspondentie) bewijst dat de detectoren correct en volledig zijn ten opzichte van de specificaties en elke runtime zijn vermijdingsset. Drie ingezette Rust-runtimes realiseren L0–L1 (pessimistische vergrendeling, serialiseerbare snapshot-isolatie, standaard-SI), elk geverifieerd tegen verouderde-generatie en verfijnd tot zijn toestandsmachine; L2–L4 zijn uitvoeringsmodus-geverifieerd met afhankelijkheidsvrije preventietweelingen (A3, A6, A2: 0/1000 versus 1000/1000), en L2 wordt live uitgevoerd over drie modelfamilies (A3 voorkomen in alle 120 ingetrokken sessies). We reproduceren een stille verloren update in ByteDance's deer-flow, waarbij we de oplossing formaliseren als een geverifieerde L₀-naar-L₁-verfijning, en tonen tool-effect-herordening in LangGraph's ToolNode op ongewijzigde uitvoer, verwijderd door een L3 commit-volgorde-sequencer. De geverifieerde detector, verfijningen en realiseerbaarheidsartefacten zijn de bijdrage; de fenomenen en het rooster zijn klassiek.