HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

49 papers found

Verdwaald in Verhalen: Consistentiefouten in Lange Verhaalgeneratie door LLM's
Lost in Stories: Consistency Bugs in Long Story Generation by LLMs

Mar 6

ByJunjie Li, Xinrui Guo, Yuhao Wu, Roy Ka-Wei Lee, Hongzhi Li, Yutao Xie

Wat gebeurt er wanneer een verhalenverteller zijn eigen verhaal vergeet? Grote Taalmodellen (LLM's) kunnen nu verhalen genereren die tienduizenden woorden beslaan, maar slagen er vaak niet in om de consistentie te behouden. Bij het genereren van lange verhalen kunnen deze modellen hun eigen vastgestelde feiten, karaktereigenschappen en wereldregels tegenspreken. Bestaande benchmarks voor verhaalgeneratie richten zich voornamelijk op plotkwaliteit en vlotheid, waardoor consistentiefouten grotendeels ononderzoek blijven. Om deze leemte op te vullen, presenteren we ConStory-Bench, een benchmark die is ontworpen om narratieve consistentie te evalueren bij het genereren van lange verhalen. De benchmark bevat 2.000 prompts verdeeld over vier taalscenario's en definieert een taxonomie van vijf foutcategorieën met 19 fijnmazige subtypes. We ontwikkelden ook ConStory-Checker, een geautomatiseerde pipeline die tegenstrijdigheden detecteert en elk oordeel grondt in expliciet tekstueel bewijs. Door een reeks LLM's te evalueren aan de hand van vijf onderzoeksvragen, constateren we dat consistentiefouten duidelijke tendensen vertonen: ze komen het meest voor in feitelijke en temporele dimensies, hebben de neiging om halverwege verhalen voor te komen, verschijnen in tekstsegmenten met een hogere entropie op tokenniveau, en bepaalde fouttypes hebben de neiging samen voor te komen. Deze bevindingen kunnen toekomstige inspanningen om de consistentie in lange narratieve generatie te verbeteren, informeren. Onze projectpagina is beschikbaar op https://picrew.github.io/constory-bench.github.io/.

Holi-Spatial: Het Evolueren van Videostreams naar Holistische 3D Ruimtelijke Intelligentie
Holi-Spatial: Evolving Video Streams into Holistic 3D Spatial Intelligence

Mar 8

ByYuanyuan Gao, Hao Li, Yifei Liu, Xinhao Ji, Yuning Gong, Yuanjun Liao, Fangfu Liu, Manyuan Zhang, Yuchen Yang, Dan Xu, Xue Yang, Huaxi Huang, Hongjie Zhang, Ziwei Liu, Xiao Sun, Dingwen Zhang, Zhihang Zhong

De ontwikkeling van ruimtelijke intelligentie is fundamenteel afhankelijk van toegang tot grootschalige, gedetailleerde 3D-data. Bestaande methoden construeren echter voornamelijk benchmarks voor ruimtelijk begrip door vraag-antwoordparen (QA-paren) te genereren vanuit een beperkt aantal handmatig geannoteerde datasets, in plaats van systematisch nieuwe grootschalige 3D-scènes te annoteren vanuit ruwe webdata. Hierdoor is hun schaalbaarheid ernstig beperkt, en wordt modelprestatie verder belemmerd door domeinkloven die inherent zijn aan deze nauwgezet samengestelde datasets. In dit werk presenteren we Holi-Spatial, de eerste volledig geautomatiseerde, grootschalige, ruimtelijk-bewuste multimodale dataset, geconstrueerd vanuit ruwe video-invoer zonder menselijke tussenkomst, gebruikmakend van de voorgestelde datacuratiepijplijn. Holi-Spatial ondersteunt multi-level ruimtelijke supervisie, variërend van geometrisch accurate 3D Gaussian Splatting (3DGS)-reconstructies met gerenderde dieptekaarten tot objectniveau- en relationele semantische annotaties, samen met bijbehorende ruimtelijke vraag-antwoordparen (QA-paren). Volgens een principiële en systematische pijplijn construeren we verder Holi-Spatial-4M, de eerste grootschalige, hoogwaardige 3D semantische dataset, die 12K geoptimaliseerde 3DGS-scènes, 1.3M 2D-maskers, 320K 3D-afgebakende gebieden (bounding boxes), 320K instantie-bijschriften, 1.2M 3D-grondingsinstanties en 1.2M ruimtelijke QA-paren bevat, welke diverse geometrische, relationele en semantische redeneertaken bestrijken. Holi-Spatial toont uitzonderlijke prestaties in de kwaliteit van datacuratie en overtreft bestaande feed-forward en per-scène geoptimaliseerde methoden aanzienlijk op datasets zoals ScanNet, ScanNet++ en DL3DV. Bovendien heeft het fine-tunen van Vision-Language Models (VLMs) voor ruimtelijke redeneertaken met behulp van deze dataset ook geleid tot substantiële verbeteringen in modelprestaties.

LoGeR: Long-Context Geometrische Reconstructie met Hybride Geheugen
LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory

Mar 3

ByJunyi Zhang, Charles Herrmann, Junhwa Hur, Chen Sun, Ming-Hsuan Yang, Forrester Cole, Trevor Darrell, Deqing Sun

Feedforward geometrische foundation-modellen bereiken sterke reconstructie op korte termijn, maar het schalen naar minutenlange video's wordt beperkt door kwadratische aandachtcomplexiteit of beperkt effectief geheugen in recurrente ontwerpen. Wij presenteren LoGeR (Long-context Geometric Reconstruction), een nieuwe architectuur die dichte 3D-reconstructie schaalt naar extreem lange sequenties zonder post-optimalisatie. LoGeR verwerkt videostreams in segmenten en benut sterke bidirectionele priors voor hoogwaardige redenering binnen segmenten. Om de kritieke uitdaging van coherentie over segmentgrenzen heen te beheersen, stellen we een op leren gebaseerde hybride geheugenmodule voor. Dit dual-componentensysteem combineert een parametrisch Test-Time Training (TTT)-geheugen om het globale coördinatenstelsel te verankeren en schaal-drift te voorkomen, naast een niet-parametrisch Sliding Window Attention (SWA)-mechanisme om ongecomprimeerde context te behouden voor hoogprecieze aanliggende uitlijning. Opmerkelijk is dat deze geheugenarchitectuur LoGeR in staat stelt te worden getraind op sequenties van 128 frames, en te generaliseren tot duizenden frames tijdens inferentie. Geëvalueerd op standaardbenchmarks en een nieuw hergebruikte VBR-dataset met sequenties tot 19k frames, overtreft LoGeR eerdere state-of-the-art feedforward methoden aanzienlijk – het reduceert ATE op KITTI met meer dan 74% – en bereikt robuuste, globaal consistente reconstructie over ongekende horizons.

Hoe Ver Kan Ongesuperviseerd RLVR de Training van LLM's Opschalen?
How Far Can Unsupervised RLVR Scale LLM Training?

Mar 9

ByBingxiang He, Yuxin Zuo, Zeyuan Liu, Shangziqi Zhao, Zixuan Fu, Junlin Yang, Cheng Qian, Kaiyan Zhang, Yuchen Fan, Ganqu Cui, Xiusi Chen, Youbang Sun, Xingtai Lv, Xuekai Zhu, Li Sheng, Ran Li, Huan-ang Gao, Yuchen Zhang, Bowen Zhou, Zhiyuan Liu, Ning Ding

Onbewaakt reinforcement learning met verifieerbare beloningen (URLVR) biedt een weg om de training van grote taalmodelen voorbij het toezichtknelpunt op te schalen door beloningen af te leiden zonder grondwaarheid-labels. Recente onderzoeken benutten intrinsieke modelsignalen en tonen veelbelovende vroege resultaten, maar hun potentieel en beperkingen blijven onduidelijk. In dit werk herbezien we URLVR en presenteren een uitgebreide analyse die taxonomie, theorie en uitgebreide experimenten omvat. We classificeren URLVR-methoden eerst als intrinsiek versus extern op basis van hun beloningsbronnen, en stellen vervolgens een verenigd theoretisch kader op dat onthult dat alle intrinsieke methoden convergeren naar een verscherping van de initiële verdeling van het model. Dit verscherpingsmechanisme slaagt wanneer initieel vertrouwen overeenkomt met correctheid, maar faalt catastrofaal bij een mismatch. Door middel van systematische experimenten tonen we aan dat intrinsieke beloningen consequent een stijgend-dan-dalend patroon volgen across methoden, waarbij het tijdstip van instorting wordt bepaald door de modelprior in plaats van technische keuzes. Ondanks deze schaalbeperkingen blijken intrinsieke beloningen waardevol te blijven bij test-time training op kleine datasets, en we stellen de Modelinstortingsstap voor om de modelprior te meten, als praktische indicator voor RL-trainbaarheid. Ten slotte verkennen we externe beloningsmethoden die verificatie verankeren in computationele asymmetrieën, waarbij eerste aanwijzingen suggereren dat ze het vertrouwen-correctheid-plafond mogelijk kunnen ontlopen. Onze bevindingen schetsen grenzen voor intrinsieke URLVR en wijzen tegelijkertijd wegen naar schaalbare alternatieven.

Geloof in Je Model: Distributiegestuurde Betrouwbaarheidscalibratie
Believe Your Model: Distribution-Guided Confidence Calibration

Mar 4

ByXizhong Yang, Haotian Zhang, Huiming Wang, Mofei Song

Grote redeneermodellen hebben opmerkelijke prestaties getoond dankzij de vooruitgang in testtijd-schaleringstechnieken, die de voorspellingsnauwkeurigheid verbeteren door meerdere kandidaatantwoorden te genereren en het meest betrouwbare antwoord te selecteren. Hoewel eerder onderzoek heeft aangetoond dat interne modelsignalen zoals betrouwbaarheidsscores deels de juistheid van antwoorden kunnen aangeven en een distributionele correlatie vertonen met nauwkeurigheid, is dergelijke distributionele informatie nog niet volledig benut om antwoordselectie te sturen. Gemotiveerd door dit inzicht presenteren we DistriVoting, dat distributionele prioriteiten incorporeert als een aanvullend signaal naast betrouwbaarheid tijdens het stemmen. Onze methode (1) ontleedt eerst de gemengde betrouwbaarheidsverdeling in positieve en negatieve componenten met behulp van Gaussische Mengmodellen, (2) past vervolgens een afwijzingsfilter toe op basis van positieve/negatieve steekproeven om de overlap tussen de twee verdelingen te verminderen. Daarnaast introduceren we SelfStepConf om de overlap vanuit het verdelingsperspectief verder te verminderen, door stap-voor-stap-betrouwbaarheid te gebruiken om het inferentieproces dynamisch aan te passen, waardoor de scheiding tussen de twee verdelingen wordt vergroot om de betrouwbaarheid van scores tijdens het stemmen te verbeteren. Experimenten over 16 modellen en 5 benchmarks tonen aan dat onze methode state-of-the-art-benaderingen significant overtreft.

CoCo: Code als CoT voor Tekst-naar-Beeld Voorvertoning en Generatie van Zeldzame Concepten
CoCo: Code as CoT for Text-to-Image Preview and Rare Concept Generation

Mar 9

ByHaodong Li, Chunmei Qing, Huanyu Zhang, Dongzhi Jiang, Yihang Zou, Hongbo Peng, Dingming Li, Yuhong Dai, ZePeng Lin, Juanxi Tian, Yi Zhou, Siqi Dai, Jingwei Wu

Recente vooruitgang in Unified Multimodal Models (UMM's) heeft tekst-naar-beeld-generatie (T2I) aanzienlijk verbeterd, met name door de integratie van Chain-of-Thought (CoT)-redenering. Bestaande CoT-gebaseerde T2I-methoden zijn echter grotendeels afhankelijk van abstracte planning in natuurlijke taal, wat de precisie mist die nodig is voor complexe ruimtelijke lay-outs, gestructureerde visuele elementen en dense tekstuele inhoud. In dit werk stellen we CoCo (Code-as-CoT) voor, een code-gestuurd redeneerkader dat het redeneerproces vertegenwoordigt als uitvoerbare code, waardoor expliciete en verifieerbare tussenplanning voor beeldgeneratie mogelijk wordt. Gegeven een tekstprompt genereert CoCo eerst uitvoerbare code die de structurele lay-out van de scène specificeert, die vervolgens wordt uitgevoerd in een gescheiden omgeving om een deterministisch conceptbeeld te renderen. Het model verfijnt dit concept vervolgens via fijnmazige beeldbewerking om het uiteindelijke hoogfideliteitsresultaat te produceren. Om dit trainingsparadigma te ondersteunen, construeren we CoCo-10K, een gecureerde dataset met gestructureerde concept-eindbeeldparen die is ontworpen om zowel gestructureerde conceptconstructie als correctieve visuele verfijning aan te leren. Empirische evaluaties op StructT2IBench, OneIG-Bench en LongText-Bench tonen aan dat CoCo verbeteringen behaalt van respectievelijk +68,83%, +54,8% en +41,23% ten opzichte van directe generatie, terwijl het ook andere generatiemethoden die door CoT worden aangedreven, overtreft. Deze resultaten tonen aan dat uitvoerbare code een effectief en betrouwbaar redeneerparadigma is voor precieze, controleerbare en gestructureerde tekst-naar-beeldgeneratie. De code is beschikbaar op: https://github.com/micky-li-hd/CoCo

CARE-Edit: Voorwaardelijk Gestuurde Routering van Experts voor Contextueel Bewerken van Afbeeldingen
CARE-Edit: Condition-Aware Routing of Experts for Contextual Image Editing

Mar 9

ByYucheng Wang, Zedong Wang, Yuetong Wu, Yue Ma, Dan Xu

Unified diffuseditieerders vertrouwen vaak op een vaste, gedeelde backbone voor uiteenlopende taken, wat leidt tot taakinterferentie en een slechte aanpassing aan heterogene eisen (bijv. lokaal vs. globaal, semantisch vs. fotometrisch). Met name gangbare ControlNet- en OmniControl-varianten combineren meerdere conditioneringssignalen (zoals tekst, maskers, referenties) via statische concatenatie of additieve adapters, die niet dynamisch conflicterende modaliteiten kunnen prioriteren of onderdrukken. Dit resulteert in artefacten zoals kleurverspreiding over maskergrenzen heen, identiteits- of stijldrift, en onvoorspelbaar gedrag bij multi-condition inputs. Om dit aan te pakken, stellen wij Condition-Aware Routing of Experts (CARE-Edit) voor, dat modelberekening afstemt op specifieke editiecompetenties. De kern is een lichtgewicht latent-attention router die gecodeerde diffusietokens toewijst aan vier gespecialiseerde experts – Tekst, Masker, Referentie en Basis – op basis van multimodale condities en diffusietijdstappen: (i) een Masker Repaint-module verfijnt eerst grove door de gebruiker gedefinieerde maskers voor precieze ruimtelijke begeleiding; (ii) de router past sparse top-K selectie toe om berekening dynamisch toe te wijzen aan de meest relevante experts; (iii) een Latent Mixture-module fuseert vervolgens de expertoutputs, waarbij semantische, ruimtelijke en stilistische informatie coherent wordt geïntegreerd in de basisafbeeldingen. Experimenten valideren de sterke prestaties van CARE-Edit bij contextuele edittaken, waaronder verwijdering, vervanging, tekstgestuurde aanpassingen en stijloverdracht. Empirische analyse onthult verder taakspecifiek gedrag van gespecialiseerde experts, wat het belang aantoont van dynamische, condition-aware verwerking om conflicten tussen meerdere condities te mitigeren.

HiAR: Efficiënte autoregressieve lange videogeneratie via hiërarchische ruisverwijdering
HiAR: Efficient Autoregressive Long Video Generation via Hierarchical Denoising

Mar 9

ByKai Zou, Dian Zheng, Hongbo Liu, Tiankai Hang, Bin Liu, Nenghai Yu

Autoregressieve (AR) diffusie biedt een veelbelovend kader voor het genereren van video's van theoretisch oneindige lengte. Een grote uitdaging is echter het handhaven van temporele continuïteit en het voorkomen van de progressieve kwaliteitsachteruitgang veroorzaakt door foutenaccumulatie. Om continuïteit te waarborgen, conditioneren bestaande methoden typisch op sterk gedenoiseerde context; deze praktijk verspreidt echter voorspellingsfouten met hoge zekerheid, waardoor degradatie wordt verergerd. In dit artikel beargumenteren wij dat een zeer schone context onnodig is. Geïnspireerd door bidirectionele diffusiemodellen, die frames op een gedeeld ruisniveau denoiseren terwijl ze coherentie behouden, stellen wij voor dat conditionering op context op hetzelfde ruisniveau als het huidige blok voldoende signaal biedt voor temporele consistentie en tegelijkertijd foutpropagatie effectief vermindert. Voortbouwend op dit inzicht presenteren wij HiAR, een hiërarchisch denoiseringskader dat de conventionele generatievolgorde omkeert: in plaats van elk blok sequentieel te voltooien, voert het causale generatie uit over alle blokken bij elke denoiseringsstap, zodat elk blok altijd wordt geconditioneerd op context op hetzelfde ruisniveau. Deze hiërarchie maakt op natuurlijke wijze gepipelineerde parallelle inferentie mogelijk, wat een 1,8x snelheidswinst in wall-clock tijd oplevert in onze 4-staps configuratie. Wij observeren verder dat self-rollout-distillatie binnen dit paradigma een 'low-motion shortcut' versterkt die inherent is aan het moduszoekende reverse-KL-doel. Om dit tegen te gaan, introduceren wij een forward-KL-regularisator in bidirectionele-attentiemodus, die bewegingsdiversiteit behoudt voor causale inferentie zonder de distillatieloss te verstoren. Op VBench (20s generatie) behaalt HiAR de hoogste overall score en de laagste temporele drift van alle vergeleken methoden.

\$OneMillion-Bench: Hoe Ver Staaten Taalagentschappen van Menselijke Experts?
\$OneMillion-Bench: How Far are Language Agents from Human Experts?

Mar 9

ByQianyu Yang, Yang Liu, Jiaqi Li, Jun Bai, Hao Chen, Kaiyuan Chen, Tiliang Duan, Jiayun Dong, Xiaobo Hu, Zixia Jia, Yang Liu, Tao Peng, Yixin Ren, Ran Tian, Zaiyuan Wang, Yanglihong Xiao, Gang Yao, Lingyue Yin, Ge Zhang, Chun Zhang, Jianpeng Jiao, Zilong Zheng, Yuan Gong

Naarmate taalmodellen (LM's) evolueren van chatassistenten naar langetermijnagenten die in staat zijn tot meerstapsredenering en gereedschpsgebruik, blijven bestaande benchmarks grotendeels beperkt tot gestructureerde of examengerichte taken die tekortschieten bij reële professionele eisen. Daarom introduceren wij \OneMillion-Bench OneMillion-Bench, een benchmark van 400 door experts samengestelde taken uit de rechterlijke macht, financiën, industrie, gezondheidszorg en natuurwetenschappen, ontwikkeld om agenten te evalueren in economisch relevante scenario's. In tegenstelling tot eerder werk vereist deze benchmark het raadplegen van gezaghebbende bronnen, het oplossen van tegenstrijdig bewijs, het toepassen van domeinspecifieke regels en het nemen van beperkte beslissingen, waarbij de juistheid evenzeer afhangt van het redeneerproces als van het uiteindelijke antwoord. Wij hanteren een op rubrieken gebaseerd evaluatieprotocol dat feitelijke nauwkeurigheid, logische samenhang, praktische haalbaarheid en professionele compliantie beoordeelt, gericht op expertniveauproblemen om zinvolle differentiatie tussen agenten te waarborgen. Samen biedt \$OneMillion-Bench een uniforme testomgeving voor het beoordelen van agentbetrouwbaarheid, professionele diepgang en praktische gereedheid in domeinintensieve scenario's.

NLE: Niet-autoregressieve ASR op basis van grote taalmodel door transcriptbewerking
NLE: Non-autoregressive LLM-based ASR by Transcript Editing

Mar 9

ByAvihu Dekel, Samuel Thomas, Takashi Fukada, George Saon

Hoewel op autoregressie (AR) gebaseerde ASR-systemen met grote taalmodellen een hoge nauwkeurigheid bereiken, beperkt hun sequentiële decodering de parallelisatie en veroorzaakt het hoge latentie. Wij stellen NLE voor, een niet-autoregressieve (NAR) benadering die spraakherkenning formuleert als conditionele transcriptbewerking, wat volledig parallelle voorspelling mogelijk maakt. NLE extraheert akoestische embedding en een initiële hypothese van een voorgetrainde spraakencoder, en verfijnt vervolgens de hypothese met een bidirectionele LLM-editor die is getraind met een latent aligneringsdoel. Een intergeleaveerde opvulstrategie benut de identiteitsafbeeldingsbias van Transformers, waardoor het model zich kan concentreren op correcties in plaats van volledige reconstructie. Op het Open ASR-leaderboard behaalt NLE++ een gemiddelde WER van 5,67% met een RTFx (inverse real-time factor) van 1630. In scenario's met enkele uitingen bereikt NLE een 27x versnelling ten opzichte van de AR-baseline, wat het geschikt maakt voor real-time toepassingen.

AutoResearch-RL: Permanent Zelf-Evaluerende Reinforcement Learning-Agenten voor Autonome Neurale Architectuurontdekking
AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

Mar 7

ByNilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI

Wij presenteren AutoResearch-RL, een raamwerk waarin een reinforcement learning-agent zonder menselijk toezicht open-ended onderzoek doet naar neurale netwerkarchitectuur en hyperparameters. Het proces draait voortdurend door totdat een stop-orakel convergentie of uitputting van resources signaleert. Bij elke stap stelt de agent een codewijziging voor een doel-trainingsscript voor, voert deze uit binnen een vast budget aan wandkloktijd, observeert een scalaire beloning afgeleid van de validatie bits-per-byte (val-bpb), en werkt zijn beleid bij via Proximal Policy Optimisation (PPO). Het belangrijkste ontwerp-inzicht is de scheiding van drie aspecten: (i) een bevroren omgeving (datapijplijn, evaluatieprotocol en constanten) die een eerlijke vergelijking tussen experimenten garandeert; (ii) een muteerbaar doelbestand (train.py) dat de bewerkbare staat van de agent vertegenwoordigt; en (iii) een meta-leerder (de RL-agent zelf) die een groeiende traject van experimentresultaten accumuleert en deze gebruikt om volgende voorstellen te informeren. Wij formaliseren dit als een Markov-beslissingsproces, leiden convergentiegaranties af onder milde aannames, en tonen empirisch aan op een nanochat pre-trainingsbenchmark met een enkele GPU dat AutoResearch-RL configuraties ontdekt die handmatig afgestelde basislijnen evenaren of overtreffen na ongeveer 300 nachtelijke iteraties, zonder menselijke tussenkomst.

Het Opschalen van Agentische Capaciteiten, Niet de Context: Efficiënte Afstemming via Versterkend Leren voor Grote Gereedschapsruimten
Scaling Agentic Capabilities, Not Context: Efficient Reinforcement Finetuning for Large Toolspaces

Mar 5

ByKaran Gupta, Pranav Vajreshwari, Yash Pandya, Raghav Magazine, Akshay Nambi, Ahmed Awadallah

Agentische systemen die opereren binnen grote tool-ecosystemen moeten workflows met een lange horizon plannen en uitvoeren onder zwakke of niet-verifieerbare supervisie. Hoewel frontier-modellen deze uitdagingen mitigeren door schaal en grote contextbudgetten, blijven kleine taalmodellen (SLM's) broos: gretig laden van tools verzadigt de context, uitvoeringsfouten stapelen zich op en schaarse beloningen beperken het leerproces. Wij introduceren ATLAS, een reinforcement finetuning-framework dat SLM's in staat stelt effectief te opereren in grootschalige toolspace-omgevingen door te leren hoe ze context moeten verwerven en acties moeten uitvoeren. Onze aanpak levert twee belangrijke bijdragen. Ten eerste behandelen we contextcontrole en uitvoeringsstructuur als leerbare beslissingen, waarbij we iteratief tool-laden combineren met programmatische tool-orchestratie om de contextgroei te begrenzen en trajecten met een lange horizon te stabiliseren. Ten tweede stellen we rubriekgebaseerde reinforcement finetuning voor, die tasksucces decomposeert in gestructureerde, task-uitgelijnde criteria en schaalbare training mogelijk maakt met behulp van kleine beoordelaarsmodellen. Op MCP-benchmarks leveren deze ontwerpkeuzes grote en consistente winsten op ten opzichte van generieke RL-baselines, waardoor een 4B-SLM de prestaties van frontier-agenten kan benaderen met aanzienlijk strengere parameter- en contextbudgetten.

Schaalruimtediffusie
Scale Space Diffusion

Mar 9

BySoumik Mukhopadhyay, Prateksha Udhayanan, Abhinav Shrivastava

Diffusiemodellen degraderen beelden door ruis toe te voegen, en het omkeren van dit proces onthult een informatiehiërarchie over de tijdstappen heen. De schaalruimtetheorie vertoont een vergelijkbare hiërarchie via laagdoorlaatfiltering. Wij formaliseren dit verband en tonen aan dat sterk verruiste diffusietoestanden niet meer informatie bevatten dan kleine, omlaag geschaalde beelden - wat de vraag oproept waarom ze op volledige resolutie verwerkt moeten worden. Om dit aan te pakken, integreren we schaalruimten in het diffusieproces door een familie van diffusiemodellen te formuleren met gegeneraliseerde lineaire degradaties en praktische implementaties. Het gebruik van downsampling als degradatie levert onze voorgestelde Scale Space Diffusion op. Om Scale Space Diffusion te ondersteunen, introduceren we Flexi-UNet, een UNet-variant die resolutiebehoudende en resolutieverhogende denoising uitvoert met alleen de noodzakelijke delen van het netwerk. We evalueren ons framework op CelebA en ImageNet en analyseren de schaalbaarheid over verschillende resoluties en netwerkdieptes. Onze projectwebsite ( https://prateksha.github.io/projects/scale-space-diffusion/ ) is openbaar beschikbaar.

PIRA-Bench: De transitie van reactieve GUI-agenten naar proactieve intentie-aanbevelingsagenten op basis van GUI's
PIRA-Bench: A Transition from Reactive GUI Agents to GUI-based Proactive Intent Recommendation Agents

Mar 9

ByYuxiang Chai, Shunye Tang, Han Xiao, Rui Liu, Hongsheng Li

Huidige grafische gebruikersinterface (GUI)-agenten opereren voornamelijk volgens een reactief paradigma: een gebruiker moet een expliciete instructie verstrekken om een taak uit te voeren. Een intelligente AI-assistent zou echter proactief moeten zijn, in staat om gebruikersintenties direct te anticiperen op basis van continue visuele invoer, zoals schermafbeeldingen van mobiele apparaten of desktops, en tijdige aanbevelingen te doen zonder expliciete aanwijzingen van de gebruiker. De overgang naar dit proactieve paradigma brengt aanzienlijke uitdagingen met zich mee. Schermactiviteit in de echte wereld is zelden lineair; het bestaat uit trajecten met een lange tijdshorizon vol ruisvol surfgedrag, betekenisloze acties en multithreaded taakwisselingen. Om deze kloof te dichten, introduceren we PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), een nieuwe benchmark voor het evalueren van multimodale grote taalmodellen (MLLM's) op continue, zwak-gesuperviseerde visuele invoer. In tegenstelling tot reactieve datasets kenmerkt PIRA-Bench zich door complexe trajecten met meerdere verweven intenties en ruisvolle segmenten met diverse gebruikersprofielcontexten, wat agenten uitdaagt om actiegerichte gebeurtenissen te detecteren terwijl ze zich aanpassen aan gebruikersvoorkeuren. Verder stellen we de PIRF-basislijn voor, een geheugenbewust, statusvolgend framework dat algemene MLLM's in staat stelt om meerdere taakthreads te beheren en misleidende visuele invoer te verwerken. PIRA-Bench dient als een eerste stap naar robuuste en proactieve GUI-gebaseerde persoonlijke assistenten.

Trainingsvrije Latente Inter-Frame Pruning met Aandachtsherstel
Training-free Latent Inter-Frame Pruning with Attention Recovery

Mar 6

ByDennis Menn, Yuedong Yang, Bokun Wang, Xiwen Wei, Mustafa Munir, Feng Liang, Radu Marculescu, Chenfeng Xu, Diana Marculescu

Huidige videogeneratiemodellen kampen met een hoge computationele latentie, waardoor realtime-toepassingen buitensporig kostbaar zijn. In dit artikel pakken we deze beperking aan door gebruik te maken van de temporele redundantie die inherent is aan latente videopatches. Hiertoe stellen we het Latent Inter-frame Pruning with Attention Recovery (LIPAR)-raamwerk voor, dat gedupliceerde latente patches detecteert en het opnieuw berekenen ervan overslaat. Daarnaast introduceren we een nieuwe Attention Recovery-mechanisme dat de aandachtswaarden van weggelaten tokens benadert, waardoor visuele artefacten worden verwijderd die ontstaan bij een naïeve toepassing van de pruning-methode. Empirisch verhoogt onze methode de doorvoer van videobewerking met een factor 1,45, met een gemiddelde prestatie van 12,2 FPS op een NVIDIA A6000 vergeleken met de baseline van 8,4 FPS. De voorgestelde methode gaat niet ten koste van de generatiekwaliteit en kan naadloos worden geïntegreerd in het model zonder extra training. Onze aanpak overbrugt effectief de kloof tussen traditionele compressie-algoritmen en moderne generatieve pijplijnen.

Agentische Kritische Training
Agentic Critical Training

Mar 9

ByWeize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang

Het trainen van grote taalmodellen (LLM's) als autonome agenten begint vaak met imitatieleren, maar dit leert agenten alleen wat ze moeten doen zonder het waarom te begrijpen: agenten vergelijken succesvolle acties nooit met suboptimale alternatieven en missen daardoor besef van actiekwaliteit. Recente benaderingen proberen dit op te lossen door zelfreflectie-supervisie toe te voegen, afgeleid van contrasten tussen expert- en alternatieve acties. Het trainingsparadigma blijft echter fundamenteel imitatieleren: het model imiteert vooraf geconstrueerde reflectietekst in plaats van autonoom te leren redeneren. Wij stellen Agentic Critical Training (ACT) voor, een reinforcement learning-paradigma dat agenten traint om de beste actie tussen alternatieven te identificeren. Door te belonen of de beoordeling van het model correct is, stimuleert ACT het model om autonoom redeneren over actiekwaliteit te ontwikkelen, wat echte zelfreflectie oplevert in plaats van imitatie. Op drie uitdagende agentbenchmarks verbetert ACT consequent de agentprestaties in combinatie met verschillende post-trainingsmethoden. Het behaalt een gemiddelde verbetering van 5,07 punten ten opzichte van imitatieleren en 4,62 punten ten opzichte van reinforcement learning. Vergeleken met benaderingen die reflectievermogen injecteren via knowledge distillation, toont ACT ook duidelijke voordelen, met een gemiddelde verbetering van 2,42 punten. Bovendien maakt ACT sterke generalisatie buiten de verdeling mogelijk op agentbenchmarks en verbetert het de prestaties op algemene redeneerbenchmarks zonder specifieke trainingsdata voor redeneren, wat de waarde van onze methode onderstreept. Deze resultaten suggereren dat ACT een veelbelovende weg is naar de ontwikkeling van meer reflectieve en capabele LLM-agenten.

Het Ontsluiten van Datawaarde in de Financiële Sector: Een Onderzoek naar Distillatie en Moeilijkheidsbewuste Training
Unlocking Data Value in Finance: A Study on Distillation and Difficulty-Aware Training

Mar 7

ByChuxue Cao, Honglin Lin, Zhanping Zhong, Xin Gao, Mengzhang Cai, Conghui He, Sirui Han, Lijun Wu

Grote Taalmodellen (LLM's) hebben sterke algemene capaciteiten getoond, maar hun inzet in de financiële sector blijft uitdagend vanwege de dichte domeinspecifieke terminologie, strenge eisen voor numeriek redeneren en een lage tolerantie voor feitelijke fouten. Wij voeren een gecontroleerde empirische studie uit waaruit blijkt dat in gespecialiseerde verticale domeinen de prestaties grotendeels worden bepaald door de kwaliteit en het moeilijkheids-/verifieerbaarheidsprofiel van post-trainingdata. Wij introduceren ODA-Fin-SFT-318k, geconstrueerd via multi-stapsdistillatie en -verificatie om hoogwaardige Chain-of-Thought-supervisie te produceren, en ODA-Fin-RL-12k, samengesteld voor moeilijke maar verifieerbare taken die beloningsprecisie en taakdiversiteit in evenwicht brengen. Met behulp van standaard SFT- en RL-pipelines tonen wij aan dat hoogwaardige CoT-distillatie een robuuste basis legt tijdens SFT, terwijl moeilijkheids- en verifieerbaarheidsbewuste steekproefvorming de RL-generaliseerbaarheid verbetert. Geëvalueerd op negen benchmarks voor algemene financiële taken, sentimentanalyse en numeriek redeneren, overtreft onze ODA-Fin-RL-8B consistent open-source state-of-the-art (SOTA) financiële LLM's van vergelijkbare grootte. Wij maken onze ODA-Fin-SFT-318k- en ODA-Fin-RL-12k-datasets, samen met getrainde modellen, openbaar om data-gedreven financieel AI-onderzoek te bevorderen.

TDM-R1: Versterking van Few-Step Diffusiemodellen met Niet-Differentieerbare Beloning
TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Mar 8

ByYihong Luo, Tianyang Hu, Weijian Luo, Jing Tang

Hoewel generatieve modellen met weinig stappen krachtige beeld- en videogeneratie tegen aanzienlijk lagere kosten mogelijk hebben gemaakt, blijven generieke paradigma's voor reinforcement learning (RL) voor modellen met weinig stappen een onopgelost probleem. Bestaande RL-benaderingen voor diffusiemodellen met weinig stappen zijn sterk afhankelijk van backpropagatie door differentieerbare beloningsmodellen, waardoor de meerderheid van belangrijke beloningssignalen uit de echte wereld wordt uitgesloten, zoals niet-differentieerbare beloningen zoals binaire voorkeuren van mensen, objectaantallen, enz. Om niet-differentieerbare beloningen correct te integreren om generatieve modellen met weinig stappen te verbeteren, introduceren we TDM-R1, een nieuw reinforcement learning-paradigma gebaseerd op een toonaangevend model met weinig stappen, Trajectory Distribution Matching (TDM). TDM-R1 ontkoppelt het leerproces in surrogaatbeloningsleren en generatorleren. Verder ontwikkelden we praktische methoden om per-stap beloningssignalen langs het deterministische generatietraject van TDM te verkrijgen, wat resulteert in een uniforme RL-natrainingsmethode die het vermogen van modellen met weinig stappen aanzienlijk verbetert met generieke beloningen. We voeren uitgebreide experimenten uit variërend van tekstweergave, visuele kwaliteit en voorkeursafstemming. Alle resultaten tonen aan dat TDM-R1 een krachtig reinforcement learning-paradigma is voor tekst-naar-beeldmodellen met weinig stappen, dat state-of-the-art reinforcement learning-prestaties behaalt op zowel in-domein als out-of-domein metrieken. Bovendien schaalt TDM-R1 effectief naar het recente sterke Z-Image-model en presteert het consistent beter dan zowel de 100-NFE- als de weinig-stappen varianten met slechts 4 NFE's. Projectpagina: https://github.com/Luo-Yihong/TDM-R1

Concept-Gestuurde Fine-Tuning: Het Sturen van ViTs Weg van Valse Correlaties om Robuustheid te Verbeteren
Concept-Guided Fine-Tuning: Steering ViTs away from Spurious Correlations to Improve Robustness

Mar 9

ByYehonatan Elisha, Oren Barkan, Noam Koenigstein

Vision Transformers (ViTs) vertonen vaak prestatieverlies bij distributieverschuivingen omdat ze vertrouwen op valse correlaties, zoals achtergrondkenmerken, in plaats van semantisch betekenisvolle kenmerken. Bestaande regularisatiemethoden, die doorgaans gebruikmaken van eenvoudige voor- en achtergrondmaskers, slagen er niet in om de fijnmazige semantische concepten vast te leggen die een object definiëren (bijvoorbeeld "lange snavel" en "vleugels" voor een "vogel"). Hierdoor bieden deze methoden beperkte robuustheid tegen distributieverschuivingen. Om deze beperking aan te pakken, introduceren we een nieuw finetuning-framework dat modelredenering stuurt naar semantiek op conceptniveau. Onze aanpak optimaliseert de interne relevantiekaarten van het model om deze af te stemmen op ruimtelijk verankerde conceptmaskers. Deze maskers worden automatisch gegenereerd, zonder handmatige annotatie: klasse-relevante concepten worden eerst voorgesteld met behulp van een LLM-gebaseerde, labelvrije methode, en vervolgens gesegmenteerd met een VLM. Het finetuning-doel streeft naar afstemming van de relevantie met deze conceptregio's, terwijl tegelijkertijd de focus op valse achtergrondgebieden wordt onderdrukt. Opmerkelijk is dat dit proces slechts een minimale set afbeeldingen vereist en de helft van de datasetklassen gebruikt. Uitgebreide experimenten op vijf out-of-distribution benchmarks tonen aan dat onze methode de robuustheid verbetert voor meerdere ViT-gebaseerde modellen. Verder laten we zien dat de resulterende relevantiekaarten een sterkere afstemming vertonen met semantische objectonderdelen, wat een schaalbare weg biedt naar robuustere en interpreteerbare vision-modellen. Tot slot bevestigen we dat door concepten gestuurde maskers effectievere supervisie bieden voor modelrobuustheid dan conventionele segmentatiekaarten, wat onze centrale hypothese ondersteunt.

Van smal naar panoramisch perspectief: aandachtgestuurde cold-start hervormt multimodale redenering
From Narrow to Panoramic Vision: Attention-Guided Cold-Start Reshapes Multimodal Reasoning

Mar 4

ByRuilin Luo, Chufan Shi, Yizhen Zhang, Cheng Yang, Songtao Jiang, Tongkun Guan, Ruizhe Chen, Ruihang Chu, Peng Wang, Mingkun Yang, Yujiu Yang, Junyang Lin, Zhibo Yang

De koustart-initialisatiefase speelt een cruciale rol bij het trainen van Multimodale Grote Redeneermodellen (MLRM's), maar de onderliggende mechanismen zijn nog onvoldoende begrepen. Om deze fase te analyseren, introduceren we de Visuele Aandachtsscore (VAS), een op aandacht gebaseerde metriek die kwantificeert hoeveel een model zich op visuele tokens richt. Wij ontdekken dat redeneerprestaties sterk gecorreleerd zijn met VAS (r=0,9616): modellen met een hogere VAS bereiken aanzienlijk sterkere multimodale redeneervaardigheden. Verrassend genoeg slaagt een multimodale koustart er niet in de VAS te verhogen, wat resulteert in aandachtsverdelingen die dicht bij die van het basismodel liggen, terwijl een uitsluitend tekstuele koustart wel tot een duidelijke toename leidt. Wij duiden dit contra-intuïtieve fenomeen aan als Lui Aandachtslocalisatie. Om de causale rol ervan te valideren, ontwerpen we training-vrije interventies die direct de aandachtsallocatie tijdens inferentie moduleren, wat prestatieverbeteringen van 1-2% oplevert zonder enige hertraining. Voortbordurend op deze inzichten stellen we verder Aandacht-Gestuurd Visueel Verankeren en Reflectie (AVAR) voor, een uitgebreid koustart-raamwerk dat visueel-verankerde datasynthese, aandacht-gestuurde doelen en visueel-verankerde beloningsvorming integreert. Toegepast op Qwen2.5-VL-7B behaalt AVAR een gemiddelde winst van 7,0% over 7 multimodale redeneerbenchmarks. Ablatiestudies bevestigen verder dat elke component van AVAR stapsgewijs bijdraagt aan de algehele winst. De code, data en modellen zijn beschikbaar op https://github.com/lrlbbzl/Qwen-AVAR.

PureCC: Zuiver Leren voor Tekst-naar-Beeld Conceptaanpassing
PureCC: Pure Learning for Text-to-Image Concept Customization

Mar 8

ByZhichao Liao, Xiaole Xian, Qingyu Li, Wenyu Qin, Meng Wang, Weicheng Xie, Siyang Song, Pingfa Feng, Long Zeng, Liang Pan

Bestaande conceptaanpassingsmethoden hebben opmerkelijke resultaten behaald in hoogwaardige en multi-concept aanpassing. Echter, ze negeren vaak de invloed op het oorspronkelijke gedrag en de capaciteiten van het model bij het aanleren van nieuwe gepersonaliseerde concepten. Om dit probleem aan te pakken, stellen wij PureCC voor. PureCC introduceert een nieuw ontkoppeld leerdoel voor conceptaanpassing, dat de impliciete begeleiding van het doelconcept combineert met de oorspronkelijke conditionele voorspelling. Deze gescheiden vorm stelt PureCC in staat om zich tijdens de training substantieel te concentreren op het oorspronkelijke model. Bovendien ontwerpt PureCC op basis van dit doel een dual-branch trainingspijplijn die een bevroren extractor omvat die gezuiverde doelconceptrepresentaties levert als impliciete begeleiding en een trainbaar flow-model dat de oorspronkelijke conditionele voorspelling produceert, gezamenlijk zuiver leren voor gepersonaliseerde concepten bereikend. Verder introduceert PureCC een nieuwe adaptieve begeleidingsschaal λ^star om de begeleidingssterkte van het doelconcept dynamisch aan te passen, waardoor aanpassingsgetrouwheid en modelbehoud in balans worden gebracht. Uitgebreide experimenten tonen aan dat PureCC state-of-the-art prestaties bereikt in het behouden van het oorspronkelijke gedrag en de capaciteiten, terwijl het hoogwaardige conceptaanpassing mogelijk maakt. De code is beschikbaar op https://github.com/lzc-sg/PureCC.

Het ontwikkelen van AI-codeeragentschappen voor de terminal: Steigers, harnas, contextengineering en geleerde lessen
Building AI Coding Agents for the Terminal: Scaffolding, Harness, Context Engineering, and Lessons Learned

Mar 5

ByNghi D. Q. Bui

Het landschap van AI-codeerassistentie ondergaat een fundamentele verschuiving van complexe IDE-plugins naar veelzijdige, terminal-native agents. Door rechtstreeks te opereren waar ontwikkelaars broncodebeheer uitvoeren, builds draaien en omgevingen deployen, bieden CLI-gebaseerde agents een ongekende autonomie voor langetermijn-ontwikkelingstaken. In dit artikel presenteren we OPENDEV, een open-source, command-line codeeragent die specifiek is ontwikkeld voor dit nieuwe paradigma. Effectieve autonome assistentie vereist strikte veiligheidscontroles en uiterst efficiënte contextmanagement om contextvervuiling en redeneervermindering te voorkomen. OPENDEV overwint deze uitdagingen door een samengesteld AI-systeemarchitectuur met workload-gespecialiseerde modelroutering, een dual-agentarchitectuur die planning scheidt van uitvoering, lazy tool discovery en adaptieve contextcompressie die oudere observaties progressief reduceert. Verder gebruikt het een geautomatiseerd geheugensysteem om projectspecifieke kennis over sessies heen op te bouwen en gaat het instructievervaging tegen door middel van gebeurtenisgestuurde systeemherinneringen. Door expliciete redeneringsfasen af te dwingen en context efficiëntie te prioriteren, biedt OPENDEV een veilige, uitbreidbare basis voor terminal-first AI-assistentie, en presenteert het een blauwdruk voor robuuste autonome software-engineering.

CaTok: Het Temmen van Gemiddelde Stromen voor Eén-Dimensionale Causale Beeldtokenisatie
CaTok: Taming Mean Flows for One-Dimensional Causal Image Tokenization

Mar 6

ByYitong Chen, Zuxuan Wu, Xipeng Qiu, Yu-Gang Jiang

Autoregressieve (AR) taalmodelen steunen op causale tokenisatie, maar het uitbreiden van dit paradigma naar visie blijft niet-triviaal. Huidige visuele tokenizers vouwen ofwel 2D-patches uit tot niet-causale reeksen, of leggen heuristische ordeningen op die niet in lijn liggen met het "volgende-token-voorspellingspatroon". Recente diffusie-auto-encoders schieten eveneens tekort: conditionering van de decoder op alle tokens mist causaliteit, terwijl het toepassen van een genest drop-out-mechanisme onevenwicht introduceert. Om deze uitdagingen aan te pakken, presenteren wij CaTok, een 1D causale beeldtokenizer met een MeanFlow-decoder. Door tokens te selecteren over tijdsintervallen en ze te binden aan het MeanFlow-doel, zoals geïllustreerd in Fig. 1, leert CaTok causale 1D-representaties die zowel snelle één-staps-generatie als hoogwaardige meerstaps-bemonstering ondersteunen, terwijl tegelijkertijd diverse visuele concepten natuurlijk worden vastgelegd over de tokenintervallen. Om de training verder te stabiliseren en te versnellen, stellen wij een eenvoudige regularisatie REPA-A voor, die encoderkenmerken afstemt op Vision Foundation Models (VFM's). Experimenten tonen aan dat CaTok state-of-the-art resultaten behaalt voor ImageNet-reconstructie, met een FID van 0.75, een PSNR van 22.53 en een SSIM van 0.674 bij minder trainingsepochs, en dat het AR-model prestaties bereikt die vergelijkbaar zijn met toonaangevende benaderingen.

NaviDriveVLM: Ontkoppeling van Hoogwaardige Redenering en Bewegingsplanning voor Autonoom Rijden
NaviDriveVLM: Decoupling High-Level Reasoning and Motion Planning for Autonomous Driving

Mar 9

ByXimeng Tao, Pardis Taghavi, Dimitar Filev, Reza Langari, Gaurav Pandey

Vision-language models (VLMs) zijn naar voren gekomen als een veelbelovende richting voor end-to-end autonoom rijden (AD) door visuele observaties, rijcontext en op taal gebaseerd redeneren gezamenlijk te modelleren. Bestaande op VLM gebaseerde systemen kampen echter met een afweging tussen hoogwaardig redeneren en motion planning: grote modellen bieden sterk semantisch begrip maar zijn kostbaar aan te passen voor precieze controle, terwijl kleine VLM-modellen efficiënt gefinetuned kunnen worden maar vaak zwakker redeneren vertonen. Wij stellen NaviDriveVLM voor, een ontkoppeld framework dat redeneren scheidt van actiegeneratie met behulp van een grootschalige Navigator en een lichtgewicht, trainbare Driver. Dit ontwerp behoudt redeneervermogen, verlaagt de trainingskosten en biedt een expliciete, interpreteerbare tussenrepresentatie voor downstream planning. Experimenten op de nuScenes-benchmark tonen aan dat NaviDriveVLM grote VLM-baselines overtreft in end-to-end motion planning.

FVG-PT: Adaptieve Voorgrondzicht-Gestuurde Promptafstemming voor Visueel-Taalmodellen
FVG-PT: Adaptive Foreground View-Guided Prompt Tuning for Vision-Language Models

Mar 9

ByHaoyang Li, Liang Wang, Siyu Zhou, Jiacheng Sun, Jing Jiang, Chao Wang, Guodong Long, Yan Peng

CLIP-gebaseerde prompt-tuning stelt vooraf getrainde Vision-Language Models (VLM's) in staat om zich efficiënt aan te passen aan downstreamtaken. Hoewel bestaande studies aanzienlijke vooruitgang hebben geboekt, besteden zij beperkte aandacht aan veranderingen in de interne aandachtrepresentaties van VLM's tijdens het tuningproces. In dit artikel wijten we de faalmodi van prompt-tuningvoorspellingen aan verschuivingen in de voorgrondaandacht van de visuele encoder, en stellen we Foreground View-Guided Prompt Tuning (FVG-PT) voor, een adaptieve plug-and-play voorgrondaandachtsturingsmodule, om deze verschuivingen te verlichten. Concreet introduceert FVG-PT een leerbare Foreground Reliability Gate om automatisch de kwaliteit van het voorgrondbeeld te verbeteren, past het een Foreground Distillation Compensation-module toe om de visuele aandacht naar de voorgrond te sturen, en introduceert het verder een Prior Calibration-module om generalisatiedegradatie veroorzaakt door overmatige focus op de voorgrond te verminderen. Experimenten met meerdere backbone-modellen en datasets tonen de effectiviteit en compatibiliteit van FVG-PT aan. Code is beschikbaar op: https://github.com/JREion/FVG-PT

Schaalbaarheid van Datamoeilijkheid: Verbetering van Coderingsmodellen via Reinforcement Learning op Nieuwe en Uitdagende Problemen
Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Mar 8

ByZongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei

Het trainen van code-generatiemodellen voor de volgende generatie vereist hoogwaardige datasets, maar bestaande datasets kampen met moeilijkheidsongelijkheid, formaatinconsistentie en datakwaliteitsproblemen. Wij pakken deze uitdagingen aan via systematische gegevensverwerking en moeilijkheidsschaling. Wij introduceren een Dataverwerkingskader in vier fasen dat verzameling, verwerking, filtering en verificatie omvat, waarbij Automatische Moeilijkheidsfiltering wordt geïntegreerd via een op LLM gebaseerd predict-calibrate-select raamwerk. Dit raamwerk benut multidimensionele moeilijkheidsmetrieken over vijf gewogen dimensies om uitdagende problemen te behouden en simplistische te verwijderen. De resulterende MicroCoder-dataset omvat tienduizenden gecureerde echte competitieve programmeerproblemen van diverse platformen, met nadruk op actualiteit en moeilijkheidsgraad. Evaluaties op strikt onbekende LiveCodeBench tonen aan dat MicroCoder 3x grotere prestatieverbeteringen bereikt binnen 300 trainingsstappen vergeleken met veelgebruikte baseline-datasets van vergelijkbare omvang, met consistente voordelen onder zowel GRPO als variant-trainingsalgoritmen. De MicroCoder-dataset levert duidelijke verbeteringen op voor medium- en moeilijke problemen across verschillende modelgroottes, met relatieve winsten tot 17,2% in algehele prestaties waar modelcapaciteiten het meest worden belast. Deze resultaten valideren dat moeilijkheidsbewuste datacuratie de modelprestaties op uitdagende taken verbetert, en biedt meerdere inzichten voor datasetcreatie in codegeneratie.

Trainingsknelpunten doorbreken: Effectief en stabiel reinforcement learning voor coderingsmodellen
Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Mar 8

ByZongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei

Moderne codegeneratiemodellen vertonen langere outputs, versnelde capaciteitsgroei en gewijzigde trainingsdynamiek, waardoor traditionele trainingsmethodologieën, algoritmen en datasets niet langer effectief zijn voor het verbeteren van hun prestaties. Om deze trainingsknelpunten aan te pakken, stellen we MicroCoder-GRPO voor, een verbeterde Group Relative Policy Optimization-benadering met drie innovaties: conditionele truncatie-masking om het potentieel voor lange outputs te verbeteren met behoud van trainingsstabiliteit, diversiteit-gestuurde temperatuurselectie om outputdiversiteit te behouden en te stimuleren, en verwijdering van KL-verlies met hoge clipping-ratio's om oplossingsdiversiteit te vergemakkelijken. MicroCoder-GRPO behaalt tot 17,6% relatieve verbetering ten opzichte van sterke baseline-modellen op LiveCodeBench v6, met meer uitgesproken winst onder extended context-evaluatie. Daarnaast lanceren we MicroCoder-Dataset, een uitdagendere trainingscorpus die binnen 300 trainingsstappen een 3x grotere prestatieverbetering bereikt dan mainstream datasets op LiveCodeBench v6, en MicroCoder-Evaluator, een robuust raamwerk met ongeveer 25% verbeterde evaluatienauwkeurigheid en circa 40% snellere uitvoering. Door middel van uitgebreide analyse over meer dan dertig gecontroleerde experimenten onthullen we 34 trainingsinzichten over zeven hoofdaspecten, waarmee we aantonen dat goed getrainde modellen competitieve prestaties kunnen bereiken in vergelijking met grotere tegenhangers.

Sparse-BitNet: 1.58-bit LLM's zijn van nature geschikt voor semi-gestructureerde sparsiteit
Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Mar 5

ByDi Zhang, Xun Wu, Shaohan Huang, Yudong Wang, Hanyong Shao, Yingbo Hao, Zewen Chi, Li Dong, Ting Song, Yan Xia, Zhifang Sui, Furu Wei

Halfgestructureerde N:M-sparsiteit en kwantisatie met weinig bits (zoals 1.58-bit BitNet) zijn twee veelbelovende benaderingen om de efficiëntie van grote taalmmodellen (LLM's) te verbeteren, maar ze zijn tot nu toe grotendeels afzonderlijk bestudeerd. In dit werk onderzoeken we hun interactie en tonen we aan dat 1.58-bit BitNet van nature compatibeler is met N:M-sparsiteit dan modellen met volledige precisie. Om dit effect te bestuderen, stellen we Sparse-BitNet voor, een uniform raamwerk dat voor het eerst gezamenlijk 1.58-bit-kwantisatie en dynamische N:M-sparsificatie toepast, waarbij een stabiele training wordt gegarandeerd. Over verschillende modelschalen en trainingsregimes (sparse pretraining en dense-to-sparse schema's) heen vertoont 1.58-bit BitNet consistent een kleinere prestatievermindering dan de basislijnen met volledige precisie bij dezelfde sparsiteitsniveaus, en kan het een hogere gestructureerde sparsiteit verdragen voordat de nauwkeurigheid ineenstort. Bovendien behaalt Sparse-BitNet, door gebruik te maken van onze aangepaste sparse tensor core, aanzienlijke snelheidswinsten in zowel training als inferentie, tot wel 1.30X. Deze resultaten benadrukken dat het combineren van extreem lage-bit-kwantisatie met halfgestructureerde N:M-sparsiteit een veelbelovende richting is voor efficiënte LLM's. Code beschikbaar op https://github.com/AAzdi/Sparse-BitNet

CAST: Modelleren van Visuele Toestandsovergangen voor Consistente Videoretrieval
CAST: Modeling Visual State Transitions for Consistent Video Retrieval

Mar 9

ByYanqing Liu, Yingcheng Liu, Fanghong Dong, Budianto Budianto, Cihang Xie, Yan Jiao

Naarmate de videocontentcreatie verschuift naar langere verhalende formats, wordt het samenstellen van korte clips tot samenhangende verhaallijnen steeds belangrijker. De heersende retrievalformuleringen blijven echter context-onafhankelijk tijdens inferentie, waarbij ze lokale semantische afstemming prioriteren ten koste van consistentie in toestand en identiteit. Om deze structurele beperking aan te pakken, formaliseren we de taak van Consistente Video Retrieval (CVR) en introduceren we een diagnostische benchmark die YouCook2, COIN en CrossTask omvat. Wij stellen CAST (Context-Aware State Transition) voor, een lichtgewicht, plug-and-play adapter die compatibel is met diverse bevroren vision-language embeddingruimten. Door een toestandsgeconditioneerde residu-update (Δ) te voorspellen uit de visuele geschiedenis, introduceert CAST een expliciete inductieve bias voor latente toestandsevolutie. Uitgebreide experimenten tonen aan dat CAST de prestaties op YouCook2 en CrossTask verbetert, competitief blijft op COIN en consistent beter presteert dan zero-shot baselines over diverse foundation backbones. Bovendien biedt CAST een nuttig herrangeringssignaal voor black-box videogeneratiekandidaten (bijvoorbeeld van Veo), wat temporeel coherentere vervolgen bevordert.

Sla de saaie stukken over: Representatiestructuur en het overslaan van lagen tijdens inferentie in Diffusion vs. Autoregressieve LLM's
Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Mar 8

ByRaghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli

Autoregressieve (AR) taalmodellen vormen representaties incrementeel via links-naar-rechtsvoorspelling, terwijl diffusietaalmodellen (dLLM's) worden getraind via volledige-sequentie-denoising. Hoewel recente dLLM's de AR-prestaties evenaren, is het nog onduidelijk of diffusiedoelstellingen de interne representaties fundamenteel hervormen over de diepte heen. Wij voeren de eerste laag- en tokengewijze representatieanalyse uit, waarbij we native dLLM's (LLaDA), native AR-modellen (Qwen2.5) en AR-geïnitialiseerde dLLM's (Dream-7B) vergelijken. Wij constateren dat diffusiedoelstellingen leiden tot andere, meer hiërarchische abstracties met aanzienlijke redundantie in de vroege lagen en verminderde recency bias, terwijl AR-doelstellingen sterk gekoppelde, diepte-afhankelijke representaties produceren. Cruciaal is dat AR-geïnitialiseerde dLLM's AR-achtige representatiedynamiek behouden ondanks diffusietraining, wat een hardnekkige initialisatiebias onthult. Gebruikmakend van deze waargenomen representatieredundantie, introduceren we een statische, taakonafhankelijke laagoverslaanmethode tijdens inferentie, waarvoor geen architectuurwijzigingen of KV-cache-deling nodig zijn. Native dLLM's bereiken een FLOPs-reductie tot 18,75% terwijl ze meer dan 90% van hun prestaties behouden op redeneer- en codeergeneratiebenchmarks, terwijl AR-modellen sterk achteruitgaan onder vergelijkbaar overslaan. Deze resultaten koppelen trainingsdoelstellingen aan representatiestructuur en maken praktische, cache-orthogonale efficiëntiewinsten mogelijk.

OfficeQA Pro: Een Ondernemingsbenchmark voor End-to-End Gegronde Redenering
OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Mar 9

ByKrista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen

Wij introduceren OfficeQA Pro, een benchmark voor het evalueren van AI-agenten op gegronde, multi-document redeneervaardigheden over een grote en heterogene documentencollectie. De collectie bestaat uit U.S. Treasury Bulletins die bijna 100 jaar beslaan, bestaande uit 89.000 pagina's en meer dan 26 miljoen numerieke waarden. OfficeQA Pro omvat 133 vragen die nauwkeurige documentparsing, retrieval en analytisch redeneren vereisen over zowel ongestructureerde tekst als tabelgegevens. Toonaangevende grote taalmodellen (LLM's), waaronder Claude Opus 4.6, GPT-5.4 en Gemini 3.1 Pro Preview, behalen een nauwkeurigheid van minder dan 5% op OfficeQA Pro wanneer zij vertrouwen op parametrische kennis, en minder dan 12% met aanvullende toegang tot het web. Zelfs wanneer zij rechtstreeks toegang krijgen tot de documentencollectie, hebben toonaangevende agenten nog steeds moeite met meer dan de helft van de vragen en scoren zij gemiddeld 34,1%. Wij constateren dat het verstrekken van een gestructureerde documentrepresentatie, gegenereerd door Databricks' ai_parse_document, een gemiddelde relatieve prestatieverbetering van 16,1% oplevert across agenten. Wij voeren aanvullende ablatiestudies uit om de effecten te onderzoeken van modelselectie, tabelrepresentatie, retrievalstrategie en test-time scaling op de prestaties. Ondanks deze verbeteringen blijft er een aanzienlijke marge over voordat agenten als betrouwbaar kunnen worden beschouwd voor gegronde redeneertaken op ondernemingsniveau.

Agentisch Plannen met Redeneren voor Beeldstylering via Offline RL
Agentic Planning with Reasoning for Image Styling via Offline RL

Mar 7

BySubhojyoti Mukherjee, Stefano Petrangeli, Branislav Kveton, Trung Bui, Franck Dernoncourt, Arko Mukherjee

Directe prompt-gebaseerde beeldbewerking faalt vaak bij complexe transformaties omdat vage en subjectieve prompts een genuanceerd begrip vereisen van wat er in de afbeelding moet worden gewijzigd. Onze kernintuïtie is dat het gebruik van compositionele beeldbewerkingsinstrumenten in plaats van directe prompting profiteert van gestructureerde planning op agentniveau met expliciete redenering, wat tot betere resultaten leidt. Dit gestructureerde planningsraamwerk maakt efficiënte offline RL-natraining mogelijk op kwaliteit-gescoorde trajecten om de prestaties te verbeteren. Wij presenteren een op instrumenten gebaseerd agentief RL-natrainingsraamwerk dat dit aanpakt via gestructureerde planning met chain-of-thought redenering. Onze belangrijkste bijdragen omvatten: (1) Een op instrumenten gebaseerde agentieve planningsmethodologie die een compositionele bibliotheek van orthogonale primitieve transformaties, gestructureerde contextrepresentatie en expliciete redenering per stap combineert om complexe stijling te decomponeren in interpreteerbare instrumentensequenties. (2) Een pijplijn voor synthetische datageneratie die drie grootschalige datasets produceert (elk simuleert 10K trajecten) met redeneerketens, plannen en kwaliteitsscores, aangezien bestaande datasets dergelijke supervisie niet bieden. Onze datasets en code zijn openbaar beschikbaar in de HuggingFace-repository. (3) Offline RL-trainingsmethoden voor het aanleren van planners met redenering als onze kern algoritmische bijdragen, die consistent verbeteren ten opzichte van de Edit-Only-basislijn in visuele kwaliteit en instructievolging. (4) Uitgebreide evaluatie over Qwen3-VL-modellen met 4B en 8B parameters, die aantoont dat onze methoden de meeste andere basislijnen overtreffen bij de meerderheid van de compositionele taken, gevalideerd door humane evaluaties.

LiveWorld: Het simuleren van onzichtbare dynamiek in generatieve videowereldmodellen
LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Mar 7

ByZicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu

Recente generatieve videowereldmodellen streven ernaar de evolutie van visuele omgevingen te simuleren, waardoor een waarnemer de scène interactief kan verkennen via camerabesturing. Ze gaan er echter impliciet van uit dat de wereld alleen evolueert binnen het gezichtsveld van de waarnemer. Zodra een object het blikveld verlaat, wordt zijn toestand "bevroren" in het geheugen, en het later opnieuw bezoeken van dezelfde regio weerspiegelt vaak niet de gebeurtenissen die in de tussentijd hadden moeten plaatsvinden. In dit werk identificeren en formaliseren we deze over het hoofd gezien beperking als het "out-of-sight dynamics"-probleem, dat videowereldmodellen verhindert een continu evoluerende wereld te representeren. Om dit probleem aan te pakken, stellen we LiveWorld voor, een nieuw raamwerk dat videowereldmodellen uitbreidt om persistente wereldevolutie te ondersteunen. In plaats van de wereld te behandelen als statisch observationeel geheugen, modelleert LiveWorld een persistente globale toestand bestaande uit een statische 3D-achtergrond en dynamische entiteiten die blijven evolueren, zelfs wanneer ze niet worden waargenomen. Om deze onzichtbare dynamiek te handhaven, introduceert LiveWorld een op monitors gebaseerd mechanisme dat autonoom de temporele voortgang van actieve entiteiten simuleert en hun geëvolueerde toestanden synchroniseert bij herbezoek, waardoor ruimtelijk coherente rendering wordt gegarandeerd. Voor evaluatie introduceren we verder LiveBench, een toegewijd benchmark voor de taak van het handhaven van out-of-sight dynamiek. Uitgebreide experimenten tonen aan dat LiveWorld persistente gebeurtenisevolutie en langetermijnsceneconsistentie mogelijk maakt, waardoor de kloof wordt overbrugd tussen bestaand 2D observatiegebaseerd geheugen en echte 4D dynamische wereldsimulatie. De baseline en benchmark zullen publiekelijk beschikbaar zijn op https://zichengduan.github.io/LiveWorld/index.html.

HydroShear: Hydro-elastische schuifsimulatie voor tactiele simulatie-naar-realiteit-versterkend leren
HydroShear: Hydroelastic Shear Simulation for Tactile Sim-to-Real Reinforcement Learning

Feb 28

ByAn Dang, Jayjun Lee, Mustafa Mukadam, X. Alice Wu, Bernadette Bucher, Manikantan Nambi, Nima Fazeli

In dit artikel behandelen we het probleem van tactiele sim-naar-real policy transfer voor taken met veel contact. Bestaande methodes richten zich voornamelijk op op visie gebaseerde sensoren en benadrukken de kwaliteit van beeldweergave, terwijl ze te simplistische modellen voor kracht en afschuiving bieden. Dientengevolge vertonen deze modellen een grote sim-naar-real kloof voor veel behendigheidstaken. Hier presenteren we HydroShear, een niet-holonome hydro-elastische tactiele simulator die de stand-van-de-techniek vooruithelpt door het modelleren van: a) overgangen tussen vast- en glijgedrag (stick-slip), b) pad-afhankelijke opbouw van kracht en afschuiving, en c) volledige SE(3) object-sensor interacties. HydroShear breidt hydro-elastische contactmodellen uit met behulp van Signed Distance Functions (SDF's) om de verplaatsingen van de punten op het oppervlak van een indringer te volgen tijdens fysieke interactie met het sensormembraan. Onze aanpak genereert fysica-gebaseerde, computationeel efficiënte krachtvelden vanuit willekeurige waterdichte geometrieën, terwijl deze agnostisch blijft voor de onderliggende physics engine. In experimenten met GelSight Mini's reproduceert HydroShear de werkelijke tactiele afschuiving nauwkeuriger dan bestaande methodes. Deze nauwkeurigheid maakt zero-shot sim-naar-real transfer van reinforcement learning policies mogelijk voor vier taken: pen-invoeging, bin packing, het plaatsen van boeken op een plank voor insertie, en het trekken aan een lade voor fijne grijperregeling tijdens slippen. Onze methode behaalt een gemiddeld slagingspercentage van 93%, wat beter presteert dan policies getraind op tactiele beelden (34%) en alternatieve afschuivingssimulatiemethodes (58%-61%).

HY-WU (Deel I): Een Uitbreidbaar Functioneel Neuraal Geheugenkader en een Toepassing in Tekstgestuurd Beeldbewerking
HY-WU (Part I): An Extensible Functional Neural Memory Framework and An Instantiation in Text-Guided Image Editing

Mar 7

ByTencent HY Team

Foundationmodellen maken een transitie van offline voorspellers naar geïmplementeerde systemen die naar verwachting over lange tijdsperioden moeten functioneren. In echte implementaties zijn doelstellingen niet vastomlijnd: domeinen veranderen, gebruikersvoorkeuren evolueren en nieuwe taken duiken op nadat het model is vrijgegeven. Dit verheft continu leren en onmiddellijke personalisatie van optionele functies tot kernarchitectuurvereisten. Toch volgen de meeste aanpassingspijplijnen nog steeds een statisch gewichtsparadigma: na de training (of na elke aanpassingsstap) voert inferentie een enkele parametervector uit, ongeacht gebruikersintentie, domein of instantiespecifieke beperkingen. Dit behandelt het getrainde of aangepaste model als een enkel punt in de parameterruimte. In heterogene en continu evoluerende regimes kunnen verschillende doelstellingen gescheiden haalbare regio's over parameters induceren, waardoor elke gedeelde update gedwongen wordt tot compromis, interferentie of overspecialisatie. Als gevolg daarvan worden continu leren en personalisatie vaak geïmplementeerd als herhaaldelijk overschrijven van gedeelde gewichten, met het risico op degradatie van eerder aangeleerd gedrag. Wij stellen HY-WU (Weight Unleashing) voor, een geheugen-eerst aanpassingsraamwerk dat de aanpassingsdruk weg verschuift van het overschrijven van een enkel gedeeld parameterpunt. HY-WU implementeert functioneel (operator-niveau) geheugen als een neurale module: een generator die gewichts-updates on-the-fly synthetiseert op basis van de instantievoorwaarde, waardoor instantiespecifieke operatoren ontstaan zonder optimalisatie tijdens de testfase.

PresentBench: Een fijnmazige, rubricagebaseerde benchmark voor diapresentatiegeneratie
PresentBench: A Fine-Grained Rubric-Based Benchmark for Slide Generation

Mar 7

ByXin-Sheng Chen, Jiayu Zhu, Pei-lin Li, Hanzheng Wang, Shuojin Yang, Meng-Hao Guo

Dia's vormen een cruciaal medium voor het overbrengen van informatie in presentatiegerichte scenario's zoals de academische wereld, het onderwijs en het bedrijfsleven. Ondanks hun belang blijft het creëren van hoogwaardige presentatiedecks tijdrovend en cognitief veeleisend. Recente vooruitgang in generatieve modellen, zoals Nano Banana Pro, heeft geautomatiseerde dia-generatie steeds haalbaarder gemaakt. Bestaande evaluaties van dia-generatie zijn echter vaak grofkorrelig en steunen op holistische beoordelingen, waardoor het moeilijk is om modelcapaciteiten accuraat in te schatten of zinvolle vooruitgang in het vakgebied te volgen. In de praktijk vormt het gebrek aan fijnmazige, verifieerbare evaluatiecriteria een kritieke bottleneck voor zowel onderzoek als praktische implementatie. In dit artikel stellen wij PresentBench voor, een fijnmazige, op rubrieken gebaseerde benchmark voor het evalueren van geautomatiseerde dia-generatie voor de praktijk. Deze bevat 238 evaluatie-instanties, elk aangevuld met de benodigde achtergrondmaterialen voor het maken van dia's. Bovendien hebben wij handmatig gemiddeld 54.1 checklistitems per instantie ontworpen, elk geformuleerd als een binaire vraag, om een fijnmazige, instancespecifieke evaluatie van de gegenereerde presentatiedecks mogelijk te maken. Uitgebreide experimenten tonen aan dat PresentBench betrouwbaardere evaluatieresultaten oplevert dan bestaande methoden en een significant sterkere afstemming vertoont met menselijke voorkeuren. Verder laat onze benchmark zien dat NotebookLM significant beter presteert dan andere methoden voor dia-generatie, wat een substantiële recente vooruitgang in dit domein benadrukt.

Generaliseerbare Kennisdistillatie vanuit Visuele Foundation Modellen voor Semantische Segmentatie
Generalizable Knowledge Distillation from Vision Foundation Models for Semantic Segmentation

Mar 3

ByChonghua Lv, Dong Zhao, Shuang Wang, Dou Quan, Ning Huyan, Nicu Sebe, Zhun Zhong

Kennisdistillatie (KD) wordt veelvuldig toegepast bij semantische segmentatie om grote modellen te comprimeren, maar conventionele benaderingen richten zich voornamelijk op het behouden van nauwkeurigheid binnen het domein, terwijl ze generalisatie naar andere domeinen verwaarlozen. Dit laatste is echter essentieel bij distributieverschuivingen. Deze beperking wordt ernstiger met de opkomst van vision foundation models (VFM's): hoewel VFM's een sterke robuustheid vertonen op onzichtbare data, gaat dit vermogen vaak verloren wanneer men ze distilleert met conventionele KD. Wij stellen Generaliseerbare Kennisdistillatie (GKD) voor, een multi-stappen raamwerk dat generalisatie expliciet verbetert. GKD ontkoppelt representatieleren van taakleren. In de eerste fase verwerft de student domeinonafhankelijke representaties via selectieve feature-distillatie, en in de tweede fase worden deze representaties bevroren voor taakaanpassing, waardoor overfitting op zichtbare domeinen wordt tegengegaan. Om de transfer verder te ondersteunen, introduceren we een query-gebaseerd zacht distillatiemechanisme, waarbij studentfeatures als queries fungeren voor teacherrepresentaties om selectief overdraagbare ruimtelijke kennis uit VFM's op te halen. Uitgebreide experimenten op vijf benchmarks voor domeingeneralistie tonen aan dat GKD consistent superieur presteert aan bestaande KD-methoden, met gemiddelde winsten van +1,9% in foundation-to-foundation (F2F) en +10,6% in foundation-to-local (F2L) distillatie. De code zal beschikbaar zijn op https://github.com/Younger-hua/GKD.

ByteFlow: Taalmodelering via adaptieve bytecompressie zonder tokenizer
ByteFlow: Language Modeling through Adaptive Byte Compression without a Tokenizer

Mar 3

ByChunyuan Deng, Sanket Lokegaonkar, Colin Lockard, Besnik Fetahu, Nasser Zalmout, Xian Li

Moderne taalmodellen blijven afhankelijk van vaste, vooraf gedefinieerde subwoord-tokenisaties. Zodra een tokenizer is getraind, kan het taalmodel alleen op dit vaste granulariteitsniveau opereren, wat vaak leidt tot broos en contra-intuïtief gedrag, zelfs in verder sterke redeneermodellen. Wij introduceren ByteFlow Net, een nieuwe hiërarchische architectuur die tokenizers volledig elimineert en in plaats daarvan modellen in staat stelt hun eigen segmentatie van ruwe bytestromen in semantisch betekenisvolle eenheden aan te leren. ByteFlow Net voert compressiegedreven segmentatie uit op basis van de coderingssnelheid van latente representaties, wat adaptieve grenzen oplevert terwijl een statische rekenstructuur behouden blijft via Top-K-selectie. In tegenstelling tot eerdere zelf-tokeniserende methoden die afhangen van broze heuristieken met door mensen ontworzen inductieve vooroordelen, past ByteFlow Net de granulariteit van zijn interne representatie aan aan de invoer zelf. Experimenten tonen aan dat deze op compressie gebaseerde chunking-strategie aanzienlijke prestatieverbeteringen oplevert, waarbij ByteFlow Net zowel BPE-gebaseerde Transformers als eerdere byteniveau-architecturen overtreft. Deze resultaten suggereren dat end-to-end, tokenizer-vrije modellering niet alleen haalbaar is, maar ook effectiever, wat een weg opent naar adaptievere en informatiegegronde taalmodellen.

Hoe LLM's Multi-Scenario CUDA-kernels als Experts Optimaliseren
Making LLMs Optimize Multi-Scenario CUDA Kernels Like Experts

Mar 7

ByYuxuan Han, Meng-Hao Guo, Zhengning Liu, Wenguang Chen, Shi-Min Hu

Het handmatig optimaliseren van GPU-kernels is een uitdagende en tijdrovende taak. Met de snelle ontwikkeling van LLM's wordt geautomatiseerde GPU-kerneloptimalisatie geleidelijk aan een tastbare realiteit. Huidige, door LLM's aangedreven optimalisatiemethoden richten zich echter nauw op machine learning-toepassingen, zoals de optimalisatie van PyTorch-operatoren, en negeren bredere domeinen zoals sparse matrixoperaties in wetenschappelijk rekenen. Uitbreiding naar deze bredere toepassingen brengt nieuwe uitdagingen met zich mee voor de benchmark en het algoritme. Daarom is de ontwikkeling van een algemene, geautomatiseerde kerneloptimalisatiemethode onze primaire focus. In dit artikel pakken we het ontbreken van een systematische evaluatie voor multi-scenario-instellingen aan door MSKernelBench te introduceren, dat meerdere scenario's omspant, waaronder fundamentele algebraïsche bewerkingen, veelvoorkomende LLM-kernels, sparse matrixoperatoren en wetenschappelijke rekenroutines, die elk zowel FP32- als BF16-precisie ondersteunen. Op basis van deze benchmark introduceren we CUDAMaster, een multi-agent, hardwarebewust systeem voor kerneloptimalisatie dat profilinformatie benut en automatisch de volledige toolchain voor compilatie en uitvoering opzet. Experimentele resultaten tonen aan dat CUDAMaster aanzienlijke snelheidswinst boekt bij de meeste operatoren en Astra met ongeveer 35% verslaat. In verschillende gevallen evenaart of overtreft de prestaties die van sterk geoptimaliseerde, closed-source bibliotheken zoals cuBLAS. Een demo met de originele en geoptimaliseerde code voor elke operator is beschikbaar op https://hanyx2021.github.io/MSKernelBenchDemo/.

Variationele Stroomkaarten: Maak Lawaai voor Eénstaps Conditionele Generatie
Variational Flow Maps: Make Some Noise for One-Step Conditional Generation

Mar 7

ByAbbas Mammadov, So Takao, Bohan Chen, Ricardo Baptista, Morteza Mardani, Yee Whye Teh, Julius Berner

Flowmaps maken hoogwaardige beeldgeneratie mogelijk in een enkele voorwaartse doorloop. In tegenstelling tot iteratieve diffusiemodellen belemmert hun gebrek aan een expliciet samplingstraject echter het incorporeren van externe beperkingen voor conditionele generatie en het oplossen van inverse problemen. Wij presenteren Variational Flow Maps, een raamwerk voor conditionele sampling dat het perspectief van conditionering verschuift van het "geleiden van een samplingpad" naar het "leren van het juiste initiële ruis". Specifiek trachten wij, gegeven een observatie, een ruisadaptermodel te leren dat een ruisverdeling uitvoert, zodat na mapping naar de dataruimte via het flowmap, de samples de observatie en de data prior respecteren. Hiertoe ontwikkelen wij een principieel variationeel doel dat de ruisadapter en het flowmap gezamenlijk traint, waardoor de ruis-data-uitlijning verbetert, zodat sampling uit een complexe data posterior wordt bereikt met een eenvoudige adapter. Experimenten met diverse inverse problemen tonen aan dat VFM's goed gekalibreerde conditionele samples produceren in één (of enkele) stappen. Voor ImageNet bereikt VFM een competitieve kwaliteit terwijl de sampling met ordes van grootte wordt versneld in vergelijking met alternatieve iteratieve diffusie-/flowmodellen. Code is beschikbaar op https://github.com/abbasmammadov/VFM.

Retrieval-augmented Generation voor het Voorspellen van Cellulaire Reacties op Genperturbatie
Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

Mar 7

ByAndrea Giuseppe Di Francesco, Andrea Rubbi, Pietro Liò

Het voorspellen van hoe cellen reageren op genetische perturbaties is fundamenteel voor het begrip van genfunctie, ziekte-mechanismen en de ontwikkeling van therapieën. Hoewel recente deep learning-benaderingen veelbelovend zijn gebleken in het modelleren van responsies op perturbaties in enkele cellen, hebben zij moeite met generaliseren over verschillende celtypen en perturbatiecontexten vanwege beperkte contextuele informatie tijdens de generatie. Wij introduceren PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation), een nieuw raamwerk dat Retrieval-Augmented Generation uitbreidt voorbij traditionele taalmodellentoepassingen naar de cellulaire biologie. In tegenstelling tot standaard RAG-systemen die zijn ontworpen voor tekstretrieval met vooraf getrainde LLM's, ontbreekt het bij perturbatieretrieval aan gevestigde similariteitsmetrieken en vereist het leren wat relevante context vormt, waardoor differentieerbare retrieval essentieel is. PT-RAG lost dit op via een tweestappenpijplijn: eerst worden kandidaat-perturbaties K opgehaald met behulp van GenePT-embeddingen, vervolgens wordt de selectie adaptief verfijnd door middel van Gumbel-Softmax discrete sampling, geconditioneerd op zowel de celstatus als de inputperturbatie. Deze differentieerbare retrieval, die rekening houdt met het celtype, maakt end-to-end optimalisatie van het retrieval-doel mogelijk, gezamenlijk met de generatie. Op de Replogle-Nadig single-gene perturbatie-dataset tonen wij aan dat PT-RAG beter presteert dan zowel STATE als standaard RAG onder identieke experimentele omstandigheden, met de sterkste verbeteringen in distributionele similariteitsmetrieken (W_1, W_2). Opmerkelijk is dat het dramatische falen van standaard RAG zelf een belangrijke bevinding is: het toont aan dat differentieerbare retrieval, die rekening houdt met het celtype, essentieel is in dit domein, en dat naïeve retrieval de prestaties actief kan schaden. Onze resultaten vestigen retrieval-augmented generation als een veelbelovend paradigma voor het modelleren van cellulaire responsies op genperturbatie. De code om onze experimenten te reproduceren is beschikbaar op https://github.com/difra100/PT-RAG_ICLR.

SlowBA: Een efficiënte backdooraanval op VLM-gebaseerde GUI-agenten
SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Mar 9

ByJunxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu

Moderne visie-taal-model (VLM) gebaseerde grafische gebruikersinterface (GUI) agenten worden niet alleen verwacht acties nauwkeurig uit te voeren, maar ook met lage latentie op gebruikersinstructies te reageren. Terwijl bestaand onderzoek naar GUI-agent beveiliging zich voornamelijk richt op het manipuleren van actienauwkeurigheid, blijven de veiligheidsrisico's met betrekking tot reactie-efficiëntie grotendeels onontgonnen. In dit artikel introduceren we SlowBA, een nieuwe backdoor-aanval die zich richt op de responsiviteit van VLM-gebaseerde GUI-agenten. De kernidee is om reactielatentie te manipuleren door excessief lange redeneerketens op te wekken onder specifieke triggervoorbeelden. Om dit te bereiken, stellen we een tweefasen backdoor-injectiestrategie op beloningsniveau (RBI) voor die eerst het langereactieformaat aligneert en vervolgens triggerbewuste activering aanleert door middel van reinforcement learning. Daarnaast ontwerpen we realistische pop-upvensters als triggers die natuurlijk voorkomen in GUI-omgevingen, wat de stealthiness van de aanval verbetert. Uitgebreide experimenten over meerdere datasets en baseline-methoden tonen aan dat SlowBA de reactielengte en latentie significant kan verhogen, terwijl de taaknauwkeurigheid grotendeels behouden blijft. De aanval blijft effectief, zelfs met een kleine vergiftigingsratio en onder verschillende verdedigingsinstellingen. Deze bevindingen onthullen een voorheen over het hoofd gezien beveiligingslek in GUI-agenten en benadrukken de noodzaak van verdedigingsmechanismen die zowel actienauwkeurigheid als reactie-efficiëntie in overweging nemen. Code is beschikbaar op https://github.com/tu-tuing/SlowBA.

Autoforese van een Janus-deeltje nabij een vlakke wand: een glijmiddellimiet
Autophoresis of a Janus particle near a planar wall: a lubrication limit

Feb 28

ByTachin Ruangkriengsin, Günther Turk, Howard A. Stone

Wij bestuderen de zelfdiffusioforese van een bolvormig, chemisch actief deeltje nabij een vlakke, ondoordringbare wand, met een focus op de invloed van de deeltjesoriëntatie op de voortstuwing. Wij analyseren een Janus-deeltje met asymmetrische chemische oppervlakteactiviteit, bestaande uit een klein inert gebied binnen een katalytisch actieve kap. Hoewel numerieke simulaties zijn gebruikt om dergelijke deeltjes te bestuderen, ondervinden deze moeilijkheden bij het oplossen van de stroming en het transport in het extreme nabij-veldregime als gevolg van geometrische beperkingen en steile gradiënten in de opgeloste stofconcentratie. Wij pakken deze beperking aan door middel van een asymptotische analyse in de limiet van nabij contact, waarbij de spleet tussen het deeltje en de wand smal is. In het bijzonder beschouwen wij de onderscheiden limiet waarin het inerte gebied asymptotisch vergelijkbaar is in grootte met het smeergebied. Wij analyseren een axiaal-symmetrische configuratie waarin het inerte gedeelte parallel aan de wand is georiënteerd en breiden de analyse uit naar licht gekantelde oriëntaties. Wij vinden dat de kanteling bepaalt of een gekanteld deeltje terugdraait naar de axiaal-symmetrische toestand of verder reoriënteert, waardoor de rotatiestabiliteit in het nabij-contactregime wordt gekarakteriseerd.

Gratis lunch voor Pass@k? Goedkope diverse steekproeven voor diffusie-taalmodel
Free Lunch for Pass@k? Low Cost Diverse Sampling for Diffusion Language Models

Mar 5

BySean Lamont, Christian Walder, Paul Montague, Amir Dezfouli, Michael Norrish

Diverse uitvoer in tekstgeneratie is essentieel voor effectieve verkenning bij complexe redeneertaken, zoals codegeneratie en wiskundig probleemoplossen. Zulke Pass@k-problemen hebben baat bij verschillende kandidaatoplossingen die de oplossingsruimte bestrijken. Traditionele steekproefmethoden verspillen echter vaak rekenresources aan repetitieve foutmodi. Hoewel Diffusion Language Models zijn opgekomen als een competitief alternatief voor het heersende autoregressieve paradigma, blijven zij vatbaar voor deze redundantie, waarbij onafhankelijke steekproeven vaak terugvallen in vergelijkbare modi. Om dit aan te pakken, stellen we een trainingsvrije, kostenefficiënte interventie voor om de generatieve diversiteit in Diffusion Language Models te verbeteren. Onze aanpak wijzigt tussenliggende steekproeven in een batch sequentieel, waarbij elke steekproef wordt afgestoten van de kenmerkruimte van voorgaande steekproeven, om redundantie actief te bestraffen. In tegenstelling tot eerdere methoden die hertraining of beam search vereisen, brengt onze strategie verwaarloosbare rekenkosten met zich mee, terwijl wordt gegarandeerd dat elke steekproef een uniek perspectief aan de batch bijdraagt. We evalueren onze methode op de HumanEval- en GSM8K-benchmarks met het LLaDA-8B-Instruct-model. Onze resultaten tonen een significant verbeterde diversiteit en Pass@k-prestatie bij verschillende temperatuurinstellingen. Als een eenvoudige aanpassing van het steekproefproces biedt onze methode een directe, kostenefficiënte verbetering voor huidige en toekomstige Diffusion Language Models bij taken die baat hebben bij een diverse oplossingszoektocht. Onze code is beschikbaar op https://github.com/sean-lamont/odd.

Ruimtelijk-temporele heterogeniteit van AI-gestuurde verkeersstroompatronen en interactie met ruimtelijk gebruik: een GeoAI-gebaseerde analyse van multimodale stedelijke mobiliteit
Spatiotemporal Heterogeneity of AI-Driven Traffic Flow Patterns and Land Use Interaction: A GeoAI-Based Analysis of Multimodal Urban Mobility

Mar 5

ByOlaf Yunus Laitinen Imanov

Stedelijke verkeersstromen worden bepaald door de complexe, niet-lineaire interactie tussen ruimtelijke ordening en ruimtelijk-temporeel heterogene mobiliteitsvraag. Conventionele globale regressie- en tijdreeksmodellen zijn niet in staat om deze multi-schaal dynamiek voor meerdere vervoerswijzen gelijktijdig te vangen. Deze studie stelt een GeoAI-hybride analytisch raamwerk voor dat opeenvolgend Multischaal Geografisch Gewogen Regressie (MGWR), Random Forest (RF) en Ruimtelijk-Temporeel Graf Convolutionele Netwerken (ST-GCN) integreert om de ruimtelijk-temporele heterogeniteit van verkeersstroompatronen en hun interactie met ruimtelijk gebruik te modelleren voor drie vervoerswijzen: gemotoriseerd verkeer, openbaar vervoer en actieve mobiliteit. Toepassing van het raamwerk op een empirisch gekalibreerde dataset van 350 verkeersanalysezones in zes steden met twee contrasterende stedelijke morfologieën levert vier belangrijke bevindingen op: (i) het GeoAI-hybride model behaalt een root mean squared error (RMSE) van 0,119 en een R² van 0,891, en presteert daarmee 23-62% beter dan alle benchmarks; (ii) SHAP-analyse identificeert menging van ruimtelijk gebruik als de sterkste voorspeller voor gemotoriseerde stromen en haltedichtheid als de sterkste voorspeller voor openbaar vervoer; (iii) DBSCAN-clustering identificeert vijf functioneel verschillende stedelijke verkeerstypologieën met een silhouette-score van 0,71, en de residuen van het GeoAI-hybride model vertonen een Moran's I=0,218 (p<0,001), een reductie van 72% ten opzichte van OLS-baselines; en (iv) kruisstedelijke transfer experimenten tonen een matige overdraagbaarheid binnen clusters (R²≥0,78) en een beperkte generaliseerbaarheid tussen clusters, wat het primaat van de stedelijke morfologische context onderstreept. Het raamwerk biedt planners en verkeerskundigen een interpreteerbare, schaalbare toolkit voor evidence-based multimodaal mobiliteitsmanagement en ontwerp van ruimtelijk ordeningsbeleid.

TAPFormer: Robuuste Willekeurige Puntvolging via Transiënte Asynchrone Fusie van Beelden en Events
TAPFormer: Robust Arbitrary Point Tracking via Transient Asynchronous Fusion of Frames and Events

Mar 5

ByJiaxiong Liu, Zhen Tan, Jinpu Zhang, Yi Zhou, Hui Shen, Xieyuanli Chen, Dewen Hu

Het volgen van willekeurige punten (TAP) is een fundamentele maar uitdagende taak in de computer vision, waarvoor hoge precisie en langetermijnredenering over beweging vereist zijn. Recente pogingen om RGB-frames en eventstromen te combineren tonen potentie, maar ze baseren zich doorgaans op synchrone of niet-adaptieve fusie, wat leidt tot temporele uitlijningproblemen en ernstige prestatievermindering wanneer één modaliteit faalt. Wij introduceren TAPFormer, een transformer-gebaseerd framework dat asynchrone, temporeel consistente fusie van frames en events uitvoert voor robuuste en hoogfrequente tracking van willekeurige punten. Onze belangrijkste innovatie is een Transient Asynchronous Fusion (TAF)-mechanisme, dat de temporele evolutie tussen discrete frames expliciet modelleert via continue event-updates, waardoor de kloof tussen frames met een lage snelheid en events met een hoge snelheid wordt overbrugd. Daarnaast past een Cross-modal Locally Weighted Fusion (CLWF)-module de ruimtelijke aandacht adaptief aan volgens de betrouwbaarheid van de modaliteit, wat resulteert in stabiele en onderscheidende kenmerken, zelfs onder onscherpe of zwakke belichtingsomstandigheden. Om onze aanpak onder realistische omstandigheden te evalueren, construeren we een nieuwe real-world frame-event TAP-dataset onder diverse belichtings- en bewegingsomstandigheden. Onze methode overtreft bestaande puntvolgers en behaalt een verbetering van 28,2% in de gemiddelde pixelfout binnen de drempelwaarde. Bovendien behaalt onze tracker op standaard puntvolgbenchmarks consistent de beste prestaties. Projectwebsite: tapformer.github.io

MedSteer: Contrafeit Endoscopisch Synthese via Trainingsvrije Activatiesturing
MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Mar 7

ByTrong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le

Generatieve diffusiemodellen worden steeds vaker gebruikt voor data-augmentatie in medische beeldvorming, maar tekstprompts kunnen geen causale trainingsdata produceren. Opnieuw prompten herstart het volledige generatietraject, waarbij anatomie, textuur en achtergrond veranderen. Op inversie gebaseerde bewerkingsmethoden introduceren reconstructiefouten die structurele drift veroorzaken. Wij stellen MedSteer voor, een trainingsvrij activatie-stuurraamwerk voor endoscopische synthese. MedSteer identificeert een pathologievector voor elk contrastief promptpaar in de cross-attention lagen van een diffusietransformer. Tijdens inferentie stuurt het de beeldactivaties langs deze vector, waarbij tegenfactuele paren vanaf nul worden gegenereerd waarin het enige verschil het gestuurde concept is. Alle andere structuren worden door constructie behouden. Wij evalueren MedSteer in drie experimenten met Kvasir v3 en HyperKvasir. Bij tegenfactuele generatie over drie klinische conceptparen behaalt MedSteer flip rates van 0.800, 0.925 en 0.950, en overtreft daarmee de beste op inversie gebaseerde baseline in zowel concept flip rate als structureel behoud. Bij ontwarring van contrastvloeistof bereikt MedSteer 75% verwijdering tegenover 20% (PnP) en 10% (h-Edit). Bij downstream poliepdetectie bereikt augmentatie met MedSteer tegenfactuele paren een ViT AUC van 0.9755 versus 0.9083 voor kwantitatief gelijkwaardig opnieuw prompten, wat bevestigt dat tegenfactuele structuur de winst drijft. Code staat op https://github.com/phamtrongthang123/medsteer

MWM: Mobiele Wereldmodellen voor Actie-Gebonden Consistente Voorspelling
MWM: Mobile World Models for Action-Conditioned Consistent Prediction

Mar 8

ByHan Yan, Zishang Xiang, Zeyu Zhang, Hao Tang

Wereldmodellen maken planning mogelijk in een voorspelde, denkbeeldige toekomstige ruimte, en bieden zo een veelbelovend raamwerk voor belichaamde navigatie. Bestaande navigatiewereldmodellen missen echter vaak actie-geconditioneerde consistentie, waardoor visueel plausibele voorspellingen bij multi-step roll-out kunnen afdrijven en de planning verslechteren. Bovendien vereist efficiënte inzet inferentie met weinig diffusiestappen, maar bestaande distillatiemethoden behouden de roll-outconsistentie niet expliciet, wat een kloof tussen training en inferentie creëert. Om deze uitdagingen aan te pakken, stellen we MWM voor, een mobiel wereldmodel voor planning-gebaseerde beelddoelnavigatie. Concreet introduceren we een tweefasen-trainingsraamwerk dat structuurpretraining combineert met Actie-Geconditioneerde Consistentie (ACC) na-training om de actie-geconditioneerde roll-outconsistentie te verbeteren. Verder introduceren we Inference-Consistent State Distillation (ICSD) voor diffusiedistillatie met weinig stappen en verbeterde roll-outconsistentie. Onze experimenten op benchmark- en real-world taken tonen consistente verbeteringen aan in visuele kwaliteit, trajectnauwkeurigheid, planningssucces en inferentie-efficiëntie. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.

SeedPolicy: Horizonschaling via zelf-evoluerende diffusiebeleid voor robotmanipulatie
SeedPolicy: Horizon Scaling via Self-Evolving Diffusion Policy for Robot Manipulation

Mar 5

ByYouqiang Gui, Yuxuan Zhou, Shen Cheng, Xinyang Yuan, Haoqiang Fan, Peng Cheng, Shuaicheng Liu

Imitation Learning (IL) stelt robots in staat om manipulatievaardigheden aan te leren op basis van demonstraties door experts. Diffusion Policy (DP) modelleert multimodale expertgedragingen, maar lijdt onder prestatievermindering naarmate de observatiehorizon toeneemt, wat een beperking vormt voor manipulatie op lange termijn. Wij stellen Self-Evolving Gated Attention (SEGA) voor, een tijdelijk module die een zich in de tijd ontwikkelende latente toestand handhaaft via gated attention. Dit maakt efficiënte recurrent updates mogelijk die lange-termijn observaties comprimeren tot een representatie met vaste grootte, terwijl irrelevante temporele informatie wordt gefilterd. Integratie van SEGA in DP resulteert in Self-Evolving Diffusion Policy (SeedPolicy), wat het knelpunt in temporele modellering oplost en schaalbare horizonuitbreiding mogelijk maakt met een gematigde overhead. Op de RoboTwin 2.0-benchmark met 50 manipulatietaken presteert SeedPolicy beter dan DP en andere IL-baselines. Gemiddeld over zowel CNN- als Transformer-backbones behaalt SeedPolicy een relatieve verbetering van 36,8% in schone settings en een relatieve verbetering van 169% in uitdagende, gerandomiseerde settings ten opzichte van DP. Vergeleken met vision-language-action modellen zoals RDT met 1,2 miljard parameters, behaalt SeedPolicy vergelijkbare prestaties met één tot twee ordes van grootte minder parameters, wat sterke efficiëntie en schaalbaarheid aantoont. Deze resultaten positioneren SeedPolicy als een state-of-the-art imitation learning-methode voor robotmanipulatie op lange termijn. Code is beschikbaar op: https://github.com/Youqiang-Gui/SeedPolicy.