Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Diffusion Probabilistische Modellen hebben opmerkelijke prestaties geleverd bij een breed scala aan generatieve taken. Wij hebben echter geobserveerd dat deze modellen vaak last hebben van een Signaal-Ruisverhouding-tijdstap (SRV-t) bias. Deze bias verwijst naar de verkeerde afstemming tussen de SRV van het ontruisende sample en de bijbehorende tijdstap tijdens de inferentiefase. Specifiek is tijdens de training de SRV van een sample strikt gekoppeld aan zijn tijdstap. Deze correspondentie wordt echter verstoord tijdens de inferentie, wat leidt tot foutaccumulatie en de generatiekwaliteit aantast. Wij presenteren uitgebreid empirisch bewijs en een theoretische analyse om dit fenomeen te staven en stellen een eenvoudige maar effectieve differentiële correctiemethode voor om de SRV-t bias te verminderen. Omdat we erkennen dat diffusiemodellen typisch eerst de laagfrequente componenten reconstrueren voordat ze zich richten op hoogfrequente details tijdens het omgekeerde ontruisingsproces, ontbinden we samples in verschillende frequentiecomponenten en passen we differentiële correctie toe op elke component afzonderlijk. Uitgebreide experimenten tonen aan dat onze aanpak de generatiekwaliteit van verschillende diffusiemodellen (IDDPM, ADM, DDIM, A-DPM, EA-DPM, EDM, PFGM++ en FLUX) aanzienlijk verbetert op datasets met uiteenlopende resoluties, met verwaarloosbare rekenkosten. De code is beschikbaar op https://github.com/AMAP-ML/DCW.
Diepe neurale netwerken (DNN's) kunnen catastrofaal worden verstoord door slechts een handvol parameterbits om te klappen. Wij introduceren Deep Neural Lesion (DNL), een data-vrije en optimalisatie-vrije methode die kritieke parameters lokaliseert, en een verbeterde single-pass variant, 1P-DNL, die deze selectie verfijnt met één voorwaartse en achterwaartse pass op willekeurige inputs. Wij tonen aan dat deze kwetsbaarheid zich uitstrekt over meerdere domeinen, waaronder beeldclassificatie, objectdetectie, instancesegmentatie en redenerende large language models. Bij beeldclassificatie vermindert het omklappen van slechts twee tekenbits in ResNet-50 op ImageNet de nauwkeurigheid met 99,8%. Bij objectdetectie en instancesegmentatie doen één of twee tekenomkeringen in de backbone de COCO-detectie en masker-AP instorten voor Mask R-CNN en YOLOv8-seg modellen. Bij taalmodellering verminderen twee tekenomkeringen in verschillende experts de nauwkeurigheid van Qwen3-30B-A3B-Thinking van 78% naar 0%. Wij tonen ook aan dat het selectief beschermen van een kleine fractie kwetsbare tekenbits een praktische verdediging biedt tegen dergelijke aanvallen.
Multimodale Large Language Models (MLLM's) fungeren als dagelijkse assistenten voor miljoenen gebruikers. Hun vermogen om reacties te genereren die zijn afgestemd op individuele voorkeuren blijft echter beperkt. Eerdere benaderingen maken alleen statische, single-turn personalisatie mogelijk via input-augmentatie of output-afstemming, en slagen er zo niet in om de evoluerende voorkeuren en persoonlijkheid van gebruikers in de tijd vast te leggen (zie Fig.1). In dit artikel introduceren we PersonaVLM, een innovatief, gepersonaliseerd multimodaal agentframework ontworpen voor langetermijnpersonalisatie. Het transformeert een algemeen MLLM in een gepersonaliseerde assistent door de integratie van drie kerncapaciteiten: (a) Herinneren: Het extraheert en vat proactief chronologische multimodale herinneringen uit interacties samen en consolideert deze in een gepersonaliseerde database. (b) Redeneren: Het voert multi-turn redeneren uit door relevante herinneringen uit de database op te halen en te integreren. (c) Responsafstemming: Het leidt de evoluerende persoonlijkheid van de gebruiker af gedurende langdurige interacties om ervoor te zorgen dat outputs afgestemd blijven op hun unieke kenmerken. Voor de evaluatie stellen we Persona-MME op, een uitgebreide benchmark bestaande uit meer dan 2000 gecureerde interactiegevallen, ontworpen om langetermijn-MLLM-personalisatie te beoordelen over zeven kernaspecten en 14 fijnmazige taken. Uitgebreide experimenten valideren de effectiviteit van onze methode, waarbij de baseline met 22,4% (Persona-MME) en 9,8% (PERSONAMEM) verbeterd wordt onder een context van 128k tokens, terwijl het respectievelijk 5,2% en 2,0% beter presteert dan GPT-4o. Projectpagina: https://PersonaVLM.github.io.
Retrieval-Augmented Generation (RAG)-systemen zijn voor hun werking in kritieke mate afhankelijk van effectieve strategieën voor het opdelen van documenten in segmenten (chunking) om een balans te vinden tussen retrievalkwaliteit, latentie en operationele kosten. Traditionele chunking-benaderingen, zoals fixed-size, rule-based of volledig agent-gestuurde chunking, kampen vaak met een hoog tokenverbruik, redundante tekstgeneratie, beperkte schaalbaarheid en slechte debugbaarheid, vooral bij de verwerking van grootschalige webcontent. In dit artikel introduceren we Web Retrieval-Aware Chunking (W-RAC), een nieuw, kostenefficiënt chunking-framework dat specifiek is ontworpen voor webgebaseerde documenten. W-RAC ontkoppelt tekstextractie van semantische chunkplanning door geparsete webcontent te representeren als gestructureerde, ID-adresseerbare eenheden en large language models (LLM's) alleen in te zetten voor retrieval-afwegingen bij groeperingsbeslissingen in plaats van voor tekstgeneratie. Dit vermindert het tokenverbruik aanzienlijk, elimineert hallucinatierisico's en verbetert de observeerbaarheid van het systeem. Experimentele analyse en architectuurvergelijking tonen aan dat W-RAC een vergelijkbare of betere retrievalprestatie bereikt dan traditionele chunking-benaderingen, terwijl de aan chunking gerelateerde LLM-kosten met een factor tien worden verlaagd.
In dit werk presenteren wij Qwen3.5-Omni, de nieuwste ontwikkeling in de Qwen-Omni-modelfamilie. Deze versie vertegenwoordigt een significante evolutie ten opzichte van zijn voorganger; Qwen3.5-Omni schaalt naar honderden miljarden parameters en ondersteunt een contextlengte van 256k. Door gebruik te maken van een enorme dataset bestaande uit heterogene tekst-visie-paren en meer dan 100 miljoen uur aan audiovisuele inhoud, toont het model robuuste omnimodaliteitscapaciteiten. Qwen3.5-Omni-plus behaalt state-of-the-art (SOTA) resultaten op 215 audio- en audiovisuele begrips-, redeneer- en interactiesubtaken en benchmarks, waarbij het Gemini-3.1 Pro verslaat in cruciale audiotaken en ermee gelijk opgaat in uitgebreid audiovisueel begrip. Architectonisch gezien gebruikt Qwen3.5-Omni een Hybride Aandacht Mixture-of-Experts (MoE) raamwerk voor zowel de 'Thinker' als de 'Talker', wat efficiënte inferentie voor lange sequenties mogelijk maakt. Het model faciliteert geavanceerde interactie, met ondersteuning voor meer dan 10 uur aan audiobegrip en 400 seconden 720P video (op 1 FPS). Om de inherente instabiliteit en onnatuurlijkheid in streaming spraaksynthese aan te pakken – vaak veroorzaakt door encoderings-efficiëntieverschillen tussen tekst- en spraak-tokenizers – introduceren we ARIA. ARIA aligneert dynamisch tekst- en spraakeenheden, wat de stabiliteit en prosodie van conversatiespraak aanzienlijk verbetert met minimale impact op de latentie. Bovendien verlegt Qwen3.5-Omni linguïstische grenzen door meertalig begrip en spraakgeneratie in 10 talen te ondersteunen, met menselijke emotionele nuance. Ten slotte vertoont Qwen3.5-Omni superieure audiovisuele 'grounding'-capaciteiten, waarbij het scriptniveau gestructureerde bijschriften genereert met precieze temporele synchronisatie en geautomatiseerde scènesegmentatie. Opmerkelijk genoeg observeerden we het opkomen van een nieuwe capaciteit in omnimodale modellen: direct code uitvoeren op basis van audiovisuele instructies, wat wij Audio-Visuele Vibe Coding noemen.
Parallel redeneren verbetert Large Reasoning Models (LRM's), maar brengt onhoudbare kosten met zich mee door nutteloze paden veroorzaakt door vroege fouten. Om dit te beperken is pad-snoei op prefixniveau essentieel, maar bestaand onderzoek blijft gefragmenteerd zonder een gestandaardiseerd kader. In dit werk stellen we de eerste systematische taxonomie van pad-snoei voor, waarbij we methoden categoriseren op basis van hun signaalbron (intern vs. extern) en leerbaarheid (leerbaar vs. niet-leerbaar). Deze classificatie onthult het onontgonnen potentieel van leerbare interne methoden, wat onze voorstel van STOP (Super Token voor Snoei) motiveert. Uitgebreide evaluaties bij LRM's variërend van 1,5B tot 20B parameters tonen aan dat STOP superieure effectiviteit en efficiëntie bereikt in vergelijking met bestaande baseline-methoden. Verder valideren we grondig de schaalbaarheid van STOP onder wisselende rekenbudgetten - bijvoorbeeld door de nauwkeurigheid van GPT-OSS-20B op AIME25 te verhogen van 84% naar bijna 90% onder vaste rekenbudgetten. Ten slotte destilleren we onze bevindingen in geformaliseerde empirische richtlijnen om optimale implementatie in de praktijk te vergemakkelijken. Code, data en modellen zijn beschikbaar op https://bijiaxihh.github.io/STOP.
Tokenisatie is een essentiële component van autoregressieve (AR) generatieve modellen, waarbij ruwe data wordt omgezet in beter hanteerbare eenheden voor modellering. Tokens beschrijven doorgaans lokale informatie, zoals pixelgebieden in afbeeldingen of woordsegmenten in tekst, en AR-generatie voorspelt deze tokens in een vaste volgorde. Een relevante vraag is of tokenstructuren het vermogen beïnvloeden om de generatie te sturen via zoekacties tijdens de testfase, waarbij meerdere kandidaat-generaties worden verkend en geëvalueerd door een verifier. Met beeldgeneratie als testomgeving stellen we de hypothese op dat recente 1D-geordende tokenizers met een coarse-to-fine structuur beter geschikt kunnen zijn voor zoekacties dan klassieke 2D-roosterstructuren. Dit is geworteld in het feit dat de tussenliggende toestanden in coarse-to-fine reeksen semantische betekenis dragen die verifiers betrouwbaar kunnen evalueren, wat effectieve sturing tijdens de generatie mogelijk maakt. Via gecontroleerde experimenten ontdekken we dat AR-modellen die zijn getraind op coarse-to-fine geordende tokens een verbeterde schaalbaarheid tijdens de testfase vertonen in vergelijking met op roosters gebaseerde tegenhangers. Bovendien tonen we aan dat, dankzij de geordende structuur, pure zoekacties tijdens de testfase over tokenreeksen (zonder training van een AR-model) training-vrije tekst-naar-beeldgeneratie kunnen uitvoeren wanneer ze worden geleid door een beeld-tekst-verifier. Daarnaast bestuderen we systematisch hoe klassieke zoekalgoritmen (best-of-N, beam search, lookahead search) interacteren met verschillende tokenstructuren, evenals de rol van verschillende verifiers en AR-priors. Onze resultaten benadrukken de impact van tokenstructuur op de schaalbaarheid tijdens de inferentiefase en bieden praktische richtlijnen voor testtijd-schaling in AR-modellen.
Wij introduceren LaviGen, een raamwerk dat 3D-generatieve modellen herpositioneert voor 3D-lay-outgeneratie. In tegenstelling tot eerdere methoden die objectlay-outs afleiden uit tekstuele beschrijvingen, opereert LaviGen direct in de native 3D-ruimte. Het formuleert lay-outgeneratie als een autoregressief proces dat geometrische relaties en fysieke beperkingen tussen objecten expliciet modelleert, waardoor samenhangende en fysiek plausibele 3D-scènes worden gegenereerd. Om dit proces verder te verbeteren, stellen we een aangepast 3D-diffusiemodel voor dat scène-, object- en instructie-informatie integreert en een dual-guidance self-rollout distillatiemechanisme hanteert om de efficiëntie en ruimtelijke nauwkeurigheid te verbeteren. Uitgebreide experimenten op de LayoutVLM-benchmark tonen aan dat LaviGen superieure prestaties levert voor 3D-lay-outgeneratie, met een 19% hogere fysieke plausibiliteit dan de state-of-the-art en een 65% snellere berekening. Onze code is openbaar beschikbaar op https://github.com/fenghora/LaviGen.
Getrainde taalmodellen produceren minder gevarieerde uitvoer dan hun basisversies. Deze ineenstorting van uitvoerdiversiteit ondermijnt schaalingsmethoden tijdens inferentie die afhankelijk zijn van gevarieerde steekproeven, en riskeert een homogenisering van modeluitvoer bij creatieve en waardegebonden taken. Eerder onderzoek schreef de ineenstorting toe aan specifieke trainingsmethoden, zonder de rol van trainingsdatasamenstelling te scheiden van de methode, of het generatieformaat van de modelgewichten. Wij volgen de uitvoerdiversiteit door drie parallelle trainingslijnen van Olmo 3: Think (distillatie van ketendenken), Instruct (brede multi-brondata) en RL-Zero, over 15 taken en vier tekstdiversiteitsmetingen. Wij constateren dat de locatie van de ineenstorting samenhangt met datasamenstelling: de Think-lijn verliest de meeste semantische diversiteit bij supervised fine-tuning, en het effect van DPO is groter in Instruct dan in Think. Het onderdrukken van ketendenken tijdens inferentie bij Think-modellen verlaagt de nauwkeurigheid op moeilijke taken, maar laat antwoordniveau-diversiteit onveranderd, wat aantoont dat de ineenstorting is ingebed in de modelgewichten door trainingsdata, niet opgelegd door het generatieformaat. Het opdelen van diversiteitsverlies in zes verifieerbare taken in een kwaliteitscontrolecomponent (verwijdering van incorrecte uitvoer) en een restcomponent (echte vernauwing onder correcte uitvoer) toont aan dat de verdeling taakafhankelijk is, en dat Think-modellen meer diversiteit in correcte antwoorden behouden dan Instruct ondanks een grotere algehele ineenstorting. Onze resultaten geven aan dat diversiteitsineenstorting tijdens training wordt bepaald door datasamenstelling en niet alleen tijdens inferentie kan worden aangepakt.
Grote taalmodellen hebben sterke prestaties getoond bij algemene programmeertaken, maar hun vermogen om uitvoerbare algoritmische handelsstrategieën te genereren is nog onvoldoende onderzocht. In tegenstelling tot standaard codebenchmarks vereist het genereren van handelsstrategieën een gelijktijdige beheersing van domeinspecifieke financiële logica, kennis van een gespecialiseerde API en het vermogen om code te produceren die niet alleen syntactisch correct is, maar ook daadwerkelijke transacties oplevert op historische data. In dit werk presenteren we QuantCode-Bench, een benchmark voor de systematische evaluatie van moderne LLM's bij het genereren van strategieën voor het Backtrader-framework op basis van tekstuele beschrijvingen in het Engels. De benchmark omvat 400 taken van uiteenlopende moeilijkheidsgraad, verzameld van Reddit, TradingView, StackExchange, GitHub en synthetische bronnen. Evaluatie vindt plaats via een meerfasenpijplijn die de syntactische correctheid, succesvolle uitvoering van backtests, de aanwezigheid van transacties en semantische afstemming met de taakbeschrijving controleert met behulp van een LLM-beoordelaar. We vergelijken state-of-the-art modellen in twee settings: single-turn, waarbij de strategie in één poging correct gegenereerd moet worden, en agent-gebaseerd multi-turn, waarbij het model iteratieve feedback ontvangt en zijn fouten kan herstellen. We analyseren de faalmodi in verschillende fasen van de pijplijn en tonen aan dat de belangrijkste beperkingen van huidige modellen niet gerelateerd zijn aan syntaxis, maar eerder aan de correcte operationalisering van handelslogica, correct API-gebruik en naleving van taaksemantiek. Deze bevindingen suggereren dat het genereren van handelsstrategieën een aparte klasse van domeinspecifieke codegeneratietaken vormt waarin succes niet alleen technische correctheid vereist, maar ook afstemming tussen natuurlijke-taalbeschrijvingen, financiële logica en het waarneembare gedrag van de strategie op data.
Visuele redeneermodellen (VRM's) hebben recentelijk sterke cross-modale redeneercapaciteiten getoond door visuele perceptie te integreren met taalredenering. Ze lijden echter vaak aan overdenken, waarbij ze onnodig lange redeneerketens produceren voor allerlei taken. Wij schrijven dit probleem toe aan Redundantie van het Redeneerpad in visueel redeneren: veel visuele vragen vereisen niet het volledige redeneerproces. Om dit aan te pakken, stellen wij AVR voor, een adaptief visueel raamwerk dat visueel redeneren ontleedt in drie cognitieve functies: visuele perceptie, logisch redeneren en antwoordtoepassing. Het stelt modellen verder in staat om dynamisch te kiezen tussen drie responsformaten: Volledig Formaat, Alleen-Perceptie Formaat en Direct Antwoord. AVR wordt getraind met FS-GRPO, een aanpassing van Group Relative Policy Optimization die het model aanmoedigt om het meest efficiënte redeneerformaat te selecteren terwijl de correctheid behouden blijft. Experimenten op meerdere vision-language benchmarks tonen aan dat AVR het tokenverbruik met 50–90% reduceert while de algemene nauwkeurigheid behoudt, vooral bij perceptie-intensieve taken. Deze resultaten tonen aan dat adaptief visueel redeneren overdenken in VRM's effectief kan verminderen. Code en data zijn beschikbaar op: https://github.com/RunRiotComeOn/AVR.
LLM's hebben een sterk potentieel getoond om wetenschappelijke ontdekkingen te bevorderen. Of ze daadwerkelijk in staat zijn tot fundamentele innovatie, blijft echter een open vraag. In dit werk richten we ons op een voorwaarde voor fundamentele innovatie: kunnen LLM's fundamentele algoritmen in de informatica opnieuw uitvinden? Onze Unlearn-and-Reinvent-pijplijn past 'unlearning' (afleren) toe op een LLM om een specifiek fundamenteel algoritme, zoals het algoritme van Dijkstra of Euclides, te verwijderen uit de vooraf getrainde kennis van het model, en test vervolgens of het model het algoritme opnieuw kan uitvinden in een gecontroleerde omgeving. Om effectief afleren mogelijk te maken, gebruiken we een op GRTO gebaseerde, 'on-policy' aflermethode. Onze experimenten, uitgevoerd met 10 doelalgoritmen, 3 sterke open-weight modellen en 3 hintniveaus, tonen aan dat (1) het sterkste model, Qwen3-4B-Thinking-2507, erin slaagt 50% van de algoritmen opnieuw uit te vinden zonder hints, 70% bij hintniveau 1 en 90% bij hintniveau 2; (2) een paar hints op hoog niveau het slagingspercentage van de heruitvinding kunnen verhogen, maar dat zelfs stapsgewijze hints falen voor complexe algoritmen; en (3) 'reinforcement learning' tijdens de testfase een succesvolle heruitvinding van het Strassen-algoritme mogelijk maakt bij hintniveau 2. Door analyse van de outputtrajecten en 'ablatiestudies' concluderen we dat de generatieve verificateur in de heruitvindingsfase een cruciale rol speelt bij het in stand houden van de redeneerkracht van de modellen, waardoor het "denk-collapse"-fenomeen wordt vermeden. Deze bevindingen bieden inzicht in zowel de potentiële mogelijkheden als de huidige beperkingen van het innovatieve denkvermogen van LLM's.
Recente vooruitgang in visueel-taalkundige vooraftraining heeft aanzienlijke verbeteringen mogelijk gemaakt voor vele downstream computervisietoepassingen, zoals classificatie, retrievel, segmentatie en dieptepredictie. Een fundamentele vaardigheid waar deze modellen echter nog steeds mee worstelen, is het afstemmen van dichte patchrepresentaties op tekst-embeddingen van corresponderende concepten. In dit werk onderzoeken we dit kritieke probleem en stellen we nieuwe technieken voor om deze vaardigheid in fundamentele visueel-taalkundige modellen te verbeteren. Ten eerste tonen we aan dat een procedure voor distillatie op patchniveau de dichte patch-tekst-afstemming aanzienlijk verbetert – verrassend genoeg overtreft de patch-tekst-afstemming van het gedistilleerde studentmodel die van het leraarmodel sterk. Deze observatie inspireert ons om wijzigingen in vooraftrainingsrecepten te overwegen, wat leidt tot ons voorstel voor iBOT++, een upgrade van het veelgebruikte iBOT-masked-image-doel, waarbij ongemaskeerde tokens ook direct bijdragen aan het verlies. Dit verbetert de patch-tekst-afstemming van vooraf getrainde modellen aanzienlijk. Daarnaast passen we, om de efficiëntie en effectiviteit van visueel-taalkundige vooraftraining te verbeteren, de exponential-moving-average-opzet in het leerrecept aan en introduceren we een caption-steekproefstrategie om te profiteren van synthetische bijschriften op verschillende granulariteiten. Door deze componenten te combineren, ontwikkelen we TIPSv2, een nieuwe familie van beeld-tekst-encodermodellen die geschikt is voor een breed scala aan downstream-toepassingen. Door middel van uitgebreide experimenten op 9 taken en 20 datasets demonstreren we sterke prestaties, over het algemeen vergelijkbaar met of beter dan recente visuele-encodermodellen. Code en modellen zijn vrijgegeven via onze projectpagina op https://gdm-tipsv2.github.io/.
De ontwikkeling van algemene agents vereist een verschuiving van het uitvoeren van eenvoudige instructies naar het voltooien van complexe, real-world productiviteitsworkflows. Huidige benchmarks voor toolgebruik zijn echter nog steeds niet afgestemd op de eisen van de praktijk, doordat ze vertrouwen op AI-gegenereerde queries, dummy-tools en beperkte systeemcoördinatie. Om dit aan te pakken, stellen we GTA-2 voor, een hiërarchische benchmark voor General Tool Agents (GTA) die zich uitstrekt van atomair toolgebruik tot open-ended workflows. Gebaseerd op real-world authenticiteit, maakt het gebruik van echte gebruikersqueries, geïmplementeerde tools en multimodale contexten. (i) GTA-Atomic, overgenomen van onze eerdere GTA-benchmark, evalueert de precisie van kortetermijn, gesloten toolgebruik. (ii) GTA-Workflow introduceert langetermijn, open-ended taken voor realistische end-to-end voltooiing. Om open-ended resultaten te evalueren, stellen we een recursief, op checkpoints gebaseerd evaluatiemechanisme voor dat doelstellingen decomposeert in verifieerbare subdoelen, waardoor een uniforme evaluatie van zowel modelcapaciteiten als agent-uitvoeringsframeworks (execution harnesses) mogelijk wordt. Experimenten tonen een duidelijke capability cliff aan: waar frontier-modellen al moeite hebben met atomare taken (minder dan 50%), falen ze grotendeels bij workflows, waarbij de topmodellen slechts 14,39% succes behalen. Verdere analyse toont aan dat feedback geleid door checkpoints de prestaties verbetert, en dat geavanceerde frameworks zoals Manus en OpenClaw de workflowvoltooiing aanzienlijk verbeteren, wat het belang benadrukt van het ontwerp van execution harnesses naast de onderliggende modelcapaciteit. Deze bevindingen bieden richtlijnen voor de ontwikkeling van betrouwbare persoonlijke en professionele assistenten. De dataset en code zullen beschikbaar zijn op https://github.com/open-compass/GTA.
Federated learning (FL) maakt collaboratieve intrusion detection mogelijk zonder ruwe data-uitwisseling, maar conventionele FL veroorzaakt een hoge communicatielast door de transmissie van volledig-precisiegradiënten en blijft kwetsbaar voor gradient inference-aanvallen. Dit artikel presenteert EdgeDetect, een communicatie-efficiënt en privacy-bewust gefedereerd IDS voor bandbreedte-beperkte 6G-IoT-omgevingen. EdgeDetect introduceert gradient smartification, een op mediaan gebaseerde statistische binarisatie die lokale updates comprimeert tot {+1,-1}-representaties, waardoor de uplink-payload 32 keer wordt verkleind terwijl convergentie behouden blijft. We integreren verder Paillier homomorfe encryptie over gebinariseerde gradiënten, wat bescherming biedt tegen honest-but-curious servers zonder individuele updates bloot te leggen. Experimenten op CIC-IDS2017 (2,8M flows, 7 aanvalsklassen) tonen 98,0% multi-class nauwkeurigheid en 97,9% macro F1-score, wat overeenkomt met gecentraliseerde baseline-resultaten, terwijl de communicatie per ronde wordt gereduceerd van 450 MB naar 14 MB (96,9% reductie). Implementatie op Raspberry Pi-4 bevestigt haalbaarheid aan de edge: 4,2 MB geheugen, 0,8 ms latentie en 12 mJ per inferentie met <0,5% nauwkeurigheidsverlies. Onder 5% poisoning-aanvallen en ernstige onbalans handhaaft EdgeDetect 87% nauwkeurigheid en 0,95 F1-score voor minderheidsklassen (p<0,001), waarmee een praktische balans tussen nauwkeurigheid, communicatie en privacy wordt gevestigd voor intrusion detection van de volgende generatie aan de edge.
Wij presenteren AccelOpt, een zichzelf verbeterend agent-systeem op basis van een groot taalmodel (LLM) dat autonoom kernels optimaliseert voor opkomende AI-accelerators, zonder dat hiervoor hardware-specifieke optimalisatiekennis van experts nodig is. AccelOpt verkent de kernel-optimalisatieruimte via iteratieve generatie, ondersteund door een optimalisatiegeheugen dat ervaringen en inzichten beheert van eerder tegengekomen langzaam-snel kernelparen. Wij hebben NKIBench ontwikkeld, een nieuwe benchmark-suite met kernels voor AWS Trainium-accelerators van uiteenlopende complexiteit, ontleend aan real-world LLM-workloads, om de effectiviteit van AccelOpt te evalueren. Onze evaluatie bevestigt dat de capaciteit van AccelOpt in de loop van de tijd verbetert, waarbij het gemiddelde percentage van de piekdoorvoer stijgt van 49% naar 61% op Trainium 1 en van 45% naar 59% op Trainium 2 voor de NKIBench-kernels. Bovendien is AccelOpt zeer kosteneffectief: met open-source modellen evenaart het de kernelverbeteringen van Claude Sonnet 4, terwijl het 26 keer goedkoper is. De code is open-source beschikbaar op https://github.com/zhang677/AccelOpt.
Video-to-Speech (VTS)-generatie heeft als doel spraak te synthetiseren uit een stille video zonder auditieve signalen. Bestaande VTS-methoden negeren echter de hiërarchische aard van spraak, die zich uitstrekt van grove sprekergebonden semantiek tot fijnmazige prosodische details. Deze omissie belemmert een directe afstemming tussen visuele en spraakkenmerken op specifieke hiërarchische niveaus tijdens kenmerkkoppeling. In dit artikel maken we gebruik van de hiërarchische structuur van op Residual Vector Quantization (RVQ) gebaseerde codecs en presenteren HiCoDiT, een nieuwe Hierarchical Codec Diffusion Transformer die de inherente hiërarchie van discrete spraaktokens benut om een sterke audiovisuele afstemming te bereiken. Concreet, omdat tokens op lager niveau grove sprekergebonden semantiek coderen en tokens op hoger niveau fijnmazige prosodie vastleggen, gebruikt HiCoDiT blokken op laag en hoog niveau om tokens op verschillende niveaus te genereren. De blokken op laag niveau conditioneren op lipgesynchroniseerde beweging en gezichtsidentiteit om sprekergebonden inhoud vast te leggen, terwijl de blokken op hoog niveau gezichtsuitdrukkingen gebruiken om prosodische dynamiek te moduleren. Ten slotte introduceren we, om effectievere conditionering van grof naar fijn mogelijk te maken, een dual-scale adaptive instance layer normalization die globaal vocale stijl gezamenlijk vastlegt via kanaalsgewijze normalisatie en lokale prosodische dynamiek via temporele normalisatie. Uitgebreide experimenten tonen aan dat HiCoDiT baseline-methoden overtreft in geloofwaardigheid en expressiviteit, wat het potentieel van discrete modellering voor VTS onderstreept. De code en spraakdemo zijn beide beschikbaar op https://github.com/Jiaxin-Ye/HiCoDiT.
Wij testen of de architecturale evolutie van kunstmatige intelligentie dezelfde statistische wetten volgt als biologische evolutie. Door 935 ablatie-experimenten uit 161 publicaties te verzamelen, tonen we aan dat de verdeling van fitnesseffecten (DFE) van architectuurwijzigingen een zwaarstaartige Student's t-verdeling volgt. De verhoudingen (68% nadelig, 19% neutraal, 13% gunstig voor grote ablaties, n=568) plaatsen KI tussen compacte virale genomen en eenvoudige eukaryoten. De vorm van de DFE komt overeen met die van *D. melanogaster* (genormaliseerde KS=0.07) en *S. cerevisiae* (KS=0.09); de verhoogde fractie gunstige mutaties (13% versus 1-6% in de biologie) kwantificeert het voordeel van gerichte zoektocht ten opzichte van blinde zoektocht, terwijl de verdelingsvorm behouden blijft. Architecturale oorsprong volgt logistische dynamiek (R²=0.994) met punctuated equilibria en adaptieve radiatie in domeinniches. Veertien architecturale kenmerken werden onafhankelijk 3-5 keer uitgevonden, wat parallel loopt met biologische convergenties. Deze resultaten demonstreren dat de statistische structuur van evolutie substraatonafhankelijk is, en wordt bepaald door de topologie van het fitnesslandschap in plaats van het selectiemechanisme.
Het paradigma van agent-gebaseerde wetenschap vereist dat AI-systemen robuuste redeneervaardigheden bezitten en in staat zijn tot langetermijn, autonome exploratie. Huidige wetenschappelijke benchmarks beperken zich echter tot domeinkennisbegrip en complex redeneren, zonder de exploratieve aard en procedurele complexiteit van real-world onderzoek te evalueren. In dit werk presenteren we onderzoeksgerichte evaluaties in theoretische en computationele natuurkunde – een natuurlijke testomgeving met uitgebreide domeinkennis, complex redeneervermogen en verifieerbare end-to-end werkstromen die niet afhankelijk zijn van experimenten. Wij introduceren PRL-Bench (Physics Research by LLMs), een benchmark ontworpen om de grenzen van LLM-capaciteiten voor end-to-end natuurkundeonderzoek systematisch in kaart te brengen. Opgebouwd uit 100 gecureerde artikelen uit de nieuwste edities van Physical Review Letters sinds augustus 2025 en gevalideerd door domeinexperts, bestrijkt PRL-Bench vijf belangrijke theorie- en computation-intensieve subvelden van de moderne natuurkunde: astrofysica, gecondenseerde materie, hoge-energiefysica, kwantuminformatie en statistische fysica. Elke taak in de benchmark is ontworpen om de kernkenmerken van authentiek wetenschappelijk onderzoek na te bootsen, waaronder exploratiegerichte formulering, langetermijnwerkstromen en objectieve verifieerbaarheid, waardoor de essentiële redeneerprocessen en onderzoekswerkstromen van echt natuurkundeonderzoek worden gereconstrueerd. Evaluatie van frontier-modellen toont dat prestaties beperkt blijven, met de beste overall score onder de 50, wat een duidelijke kloof onthult tussen huidige LLM-capaciteiten en de eisen van echt wetenschappelijk onderzoek. PRL-Bench dient als betrouwbare testomgeving voor de ontwikkeling van AI-wetenschappers van de volgende generatie die AI-systemen richting autonome wetenschappelijke ontdekkingen vooruithelpen.
De zoektocht naar algemeen inzetbare robotica heeft indrukwekkende foundation-modellen opgeleverd, maar op simulatie gebaseerde benchmarking blijft een knelpunt door snelle prestatieverzadiging en een gebrek aan echte generalisatietests. Bestaande benchmarks vertonen vaak een aanzienlijke domeinoverlap tussen training en evaluatie, wat succespercentages trivialiseert en inzicht in robuustheid verhult. Wij introduceren RoboLab, een simulatiebenchmarkingframework ontworpen om deze uitdagingen aan te pakken. Concreet is ons framework ontworpen om twee vragen te beantwoorden: (1) in hoeverre kunnen we de prestaties van een real-world policy begrijpen door het gedrag ervan in simulatie te analyseren, en (2) welke externe factoren dat gedrag het sterkst beïnvloeden onder gecontroleerde perturbaties. Ten eerste stelt RoboLab menselijk geschreven en door LLM gegenereerde creatie van scènes en taken mogelijk op een robot- en policy-agnostische manier binnen een fysisch realistische en fotorealistische simulatie. Hiermee stellen we de RoboLab-120 benchmark voor, bestaande uit 120 taken gecategoriseerd in drie competentie-assen: visuele, procedurele en relationele competentie, over drie moeilijkheidsniveaus. Ten tweede introduceren we een systematische analyse van real-world policies die zowel hun prestaties als de gevoeligheid van hun gedrag voor gecontroleerde perturbaties kwantificeert, wat aangeeft dat hoogwaardige simulatie kan dienen als proxy voor het analyseren van prestaties en hun afhankelijkheid van externe factoren. Evaluatie met RoboLab legt een significante prestatiekloof bloot in huidige state-of-the-art modellen. Door gedetailleerde metrieken en een schaalbaar toolset te bieden, biedt RoboLab een schaalbaar framework voor het evalueren van de ware generalisatiecapaciteiten van taakgeneralistische robotica-policies.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft een katalysator gevormd voor significante vooruitgang in de redeneervermogens van Large Language Models (LLM's). Het effectief beheren van de afweging tussen exploratie en exploitatie blijft echter een kritieke uitdaging. In dit artikel analyseren wij grondig het exploratie- en exploitatie-dilemma van extreem moeilijke en eenvoudige samples tijdens de training en stellen een nieuw fijnmazig afwegingsmechanisme voor. Concreet introduceren we een ontvlechtingsstrategie voor de perplexiteitsruimte, die de sample-ruimte verdeelt in afzonderlijke exploratie- (hoge perplexiteit) en exploitatie-subruimtes (lage perplexiteit), waardoor fijnmazige samples die een exploratie-exploitatie-afweging vereisen, worden blootgelegd. Vervolgens stellen we een bidirectioneel beloningstoewijzingsmechanisme voor met een minimale impact op de verificatiebeloningen, om perplexiteit-gestuurde exploratie en exploitatie te implementeren, wat een stabielere beleidsoptimalisatie mogelijk maakt. Ten slotte hebben we onze methode geëvalueerd op twee hoofdstroomtaken: wiskundig redeneren en functie-aanroeping. De experimentele resultaten tonen de superioriteit van de voorgestelde methode aan en bevestigen de effectiviteit ervan bij het verbeteren van de LLM-prestaties door middel van een fijnmazige exploratie-exploitatie-afweging.
Bestaande benchmarks voor toolgebruik door LLM-agenten zijn overweldigend lineair: onze analyse van zes benchmarks toont aan dat 55 tot 100% van de instanties eenvoudige ketens van 2 tot 5 stappen zijn. Wij introduceren The Amazing Agent Race (AAR), een benchmark met gerichte acyclische graaf (DAG) puzzels (of "etappes") met fork-merge toolketens. Wij publiceren 1.400 instanties in twee varianten: sequentieel (800 etappes) en compositioneel (600 DAG-etappes). Agenten moeten door Wikipedia navigeren, meerstaps toolketens uitvoeren en resultaten aggregeren tot een verifieerbaar antwoord. Etappes worden procedureel gegenereerd vanuit Wikipedia-startpunten over vier moeilijkheidsniveaus met live-API-validatie. Drie complementaire metrieken (eindstreepnauwkeurigheid, pitstop-bezoekfrequentie en roadblock-voltooiingspercentage) diagnosticeren afzonderlijk navigatie-, toolgebruiks- en rekenfouten. Na evaluatie van drie agentframeworks op 1.400 etappes, behaalt de beste slechts 37,2% nauwkeurigheid. Navigatiefouten domineren (27 tot 52% van de pogingen), terwijl toolgebruiksfouten onder de 17% blijven, en de agentarchitectuur is even belangrijk als de modelschaal (Claude Code evenaart Codex CLI op 37% met 6x minder tokens). De compositionele structuur van AAR onthult dat agenten niet falen in het aanroepen van tools, maar in het navigeren naar de juiste pagina's, een blinde vlek die onzichtbaar is voor lineaire benchmarks. De projectpagina is te vinden op: https://minnesotanlp.github.io/the-amazing-agent-race
Dit artikel biedt een overzicht van de NTIRE 2026 Challenge voor Video Saliency Prediction. Het doel voor de deelnemers aan de challenge was het ontwikkelen van automatische methoden voor het voorspellen van saliency maps voor de verstrekte videosequenties. Voor deze challenge werd een nieuwe dataset samengesteld met 2.000 uiteenlopende video's onder een open licentie. De fixaties en bijbehorende saliency maps werden verzameld door middel van crowdsourced muistracking en bevatten kijkgegevens van meer dan 5.000 beoordelaars. De evaluatie werd uitgevoerd op een subset van 800 testvideo's met behulp van algemeen geaccepteerde kwaliteitsmetrieken. De challenge trok meer dan 20 teams die inzendingen deden, waarvan 7 teams de finale fase met code-review passeerden. Alle data die in deze challenge wordt gebruikt, is publiekelijk beschikbaar gesteld - https://github.com/msu-video-group/NTIRE26_Saliency_Prediction.
Segmentatie van ductaal adenocarcinoom van de pancreas (PDAC) op contrastversterkte CT-scans is inherent ambigu: de onenigheid tussen beoordelaars onder experts weerspiegelt een werkelijke onzekerheid in plaats van annotatieruis. Standaard deep learning-benaderingen gaan uit van één enkele grondwaarheid en produceren probabilistische uitvoeren die slecht gekalibreerd en moeilijk interpreteerbaar kunnen zijn onder dergelijke ambiguïteit. Wij presenteren TwinTrack, een raamwerk dat deze kloof dicht door een post-hoc kalibratie van ensemble-segmentatiewaarschijnlijkheden naar de empirische gemiddelde menselijke respons (MHR) – de fractie van expert-annotatoren die een voxel als tumor labelen. Gekalibreerde kansen zijn zo direct interpreteerbaar als de verwachte proportie annotatoren die het tumorlabel toekennen, waarbij de onenigheid tussen beoordelaars expliciet wordt gemodelleerd. De voorgestelde post-hoc kalibratieprocedure is eenvoudig en vereist slechts een kleine multi-rater kalibratieset. Het verbetert consistent de kalibratiemetrics ten opzichte van standaardbenaderingen bij evaluatie op de MICCAI 2025 CURVAS-PDACVI multi-rater benchmark.
Naarmate AI-gestuurde videoproductie steeds praktischer wordt, is instructiegestuurd videobewerken essentieel geworden om gegenereerd of opgenomen beeldmateriaal te verfijnen volgens professionele eisen. Desalniettemin ontbreekt het het veld nog steeds zowel aan een grootschalige, door mensen geannoteerde dataset met complete bewerkingsvoorbeelden als aan een gestandaardiseerde evaluatiemethode voor het vergelijken van bewerkingssystemen. Bestaande bronnen zijn beperkt door hun kleine omvang, ontbrekende bewerkte uitvoer of het ontbreken van kwaliteitslabels door mensen, terwijl huidige evaluatie vaak afhankelijk is van dure handmatige inspectie of generieke vision-language model-beoordelaars die niet gespecialiseerd zijn in bewerkingskwaliteit. Wij introduceren VEFX-Dataset, een door mensen geannoteerde dataset met 5.049 videobewerkingsvoorbeelden verdeeld over 9 hoofd- en 32 subcategorieën, elk gelabeld langs drie ontkoppelde dimensies: Instructievolging, Renderkwaliteit en Bewerkingsspecificiteit. Voortbouwend op VEFX-Dataset stellen we VEFX-Reward voor, een beloningsmodel specifiek ontworpen voor kwaliteitsbeoordeling van videobewerkingen. VEFX-Reward verwerkt gezamenlijk de bronvideo, de bewerkinstructie en de bewerkte video, en voorspelt per-dimensie kwaliteitsscores via ordinale regressie. Verder brengen we VEFX-Bench uit, een benchmark met 300 geselecteerde video-prompt paren voor gestandaardiseerde vergelijking van bewerkingssystemen. Experimenten tonen aan dat VEFX-Reward sterker overeenkomt met menselijke oordelen dan generieke VLM-beoordelaars en eerdere beloningsmodellen, zowel op standaard IQA/VQA-metrics als bij evaluatie van groepsgewijze voorkeuren. Door VEFX-Reward als evaluator te gebruiken, benchmarken we representatieve commerciële en open-source videobewerkingssystemen, wat een aanhoudende kloof aan het licht brengt tussen visuele geloofwaardigheid, instructievolging en bewerkingslocaliteit in huidige modellen.
Wij presenteren ArtifactNet, een lichtgewicht raamwerk dat door AI gegenereerde muziek detecteert door het probleem te herformuleren als forensische fysica – het extraheren en analyseren van de fysieke artefacten die neurale audiocodecs onvermijdelijk afdrukken op gegenereerde audio. Een bounded-mask UNet (ArtifactUNet, 3.6M parameters) extraheert codec-residualen uit magnitude spectrogrammen, die vervolgens via HPSS worden ontbonden in 7-kanaals forensische kenmerken voor classificatie door een compacte CNN (0.4M parameters; 4.0M totaal). Wij introduceren ArtifactBench, een multi-generator evaluatiebenchmark bestaande uit 6.183 nummers (4.383 AI van 22 generators en 1.800 echt van 6 diverse bronnen). Elk nummer is getagged met `bench_origin` voor een eerlijke zero-shot evaluatie. Op de onzichtbare testpartitie (n=2.263) behaalt ArtifactNet een F1 = 0.9829 met FPR = 1.49%, vergeleken met CLAM (F1 = 0.7576, FPR = 69.26%) en SpecTTTra (F1 = 0.7713, FPR = 19.43%) geëvalueerd onder identieke condities met gepubliceerde checkpoints. Codec-aware training (4-weg WAV/MP3/AAC/Opus augmentatie) reduceert de kruis-codec waarschijnlijkheidsdrift verder met 83% (Delta = 0.95 -> 0.16), waardoor de primaire codec-invariantie foutmodus wordt opgelost. Deze resultaten vestigen forensische fysica – directe extractie van codec-niveau artefacten – als een meer generaliseerbaar en parameter-efficiënt paradigma voor AI-muziekdetectie dan representation learning, met 49x minder parameters dan CLAM en 4.8x minder dan SpecTTTra.