Dagelijks geselecteerde AI onderzoekspapers met vertalingen
OpenClaw heeft zich snel gevestigd als een toonaangevende open-source runtime voor autonome agents, met krachtige mogelijkheden zoals toolintegratie, lokale bestandstoegang en de uitvoering van shell-commando's. Deze brede operationele privileges introduceren echter kritieke beveiligingslekken, waardoor modelfouten kunnen transformeren in tastbare systeemniveau-bedreigingen, zoals het lekken van gevoelige gegevens, escalatie van privileges en de uitvoering van kwaadaardige third-party skills. Bestaande beveiligingsmaatregelen voor het OpenClaw-ecosysteem zijn sterk gefragmenteerd en behandelen slechts geïsoleerde fasen van de agent-lifecycle in plaats van holistische bescherming te bieden. Om deze kloof te overbruggen, presenteren we ClawKeeper, een realtime beveiligingsframework dat multidimensionale beschermingsmechanismen integreert over drie complementaire architectuurlagen. (1) Skill-gebaseerde bescherming opereert op instructieniveau en injecteert gestructureerd beveiligingsbeleid direct in de agentcontext om omgevingsspecifieke beperkingen en cross-platform grenzen af te dwingen. (2) Plugin-gebaseerde bescherming fungeert als een interne runtime-handhaver, biedt configuratieverharding, proactieve dreigingsdetectie en continue gedragsmonitoring gedurende de gehele uitvoeringspijplijn. (3) Watcher-gebaseerde bescherming introduceert een nieuw, ontkoppeld systeemniveau beveiligingsmiddelware dat continu de statusontwikkeling van de agent verifieert. Het maakt realtime interventie tijdens uitvoering mogelijk zonder koppeling aan de interne logica van de agent, en ondersteunt operaties zoals het stoppen van hoogrisico-acties of het afdwingen van menselijke bevestiging. Wij stellen dat dit Watcher-paradigma een sterk potentieel heeft om als fundamenteel bouwblok te dienen voor het beveiligen van autonome agentsystemen van de volgende generatie. Uitgebreide kwalitatieve en kwantitatieve evaluaties tonen de effectiviteit en robuustheid van ClawKeeper aan in diverse dreigingsscenario's. Wij geven onze code vrij.
Er is een groeiende belangstelling voor het ontwikkelen van agents die kunnen interageren met digitale platforms om autonoom zinvolle bedrijfstaken uit te voeren. Tot de onderzochte benaderingen behoren tool-augmented agents die zijn gebouwd op abstracties zoals het Model Context Protocol (MCP) en webagents die via grafische interfaces opereren. Toch is het onduidelijk of dergelijke complexe agent-systemen noodzakelijk zijn, gezien hun kosten en operationele overhead. Wij beargumenteren dat een coderende agent die alleen is uitgerust met een terminal en een bestandssysteem veel bedrijfstaken effectiever kan oplossen door rechtstreeks met platform-API's te interageren. We evalueren deze hypothese in diverse real-world systemen en tonen aan dat deze low-level terminal-agents de prestaties van complexere agent-architecturen evenaren of overtreffen. Onze bevindingen suggereren dat eenvoudige programmatische interfaces, gecombineerd met krachtige foundation-modellen, voldoende zijn voor praktische bedrijfsautomatisering.
Recente vooruitgang in diepe onderzoekssystemen is indrukwekkend, maar evaluatie blijft achter bij de werkelijke gebruikersbehoeften. Bestaande benchmarks beoordelen voornamelijk eindrapporten met vaste beoordelingsschema's, zonder het onderliggende onderzoeksproces te evalueren. De meeste bieden ook beperkte multimodale dekking, vertrouwen op synthetische taken die de complexiteit van echte queries niet weerspiegelen, en kunnen niet worden vernieuwd naarmate kennis evolueert. Om deze tekortkomingen aan te pakken, introduceren we MiroEval, een benchmark en evaluatieraamwerk voor diepe onderzoekssystemen. De benchmark omvat 100 taken (70 tekstueel, 30 multimodaal), allemaal gebaseerd op echte gebruikersbehoeften en geconstrueerd via een dual-path pijplijn die periodieke updates ondersteunt, waardoor een live en evoluerende omgeving mogelijk wordt. De voorgestelde evaluatiesuite beoordeelt diepe onderzoekssystemen langs drie complementaire dimensies: adaptieve evaluatie van synthesenkwaliteit met taakspecifieke rubrics, agent-gebaseerde feitelijkheidsverificatie via actieve retrieval en redenering over zowel webbronnen als multimodale bijlagen, en procesgerichte evaluatie die auditert hoe het systeem doorzoekt, redeneert en verfijnt tijdens zijn onderzoek. Evaluatie van 13 systemen levert drie hoofdbevindingen op: de drie evaluatiedimensies vangen complementaire aspecten van systeemcapaciteit, waarbij elk verschillende sterke en zwakke punten per systeem onthult; proceskwaliteit dient als een betrouwbare voorspeller van het algehele resultaat en onthult tegelijkertijd zwaktes die onzichtbaar zijn voor outputmetrieken; en multimodale taken vormen aanzienlijk grotere uitdagingen, waarbij de meeste systemen met 3 tot 10 punten dalen. De MiroThinker-serie behaalt de meest gebalanceerde prestaties, met MiroThinker-H1 als algemeen hoogst gerangschikt in beide settings. Menselijke verificatie en robuustheidsresultaten bevestigen de betrouwbaarheid van de benchmark en het evaluatieraamwerk. MiroEval biedt een holistisch diagnostisch hulpmiddel voor de volgende generatie van diepe onderzoeksagenten.
Achter de verbluffende visuele kwaliteit van moderne AIGC-modellen schuilt een "logische woestijn", waarin systemen falen bij taken die fysiek, causaal of complex ruimtelijk redeneren vereisen. Huidige evaluaties vertrouwen grotendeels op oppervlakkige metrieken of gefragmenteerde benchmarks, wat een "prestatiemirage" creëert die het generatieve proces over het hoofd ziet. Om dit aan te pakken, introduceren we ViGoR (Vision-Generative Reasoning-centric Benchmark), een uniform kader ontworpen om deze mirage te ontmantelen. ViGoR onderscheidt zich door vier belangrijke innovaties: 1) holistische cross-modale dekking die Image-to-Image- en Videotaken verbindt; 2) een dual-trackmechanisme dat zowel tussenprocessen als eindresultaten evalueert; 3) een op bewijzen gestoelde geautomatiseerde beoordelaar die een hoge menselijke afstemming garandeert; en 4) een gedetailleerde diagnostische analyse die prestaties opdeelt in fijnmazige cognitieve dimensies. Experimenten met meer dan 20 toonaangevende modellen onthullen dat zelfs state-of-the-art-systemen aanzienlijke redeneertekorten vertonen, waarmee ViGoR zich vestigt als een cruciale "stresstest" voor de volgende generatie intelligente visionmodellen. De demo is beschikbaar op https://vincenthancoder.github.io/ViGoR-Bench/.
Recente vooruitgang in grote taalmodellen heeft de mogelijkheden van codeeragentschappen verbeterd, maar een systematische evaluatie van complexe, end-to-end website-ontwikkeling blijft beperkt. Om deze leemte op te vullen, introduceren we Vision2Web, een hiërarchische benchmark voor visuele website-ontwikkeling, die zich uitstrekt van statische UI-naar-code-generatie, interactieve multi-pagina frontend-reproductie, tot langetermijn full-stack website-ontwikkeling. De benchmark is opgebouwd uit real-world websites en omvat in totaal 193 taken over 16 categorieën, met 918 prototype-afbeeldingen en 1.255 testgevallen. Om een flexibele, grondige en betrouwbare evaluatie te ondersteunen, stellen we een op werkstromen gebaseerd verificatieparadigma voor agentschappen voor, gebaseerd op twee complementaire componenten: een GUI-agentverificateur en een op VLM gebaseerde beoordelaar. We evalueren meerdere visuele taalmodellen geïnstantieerd onder verschillende codeeragent-frameworken, wat aanzienlijke prestatiekloonen op alle taakniveaus onthult, waarbij state-of-the-art modellen nog steeds moeite hebben met full-stack ontwikkeling.
Tijdreeksvoorspelling is cruciaal in sectoren zoals financiën, gezondheidszorg en cloudcomputing, maar de vooruitgang wordt beperkt door een fundamenteel knelpunt: het gebrek aan grootschalige, hoogwaardige benchmarks. Om deze leemte op te vullen, introduceren wij QuitoBench, een regime-gebalanceerde benchmark voor tijdreeksvoorspelling die acht trend-seizoensgebondenheid-voorspelbaarheid (TSV) regimes bestrijkt. Deze benchmark is ontworpen om voorspellingsrelevante eigenschappen vast te leggen in plaats van toepassingsgedefinieerde domeinlabels. De benchmark is gebaseerd op Quito, een tijdreekscorpus van miljarden datapunten van applicatieverkeer van Alipay, afkomstig uit negen bedrijfsdomeinen. Door 10 modellen van deep learning, foundation modellen en statistische basislijnen te testen over 232.200 evaluatie-instances, rapporteren we vier belangrijke bevindingen: (i) een contextlengte-kruispunt waar deep learning-modellen leiden bij korte context (L=96), maar foundation modellen domineren bij lange context (L ≥ 576); (ii) voorspelbaarheid is de dominante moeilijkheidsfactor, wat een 3,64 keer groter MAE-gat tussen regimes veroorzaakt; (iii) deep learning-modellen evenaren of overtreffen foundation modellen met 59 keer minder parameters; en (iv) het schalen van de hoeveelheid trainingsdata levert aanzienlijk meer voordeel op dan het schalen van de modelgrootte voor beide modelfamilies. Deze bevindingen worden bevestigd door een sterke consistentie over benchmarks en metrieken heen. Onze open-source release maakt reproduceerbare, regime-bewuste evaluatie voor tijdreeksvoorspellingsonderzoek mogelijk.
Grote taalmodellen (LLM's) die testtijd-schaalgedrag vertonen, zoals uitgebreide redeneersporen en zelfverificatie, hebben opmerkelijke prestaties geleverd bij complexe, langetermijnredeneertaken. De robuustheid van deze redeneergedragingen blijft echter onderbelicht. Om dit te onderzoeken, voeren we een systematische evaluatie uit van meerdere redeneermodellen in drie scenario's: (1) problemen aangevuld met lange, irrelevante context; (2) meerkeuzegespreksomgevingen met onafhankelijke taken; en (3) problemen gepresenteerd als een subtask binnen een complexe taak. We observeren een interessant fenomeen: redeneermodellen produceren vaak aanzienlijk kortere redeneersporen (tot 50%) voor hetzelfde probleem onder verschillende contextomstandigheden vergeleken met de sporen geproduceerd wanneer het probleem geïsoleerd wordt gepresenteerd. Een fijnmazigere analyse onthult dat deze compressie gepaard gaat met een afname van zelfverificatie- en onzekerheidsbeheergedrag, zoals dubbelchecken. Hoewel deze gedragsverschuiving de prestaties bij eenvoudige problemen niet aantast, kan dit wel invloed hebben op de prestaties bij uitdagendere taken. We hopen dat onze bevindingen extra aandacht vestigt op zowel de robuustheid van redeneermodellen als het probleem van contextbeheer voor LLM's en op LLM's gebaseerde agents.
Standaardevaluatieprotocollen onthullen een contra-intuïtief fenomeen: op 7,7% van de benchmarkproblemen uit vijf datasets presteren grotere taalmodellen 28,4 procentpunten slechter dan kleinere modellen, ondanks 10-100x meer parameters. Door systematische evaluatie van 31 modellen (0,5B-405B parameters) over 1.485 problemen identificeren we het mechanisme als spontane schaalspecifieke spraakzaamheid die fouten introduceert door overelaboratie. Causale interventie-experimenten tonen aan dat dit een corrigeerbaar promptontwerp reflecteert, niet fundamentele capaciteitsbeperkingen. Het beperken van grote modellen tot korte antwoorden verbetert de nauwkeurigheid met 26 procentpunten en verkleint prestatiekloven met tot twee derde. Cruciaal is dat beknoptheidsbeperkingen prestatiehiërarchieën volledig omkeren op wiskundige redeneer- en wetenschappelijke kennistests, waarbij grote modellen 7,7-15,9 procentpunt voordeel behalen ten opzichte van kleine modellen – een directe omkering van de oorspronkelijke kloven. Deze omkeringen bewijzen dat grote modellen superieure latente capaciteiten bezitten die universele prompting maskeert. We valideren de bevindingen via drie onafhankelijke contaminatietests en tonen aan dat inverse schaalverandering continu opereert over het volledige parameterspectrum, met datasetspecifieke optimale schalen variërend van 0,5B tot 3,0B parameters. Onze resultaten bevestigen dat het maximaliseren van grote-modelprestaties schaalbewuste promptengineering vereist, niet universele evaluatieprotocollen, met directe implicaties voor implementatie: promptaanpassing verbetert gelijktijdig nauwkeurigheid en verlaagt rekencosten.
Wij presenteren HippoCamp, een nieuwe benchmark die is ontworpen om de capaciteiten van agents te evalueren op het gebied van multimodaal bestandsbeheer. In tegenstelling tot bestaande agentbenchmarks die zich richten op taken zoals webinteractie, toolgebruik of software-automatisering in generieke omgevingen, evalueert HippoCamp agents in gebruikersgerichte omgevingen om individuele gebruikersprofielen te modelleren en massale persoonlijke bestanden te doorzoeken voor contextbewust redeneren. Onze benchmark instantieert besturingssysteemschaal-bestandssystemen op basis van real-world profielen die diverse modaliteiten omvatten, bestaande uit 42,4 GB aan data verspreid over meer dan 2.000 real-world bestanden. Op basis van de ruwe bestanden construeren we 581 vraag-antwoordparen om de capaciteiten van agents te beoordelen op het gebied van zoeken, waarneming van bewijs en meerstapsredenering. Om fijnmazige analyse te vergemakkelijken, bieden we 46.1K dicht geannoteerde gestructureerde trajecten voor stapsgewijze foutdiagnose. We evalueren een breed scala aan state-of-the-art multimodale grote taalmodel (MLLM) en agentmethoden op HippoCamp. Onze uitgebreide experimenten tonen een significante prestatiekloof: zelfs de meest geavanceerde commerciële modellen behalen slechts 48,3% nauwkeurigheid in gebruikersprofilering, waarbij ze vooral moeite hebben met retrieval over lange horizonten en cross-modale redenering binnen dichte persoonlijke bestandssystemen. Bovendien identificeert onze stapsgewijze foutdiagnose multimodale perceptie en evidence grounding als de primaire knelpunten. Uiteindelijk legt HippoCamp de kritieke beperkingen van huidige agents in realistische, gebruikersgerichte omgevingen bloot en biedt het een robuuste basis voor de ontwikkeling van volgende-generatie persoonlijke AI-assistenten.
Wij introduceren PerceptionComp, een handmatig geannoteerde benchmark voor complexe, lang-horizon, perceptie-gerichte videoredenering. PerceptionComp is zo ontworpen dat geen enkel moment op zichzelf voldoende is: het beantwoorden van elke vraag vereist meerdere temporeel gescheiden stukken visueel bewijs en compositionele beperkingen onder conjunctieve en sequentiële logica, die zich uitstrekken over perceptuele subtaken zoals objecten, attributen, relaties, locaties, handelingen en gebeurtenissen, en die vaardigheden vereisen zoals semantische herkenning, visuele correspondentie, temporele redenering en ruimtelijke redenering. De benchmark bevat 1.114 zeer complexe vragen over 279 video's uit uiteenlopende domeinen, waaronder stadswandelingen, villa-rondleidingen binnenshuis, videogames en extreme outdoorsporten, met 100% handmatige annotatie. Menselijke studies tonen aan dat PerceptionComp aanzienlijk nadenken tijdens de test en herhaalde perceptiestappen vereist: deelnemers doen er veel langer over dan bij eerdere benchmarks, en de nauwkeurigheid daalt tot bijna toeval (18,97%) wanneer het opnieuw bekijken van de video niet is toegestaan. State-of-the-art MLLM's presteren ook aanzienlijk slechter op PerceptionComp dan op bestaande benchmarks: het beste model in onze evaluatie, Gemini-3-Flash, haalt slechts 45,96% nauwkeurigheid in de setting met vijf keuzes, terwijl open-source modellen onder de 40% blijven. Deze resultaten suggereren dat perceptie-gerichte lang-horizon videoredenering een groot knelpunt blijft, en wij hopen dat PerceptionComp de vooruitgang in perceptuele redenering zal helpen bevorderen.
De opkomst van test-time scaling heeft de redeneer- en agentvaardigheden van Large Language Models (LLM's) aanzienlijk verbeterd. Toch slagen standaard Transformers er niet in om inference-berekeningskracht efficiënt op te schalen, omdat conventionele loopingstrategieën te kampen hebben met een hoge computationele overhead en een KV-cache die meegroeit met de modeldiepte. Wij presenteren Universal YOCO (YOCO-U), dat de YOCO decoder-decoder-architectuur combineert met recursieve berekening om een synergetisch effect te bereiken dat groter is dan elk afzonderlijk. Gebouwd op het YOCO-framework, implementeert YOCO-U een Universele Self-Decoder die meerdere iteraties uitvoert via parameter sharing, terwijl het iteratieve proces wordt beperkt tot ondiepe, efficient-attention lagen. Deze combinatie levert een gunstige capability-efficiency trade-off op die noch YOCO noch recursie alleen bereikt. De YOCO-architectuur biedt een constante globale KV-cache en lineair pre-filling, terwijl partiële recursie de representatiediepte verbetert met beperkte overhead. Samen verbetert YOCO-U de token utility en scaling behavior terwijl efficiënte inference behouden blijft. Empirische resultaten bevestigen dat YOCO-U zeer concurrerend blijft in algemene en long-context benchmarks, wat aantoont dat de integratie van efficient-attention architecturen en recursieve berekening een veelbelovende richting is voor schaalbare LLM's.
De meest recente vooruitgang in 3D-generatieve modellering berust op diffusie- of flow-matching-formuleringen. Wij onderzoeken in plaats daarvan een volledig autoregressief alternatief en introduceren GaussianGPT, een transformer-gebaseerd model dat direct 3D-gaussische verdelingen genereert via next-token-predictie, waardoor volledige 3D-scènegeneratie wordt gefaciliteerd. We comprimeren eerst gaussische primitieven in een discreet latent grid met behulp van een sparse 3D convolutioneel auto-encoder met vectorquantisatie. De resulterende tokens worden geserialiseerd en gemodelleerd met een causale transformer met 3D roterende positionele inbedding, wat sequentiële generatie van ruimtelijke structuur en uiterlijk mogelijk maakt. In tegenstelling tot diffusiegebaseerde methoden die scènes holistisch verfijnen, construeert onze formulering scènes stap-voor-stap, wat op natuurlijke wijze ondersteuning biedt voor voltooiing, uitbreiding (outpainting), controleerbare sampling via temperatuur en flexibele generatiehorizons. Deze formulering benut de compositionele inductieve vooroordelen en schaalbaarheid van autoregressieve modellering, terwijl wordt gewerkt met expliciete representaties die compatibel zijn met moderne neurale renderpipelines. Dit positioneert autoregressieve transformers als een complementair paradigma voor controleerbare en contextbewuste 3D-generatie.
Kan een groot taalmodel (LLM) beter worden in codegeneratie door alleen zijn eigen ruwe outputs te gebruiken, zonder verificator, een leraarmodel of reinforcement learning? Wij beantwoorden deze vraag bevestigend met eenvoudige zelf-distillatie (SSD): we sample oplossingen van het model met bepaalde temperatuur- en truncatieconfiguraties, en fine-tunen vervolgens op die samples met standaard supervised fine-tuning. SSD verbetert Qwen3-30B-Instruct van 42.4% naar 55.3% pass@1 op LiveCodeBench v6, waarbij de winst zich concentreert op moeilijkere problemen, en het generaliseert over Qwen- en Llama-modellen op 4B, 8B en 30B schaal, inclusief zowel instruct- als denkvarianten. Om te begrijpen waarom zo'n eenvoudige methode kan werken, herleiden we deze winst naar een precisie-exploratieconflict in LLM-decodering en tonen we aan dat SSD tokenverdelingen op een contextafhankelijke manier hervormt, waarbij het afleidende staarten onderdrukt waar precisie belangrijk is, terwijl het nuttige diversiteit behoudt waar exploratie belangrijk is. Samengevat biedt SSD een complementaire richting voor post-training om LLM-codegeneratie te verbeteren.
Dit artikel introduceert het eerste systematische evaluatiekader voor het kwantificeren van de kwaliteit en risico's van artikelen geschreven door moderne codeeragenten. Hoewel AI-gestuurd artikelenschrijven een groeiende zorg is geworden, blijft rigoureuze evaluatie van de kwaliteit en potentiële risico's van AI-geschreven artikelen beperkt, en ontbreekt het nog aan een eenduidig begrip van hun betrouwbaarheid. Wij introduceren Paper Reconstruction Evaluation (PaperRecon), een evaluatiekader waarbij een overzicht (overview.md) wordt gemaakt van een bestaand artikel, waarna een agent een volledig artikel genereert op basis van het overzicht en minimale aanvullende bronnen, en het resultaat vervolgens wordt vergeleken met het originele artikel. PaperRecon ontwart de evaluatie van AI-geschreven artikelen in twee orthogonale dimensies: Presentatie en Hallucinatie, waarbij Presentatie wordt geëvalueerd met een rubric en Hallucinatie wordt beoordeeld via agent-gebaseerde evaluatie verankerd in de originele artikelbron. Voor de evaluatie introduceren we PaperWrite-Bench, een benchmark met 51 artikelen uit top-tier conferenties across diverse domeinen, gepubliceerd na 2025. Onze experimenten tonen een duidelijke trade-off aan: hoewel zowel ClaudeCode als Codex verbeteren met modelvooruitgang, behaalt ClaudeCode een hogere presentatiekwaliteit ten koste van meer dan 10 hallucinaties per artikel gemiddeld, terwijl Codex minder hallucinaties produceert maar een lagere presentatiekwaliteit. Dit werk zet een eerste stap naar het opzetten van evaluatiekaders voor AI-gestuurd artikelenschrijven en het verbeteren van het begrip van de risico's ervan binnen de onderzoeksgemeenschap.
3D Visuele Gronding (3D-VG) heeft als doel objecten in 3D-scènes te lokaliseren aan de hand van beschrijvingen in natuurlijke taal. Hoewel recente vooruitgang met Vision-Language Models (VLMs) zero-shot mogelijkheden heeft verkend, lijden deze doorgaans onder een statische werkstroom die afhankelijk is van voorbewerkte 3D-puntenwolken, wat gronding in wezen degradeert tot voorstel-matching. Om deze afhankelijkheid te omzeilen, is onze kernmotivatie om de taak te ontkoppelen: gebruikmakend van 2D-VLMs om complexe ruimtelijke semantiek op te lossen, terwijl wordt vertrouwd op deterministische multi-view geometrie om de 3D-structuur te instantiëren. Gedreven door dit inzicht stellen we "Think, Act, Build (TAB)" voor, een dynamisch agent-gebaseerd framework dat 3D-VG-taken herformuleert als een generatief 2D-naar-3D reconstructieparadigma dat rechtstreeks op ruwe RGB-D streams opereert. Specifiek, geleid door een gespecialiseerde 3D-VG-vaardigheid, roept onze VLM-agent dynamisch visuele tools aan om het doelwit over 2D-frames te volgen en te reconstrueren. Cruciaal is dat, om het multi-view dekkingstekort veroorzaakt door strikte VLM semantische tracking te overwinnen, we de Semantisch-Verankerde Geometrische Expansie introduceren, een mechanisme dat eerst het doelwit verankert in een referentievideofragment en vervolgens multi-view geometrie benut om de ruimtelijke locatie ervan te propageren over niet-geobserveerde frames. Hierdoor kan de agent de 3D-representatie van het doelwit "Bouwen" door deze multi-view kenmerken samen te voegen via cameraparameters, waarbij 2D visuele aanwijzingen direct worden gemapt naar 3D-coördinaten. Verder, om een rigoureuze beoordeling te waarborgen, identificeren we gebreken zoals referentie-ambiguïteit en categoriefouten in bestaande benchmarks en verfijnen we de incorrecte queries handmatig. Uitgebreide experimenten op ScanRefer en Nr3D tonen aan dat ons framework, dat volledig vertrouwt op open-source modellen, aanzienlijk beter presteert dan eerdere zero-shot methoden en zelfs volledig supervised baseline-methoden overtreft.
Proactieve agents die gebruikersbehoeften anticiperen en taken autonoom uitvoeren, zijn veelbelovend als digitale assistenten, maar het gebrek aan realistische gebruikerssimulatiekaders belemmert hun ontwikkeling. Bestaande benaderingen modelleren apps als platte tool-calling API's, waardoor de stateful en sequentiële aard van gebruikersinteractie in digitale omgevingen niet wordt vastgelegd en realistische gebruikerssimulatie onhaalbaar blijft. Wij introduceren Proactive Agent Research Environment (Pare), een raamwerk voor het bouwen en evalueren van proactieve agents in digitale omgevingen. Pare modelleert applicaties als eindige toestandsautomaten met stateful navigatie en een toestandsafhankelijke actieruimte voor de gebruikerssimulator, wat actieve gebruikerssimulatie mogelijk maakt. Op deze basis presenteren we Pare-Bench, een benchmark met 143 uiteenlopende taken op het gebied van communicatie, productiviteit, planning en lifestyle-apps, ontworpen om contextobservatie, doelafleiding, interventietiming en multi-app-orchestratie te testen.
Kennisdistillatie is uitgegroeid tot een primair mechanisme voor het overdragen van redeneer- en domeinexpertise van geavanceerde grote taalmodellen (LLM's) naar kleinere, inzetbare studentmodellen. Het dominante paradigma blijft echter off-policy: studentmodellen trainen op statische, door de leraar gegenereerde data en komen hun eigen fouten tijdens het leren nooit tegen. Deze train-test-mismatch, een vorm van exposure bias, zorgt ervoor dat voorspellingsfouten zich autoregressief opstapelen tijdens de inferentiefase. On-Policy Distillatie (OPD) lost dit op door de student zelf trajecten te laten genereren en feedback van de leraar te ontvangen op deze zelfgegenereerde outputs, waardoor distillatie wordt verankerd in de theorie van interactief imitatieleren. Ondanks een snelle groei die divergentieminimalisatie, beloningsgestuurd leren en zelfspel omvat, blijft de OPD-literatuur gefragmenteerd zonder een uniforme aanpak. Dit overzichtsartikel biedt de eerste uitgebreide synthese van OPD voor LLM's. Wij introduceren een uniform f-divergentieraamwerk over on-policy steekproeven en structureren het landschap langs drie orthogonale dimensies: feedbacksignaal (op logits gebaseerd, op uitkomsten gebaseerd, of zelfspel), toegang tot de leraar (white-box, black-box, of leraarvrij), en verliesgranulariteit (tokenniveau, sequentieniveau, of hybride). We analyseren systematisch representatieve methoden, onderzoeken industriële implementaties en identificeren open problemen, waaronder schaalwetten voor distillatie, onzekerheidsbewuste feedback en distillatie op agentniveau.
Vision-Language-Action (VLA)-modellen hebben als doel robots aan te sturen voor manipulatie op basis van visuele waarnemingen en instructies in natuurlijke taal. Bestaande hiërarchische en autoregressieve paradigma's brengen echter vaak architecturale overhead met zich mee, lijden onder temporele inconsistentie en foutaccumulatie op lange termijn, en missen een mechanisme om omgevingsdynamiek vast te leggen zonder extra modules. Daarom presenteren wij MMaDA-VLA, een volledig native, vooraf getraind groot VLA-diffusiemodel dat multimodaal begrip en generatie verenigt in één enkel raamwerk. Onze kernidee is een native discrete diffusieformulering die taal, beelden en continue robotacties in één discrete tokenruimte inbedt en een enkele backbone traint met gemaskeerde token-denoising om parallel een toekomstige doelwaarneming en een actieblok gezamenlijk te genereren. Iteratieve denoising maakt wereldwijde, volgordevrije verfijning mogelijk, wat de consistentie op lange termijn verbetert terwijl acties worden verankerd in voorspelde toekomstige visuele uitkomsten, zonder hulpwereldmodellen. Experimenten in simulatiebenchmarks en real-world taken tonen state-of-the-art prestaties aan, met een gemiddeld succespercentage van 98,0% op LIBERO en een gemiddelde lengte van 4,78 op CALVIN.
De afgelopen jaren hebben de schaalwetten van aanbevelingsmodellen steeds meer aandacht gekregen, die de relatie tussen prestaties en parameters/FLOPs van aanbevelers beheersen. Momenteel zijn er drie hoofdarchitecturen voor het realiseren van schaling in aanbevelingsmodellen, namelijk op aandacht gebaseerde, op TokenMixer gebaseerde en op factorisatiemachines gebaseerde methoden, die fundamentele verschillen vertonen in zowel ontwerpfilosofie als architectuurstructuur. In dit artikel stellen we een uniforme schaalarchitectuur voor aanbevelingssystemen voor, genaamd UniMixer, om de schaalefficiëntie te verbeteren en een uniform theoretisch kader te creëren dat de hoofdstroom schaalblokken verenigt. Door de op regels gebaseerde TokenMixer om te zetten naar een equivalente geparametriseerde structuur, construeren we een gegeneraliseerde geparametriseerde kenmengmodule die toelaat dat de tokenmengpatronen worden geoptimaliseerd en geleerd tijdens de modeltraining. Tegelijkertijd verwijdert de gegeneraliseerde geparametriseerde tokenmenging de beperking in TokenMixer die vereist dat het aantal koppen gelijk is aan het aantal tokens. Verder stellen we een uniform ontwerpkader voor schaalmodules voor aanbevelingssystemen op, dat de verbindingen legt tussen op aandacht gebaseerde, op TokenMixer gebaseerde en op factorisatiemachines gebaseerde methoden. Om de schaal-ROI verder te vergroten, is een lichtgewicht UniMixing-module ontworpen, UniMixing-Lite, die de modelparameters en rekenkosten verder comprimeert terwijl de modelprestaties aanzienlijk worden verbeterd. De schaalcurves worden getoond in de volgende figuur. Uitgebreide offline en online experimenten worden uitgevoerd om de superieure schaalvermogens van UniMixer te verifiëren.
LLM-gebaseerde winkelagenten vertrouwen steeds meer op lange aankoopgeschiedenissen en meerronde interacties voor personalisatie, maar het naïef toevoegen van ruwe geschiedenis aan prompts is vaak ineffectief vanwege ruis, lengte en relevantieverschillen. Wij stellen MemRerank voor, een voorkeursgeheugenraamwerk dat gebruikersaankoopgeschiedenis destilleert tot beknopte, query-onafhankelijke signalen voor gepersonaliseerde productherrangschikking. Om dit probleem te bestuderen, bouwen we een end-to-end benchmark en evaluatieraamwerk rond een op LLM gebaseerde 1-op-5-selectietaak, die zowel geheugenkwaliteit als downstream herrangschikkingsnut meet. We trainen de geheugenextractor verder met reinforcement learning (RL), waarbij downstream herrangschikkingsprestaties als supervisie dienen. Experimenten met twee LLM-gebaseerde herrangschikkers tonen aan dat MemRerank consequent beter presteert dan geen-geheugen, ruwe-geschiedenis en kant-en-klare geheugen-benchmarks, met een verbetering tot +10,61 absolute punten in 1-op-5 nauwkeurigheid. Deze resultaten suggereren dat expliciet voorkeursgeheugen een praktische en effectieve bouwsteen is voor personalisatie in agent-gebaseerde e-commercesystemen.
Multi-LLM-revisiepijplijnen, waarbij een tweede model een door een eerste model geproduceerd concept beoordeelt en verbetert, worden algemeen verondersteld hun winst te halen uit daadwerkelijke foutcorrectie. Wij betwijfelen deze aanname met een gecontroleerd decompositie-experiment dat vier gematchte condities gebruikt om de winst van de tweede ronde op te splitsen in drie additieve componenten: opnieuw oplossen, scaffold en inhoud. We evalueren dit ontwerp over twee modelparen op drie benchmarks die kennisintensieve MCQ en competitief programmeren omvatten. Onze resultaten tonen aan dat de winst van multi-LLM-revisie niet monolithisch is, maar afhangt van taakstructuur, conceptkwaliteit en het type conceptinformatie. Bij MCQ-taken, waar de antwoordruimte beperkt is en concepten weinig structurele richtlijn bieden, is het merendeel van de winst consistent met het opnieuw oplossen door het sterkere model, en kan het direct doorsturen van vragen naar het sterkere model effectiever zijn dan het reviseren van een zwak concept. Bij codegeneratietaken blijft tweefasen-prompting echter nuttig omdat zelfs semantisch nul-concepten aanzienlijke structurele scaffolding kunnen bieden, terwijl zwakke conceptinhoud schadelijk kan zijn. Ten slotte tonen rolomgekeerde experimenten aan dat sterke concepten zwakke reviewers duidelijk ten goede komen. Uiteindelijk demonstreren onze bevindingen dat de bruikbaarheid van multi-LLM-revisie dynamisch wordt gebottleneckd door taakstructuur en conceptkwaliteit, wat gerichtere pijplijnontwerpen vereist in plaats van algemene revisiestrategieën.
2D-montagediagrammen zijn vaak abstract en moeilijk te volgen, wat de behoefte creëert aan intelligente assistenten die de voortgang kunnen monitoren, fouten kunnen detecteren en stapsgewijze begeleiding kunnen bieden. In mixed reality-omgevingen moeten dergelijke systemen voltooide en lopende stappen uit de camerabeelden herkennen en afstemmen op de instructies in het diagram. Vision Language Models (VLMs) tonen potentieel voor deze taak, maar kampen met een afbeeldingskloof omdat montagediagrammen en videobeelden weinig visuele kenmerken delen. Om deze kloof systematisch te beoordelen, construeren we IKEA-Bench, een benchmark met 1.623 vragen verdeeld over 6 taaktypen voor 29 IKEA-meubelproducten, en evalueren we 19 VLMs (2B-38B) onder drie afstemmingsstrategieën. Onze belangrijkste bevindingen: (1) begrip van montage-instructies is herstelbaar via tekst, maar tekst verslechtert tegelijkertijd de diagram-naar-video-afstemming; (2) de architectuurfamilie voorspelt de afstemmingsnauwkeurigheid sterker dan het aantal parameters; (3) videobegrip blijft een hard knelpunt dat ongevoelig is voor de strategie. Een mechanistische analyse op drie niveaus toont verder aan dat diagrammen en video zich in gescheiden ViT-deelruimtes bevinden, en dat het toevoegen van tekst modellen verschuift van visueel naar tekstgedreven redeneren. Deze resultaten identificeren visuele codering als het primaire doel voor het verbeteren van robuustheid bij kruisende afbeeldingen. Projectpagina: https://ryenhails.github.io/IKEA-Bench/
Moderne grote taalmodelen (LLM's) zijn in toenemende mate afhankelijk van efficiënte mechanismen voor het verwerken en genereren van lange contexten, waaronder *sparse attention*, *retrieval-augmented generation* (RAG) en gecomprimeerd contextueel geheugen, om complex redeneren te ondersteunen. Wij tonen aan dat deze optimalisaties kunnen worden samengebracht in een pijplijn voor geheugenverwerking met vier stappen: Geheugen Voorbereiden, Relevantie Bepalen, Ophalen en Toepassen bij Inferentie. Door middel van systematische profilering identificeren we een overhead voor geheugenverwerking van 22% tot 97% bij LLM-inferentie en een sterke heterogeniteit in de rekenkundige karakteristieken ervan. Gemotiveerd door dit inzicht, stellen wij dat heterogene systemen bij uitstek geschikt zijn om de geheugenverwerking en daarmee de end-to-end inferentie te versnellen. Wij demonstreren deze aanpak op een GPU-FPGA-systeem door spaarzame, onregelmatige en geheugengebonden bewerkingen uit te besteden aan FPGA's, terwijl rekenintensieve bewerkingen op GPU's worden gehandhaafd. Geëvalueerd op een AMD MI210 GPU en een Alveo U55C FPGA is ons systeem 1,04 tot 2,2 keer sneller en verbruikt het 1,11 tot 4,7 keer minder energie bij diverse LLM-inferentie-optimalisaties in vergelijking met de GPU-basislijn (vergelijkbare resultaten gelden voor NVIDIA A100). Deze resultaten vestigen heterogene systemen als een praktische richting voor efficiënte LLM-geheugenverwerking en geven richting aan toekomstig heterogeen hardware-ontwerp.
Naarmate op LLM gebaseerde agents in productiesystemen worden ingezet, wordt het begrip van hun gedragsconsistentie (of ze vergelijkbare actievolgordes produceren bij identieke taken) cruciaal voor betrouwbaarheid. Wij bestuderen consistentie in de context van SWE-bench, een uitdagende software-engineeringbenchmark die complexe, meerstaps redenering vereist. Door Claude 4.5 Sonnet, GPT-5 en Llama-3.1-70B te vergelijken over elk 50 runs (10 taken maal 5 runs), constateren we dat bij alle modellen hogere consistentie samengaat met hogere nauwkeurigheid: Claude behaalt de laagste variantie (CV: 15,2%) en hoogste nauwkeurigheid (58%), GPT-5 is intermediair (CV: 32,2%, nauwkeurigheid: 32%), en Llama toont de hoogste variantie (CV: 47,0%) met de laagste nauwkeurigheid (4%). Echter, binnen een model kan consistentie zowel correcte als incorrecte interpretaties versterken. Onze analyse onthult een cruciaal nuance: consistentie versterkt uitkomsten in plaats van correctheid te garanderen. 71% van Claude's fouten ontstaat door "consistente verkeerde interpretatie": het herhaaldelijk maken van dezelfde incorrecte aanname. Interessant is dat GPT-5 een vergelijkbare vroege strategische overeenkomst bereikt als Claude (afwijkend bij stap 3,4 versus 3,2), maar een 2,1 keer hogere variantie vertoont, wat suggereert dat enkel de timing van divergentie de consistentie niet bepaalt. Deze bevindingen suggereren dat voor productie-inzet de interpretatienauwkeurigheid belangrijker is dan uitvoeringsconsistentie, met implicaties voor de evaluatie en training van agents.
Wij onderzoeken of agenten voor telefoongebruik de privacy respecteren bij het uitvoeren van onschadelijke mobiele taken. Deze vraag is tot nu toe moeilijk te beantwoorden geweest omdat privacyconform gedrag niet is geoperationaliseerd voor dergelijke agenten, en gewone apps niet onthullen welke gegevens agenten precies in welke formuliervelden invoeren tijdens de uitvoering. Om deze vraag meetbaar te maken, introduceren wij MyPhoneBench, een verifieerbaar evaluatiekader voor privacygedrag bij mobiele agenten. Wij operationaliseren privacyrespectvol telefoongebruik als toegang op basis van toestemming, minimale gegevensopenbaarmaking en gebruikersgecontroleerd geheugen via een minimale privacyovereenkomst, iMy. Dit koppelen wij aan geïnstrumenteerde mock-apps en op regels gebaseerde auditing die onnodige machtigingsverzoeken, misleidende her-openbaarmaking en onnodig formulierinvullen observeerbaar en reproduceerbaar maken. Op basis van vijf toonaangevende modellen, getest op 10 mobiele apps en 300 taken, concluderen wij dat taaksucces, privacyconforme taakuitvoering en het latere gebruik van opgeslagen voorkeuren verschillende capaciteiten zijn. Geen enkel model presteert op alle drie de aspecten het beste. Gezamenlijke evaluatie van succes en privacy leidt tot een andere modelrangschikking dan bij afzonderlijke beoordeling van elke metriek. De meest hardnekkige foutmodus bij alle modellen is eenvoudige gegevensminimalisatie: agenten vullen nog steeds optionele persoonlijke velden in die de taak niet vereist. Deze resultaten tonen aan dat privacyschendingen ontstaan door een overdreven behulpzame uitvoering van onschadelijke taken, en dat evaluatie uitsluitend op succes de implementatiegereedheid van huidige agenten voor telefoongebruik overschat. Alle code, mock-apps en agenttrajecten zijn openbaar beschikbaar op https://github.com/tangzhy/MyPhoneBench.
Met ongeveer 48 uitgevoerde en geverifieerde HumanEval-trainingsoplossingen presteert het afstemmen van een enkele initiële toestandsmatrix per recurrente laag, zonder inference-overhead, 10,8 procentpunt beter dan LoRA (p < 0,001) op HumanEval. De methode, die we S0-tuning noemen, optimaliseert één toestandsmatrix per recurrente laag terwijl alle modelgewichten worden bevroren. Op Qwen3.5-4B (GatedDeltaNet-hybride) verbetert S0-tuning de greedy pass@1 met +23,6 +/- 1,7 pp (10 seeds). Op FalconH1-7B (Mamba-2-hybride) bereikt S0-tuning 71,8% +/- 1,3 en LoRA 71,4% +/- 2,4 (3 seeds), statistisch niet te onderscheiden bij deze steekproefgrootte, zonder gewichtsmerging. Cross-domeintransfer is significant op MATH-500 (+4,8 pp, p = 0,00002, 8 seeds) en GSM8K (+2,8 pp, p = 0,0003, 10 seeds); een text-to-SQL-benchmark (Spider) toont geen transfer, in overeenstemming met het trajectory-steering-mechanisme. Een prefix-tuning-controle op een pure Transformer (Qwen2.5-3B) verslechtert de prestaties met -13,9 pp onder alle negen geteste configuraties. Op Qwen3.5 bereikt een per-stap state-offset-variant +27,1 pp, hoger dan zowel S0-tuning als LoRA, maar met inference-kosten per stap. Samen genomen tonen de resultaten aan dat initialisatie van de recurrente toestand een sterk PEFT-oppervlak is zonder inference-overhead voor hybride taalmodelen wanneer geverifieerde supervisie schaars is. De afgestemde toestand is een bestand van ~48 MB; taskwisseling vereist geen gewichtsmerging of modelherlading. Code en bibliotheek: https://github.com/jackyoung27/s0-tuning.
Naarmate LLM-agenten evolueren van korte, statische probleemoplossing naar de uitvoering van complexe, langetermijntaken in dynamische omgevingen, wordt het vermogen om gebruikersonderbrekingen – zoals het toevoegen van vereisten of het herzien van doelen – tijdens de taakuitvoering een kernvereiste voor realistische inzet. Bestaande benchmarks veronderstellen echter grotendeels ononderbroken agentgedrag of bestuderen onderbrekingen alleen in korte, onbeperkte taaltaken. In dit artikel presenteren we de eerste systematische studie van onderbreekbare agenten in langetermijn, omgevingsgebonden webnavigatietaken, waarbij acties persistente statuswijzigingen veroorzaken. We formaliseren drie realistische onderbrekingstypes, waaronder toevoeging, herziening en intrekking, en introduceren InterruptBench, een benchmark afgeleid van WebArena-Lite die hoogwaardige onderbrekingsscenario's synthetiseert onder strikte semantische beperkingen. Met behulp van een uniform simulatiekader voor onderbrekingen evalueren we zes sterke LLM-backbones in enkel- en meervoudige onderbrekingssettings, waarbij we zowel hun effectiviteit in het aanpassen aan geüpdatete intenties als hun efficiëntie in het herstellen van wijzigingen tijdens de taak analyseren. Onze resultaten tonen aan dat het effectief en efficiënt afhandelen van gebruikersonderbrekingen tijdens langetermijn agenttaken een uitdaging blijft voor krachtige grootschalige LLM's. Code en dataset zijn beschikbaar op https://github.com/HenryPengZou/InterruptBench.
Grote taalmodellen (LLM's) en hun toepassingen, zoals agents, zijn zeer kwetsbaar voor prompt injection-aanvallen. State-of-the-art methoden voor het detecteren van prompt injection hebben de volgende beperkingen: (1) hun effectiviteit neemt significant af naarmate de contextlengte toeneemt, en (2) ze ontberen expliciete regels die definiëren wat als prompt injection wordt beschouwd, waardoor detectiebeslissingen impliciet, ondoorzichtig en moeilijk te beredeneren zijn. In dit werk stellen we AgentWatcher voor om de bovenstaande twee beperkingen aan te pakken. Om de eerste beperking aan te pakken, schrijft AgentWatcher de output van het LLM (bijvoorbeeld de actie van een agent) toe aan een kleine set causaal invloedrijke contextsegmenten. Door de detectie te richten op een relatief korte tekst, kan AgentWatcher schaalbaar zijn voor lange contexten. Om de tweede beperking aan te pakken, definiëren we een set regels die specificeren wat wel en niet als prompt injection wordt beschouwd, en gebruiken we een monitor-LLM om over deze regels te redeneren op basis van de toegeschreven tekst, waardoor de detectiebeslissingen beter verklaarbaar worden. We voeren een uitgebreide evaluatie uit op benchmarks voor tool-use agents en datasets voor lang-contextbegrip. De experimentele resultaten tonen aan dat AgentWatcher effectief prompt injection kan detecteren en de functionaliteit kan behouden zonder aanvallen. De code is beschikbaar op https://github.com/wang-yanting/AgentWatcher.
Nauwkeurige slaapstadiëring is essentieel voor de diagnose van OSA en hypopneu bij patiënten met een beroerte. Hoewel PSG betrouwbaar is, is het kostbaar, arbeidsintensief en handmatig gescoord. Hoewel deep learning geautomatiseerde, op EEG gebaseerde slaapstadiëring bij gezonde proefpersonen mogelijk maakt, toont onze analyse een slechte generalisatie naar klinische populaties met verstoorde slaap. Met behulp van Grad-CAM-interpretaties demonstreren we deze beperking systematisch. Wij introduceren iSLEEPS, een nieuw klinisch geannoteerde dataset voor ischemische beroerte (die openbaar wordt vrijgegeven), en evalueren een SE-ResNet plus bidirectioneel LSTM-model voor slaapstadiëring op basis van enkelkanaals EEG. Zoals verwacht is de prestaties tussen verschillende domeinen (gezonde en zieke proefpersonen) slecht. Aandachtsvisualisaties, ondersteund door feedback van klinische experts, tonen aan dat het model zich in patiëntendata richt op fysiologisch niet-informatieve EEG-regio's. Statistische en computationele analyses bevestigen verder significante verschillen in slaaparchitectuur tussen gezonde en ischemische beroertecohorten, wat de noodzaak benadrukt van subjectbewuste of ziektespecifieke modellen met klinische validatie vóór implementatie. Een samenvatting van het artikel en de code is beschikbaar op https://himalayansaswatabose.github.io/iSLEEPS_Explainability.github.io/.