Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente grote taalmodellen (GTM's) hebben sterke capaciteiten getoond in het begrijpen en genereren van code, van competitief programmeren tot software-engineering op repository-niveau. In opkomende agentische systemen is code niet langer alleen een doeluitvoer. Het dient steeds vaker als een operationeel substraat voor het redeneren van agenten, handelen, modelleren van de omgeving en uitvoeringsgebaseerde verificatie. We plaatsen deze verschuiving in het perspectief van agentenharnassen en introduceren code als agentenharnas: een uniforme visie die code centraal stelt als basis voor agentinfrastructuur. Om dit perspectief systematisch te bestuderen, organiseren we het overzicht rond drie verbonden lagen. Ten eerste bestuderen we de harnasinterface, waar code agenten verbindt met redeneren, handelen en omgevingsmodellering. Ten tweede onderzoeken we harnasmechanismen: planning, geheugen en toolgebruik voor uitvoering op lange termijn, samen met feedbackgestuurde controle en optimalisatie die het harnas betrouwbaar en adaptief maken. Ten derde bespreken we het opschalen van het harnas van single-agentsystemen naar multi-agentomgevingen, waar gedeelde code-artefacten multi-agentcoördinatie, -beoordeling en -verificatie ondersteunen. Over deze lagen heen vatten we representatieve methoden en praktische toepassingen van code als agentenharnas samen, variërend van codeerassistenten, GUI/OS-automatisering, belichaamde agenten, wetenschappelijke ontdekkingen, personalisatie en aanbevelingen, DevOps en bedrijfswerkstromen. Verder schetsen we openstaande uitdagingen voor harnasengineering, waaronder evaluatie verder dan alleen taaksucces, verificatie onder onvolledige feedback, regressievrije harnasverbetering, consistente gedeelde toestand over meerdere agenten, menselijk toezicht voor veiligheidskritische acties, en uitbreidingen naar multimodale omgevingen. Door code centraal te stellen als het harnas van agentische AI, biedt dit overzicht een uniforme routekaart naar uitvoerbare, verifieerbare en toestandsbewuste AI-agentsystemen.
LLM-agenten met een lange horizon laten sporen achter die herbruikbare ervaring kunnen worden, maar ruwe trajecten zijn lawaaierig en moeilijk te beheersen. Wij behandelen Agentvaardigheden als een ervaringsschema dat uitvoerbare scripts koppelt aan niet-uitvoerbare richtlijnen voor procedures. Toch bevatten open vaardigheidsecosystemen redundante, ongelijke en omgevingsgevoelige artefacten, en kunnen ongedifferentieerde updates toekomstige context vervuilen. We presenteren SkillsVote, een raamwerk voor levenscyclusbesturing van Agentvaardigheden, van verzameling en aanbeveling tot evolutie. SkillsVote profiteert een open-source corpus op miljoenschaal voor omgevingsvereisten, kwaliteit en verifieerbaarheid, en synthetiseert vervolgens taken voor verifieerbare vaardigheden. Vóór uitvoering voert SkillsVote een agentische bibliotheekzoekopdracht uit over een gestructureerde vaardigheidsbibliotheek om instructieve vaardigheidscontext bloot te leggen. Na uitvoering ontleedt het trajecten in vaardigheid-gerelateerde deeltaken, kent uitkomsten toe aan vaardigheidsgebruik, agentverkenning, omgeving en resultaatsignalen, en laat alleen succesvolle herbruikbare ontdekkingen toe tot bewijsgestuurde updates. In onze evaluatie verbetert offline evolutie GPT-5.2 op Terminal-Bench 2.0 met tot wel 7,9 procentpunt, terwijl online evolutie SWE-Bench Pro verbetert met tot wel 2,6 procentpunt. Algemeen kunnen beheerste externe vaardigheidsbibliotheken bevroren agenten verbeteren zonder modelupdates, wanneer systemen blootstelling, toekenning en behoud beheersen.
We presenteren LongLive-2.0, een op NVFP4 gebaseerde parallelle infrastructuur voor zowel de training als de inferentie van langdurige videogeneratie, die snelheids- en geheugenknelpunten aanpakt. Voor training introduceren we sequentie-parallelle autoregressieve (AR) training, geïmplementeerd als Balanced SP, die een efficiënte teacher-forcing-layout ontwerpt in samenhang met SP-uitvoering door schone-geschiedenis- en ruis-doel-temporele chunks op elke rank te combineren. Dit maakt een natuurlijk teacher-forcing-masker mogelijk met SP-bewuste chunked VAE-codering. In combinatie met NVFP4-precisie vermindert dit het GPU-geheugengebruik en versnelt het GEMM-berekeningen tijdens training, waarvan het aandeel toeneemt naarmate de videolengte groeit. Bovendien tonen we aan dat een hoogwaardige infrastructuur en dataset een opmerkelijk schoon trainingsproces mogelijk maken. In tegenstelling tot bestaande Self-Forcing-series die afhankelijk zijn van ODE-initialisatie en daaropvolgende distributie-matching-destillatie (DMD), stemt LongLive-2.0 een diffusiemodel direct af tot een lang, multi-shot, interactief autoregressief (AR) diffusiemodel. Het kan verder worden omgezet naar real-time generatie (4 tot 2 denoising-stappen) met standalone LoRA-gewichten. Voor inferentie op Blackwell GPU's schakelen we W4A4 NVFP4-inferentie in, kwantiseren we de KV-cache naar NVFP4 voor geheugenbesparing, en verhogen we de end-to-end doorvoer met asynchrone streaming VAE-decodering. Op niet-Blackwell GPU-architecturen implementeren we SP-inferentie om de snelheid van Blackwell GPU's te evenaren, terwijl de gekwantiseerde KV-cache de inter-GPU-communicatie van SP kan verminderen. Experimenten tonen tot 2,15x versnelling in training en 1,84x in inferentie. LongLive-2.0-5B behaalt 45,7 FPS inferentie met sterke prestaties op benchmarks. Naar ons weten is LongLive-2.0 het eerste NVFP4-trainings- en inferentiesysteem voor langdurige videogeneratie.
Wij presenteren Lance, een lichtgewicht native verenigd model dat multimodale begrip, generatie en bewerking voor zowel afbeeldingen als video's ondersteunt. In plaats van te vertrouwen op schaling van modelcapaciteit of tekst-afbeelding-dominante ontwerpen, verkent Lance een praktisch paradigma voor verenigd multimodaal modelleren via collaboratieve multi-taak training. Het is gebaseerd op twee kernprincipes: verenigde contextmodellering en ontkoppelde capaciteitspaden. Specifiek wordt Lance vanaf nul getraind en maakt het gebruik van een dual-stream mixture-of-experts architectuur op gedeelde interleaved multimodale sequenties, wat gezamenlijk contextleren mogelijk maakt terwijl de paden voor begrip en generatie worden ontkoppeld. We introduceren verder modaliteitsbewuste rotatiepositiescodering om interferentie tussen heterogene visuele tokens te verminderen en cross-taak afstemming te verbeteren. Tijdens de training hanteert Lance een getrapt multi-taak trainingsparadigma met capaciteitsgerichte doelstellingen en adaptieve dataplanning om zowel semantisch begrip als visuele generatieprestaties te versterken. Experimentele resultaten tonen aan dat Lance aanzienlijk beter presteert dan bestaande open-source verenigde modellen in beeld- en videogeneratie, terwijl het sterke multimodale begripscapaciteiten behoudt. De homepage is beschikbaar op https://lance-project.github.io.
AI-ondersteund onderzoek overschrijdt een drempel: volledig geautomatiseerde systemen kunnen nu onderzoeksartikelen genereren voor slechts $15, terwijl agenten met een lange horizon experimenten kunnen uitvoeren, manuscripten kunnen opstellen en kritiek kunnen simuleren met minimale menselijke inbreng. Toch legt deze productiviteitsgrens een dieperliggend integriteitsprobleem bloot: onder wetenschappelijke druk verzinnen zelfs geavanceerde LLM's resultaten, zien ze verborgen fouten over het hoofd en zijn ze niet in staat om nieuwigheid betrouwbaar te beoordelen. Door ontwikkelingen tot april 2026 te bestuderen, presenteren we een end-to-end-analyse van AI over de volledige onderzoekslevenscyclus, georganiseerd in vier epistemologische fasen: Creatie (ideeëngeneratie, literatuuronderzoek, codering en experimenten, tabellen en figuren), Schrijven (het schrijven van papers), Validatie (peer review, weerwoord en revisie) en Disseminatie (posters, dia's, video's, sociale media, projectpagina's en interactieve agenten). We identificeren een scherpe, faseafhankelijke grens tussen betrouwbare assistentie en onbetrouwbare autonomie: AI blinkt uit in gestructureerde, op retrievel gebaseerde en tool-gemedieerde taken, maar blijft kwetsbaar voor werkelijk nieuwe ideeën, experimenten op onderzoeksniveau en wetenschappelijk oordeel. Gegenereerde ideeën verslechteren vaak na implementatie, onderzoekscode blijft ver achter bij patroonherkenningsbenchmarks, en end-to-end autonome systemen hebben nog niet consistent de acceptatienormen van grote conferenties gehaald. We tonen verder aan dat grotere automatisering faalwijzen kan verhullen in plaats van elimineren, waardoor mensgestuurde samenwerking het meest geloofwaardige implementatieparadigma is. Tot slot bieden we een gestructureerde taxonomie, benchmarksuite en toolinventaris, faseoverstijgende ontwerpprincipes en een praktijkgerichte handleiding, met bronnen die worden bijgehouden op onze projectpagina.
End-to-end automatisering van realistische gezondheidszorgoperaties benadrukt drie mogelijkheden die ondervertegenwoordigd zijn in huidige benchmarks: beleidsdichtheid: beslissingen moeten gebaseerd zijn op een grote bibliotheek van medische, verzekerings- en operationele regels; multi-rol compositie: een enkele taak vereist dat de agent meerdere rollen vervult met overdrachten; en multilaterale interactie: tussenstappen in de workflow zijn dialogen met meerdere beurten, zoals peer-to-peer beoordeling en patiëntbenadering. We introduceren χ-Bench, een benchmark van langetermijngezondheidszorgworkflows in drie domeinen: voorafgaande toestemming van zorgverleners, gebruiksbeheer door betalers en zorgmanagement. Elke taak geeft de agent een klinische casus in een high-fidelity simulator van 20 gezondheidszorgapps die worden blootgesteld via 87 MCP-tools, die het moet brengen naar een eindstatus via toolaanroepen en het schrijven van de artefacten van de rol, geleid door een vaardigheid gebaseerd op een handboek voor managed-care operaties van meer dan 1.290 documenten. Over 30 configuraties van agent-harnas/modellen heen, lost de beste agent slechts 28,0% van de taken op, geen enkele agent haalt 20% op strikte pass^3, en het uitvoeren van alle taken in een enkele sessie laat de prestatie dalen tot 3,8%. Deze resultaten doen de hypothese rijzen dat soortgelijke hiaten waarschijnlijk naar voren zullen komen in andere beleidsdichte, rol-gecomponeerde, onomkeerbare bedrijfsdomeinen.
Het ontwerpen van realistische en functionele 3D-binnenruimtes is essentieel voor een breed scala aan toepassingen, waaronder interieurontwerp, virtual reality, gaming en belichaamde AI. Hoewel recente op MLLM gebaseerde benaderingen veel potentieel hebben getoond voor 3D-kamersynthese op basis van tekstuele beschrijvingen of referentieafbeeldingen, schieten tekstgebaseerde methoden tekort in het vastleggen van precieze ruimtelijke informatie, en bestaande beeldgestuurde agenten lijden onder instabiliteit en oneindige lussen wanneer ze worden belast met holistische kamergeneratie vanuit bovenaanzichten. Om deze beperkingen aan te pakken, stellen wij Code-as-Room voor, een op MLLM gebaseerd agentisch raamwerk dat is uitgerust met een gestructureerd uitvoeringskader en 3D-ruimtes voorstelt met Blender-codes. Gegeven een bovenaanzicht van een kamer, ontleedt het raamwerk de referentieafbeelding om scène-elementen en hun ruimtelijke relaties te extraheren, en synthetiseert het uitvoerbare Blender-code voor geometrie, materialen en belichting in een principiële, meertrapspijplijn. Gedurende het proces wordt een kruisfasen-geheugenmodule onderhouden om contextvergeten, inherent aan bestaande agentgebaseerde raamwerken, te beperken. Verder introduceren wij een speciale benchmark voor codegebaseerde 3D-kamersynthese, die verschillende evaluatieprotocollen omvat. Op basis van onze benchmark worden uitgebreide vergelijkingen met bestaande agentgebaseerde methoden uitgevoerd om de effectiviteit van ons voorgestelde uitvoeringskader te valideren.
Het afstemmen van streamende autoregressieve (AR) videogeneratoren op menselijke voorkeuren is uitdagend. Bestaande methoden voor versterkingsleren zijn voornamelijk afhankelijk van op ruis gebaseerde exploratie en op SDE (stochastische differentiaalvergelijking) gebaseerde surrogaatbeleidsregels, die niet aansluiten bij de deterministische ODE-dynamica (gewone differentiaalvergelijking) van gedistilleerde AR-modellen, en de neiging hebben om laagniveau-uiterlijk te verstoren in plaats van de kritische hoog-niveau semantische verhaallijnvoortgang die van belang is voor coherentie over lange horizon. Om deze beperkingen aan te pakken, presenteren wij KVPO, een ODE-native online Group Relative Policy Optimization (GRPO)-raamwerk voor het afstemmen van streamende videogeneratoren. Voor diversiteitsexploratie introduceert KVPO een causaal-semantisch exploratieparadigma dat de bron van variatie verplaatst van stochastische ruis naar de historische KV-cache. Door stochastisch historische KV-entry's te routeren, worden semantisch diverse generatietakken geconstrueerd die strikt op het datamanifold blijven. Voor beleidsmodellering introduceert KVPO een snelheidsveld-surrogaatbeleid op basis van Trajectory Velocity Energy (TVE), dat de waarschijnlijkheid van takken kwantificeert in de flow-matching snelheidsruimte en leidt tot een beloningsgewogen contrastief doel dat volledig consistent is met de native ODE-formulering. Experimenten op meerdere gedistilleerde AR-videogeneratoren tonen consistente verbeteringen aan in visuele kwaliteit, bewegingskwaliteit en tekst-video-afstemming, zowel in enkelvoudige prompt korte video- als meervoudige prompt lange video-omgevingen.
Recent vooruitgang in formeel stellingen bewijzen heeft geprofiteerd van grootschalige bewijsgeneratie en verifier-bewuste training, maar agentisch bewijzen wordt zelden geïntegreerd in provertraining en verschijnt alleen tijdens inferentie. We presenteren OProver, een uniform raamwerk voor agentisch formeel stellingen bewijzen in Lean 4, waarin mislukte bewijspogingen iteratief worden herzien met behulp van opgehaalde compiler-geverifieerde bewijzen en Lean compiler-feedback. OProver wordt getraind door voortgezet voortrainen gevolgd door iteratief natrainen: elke iteratie voert agentisch bewijzen uit, indexeert nieuw geverifieerde bewijzen in OProofs en het retrievalgeheugen, gebruikt reparatietrajecten als SFT-data, en gebruikt onopgeloste moeilijke gevallen voor RL. OProofs is opgebouwd uit openbare Lean-bronnen, grootschalige bewijssynthese en agentische bewijssporen en bevat 1,77M Lean-verklaringen, 6,86M compiler-geverifieerde bewijzen en geserialiseerde trajecten met opgehaalde context, mislukte pogingen, feedback en reparaties. Over vijf benchmarks heen behaalt OProver-32B de beste Pass@32 op MiniF2F (93,3%), ProverBench (58,2%) en PutnamBench (11,3%), en staat het op de tweede plaats op MathOlympiad (22,8%) en ProofNet (33,2%), met meer topplaatsingen dan enige eerdere open-gewicht whole-proof prover.
Mixture-of-Experts (MoE) schaalt taalmodellen efficiënt door schaarse expertactivering, en de dynamische variant vermindert verdere berekening door de geactiveerde experts aan te passen afhankelijk van de invoer. Bestaande dynamische MoE-methoden vertrouwen meestal op training vanaf nul of taakspecifieke aanpassing, waardoor de praktische conversie van volledig getrainde MoE onderbelicht blijft. Het mogelijk maken van een dergelijke aanpassing zou de inferentiekosten direct verlichten door makkelijke tokens onnodige experts te laten omzeilen tijdens het gebruik. Dit artikel introduceert Zero-Expert Self-Distillation Adaptation (ZEDA), een goedkoop raamwerk dat post-getrainde statische MoE-modellen omzet in efficiënte dynamische modellen. Om deze architecturale conversie te stabiliseren, injecteert ZEDA parameter-vrije nul-uitvoer experts in elke MoE-laag en past het het uitgebreide model aan via tweefasen zelfdestillatie, waarbij de originele MoE wordt gebruikt als een bevroren docent en een balanceringsverlies op groepsniveau wordt toegepast. Op Qwen3-30B-A3B en GLM-4.7-Flash over 11 benchmarks verspreid over wiskunde, code en instructievolging, elimineert ZEDA meer dan 50% van de expert FLOPs met marginaal nauwkeurigheidsverlies. Het presteert beter dan de sterkste dynamische MoE-baseline met 6,1 en 4,0 punten op de twee modellen, en levert een ~1,20 keer end-to-end inferentiesnelheidsverhoging.
Grote Visie-Taalmodellen (Large Vision-Language Models, LVLMs) hebben aanzienlijke vooruitgang geboekt op het gebied van videobegrip, maar ze staan voor substantiële uitdagingen bij taken die precieze ruimtelijk-temporele lokalisatie op exemplaarniveau vereisen. Bestaande methoden vertrouwen voornamelijk op tekstuele aanwijzingen voor mens-modelinteractie, maar deze aanwijzingen kunnen geen precieze ruimtelijke en temporele referenties bieden, wat leidt tot een slechte gebruikerservaring. Bovendien koppelen huidige benaderingen doorgaans visuele perceptie los van taalredenering, waarbij het redeneren om taal draait in plaats van om visuele inhoud, wat het vermogen van het model om proactief fijnmazig visueel bewijsmateriaal waar te nemen beperkt. Om deze uitdagingen aan te pakken, introduceren we VideoSeeker, een nieuw paradigma voor videobegrip op exemplaarniveau via visuele aanwijzingen. VideoSeeker integreert naadloos agentisch redeneren met taken voor videobegrip op exemplaarniveau, waardoor het model proactief relevante videosegmenten kan waarnemen en ophalen op aanvraag. We bouwen een uit vier fasen bestaande volledig geautomatiseerde datasynthese-pijplijn om efficiënt grootschalige, hoogwaardige videogegevens op exemplaarniveau te genereren. We internaliseren gereedschapsaanroeping en proactieve perceptiecapaciteiten in het model via koude-start supervisie en RL-training, en bouwen zo een krachtig videobegripmodel. Experimenten tonen aan dat ons model een gemiddelde verbetering van +13,7% ten opzichte van baselines behaalt op taken voor videobegrip op exemplaarniveau, waarmee het krachtige closed-source modellen zoals GPT-4o en Gemini-2.5-Pro overtreft, terwijl het ook effectieve overdraagbaarheid vertoont op algemene videobegrip-benchmarks. De relevante datasets en code zullen openbaar worden gemaakt.
De fundamentele uitdaging bij het opschalen van Video Large Language Modellen (Video-LLMs) naar lange video's ligt in het beheersen van de explosie van de contextlengte van visuele tokens. Bestaande strategieën richten zich voornamelijk op 'post-hoc' tokenreductie: het verminderen van visuele tokens na feature-extractie om de rekenkundige overhead van het LLM te verlichten. Hoewel deze methoden effectief het aantal visuele tokens verminderen, constateren wij dat de primaire latentieknelpunt vervolgens verschuift van het LLM naar de kostbare verwerking per frame door de visie-encoder. Om dit aan te pakken introduceren wij LiteFrame, een krachtige maar zeer efficiënte video-encoder backbone voor Video-LLMs. Voor het trainen van LiteFrame stellen wij Compressed Token Distillation (CTD) voor, een nieuw trainingsraamwerk dat een compacte student-visie-encoder leert om rechtstreeks informatie-dichte, ruimtelijk-temporeel gecomprimeerde representaties te voorspellen die door een groot docent-visiemodel worden geproduceerd, waardoor overbodige berekeningen effectief worden omzeild. In combinatie met verdere Taalmodeladaptatie (LMA) resulteert deze aanpak in een nieuwe latentie-nauwkeurigheid Pareto-grens – vergeleken met InternVL3-8B biedt LiteFrame een reductie van 35% in end-to-end latentie terwijl het 8 keer zoveel frames verwerkt en de gemiddelde video-begripnauwkeurigheid over meerdere benchmarks verbetert. Onze resultaten tonen een nieuw potentieel pad aan om langer durend videobegrip te ontgrendelen onder een vast rekenbudget.
Grote Redeneringsmodellen (LRM's) behalen sterke prestaties door lange denkketens (CoT) te genereren, maar hebben de neiging te overdenken: ze blijven redeneren nadat een oplossing al gestabiliseerd is, wat leidt tot verspilling van tokens en toegenomen latentie. Bestaande vroege-uitstapmethoden tijdens inferentie vertrouwen voornamelijk op antwoordniveausignalen, zoals vertrouwen of consistentie van proefantwoorden, om te beslissen wanneer te stoppen. Deze signalen weerspiegelen echter voornamelijk de gereedheid van het antwoord, niet de convergentie van het redeneren: ze kunnen worden geactiveerd voordat het model klaar is met verkennen of zelfcorrigeren, wat leidt tot voortijdige uitstappen die de nauwkeurigheid van het uiteindelijke antwoord kunnen verminderen en de bewaarde redeneerketen semantisch onvolledig maken. Wij identificeren semantische redundantie op redeneerniveau als een complementair signaal voor semantiekbehoudende vroege uitstap: wanneer opeenvolgende stappen geen nieuwe vooruitgang meer boeken en in plaats daarvan terugkeren naar gevestigde conclusies, is het redeneringstraject waarschijnlijk geconvergeerd. Voortbouwend op dit inzicht introduceren wij PUMA, een plug-and-play raamwerk dat een lichte Redundantiedetector combineert met verificatie op antwoordniveau. De detector markeert semantisch redundante kandidaat-uitstapmomenten, terwijl verificatie bevestigt of stoppen veilig is, waardoor PUMA redundante voortzetting kan verwijderen terwijl zowel de antwoordnauwkeurigheid als een coherente redeneervoorvoegsel behouden blijft. Over vijf LRM's en vijf uitdagende redeneerbenchmarks heen bereikt PUMA een gemiddelde tokenreductie van 26,2%, met behoud van nauwkeurigheid en bewaarde CoT-kwaliteit. Aanvullende experimenten op het gebied van codegeneratie, zero-shot visie-taalredenering en geïnternaliseerd aangeleerd stopbeleid tonen verder aan dat redundantie op redeneerniveau een robuust, overdraagbaar en leerbaar signaal is voor efficiënt redeneren. Onze code is beschikbaar op https://github.com/giovanni-vaccarino/PUMA.
Het dynamisch bereik van activaties is een eersteklas beperking voor laag-bit kwantisatie, activatieschaling en stabiele LLM-inferentie. Eerder werk karakteriseerde uitbijterkenmerken en massale activaties op pre-2024 LLaMA-achtige modellen, en de stroomafwaartse activatie-kwantisatiestack erft dat beeld zonder het te herzien voor de post-LLaMA open-model boom. We stellen de implementatiegerichte vraag: hoe groot kunnen activaties worden in moderne open LLMs, en hoe varieert deze grootte tussen families, generaties en trainingsfasen? Onder een uniforme pijplijn (5.000-steekproef multi-domein corpus, familiespecifieke tokenisatie, identieke hooks over embeddings, verborgen toestanden, aandacht, MLP/MoE, SwiGLU-poorten en finale norm) meten we globale en laagsgewijze maxima op 27 checkpoints van 8 open families, variërend van dichte, MoE, visie-taal, tussentijdse training en instructie-getunede varianten. We vinden dat (i) globale maxima bijna vier ordegroottes bestrijken bij vergelijkbare parameteraantallen, met Qwen3.5- en MoE-checkpoints in het bereik 10² tot 10³ en Gemma3-27B-it dat ~7 × 10⁵ bereikt; (ii) cross-family en cross-generatie vergelijkingen eenvoudige monotone schaling doorbreken; en (iii) MoE-checkpoints vertonen 14.0-23.4× lagere pieken dan gematchte dichte tegenhangers, terwijl de residustroom het globale maximum draagt in 22/24 checkpoints. Een lichte INT-8 gezondheidscheck toont aan dat gemeten maxima covariëren met laag-bit reconstructiefout via activatie-schaalkeuze. We concluderen dat de maximale activatiegrootte een modeleigenschap is die gebonden is aan familie, architectuur en trainingsfase - geen simpel bijproduct van grootte - en moet worden gemeten en gerapporteerd naast elke open-gewicht vrijgave vóór laag-bit implementatie. De code is openbaar beschikbaar op https://github.com/clx1415926/Max_act_llm.
Het is onhaalbaar om alle mogelijke verstoringen binnen de trainingsdataset te omvatten. Dit roept een kritieke vraag op over de robuustheid van Vision-Language-Action (VLA)-modellen wanneer ze worden geconfronteerd met ongeziene visuele verstoringen uit de echte wereld, met name onder onvolmaakte visuele omstandigheden. In dit werk voeren we een systematische studie uit op basis van recente state-of-the-art VLA-modellen en onthullen we een significante prestatievermindering wanneer visuele verstoringen die niet in de trainingsdata aanwezig zijn, worden geïntroduceerd. Om dit probleem te verminderen, stellen we een lichtgewicht adaptermodule voor, geworteld in de informatietheorie, genaamd de Information Bottleneck Adapter (IB-Adapter), die selectief mogelijke ruis uit visuele invoer filtert. Zonder extra data of augmentatiestrategieën te vereisen, verbetert IB-Adapter consequent de basislijn met gemiddeld 30%, terwijl er minder dan 10M parameters worden toegevoegd, wat een opmerkelijke efficiëntie en effectiviteit aantoont. Bovendien bereikt ons model StableVLA, zelfs met een 14x kleinere backbone (0,5B parameters) en zonder pre-training op de Open X-Embodiment-dataset, een robuustheid die concurrerend is met state-of-the-art VLA's op 7B-schaal. Met een verwaarloosbare parameteroverhead (<10M) behoudt onze aanpak nauwkeurigheid bij langetermijntaken en overtreft het OpenPi onder zowel synthetische als fysieke visuele corrupties.
Het uitbreiden van het contextvenster van grote taalmodellen vereist doorgaans training op reeksen van de doellengte, wat gepaard gaat met kwadratische geheugen- en rekenkosten die aanpassing aan lange context duur en moeilijk reproduceerbaar maken. Wij stellen EndPrompt voor, een methode die effectieve contextuitbreiding bereikt met alleen korte trainingsreeksen. Het kerninzicht is dat het blootstellen van een model aan relatieve positionele afstanden over lange afstand niet vereist dat volledige invoer wordt geconstrueerd: we behouden de oorspronkelijke korte context als een intact eerste segment en voegen een korte terminale prompt toe als tweede segment, waarbij we positionele indices toewijzen nabij de doellengte van de context. Deze constructie met twee segmenten introduceert zowel lokale als relatieve afstanden over lange afstand binnen een korte fysieke reeks, terwijl de semantische continuïteit van de trainingstekst behouden blijft – een eigenschap die ontbreekt in op brokken gebaseerde simulatiebenaderingen die aaneengesloten context splitsen. We geven een theoretische analyse, gefundeerd op Rotary Position Embedding en de Bernstein-ongelijkheid, waaruit blijkt dat positie-interpolatie een rigoureuze gladheidsbeperking oplegt aan de aandachtsfunctie, waarbij gedeelde Transformer-parameters onstabiele extrapolatie naar niet-waargenomen tussenliggende afstanden verder onderdrukken. Toegepast op modellen uit de LLaMA-familie, waarbij het contextvenster wordt uitgebreid van 8K naar 64K, behaalt EndPrompt een gemiddelde RULER-score van 76,03 en de hoogste gemiddelde score op LongBench, waarbij LCEG (72,24), LongLoRA (72,95) en volledige-lengte fine-tuning (69,23) worden overtroffen, terwijl aanzienlijk minder rekenkracht nodig is. Deze resultaten tonen aan dat generalisatie van lange context kan worden geïnduceerd uit spaarzame positionele supervisie, waarmee de heersende veronderstelling wordt uitgedaagd dat dichte langereeksentraining noodzakelijk is voor betrouwbare contextvensteruitbreiding. De code is beschikbaar op https://github.com/clx1415926/EndPrompt.
Grote taalmodellen (LLM's) fungeren steeds vaker als autonome agenten die moeten beslissen wanneer ze direct antwoorden versus wanneer ze externe tools aanroepen. Eerder werk naar adaptief toolgebruik heeft de noodzaak van tools grotendeels behandeld als een model-agnostische eigenschap, geannoteerd door een menselijke of LLM-beoordelaar, en behandelt meestal gevallen waarin het antwoord voor de hand ligt (bijv. het ophalen van het weer versus het parafraseren van tekst). De toolnoodzaak in de praktijk is echter genuanceerder vanwege de uiteenlopende capaciteitsgrenzen tussen modellen: een probleem dat door een sterk model alleen kan worden opgelost, kan nog steeds tools vereisen voor een zwakker model. In dit werk introduceren we een model-adaptieve definitie van toolnoodzaak, gebaseerd op de empirische prestaties van elk model. Volgens deze definitie vergelijken we de noodzaak met het waargenomen toolaanroepgedrag bij vier modellen op een rekenkundige en feitelijke QA-dataset, en vinden we aanzienlijke discrepanties van respectievelijk 26,5–54,0% en 30,8–41,8%. Om het falen te diagnosticeren, ontleden we toolgebruik in twee fasen: een interne cognitiefase die weerspiegelt of een model gelooft dat een tool nodig is, en een uitvoeringsfase die bepaalt of het model daadwerkelijk een toolaanroepactie onderneemt. Door de verborgen toestanden van de LLM te onderzoeken, vinden we dat beide signalen vaak lineair decodeerbaar zijn, maar dat hun sondeerrichtingen bijna orthogonaal worden in het regime van de late laag, laatste token, dat de volgende-token-actie aanstuurt. Door het volgen van het traject van voorbeelden in het tweefasenproces ontdekken we verder dat de meerderheid van de discrepantie geconcentreerd is in de overgang van cognitie naar actie, niet in de cognitie zelf. Deze resultaten onthullen een kennis-doen-kloof in LLM-toolgebruik: het verbeteren van de betrouwbaarheid van toolgebruik vereist niet alleen een betere herkenning van wanneer tools nodig zijn, maar ook een betere vertaling van die herkenning naar actie.
Reinforcement learning (RL) wordt steeds vaker gebruikt om de redeneer-, codeer- en toolgebruiksmogelijkheden van grote taalmodellen te verbeteren, maar agentisch RL blijft prohibitief duur. Het opschalen van RL naar agentische LLM's vereist ondersteuning voor complexe workloads, waaronder gezamenlijke training met meerdere beleidsregels (multi-policy collaborative training), terwijl elastische, heterogene en cross-regio computerbronnen efficiënt moeten worden benut. Bestaande RL-systemen voor LLM's ondersteunen enkele van deze mogelijkheden, maar elke nieuwe uitbreiding vergt vaak specifieke systeemtechniek. Deze last vloeit voort uit trainer-gecentreerde controlearchitecturen en het ontbreken van principiële abstracties voor RL-systeemcomponenten. Om deze beperkingen aan te pakken, stellen we AstraFlow voor, een dataflow-georiënteerd RL-systeem dat de conventionele trainer-gecentreerde controle vervangt door principiële componentabstracties. In AstraFlow worden rollout-diensten, dataflowbeheer en training ontkoppeld in autonome componenten, waardoor het systeem van nature complexe multi-beleid agentische RL-workloads ondersteunt en diverse computerbronnen efficiënt benut. We evalueren AstraFlow op wiskunde-, code-, zoek- en AgentBench-workloads, en tonen aan dat hetzelfde systeem multi-beleidstraining, elastisch schalen, heterogene cross-regio-uitvoering en samengestelde data-algoritmen ondersteunt zonder systeemcode-aanpassingen. Bij gezamenlijke training met meerdere beleidsregels behaalt AstraFlow een vergelijkbare of betere nauwkeurigheid dan bestaande RL-systemen, terwijl de trainingstijd met een factor 2,7 wordt versneld.
Continue diffusiontaalmodellen blijven achter bij autoregressieve transformers, deels omdat diffusie wordt toegepast in ruimtes die slecht geschikt zijn voor het ontruisen van taal en het herstellen van tokens. Wij stellen DiHAL voor, een geometrie-gestuurde diffusie-transformerhybride die onderzoekt waar diffusie een voorgetrainde transformer zou moeten binnentreden. DiHAL beoordeelt lagen met geometrie-gebaseerde proxy's, selecteert een diffusievriendelijke interface voor verborgen toestanden en vervangt het onderste transformerprefix door een diffusiebrug, terwijl de bovenste lagen en de oorspronkelijke LM-kop behouden blijven. Door de verborgen toestand van de geselecteerde laag te reconstrueren in plaats van tokens, vermijdt DiHAL direct herstel van continu naar discreet. Experimenten op 8B-schaal backbones tonen aan dat de geometriescore effectieve ondiepe invoeglagen voorspelt onder een vast brugtrainingsprotocol, en dat herstel van verborgen toestanden verbetert ten opzichte van continue diffusiebaselines in een diagnostische vergelijking die overeenkomt met het trainingsbudget voor diffusie/herstel. Deze resultaten suggereren dat geometrie van verborgen toestanden helpt bij het identificeren waar diffusiegebaseerde vervanging haalbaar is binnen voorgetrainde taalmodellen.
Taalmodellen worden instructie-afgestemd om schadelijke verzoeken te weigeren, maar de onderliggende mechanismen van dit gedrag worden nog steeds slecht begrepen. Populaire sturingsmethoden werken op de residustroom en verslechteren de coherentie van de output bij hoge sturingssterktes, wat hun praktische gebruik beperkt. Wij introduceren contrastieve neuronattributie (CNA), die de 0,1% van de MLP-neuronen identificeert waarvan de activaties het meest onderscheid maken tussen schadelijke en onschuldige prompts, waarbij alleen forward passes nodig zijn zonder gradiënten of hulptraining. In instructiemodellen verlaagt het ablateren van het ontdekte circuit de weigeringspercentages met meer dan 50% op een standaard jailbreak-benchmark, terwijl vloeiendheid en niet-degeneratie behouden blijven bij alle sturingssterktes. Door CNA toe te passen op gematchte basis- en instructiemodellen over Llama- en Qwen-architecturen (van 1B tot 72B parameters), vinden we dat basismodellen vergelijkbare laat-laag discriminatiestructuren bevatten, maar het sturen van deze neuronen leidt alleen tot inhoudelijke verschuivingen, niet tot gedragsverandering. Deze resultaten tonen aan dat interventie op neuronniveau betrouwbare gedragssturing mogelijk maakt zonder de kwaliteitsafwegingen van methoden op basis van de residustroom. In bredere zin suggereren onze bevindingen dat afstemmingsfinetuning bestaande discriminatiestructuur omzet in een spaarzame, aanwijsbare weigeringspoort.
Chunked prefill is een algemeen toegepaste serving-strategie voor grote taalmodellen met lange contexten geworden, maar efficiënte aandachtsberekening in dit regime blijft uitdagend. Bestaande methoden voor schaarse aandacht zijn primair ontworpen voor eenmalige prefill en zijn niet efficiënt overdraagbaar naar chunked prefill: blok-schaarse kernels verliezen efficiëntie wanneer de querylengte beperkt wordt door de chunkgrootte, terwijl fijnmazige patroonzoektochten kostbaar worden wanneer ze bij elke chunk over de geaccumuleerde KV-cache worden herhaald. QUOKA, een recente methode die direct is gericht op chunked prefill, vermijdt de overhead van schaarse kernels, maar vertrouwt op query-gesubsampleerde, token-niveau KV-selectie, wat kan leiden tot het missen van query-specifieke KV-items en expliciete KV-kopieeroverhead introduceert. Om deze beperkingen aan te pakken, stellen we CompactAttention voor, een chunked-prefill aandachtsmechanisme gebaseerd op Block-Union KV-selectie. CompactAttention behandelt 2D blok-schaarse maskers als KV-selectiesignalen in plaats van directe uitvoeringsplannen voor schaarse kernels, en converteert deze naar GQA-bewuste per-groep KV-bloktabellen via Q-blok-unie en intra-groepsunie. Deze constructie produceert de minimale bloktabellen die alle KV-blokken behouden die door de invoermaskers zijn geselecteerd, onder beperkingen van gepagineerde uitvoering, waardoor geselecteerde KV-blokken op hun plaats kunnen worden benaderd zonder expliciete KV-compactie. Op LLaMA-3.1-8B-Instruct behoudt CompactAttention nauwkeurigheid dicht bij dichte aandacht op de RULER-benchmark, terwijl het tot 2,72× aandachtssnelheidswinst levert bij een contextlengte van 128K onder chunked prefill.
Codeeragenten kunnen webapplicaties genereren op basis van natuurlijke-taalbeschrijvingen, maar een recente benchmarkstudie toont aan dat gegenereerde applicaties in meer dan 70% van de gevallen niet voldoen aan de functionele vereisten. De kernmoeilijkheid is dat de correctheid van webapplicaties niet kan worden beoordeeld op basis van bronbestanden of terminaluitvoer: de applicatie moet worden geïmplementeerd, worden getest via gesimuleerde browserinteracties, en mislukkingen moeten worden vertaald naar bruikbare reparatiesignalen – stappen die huidige agenten niet kunnen uitvoeren zonder menselijke tussenkomst. Wij presenteren TDDev, een raamwerk dat deze gesloten lus automatiseert via drie fasen: (1) het omzetten van hoog-niveau vereisten in gestructureerde acceptatietests voordat er code wordt geschreven, (2) het implementeren van de applicatie en het valideren ervan via browsergebaseerde interactiesimulatie, en (3) het vertalen van in de browser waargenomen fouten naar gestructureerde reparatierapporten voor de codeeragent. Dankzij TDDev voeren wij de eerste gecontroleerde empirische studie uit naar testgestuurde ontwikkeling (TDD)-strategieën voor het genereren van webapplicaties, waarbij vier ontwikkelingsprotocollen worden vergeleken over twee codeeragenten, twee backbonemodellen en twee benchmarks. TDD-infrastructuur verbetert de generatiekwaliteit consistent met 34–48 procentpunten ten opzichte van een baseline zonder TDD. De centrale bevinding is dat het optimale protocol afhangt van de generatiestijl van het model: modellen die applicaties holistisch bouwen, profiteren het meest van agentische handhaving, terwijl modellen die code conservatief uitbreiden, profiteren van incrementele handhaving. Een mismatch tussen protocol en generatiestijl heft het TDD-voordeel volledig op en vermenigvuldigt de tokenkosten tot 25 keer. Een gebruikersstudie bevestigt dat TDDev handmatige ontwikkelaarsinterventie tot nul reduceert, waardoor de werklast verschuift van continu prompt-engineering naar autonome, feedbackgestuurde verfijning.
Recente studies introduceren conditionele geheugenmodules die kennisopslag loskoppelen van neurale berekening, wat directere kennistoegang mogelijk maakt. Vergeleken met MoE, dat afhankelijk is van dynamische rekempaden, biedt expliciete opzoeking een efficiënter mechanisme voor kennisophaling. Deze benaderingen zijn echter nog steeds afhankelijk van aangeleerde geheugenembeddings, wat extra training vereist en de flexibiliteit beperkt. Om dit aan te pakken stellen we N-gram Memory (NGM) voor, een trainingsvrije, plug-and-play module bestaande uit een Causale N-Gram Encoder en een Cosinus-Gated Geheugeninjector. De Causale N-Gram Encoder middelt direct de voorgetrainde token-embeddings van het backbone-model om N-gram representaties te construeren, waardoor het afzonderlijk trainen van N-gram embeddings overbodig wordt. Dit ontwerp vereist noch een extra geheugentabel, noch een retrieval-pijplijn. De Cosinus-Gated Geheugeninjector gebruikt vervolgens een niet-parametrische cosinuspoort met ReLU om de opgehaalde embeddings te moduleren in de contextuele representaties. We evalueren NGM op de Qwen3-serie van 0,6B tot 14B over acht benchmarks. NGM verbetert de gemiddelde prestatie met 0,5 tot 1,2 punten, met bijzonder duidelijke winst op codegeneratie en kennisintensieve taken (bijv. +3,0 op LiveCodeBench en +3,03 op GPQA voor Qwen3-14B). Bovendien verbetert NGM ook de prestaties op multimodale benchmarks (bijv. MMStar +1,53 op Qwen3-VL-2B).
Moderne audiogeneratie vertrouwt voornamelijk op compressie in de latent ruimte, wat extra complexiteit en mogelijk informatieverlies met zich meebrengt. In dit werk dagen we dit paradigma uit met WavFlow, een raamwerk dat rechtstreeks in de ruwe golfvormruimte audio van hoge kwaliteit genereert, zonder tussenliggende representaties. Om de inherente moeilijkheden van het modelleren van hoogdimensionale en laagenergetische signalen te overwinnen, hervormen we audio tot 2D-tokenrasters door middel van golfvorm-patchificatie en introduceren we amplitudeverhoging om signaalschalen op elkaar af te stemmen, waardoor stabiele optimalisatie via directe x-voorspelling in flow-matching mogelijk wordt. Om complexe semantische afstemming en temporele synchronisatie te vatten, maken we gebruik van een geautomatiseerde datapijplijn om 5 miljoen hoogwaardige video-tekst-audio-triples te cureren, waardoor het model fijnmazige akoestische patronen vanaf nul kan leren. Experimentele resultaten tonen aan dat WavFlow concurrerende prestaties levert op de video-naar-audio-benchmark VGGSound (FD_PaSST: 59,98, IS_PANNs: 17,40, DeSync: 0,44) en de tekst-naar-audio-benchmark AudioCaps (FD_PANNs: 10,63, IS_PANNs: 12,62), waarbij het de prestaties van gevestigde latente methoden evenaart of overtreft. Ons werk toont aan dat tussentijdse compressie geen vereiste is voor hoogwaardige synthese, en biedt een eenvoudiger en schaalbaarder alternatief voor multimodale audiogeneratie.
Van tool-gebruikende agenten wordt steeds vaker verwacht dat ze opereren in realistische professionele workflows, waarbij ze multimodale invoer moeten interpreteren, externe tools coördineren, tussentijdse artefacten inspecteren en hun acties herzien voordat ze een eindresultaat produceren. Bestaande benchmarks evalueren echter vaak toolgebruik, computergebruik en multimodaal redeneren in isolatie, wat een kloof laat tussen benchmarksettings en end-to-end omnimodaal toolgebruik in de echte wereld. Om deze kloof te overbruggen, introduceren we MM-ToolBench, een benchmark en evaluatieomgeving voor taakgericht omnimodaal toolgebruik. MM-ToolBench bevat 100 uitvoerbare taken uit twee macrotaakfamilies, Klantenservice en Intelligente Creatie, die 20 subcategorieën bestrijken en worden ondersteund door 27 MCP-servers met 324 tools. Het centrale ontwerp van MM-ToolBench is closed-loop multimodale verificatie: agenten moeten tools uitvoeren, gerenderde of getransformeerde artefacten inspecteren en zichzelf corrigeren wanneer uitkomsten niet voldoen aan taakspecifieke vereisten. Om dergelijke evaluatie schaalbaar en verifieerbaar te maken, koppelt MM-ToolBench MCP-gebaseerde uitvoering aan taakspecifieke verankerde evaluatoren en een semi-geautomatiseerde constructiepijplijn voor scenario-ontdekking, taakinstantiëring, evaluatorsynthese en menselijke audit. Experimenten met 15 hedendaagse agentische modellen tonen aan dat MM-ToolBench zeer uitdagend blijft: Claude Opus 4.6, algemeen beschouwd als een van de sterkste codeeragent-modellen, behaalt slechts 32,0% taaksucces, ver onder de 94,0% menselijke benchmark. We zien MM-ToolBench als een praktische basis voor het evalueren en bevorderen van de volgende generatie omnimodale tool-gebruikende agenten door middel van closed-loop multimodale verificatie.
Visie-taalmodel (VLM)-agenten vertrouwen steeds vaker op geheugengeaugmenteerd reinforcement learning om ervaring te hergebruiken over langetermijnstaken heen, maar de meeste bestaande raamwerken slaan geheugen op als tekst en zijn afhankelijk van propriëtaire leraarmodellen om het samen te vatten of te verfijnen. Dit ontwerp sluit slecht aan bij ruimtelijke besluitvorming: geometrische voorkennis wordt samengeperst in verlieslatende taal, en schaarse interactie wordt vaak gesuperviseerd via vertraagde tekstuele feedback in plaats van dichte visueel verankerde signalen. Wij stellen dat herbruikbare ervaring voor VLM-agenten visueel verankerd moet blijven. Op basis van dit inzicht introduceren wij AtlasVA, een leraarvrij visueel vaardigheidsgeheugenkader dat het geheugen organiseert in drie complementaire lagen: ruimtelijke hittekaarten, visuele voorbeelden en symbolische tekstvaardigheden. AtlasVA leidt bovendien gevaren- en affiniteitsatlassen rechtstreeks af uit trajectstatistieken en lichtgewicht rasterheuristieken, en hergebruikt deze zelf-ontwikkelende atlassen als op potentiaal gebaseerde vormbeloningen voor reinforcement learning. Dit verenigt perceptie, geheugen en optimalisatie zonder externe LLM-supervisie. Experimenten op Sokoban, FrozenLake, 3D belichaamde navigatie en 3D robotmanipulatie-benchmarks tonen aan dat AtlasVA consequent beter presteert dan tekstgerichte geheugenbasislijnen en concurrerende VLM-agenten, met bijzonder sterke winsten op ruimtelijk intensieve taken. Homepage: https://wangpan-ustc.github.io/AtlasvaWeb
Supervised fine-tuning (SFT) wordt veelvuldig gebruikt om nieuwe kennis in taalmodellen te injecteren, maar dit gaat vaak ten koste van voorgetrainde capaciteiten zoals redeneren en algemene prestaties. Wij stellen dat deze vergetelheid ontstaat doordat de fine-tuning-doelen van mensen of externe systemen afwijken van de autoregressieve verdeling van het model, waardoor de optimizer gedwongen wordt om tokenreeksen met een lage kans na te bootsen. Om dit probleem aan te pakken stellen wij MixSD voor, een eenvoudige methode zonder externe leraar voor distributie-afgestemde kennisinjectie. In plaats van te trainen op vaste doelen, construeert MixSD de supervisie dynamisch door tokens te mengen uit twee conditionele verdelingen van het basismodel zelf: een expert-conditionele die de geïnjecteerde feiten in context observeert, en een naïeve conditionele die de oorspronkelijke voorkennis van het model weerspiegelt. De resulterende supervisiereeksen behouden het feitelijke leersignaal terwijl ze aanzienlijk dichter bij de verdeling van het basismodel blijven. We evalueren MixSD op twee synthetische corpora die we hebben geconstrueerd om het oproepen van feiten en het verwerven van rekenkundige functies in een gecontroleerde setting te bestuderen, samen met gevestigde benchmarks voor open-domein feitelijke vraagbeantwoording en kennisbewerking. Over meerdere modelschalen en settings heen behaalt MixSD consequent een betere afweging tussen memorisatie en retentie in vergelijking met SFT- en on-policy self-distillation-baselines, waarbij tot 100% van de uitgehouden capaciteit van het basismodel behouden blijft met een vrijwel perfecte trainingsnauwkeurigheid, terwijl standaard SFT slechts 1% retentie laat zien. Verder tonen we aan dat MixSD supervisiedoelen produceert met een substantieel lagere negatieve log-likelihood onder het basismodel en schadelijke beweging langs Fisher-gevoelige parameterrichtingen vermindert. Deze resultaten suggereren dat het afstemmen van supervisie op de oorspronkelijke generatieverdeling van het model een eenvoudig en effectief principe is voor kennisinjectie dat catastrofaal vergeten beperkt.
Recent GUI-agenten hebben substantiële vooruitgang geboekt op het gebied van visuele gronding en actievoorspelling, maar blijven kwetsbaar in langetermijntaken die het behoud van de taaktoestand over vele interface-overgangen vereisen. Bestaande agenten vertrouwen doorgaans op onbewerkte geschiedenisafspeling of alleen-tekstgeheugen, wat het model ofwel overstelpt met redundante schermafbeeldingen, ofwel gelokaliseerd visueel bewijs weggegooid dat nodig is voor toekomstige beslissingen. Om deze beperkingen aan te pakken, introduceren we MementoGUI, een plug-in agentisch geheugenraamwerk dat MLLM-gebaseerde GUI-agenten uitrust met MementoCore, een geleerde controller voor online geheugenselectie, -compressie en -ophaling. In plaats van de interactiegeschiedenis als een vaste context te behandelen, formuleert MementoGUI langetermijn-GUI-besturing als een online geheugencontrolevraagstuk: het werkgeheugen selectief taakrelevante interfacegebeurtenissen behouden met tekstuele samenvattingen en visueel bewijs op ROI-niveau, terwijl het episodisch geheugen herbruikbare eerdere trajecten ophaalt via geleerde relevantieselectie. MementoCore modulariseert geheugenbesturing in gespecialiseerde operatoren voor stapverwerking, geheugencompressie, episodisch schrijven en episodische selectie, waardoor plug-in geheugenuitbreiding mogelijk wordt zonder fijnafstemming van de ruggengraat van de GUI-agent. We ontwikkelen verder een schaalbare datacuratiepijplijn die computergebruikstrajecten omzet in trainingsgegevens voor geheugencontrollers, introduceren MementoGUI-Bench voor het evalueren van langetermijnbesluitvorming in GUI-agenten, en ontwerpen MLLM-gebaseerde metrieken voor semantische actiematching, taakvoortgang en geheugenconsistentie. Experimenten op GUI-Odyssey, MM-Mind2Web en MementoGUI-Bench tonen aan dat MementoGUI GUI-agenten consistent verbetert ten opzichte van baselines zonder geschiedenis, met geschiedenisafspeling en met alleen-tekstgeheugen, waarbij grotere MementoCore-ruggengraten de geheugengeaugmenteerde GUI-besturing verder versterken.
Grote taalmodellen (LLMs) worden steeds vaker toegepast bij financiële analyse, rapportage, ondersteuning bij investeringsbeslissingen, risicobeheer, compliance en professionele training. Een robuuste evaluatie van hun domeincompetenties in financiën blijft echter onvolledig. Veelgebruikte open benchmarks zoals FinQA, ConvFinQA en TAT-QA hebben een belangrijke rol gespeeld in de vooruitgang van financiële vraagbeantwoording en numeriek redeneren, maar ze richten zich voornamelijk op vraagbeantwoording over financiële rapporten en bieden geen expliciete hiërarchie van professionele moeilijkheidsgraad. Bredere bronnen, waaronder FinanceBench, PIXIU, FinBen en FLaME, breiden de dekking van financiële taken uit, maar het probleem van het evalueren van de overgang van basiskennis naar financieel redeneren op expertniveau blijft onopgelost. In dit werk presenteren wij FINESSE-Bench, een reeks van acht gespecialiseerde benchmarks bestaande uit 3.993 vragen voor hiërarchische evaluatie van financiële competenties in LLMs. FINESSE-Bench combineert examen-gerichte datasets geïnspireerd door professionele certificeringen (CFA-achtige niveaus 1-3, CMT-achtig niveau 2 en CFTe-achtig niveau 1), verzamelingen van toegepaste handelstaken en een Russischtalige olympiade-benchmark. Dit ontwerp maakt evaluatie mogelijk van domeinbreedte, prestatievermindering naarmate de moeilijkheid toeneemt, het vermogen om computationele taken op te lossen en modelgedrag in gespecialiseerde financiële domeinen. We beschrijven ook een uniform evaluatieprotocol dat meerkeuzevragen, numerieke antwoorden en korte open antwoorden omvat, samen met een geautomatiseerd beoordelingsschema voor vrije antwoorden gebaseerd op het LLM-als-rechter paradigma. FINESSE-Bench is bedoeld als zowel een aanvulling op bestaande open financiële benchmarks als een hulpmiddel voor een meer inhoudelijke evaluatie van professioneel relevante financiële competenties in grote taalmodellen.
De inzet van Large Language Models (LLM's) als autonome economische agenten brengt systeemrisico's met zich mee die verder gaan dan individuele capaciteitsfouten. Naarmate agenten overgaan tot directe interactie met marktplaatsen, kan hun collectieve gedrag volatiliteit versterken en bedrog op grote schaal verhullen. We introduceren de Agent Bazaar, een multi-agent simulatiekader voor het evalueren van Economische Afstemming (Economic Alignment), het vermogen van agentische systemen om marktstabiliteit en -integriteit te behouden. We identificeren twee faalwijzen: (1) Algoritmische Instabiliteit in een B2C-markt ("The Crash"), waarbij bedrijven prijsvolatiliteit versterken tot de markt instort, en (2) Sybil-bedrog in een C2C-markt ("The Lemon Market"), waarbij een enkel bedrieglijk agent dat meerdere gecoördineerde verkoopidentiteiten controleert de markt overspoelt met frauduleuze aanbiedingen, wat vertrouwen en consumentenwelzijn uitholt. We evalueren grensverleggende en open-gewichtsmodellen in beide scenario's en zien dat modellen grotendeels falen in zelfregulering, waarbij de ernst van het falen varieert per model en niet per omvang. We stellen economisch afgestemde harnassen voor: Stabiliserende Bedrijven (Stabilizing Firms) en Sceptische Bewakers (Skeptical Guardians), die de uitkomsten verbeteren maar kwetsbaar blijven onder moeilijkere marktomstandigheden. Om deze kloof te dichten, trainen we agenten met REINFORCE++ met behulp van een adaptief curriculum, wat resulteert in een 9B-model dat beter presteert dan alle geëvalueerde grensverleggende en open-gewichtsmodellen. We introduceren de Economische Afstemmingsscore (EAS), een scalaire metriek met vier componenten die stabiliteit, integriteit, welzijn en winstgevendheid aggregeert, wat directe vergelijking tussen modellen mogelijk maakt. Onze resultaten tonen aan dat economische afstemming orthogonaal is aan algemene capaciteit en direct kan worden getraind met gerichte RL.
Het evalueren van belichaamde systemen op echte behendige hardware vereist meer dan geïsoleerde primitieve vaardigheden: een agent moet een veranderend tafelbladoppervlak waarnemen, een contextgepaste actie kiezen, deze uitvoeren met een behendige hand en het tafereel bruikbaar achterlaten voor latere beslissingen. We introduceren DexHoldem, een real-world benchmark op systeemniveau, gebouwd rond Texas Hold'em behendige manipulatie met een ShadowHand. DexHoldem biedt 1.470 teleoperated demonstraties over 14 Texas Hold'em-manipulatieprimitieven, een gestandaardiseerde fysieke beleidsbenchmark en een agentische perceptiebenchmark die test of agenten de gestructureerde spelsituatie kunnen herstellen die nodig is voor belichaamde besluitvorming. Bij primitieve uitvoering behaalt π_{0.5} het hoogste taakvoltooiingspercentage (61,2%), terwijl π_{0.5} en π_0 gelijk staan op het percentage succes bij scènebehoud (47,5%). Bij agentische perceptie behaalt Opus 4.7 de beste strikte probleemniveau-nauwkeurigheid (34,3%), terwijl GPT 5.5 de beste gemiddelde veldgewijze nauwkeurigheid (66,8%) behaalt, wat een kloof blootlegt tussen geïsoleerde visuele subvaardigheden en volledige routeringsrelevante toestandsherstel. Ten slotte implementeren we de volledige belichaamde agent-lus in drie casestudies, waar wachten, herstelverzendingen, verzoeken om menselijke hulp en herhaalde primitieve uitvoering onthullen hoe perceptie- en beleidsfouten zich ophopen tijdens closed-loop-implementatie. DexHoldem evalueert daarom behendige tafelbladoppervlak-uitvoering, agentische perceptie en belichaamde beslissingsroutering in een gedeelde fysieke omgeving. Projectpagina: https://dexholdem.github.io/Dexholdem/.
Moderne interactieve videowereldmodellen hebben indrukwekkende visuele getrouwheid bereikt, maar missen fijnmazige controle over meerdere entiteiten en generalisatie over entiteiten en werelden heen. We herleiden dit hiaat tot de actie-interface: standaard besturingsprotocollen (bijv. animatie-ID's, apparaatinvoer, scèneniveau-bijschriften) binden actiesemantiek aan specifieke entiteiten of engines tijdens ontwerptijd. We stellen natuurlijke taal voor als interface om uitdrukkingskracht te ontgrendelen die geen enkele eerdere interface kan bereiken, en we presenteren Incantation, het eerste interactieve videowereldmodel met per-latent-frame (0,25 s) natuurlijke-taalconditionering die gelijktijdige multi-entiteitcontrole en conceptniveau-overdracht tussen entiteiten mogelijk maakt, verder dan elke vaste renderpijplijn. We koppelen een voorgetrainde bidirectionele videobackbone aan framelokale tekstkruisaandacht, en maken realtime langetermijnstreaming mogelijk via ODE-geïnitialiseerde Self-Forcing-distillatie met een RoPE-ontkoppelde schuivende KV-cache. We overtreffen de Action-Index-baseline op overdracht tussen entiteiten (89% vs. 43%) en out-of-vocabulary prompts (90% vs. 0%), en onze 2-staps student handhaaft 19,7 FPS op 480p met stabiele FVD over 2 uur durende rollouts. We passen dezelfde architectuur en trainingsprocedure verder toe op The King of Fighters, waarbij we alleen de per-entiteit actiewoordenschatsleuven wijzigen. We hebben een voorvertoningssubset van de Incantation-dataset uitgebracht op https://huggingface.co/datasets/zhush/incantation-elden-ring-scenes, met handmatig verzamelde Elden Ring speler-baas gevechtsclips met gestructureerde actiegerichte metadata. Grotere schaal Elden Ring- en KOF-gegevens zullen worden uitgebracht met het volledige project.
Hoewel agentische AI en haar kernmodellen, de multimodale grote taalmodellen (MLLM's), veelbelovend zijn gebleken in taal- en visuele redeneringen op gebieden variërend van het dagelijks leven tot geavanceerd wetenschappelijk onderzoek, blijft er een diepe kloof bestaan tussen kunstmatige en menselijke intelligentie. Ondanks de integratie van krachtige tools en geavanceerde MLLM's, falen state-of-the-art AI-agenten vaak bij fundamentele, ogenschijnlijk eenvoudige taken die een kind moeiteloos kan oplossen. Geïnspireerd door de Wechsler Intelligentietest voor Kinderen (WISC) introduceren we ChildAgentEval, de eerste psychometrisch onderbouwde interactieve benchmark voor het evalueren van cognitieve leeftijdsafstemming in MLLM-gebaseerde agenten. ChildAgentEval vergelijkt systematisch de redeneerprestaties van verschillende MLLM-gebaseerde interactieve agenten met leeftijdsspecifieke menselijke ontwikkelingsstadia, en legt daarmee bloot waar huidige agentische AI-systemen leeftijdsspecifiek cognitief gedrag wel en niet kunnen simuleren.
Geïnspireerd door de emergente gedragingen in grote taalmodellen die menselijke intelligentie generaliseren, onderzoekt de wetenschappelijke gemeenschap vergelijkbare emergente capaciteiten binnen wereldmodellen, met een nadruk op het modelleren van de fysieke wereld. Binnen het bereik van het fysieke wereldmodel zijn objecten de fundamentele primitieven die de fysieke werkelijkheid vormen. Van mensen tot computers, bijna alles waarmee we interacteren is een object. Deze objecten zijn zelden statisch; het zijn handelbare entiteiten met variërende toestanden die worden bepaald door hun intrinsieke eigenschappen. Terwijl huidige methoden objectactietoestanden benaderen via videogeneratie of dynamische scènereconstructie, modelleert geen van hen dit basiselement expliciet op een uniforme, principiële manier om een handelbare objectrepresentatie te bouwen. Wij stellen WorldString voor, een neurale architectuur die in staat is om de toestandsvariëteit van objecten uit de echte wereld te modelleren door direct te leren van puntenwolken of RGB-D videostromen. Het fungeert als een veelzijdige digitale tweeling en dient als een fundamentele bouwsteen voor fysieke wereldmodellen; daarom noemen we het WorldString. Bovendien maakt de volledig differentieerbare structuur naadloze toekomstige integratie met beleidsleren en neurale dynamica mogelijk.
Diffusiemodellen worden veelvuldig bestudeerd voor het verwijderen van ongewenste inhoud die tijdens het vooraf trainen is aangeleerd. Bestaande methoden vereisen dure gesuperviseerde data, hetzij ongewenste-tekst gekoppeld aan veilige-afbeelding grondwaarheid, hetzij negatieve/positieve beeldparen, wat ze onpraktisch maakt om op te schalen. Bovendien lijden offline reinforcement learning en gesuperviseerde fine-tuning methoden die synthetische data offline genereren aan catastrofaal vergeten, wat de generatiekwaliteit aantast. Wij stellen een nieuw online reinforcement learning raamwerk voor dat zowel dataschaarste als modeldegradatie aanpakt door middel van post-training met Group Relative Policy Optimization (GRPO) op zowel negatieve als positieve tekstprompts. Om de noodzaak voor het fine-tunen van gespecialiseerde veilige/ongewenste beloningsmodellen te elimineren, introduceren we een sturend beloningsmechanisme dat gebruikmaakt van een inherente eigenschap van CLIP-embeddings: het sturen van tekstrepresentaties in de richting van positieve veiligheidsrichtingen en weg van negatieve richtingen in de embeddingruimte. Onze online-policy aanpak stelt het model in staat om te leren van diverse prompts, inclusief expliciete ongewenste inhoud, zonder catastrofaal vergeten. Uitgebreide experimenten tonen aan dat onze methode ongepaste inhoud reduceert tot 18,07% (vs. 48,9% voor SD v1.4) en naaktdetecties tot 15 (vs. 646 baseline), terwijl de compositionele generatiekwaliteit verbetert van 42,08% naar 47,83% op GenEval. Opmerkelijk is dat deze veiligheidsvoordelen generaliseren naar out-of-domain ongewenste prompts over zeven schadecategorieën, waarmee state-of-the-art prestaties worden behaald zonder gesuperviseerde gepaarde data of beloningsafstemming. Github: https://github.com/MAXNORM8650/SafeDiffusion-R1.
Het abstract redeneervermogen weerspiegelt de intelligentie en het generalisatievermogen van LLM's om abstracte regels te extraheren en toe te passen. Het nauwkeurig meten van dit vermogen blijft echter een uitdaging: bestaande benchmarks vertrouwen ofwel op dure handmatige annotatie, wat hun schaal beperkt, of riskeren het meten van memorisatie in plaats van echt redeneren. Om dit aan te pakken introduceren we een geautomatiseerde pijplijn genaamd A2RBench, die generatie, uitbreiding, evaluatie en analyse omvat. In de generatiefase creëren LLM's diverse taken die echt redeneren vereisen; in de uitbreidingsfase hergebruiken LLM's gevalideerde regels en breiden ze nieuwe invoerruimten uit om taakvariaties te genereren, wat opschaling mogelijk maakt. Dit proces kan echter hallucinaties veroorzaken. Om dit te elimineren, stellen we verder een theoretisch kader op en bewijzen we dat programmatische verificatie—het testen of de inverse bewerking de voorwaartse bewerking perfect omkeert (cyclusconsistentie)—een unieke oplossing garandeert. Door uitgebreide evaluaties op gangbare LLM's vinden we: (1) Huidige LLM's vertonen fundamentele tekortkomingen in abstract redeneren, waarbij topmodellen aanzienlijk slechter presteren dan mensen op een representatieve subset (39,8% versus 68,5%). (2) Huidige LLM's blijven ver achter bij 2D en 1D in de complexiteit van gegenereerde 3D-taken, wat hun gebrek aan begrip van hoogdimensionale taken onthult. (3) Tegenintuïtief kunnen invoergegevens met een hogere informatiecomplexiteit het redeneerproces vereenvoudigen.
INT2 KV-cache kwantisering is aantrekkelijk voor het serveren van LLM's met lange contexten, maar het blijft moeilijk om zowel accuraat als inzetbaar te maken. Eenvoudige rotaties zoals Hadamard-transformaties verminderen uitschieters, maar degraderen nog steeds bij INT2 omdat ze niet zijn afgestemd op downstream attention. Wij stellen OSCAR voor, een ultra-low-bit KV-cache kwantiseringsmethode die offline attention-aware covariantiestructuren schat en deze gebruikt om vaste rotaties en afkapdrempels voor kwantisering af te leiden. Op deze manier wordt KV-kwantisering afgestemd op de covariantiestructuren die attention daadwerkelijk verbruikt. Belangrijker nog, we bieden niet alleen een theoretische rechtvaardiging, maar ontwikkelen ook een volledig inzetbaar OSCAR-systeem met een aangepaste INT2 attention-kernel die compatibel blijft met paged KV-cache serving en gefuseerde kernel-pijplijnen, waardoor naadloze integratie in moderne LLM-serverframeworks zoals SGLang en vLLM mogelijk wordt. We evalueren onze methoden op recente redeneermodellen met redeneertraces van maximaal 32k tokens over 5 taken. Op Qwen3-4B-Thinking-2507 en Qwen3-8B reduceert OSCAR de BF16-nauwkeurigheidskloof tot respectievelijk 3,78 en 1,42 punten, terwijl naïeve rotatie INT2 instort tot bijna nul. We schalen OSCAR verder naar Qwen3-32B en GLM-4.7 (358B parameters), waar het effectief gelijk blijft aan BF16. Op lange context - RULER-NIAH tot 128K - blijft OSCAR robuust op beide Qwen3-modellen, terwijl naïeve rotatie INT2 instort. Systeemgewijs vermindert OSCAR het KV-cache geheugen met ongeveer 8x, verbetert de doorvoer met tot 7x bij grote batchgroottes onder hetzelfde geheugenbudget, en versnelt batch-size-1 decoderen met tot 3x ten opzichte van BF16 vanwege verminderde geheugenbandbreedte-overhead.
GPU-kerneloptimalisatie wordt steeds crucialer voor efficiënte deep learning-systemen, maar het schrijven van hoogwaardige kernels vereist nog steeds aanzienlijke laag-niveau expertise. Recente AI-codeeragenten kunnen iteratief code lezen, compilers en profilers aanroepen en implementaties verfijnen, maar bestaande kernel-benchmarks evalueren enkele LLM-aanroepen in plaats van volledige agentworkflows, en geen enkele omvat zowel kernel-naar-kernel optimalisatie als generalisatietesten met ongeziene configuraties. We presenteren AgentKernelArena, een open-source benchmark voor het meten van AI-codeeragenten op GPU-kerneloptimalisatie. De benchmark bevat 196 taken verspreid over HIP-naar-HIP optimalisatie, Triton-naar-Triton optimalisatie en PyTorch-naar-HIP vertaling, en evalueert volledige agentworkflows in geïsoleerde werkruimten met behulp van gecontroleerde compilatie, correctheids- en prestatiecontroles, gecentraliseerde scoreberekening en een protocol voor generalisatie naar ongeziene configuraties dat test of optimalisaties overdraagbaar zijn naar invoerconfiguraties die de agent nooit heeft gezien. Bij productieagenten zoals Cursor Agent, Claude Code en Codex Agent vinden we bijna perfecte compilatie en hoge correctheidspercentages voor de meeste taakcategorieën, waarbij de sterkste configuraties gemiddelde versnellingen behalen tot 6,89x op PyTorch-naar-HIP, 6,69x op HIP-naar-HIP en 2,13x op Triton-naar-Triton taken. Onze evaluatie van ongeziene configuraties laat zien dat HIP-naar-HIP en Triton-naar-Triton optimalisaties grotendeels overdraagbaar zijn naar ongeziene invoervormen, terwijl PyTorch-naar-HIP aanzienlijke correctheidsdalingen vertoont, wat erop wijst dat agenten die kernels vanaf nul genereren vaak vorm-specifieke aannames hardcoden. AgentKernelArena is ontworpen als een modulair, uitbreidbaar raamwerk voor rigoureuze evaluatie van agentische GPU-kerneloptimalisatie over agenten, taken en hardwaredoelen heen.
Autoregressieve taalmodellen voeren Transformerlagen sequentieel uit, wat een latentieknelpunt creëert dat niet wordt weggenomen door conventionele tensor- of pijplijnparallelisme. We onderzoeken of deze laagafhankelijkheid kan worden versoepeld door de verborgen-toestandtrace over lagen te beschouwen als de oplossing van een niet-lineaire residuvergelijking en deze op te lossen met parallelle Newton-achtige updates. Hoewel deze benadering principieel is, vereisen exacte Newton-correcties dure Jacobiaan-vectorproducten en zijn naïeve vastpuntiteraties instabiel op getrainde Transformers. We introduceren Structured Newton Layer Parallelism (SNLP), een trainings- en inferentieframework dat exacte laag-Jacobianen vervangt door goedkope architectuur-geïnduceerde surrogaatdynamieken. In residu-Transformers levert dit Identity Newton (IDN) op, waarbij de correctie reduceert tot een prefix-som-achtige update; in mHC-achtige architecturen gebruikt HC Newton (HCN) de residu-mengmatrix van het model. We introduceren verder SNLP-bewuste regularisatie, die modellen traint om met één of enkele gestructureerde Newton-iteraties de sequentiële voorwaartse doorgang nauwkeurig te benaderen. Experimenten op nanochat-schaal Transformers tonen aan dat SNLP-regularisatie de laag-parallelle compatibiliteit verbetert en ook de standaard sequentiële perplexiteit kan verbeteren, met een reductie van de baseline PPL met 4,7%-23,4%. Bij inferentie bereikt SNLP gecombineerd met laagfusie en chunksgewijze decompositie praktische wandklokversnellingen: op een 0,5B Nanochat-model wordt een 2,3x versnelling bereikt terwijl de PPL nog steeds met 6,1% verbetert. Deze resultaten suggereren dat laag-parallelle inferentie niet slechts een numerieke benadering van sequentiële uitvoering is, maar kan fungeren als een nuttige door de oplosser geïnduceerde inferentiebias. We karakteriseren ook beperkingen: kant-en-klare voorgetrainde modellen zijn minder vatbaar voor deze procedure, en exacte convergentie herstelt de sequentiële berekening in plaats van monotone inferentie-tijdschaling te bieden.
Geheugensystemen kunnen enorm verschillende hoeveelheden informatie opslaan ondanks vergelijkbare hardwarebeperkingen. Hier tonen we aan dat superieur ruimtelijk geheugen voortkomt uit een discrete verstijving van de populatiegeometrie van de hippocampus—een overgang van ongeorganiseerde naar kristallijne collectieve codering. In een vergelijking tussen mezen die voedsel verstoppen en zebravinken die dat niet doen, ontdekten we dat de hippocampus van de voedselverstopsters een topologisch starre, "kristallijne" geometrie handhaaft met significant hogere geometrische stabiliteit (Shesha 0,245 versus 0,166) en bijna tweemaal zo grote temporele coherentie (Shesha 0,393 versus 0,209), terwijl de hippocampus van de niet-verstopsters lijkt op een ongeorganiseerde "mist." Deze stabiliteit wordt actief geconstrueerd door synergistische circuitdynamica: exciterende neuronen vormen het ruimtelijke steigersysteem, terwijl inhiberende populaties bijdragen aan orthogonale decorrelatie, een circuitmotief waarin exciterende en inhiberende populaties grotendeels niet-overlappende representatieve subruimten innemen. Een dubbele dissociatie met Valiant's Stable Memory Allocator, een model dat voorspelt dat specifieke neuronensembles ten grondslag liggen aan elk geheugen, bevestigt dat dit voordeel een continue topologische organisatie weerspiegelt in plaats van discrete neuronentoewijzing: netwerken van verstopsters vertonen een bijna-nul split-half allocatiebetrouwbaarheid ondanks hun geometrische superioriteit. Computermodellering over 10.000 configuraties onthult topologische rigiditeit als de wiskundige voorwaarde voor schaalvergroting: kristallijne codes handhaven een getrouwe uitlezing voorbij M=1.000 locaties, terwijl mistcodes falen onder M=10, een meer dan 100-voudig capaciteitsvoordeel. Deze capaciteit vereist een 169-voudige representatieve redundantie: een "geometrische belasting" die de manifold stabiliseert tegen biologische ruis. Deze resultaten vestigen geometrische stabiliteit als een kandidaat-organisatieprincipe van biologisch geheugen: evolutie bereikt geheugen met hoge capaciteit niet door neuronen te vermenigvuldigen, maar door de geometrie van de neurale code zelf te ontwerpen.
Een opvallende geometrische discrepantie bestaat al lange tijd in de praktijk van deep learning. Hoewel moderne neurale netwerkarchitecturen van nature rijke symmetrie- en equivariantie-eigenschappen vertonen, werken populaire optimalisatoren zoals Adam en zijn varianten inherent coördinaatsgewijs, waardoor ze de equivariantiestructuren van de parameterruimte niet kunnen respecteren. We pakken deze discrepantie aan door een symmetrie-compatibel principe voor optimalisatorontwerp te introduceren: de gradiënt-updateregel moet equivariant zijn onder de symmetriegroep die op het corresponderende gewichtsblok werkt. Volgens dit principe geven we eerst een uniform perspectief op bi-orthogonaal equivariante updates voor algemene matrixlagen, zoals gebruikt door stochastic spectral descent, Muon, Scion en polaire gradiëntmethoden. Belangrijker nog, door over te stappen van orthogonale groepen naar permutatie- en gedeelde-verschuivingssymmetrieën, leiden we symmetrie-compatibele optimalisatoren af voor parameterblokken waarvan de symmetrieën verschillen van die van algemene matrixlagen: embedding- en LM-head matrices, SwiGLU MLP-projecties en MoE-router matrices. Deze constructies omvatten eenzijdige spectrale, rij-norm, hybride rij-norm/spectrale, rij-bewuste, kolom-bewuste, gecentreerde rij-norm en links-spectrale updates. Ze leveren een end-to-end laagsgewijze optimalisatorstack op waarin elke belangrijke matrixwaardige parameterklasse een update krijgt waarvan de equivariantie overeenkomt met haar symmetriegroep. We bevestigen dit principe door pre-trainingsexperimenten op dichte en sparse MoE-taalmodellen, waaronder Qwen3-0.6B-stijl, Gemma 3 1B-stijl, OLMoE-1B-7B-stijl en verkleinde gpt-oss-architecturen. In al deze experimenten verbeteren symmetrie-compatibele updates consequent het uiteindelijke validatieverlies, en in verschillende gevallen de trainingsstabiliteit, ten opzichte van overeenkomstige AdamW-updates.
Middelenarme implementatiebeperkingen hebben modelkwantisering essentieel gemaakt voor het implementeren van neurale netwerken met behoud van prestaties. Tegelijkertijd is modelsamenvoeging een steeds praktischere middelenarme strategie geworden om meerdere taak- of domeinspecialistische experts te integreren in één model zonder gezamenlijke training of bediening van meerdere modellen. Samen maken kwantisering en modelsamenvoeging een efficiënte middelenarme implementatiepijplijn mogelijk door meerdere experts te integreren in één laag-bitmodel. We formuleren deze setting als Post-Merge Kwantisering (PMK). We laten zien dat het direct toepassen van post-trainingkwantisering (PTK) op een samengevoegd model onbetrouwbaar is omdat twee verschillende afwijkingen worden gekoppeld: de kwantiseringsafwijking geïntroduceerd door laag-bitreconstructie en de expert-gerelateerde samenvoegingsafwijking geërfd van modelsamenvoeging. Om deze afwijkingen te beperken, stellen we E-PMK voor, een expert-gestuurd PMK-raamwerk dat bron-expertgewichten gebruikt om expert-gestuurde outputdoelen te leveren tijdens laagsgewijse kalibratie, samen met verankering van samengevoegde gewichten om de kalibratie te stabiliseren en het geïntegreerde gedrag van het samengevoegde model te behouden. Op CLIP-ViT-B/32 met acht taken samenvoeging verbetert E-PMK 4-bit GPTQ van 65,0% naar 73,6% onder Task Arithmetic en van 69,1% naar 74,8% onder TIES-Merging. Bij moeilijkere instellingen verbetert E-PMK GPTQ van 34,8% naar 76,7% op 20-taak CLIP-ViT-L/14 en van 78,26% naar 83,34% op FLAN-T5-base GLUE. Deze resultaten tonen aan dat E-PMK effectieve post-samenvoegingskwantisering en laag-bitimplementatie mogelijk maakt.
Multimodale grote taalmodellen (LLM's) worden steeds vaker onderzocht als geautomatiseerde beoordelaars in klinische omgevingen, maar hun scoreringsgedrag op ordinale klinische schalen is nog slecht begrepen. We benchmarken drie toonaangevende LLM-families tegen gesuperviseerde diepe leermodellen voor het scoren van Kloktekentest (CDT)-afbeeldingen op twee openbare datasets met behulp van de Shulman-rubriek. Terwijl volledig fijngetunede Vision Transformers de beste kalibratie bereiken (MAE 0,52, binnen-1 nauwkeurigheid 91%), blijven zero-shot LLM's concurrerend op tolerantie-gebaseerde overeenkomst (GPT-5 MAE 0,67, binnen-1 nauwkeurigheid 92%), ondanks een hogere absolute fout. Per-score analyse onthult echter dat alle drie LLM-families een uitgesproken centraal tendentie-effect vertonen (systematische eindpuntcompressie): voorspellingen worden systematisch naar het midden van de schaal gecomprimeerd, met overvoorspelling aan de lage kant (score 0 naar 1) en ondervoorspelling aan de hoge kant (score 5 naar 4). Dit effect treft onevenredig de klinisch kritische extremen waar nauwkeurige scoring de meeste invloed heeft op screeningsbeslissingen voor cognitieve beperkingen. Gerichte ablatie studies tonen aan dat noch few-shot voorbeelden die het volledige scorebereik bestrijken, noch het verwijderen van klinische terminologie uit de prompt het effect elimineert. Onze bevindingen breiden de LLM-als-beoordelaar bias-literatuur uit van NLP-evaluatie naar klinische beoordeling en benadrukken de noodzaak van kalibratiebewuste evaluatie en post-hoc kalibratie voordat LLM-gebaseerde beoordelaars worden ingezet in risicovolle screening workflows.
Grote Redeneermodellen (Large Reasoning Models, LRM's) bieden nieuwe mogelijkheden voor veiligheidsmonitoring via hun Denkketen (Chain of Thought, CoT)-redenering. De Denkketen is echter niet altijd trouw aan de uiteindelijke output van het model, wat de betrouwbaarheid als monitoringinstrument ondermijnt. Om dit aan te pakken, onderzoeken we de verborgen representaties van LRM's om te bepalen of toekomstig gedrag kan worden voorspeld op basis van prompt- en Denkketenrepresentaties. Door een probe te evalueren bij elke gegenereerde token construeren we een probe-traject: de continue evolutie van de waarschijnlijkheid van een concept gedurende het redeneerproces. We ontdekken dat toekomstig modelgedrag beter te onderscheiden is wanneer het over het volledige traject wordt onderzocht dan op basis van een enkele statische voorspelling. Om deze temporele dynamiek te karakteriseren, extraheren we signaalverwerkingskenmerken die volatiliteit, trend en steady-state gedrag vastleggen, wat de scheiding van toekomstige modeltoestanden aanzienlijk verbetert. We presenteren ook twee methodologische inzichten. Ten eerste bereikt op sjablonen gebaseerde trainingsdata een bijna gelijke prestatie als dynamisch gegenereerde modelresponsies, waardoor de kostbare initiële inferentie en labeling overbodig worden. Ten tweede is de keuze van de pooling-bewerking cruciaal: gemiddelde-pooling en last-token-methoden dalen tot bijna willekeurige prestaties, terwijl max-pooling tot 95% AUROC behaalt en stabiele probe-trajecten oplevert. Met behulp van vier datasets en vier redeneermodellen op het gebied van veiligheid en wiskunde tonen we aan dat trajectkenmerken taakspecifieke dynamiek coderen die de scheidbaarheid van uitkomsten verbetert. Deze bevindingen vestigen probe-trajecten als een complementair raamwerk voor het monitoren van LRM-gedrag. Waarschuwing: Dit artikel bevat mogelijk schadelijke inhoud.
Grote Taalmodellen (LLMs) worden steeds vaker ingezet als wetenschappelijke AI-assistenten, en een groeiend aantal benchmarks evalueert hun capaciteiten op het gebied van kennisverwerving, redeneren, codegeneratie en het gebruik van hulpmiddelen. Deze evaluaties gaan er echter doorgaans van uit dat het wetenschappelijke probleem al goed geformuleerd is, terwijl praktische wetenschappelijke ondersteuning vaak begint met een slecht geformuleerde gebruikersvraag die via dialoog moet worden verfijnd voordat een berekening, analyse of experiment betrouwbaar kan worden uitgevoerd. Wij introduceren SCICONVBENCH, een benchmark voor meer-staps verduidelijking bij het formuleren van wetenschappelijke taken, in vier computationele wetenschapsdomeinen: vloeistofmechanica, vaste-stofmechanica, materiaalkunde en partiële differentiaalvergelijkingen (PDV's). SCICONVBENCH richt zich op twee complementaire capaciteiten: het achterhalen van ontbrekende informatie (disambiguatie) en het detecteren en corrigeren van foutieve verzoeken die intern tegenstrijdige informatie bevatten (inconsistentieresolutie). Onze benchmark combineert een gestructureerde taakontologie met een rubriek-gebaseerd evaluatiekader, waardoor systematische meting van LLM-prestaties op drie dimensies mogelijk is: verhelderingsgedrag, conversationele grounding, en getrouwheid van de uiteindelijke specificatie. Huidige frontiermodellen presteren relatief goed op inconsistentieresolutie, maar zelfs het beste model lost slechts 52,7% van de disambiguatiegevallen in vloeistofmechanica op. Verder constateren we dat frontiermodellen regelmatig stilzwijgende aannames doen en impliciete specificeerherstelwerkzaamheden uitvoeren die niet zijn gebaseerd op het gesprek met gebruikers. SCICONVBENCH legt een fundament voor het evalueren van de upstream conversationele redeneervaardigheden die een betrouwbare computationele wetenschapsassistent vereist. De code en gegevens zijn te vinden op https://github.com/csml-rpi/SciConvBench.
Wij stellen een op zichzelf staande autoregressieve (AR) Actie-Expert voor die acties genereert als een continue causale reeks, terwijl deze conditieert op verversbare visie-taalprefixen. In tegenstelling tot bestaande Visie-Taal-Actie (VLA)-modellen en diffusiebeleid die de temporele context bij elke nieuwe waarneming resetten en reactief acties voorspellen, behoudt onze Actie-Expert een eigen geschiedenis via een langlevend geheugen en is inherent contextbewust. Deze structuur pakt de frequentie-mismatch aan tussen snelle aansturing en langzame redenering, maakt efficiënte onafhankelijke pretraining van kinematische syntaxis en modulaire integratie met zware perceptie-backbones mogelijk, en waarborgt op natuurlijke wijze ruimtelijk-temporeel consistente actiegeneratie over frames heen. Om deze asynchrone hybride V-T-A-modaliteiten te synchroniseren, maken we gebruik van een herverankeringsmechanisme dat wiskundig rekening houdt met perceptieveroudering tijdens zowel training als inferentie. Experimenten op gesimuleerde en echte robot-manipulatietaken tonen aan dat de voorgestelde methode effectief traditionele chunk-gebaseerde actiekoppen kan vervangen voor zowel specialistische als generalistische beleidsvormen. AR-VLA vertoont superieur geschiedenisbewustzijn en aanzienlijk vloeiendere actietrajecten, terwijl de taaksuccespercentages van state-of-the-art reactieve VLA's worden gehandhaafd of overtroffen. Samenvattend introduceert ons werk een schaalbaar, contextbewust schema voor actiegeneratie dat een robuuste structurele basis biedt voor het trainen van effectieve robotbeleidsvormen. Code en video's beschikbaar op https://arvla.insait.ai
Het begrijpen van sociale interacties vereist het redeneren over subtiele non-verbale signalen, maar huidige multimodale grote taalmodellen (MLLM's) slagen er vaak niet in om te identificeren wie met wie interageert in video's met meerdere personen. We introduceren GRASP, een grootschalige sociale-redeneringsdataset die hoogwaardige sociale vraag-antwoordkoppelingen combineert met fijnmazige blik- en deïctische gebeurtenissen. GRASP bevat 290K vraag-antwoordparen over 46K video's met een totale duur van 749 uur, georganiseerd volgens een taxonomie van 16 categorieën die blik, gebaar en gecombineerde blik-gebaarredenering omvatten, samen met GRASP-Bench voor evaluatie. In tegenstelling tot eerdere bronnen die zich richten op geïsoleerde signalen of hoogwaardige sociale QA, bouwt GRASP vragen op basis van identiteitsconsistente bliktrajecten, deïctische gebaren en hun gezamenlijke samenstellingen tot sociale gebeurtenissen. Bovendien stellen we Social Grounding Reward (SGR) voor, een leersignaal dat deze sociale gebeurtenissen gebruikt om modellen aan te moedigen te redeneren over de deelnemers aan elke interactie. Experimenten tonen aan dat SGR de prestaties op GRASP-Bench verbetert terwijl de zero-shot-prestaties op gerelateerde sociale video-QA-benchmarks behouden blijven.
Wij introduceren TopoPrimer, een raamwerk dat de globale topologische structuur van de seriepopulatie als expliciete input maakt voor elk voorspellingsmodel. TopoPrimer verbetert de nauwkeurigheid in uiteenlopende domeinen, stabiliseert voorspellingen onder seizoensgebonden vraagpieken en overbrugt de koude-startkloof. TopoPrimer wordt eenmalig per domein voorberekend via persistente homologie en spectrale schoofcoördinaten, en wordt per token ingezet voor volledig getrainde modellen en als een lichtgewicht adapter voor voorgetrainde backbones. Van deze twee componenten vormen de schoofcoördinaten de primaire drijfveer voor nauwkeurigheid. Over vier openbare benchmarks op Chronos en TimesFM heen verbetert TopoPrimer consistent de voorspellingsnauwkeurigheid, met winsten tot 7,3% MSE op ECL. Het topologievoordeel blijft bestaan met vrijwel identieke omvang bij zowel zero-shot als fijngestelde backbones, wat suggereert dat topologie en per-serie training complementaire signalen vastleggen. De winsten zijn het meest uitgesproken in moeilijke regimes. Onder piekseizoensvraag degraderen klassieke en zero-shot-modellen met tot wel 50%, terwijl TopoPrimer binnen 10% blijft. Bij een koude start zonder itemhistorie reduceert TopoPrimer de MAE met 27% ten opzichte van een topologievrije baseline.