Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren GLM-5, een next-generation foundationmodel dat ontworpen is om het paradigma van vibe coding te laten overgaan in agentic engineering. Voortbouwend op de agentic, reasoning en coding (ARC) capaciteiten van zijn voorganger, adopteert GLM-5 DSA om de trainings- en inferentiekosten significant te verlagen met behoud van lange-context nauwkeurigheid. Om modelalignment en autonomie te bevorderen, implementeren we een nieuwe asynchrone reinforcement learning-infrastructuur die de efficiëntie na de training aanzienlijk verbetert door generatie van training te ontkoppelen. Verder stellen we nieuwe asynchrone agent-RL-algoritmen voor die de RL-kwaliteit verder verbeteren, waardoor het model effectiever kan leren van complexe, langdurige interacties. Door deze innovaties behaalt GLM-5 state-of-the-art prestaties op belangrijke open benchmarks. Cruciaal is dat GLM-5 een ongekend vermogen demonstreert in real-world codeertaken, waarbij het eerdere baseline-resultaten overtreft in het afhandelen van end-to-end software-engineering uitdagingen. Code, modellen en meer informatie zijn beschikbaar op https://github.com/zai-org/GLM-5.
Agentvaardigheden zijn gestructureerde pakketten van procedurele kennis die LLM-agenten tijdens de inferentie versterken. Ondanks snelle adoptie is er geen standaardmanier om te meten of ze daadwerkelijk helpen. Wij presenteren SkillsBench, een benchmark met 86 taken verdeeld over 11 domeinen, gekoppeld aan zorgvuldig samengestelde Vaardigheden en deterministische verifiers. Elke taak wordt geëvalueerd onder drie condities: geen Vaardigheden, samengestelde Vaardigheden en zelf gegenereerde Vaardigheden. We testen 7 agent-modelconfiguraties over 7.308 trajecten. Samengestelde Vaardigheden verhogen het gemiddelde slagingspercentage met 16,2 procentpunten (pp), maar de effecten variëren sterk per domein (van +4,5 pp voor Software Engineering tot +51,9 pp voor Gezondheidszorg) en 16 van de 84 taken vertonen negatieve delta's. Zelf gegenereerde Vaardigheden bieden gemiddeld geen voordeel, wat aantoont dat modellen niet betrouwbaar de procedurele kennis kunnen produceren waarvan ze profiteren bij het consumeren ervan. Gerichte Vaardigheden met 2-3 modules presteren beter dan uitgebreide documentatie, en kleinere modellen met Vaardigheden kunnen evenaren aan grotere modellen zonder Vaardigheden.
Sparse Autoencoders (SAE's) zijn naar voren gekomen als een veelbelovend instrument voor het interpreteren van neurale netwerken door hun activeringen te ontbinden in sparse sets van door mensen interpreteerbare kenmerken. Recent onderzoek heeft meerdere SAE-varianten geïntroduceerd en deze met succes opgeschaald naar frontier-modellen. Ondanks de grote opwinding werpt een groeiend aantal negatieve resultaten in downstreamtaken twijfel op of SAE's daadwerkelijk betekenisvolle kenmerken blootleggen. Om dit direct te onderzoeken, voeren we twee complementaire evaluaties uit. In een synthetische opzet met bekende grondwaarheid-kenmerken tonen we aan dat SAE's slechts 9% van de werkelijke kenmerken herstellen, ondanks het behalen van 71% verklaarde variantie, wat aantoont dat ze falen in hun kerntaak, zelfs wanneer reconstructie sterk is. Om SAE's op echte activeringen te evalueren, introduceren we drie basislijnen die de richtingen van SAE-kenmerken of hun activeringspatronen beperken tot willekeurige waarden. Door middel van uitgebreide experimenten met meerdere SAE-architecturen laten we zien dat onze basislijnen volledig getrainde SAE's evenaren op het gebied van interpreteerbaarheid (0.87 vs 0.90), sparse probing (0.69 vs 0.72) en causale manipulatie (0.73 vs 0.72). Gezamenlijk suggereren deze resultaten dat SAE's in hun huidige staat niet betrouwbaar de interne mechanismen van modellen ontbinden.
Naarmate grote taalmodelagenten in toenemende mate netwerkomgevingen bevolken, rijst een fundamentele vraag: ondergaan kunstmatige intelligentie (KI)-agentensamenlevingen convergentiedynamieken die vergelijkbaar zijn met menselijke sociale systemen? Moltbook benadert recentelijk een plausibel toekomstscenario waarin autonome agenten deelnemen aan een open, continu evoluerende online samenleving. Wij presenteren de eerste grootschalige systemische diagnose van deze KI-agentensamenleving. Voorbij statische observatie introduceren we een kwantitatief diagnostisch kader voor dynamische evolutie in KI-agentensamenlevingen, waarbij we semantische stabilisatie, lexicale omzet, individuele traagheid, invloedspersistentie en collectieve consensus meten. Onze analyse onthult een systeem in dynamisch evenwicht in Moltbook: hoewel globale semantische gemiddelden zich snel stabiliseren, behouden individuele agenten een hoge diversiteit en aanhoudende lexicale omzet, waardoor homogenisering wordt weerstaan. Echter, agenten vertonen sterke individuele traagheid en minimale adaptieve respons op interactiepartners, wat wederzijdse beïnvloeding en consensus verhindert. Hierdoor blijft invloed vluchtig zonder persistente superknooppunten, en ontwikkelt de samenleving geen stabiele collectieve invloedsankers door het ontbreken van gedeeld sociaal geheugen. Deze bevindingen tonen aan dat schaal en interactiedichtheid alleen onvoldoende zijn om socialisatie te induceren, en bieden bruikbare ontwerp- en analyseprincipes voor aanstaande volgende-generatie KI-agentensamenlevingen.
Tekst-embeddingmodellen worden veelvuldig gebruikt voor semantische gelijkenistaken, waaronder informatie-retrieval, clustering en classificatie. Algemene modellen worden doorgaans getraind met eenfasige of meerfasige processen die gebruikmaken van contrastieve verliesfuncties. Wij introduceren een nieuwe trainingsmethode die modeldistillatietechnieken combineert met taakspecifieke contrastieve verliesfuncties om compacte, hoogpresterende embeddingmodellen te produceren. Onze bevindingen suggereren dat deze aanpak effectiever is voor het trainen van kleine modellen dan uitsluitend contrastieve of op distillatie gebaseerde trainingsparadigma's. De benchmark-scores van de resulterende modellen, jina-embeddings-v5-text-small en jina-embeddings-v5-text-nano, overtreffen of evenaren de state-of-the-art voor modellen van vergelijkbare grootte. De jina-embeddings-v5-text-modellen ondersteunen bovendien lange teksten (tot 32k tokens) in vele talen en genereren embeddings die robuust blijven bij afkapping en binaire kwantisering. De modelgewichten zijn publiekelijk beschikbaar, wat naar verwachting verdere vooruitgang in de ontwikkeling van embeddingmodellen zal inspireren.
Clawdbot is een zelf-gehoste, toolgebruikende persoonlijke AI-agent met een brede actieruimte die lokale uitvoering en web-gemedieerde workflows omvat. Dit roept verhoogde veiligheids- en beveiligingsproblemen op bij onduidelijkheid en tegenstrijdige aansturing. Wij presenteren een trajectgecentreerde evaluatie van Clawdbot over zes risicodimensies. Onze testsuite bemonstert en lichtjes adapteert scenario's uit eerdere agent-veiligheidsbenchmarks (inclusief ATBench en LPS-Bench) en vult deze aan met handmatig ontworpen cases die zijn toegesneden op Clawdbot's tooloppervlak. We loggen complete interactietrajecten (berichten, acties, tool-aanroepargumenten/uitvoer) en beoordelen de veiligheid met zowel een geautomatiseerde trajectbeoordelaar (AgentDoG-Qwen3-4B) als menselijke beoordeling. Over 34 canonieke cases heen constateren we een niet-uniform veiligheidsprofiel: de prestaties zijn over het algemeen consistent bij taken gericht op betrouwbaarheid, terwijl de meeste mislukkingen optreden bij ongespecificeerde intentie, open-einde doelen of ogenschijnlijk onschuldige jailbreak-prompt, waarbij kleine misinterpretaties kunnen escaleren naar toolacties met een grotere impact. We hebben de algemene resultaten aangevuld met representatieve casestudies en de gemeenschappelijke kenmerken van deze cases samengevat, waarbij we de beveiligingskwetsbaarheden en typische faalwijzen analyseerden die Clawdbot in de praktijk geneigd is te triggeren.
Wij introduceren ResearchGym, een benchmark en uitvoeringsomgeving voor het evalueren van AI-agenten op end-to-end onderzoek. Om dit te concretiseren, hergebruiken we vijf orale en spotlight papers van ICML, ICLR en ACL. Uit de repository van elke paper behouden we de datasets, de evaluatie-opzet en de baseline-implementaties, maar we houden de door de paper voorgestelde methode achter. Dit resulteert in vijf gecontaineriseerde taakomgevingen die in totaal 39 sub-taken omvatten. Binnen elke omgeving moeten agenten nieuwe hypothesen voorstellen, experimenten uitvoeren en proberen de sterke menselijke baselines op de metrieken van de paper te overtreffen. In een gecontroleerde evaluatie van een agent aangedreven door GPT-5 observeren we een grote kloof tussen capaciteit en betrouwbaarheid. De agent verbetert de verstrekte baselines uit de repository in slechts 1 van de 15 evaluaties (6,7%) met 11,5%, en voltooit gemiddeld slechts 26,5% van de sub-taken. Wij identificeren terugkerende foutmodi op de lange termijn, waaronder ongeduld, slecht tijd- en resourcebeheer, overmoed in zwakke hypothesen, moeilijkheden bij het coördineren van parallelle experimenten en harde limieten door contextlengte. Toch overtreft de agent in een enkele run de oplossing van een ICML 2025 Spotlight-taak, wat aangeeft dat frontier-agenten af en toe state-of-the-art prestaties kunnen bereiken, maar dit onbetrouwbaar doen. We evalueren tevens propriëtaire agent-scaffolds, waaronder Claude Code (Opus-4.5) en Codex (GPT-5.2), die een vergelijkbare kloof vertonen. ResearchGym biedt infrastructuur voor de systematische evaluatie en analyse van autonome agenten bij gesloten-lus onderzoek.
Unificatie modellen kunnen zowel multimodale interpretatie als generatie binnen een enkele architectuur aan, maar werken doorgaans in één keer zonder hun uitvoer iteratief te verfijnen. Veel multimodale taken, vooral die met complexe ruimtelijke composities, meerdere interagerende objecten of evoluerende instructies, vereisen het opdelen van instructies, het verifiëren van tussentijdse resultaten en het maken van iteratieve correcties. Hoewel test-time scaling (TTS) heeft aangetoond dat het toewijzen van extra rekenkracht tijdens inferentie voor iteratief redeneren de prestaties van taalmodellen aanzienlijk verbetert, blijft het uitbreiden van dit paradigma naar unificatie multimodale modellen een open uitdaging. Wij introduceren UniT, een raamwerk voor multimodale chain-of-thought test-time scaling dat een enkel unificatie model in staat stelt om over meerdere rondes te redeneren, verifiëren en verfijnen. UniT combineert agent-gebaseerde datasynthese, unificatie modeltraining en flexibele inferentie tijdens testtijd om cognitief gedrag op te roepen, waaronder verificatie, subdoeldecompositie en inhoudelijk geheugen. Onze belangrijkste bevindingen zijn: (1) unificatie modellen getraind op korte redeneertrajecten generaliseren naar langere inferentieketens tijdens testtijd; (2) sequentiële chain-of-thought redenering biedt een schaalbaardere en rekenzuinigere TTS-strategie dan parallelle sampling; (3) training op generatie- en bewerkingstrajecten verbetert visueel redeneren buiten de verdeling. Deze resultaten vestigen multimodale test-time scaling als een effectief paradigma voor het bevorderen van zowel generatie als interpretatie in unificatie modellen.
De Platonic Representation Hypothesis suggereert dat representaties van neurale netwerken convergeren naar een gemeenschappelijk statistisch model van de werkelijkheid. Wij tonen aan dat de bestaande metrieken die worden gebruikt om representatiegelijkenis te meten, verstoord worden door de schaal van het netwerk: het vergroten van de modeldiepte of -breedte kan representatiegelijkenisscores systematisch opdrijven. Om deze effecten te corrigeren, introduceren we een op permutatie gebaseerd nulkalibratiekader dat elke representatiegelijkenismetriek omzet in een gekalibreerde score met statistische garanties. Wij herzien de Platonic Representation Hypothesis met ons kalibratiekader, wat een genuanceerd beeld onthult: de ogenschijnlijke convergentie gerapporteerd door globale spectrale maten verdwijnt grotendeels na kalibratie, terwijl lokale nabijheidsgelijkenis, maar niet lokale afstanden, significante overeenstemming behoudt tussen verschillende modaliteiten. Op basis van deze bevindingen stellen wij de Aristoteliaanse Representatiehypothese voor: representaties in neurale netwerken convergeren naar gedeelde lokale nabijheidsrelaties.
Voorspellende wereldmodellen die toekomstige observaties simuleren onder expliciete camerabesturing zijn fundamenteel voor interactieve AI. Ondanks snelle vooruitgang ontbreekt het huidige systemen aan ruimtelijke persistentie: ze slagen er niet in stabiele scènestructuren te behouden over lange trajecten, en hallucineren vaak details wanneer camera's eerder waargenomen locaties opnieuw bezoeken. Wij identificeren dat deze geometrische drift voortkomt uit de afhankelijkheid van positie-embeddingen in de beeldruimte, die in conflict zijn met de projectieve geometrie die nodig is voor 3D-consistentie. Wij introduceren ViewRope, een geometriebewuste codering die camerastralingsrichtingen direct injecteert in de zelf-attentielagen van videotransformers. Door aandacht te parametriseren met relatieve straalgeometrie in plaats van pixel-localiteit, biedt ViewRope een model-native inductieve bias voor het ophalen van 3D-consistente inhoud over temporele hiaten. Verder stellen wij Geometrie-Bewust, Frame-Spaarzaam Aandacht voor, dat gebruikmaakt van deze geometrische signalen om selectief aandacht te schenken aan relevante historische frames, waardoor de efficiëntie verbetert zonder geheugenconsistentie op te offeren. Wij presenteren ook ViewBench, een diagnostische suite die lus-sluitingsgetrouwheid en geometrische drift meet. Onze resultaten tonen aan dat ViewRope de langetermijnconsistentie aanzienlijk verbetert en tegelijkertijd de rekenkosten verlaagt.
Het trainen van grote taalmmodellen (LLM's) berust vrijwel uitsluitend op dense adaptieve optimalisatiemethoden met steeds geavanceerdere preconditioners. Wij tonen aan dat deze aanpak niet vanzelfsprekend is door te demonstreren dat het willekeurig maskeren van parameterupdates zeer effectief kan zijn: een gemaskeerde variant van RMSProp overtreft consistent recente state-of-the-art optimalisatiemethoden. Onze analyse onthult dat het willekeurig maskeren een kromming-afhankelijke geometrische regularisatie induceert die het optimalisatietraject gladder maakt. Op basis van dit inzicht introduceren we Momentum-uitgelijnde gradientmaskering (Magma), waarbij de gemaskeerde updates worden gemoduleerd aan de hand van momentum-gradient-uitlijning. Uitgebreide experimenten met het voor-trainen van LLM's tonen aan dat Magma een eenvoudige, directe vervanging is voor adaptieve optimalisatiemethoden, met consistente verbeteringen en verwaarloosbare rekenkosten. Opmerkelijk is dat voor het 1B-modelformaat Magma de perplexiteit met meer dan 19% respectievelijk 9% reduceert ten opzichte van Adam en Muon.
Humanity's Last Exam (HLE) is uitgegroeid tot een veelgebruikte benchmark voor het evalueren van geavanceerde grote taalmodellen op uitdagende, multidisciplinaire vragen. Gemeenschapsanalyses hebben echter zorgen gewekt dat HLE een aanzienlijk aantal onzuivere items bevat, wat evaluatieresultaten kan vertekenen en modelvergelijkingen kan beïnvloeden. Om deze uitdaging aan te pakken, introduceren we HLE-Verified, een geverifieerde en herziene versie van HLE met een transparant verificatieprotocol en een fijnmazige foutentaxonomie. Onze constructie volgt een tweefasen workflow van validatie-en-reparatie, resulterend in een gecertificeerde benchmark. In Fase I ondergaat elk item een binaire validatie van het probleem en het eindantwoord door domeinexpertbeoordeling en modelgebaseerde kruiscontroles, wat 641 geverifieerde items oplevert. In Fase II worden defecte maar repareerbare items herzien onder strikte beperkingen die de oorspronkelijke evaluatiedoelen behouden, via dubbele onafhankelijke expertreparaties, modelondersteunde auditing en finale adjudicatie, resulterend in 1.170 herziene en gecertificeerde items. De overige 689 items worden vrijgegeven als een gedocumenteerde onzekere set met expliciete onzekerheidsbronnen en expertisetags voor toekomstige verfijning. We evalueren zeven state-of-the-art taalmodellen op HLE en HLE-Verified, en observeren een gemiddelde absolute nauwkeurigheidswinst van 7–10 procentpunt op HLE-Verified. De verbetering is vooral uitgesproken bij items waar de oorspronkelijke probleemstelling en/of het referentieantwoord foutief is, met winsten van 30–40 procentpunt. Onze analyses tonen verder een sterke associatie tussen modelvertrouwen en de aanwezigheid van fouten in de probleemstelling of het referentieantwoord, wat de effectiviteit van onze revisies ondersteunt. Over het geheel genomen verbetert HLE-Verified HLE-stijl evaluaties door annotatieruis te verminderen en een betrouwbaardere meting van modelcapaciteiten mogelijk te maken. Data is beschikbaar op: https://github.com/SKYLENAGE-AI/HLE-Verified
Grote Taalmodellen (LLM's) veranderen het codeerparadigma, bekend als "vibe coding", maar het synthetiseren van algoritmisch geavanceerde en robuuste code blijft een kritieke uitdaging. Het stimuleren van de diepe redeneervermogens van LLM's is essentieel om deze horde te nemen. Reinforcement Fine-Tuning (RFT) is naar voren gekomen als een veelbelovende strategie om in deze behoefte te voorzien. De meeste bestaande benaderingen negeren echter de inherente heterogene moeilijkheidsgraad en granulariteit van testgevallen, wat leidt tot een onevenwichtige verdeling van beloningssignalen en bijgevolg vertekende gradientupdates tijdens de training. Om dit aan te pakken, stellen we Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT) voor. TAROT construeert systematisch voor elk probleem een testset met vier niveaus (basis, intermediair, complex, edge), wat een gecontroleerd moeilijkheidslandschap biedt voor curriculumontwerp en -evaluatie. Cruciaal is dat TAROT curriculumvoortgang ontkoppelt van ruwe beloningsscores, waardoor capaciteitsgeconditioneerde evaluatie en principiële selectie vanuit een portfolio van curriculumbeleid mogelijk wordt, in plaats van toevallige samenstelling van testgevalmoeilijkheid. Dit ontwerp bevordert stabiele optimalisatie en efficiëntere competentieverwerving. Uitgebreide experimentele resultaten tonen aan dat het optimale curriculum voor RFT bij codegeneratie nauw verbonden is met de inherente capaciteit van een model. Minder capabele modellen behalen grotere vooruitgang met een eenvoudig-naar-moeilijk progressie, terwijl competantere modellen excelleren onder een moeilijk-eerst curriculum. TAROT biedt een reproduceerbare methode die curriculumontwerp adaptief afstemt op de capaciteit van een model, waardoor de functionele correctheid en robuustheid van de gegenereerde code consistent verbetert. Alle code en data zijn vrijgegeven om reproduceerbaarheid te bevorderen en gemeenschapsonderzoek vooruit te helpen op https://github.com/deep-diver/TAROT.
Post-training compressie van Transformer-modellen berust doorgaans op truncated singular value decomposition (SVD). Het afdwingen van een enkele gedeelde deelruimte kan echter de nauwkeurigheid aantasten, zelfs bij matige compressie. Sparse dictionary learning biedt een flexibelere union-of-subspaces representatie, maar bestaande methoden kampen vaak met iteratieve updates van de dictionary en coëfficiënten. Wij stellen COMPOT voor (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), een trainingsvrij compressieraamwerk dat een kleine kalibratiedataset gebruikt om een sparse gewichtsfactorisatie te schatten. COMPOT gebruikt orthogonale dictionaries die gesloten Procrustes-updates voor de dictionary en analytische sparse coding in één stap voor de coëfficiënten mogelijk maken, waardoor iteratieve optimalisatie wordt geëlimineerd. Om om te gaan met heterogene laaggevoeligheid onder een globaal compressiebudget, introduceert COMPOT verder een eenmalige dynamische allocatiestrategie die laagsgewijze compressiepercentages adaptief herverdeelt. Uitgebreide experimenten met diverse architecturen en taken tonen aan dat COMPOT consequent een superieure kwaliteit-compressie-afweging biedt ten opzichte van sterke low-rank en sparse baseline-methoden, terwijl het volledig compatibel blijft met post-training kwantisatie voor extreme compressie. Code is beschikbaar op https://github.com/mts-ai/COMPOT.
Wereldmodellen vereisen een robuust relationeel begrip om voorspelling, redenering en controle te ondersteunen. Hoewel objectgecentreerde representaties een nuttige abstractie bieden, zijn ze niet toereikend om interactie-afhankelijke dynamiek vast te leggen. Wij stellen daarom C-JEPA voor, een eenvoudig en flexibel objectgecentreerd wereldmodel dat gemaskeerde joint embedding-predictie uitbreidt van beeldpatches naar objectgecentreerde representaties. Door objectniveau-masking toe te passen dat vereist dat de toestand van een object wordt afgeleid uit andere objecten, induceert C-JEPA latente interventies met contrafeitelijke effecten en voorkomt het shortcut-oplossingen, wat interactieredenering essentieel maakt. Empirisch leidt C-JEPA tot consistente verbeteringen in visuele vraagbeantwoording, met een absolute verbetering van ongeveer 20% in contrafeitelijk redeneren vergeleken met dezelfde architectuur zonder objectniveau-masking. Bij agent-controletaken maakt C-JEPA aanzienlijk efficiëntere planning mogelijk door slechts 1% van de totale latente invoerkenmerken te gebruiken die patchgebaseerde wereldmodellen vereisen, terwijl vergelijkbare prestaties worden bereikt. Ten slotte bieden we een formele analyse die aantoont dat objectniveau-masking een causuele inductieve bias induceert via latente interventies. Onze code is beschikbaar op https://github.com/galilai-group/cjepa.
Huidig onderzoek naar multimodale modellen wordt geconfronteerd met een fundamentele uitdaging: het verbeteren van generatieve capaciteiten gaat vaak ten koste van het begripsvermogen, en omgekeerd. Wij analyseerden deze wisselwerking en identificeren dat de voornaamste oorzaak wellicht het potentiële conflict tussen generatie en begrip is, wat een competitieve dynamiek binnen het model creëert. Om dit aan te pakken, stellen we het Reason-Reflect-Refine (R3) raamwerk voor. Dit innovatieve algoritme herformuleert de taak van eenstapsgeneratie naar een meerstapsproces van "genereren-begrijpen-hergenereren". Door het begripsvermogen van het model expliciet te benutten tijdens de generatie, verzachten we het optimalisatiedilemma succesvol, wat resulteert in sterkere generatieresultaten en een verbeterd begripsvermogen dat gerelateerd is aan het generatieproces. Dit biedt waardevolle inzichten voor het ontwerpen van next-generation, verenigde multimodale modellen. Code is beschikbaar op https://github.com/sen-ye/R3.
Taalmodelen worden steeds vaker ingezet om te redeneren over inhoud waarop ze niet zijn getraind, zoals nieuwe documenten, evoluerende kennis en gebruikersspecifieke gegevens. Een gangbare aanpak is retrieval-augmented generation (RAG), waarbij documenten letterlijk extern worden opgeslagen (als chunks) en alleen een relevante subset tijdens inferentie wordt opgehaald voor een LLM om over te redeneren. Dit leidt echter tot inefficiënt gebruik van rekencapaciteit tijdens testtijd (de LLM redeneert herhaaldelijk over dezelfde documenten); bovendien kan chunk-retrieval irrelevante context injecteren die ongefundeerde generatie bevordert. Wij stellen een mensachtig niet-parametrisch continu-leerkader voor, waarbij het basismodel ongewijzigd blijft en leren plaatsvindt door elke nieuwe ervaring te integreren in een externe semantische geheugenstatus die zich continu accumuleert en consolideert. Wij presenteren Panini, dat dit realiseert door documenten voor te stellen als Generative Semantic Workspaces (GSW) – een entiteits- en gebeurtenisbewust netwerk van vraag-antwoordparen (QA), voldoende voor een LLM om de ervaren situaties te reconstrueren en latente kennis te ontginnen via op redenering gebaseerde inferentieketens op het netwerk. Gegeven een query, doorloopt Panini alleen de continu bijgewerkte GSW (niet de letterlijke documenten of chunks), en haalt de meest waarschijnlijke inferentieketens op. Over zes QA-benchmarks behaalt Panini de hoogste gemiddelde prestatie, 5%-7% hoger dan andere competitieve basismodellen, terwijl het 2-30x minder antwoord-contexttokens gebruikt, volledig open-source pipelines ondersteunt en ongefundeerde antwoorden op gecureerde onbeantwoordbare queries reduceert. De resultaten tonen aan dat efficiënte en accurate structurering van ervaringen tijdens schrijftijd – zoals bereikt door het GSW-kader – zowel efficiëntie- als betrouwbaarheidswinst oplevert tijdens leestijd. Code is beschikbaar op https://github.com/roychowdhuryresearch/gsw-memory.
Het web is bezaaid met afbeeldingen die ooit zijn gemaakt voor menselijke consumptie en die nu in toenemende mate worden geïnterpreteerd door agents die vision-language models (VLMs) gebruiken. Deze agents nemen visuele beslissingen op grote schaal, waarbij ze bepalen wat ze moeten aanklikken, aanbevelen of kopen. Toch weten we weinig over de structuur van hun visuele voorkeuren. Wij introduceren een raamwerk om dit te bestuderen door VLMs gecontroleerde, op afbeeldingen gebaseerde keuzetaken te geven en hun invoer systematisch te verstoren. Onze kernidee is om de beslissingsfunctie van de agent te behandelen als een latente visuele nutsfunctie die kan worden afgeleid door middel van gebleken voorkeur: keuzes tussen systematisch bewerkte afbeeldingen. Uitgaande van veelvoorkomende afbeeldingen, zoals productfoto's, stellen we methoden voor voor visuele promptoptimalisatie, waarbij we tekstoptimalisatiemethoden aanpassen om iteratief visueel plausibele aanpassingen voor te stellen en toe te passen met behulp van een beeldgeneratiemodel (zoals in compositie, belichting of achtergrond). Vervolgens evalueren we welke bewerkingen de selectiekans vergroten. Door grootschalige experimenten met geavanceerde VLMs tonen we aan dat geoptimaliseerde bewerkingen de keuzekansen significant veranderen in directe vergelijkingen. We ontwikkelen een automatische interpreteerbaarheidspipeline om deze voorkeuren te verklaren en identificeren consistente visuele thema's die de selectie sturen. Wij beargumenteren dat deze aanpak een praktische en efficiënte manier biedt om visuele kwetsbaarheden en veiligheidsproblemen aan het licht te brengen, die anders impliciet in de praktijk ontdekt zouden worden, en zo een proactievere auditing en governance van op afbeeldingen gebaseerde AI-agents ondersteunt.
Bij de inzet van foundation-modellen hebben praktijkmensen steeds vaker behoefte aan prescriptieve schaalwetten: gegeven een rekenbudget voor voorafgaande training, welke downstreamnauwkeurigheid is haalbaar met hedendaagse post-trainingpraktijken, en hoe stabiel is die relatie naarmate het vakgebied evolueert? Met behulp van grootschalige observationele evaluaties met 5k observationele en 2k nieuw bemonsterde gegevens over modelprestaties schatten we prestatiegrenzen in – hoge conditionele kwantielen van benchmark scores als functie van log voorafgaande trainings-FLOPs – via gegladde kwantielregressie met een monotone, verzadigende sigmoïde parameterisatie. We valideren de temporele betrouwbaarheid door te fitten op eerdere modelgeneraties en te evalueren op latere releases. Over verschillende taken zijn de geschatte grenzen grotendeels stabiel, met uitzondering van wiskundig redeneren, dat een consistent voortschrijdende grens vertoont in de tijd. Vervolgens breiden we onze aanpak uit om taakafhankelijke verzadiging te analyseren en om contaminatiegerelateerde verschuivingen in wiskundige redeneertaken te onderzoeken. Ten slotte introduceren we een efficiënt algoritme dat bijna volledige datagrenzen herstelt met ongeveer 20% van het evaluatiebudget. Samen brengt ons werk Proteus 2k uit, de nieuwste dataset voor evaluatie van modelprestaties, en introduceert het een praktische methodologie om rekenbudgetten om te zetten in betrouwbare prestatieverwachtingen en om te monitoren wanneer prestatiegrenzen in de tijd verschuiven.
Versterkend leren (RL) heeft de redeneercapaciteit van grote taalmodellen aanzienlijk verbeterd, maar bestaande RL-fijnafstemmingsmethoden zijn sterk afhankelijk van heuristische technieken zoals entropieregularisatie en herweging om stabiliteit te waarborgen. In de praktijk ondervinden deze methoden vaak prestatieverlies in latere trainingsfasen, wat leidt tot verminderde redeneerkwaliteit en instabiele training. Wij leiden af dat de grootte van tokengewijze beleidsgradiënten in RL negatief gecorreleerd is met de tokenwaarschijnlijkheid en de lokale beleidsentropie. Op basis van dit resultaat bewijzen wij dat trainingsinstabiliteit wordt veroorzaakt door een minuscuul deel van de tokens (ongeveer 0,01%), die wij spurious tokens noemen. Wanneer dergelijke tokens voorkomen in correcte antwoorden, dragen zij weinig bij aan het redeneerresultaat maar erven de volledige reeksniveau-beloning, wat leidt tot abnormaal versterkte gradiëntupdates. Gemotiveerd door deze observatie stellen wij Spurious-Token-Aware Policy Optimization (STAPO) voor voor grootschalige modelverfijning, waarbij dergelijke updates selectief worden gemaskeerd en het verlies over geldige tokens wordt genormaliseerd. Over zes wiskundige redeneerbenchmarks met Qwen 1.7B-, 8B- en 14B-basismodellen toont STAPO consistent superieure entropiestabiliteit en behaalt het een gemiddelde prestatieverbetering van 7,13% ten opzichte van GRPO, 20-Entropy en JustRL.
Action chunking stelt Vision Language Action (VLA)-modellen in staat om in realtime te werken, maar naïeve uitgevoerde chunking vertoont vaak discontinuïteiten op de chunkgrenzen. Real-Time Chunking (RTC) verlicht dit probleem, maar is extern aan het beleid, wat leidt tot ongewenste multimodale schakelingen en trajecten die niet intrinsiek soepel zijn. Wij stellen Legato voor, een continuatiemethode tijdens de training voor op actie-chunking gebaseerde VLA-beleidsmodellen met flow. Specifiek initialiseert Legato de ruisverwijdering vanuit een op het schema gebaseerd mengsel van bekende acties en ruis, waardoor het model wordt blootgesteld aan gedeeltelijke actie-informatie. Bovendien hervormt Legato de geleerde flow-dynamiek om ervoor te zorgen dat het ruisverwijdingsproces consistent blijft tussen training en inferentie onder begeleiding per stap. Legato gebruikt verder een gerandomiseerde schema-conditionering tijdens de training om wisselende inferentievertragingen te ondersteunen en beheersbare soepelheid te bereiken. Empirisch gezien produceert Legato soepelere trajecten en vermindert het ongewenste multimodale schakelingen tijdens de uitvoering, wat leidt tot minder aarzeling en een kortere taakvoltooiingstijd. Uitgebreide experimenten in de echte wereld tonen aan dat Legato consequent beter presteert dan RTC bij vijf manipulatietaken, met verbeteringen van ongeveer 10% in zowel trajectsoepelheid als taakvoltooiingstijd.
Multi-Agent Systemen (MAS) die worden aangedreven door Large Language Models hebben geavanceerd collaboratief redeneren mogelijk gemaakt, maar blijven geketend door de inefficiëntie van discrete tekstcommunicatie, wat aanzienlijke runtime-overhead en informatieverlies door kwantisatie met zich meebrengt. Hoewel latente staatsoverdracht een alternatief met hoge bandbreedte biedt, veronderstellen bestaande benaderingen ofwel homogene zender-ontvanger-architecturen of vertrouwen ze op paar-specifieke, aangeleerde vertalers, wat de schaalbaarheid en modulariteit over diverse modelfamilies met gescheiden variëteiten beperkt. In dit werk stellen wij de Vision Wormhole voor, een nieuw raamwerk dat de visuele interface van Vision-Language Models (VLM's) hergebruikt om model-agnostische, tekstvrije communicatie mogelijk te maken. Door een Universele Visuele Codec te introduceren, vertalen we heterogene redeneersporen naar een gedeelde continue latente ruimte en injecteren deze direct in het visuele pad van de ontvanger, waarbij de visuele encoder effectief wordt behandeld als een universele poort voor inter-agent telepathie. Ons raamwerk adopteert een topologie met een hub-en-spoke-structuur om de complexiteit van paarsgewijze afstemming van O(N²) naar O(N) te reduceren en benut een labelvrije teacher-student-distillatiedoelfunctie om het hogesnelheidsvisuele kanaal af te stemmen op de robuuste redeneerpatronen van het tekstpad. Uitgebreide experimenten met diverse modelfamilies (bijv. Qwen-VL, Gemma) tonen aan dat de Vision Wormhole de end-to-end wall-clock tijd in gecontroleerde vergelijkingen reduceert, terwijl de redeneernauwkeurigheid vergelijkbaar blijft met standaard op tekst gebaseerde MAS. Code is beschikbaar op https://github.com/xz-liu/heterogeneous-latent-mas.
Hoewel grote taalmodellen (LLM's) expertniveau medische kennis demonstreren, blijft het een uitdaging om hun open-einde uitvoeren af te stemmen op de fijnmazige voorkeuren van clinici. Bestaande methodes vertrouwen vaak op grove doelstellingen of onbetrouwbare geautomatiseerde beoordelaars die zwak verankerd zijn in professionele richtlijnen. Wij stellen een raamwerk in twee fasen voor om deze kloof te dichten. Ten eerste introduceren we HealthRubrics, een dataset met 7.034 door artsen geverifieerde voorkeursvoorbeelden waarin clinici door LLM's opgestelde rubrics verfijnen om aan strenge medische standaarden te voldoen. Ten tweede destilleren we deze rubrics tot HealthPrinciples: 119 breed toepasbare, klinisch onderbouwde principes, geordend per klinische dimensie, waardoor schaalbare supervisie mogelijk wordt die verder gaat dan handmatige annotatie. We gebruiken HealthPrinciples voor (1) offline-afstemming door rubrics te synthetiseren voor ongelabelde queries en (2) als hulpmiddel tijdens inferentie voor begeleide zelfrevisie. Een model met 30B parameters dat tijdens inferentie slechts 3B parameters activeert, getraind met ons raamwerk, behaalt 33.4% op HealthBench-Hard en presteert daarmee beter dan veel grotere modellen, waaronder Deepseek-R1 en o3, wat een resource-efficiënte basislijn voor klinische afstemming vestigt.
Efficiënte verwerking van lange contexten blijft een cruciale uitdaging voor hedendaagse grote taalmodellen (LLM's), vooral in omgevingen met beperkte middelen. Zachte compressie-architecturen beloven de effectieve contextlengte te vergroten door lange tokenreeksen te vervangen door kleinere sets aangeleerde gecomprimeerde tokens. De grenzen van comprimeerbaarheid – en wanneer compressie taakrelevante inhoud begint te wissen – blijven echter onderbelicht. In dit artikel definiëren we token-overflow als een regime waarin gecomprimeerde representaties niet langer voldoende informatie bevatten om een gegeven query te beantwoorden, en stellen we een methodologie voor om dit te karakteriseren en detecteren. In de xRAG zachte-compressie-instelling stellen we vast dat query-onafhankelijke saturatiestatistieken betrouwbaar onderscheid maken tussen gecomprimeerde en niet-gecomprimeerde tokenrepresentaties, wat een praktisch hulpmiddel biedt voor het identificeren van gecomprimeerde tokens, maar slechts beperkte overflow-detectiecapaciteit laat zien. Lichtgewicht probing-classificatoren over zowel query- als context-xRAG-representaties detecteren overflow met gemiddeld 0,72 AUC-ROC op de HotpotQA-, SQuADv2- en TriviaQA-datasets, wat aantoont dat het incorporeren van query-informatie de detectieprestaties verbetert. Deze resultaten betekenen een vooruitgang van query-onafhankelijke diagnostiek naar query-bewuste detectoren, waardoor goedkope pre-LLM-gating mogelijk wordt om compressie-gerelateerde fouten te beperken.
Grote taalmodellen (LLM's) blijven moeite hebben met kennisintensieve vragen die actuele informatie en multi-hop redenering vereisen. Het verrijken van LLM's met hybride externe kennis, zoals ongestructureerde tekst en gestructureerde kennisgrafieken, biedt een veelbelovend alternatief voor kostbare continue voortraining. Daarom wordt een betrouwbare evaluatie van hun retrieval- en redeneervermogen cruciaal. Veel bestaande benchmarks overlappen echter in toenemende mate met de voortrainingsdata van LLM's, wat betekent dat antwoorden of ondersteunende kennis mogelijk al in de modelparameters zijn gecodeerd. Dit maakt het moeilijk om echte retrieval en redenering te onderscheiden van parametrische herinnering. Wij introduceren HybridRAG-Bench, een raamwerk voor het construeren van benchmarks om retrieval-intensieve, multi-hop redenering over hybride kennis te evalueren. HybridRAG-Bench koppelt automatisch ongestructureerde tekst en gestructureerde kennisgrafiekrepresentaties afgeleid van recente wetenschappelijke literatuur op arXiv, en genereert kennisintensieve vraag-antwoordparen gebaseerd op expliciete redeneerpaden. Het raamwerk ondersteunt flexibele domein- en tijdsselectie, waardoor contaminatiebewuste en aanpasbare evaluatie mogelijk wordt naarmate modellen en kennis evolueren. Experimenten in drie domeinen (kunstmatige intelligentie, bestuur en beleid, en bio-informatica) tonen aan dat HybridRAG-Bench echte retrieval en redenering beloont in plaats van parametrische herinnering, en biedt zo een principieel testplatform voor het evalueren van hybride kennisverrijkte redeneersystemen. Wij geven onze code en data vrij op github.com/junhongmit/HybridRAG-Bench.