Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Weinig-staps generatie is een lang gekoesterd doel, waarbij recente één-staps generatiemethoden, zoals MeanFlow, opmerkelijke resultaten hebben behaald. Bestaand onderzoek naar MeanFlow richt zich voornamelijk op klasse-naar-beeld generatie. Een intuïtieve maar onontgonnen richting is echter het uitbreiden van de voorwaarde van vaste klasselabels naar flexibele tekstinvoeren, wat rijkere contentcreatie mogelijk maakt. In vergelijking met de beperkte klasselabels stellen tekstcondities grotere eisen aan het begripsvermogen van het model, wat een effectieve integratie van krachtige tekstencoders in het MeanFlow-raamwerk vereist. Verrassend genoeg, hoewel het integreren van tekstcondities eenvoudig lijkt, ontdekken we dat het integreren van krachtige op LLM gebaseerde tekstencoders met conventionele trainingsstrategieën tot onbevredigende prestaties leidt. Om de onderliggende oorzaak te achterhalen, voeren we gedetailleerde analyses uit en tonen aan dat, vanwege het extreem beperkte aantal verfijningsstappen in de MeanFlow-generatie, zoals slechts één stap, de tekstfeature-representaties een voldoende hoog onderscheidend vermogen moeten bezitten. Dit verklaart ook waarom discrete en gemakkelijk te onderscheiden klassefeatures goed presteren binnen het MeanFlow-raamwerk. Geleid door deze inzichten, benutten we een krachtige op LLM gebaseerde tekstencoder waarvan is geverifieerd dat deze de vereiste semantische eigenschappen bezit, en passen we het MeanFlow-generatieproces aan voor dit raamwerk, wat voor het eerst resulteert in efficiënte tekstgeconditioneerde synthese. Bovendien valideren we onze aanpak op het veelgebruikte diffusiemodel, waarbij we significante verbeteringen in de generatieprestaties aantonen. We hopen dat dit werk een algemene en praktische referentie biedt voor toekomstig onderzoek naar tekstgeconditioneerde MeanFlow-generatie. De code is beschikbaar op https://github.com/AMAP-ML/EMF.
Chain-of-Thought (CoT) redeneren is een krachtige aanjager geworden van trajectvoorspelling in VLA-gestuurd autonoom rijden, maar zijn autoregressieve karakter brengt latentiekosten met zich mee die onhaalbaar zijn voor real-time inzet. Latente CoT-methoden proberen deze kloof te dichten door redeneren te comprimeren in continue verborgen toestanden, maar blijven consequent achter bij hun expliciete tegenhangers. Wij suggereren dat dit komt doordat puur linguïstische latente representaties een symbolische abstractie van de wereld comprimeren, in plaats van de causale dynamiek die het rijgedrag daadwerkelijk bepaalt. Daarom presenteren wij OneVL (One-step latent reasoning and planning with Vision-Language explanations), een verenigd VLA- en Wereldmodelraamwerk dat redeneren routeert via compacte latente tokens onder supervisie van dubbele hulp-decoders. Naast een taaldecoder die tekstuele CoT reconstrueert, introduceren wij een visuele wereldmodel-decoder die toekomstige frame-tokens voorspelt, waardoor de latente ruimte wordt gedwongen de causale dynamiek van weggeometrie, agentbeweging en omgevingsverandering te internaliseren. Een driestaps trainingspijplijn aligneert deze latente representaties progressief met traject-, taal- en visuele doelstellingen, wat een stabiele gezamenlijke optimalisatie waarborgt. Tijdens inferentie worden de hulp-decoders verwijderd en worden alle latente tokens in één enkele parallelle stap vooringevuld, waardoor de snelheid van antwoord-alleen voorspelling wordt geëvenaard. Op vier benchmarks wordt OneVL de eerste latente CoT-methode die expliciete CoT overtreft, waarbij state-of-the-art nauwkeurigheid wordt geleverd tegen de latentie van antwoord-alleen voorspelling, en direct bewijs wordt geleverd dat strakkere compressie, mits begeleid door zowel taal- als wereldmodelsupervisie, meer generaliseerbare representaties oplevert dan uitgebreide token-voor-token redenering. Projectpagina: https://xiaomi-embodied-intelligence.github.io/OneVL
Grote taalmodellen worden in toenemende mate verwacht te functioneren als algemene agenten die interacteren met externe, stateful tool-omgevingen. Het Model Context Protocol (MCP) en bredere agentvaardigheden bieden een uniforme interface voor het verbinden van agenten met schaalbare real-world diensten, maar de training van robuuste agenten wordt nog steeds beperkt door een gebrek aan realistische omgevingen en principiële mechanismen voor levenslang leren. In dit artikel presenteren we Agent-World, een zelf-evoluerende trainingsarena voor het bevorderen van algemene agentintelligentie via schaalbare omgevingen. Agent-World heeft twee hoofdcomponenten: (1) Agentic Environment-Task Discovery, die autonoom topic-gebonden databases en uitvoerbare tool-ecosystemen verkent uit duizenden real-world omgevingsthema's en verifieerbare taken synthetiseert met controleerbare moeilijkheidsgraad; en (2) Continue Zelf-Evoluerende Agent Training, die multi-omgeving reinforcement learning combineert met een zelf-evoluerende agentarena die automatisch capaciteitshiaten identificeert via dynamische taaksynthese en gericht leren aanstuurt, waardoor co-evolutie van agentbeleid en omgevingen mogelijk wordt. Over 23 uitdagende agentbenchmarks heen presteren Agent-World-8B en 14B consistent beter dan sterke propriëtaire modellen en omgeving-schaleringsbaselines. Verdere analyses onthullen schaalverbanden met betrekking tot omgevingsdiversiteit en zelf-evolutierondes, wat inzichten biedt voor het bouwen van algemene agentintelligentie.
Game-ontwikkeling bevindt zich op het snijvlak van creatief ontwerp en ingewikkelde software-engineering, waarbij de gezamenlijke coördinatie van game-engines, real-time loops en nauw gekoppelde toestanden over vele bestanden vereist is. Hoewel Large Language Models (LLM's) en code-agents geïsoleerde programmeertaken tegenwoordig moeiteloos oplossen, falen ze steevast wanneer ze worden gevraagd een volledig speelbare game te produceren vanuit een hoogoverzichtelijk ontwerp. Ze bezwijken onder inconsistenties tussen bestanden, verbroken scene-koppelingen en logische incoherentie. Wij overbruggen deze kloof met OpenGame, het eerste open-source agent-framework dat expliciet is ontworpen voor end-to-end webgame-creatie. De kern bestaat uit Game Skill, een herbruikbare, evoluerende capaciteit die bestaat uit een Template Skill die een bibliotheek van projectskeletten uit ervaring opbouwt, en een Debug Skill die een levend protocol van geverifieerde reparaties onderhoudt. Samen stellen ze de agent in staat om stabiele architecturen te bouwen en integratiefouten systematisch te herstellen in plaats van geïsoleerde syntaxfouten te patchen. Aan de basis van dit framework ligt GameCoder-27B, een code-LLM gespecialiseerd in het beheersen van game-engines via een drietrapspijplijn van continue pre-training, supervised fine-tuning en execution-grounded reinforcement learning. Aangezien het verifiëren van interactieve speelbaarheid fundamenteel moeilijker is dan het controleren van statische code, introduceren we verder OpenGame-Bench, een evaluatiepijplijn die agent-gedreven game-generatie scoort op Build Health, Visuele Bruikbaarheid en Intent Alignment via headless browser-uitvoering en VLM-beoordeling. Over 150 diverse game-prompts heen vestigt OpenGame een nieuwe state-of-the-art. We hopen dat OpenGame code-agants voorbij discrete software-engineeringproblemen duwt en richting het bouwen van complexe, interactieve real-world applicaties. Ons framework zal volledig open-source worden gemaakt.
Videowereldmodellen hebben opmerkelijke successen geboekt in het simuleren van omgevingsdynamiek als reactie op acties van gebruikers of agenten. Ze worden gemodelleerd als actie-geconditioneerde videogeneratiemodellen die historische frames en huidige acties als invoer nemen om toekomstige frames te voorspellen. Toch zijn de meeste bestaande benaderingen beperkt tot scenario's met één agent en slagen ze er niet in de complexe interacties die inherent zijn aan echte multi-agent systemen vast te leggen. Wij presenteren MultiWorld, een uniform raamwerk voor wereldmodellering met meerdere agenten en meerdere perspectieven, dat nauwkeurige besturing van meerdere agenten mogelijk maakt terwijl consistentie tussen de verschillende perspectieven behouden blijft. We introduceren de Multi-Agent Condition Module om precieze multi-agent bestuurbaarheid te bereiken, en de Global State Encoder om coherente observaties tussen verschillende perspectieven te waarborgen. MultiWorld ondersteunt flexibele schaling van het aantal agenten en perspectieven, en synthetiseert verschillende perspectieven parallel voor hoge efficiëntie. Experimenten in multi-player game-omgevingen en multi-robot manipulatietaken tonen aan dat MultiWorld de baseline-methoden overtreft op het gebied van videokwaliteit, actie-volgvermogen en consistentie tussen meerdere perspectieven. Projectpagina: https://multi-world.github.io/
Versterkend leren op basis van verifieerbare beloningen (RLVR) heeft opmerkelijke effectiviteit getoond bij het verbeteren van de redeneervermogens van grote taalmodel(len). Naarmate modellen evolueren naar native multimodale architecturen, wordt de uitbreiding van RLVR naar videobegrip steeds belangrijker, maar blijft dit grotendeels onontgonnen terrein. Dit komt door de diversiteit aan videotaaktypen, de rekenkundige overhead van herhaaldelijk decoderen en voorbewerken van hoogdimensionale visuele invoer, en de moeilijkheid van reproduceerbare evaluatie over talrijke gevoelige hyperparameters. Bestaande open-source RL-trainingsframeworks bieden een solide infrastructuur voor tekst- en beeldscenario's, maar missen systematische optimalisaties die zijn toegesneden op de videomodaliteit. In dit werk presenteren we EasyVideoR1, een compleet en efficiënt framework voor versterkend leren dat specifiek is ontworpen voor het trainen van grote visie-taalmodel(len) op videobegriptaken. EasyVideoR1 levert de volgende bijdragen: (1) een complete videotrainingspijplijn voor RL met offline voorbewerking en tensor-caching, die redundante videodecodering elimineert en een doorvoerverbetering van 1,47 keer oplevert; (2) een uitgebreid, taakbewust beloningssysteem dat 11 verschillende video- en beeldprobleemtypen dekt met uniforme routering en modulaire uitbreidingsmogelijkheden; (3) een gemengd offline-online datatrainingsparadigma dat samengestelde hoogwaardige trajecten combineert met on-policy exploratie, ten gunste van het aanleren van uitdagendere taken; (4) gezamenlijke beeld-video training met onafhankelijk configureerbare pixelbudgetten, waardoor de twee modaliteiten elkaar wederzijds kunnen versterken; en (5) een asynchroon multi-benchmark evaluatieframework dat 22 mainstream videobegripbenchmarks dekt, waarbij de gereproduceerde nauwkeurigheid nauw aansluit bij de officieel gerapporteerde scores.
Grote taalmodellen worden doorgaans nagevormd met behulp van gesuperviseerde fine-tuning (SFT) en reinforcement learning (RL), maar het effectief verenigen van efficiënte kennisinjectie met robuuste generalisatie blijft een uitdaging. In dit werk presenteren we een analyse van de trainingsdynamiek die aantoont dat SFT kan worden geïnterpreteerd als een speciaal geval van policy gradient-optimalisatie met een extreem schaarse impliciete beloning en instabiele inverse-kansweging, wat gezamenlijk leidt tot single-path afhankelijkheid, entropie-instorting en gradientexplosie. Gemotiveerd door deze diagnose stellen we Group Fine-Tuning (GFT) voor, een uniform na-trainingsraamwerk dat deze intrinsieke beperkingen aanpakt via twee mechanismen: Group Advantage Learning, dat diverse responsgroepen construeert en genormaliseerde contrastieve supervisie afleidt om beloningsschaarste te verlichten, en Dynamic Coefficient Rectification, dat inverse-kansgewichten adaptief begrenst om de optimalisatie te stabiliseren terwijl efficiënte kennisinjectie behouden blijft. Experimenten tonen aan dat GFT consistent superieur presteert aan SFT-gebaseerde methoden en beleid oplevert dat naadlozer integreert met daaropvolgende RL-training.
Grote taalmodellen evolueren snel naar interactieve codeeragentschappen die in staat zijn tot end-to-end webcodering, maar bestaande benchmarks evalueren slechts smalle onderdelen van deze capaciteit, doorgaans tekstgeconditioneerde generatie met statische correctheidsmetrieken, waarbij visuele nauwkeurigheid, interactiekwaliteit en redenering op codebaseniveau grotendeels ongemeten blijven. Wij introduceren WebCompass, een multimodale benchmark die een geïntegreerde levenscyclus-evaluatie van webengineering-capaciteit biedt. Erkennend dat echte webcodering een iteratieve cyclus van generatie, bewerking en reparatie is, omvat WebCompass drie invoermodaliteiten (tekst, beeld, video) en drie taaktypen (generatie, bewerking, reparatie), wat zeven taakcategorieën oplevert die professionele workflows weerspiegelen. Via een meerfasen, human-in-the-loop pipeline cureren we instanties die 15 generatiedomeinen, 16 bewerkingstypen en 11 reparatiedefecttypen beslaan, elk geannoteerd op Easy/Medium/Hard niveaus. Voor evaluatie nemen we een checklist-gestuurd LLM-as-a-Judge protocol voor bewerking en reparatie, en stellen een nieuw Agent-as-a-Judge paradigma voor generatie voor dat gegenereerde websites autonoom uitvoert in een echte browser, interactief gedrag verkent via het Model Context Protocol (MCP), en gerichte testcases iteratief synthetiseert, wat nauw aansluit bij menselijke acceptatietesten. We evalueren representatieve closed-source en open-source modellen en observeren dat: (1) closed-source modellen aanzienlijk sterker en evenwichtiger blijven; (2) bewerking en reparatie verschillende moeilijkheidsprofielen vertonen, waarbij reparatie interactiviteit beter behoudt maar uitvoeringsuitdagend blijft; (3) esthetiek de meest hardnekkige bottleneck is, vooral voor open-source modellen; en (4) frameworkkeuze de resultaten materieel beïnvloedt, waarbij Vue consistent uitdagend is terwijl React en Vanilla/HTML sterker presteren afhankelijk van het taaktype.
Het construeren van omgevingen voor het trainen en evalueren van grijperachtige agents blijft een manueel, arbeidsintensief proces dat niet schaalbaar is. Wij stellen dat wat nodig is niet slechts een dataset is, maar een geautomatiseerde pijplijn die in staat is om op verzoek diverse, geverifieerde omgevingen te genereren. Hiertoe introduceren wij ClawEnvKit, een autonoom generatieproces dat deze formalisering instantieert vanuit natuurlijke-taalbeschrijvingen. De pijplijn bestaat uit drie modules: (1) een parser die gestructureerde generatieparameters uit natuurlijke-taalinvoer extraheert; (2) een generator die de taakspecificatie, toolinterface en scoringsconfiguratie produceert; en (3) een validator die haalbaarheid, diversiteit, structurele geldigheid en interne consistentie over de gegenereerde omgevingen afdwingt. Met ClawEnvKit construeren wij Auto-ClawEval, de eerste grootschalige benchmark voor grijperachtige agents, bestaande uit 1.040 omgevingen verdeeld over 24 categorieën. Empirisch gezien evenaart of overtreft Auto-ClawEval door mensen samengestelde omgevingen qua coherentie en helderheid tegen 13.800x lagere kosten. Geëvalueerd over 4 modelfamilies en 8 agent-harnasframeworks, constateren wij dat harnasengineering de prestaties met tot 15,7 procentpunt verbetert ten opzichte van een kale ReAct-basislijn, voltooiing de primaire variatie-as blijft zonder enig model dat de benchmark verzadigt, en geautomatiseerde generatie evaluatie op een voorheen onhaalbaar grote schaal mogelijk maakt. Naast statische benchmarking maakt ClawEnvKit live-evaluatie mogelijk: gebruikers beschrijven een gewenste capaciteit in natuurlijke taal en krijgen op verzoek een geverifieerde omgeving, waardoor evaluatie verandert in een continu, gebruikersgestuurd proces. Hetzelfde mechanisme dient als een generator van trainingsomgevingen op aanvraag, die taakverdelingen produceert die zich aanpassen aan de huidige zwaktes van een agent in plaats van beperkt te worden door bestaande gebruikerslogboeken.
Grote taalmodellen hebben aanzienlijke verbeteringen in redeneervaardigheid bereikt door reinforcement learning met verifieerbare beloningen (RLVR). Naarmate de capaciteiten van modellen echter groeien, wordt het construeren van hoogwaardige beloningssignalen steeds moeilijker, waardoor het essentieel is te begrijpen wanneer RLVR kan slagen onder zwakkere vormen van supervisie. Wij voeren een systematische empirische studie uit over diverse modelfamilies en redeneerdomeinen onder drie zwakke supervisie-omstandigheden: schaarse data, ruisbeloningen en zelfgesuperviseerde proxy-beloningen. Wij constateren dat generalisatie wordt bepaald door dynamieken van beloningsverzadiging tijdens training: modellen die generaliseren vertonen een langdurige pre-verzadigingsfase waarin trainingsbeloning en downstream-prestatie samen stijgen, terwijl modellen die snel verzadigen eerder memoriseren dan leren. Wij identificeren redeneergetrouwheid, gedefinieerd als de mate waarin tussenstappen de eindantwoord logisch ondersteunen, als de pre-RL-eigenschap die voorspelt in welk regime een model valt, terwijl outputdiversiteit alleen geen informatie geeft. Gemotiveerd door deze bevindingen, ontwarren wij de bijdragen van voortgezette pre-training en supervised fine-tuning, en concluderen dat SFT op expliciete redeneersporen noodzakelijk is voor generalisatie onder zwakke supervisie, terwijl voortgezette pre-training op domeindata het effect versterkt. Toegepast op Llama3.2-3B-Base stellen deze interventies generalisatie mogelijk in alle drie de settings waar het basismodel voorheen faalde.
Naarmate de mogelijkheden van autonome agents zich verder uitbreiden, kunnen zij steeds meer gespecialiseerde taken voltooien door middel van plug-and-play externe vaardigheden. Toch testen huidige benchmarks vooral of modellen beschikbare vaardigheden kunnen gebruiken, terwijl onduidelijk blijft of zij vaardigheden uit ervaring kunnen ontdekken, deze na falen kunnen repareren en over tijd een coherente bibliotheek kunnen onderhouden. Wij introduceren SkillFlow, een benchmark met 166 taken verdeeld over 20 families, waarbij de taakconstructie binnen elke familie een Domein-Agnostische Uitvoeringsstroom volgt. Dit raamwerk definieert een werkschema voor de agent, waardoor deze taken een consistente workflow delen. Agents worden geëvalueerd volgens een Agentic Lifelong Learning-protocol: zij starten zonder vaardigheden, lossen taken sequentieel binnen elke familie op, externaliseren lessen via traject- en rubric-gestuurde vaardigheidspatches, en nemen de bijgewerkte bibliotheek mee naar volgende taken. Experimenten tonen een aanzienlijke capaciteitskloof. Voor Claude Opus 4.6 verbetert levenslange vaardigheidsevolutie de taaksuccesratio van 62,65% naar 71,08% (+8,43 punten). Hoge vaardigheidsgebruik impliceert echter niet noodzakelijk hoge nuttigheid: Kimi K2.5 boekt slechts +0,60 punten ondanks 66,87% vaardigheidsgebruik, terwijl Qwen-Coder-Next slechts een taakvoltooiingspercentage van 44,58% haalt en zelfs achteruitgaat ten opzichte van de baseline-instelling. SkillFlow levert een gestructureerde testomgeving voor deze onderzoeksrichting en een diepgaande empirische analyse van vaardigheidsontdekking, patching, transfer en hun faalmodi onder levenslange evaluatie.
Het samenvoegen van afzonderlijk getrainde LoRA-adapters is een praktisch alternatief voor gezamenlijke multi-tasktraining, maar dit gaat vaak ten koste van de prestaties. Bestaande methoden behandelen de LoRA-update ΔW = BA meestal als één enkel object en maken geen onderscheid tussen de twee LoRA-matrices. Wij tonen aan dat de belangrijkste bron van interferentie bij het samenvoegen van LoRA's afkomstig is van de uitvoerzijde-matrix B. Over taken heen gebruikt B herhaaldelijk een kleine set gedeelde richtingen, terwijl A veel taakspecifieker blijft. Hierdoor benadrukt de samengevoegde adapter deze gedeelde richtingen te sterk en gaat taakspecifieke informatie verloren. Wij stellen Pico voor (Pre-merge interference calibration in output-space), een data-vrije methode die B vóór het samenvoegen kalibreert door overgedeelde richtingen af te schalen en vervolgens de samengevoegde update te herschalen. Pico kan direct worden geïntegreerd in bestaande samenvoegmethoden zoals Task Arithmetic, TIES en TSV-M. Over acht verschillende benchmarks uit de domeinen wiskunde, programmeren, financiën en geneeskunde verbetert Pico de gemiddelde nauwkeurigheid met 3,4-8,3 punten ten opzichte van de corresponderende basismethode en behaalt de beste algehele gemiddelde prestaties. Pico stelt samengevoegde adapters ook in staat om beter te presteren dan de LoRA die met alle taakgegevens is getraind. Deze resultaten tonen aan dat het samenvoegen van LoRA's beter werkt wanneer de twee LoRA-matrices afzonderlijk worden behandeld.
On-policy distillatie (OPD) is een steeds belangrijkere methode voor het na-trainen van taalmodellen. Wij identificeren echter een wijdverbreide schaalwet van miscalibratie: hoewel OPD de taaknauwkeurigheid effectief verbetert, brengt het modellen systematisch in een staat van ernstige overmoed. Wij herleiden dit falen tot een informatie-mismatch: de supervisie van het leraarmodel wordt gevormd onder geprivilegieerde context die tijdens de training beschikbaar is, terwijl het ingezette model zijn betrouwbaarheid moet rapporteren met alleen de informatie die tijdens de inzet beschikbaar is. Wij formaliseren dit perspectief theoretisch door aan te tonen dat op de leraar geconditioneerd succes over het algemeen geen geldig doel is voor betrouwbaarheid tijdens inzet, en dat behulpzame geprivilegieerde context leidt tot entropie-instorting en een systematische optimisme-bias. Om dit aan te pakken, stellen wij een calibratie-bewust OPD-raamwerk voor, CaOPD, dat empirische betrouwbaarheid schat uit modelrollouts, de zelfgerapporteerde betrouwbaarheid vervangt door dit op de leerling gegronde doel, en het herziene antwoord distilleert via dezelfde zelfdistillatie-pijplijn. Experimenten met diverse modellen en domeinen tonen aan dat CaOPD Pareto-optimale calibratie bereikt terwijl het competitieve capaciteiten behoudt, en robuust generaliseert onder out-of-distribution en continu leren. Onze bevindingen benadrukken dat het distilleren van capaciteiten niet impliceert dat de betrouwbaarheid gecalibreerd is, en dat betrouwbaarheid als een essentieel doel moet worden behandeld bij na-training. Code: https://github.com/SalesforceAIResearch/CaOPD
Vision-Language Models vertonen opmerkelijke capaciteiten, maar hebben vaak moeite met compositioneel redeneren en vertonen kwetsbaarheden met betrekking tot woordvolgorde en attribuutbinding. Deze beperking ontstaat door een schaarste aan informatieve voorbeelden die nodig zijn om subtiele semantische variaties te onderscheiden tijdens contrastieve voorpretraining. Hoewel hard negative mining een veelbelovend middel biedt, ontbreekt het bestaande methoden aan expliciete mechanismen om te bepalen welke linguïstische elementen worden gemodificeerd. In plaats van generatieve architecturen te ontwerpen, stelt deze studie lexicale concreetheid vast als een fundamentele determinant van de effectiviteit van negatieve voorbeelden. Het modificeren van zeer concrete termen genereert meer uitgesproken structurele en visuele verschillen, wat een aanzienlijk sterker leersignaal oplevert. Gebruikmakend van dit principe wordt ConcretePlant voorgesteld om perceptueel verankerde concepten systematisch te isoleren en te manipuleren. Analyses van de InfoNCE-loss onthullen verder een ernstig gradientenonevenwicht, waarbij gemakkelijk te onderscheiden paren het optimalisatieproces onevenredig overweldigen en de beschikbare bandbreedte voor genuanceerd leren beperken. Om deze degradatie op te lossen, wordt de Cement-loss geformuleerd met behulp van een op marge gebaseerde aanpak. Door psycholinguïstische scores te correleren met voorbeeldmoeilijkheid, kalibreert deze objectief dynamisch de straf die op individuele trainingsparen wordt toegepast. Uitgebreide evaluaties ondersteunen deze theoretische beweringen. Het geïntegreerde raamwerk, aangeduid als Slipform, behaalt state-of-the-art nauwkeurigheid op diverse compositionele evaluatiebenchmarks, algemene cross-modale retrievals en single- en multi-label lineaire probing.
Computer-use agents zijn snel verbeterd in real-world taken zoals webnavigatie, desktopautomatisering en software-interactie, en overtreffen in sommige gevallen zelfs de menselijke prestaties. Toch kan een agent die eenmaal slaagt, falen bij een herhaalde uitvoering van dezelfde taak, zelfs wanneer de taak en het model ongewijzigd blijven. Dit roept een fundamentele vraag op: als een agent een taak eenmaal kan voltooien, wat weerhoudt het er dan van om dit betrouwbaar te doen? In dit werk onderzoeken we de bronnen van onbetrouwbaarheid bij computer-use agents aan de hand van drie factoren: stochastiek tijdens de uitvoering, ambiguïteit in de taakspecificatie en variabiliteit in het agentgedrag. We analyseren deze factoren op OSWorld door middel van herhaalde uitvoeringen van dezelfde taak, samen met gepaarde statistische tests die veranderingen op taakniveau vastleggen across verschillende instellingen. Onze analyse toont aan dat betrouwbaarheid afhangt van zowel hoe taken worden gespecificeerd als hoe het agentgedrag varieert tussen uitvoeringen. Deze bevindingen suggereren de noodzaak om agents te evalueren onder herhaalde uitvoering, agents in staat te stellen taakambiguïteit op te lossen via interactie, en strategieën te prefereren die stabiel blijven over meerdere runs.
Wiskundig probleemoplossen blijft een uitdagende test van redeneervermogen voor grote taal- en multimodale modellen, maar bestaande benchmarks zijn beperkt in omvang, taaldekking en taakdiversiteit. Wij introduceren MathNet, een hoogwaardige, grootschalige, multimodale en meertalige dataset van Olympiade-niveau wiskundeproblemen, samen met een benchmark voor het evalueren van wiskundig redeneren in generatieve modellen en wiskundige retrievial in op embedding gebaseerde systemen. MathNet bestrijkt 47 landen, 17 talen en twee decennia aan wedstrijden, en omvat 30.676 door experts geschreven problemen met oplossingen uit diverse domeinen. Naast de kerndataset construeren we een retrieval-benchmark bestaande uit wiskundig equivalente en structureel vergelijkbare probleemparen, samengesteld door menselijke experts. MathNet ondersteunt drie taken: (i) Probleemoplossing, (ii) Wiskundebewuste Retrieval, en (iii) Retrieval-augmented Probleemoplossing. Experimentele resultaten tonen aan dat zelfs state-of-the-art redeneermodellen (78,4% voor Gemini-3.1-Pro en 69,3% voor GPT-5) uitdagingen blijven ondervinden, terwijl embeddingmodellen moeite hebben om equivalente problemen te retrieven. We tonen verder aan dat de prestaties van retrieval-augmented generation zeer gevoelig zijn voor de retrievalkwaliteit; DeepSeek-V3.2-Speciale behaalt bijvoorbeeld winsten tot 12% en scoort daarmee het hoogst op de benchmark. MathNet biedt de grootste hoogwaardige Olympiade-dataset samen met de eerste benchmark voor het evalueren van wiskundige probleemretrieval, en we geven zowel de dataset als de benchmark openbaar vrij op https://mathnet.mit.edu.
Recente end-to-end gesproken dialoogmodellen maken natuurlijke interactie mogelijk. Naarmate gebruikerseisen echter steeds complexer worden, worstelen modellen die uitsluitend op conversatievaardigheden vertrouwen vaak om bij te benen. Het integreren van agent-mogelijkheden is daarom essentieel: door het gebruik van tools kunnen deze modellen hun kennisgrenzen verleggen en real-world taken beter oplossen. Toch heeft bestaand onderzoek zich grotendeels geconcentreerd op kernperceptie en -generatie, met relatief beperkte verkenning van dergelijke tool-augmented uitbreidingen. Om deze kloof te overbruggen, presenteren wij VoxMind, een geïntegreerd raamwerk ontworpen om end-to-end gesproken dialoogmodellen uit te rusten met uitgebreide agent-mogelijkheden. Gebruikmakend van onze samengestelde 470-uur durende AgentChat-dataset, integreren we een "Think-before-Speak"-mechanisme, waardoor het model gestructureerd redeneren kan internaliseren als een kritische voorwaarde voor planning en responsgeneratie. Verder, om latentieknelpunten veroorzaakt door grootschalige toolintegratie te verzachten, stellen we een Multi-Agent Dynamic Tool Management-architectuur voor. Door retrievalthreads asynchroon te delegeren naar een hulp-agent die is afgestemd op de redeneertrajecten van het hoofdmodel, ontkoppelt dit systeem effectief de inferentielatentie van de toolsetgrootte. Experimentele resultaten bevestigen dat VoxMind significante verbeteringen bereikt in agentprestaties: in vergelijking met sterke baseline-modellen stijgt de taakvoltooiingsratio van 34,88% naar 74,57%, waarmee het Gemini-2.5-Pro overtreft op gesproken agenttaken, terwijl de algemene gesprekskwaliteit behouden blijft. De broncode en bijbehorende data zijn openbaar beschikbaar op https://github.com/MM-Speech/VoxMind.
Langetermijn-large language model (LLM)-agenten worden fundamenteel beperkt door de context. Naarmate interacties langer worden, hopen toolbeschrijvingen, opgehaalde herinneringen en ruime omgevingsfeedback zich op en verdringen ze de informatie die nodig is voor besluitvorming. Tegelijkertijd gaat waardevolle ervaring die wordt opgedaan bij taken vaak verloren tussen verschillende episodes. Wij stellen dat langetermijnprestaties niet worden bepaald door de contextlengte, maar door hoeveel besluitrelevante informatie wordt behouden binnen een beperkt contextbudget. Wij presenteren GenericAgent (GA), een algemeen, zelf-evoluerend LLM-agentsysteem dat is gebouwd rond één principe: maximalisatie van de contextinformatiedichtheid. GA implementeert dit via vier nauw verbonden componenten: een minimale atomische toolset die de interface eenvoudig houdt, een hiërarchisch geheugen op aanvraag dat standaard slechts een beperkt hoog-niveau overzicht toont, een zelf-evolutiemechanisme dat geverifieerde eerdere trajecten omzet in herbruikbare SOP's en uitvoerbare code, en een contextafkapping- en compressielaag die de informati
Huidige multimodale grote taalmodellen (MLLM's) hebben opmerkelijke capaciteiten getoond in het begrijpen van korte video's, maar het vertalen van lange cinematische video's naar gedetailleerde, temporeel verankerde scripts blijft een grote uitdaging. Dit artikel introduceert de nieuwe video-naar-script (V2S) taak, die tot doel heeft hiërarchische, scène-voor-scène scripts te genereren die personagehandelingen, dialogen, expressies en audiocues omvatten. Om dit te faciliteren, construeren we een eerste-in-zijn-soort menselijk geannoteerd benchmark en stellen we een temporeel bewust hiërarchisch evaluatieraamwerk voor. Verder presenteren we OmniScript, een 8B-parameter omni-modale (audiovisuele) taalmodel toegesneden op langdurig narratief begrip. OmniScript wordt getraind via een progressieve pijplijn die gebruikmaakt van chain-of-thought supervised fine-tuning voor plot- en personageredenering, gevolgd door reinforcement learning met temporeel gesegmenteerde beloningen. Uitgebreide experimenten tonen aan dat OmniScript, ondanks zijn parameter efficiëntie, aanzienlijk beter presteert dan grotere open-source modellen en prestaties bereikt die vergelijkbaar zijn met state-of-the-art propriëtaire modellen, waaronder Gemini 3-Pro, in zowel temporele lokalisatie als semantische nauwkeurigheid in meerdere velden.
Er wordt aangenomen dat op LLM gebaseerde agents omgevingswaarnemingen integreren in hun redenering: de ontdekking van zeer relevante maar onverwachte informatie zou van nature moeten leiden tot een model dat zijn eigen ontdekkingen benut. Wij tonen aan dat deze aanname onjuist is voor huidige LLM-agents, die moeite hebben om te reflecteren op of te reageren op onverwachte informatie. In drie benchmarks (Terminal-Bench, SWE-Bench, AppWorld) injecteren we complete taakoplossingen in de agentomgevingen om een model opzettelijk bloot te stellen aan de oplossing van een taak. Hoewel agents deze oplossingen in Terminal-Bench in 79-81% van de runs ontdekken, interageren ze ermee of benutten ze deze in slechts 37-50% van de gevallen. Deze kloof is het grootst in AppWorld: agents zien in meer dan 90% van de pogingen documentatie die stelt dat een commando "de complete oplossing voor deze taak retourneert", maar benutten dit in minder dan 7% van de trials. Wij tonen aan dat agents ontbreekt wat wij *environmental curiosity* (omgevingsnieuwsgierigheid) noemen: het vermogen om onverwachte maar relevante waarnemingen te herkennen en te onderzoeken als reactie op omgevingsprikkels. Wij identificeren drie hoofd factoren die de omgevingsnieuwsgierigheid beïnvloeden: de beschikbare tools in de agent-scaffold, de rekencapaciteit tijdens het testen (*test-time compute*), en de verdeling van de trainingsdata. Onze bevindingen tonen aan dat configuraties die de nieuwsgierigheid maximaliseren, ook de beste prestaties behalen op de ongemodificeerde benchmarks. Toch negeren zelfs gezamenlijk geoptimaliseerde agents in de meerderheid van de trials de ontdekte oplossingen: huidige agents gebruiken de omgeving om verwachte informatie op te halen, maar niet om hun strategie bij te stellen of nuttige prikkels maximaal te benutten.
Visuele decodering op basis van hersensignalen is een centrale uitdaging op het snijvlak van computer vision en neurowetenschappen, waarbij methoden nodig zijn die neurale representaties en computationele modellen van visie met elkaar verbinden. Een veldbrede doelstelling is het bereiken van generaliseerbare, cross-subject modellen. Een grote hindernis hierbij is de aanzienlijke variabiliteit in neurale representaties tussen individuen, wat tot dusver vereiste dat er op maat gemaakte modellen werden getraind of aparte fine-tuning voor elk subject werd uitgevoerd. Om deze uitdaging aan te pakken, introduceren we een meta-geoptimaliseerde aanpak voor semantische visuele decodering van fMRI die generaliseert naar nieuwe subjecten zonder enige fine-tuning. Door simpelweg te conditioneren op een kleine set voorbeelden van beeld-brein activatie van het nieuwe individu, leidt ons model snel diens unieke neurale encoderingspatronen af om robuuste en efficiënte visuele decodering te vergemakkelijken. Onze aanpak is expliciet geoptimaliseerd voor in-context leren van het encoderingsmodel van de nieuwe proefpersoon en voert decodering uit door middel van hiërarchische inferentie, door de encoder om te keren. Eerst schatten we voor meerdere hersengebieden de visuele respons-encoderparameters per voxel door een context te construeren over meerdere stimuli en responsen. Vervolgens construeren we een context bestaande uit encoderparameters en responswaarden over meerdere voxels om geaggregeerde functionele inversie uit te voeren. We demonstreren sterke cross-subject en cross-scanner generalisatie over diverse visuele backbones heen, zonder hertraining of fine-tuning. Bovendien vereist onze aanpak noch anatomische alignering noch stimulusoverlap. Dit werk is een cruciale stap in de richting van een generaliseerbaar foundation model voor niet-invasieve breindecodering.
De meeste hedendaagse agenten "evolueren zelf" door beloningen en regels te volgen die door mensen zijn gedefinieerd. Dit proces blijft echter fundamenteel afhankelijk van externe supervisie; zonder menselijke begeleiding stopt de evolutie. In dit werk trainen we agenten om een intrinsieke meta-evolutiecapaciteit te bezitten, waarmee ze spontaan kunnen leren over onbekende omgevingen vóór de taakuitvoering. Om deze vaardigheid aan te leren, ontwerpen we een op resultaten gebaseerd beloningsmechanisme dat meet in hoeverre de door een agent gegenereerde wereldkennis zijn slagingspercentage bij downstreamtaken verbetert. Dit beloningssignaal wordt uitsluitend tijdens de trainingsfase gebruikt om het model effectief te leren exploreren en samenvatten. Tijdens de inferentiefase heeft de agent geen externe beloningen of menselijke instructies nodig. Hij voert spontaan een *natieve zelfevolutie* uit om zich aan onbekende omgevingen aan te passen met behulp van zijn interne parameters. Wanneer toegepast op Qwen3-30B en Seed-OSS-36B, leidt deze verschuiving naar *natieve evolutie* tot een prestatieverbetering van 20% op WebVoyager en WebWalker. Het meest opvallende is dat de gegenereerde wereldkennis zelfs een compact Qwen3-14B-model in staat stelt de onondersteunde Gemini-2.5-Flash te overtreffen, wat een nieuw paradigma vestigt voor werkelijk evoluerende agenten.
Games bieden een overtuigend paradigma voor het ontwikkelen van algemene redeneervaardigheden in taalmodellen, omdat ze van nature strategische planning, probabilistische inferentie en adaptieve besluitvorming vereisen. Bestaande zelf-speelbenaderingen vertrouwen echter uitsluitend op einduitkomsten van het spel, en bieden geen mechanisme om overdraagbare redeneerpatronen te onderscheiden van gamespecifieke heuristieken. Wij presenteren STRATAGEM, dat twee fundamentele barrières voor redeneertransfer aanpakt: domeinspecificiteit, waarbij geleerde patronen verankerd blijven in de semantiek van het spel, en contextuele stasis, waarbij statische spelcontexten geen progressief redeneren bevorderen. STRATAGEM versterkt selectief trajecten die abstract, domein-onafhankelijk redeneren vertonen via een Redeneeroverdraagbaarheidscoëfficiënt, terwijl het adaptieve redeneerontwikkeling stimuleert via een Redeneerevolutiebeloning. Experimenten op benchmarks voor wiskundig redeneren, algemeen redeneren en codegeneratie tonen substantiële verbeteringen aan, met bijzonder sterke vooruitgang op competitieniveau wiskunde waar meerstapsredeneren cruciaal is. Ablatiestudies en humane evaluatie bevestigen dat beide componenten bijdragen aan overdraagbaar redeneren.
Multimodale LLM's kunnen numerieke inhoud nauwkeurig waarnemen across modaliteiten, maar slagen er niet in exacte vermenigvuldiging van meerdere cijfers uit te voeren wanneer het identieke onderliggende rekenkundige probleem wordt gepresenteerd als cijfers, getalwoorden, afbeeldingen of in audiovorm. Omdat bestaande benchmarks vaak systematisch gekoppelde instanties across modaliteiten missen, blijft het moeilijk om echte rekenkundige beperkingen binnen en tussen modelfamilies te vergelijken. Daarom introduceren we een gecontroleerde multimodale vermenigvuldigingsbenchmark die factorieel varieert in cijferlengte, cijfersparsheid, representatie (bijv. cijfers versus getalwoorden) en modaliteit (tekst, gerenderde afbeeldingen, audio), met gekoppelde instanties van een reproduceerbare generator. We definiëren ook rekenkundige belasting, C, als het product van het totale en niet-nul cijferaantal als een compacte, mechanistisch gemotiveerde proxy voor het aantal bewerkingen. In evaluaties daalt de nauwkeurigheid sterk naarmate C groeit, vaak tot bijna nul bij C > 100. Inderdaad blijft C voorspellend voor de prestaties across modaliteiten en modellen, met R-kwadraat vaak > 0,5, in de buurt van de waarde van complexere maten van rekenkundige belasting die het aantal tussenliggende rekenkundige stappen tellen. Een aparte decompositie van waarneming versus berekening toont aan dat multimodale degradatie primair computationeel is in plaats van perceptueel: bij gematchte waarnemingscontroles zijn modellen bijna perfect (> 99%) across modaliteiten, zelfs wanneer de vermenigvuldigingsnauwkeurigheid daalt. Naast het meten van wanneer modellen falen, vragen we welke procedures zij geneigd zijn te volgen. We introduceren een geforceerde-voltooiingsverliesprobe die heuristiek-specifieke redeneerprefixen scoort—inclusief kolomsgewijze vermenigvuldiging, distributieve decompositie en afronding/compensatie. Hier wordt decompositie begunstigd in zowel tekst- als visiemodaliteiten; heuristiek-specifieke LoRA-adapters produceren bijna orthogonale updates maar verslechteren de nauwkeurigheid, wat aangeeft dat het basismodel een goed afgestelde interne router behoudt.
Wij presenteren SemanticQA, een evaluatiesuite ontworpen om taalmodellen (TM's) te beoordelen in taken voor semantische zinsverwerking. De benchmark consolideert bestaande bronnen voor multiwoordexpressies (MWEs) en reorganiseert deze tot een uniforme testomgeving. Het omvat zowel algemene lexicale fenomenen, zoals lexicale collocaties, als drie fijnmazige categorieën: idiomatische uitdrukkingen, nominale samenstellingen en verbale constructies. Via SemanticQA evalueren we TM's met uiteenlopende architecturen en schalen in extractie-, classificatie- en interpretatietaken, evenals sequentiële taakcomposities. Wij constateren aanzienlijke prestatievariatie, met name bij taken die semantisch redeneren vereisen, wat verschillen in redeneereffectiviteit en semantisch begrip van TM's benadrukt. Dit biedt inzichten voor het ontwikkelen van TM's met sterker begrip van niet-triviale semantische zinsdelen. De evaluatie-omgeving en data van SemanticQA zijn beschikbaar op https://github.com/jacklanda/SemanticQA.
In tegenstelling tot code-completie vereist debugging het lokaliseren van fouten en het toepassen van gerichte aanpassingen. Wij observeren dat geavanceerde LLM's vaak correcte maar overmatig bewerkte oplossingen regenereren tijdens het debuggen. Om te evalueren hoe ver LLM's verwijderd zijn van precieze debugging, introduceren we het *Precise Debugging Benchmark* (PDB)-raamwerk, dat automatisch elke codeerdataset omzet in een debugbenchmark met precisiebewuste evaluatie. PDB genereert programma's met bugs door geverifieerde atomare bugs te synthetiseren en deze samen te stellen tot programma's met meerdere bugs. We definiëren twee nieuwe metrieken: *edit-level precision* (precisie op bewerkingsniveau) en *bug-level recall* (terugvindbaarheid op bugniveau), die meten hoeveel noodzakelijke bewerkingen worden gemaakt en hoeveel bugs worden opgelost. We brengen twee evaluatiebenchmarks uit: PDB-Single-Hard voor bugs in één regel, en PDB-Multi voor bugs over meerdere regels. Experimenten tonen aan dat geavanceerde modellen, zoals GPT-5.1-Codex en DeepSeek-V3.2-Thinking, slaagpercentages voor unittests behalen boven de 76%, maar een precisie vertonen van minder dan 45%, zelfs wanneer expliciet geïnstrueerd om minimaal te debuggen. Ten slotte tonen we aan dat iteratieve en agent-gebaseerde debugstrategieën de precisie of terugvindbaarheid niet substantieel verbeteren, wat de noodzaak benadrukt om de pipelines na de training voor coderingsmodellen te herzien.
Inheemse Omni-modale Grote Taalmodellen (OLLMs) zijn verschoven van pijplijnarchitecturen naar verenigde representatieruimten. Deze inheemse integratie leidt echter tot een kritiek maar onderbelicht fenomeen: modale voorkeur. Om deze kloof te overbruggen, kwantificeren we eerst systematisch de modale voorkeur van OLLMs met behulp van een nieuw samengestelde, op conflicten gebaseerde benchmark en de metriek van modale selectiefrequentie. Onze evaluatie van tien representatieve OLLMs onthult een opmerkelijke paradigmaverschuiving: in tegenstelling tot de "tekstdominantie" van traditionele VLMs vertonen de meeste OLLMs een uitgesproken visuele voorkeur. Om het onderliggende mechanisme verder te begrijpen, voeren we laaggewijs onderzoek uit en tonen we aan dat deze modale voorkeur niet statisch is, maar progressief ontstaat in de midden tot late lagen. Op basis van deze inzichten benutten we deze interne signalen om cross-modale hallucinaties te diagnosticeren, waarbij we competitieve prestaties behalen op drie downstream multimodale benchmarks zonder taakspecifieke data. Ons werk biedt zowel een mechanistisch inzicht als een praktisch hulpmiddel voor het bouwen van betrouwbaardere OLLMs. Onze code en gerelateerde bronnen zijn openbaar beschikbaar op: https://github.com/icip-cas/OmniPreference.
Grote taalmodellen (LLM's) worden uitgebreid onderzocht voor onderzoekstaken die intensief redeneren vereisen, maar hulpbronnen om te testen of ze wetenschappelijke conclusies kunnen afleiden uit gestructureerd biomedisch bewijsmateriaal blijven beperkt. Wij introduceren MedConclusion, een grootschalige dataset met 5,7 miljoen gestructureerde samenvattingen van PubMed voor het genereren van biomedische conclusies. Elk voorbeeld koppelt de niet-conclusie secties van een samenvatting aan de oorspronkelijke, door de auteur geschreven conclusie, wat natuurlijk voorkomende supervisie biedt voor redeneren van bewijs naar conclusie. MedConclusion omvat ook metadata op tijdschriftniveau, zoals biomedische categorie en SJR, wat subgroepanalyses over biomedische domeinen heen mogelijk maakt. Als eerste studie evalueren we diverse LLM's onder instellingen voor het aanzetten tot conclusie- en samenvattingsvorming en scoren we de output met zowel referentiegebaseerde metrieken als LLM-als-rechter. Wij constateren dat het schrijven van conclusies zich gedragsmatig onderscheidt van het schrijven van samenvattingen, dat sterke modellen onder de huidige automatische metrieken nauw gegroepeerd blijven, en dat de identiteit van de rechter absolute scores aanzienlijk kan beïnvloeden. MedConclusion biedt een herbruikbare dataresource voor het bestuderen van wetenschappelijk redeneren van bewijs naar conclusie. Onze code en data zijn beschikbaar op: https://github.com/Harvard-AI-and-Robotics-Lab/MedConclusion.
Grote Taalmodellen (LLM's) hebben uitzonderlijke prestaties getoond in diverse domeinen, maar worden steeds meer beperkt door hoge inferentielatentie. Vroegtijdig Afsluiten (Early Exit) is naar voren gekomen als een veelbelovende oplossing om inferentie te versnellen door dynamisch redundante lagen over te slaan. In decoder-only architecturen wordt de efficiëntie van Vroegtijdig Afsluiten echter ernstig beperkt door het KV-cache-afwezigheidsprobleem, waarbij overgeslagen lagen de benodigde historische staten voor volgende tokens niet kunnen leveren. Bestaande oplossingen, zoals herberekening of masking, introduceren ofwel aanzienlijke latentie-overhead of lijden onder ernstig precisieverlies, waardoor de kloof tussen theoretische laagreductie en praktische snelheidswinst niet wordt overbrugd. In dit artikel stellen we River-LLM voor, een trainingsvrij raamwerk dat naadloos Vroegtijdig Afsluiten op tokenniveau mogelijk maakt. River-LLM introduceert een lichtgewicht KV-gedeelde 'Exit River' die ervoor zorgt dat de ontbrekende KV-cache van de backbone tijdens het afsluitproces natuurlijk wordt gegenereerd en behouden, waardoor dure hersteloperaties overbodig worden. Verder gebruiken we de gelijkenis van staatsovergangen binnen decoderblokken om cumulatieve KV-fouten te voorspellen en precieze afsluitbeslissingen te sturen. Uitgebreide experimenten met wiskundig redeneren en codegeneratietaken tonen aan dat River-LLM een praktische snelheidswinst van 1,71 tot 2,16 keer bereikt, waarbij de hoge generatiekwaliteit behouden blijft.
Genoomtechnologie heeft een opmerkelijke precisie op sequentieniveau bereikt, maar het voorspellen van de transcriptomische toestand die een cel zal innemen na een perturbatie blijft een onopgelost probleem. Enkelcel-CRISPR-screens meten hoe ver cellen zich verwijderen van hun onverstoorde toestand, maar deze effectgrootte negeert een fundamentele vraag: bewegen de cellen gezamenlijk? Twee perturbaties met identieke grootte kunnen kwalitatief verschillende uitkomsten opleveren als de ene cellen coherent langs een gedeeld traject drijft, terwijl de andere ze verspreidt over de expressieruimte. Wij introduceren een geometrische stabiliteitsmetriek, Shesha, die de directionele coherentie van enkelcelperturbatieresponses kwantificeert als de gemiddelde cosinusgelijkenis tussen individuele celverschuivingsvectoren en de gemiddelde perturbatierichting. Over vijf CRISPR-datasets (meer dan 2.200 perturbaties, waaronder CRISPRa, CRISPRi en gepoolde screens) correleert stabiliteit sterk met effectgrootte (Spearman ρ=0.75-0.97), met een gekalibreerde kruis-datasetcorrelatie van 0.97. Cruciaal is dat tegenstrijdige gevallen waarin de twee metrieken ontkoppelen, de regulatoire architectuur blootleggen: pleiotrope hoofdregulatoren zoals CEBPA en GATA1 betalen een "geometrische belasting" en produceren grote maar incoherente verschuivingen, terwijl lijnspecifieke factoren zoals KLF1 strak gecoördineerde responses opleveren. Na correctie voor grootte is geometrische instabiliteit onafhankelijk geassocieerd met verhoogde chaperonne-activatie (HSPA5/BiP; ρ_{partieel}=-0.34 en -0.21 over datasets), en de kwadrant met hoge stabiliteit/hoge stress is systematisch verarmd. De magnitude-stabiliteit-relatie blijft bestaan in scGPT foundation model-embeddingen, wat bevestigt dat het een eigenschap is van de biologische toestandsruimte en niet van lineaire projectie. Perturbatiestabiliteit biedt een complementaire as voor hit-prioritering in screens, fenotypische kwaliteitscontrole in celproductie en evaluatie van in silico perturbatievoorspellingen.
De convergentie van grote taalmodel(len) en agenten katalyseert een nieuw tijdperk van wetenschappelijke ontdekking: Agent-gebaseerde Wetenschap. Hoewel de wetenschappelijke methode inherent iteratief is, zijn bestaande agentframeworks overwegend statisch, smal van opzet en missen ze het vermogen om te leren van trial-and-error. Om deze kloof te overbruggen, presenteren we EvoMaster, een fundamenteel evoluerend agentframework dat specifiek is ontwikkeld voor Grootschalige Agent-gebaseerde Wetenschap. Gedreven door het kernprincipe van continue zelfevolutie stelt EvoMaster agenten in staat om hypothesen iteratief te verfijnen, zelfkritiek toe te passen en kennis progressief op te bouwen over experimentele cycli heen, waardoor het menselijke wetenschappelijke onderzoek nauwkeurig wordt nagebootst. Cruciaal is dat EvoMaster, als domein-agnostisch basisraamwerk, uitzonderlijk eenvoudig op te schalen is – waardoor ontwikkelaars in staat worden gesteld om zeer capabele, zelf-evoluerende wetenschappelijke agenten voor willekeurige disciplines te bouwen en implementeren in ongeveer 100 regels code. Gebaseerd op EvoMaster hebben we het SciMaster-ecosysteem geïncubeerd binnen domeinen zoals machine learning, natuurkunde en algemene wetenschap. Evaluaties op vier gezaghebbende benchmarks (Humanity's Last Exam, MLE-Bench Lite, BrowseComp en FrontierScience) tonen aan dat EvoMaster state-of-the-art scores behaalt van respectievelijk 41,1%, 75,8%, 73,3% en 53,3%. Het presteert alomvattend beter dan de algemene baseline OpenClaw met relatieve verbeteringen variërend van +159% tot +316%, wat de effectiviteit en algemeenheid robuust valideert als het toonaangevende fundamentele framework voor de volgende generatie van autonome wetenschappelijke ontdekking. EvoMaster is beschikbaar op https://github.com/sjtu-sai-agents/EvoMaster.
Recente vooruitgang in semantische correspondentie berust op dual-encoder-architecturen die DINOv2 combineren met diffusie-backbones. Hoewel accuraat, generaliseren deze modellen met miljarden parameters slecht voorbij getrainde keypoints, wat een kloof onthult tussen benchmarkprestaties en bruikbaarheid in de praktijk, waar opgevraagde punten zelden overeenkomen met die tijdens de training. Voortbouwend op DINOv2 introduceren we MARCO, een unified model voor generaliseerbare correspondentie, aangedreven door een nieuw trainingsraamwerk dat zowel fijne lokalisatie als semantische generalisatie verbetert. Door een coarse-to-fine-doelstelling die ruimtelijke precisie verfijnt te koppelen aan een zelfdistillatieraamwerk dat sparse supervisie uitbreidt voorbij geannoteerde regio's, transformeert onze aanpak een handvol keypoints naar dichte, semantisch coherente correspondenties. MARCO vestigt een nieuwe state-of-the-art op SPair-71k, AP-10K en PF-PASCAL, met verbeteringen die versterken bij fijne lokalisatiedrempels (+8,9 PCK@0.01), de sterkste generalisatie naar ongeziene keypoints (+5,1, SPair-U) en categorieën (+4,7, MP-100), terwijl het 3x kleiner en 10x sneller blijft dan diffusiegebaseerde benaderingen. Code is beschikbaar op https://github.com/visinf/MARCO.
Gebruikers laten vaak essentiële details weg in hun verzoeken aan LLM-gestuurde agents, wat leidt tot onvolledig gespecificeerde invoer voor toolgebruik. Dit vormt een fundamentele uitdaging voor tool-augmented agents, aangezien API-uitvoering doorgaans volledige argumenten vereist, wat de noodzaak van gepersonaliseerde toolaanroeping benadrukt. Om dit probleem te bestuderen, introduceren we MPT, een benchmark bestaande uit 265 multi-sessie dialogen die drie uitdagingen omvatten: Preference Recall, Preference Induction en Preference Transfer. We presenteren ook PRefine, een test-time geheugen-augmented methode die gebruikersvoorkeuren representeert als evoluerende hypotheses. Door middel van een generate-verify-refine lus extraheert het herbruikbare beperkingen uit de geschiedenis en verbetert het de nauwkeurigheid van toolaanroepingen, terwijl het slechts 1,24% van de tokens gebruikt die nodig zijn bij full-history prompting. Deze resultaten tonen aan dat robuuste personalisatie in agent-systemen afhangt van geheugen dat de redenen achter gebruikerskeuzes vastlegt, niet alleen de keuzes zelf.
Emotionele Ondersteuningsconversaties (ESC) hebben als doel personen in nood bij te staan door het genereren van empathische en ondersteunende dialoog. Waar eerder onderzoek doorgaans uitgaat van één ondersteuningsstrategie per gesprekspartnerbeurt, combineert ondersteunende communicatie in de praktijk vaak meerdere strategieën binnen één uiting. In dit artikel herdefiniëren we de ESC-taak als multi-strategie-uitingsgeneratie, waarbij elke uiting één of meer strategie-responsparen kan bevatten. We stellen twee generatiemethoden voor: All-in-One, waarbij alle strategie-responsparen in één decodeerstap worden gegenereerd, en One-by-One, waarbij iteratief strategie-responsparen worden gegenereerd tot voltooiing. Beide methoden worden verder versterkt met cognitieve redenering, gestuurd door reinforcement learning, om strategiekeuze en responscompositie te verbeteren. We evalueren onze modellen op de ESConv-dataset in zowel uiting- als dialoogniveau. Experimentele resultaten tonen aan dat onze methoden multi-strategie-uitingen effectief modelleren en leiden tot verbeterde ondersteuningskwaliteit en dialoogsucces. Voor zover wij weten levert dit werk het eerste systematische empirische bewijs dat het toestaan van meerdere ondersteuningsstrategieën binnen één uiting zowel haalbaar als voordelig is voor emotionele ondersteuningsconversaties. Alle code en data zullen openbaar beschikbaar worden gesteld op https://github.com/aliyun/qwen-dianjin.
Betrouwbare inzet van taalmodelen vereist twee vaardigheden die ogenschijnlijk verschillend zijn maar een gemeenschappelijke geometrische basis delen: voorspellen of een model zich zal laten sturen via gerichte gedragscontrole, en detecteren wanneer de interne structuur degradeert. Wij tonen aan dat geometrische stabiliteit – de consistentie van de paarsgewijze afstandsstructuur van een representatie – beide adresseert. Gesuperviseerde Shesha-varianten die taak-uitgelijnde geometrische stabiliteit meten, voorspellen lineaire stuurbaarheid met een bijna perfecte nauwkeurigheid (ρ= 0.89-0.97) over 35-69 embeddingmodellen en drie NLP-taken, waarbij ze unieke variantie vastleggen die verder gaat dan klasse-scheidbaarheid (partiële ρ= 0.62-0.76). Er ontstaat een kritiek onderscheid: niet-gesuperviseerde stabiliteit faalt volledig voor het voorspellen van stuurbaarheid bij real-world taken (ρ≈ 0.10), wat aantoont dat taak-uitlijning essentieel is voor voorspelbaarheid van controleerbaarheid. Niet-gesuperviseerde stabiliteit blinkt echter uit in driftdetectie, meet tot bijna 2 keer meer geometrische verandering dan CKA tijdens post-training alignment (tot 5.23 keer in Llama), geeft in 73% van de modellen een eerder waarschuwing en handhaaft een 6 keer lager fout-positief percentage dan Procrustes. Samen vormen gesuperviseerde en niet-gesuperviseerde stabiliteit complementaire diagnostieken voor de LLM-inzetlevenscyclus: de ene voor beoordeling van controleerbaarheid vóór ingebruikname, de andere voor monitoring na ingebruikname.
Vision-Language Models (VLMs) worden steeds vaker ingezet bij klinische diagnostiek, maar hun robuustheid tegen adversarial attacks blijft grotendeels ononderzocht, wat ernstige risico's met zich meebrengt. Bestaande medische aanvallen richten zich op secundaire doelstellingen zoals modeldiefstal of adversarial fine-tuning, terwijl overdraagbare aanvallen vanuit natuurlijke afbeeldingen zichtbare vervormingen introduceren die clinici eenvoudig kunnen detecteren. Om dit aan te pakken, stellen wij MedFocusLeak voor, een hoogst overdraagbare black-box multimodale aanval die incorrecte maar klinisch plausibele diagnoses veroorzaakt, terwijl de perturbaties onmerkbaar blijven. De methode injecteert gecoördineerde perturbaties in niet-diagnostische achtergrondgebieden en gebruikt een aandacht-afleidingsmechanisme om de focus van het model weg te leiden van pathologische gebieden. Uitgebreide evaluaties over zes medische beeldvormingsmodaliteiten tonen aan dat MedFocusLeak state-of-the-art prestaties bereikt en misleidende maar realistische diagnostische uitkomsten genereert voor diverse VLMs. Wij introduceren verder een uniform evaluatiekader met nieuwe metrieken die zowel de aanvalssucces als de beeldgetrouwheid gezamenlijk vastleggen, wat een kritieke zwakte in de redeneervaardigheden van moderne klinische VLMs aan het licht brengt.
Multimodale grote taalmodellen (MLLM's) tonen indrukwekkende capaciteiten, maar hebben vaak moeite om de fijne tekstuele informatie in afbeeldingen, die cruciaal is voor accurate beeldvertaling, effectief vast te leggen. Dit leidt vaak tot een modaliteitskloof tussen visuele tekstinvoer en tekstuele invoer/uitvoer voor beeldvertaling. Bestaande methoden, die voornamelijk steunen op instructie-fijnafstemming, riskeren parameterredundantie van vooraf getrainde kennis, wat de generalisatieprestatie belemmert. Om dit aan te pakken, introduceren we modality neuron-aware fine-tuning (MNAFT), een nieuwe aanpak die gebruikmaakt van de gespecialiseerde rollen van individuele neuronen binnen MLLM's voor verbeterde beeldvertaling. MNAFT identificeert taal-agnostische en taal-specifieke neuronen in zowel visuele als taalmodules door middel van een instructiegestuurde activatie-analyse, waarbij hun belang in verschillende vertaaltaken wordt geëvalueerd. Vervolgens voeren we selectieve fijnafstemming uit, waarbij alleen de parameters van taal-specifieke en taal-agnostische neuronen binnen de geselecteerde lagen die relevant zijn voor de doeltaak worden bijgewerkt, terwijl de kennis gecodeerd in andere neuronen en lagen behouden blijft. Onze uitgebreide experimenten op meerdere benchmarks tonen aan dat MNAFT aanzienlijk beter presteert dan state-of-the-art beeldvertaalmethoden, inclusief cascade-modellen, standaard volledige fijnafstemming en parameter-efficiënte afstemmingstechnieken. Verder bieden we een uitgebreide analyse, inclusief visualisaties van neuronactivaties en clusterpatronen, om inzicht te geven in de rollen van verschillende neuronengroepen bij het bemiddelen van cross-modale interpretatie en het faciliteren van accurate taal-specifieke vertaling.
Het begrijpen en anticiperen van kwetsbaarheidsgerelateerde activiteit vormt een grote uitdaging binnen cyberdreigingsinformatie. Dit onderzoek gaat na of waarnemingen van kwetsbaarheden, zoals de publicatie van proof-of-concepts, detectietemplates of online discussies, in de tijd kunnen worden voorspeld. Voortbordurend op ons eerdere werk aan VLAI, een transformer-gebaseerd model dat de ernst van kwetsbaarheden uit tekstbeschrijvingen voorspelt, onderzoeken we of ernstscore kunnen bijdragen aan tijdreeksvoorspelling als exogene variabelen. We evalueren verschillende benaderingen voor kortetermijnvoorspelling van waarnemingen per kwetsbaarheid. Eerst testen we SARIMAX-modellen met en zonder log(x+1)-transformaties en VLAI-afgeleide ernstinvoeren. Hoewel deze aanpassingen beperkte verbeteringen bieden, blijft SARIMAX slecht geschikt voor schaarse, korte en bursty kwetsbaarheidsdata. In de praktijk produceren voorspellingen vaak te brede betrouwbaarheidsintervallen en soms onrealistische negatieve waarden. Om het discrete en gebeurtenisgestuurde karakter van waarnemingen beter te vatten, verkennen we vervolgens op tellingen gebaseerde methoden zoals Poisson-regressie. Vroege resultaten tonen aan dat deze modellen stabielere en interpreteerbaare voorspellingen produceren, vooral wanneer waarnemingen wekelijks worden geaggregeerd. We bespreken ook eenvoudigere operationele alternatieven, zoals exponentiële vervalfuncties voor korte voorspellingshorizons, om toekomstige activiteit in te schatten zonder lange historische reeksen. Al met al belicht deze studie zowel de potentie als de beperkingen van het voorspellen van zeldzame en bursty cybergebeurtenissen, en biedt het praktische richtlijnen voor het integreren van voorspellende analyses in kwetsbaarheidsinformatieworkflows.
Full-Duplex Spraaktaalmodellen (FD-SLM's) maken realtime, overlappende gespreksinteracties mogelijk en bieden daarmee een dynamischere gebruikerservaring dan traditionele half-duplex modellen. Bestaande benchmarks richten zich echter voornamelijk op de evaluatie van enkelvoudige interacties, waarbij de complexiteit van meerronde communicatie wordt verwaarloosd. Het evalueren van FD-SLM's in meerronde settings brengt aanzienlijke uitdagingen met zich mee, zoals vervaagde beurtgrenzen in de communicatie en inconsistentie van context tijdens modelinferentie. Bovendien richten bestaande benchmarks zich vaak uitsluitend op het evalueren van gesprekskenmerken, waarbij andere cruciale aspecten buiten beschouwing worden gelaten. Om deze lacunes aan te pakken, introduceren wij MTR-DuplexBench, een nieuwe benchmark die is ontworpen voor een uitgebreide meerronde evaluatie van FD-SLM's. MTR-DuplexBench segmenteert niet alleen continue full-duplex dialogen in discrete beurten voor een beurt-voor-beurt-beoordeling, maar integreert ook diverse evaluatieaspecten, waaronder gesprekskenmerken, dialoogkwaliteit, instructieopvolging en veiligheid. Experimentele resultaten tonen aan dat huidige FD-SLM's moeite hebben om consistente prestaties te leveren over meerdere rondes en evaluatiedimensies, wat de noodzaak en effectiviteit van onze benchmark onderstreept. Code en data zijn beschikbaar op: https://github.com/ZhangHe0918/MTR-DuplexBench
Wij presenteren Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), een compiler met vier fasen voor de implementatie van transformers op heterogene accelerator-hardware, gevalideerd op de Intel AI Boost NPU. Bestaande frameworks zoals OpenVINO en ONNX Runtime gebruiken vaak ondoorzichtige compilatiepijplijnen, beperkte zichtbaarheid op pass-niveau en zwakke bufferbeheer, wat kan leiden tot hogere compilatiekosten en runtime-overhead. Forge-UGC lost dit op met een hardware-agnostisch ontwerp dat grafiekcapture, optimalisatie, verlaging van de intermediate representation en backend-scheduling scheidt. Fase 1 captureert grafieken met torch.export op het ATen-operatorenniveau, waarbij moderne transformer-componenten zoals rotary position embeddings, grouped-query attention en SwiGLU worden ondersteund zonder handmatige decompositie. Fase 2 past zes optimalisatiepasses toe: eliminatie van dode code, eliminatie van gemeenschappelijke subexpressies, constant folding, attention-fusie, operatorfusie en layoutoptimalisatie, wat het aantal grafiekknopen met 14,2 tot 21,9% reduceert. Fase 3 verlaagt de geoptimaliseerde grafiek naar een getypeerde intermediate representation met expliciete virtuele registertoewijzingen. Fase 4 voert liveness-analyse uit, lineaire-scan-bufferallocatie (vermindert het piek-bufferaantal met 30 tot 48%) en device-affinity-scheduling (vermindert NPU-CPU-overgangen met 42 tot 65%). Over zes modelfamilies, variërend van 125M tot 8B parameters, geëvalueerd op WikiText-103 en GLUE, levert Forge-UGC 6,9 tot 9,2x snellere compilatie dan OpenVINO en ONNX Runtime, 18,2 tot 35,7% lagere inferentielatentie en 30,2 tot 40,9% lager energieverbruik per inferentie. De nauwkeurigheid blijft behouden, met maximale absolute logit-verschillen onder 2,1e-5 en KL-divergentie onder 8,4e-9. Wij introduceren ook de Fusion Gain Ratio, Compilation Efficiency Index en uitvoeringsprofilering per pass voor de systematische evaluatie van NPU-compilatiepijplijnen.
Genotype-omgevingsinteracties (GxE) beïnvloeden de prestaties van genotypen in diverse omgevingen, wat de voorspelbaarheid van fenotypen in doelomgevingen vermindert. Een diepgaande analyse van GxE-interacties vergemakkelijkt de identificatie van hoe genetische voordelen of defecten tot expressie komen of worden onderdrukt onder specifieke omgevingscondities, waardoor genetische selectie mogelijk wordt en veredelingspraktijken worden verbeterd. Dit artikel introduceert twee belangrijke modellen voor GxE-interactieonderzoek. Concreet omvat dit significantieanalyse op basis van het mixed-effectmodel om te bepalen of genen of GxE-interacties significante invloed hebben op fenotypische eigenschappen; en stabiliteitsanalyse, die de interactierelaties tussen genen en omgevingen verder onderzoekt, evenals de relatieve superioriteit of inferioriteit van genotypen over verschillende omgevingen. Daarnaast presenteert dit artikel RGxEStat, een lichtgewicht interactieve tool die door de auteurs is ontwikkeld en de constructie, oplossing en visualisatie van de voornoemde modellen integreert. Ontworpen om de noodzaak voor veredelaars en agronomen om complexe SAS- of R-programmering te leren overbodig te maken, biedt RGxEStat een gebruiksvriendelijke interface voor gestroomlijnde analyse van veredelingsdata, wat de onderzoekscycli aanzienlijk versnelt. Code en datasets zijn beschikbaar op https://github.com/mason-ching/RGxEStat.
Wij introduceren JuRe (Just Repair), een minimaal ruisonderdrukkend netwerk voor anomaliedetectie in tijdreeksen dat een centrale bevinding blootlegt: architecturale complexiteit is onnodig wanneer het trainingsdoel het manifold-projectieprincipe correct implementeert. JuRe bestaat uit een enkel depthwise-separable convolutioneel residueel blok met een verborgen dimensie van 128, getraind om beschadigde tijdreeksvensters te repareren en tijdens inferentie gescoord door een vaste, parameter-vrije structurele discrepantiefunctie. Ondanks het ontbreken van aandachtmechanismen, latente variabelen en een adversarieel component, bekleedt JuRe de tweede plaats op de TSB-AD multivariate benchmark (AUC-PR 0.404, 180 reeksen, 17 datasets) en de tweede plaats op het UCR univariate archief volgens AUC-PR (0.198, 250 reeksen), waarmee het alle neurale baseline-methoden overtreft op AUC-PR en VUS-PR. Componentablatie op TSB-AD identificeert corruptie tijdens de training als de dominante factor (ΔAUC-PR = 0.047 bij verwijdering), wat bevestigt dat het ruisonderdrukkingsdoel, en niet de netwerkcapaciteit, de detectiekwaliteit drijft. Paarsgewijze Wilcoxon signed-rank tests tonen statistische significantie aan tegenover 21 van de 25 baseline-methoden op TSB-AD. Code is beschikbaar op de URL https://github.com/iis-esslingen/JuRe.
Wij brengen Terminal Wrench uit, een subset van 331 terminal-agent benchmark-omgevingen, gekopieerd uit populaire open benchmarks die aantoonbaar vatbaar zijn voor reward-hacking. De dataset omvat 3.632 hacktrajecten en 2.352 legitieme basislijntrajecten van drie frontier-modellen (Claude Opus 4.6, Gemini 3.1 Pro, GPT-5.4). Elke invoer behoudt de oorspronkelijke taakdefinitie samen met complete aanvalstrajecten die tonen hoe de verifier werd omzeild. Ook zijn er gevallen opgenomen waarin de taak niet zoals bedoeld werd opgelost. De taken beslaan systeembeheer, machine learning, software-engineering en security-uitdagingen; de exploits variëren van simpele output-spoofing tot stack-frame-introspectie, patchen van standaardbibliotheken en rootkit-achtige binary-hijacking. Cruciaal is dat deze exploits specifiek zijn voor elke taak, en niet voor het evaluatieraamwerk, waardoor ze moeilijker te patchen zijn. Wij presenteren ook een monitorbaarheidsstudie waarin hacktrajecten worden gesaneerd of ontdaan van redeneersporen, en vervolgens beoordeeld door een LLM-rechter. Dit toont aan dat de detectie significant verslechtert wanneer de chain-of-thought wordt verwijderd (AUC daalt van 0.97 naar 0.92). De dataset is openbaar beschikbaar op https://github.com/few-sh/terminal-wrench.
Het belangrijkste architecturale probleem in AI is niet de grootte van het model, maar de afwezigheid van een laag die behoudt wat het model heeft begrepen. Sessies eindigen. Contextvensters raken vol. Geheugen-API's retourneren platte feiten die het model bij elke leesbeurt opnieuw moet interpreteren. Het resultaat is een intelligentie die krachtig is per sessie, maar amnestisch is over tijd. Dit position paper betoogt dat de laag die dit oplost, de continuïteitslaag, de meest consequente infrastructuur is die het vakgebied nog niet heeft gebouwd, en dat het technische werk om deze te bouwen in de openbaarheid is begonnen. Het formele evaluatiekader voor de hier beschreven eigenschap is de ATANT-benchmark (arXiv:2604.06710), apart gepubliceerd met evaluatieresultaten op een corpus van 250 verhalen; een begeleidend artikel (arXiv:2604.10981) positioneert dit kader naast bestaande benchmarks voor geheugen, lange context en agent-geheugen. Het artikel definieert continuïteit als een systeemeigenschap met zeven vereiste kenmerken, onderscheiden van geheugen en retrieval; beschrijft een opslagprimitief (Decomposed Trace Convergence Memory) waarvan de decompositie tijdens schrijven en reconstructie tijdens lezen deze eigenschap produceren; verbindt de technische architectuur met het theologische patroon van kenosis en het symbolische patroon van Alfa en Omega, en betoogt dat deze verbinding structureel is in plaats van metaforisch; stelt een ontwikkelingspad voor in vier lagen, van externe SDK naar hardware-node naar menselijke infrastructuur voor de lange termijn; onderzoekt waarom de natuurkundige limieten die de modellaag nu beperken de continuïteitslaag nieuw belang geven; en betoogt dat de besturingsarchitectuur (privacy geïmplementeerd als natuurkunde in plaats van beleid, door oprichters gecontroleerde aandelen met niet-onderhandelbare architecturale verplichtingen) onafscheidelijk is van het product zelf.
Scenegrafiekrepresentaties maken gestructureerd visueel begrip mogelijk door objecten en hun relaties te modelleren, en worden veelvuldig gebruikt voor multiview- en 3D-scèneredenering. Bestaande methoden zoals MSG leren scenegrafiek-embeddingen in de Euclidische ruimte met behulp van contrastief leren en op aandacht gebaseerde associatie. Echter, Euclidische meetkunde vangt hiërarchische implicatierelaties tussen plaatsen en objecten niet expliciet, wat de structurele consistentie van de geleerde representaties beperkt. Om dit aan te pakken, stellen wij Hyperbolische Scenegrafiek (HSG) voor, die scenegrafiek-embeddingen leert in de hyperbolische ruimte waar hiërarchische relaties van nature worden gecodeerd door geometrische afstand. Onze resultaten tonen aan dat HSG de kwaliteit van de hiërarchische structuur verbetert terwijl sterke retrievalscore behouden blijft. De grootste verbeteringen worden waargenomen in grafiekniveau-metrics: HSG behaalt een PP IoU van 33.17 en de hoogste Graph IoU van 33.51, wat de beste AoMSG-variant (25.37) met 8.14 overtreft, en benadrukt de effectiviteit van hyperbolische representatieleren voor scenegrafiekmodellering. Code: https://github.com/AIGeeksGroup/HSG.
Decoder-only large language models (LLM's) vervangen in toenemende mate BERT-achtige architecturen als ruggengraat voor dense retrieval, waarbij ze aanzienlijke prestatieverbeteringen en brede adoptie bereiken. De robuustheid van deze op LLM's gebaseerde retrievers blijft echter onderbelicht. In dit artikel presenteren we de eerste systematische studie naar de robuustheid van state-of-the-art open-source LLM-gebaseerde dense retrievers vanuit twee complementaire perspectieven: generaliseerbaarheid en stabiliteit. Voor generaliseerbaarheid evalueren we de retrieval-effectiviteit over vier benchmarks verspreid over 30 datasets, waarbij we lineaire mixed-effects modellen gebruiken om de marginale gemiddelde prestatie te schatten en intrinsieke modelcapaciteit te scheiden van datasetheterogeniteit. Onze analyse toont aan dat instruction-getunde modellen over het algemeen excelleren, maar dat modellen geoptimaliseerd voor complex redeneren vaak een 'specialisatiebelasting' ondervinden, wat zich uit in beperkte generaliseerbaarheid in bredere contexten. Voor stabiliteit beoordelen we de veerkracht van modellen tegen zowel onbedoelde queryvariaties (bijv. parafrasering, typefouten) als kwaadwillige adversariële aanvallen (bijv. corpusvergiftiging). We constateren dat LLM-gebaseerde retrievers een verbeterde robuustheid vertonen tegen typefouten en corpusvergiftiging in vergelijking met encoder-only baselinemodellen, maar kwetsbaar blijven voor semantische perturbaties zoals synoniemgebruik. Verdere analyse toont aan dat embeddeddingsgeometrie (bijv. hoekuniformiteit) voorspellende signalen biedt voor lexicale stabiliteit en suggereert dat het schalen van modelgrootte over het algemeen de robuustheid verbetert. Deze bevindingen zijn richtinggevend voor toekomstig robuustheidsbewust retriever-ontwerp en principiële benchmarking. Onze code is openbaar beschikbaar op https://github.com/liyongkang123/Robust_LLM_Retriever_Eval.
Wij introduceren de eerste versie van KWBench (Knowledge Work Bench), een benchmark voor ongevraagde probleemherkenning in grote taalmodellen: kan een LLM een professioneel scenario identificeren voordat het probeert het op te lossen? Bestaande toonaangevende benchmarks zijn verzadigd, en de meeste evaluaties van kenniswerk tot nu toe komen neer op extractie of taakvoltooiing tegen een specificatie. KWBench richt zich op de stap daarvoor: het herkennen van de onderliggende structuur van de situatie uitsluitend vanuit ruwe inputs. De benchmark bevat 223 taken, afkomstig van praktijkmensen uit onder meer acquisities, contractonderhandelingen, klinische farmacie, organisatiepolitiek, fraudeanalyse en prikkelontwerp. Elke taak codeert een formeel speltheoretisch patroon (principal-agent conflict, signalering, falen van mechanism design, strategische weglating, coalitionele dynamiek, strategische interdependentie) en bevat gestructureerde grondtruth die de expertinterpretatie van de situatie en de verwachte faalwijzen vastlegt. Modellen ontvangen ruwe data en een taakprompt zonder enige indicatie van het probleemtype. De beoordeling verloopt volgens een drielaags rubric, afgeschermd door een verplichte conjunctieve check. Verplichte criteria coderen de voorspelde verkeerde aanpakken. Wij evalueren 16 modellen. Het beste model slaagt voor 27,9% van de taken. De top twee modellen zijn het slechts over 31,7% van hun geslaagde taken eens. Binnen de top 8 worden 44 taken door precies één model opgelost; routering over de top 8 dekt 50,7% van de benchmark, bijna het dubbele van het beste individuele model. Voorwaardelijk op slagen, convergeren de kwaliteitsscores (ongeveer 83% over de modellen heen); onvoorwaardelijke scores doen dat niet. Dezelfde modellen articuleren het relevante speltheoretische concept correct wanneer ernaar gevraagd, maar slagen er niet in het ongevraagd toe te passen. Wij geven KWBench vrij om de wijze waarop toonaangevende modellen worden geëvalueerd op kenniswerk te verleggen: we beoordelen ze op basis van of ze het juiste probleem herkennen vanuit de situatie alleen, niet alleen op hoe goed ze presteren zodra het probleem voor hen is gekaderd.
AI-agenten die via tools met hun omgeving interageren, maken krachtige toepassingen mogelijk, maar in zakelijke omgevingen met hoge inzet kunnen onbedoelde acties onaanvaardbare schade veroorzaken, zoals privacyschendingen en financiële verliezen. Bestaande beperkingsmaatregelen, zoals op training gebaseerde methoden en neurale guardrails, verbeteren de betrouwbaarheid van agenten, maar kunnen geen garanties bieden. Wij bestuderen symbolische guardrails als een praktische weg naar sterke veiligheids- en beveiligingsgaranties voor AI-agenten. Onze driedelige studie omvat een systematische review van 80 state-of-the-art benchmarks voor agentveiligheid en -beveiliging om de geëvalueerde beleidsregels te identificeren, een analyse van welke beleidsvereisten gegarandeerd kunnen worden door symbolische guardrails, en een evaluatie van hoe symbolische guardrails veiligheid, beveiliging en agentsucces beïnvloeden op τ²-Bench, CAR-bench en MedAgentBench. Wij constateren dat 85% van de benchmarks geen concrete beleidsregels bevatten en in plaats daarvan vertrouwen op ongespecificeerde hoogwaardige doelen of gezond verstand. Van de gespecificeerde beleidsregels kan 74% van de beleidsvereisten worden afgedwongen door symbolische guardrails, vaak met behulp van eenvoudige, kostenefficiënte mechanismen. Deze guardrails verbeteren veiligheid en beveiliging zonder de functionaliteit van de agent aan te tasten. Over het algemeen suggereren onze resultaten dat symbolische guardrails een praktische en effectieve manier zijn om bepaalde veiligheids- en beveiligingsvereisten te garanderen, vooral voor domeinspecifieke AI-agenten. Wij hebben alle codes en artefacten vrijgegeven op https://github.com/hyn0027/agent-symbolic-guardrails.
Kennisdistillatie is een veelgebruikte techniek om capaciteiten van grote taalmodellen (LLM's) over te dragen naar kleinere, efficiëntere studentmodellen. Het onbevoegd gebruik van kennisdistillatie maakt echter oneerlijk gebruik van de aanzienlijke inspanning en kosten die zijn gestoken in de ontwikkeling van geavanceerde modellen. Wij onderzoeken methoden om door de leraar gegenereerde redeneersporen aan te passen om twee doelstellingen te bereiken die onbevoede distillatie moeten afschrikken: (1) anti-distillatie, ofwel het verminderen van de trainingsbruikbaarheid van queryresponsen, en (2) API-watermerking, waarbij verifieerbare handtekeningen in studentmodellen worden ingebed. Wij introduceren verschillende benaderingen voor het dynamisch herschrijven van de redeneeruitvoer van een leraar, waarbij de antwoordnauwkeurigheid en semantische samenhang behouden blijven. Twee hiervan benutten de herschrijfcapaciteiten van LLM's, terwijl andere op gradienten gebaseerde technieken gebruiken. Onze experimenten tonen aan dat een eenvoudige, op instructies gebaseerde herschrijfaanpak een sterk anti-distillatie-effect bereikt, terwijl de prestaties van de leraar behouden blijven of zelfs verbeteren. Bovendien tonen we aan dat onze herschrijfaanpak ook het inbedden van watermerken mogelijk maakt, die betrouwbaar kunnen worden gedetecteerd met vrijwel geen valse alarmen. Onze code is beschikbaar op https://github.com/xhOwenMa/trace-rewriting.