Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Naarmate AI-systemen evolueren van het genereren van tekst naar het bereiken van doelstellingen via aanhoudende interactie, wordt het vermogen om omgevingsdynamiek te modelleren een centrale bottleneck. Agenten die objecten manipuleren, software navigeren, met anderen coördineren of experimenten ontwerpen, vereisen voorspellende omgevingsmodellen. Toch heeft de term 'wereldmodel' verschillende betekenissen binnen onderzoeksgemeenschappen. Wij introduceren een "niveaus x wetten"-taxonomie, georganiseerd langs twee assen. De eerste as definieert drie capaciteitsniveaus: de L1-voorspeller, die één-staps lokale transitie-operatoren leert; de L2-simulator, die deze samenstelt tot meerstaps, actie-geconditioneerde rollouts die domeinwetten respecteren; en de L3-ontwikkelaar, die autonoom zijn eigen model reviseert wanneer voorspellingen falen tegenover nieuw bewijs. De tweede as identificeert vier regimes van wetmatigheden: fysiek, digitaal, sociaal en wetenschappelijk. Deze regimes bepalen welke beperkingen een wereldmodel moet voldoen en waar het waarschijnlijk zal falen. Met dit raamwerk synthetiseren wij meer dan 400 werken en vatten wij meer dan 100 representatieve systemen samen, die zich uitstrekken over modelgebaseerde reinforcement learning, videogeneratie, web- en GUI-agenten, multi-agent sociale simulatie en AI-gedreven wetenschappelijke ontdekking. Wij analyseren methoden, faalmodi en evaluatiepraktijken across niveau-regime paren, stellen beslissingsgerichte evaluatieprincipes en een minimaal reproduceerbaar evaluatiepakket voor, en schetsen architectuurrichtlijnen, open problemen en governance-uitdagingen. De resulterende routekaart verbindt voorheen geïsoleerde gemeenschappen en wijst een pad aan van passieve volgende-stap voorspelling naar wereldmodellen die de omgevingen waarin agenten opereren kunnen simuleren, en uiteindelijk hervormen.
Transformaties gegenereerd door beeld- en videogeneratiemodellen verlopen vaak sterk niet-lineair: lange periodes waarin de inhoud nauwelijks verandert, worden afgewisseld met plotselinge, abrupte semantische sprongen. Om dit gedrag te analyseren en te corrigeren, introduceren we een Semantische Progressiefunctie, een eendimensionale representatie die vastlegt hoe de betekenis van een gegeven sequentie in de tijd evolueert. Voor elk frame berekenen we afstanden tussen semantische embeddings en fitten we een vloeiende curve die de cumulatieve semantische verschuiving over de sequentie weergeeft. Afwijkingen van deze curve ten opzichte van een rechte lijn onthullen een ongelijkmatig semantisch tempo. Voortbordurend op dit inzicht stellen we een semantische linearisatieprocedure voor die de sequentie herparameteriseert (of hertimet), zodat de semantische verandering zich ontvouwt tegen een constant tempo, wat soepelere en coherentere overgangen oplevert. Naast linearisatie biedt ons raamwerk een model-agnostische basis voor het identificeren van temporele onregelmatigheden, het vergelijken van semantische tempo's tussen verschillende generatoren, en het sturen van zowel gegenereerde als echte videosequenties naar een willekeurig doel-tempo.
Neuronale representaties (NR's), zoals neurale velden en 3D Gaussians, modelleren volumetrische data in computertomografie (CT) effectief, maar vertonen ernstige artefacten onder sparse-view condities. Om dit aan te pakken, stellen we DiffNR voor, een nieuw raamwerk dat NR-optimalisatie versterkt met diffusie-priors. De kern hiervan is SliceFixer, een diffusiemodel met één stap dat is ontworpen om artefacten in gedegradeerde slices te corrigeren. We integreren gespecialiseerde conditioneringslagen in het netwerk en ontwikkelen op maat gemaakte data-curatiestrategieën om model-finetuning te ondersteunen. Tijdens de reconstructie genereert SliceFixer periodiek pseudo-referentievolumes, die voor aanvullende 3D-perceptuele supervisie zorgen om onderbepaalde regio's te herstellen. In vergelijking met eerdere methoden die CT-oplossers inbrengen in tijdrovende iteratieve denoising, vermijdt onze reparatie-en-augmentatie-strategie frequente queries naar het diffusiemodel, wat leidt tot betere runtime-prestaties. Uitgebreide experimenten tonen aan dat DiffNR de PSNR gemiddeld met 3.99 dB verbetert, goed generaliseert over domeinen en efficiënte optimalisatie behoudt.
Guardmodellen worden veelvuldig gebruikt om schadelijke inhoud in gebruikersprompts en LLM-reacties op te sporen. State-of-the-art guardmodellen vertrouwen echter uitsluitend op eindlaagrepresentaties en negeren de rijke, veiligheidsrelevante kenmerken die verspreid zijn over interne lagen. Wij presenteren SIREN, een lichtgewicht guardmodel dat deze interne kenmerken benut. Door veiligheidsneuronen te identificeren via lineaire probing en deze te combineren via een adaptieve, laag-gewogen strategie, bouwt SIREN een schadelijkheidsdetector op uit LLM-internals zonder het onderliggende model aan te passen. Onze uitgebreide evaluatie toont aan dat SIREN state-of-the-art open-source guardmodellen aanzienlijk overtreft op meerdere benchmarks, terwijl het 250 keer minder trainbare parameters gebruikt. Bovendien vertoont SIREN superieure generalisatie naar onzichtbare benchmarks, maakt het real-time streamingdetectie van nature mogelijk en verbetert het de inferentie-efficiëntie aanzienlijk in vergelijking met generatieve guardmodellen. Over het geheel genomen benadrukken onze resultaten dat interne toestanden van LLM's een veelbelovende basis vormen voor praktische, hoogwaardige schadelijkheidsdetectie.
Wij presenteren FlowAnchor, een trainingsvrij raamwerk voor stabiele en efficiënte inversievrije, op stroming gebaseerde videobewerking. Inversievrije bewerkingsmethoden hebben recentelijk indrukwekkende efficiëntie en structuurbehoud getoond bij afbeeldingen door het bemonsteringstraject direct te sturen met een bewerkingssignaal. Het uitbreiden van dit paradigma naar video's blijft echter een uitdaging, waarbij vaak falen optreedt in scènes met meerdere objecten of bij een hoger aantal frames. Wij identificeren de hoofdoorzaak als de instabiliteit van het bewerkingssignaal in hoogdimensionale videolatenteruimten, die ontstaat door onnauwkeurige ruimtelijke lokalisatie en lengte-gerelateerde magnitude-attenuatie. Om deze uitdaging te overwinnen, verankert FlowAnchor expliciet zowel waar moet worden bewerkt als hoe sterk moet worden bewerkt. Het introduceert Ruimtelijk-bewuste Aandachtverfijning, die een consistente uitlijning afdwingt tussen tekstuele begeleiding en ruimtelijke regio's, en Adaptieve Magnitudemodulatie, die adaptief voldoende bewerkingssterkte behoudt. Samen stabiliseren deze mechanismen het bewerkingssignaal en sturen ze de op stroming gebaseerde evolutie naar de gewenste doeldistributie. Uitgebreide experimenten tonen aan dat FlowAnchor meer getrouwe, temporeel coherente en computationeel efficiënte videobewerking bereikt in uitdagende scenario's met meerdere objecten en snelle beweging. De projectpagina is beschikbaar op https://cuc-mipg.github.io/FlowAnchor.github.io/.
Vraag-antwoordtaken met echte documenten vormen een uitdaging. Analisten moeten bewijs uit meerdere documenten en verschillende delen van elk document synthetiseren. Echter, elk vast contextvenster van een grote taalmodel kan worden overschreden naarmate documentverzamelingen groeien. Een gebruikelijke oplossing is om documenten op te delen in brokken en antwoorden samen te stellen uit broeksgewijze outputs, maar dit introduceert een aggregatieknelpunt: naarmate het aantal brokken toeneemt, moeten systemen een steeds grotere hoeveelheid geëxtraheerd bewijs nog steeds combineren en interpreteren. Wij presenteren SLIDERS, een raamwerk voor vraag-antwoordtaken over lange documentverzamelingen door middel van gestructureerd redeneren. SLIDERS extraheert salientie informatie naar een relationele database, waardoor schaalbaar redeneren over persistente gestructureerde staat mogelijk wordt via SQL in plaats van aaneengeschakelde tekst. Om deze lokaal geëxtraheerde representatie globaal coherent te maken, introduceert SLIDERS een gegevensafstemmingsfase die herkomst, extractierationales en metadata benut om gedupliceerde, inconsistente en onvolledige records te detecteren en te herstellen. SLIDERS presteert beter dan alle baseline-methoden op drie bestaande benchmarks voor lange context, ondanks dat ze allemaal binnen het contextvenster van sterke basis-LLM's passen, en overtreft GPT-4.1 gemiddeld met 6,6 punten. Het verbetert ook ten opzichte van de op een na beste baseline met ongeveer 19 en 32 punten op twee nieuwe benchmarks van respectievelijk 3,9 miljoen en 36 miljoen tokens.
Video-taalmodellen (VLM's) leren redeneren over de dynamische visuele wereld via natuurlijke taal. Wij introduceren een reeks open datasets, benchmarks en methoden voor schaalbare supervisie die precieze videobeschrijving mogelijk maken. Ten eerste definiëren we een gestructureerde specificatie voor het beschrijven van onderwerpen, scènes, beweging, ruimtelijke dynamiek en camerabewegingen, gebaseerd op honderden zorgvuldig gedefinieerde visuele primitieven die zijn ontwikkeld met professionele videomakers zoals filmmakers. Vervolgens introduceren we, om hoogwaardige bijschriften te cureren, CHAI (Critique-based Human-AI Oversight), een raamwerk waarin getrainde experts door modellen gegenereerde voorlopige bijschriften beoordelen en reviseren tot verbeterde definitieve bijschriften. Deze arbeidsverdeling verbetert de annotatienauwkeurigheid en -efficiëntie door tekstgeneratie uit te besteden aan modellen, zodat mensen zich beter kunnen concentreren op verificatie. Bovendien bieden deze kritieken en voorkeuren tussen voorlopige en definitieve bijschriften rijke supervisie voor het verbeteren van open-source modellen (Qwen3-VL) op het gebied van bijschriftgeneratie, beloningsmodellering en kritiekgeneratie via SFT, DPO en schaling tijdens inferentie. Onze ablatiestudies tonen aan dat de kwaliteit van de kritiek op het gebied van precisie, recall en constructiviteit, gewaarborgd door ons supervisieraamwerk, direct de downstream-prestaties bepaalt. Met bescheiden expertsupervisie presteert het resulterende model beter dan closed-source modellen zoals Gemini-3.1-Pro. Ten slotte passen we onze aanpak toe om grootschalige professionele video's (bijv. films, commercials, games) opnieuw van bijschriften te voorzien en fine-tunen we videogeneratiemodellen zoals Wan om gedetailleerde prompts van tot 400 woorden beter te volgen, waardoor een fijnere controle over cinematografie wordt bereikt, inclusief camerabeweging, hoek, lens, focus, perspectief en kadrering. Onze resultaten tonen aan dat precieze specificatie en mens-AI-supervisie de sleutel zijn tot professioneel niveau van videobegrip en -generatie. Data en code zijn beschikbaar op onze projectpagina: https://linzhiqiu.github.io/papers/chai/
De snelle groei van AI-agent-ecosystemen transformeert hoe complexe taken worden gedelegeerd en uitgevoerd, wat een nieuwe uitdaging creëert: het identificeren van geschikte agenten voor een bepaalde taak. In tegenstelling tot traditionele tools zijn de capaciteiten van agenten vaak compositioneel en uitvoeringsafhankelijk, waardoor ze moeilijk zijn in te schatten op basis van alleen tekstuele beschrijvingen. Echter, bestaand onderzoek en benchmarks veronderstellen doorgaans goed-gespecificeerde functionaliteiten, gecontroleerde kandidaat-pools of alleen uitvoerbare taakquery's, waardoor realistische scenario's voor agentenzoekopdrachten onvoldoende worden bestudeerd. Wij introduceren AgentSearchBench, een grootschalige benchmark voor het zoeken naar agenten in de praktijk, opgebouwd uit bijna 10.000 real-world agenten van meerdere aanbieders. De benchmark formaliseert het zoeken naar agenten als retrieval- en reranking-problemen onder zowel uitvoerbare taakquery's als hoog-niveau taakbeschrijvingen, en evalueert relevantie met behulp van op uitvoering gegronde prestatiesignalen. Experimenten tonen een consistente kloof aan tussen semantische gelijkenis en werkelijke agentprestaties, wat de beperkingen blootlegt van op beschrijving gebaseerde retrieval- en reranking-methoden. We tonen verder aan dat lichtgewicht gedragssignalen, inclusief execution-aware probing, de rankingkwaliteit aanzienlijk kunnen verbeteren, wat het belang benadrukt van het incorporeren van uitvoeringssignalen in agentdiscovery. Onze code is beschikbaar op https://github.com/Bingo-W/AgentSearchBench.
De overgang van stateless inference door taalmodelen naar persistente, autonome agents met meerdere sessies heeft geheugen onthuld als een primair architectonisch knelpunt bij de implementatie van productieklasse agent-systemen. Bestaande methodologieën zijn grotendeels afhankelijk van hybride semantische grafiekarchitecturen, die een aanzienlijke rekenkostenoverhead met zich meebrengen tijdens zowel opname als retrieval. Deze systemen vereisen typisch door grote taalmodelen bemiddelde entiteitsextractie, expliciet onderhoud van grafiekschema's en multi-query retrieval-pipelines. Dit artikel introduceert Memanto, een universele geheugenlaag voor agent-gebaseerde kunstmatige intelligentie, die de heersende aanname uitdaagt dat complexiteit van kennisgrafieken noodzakelijk is om hoogfideliteit agentgeheugen te bereiken. Memanto integreert een getypeerd semantisch geheugenschema bestaande uit dertien vooraf gedefinieerde geheugencategorieën, een automatisch conflictoplossingsmechanisme en temporele versionering. Deze componenten worden mogelijk gemaakt door Moorcheh's Information Theoretic Search engine, een semantische database zonder indexering die deterministische retrieval biedt met een latentie van minder dan negentig milliseconden en daarbij opnamevertraging elimineert. Door middel van systematische benchmarking op de LongMemEval- en LoCoMo-evaluatiesuites behaalt Memanto state-of-the-art nauwkeurigheidsscores van respectievelijk 89,8 procent en 87,1 procent. Deze resultaten overtreffen alle geëvalueerde hybride op grafieken en vectoren gebaseerde systemen, terwijl slechts één retrieval-query nodig is, zonder opnamekosten en met een aanzienlijk lagere operationele complexiteit. Een vijftraps progressieve ablatiestudie wordt gepresenteerd om de bijdrage van elke architecturale component te kwantificeren, gevolgd door een bespreking van de implicaties voor schaalbare implementatie van agent-geheugensystemen.
Het moderne sequentiemodelleren wordt gedomineerd door twee families: Transformers, waarvan de zelf-attentie toegang heeft tot willekeurige elementen van de zichtbare sequentie, en gestructureerde toestandsruimtemodellen, die informatie propageren via een expliciete recurrente toestand. Deze mechanismen kennen verschillende beperkingen in lange contexten: wanneer de aandacht diffuus is, wordt de invloed van individuele tokens verdund over het effectieve draagvlak, terwijl recurrente toestandspropagatie gevoeligheid voor lange afstand kan verliezen tenzij informatie actief wordt bewaard. Hierdoor hebben beide mechanismen uitdagingen bij het behouden en selectief ophalen van informatie over lange contexten. Wij stellen Sessa voor, een decoder die aandacht plaatst binnen een recurrente terugkoppelingslus. Dit creëert vele op aandacht gebaseerde paden waarlangs eerdere tokens toekomstige toestanden kunnen beïnvloeden, in plaats van te vertrouwen op een enkele aandacht-leesoperatie of een enkele recurrente keten. Wij bewijzen dat, onder expliciete aannames en in overeenkomstige regimes, Sessa geheugenstaarten met een machtswet O(ℓ^{-β}) toelaat voor 0 < β < 1, met een langzamer verval dan in de corresponderende Transformer- en Mamba-stijl baseline-modellen. Wij geven verder een expliciete constructie die deze machtswetsnelheid bereikt. Onder dezelfde aannames is Sessa de enige modelklasse van de beschouwde klassen die flexibele selectieve retrieval realiseert, inclusief profielen waarvan de invloed niet afneemt met de afstand. In overeenstemming met dit theoretische voordeel, behaalt Sessa in overeenkomstige experimenten de sterkste prestaties op lange-context benchmarks, terwijl het competitief blijft met Transformer- en Mamba-stijl basismodellen bij taalmodellering met korte context.
Vision-Language-Action-modellen (VLA's) erven hun visuele en linguïstische capaciteiten van Vision-Language-modellen (VLM's), maar de meeste VLA's worden gebouwd met standaard VLM's die niet zijn aangepast aan het embodied domein, wat hun prestaties downstream beperkt. In dit werk stellen we EmbodiedMidtrain voor om de kloof tussen VLM's en VLA's te overbruggen. We karakteriseren eerst de kloof in de dataverdeling tussen beide, waarbij we aantonen dat VLA-data compacte regio's innemen die grotendeels gescheiden zijn van de bredere VLM-verdeling, terwijl de mate van alignering aanzienlijk varieert, zowel tussen als binnen VLM-databronnen. Vervolgens bouwen we een mid-training data-engine die gebruikmaakt van een lichtgewicht, leerbare proximity estimator om de meest VLA-gelignede kandidaten te selecteren uit een grote VLM-pool, en mid-traint de VLM op deze gecureerde mix voordat downstream VLA-finetuning plaatsvindt. Experimenten op drie robotmanipulatiebenchmarks tonen aan dat mid-training consequent de prestaties verbetert over verschillende VLM-backbones heen, met resultaten die competitief zijn met gespecialiseerde VLA's en standaard VLM's die zijn getraind met grotere modelschalen en trainingsbudgetten. Verdere analyse onthult dat mid-training een sterkere initialisatie biedt voor VLA-finetuning, waarbij de winst al vanaf de eerste trainingsstappen ontstaat en gedurende de training toeneemt. Bovendien vangt de data-engine zowel dataset- als voorbeeldniveau-aligneringssignalen op, met een voorkeur voor ruimtelijk redeneren boven tekstgecentreerde taken, terwijl de diversiteit van de VLM-data behouden blijft. We zullen alle code, data en modellen vrijgeven voor toekomstig onderzoek.
Het evalueren van robotica-beleid over duizenden omgevingen en duizenden taken is met bestaande benaderingen onhaalbaar. Dit onderstreept de noodzaak van een nieuwe methodologie voor schaalbare evaluatie van robotica-beleid. In dit artikel stellen we dWorldEval voor, dat een discreet diffuus wereldmodel gebruikt als schaalbare evaluatieproxy voor robotica-beleid. Concreet wijst dWorldEval alle modaliteiten - inclusief visie, taal en robotacties - toe aan een uniforme tokenruimte en modelleert ze via een enkele op transformers gebaseerde denoiseringsmodule. Op deze architectuur voortbordurend, gebruiken we een spaarzaam keyframe-geheugen om spatiotemporele consistentie te waarborgen. We introduceren ook een voortgangstoken dat de mate van taakvoltooiing aangeeft. Tijdens inferentie voorspelt het model gezamenlijk toekomstige observaties en het voortgangstoken, waardoor automatisch succes kan worden bepaald wanneer de voortgang 1 bereikt. Uitgebreide experimenten tonen aan dat dWorldEval aanzienlijk beter presteert dan eerdere benaderingen, zoals WorldEval, Ctrl-World en WorldGym, op LIBERO, RoboTwin en meerdere taken met echte robots. Het baant de weg voor een nieuw architecturaal paradigma in het bouwen van wereldsimulators voor grootschalige robotica-evaluatie.
Grote Taalmodellen (LLM's) kunnen goed redeneren, maar missen vaak doorslaggevend bewijsmateriaal wanneer dit begraven ligt in lange, ruisrijke contexten. Wij introduceren HiLight, een *Evidence Emphasis* raamwerk dat bewijsselectie ontkoppelt van redeneren voor bevroren LLM-oplossers. HiLight vermijdt het comprimeren of herschrijven van de invoer, wat bewijs kan verwijderen of vervormen, door een lichtgewicht *Emphasis Actor* te trainen om minimale markeringstags in te voegen rond cruciale passages in de ongewijzigde context. Een bevroren *Solver* voert vervolgens downstream-redenering uit op de benadrukte invoer. Wij formuleren markeren als een zwak gesuperviseerd besluitvormingsprobleem en optimaliseren de Actor met reinforcement learning door alleen de taakbeloning van de Solver te gebruiken, zonder bewijslabels en zonder toegang tot of aanpassing van de Solver. Bij sequentiële aanbeveling en vraagbeantwoording in lange contexten verbetert HiLight consistent de prestaties ten opzichte van sterke op prompts gebaseerde en geautomatiseerde prompt-optimalisatie-baselines. Het geleerde benadrukingsbeleid transfereert *zero-shot* naar zowel kleinere als grotere onzichtbare Solver-families, inclusief een op API gebaseerde Solver, wat suggereert dat de Actor authentieke, herbruikbare bewijsstructuur vastlegt in plaats van overfitting te vertonen naar een enkele backbone.
Dit artikel introduceert AgriIR, een configureerbaar retrieval-augmented generation (RAG)-raamwerk dat is ontworpen om gegronde, domeinspecifieke antwoorden te leveren met behoud van flexibiliteit en lage rekenkosten. In plaats van te vertrouwen op grote, monolithische modellen, deconstrueert AgriIR het informatieverkrijgingsproces in declaratieve modulaire fasen: queryverfijning, subqueryplanning, retrieval, synthese en evaluatie. Dit ontwerp stelt gebruikers in staat het raamwerk aan te passen aan nieuwe kennisdomeinen zonder de architectuur te wijzigen. Onze referentie-implementatie richt zich op toegang tot landbouwinformatie in India en integreert taalmodelen van 1 miljard parameters met adaptieve retrievers en domeinbewuste agentcatalogi. Het systeem handhaaft deterministische bronverwijzingen, integreert telemetrie voor transparantie en omvat geautomatiseerde implementatiemiddelen om controleerbare, reproduceerbare werking te garanderen. Door de nadruk te leggen op architectonisch ontwerp en modulaire controle, toont AgriIR aan dat goed ontworgen pijplijnen domeinaccurate, betrouwbare retrieval kunnen bereiken, zelfs met beperkte middelen. Wij beargumenteren dat deze aanpak "AI voor Landbouw" belichaamt door toegankelijkheid, duurzaamheid en verantwoordingsplicht in retrieval-augmented generation-systemen te bevorderen.
Recente vooruitgang in autonome "AI-wetenschapper"-systemen heeft het vermogen aangetoond om automatisch wetenschappelijke manuscripten en uitvoerbare code te schrijven. Het produceren van een publicatiewaardig wetenschappelijk diagram (bijvoorbeeld een teaser-figuur) vormt echter nog steeds een grote bottleneck in het "end-to-end" papiergeneratieproces. Een teaser-figuur fungeert bijvoorbeeld als een strategische visuele interface en heeft een ander doel dan afgeleide dataplots. Het vereist conceptuele synthese en planning om complexe logische workflows om te zetten in een pakkende afbeelding die de intuïtie leidt en nieuwsgierigheid opwekt. Bestaande AI-wetenschappersystemen laten deze component meestal weg of nemen hun toevlucht tot een inferieur alternatief. Om deze kloof te overbruggen, presenteren we DiagramBank, een grootschalige dataset bestaande uit 89.422 schematische diagrammen, gecureerd uit bestaande wetenschappelijke publicaties van topkwaliteit, en ontworpen voor multimodale retrievals en voorbeeldgedreven generatie van wetenschappelijke figuren. DiagramBank is ontwikkeld via onze geautomatiseerde curation-pipeline die figuren en bijbehorende in-tekstverwijzingen extraheert, en een CLIP-gebaseerd filter gebruikt om schematische diagrammen te onderscheiden van standaard grafieken of natuurlijke afbeeldingen. Elk exemplaar is gekoppeld aan rijke context, van abstract en bijschrift tot figuur-referentieparen, wat informatie-retrieval onder verschillende query-granulariteiten mogelijk maakt. We publiceren DiagramBank in een klaar-voor-indexering-formaat en bieden een codebase voor retrieval-augmented generation om voorbeeld-geconditioneerde synthese van teaser-figuren te demonstreren. DiagramBank is publiekelijk beschikbaar op https://huggingface.co/datasets/zhangt20/DiagramBank met code op https://github.com/csml-rpi/DiagramBank.
Naarmate redeneervermogen en inzetbereik gelijktijdig toenemen, krijgen grote taalmodellen (LLM's) de capaciteit om gedrag te vertonen dat hun eigen doelstellingen dient, een klasse van risico's die we Emergente Strategische Redeneerrisico's (ESRR's) noemen. Deze omvatten, maar zijn niet beperkt tot, misleiding (opzettelijk gebruikers of evaluatoren fout informeren), evaluatiemanipulatie (strategisch manipuleren van prestaties tijdens veiligheidstesten) en reward hacking (het misbruiken van onjuist gespecificeerde doelstellingen). Het systematisch begrijpen en benchmarken van deze risico's blijft een open uitdaging. Om deze leemte aan te pakken, introduceren we ESRRSim, een taxonomie-gestuurd agent-gebaseerd raamwerk voor geautomatiseerde gedragsrisicobeoordeling. We construeren een uitbreidbare risicotaxonomie van 7 categorieën, die wordt onderverdeeld in 20 subcategorieën. ESRRSim genereert evaluatiescenario's ontworpen om waarheidsgetrouw redeneren op te roepen, gekoppeld aan een dubbele beoordelingsmatrix die zowel modelresponsen als redeneersporen beoordeelt, in een schaalbare architectuur die onafhankelijk is van de beoordelaar. Evaluatie van 11 redenerende LLM's toont aanzienlijke variatie in risicoprofielen (detectiepercentages variërend van 14,45% tot 72,72%), waarbij dramatische generationele verbeteringen suggereren dat modellen evaluatiecontexten mogelijk in toenemende mate herkennen en zich eraan aanpassen.