Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren TurboDiffusion, een raamwerk voor versnelde videogeneratie dat de end-to-end diffusiegeneratie 100-200x kan versnellen zonder verlies van videokwaliteit. TurboDiffusion steunt voornamelijk op verschillende componenten voor versnelling: (1) *Attention*-versnelling: TurboDiffusion gebruikt *low-bit* SageAttention en trainbare *Sparse-Linear Attention* (SLA) om de *attention*-berekening te versnellen. (2) Stapdistillatie: TurboDiffusion past rCM toe voor efficiënte stapdistillatie. (3) W8A8-kwantisering: TurboDiffusion kwantiseert modelparameters en activaties naar 8 bits om lineaire lagen te versnellen en het model te comprimeren. Daarnaast bevat TurboDiffusion diverse andere technische optimalisaties. Wij voeren experimenten uit op de Wan2.2-I2V-14B-720P, Wan2.1-T2V-1.3B-480P, Wan2.1-T2V-14B-720P en Wan2.1-T2V-14B-480P modellen. Experimentele resultaten tonen aan dat TurboDiffusion een 100-200x versnelling bereikt voor videogeneratie, zelfs op een enkele RTX 5090 GPU, terwijl een vergelijkbare videokwaliteit behouden blijft. De GitHub-repository, die modelcheckpoints en gebruiksvriendelijke code bevat, is beschikbaar op https://github.com/thu-ml/TurboDiffusion.
Vision-language models (VLM) blinken uit in algemeen begrip, maar presteren nog steeds zwak op het gebied van dynamisch ruimtelijk redeneren (DSR), oftewel het redeneren over de evolutie van objectgeometrie en -relaties in een 3D-ruimte over tijd. Dit komt grotendeels door het gebrek aan schaalbare 4D-bewuste trainingsbronnen. Om deze kloof te overbruggen op het gebied van dataset, benchmark en model, introduceren we DSR Suite. Ten eerste stellen we een geautomatiseerde pijplijn voor die meerkeuzevraag-antwoordparen genereert uit in-the-wild video's voor DSR. Door gebruik te maken van moderne vision foundation models, extraheert de pijplijn rijke geometrische en bewegingsinformatie, waaronder cameraposities, lokale point clouds, objectmaskers, oriëntaties en 3D-trajecten. Deze geometrische aanwijzingen maken de constructie mogelijk van DSR-Train voor leren en het verder door mensen verfijnde DSR-Bench voor evaluatie. In vergelijking met eerdere werken benadrukken onze gegevens (i) in-the-wild videobronnen, (ii) object- en scèneniveau 3D-vereisten, (iii) viewpointtransformaties, (iv) multi-objectinteracties en (v) fijnmazige, procedurele antwoorden. Naast gegevens stellen we een lichtgewicht Geometry Selection Module (GSM) voor om geometrische priors naadloos te integreren in VLMs. Deze module condenseert de vraag semantiek en extraheert vraagrelevante kennis uit voorgetrainde 4D-reconstructiepriors naar een compacte set geometrietokens. Deze gerichte extractie voorkomt dat het model overweldigd wordt met irrelevante kennis. Experimenten tonen aan dat de integratie van DSR-Train en GSM in Qwen2.5-VL-7B de dynamische ruimtelijke redeneercapaciteit aanzienlijk verbetert, terwijl de nauwkeurigheid op algemene videobegripbenchmarks behouden blijft.
Text-to-Audio-Video (T2AV)-generatie heeft als doel om temporeel coherente video en semantisch gesynchroniseerde audio te synthetiseren vanuit natuurlijke taal, maar de evaluatie ervan blijft gefragmenteerd, vaak steunend op unimodale metrieken of nauw gedefinieerde benchmarks die geen rekening houden met cross-modale alignering, instructievolging en perceptueel realisme onder complexe prompts. Om deze beperking aan te pakken, presenteren wij T2AV-Compass, een uniforme benchmark voor uitgebreide evaluatie van T2AV-systemen, bestaande uit 500 diverse en complexe prompts die zijn geconstrueerd via een taxonomie-gestuurde pijplijn om semantische rijkdom en fysieke plausibiliteit te waarborgen. Daarnaast introduceert T2AV-Compass een dual-level evaluatieraamwerk dat objectieve signaalniveau-metrieken integreert voor videokwaliteit, audiokwaliteit en cross-modale alignering, met een subjectief MLLM-as-a-Judge-protocol voor het beoordelen van instructievolging en realisme. Uitgebreide evaluatie van 11 representatieve T2AV-systemen toont aan dat zelfs de sterkste modellen aanzienlijk tekortschieten ten opzichte van menselijk realisme en cross-modale consistentie, met aanhoudende tekortkomingen in audiorealisme, fijnmazige synchronisatie, instructievolging, enz. Deze resultaten duiden op significante verbeteringsmogelijkheden voor toekomstige modellen en benadrukken de waarde van T2AV-Compass als een uitdagende en diagnostische testomgeving voor het bevorderen van tekst-naar-audio-video-generatie.
De "one-shot"-techniek vertegenwoordigt een onderscheidende en verfijnde esthetiek in filmmaken. De praktische realisatie ervan wordt echter vaak belemmerd door torenhoge kosten en complexe beperkingen in de echte wereld. Hoewel opkomende videogeneratiemodellen een virtueel alternatief bieden, zijn bestaande benaderingen doorgaans gebaseerd op naïeve clipconcatenatie, wat vaak faalt om visuele vlotheid en temporele coherentie te behouden. In dit artikel introduceren we DreaMontage, een uitgebreid raamwerk ontworpen voor willekeurige frame-gestuurde generatie, dat in staat is naadloze, expressieve en langdurige one-shot video's te synthetiseren vanuit diverse door de gebruiker verstrekte inputs. Om dit te bereiken, pakken we de uitdaging aan via drie primaire dimensies. (i) We integreren een lichtgewicht intermediate-conditioning-mechanisme in de DiT-architectuur. Door gebruik te maken van een Adaptive Tuning-strategie die effectief gebruikmaakt van basis-trainingsdata, ontsluiten we robuuste mogelijkheden voor willekeurige frame-controle. (ii) Om de visuele kwaliteit en cinematografische expressiviteit te verbeteren, stellen we een hoogwaardige dataset samen en implementeren we een Visual Expression SFT-fase. Bij het aanpakken van kritieke kwesties zoals de rationaliteit van subjectbeweging en overgangsvlotheid, passen we een Tailored DPO-schema toe, wat het slagingspercentage en de bruikbaarheid van de gegenereerde inhoud aanzienlijk verbetert. (iii) Om de productie van uitgebreide sequenties te vergemakkelijken, ontwerpen we een Segment-wise Auto-Regressive (SAR)-inferentiestrategie die op een geheugenefficiënte manier opereert. Uitgebreide experimenten tonen aan dat onze aanpak visueel opvallende en naadloos coherente one-shot effecten bereikt, terwijl de rekenkundige efficiëntie behouden blijft, waardoor gebruikers in staat worden gesteld om gefragmenteerd visueel materiaal om te zetten in levendige, samenhangende one-shot cinematografische ervaringen.
Wij leggen een significante populariteitsbias bloot in state-of-the-art vision-language modellen (VLM's). Deze modellen behalen tot 34% hogere nauwkeurigheid op foto's van beroemde gebouwen in vergelijking met gewone gebouwen, wat duidt op een afhankelijkheid van memorisatie in plaats van algemeen toepasbaar begrip. Om dit systematisch te onderzoeken, introduceren we de grootste open benchmark voor deze taak: de YearGuessr-dataset. Deze dataset bestaat uit 55.546 afbeeldingen van gebouwen uit 157 landen, voorzien van multi-modale attributen, continue ordinale labels voor hun bouwjaar (1001-2024), GPS-gegevens en paginaweergaves als indicator voor populariteit. Met behulp van deze dataset formuleren we de taak van bouwjaarvoorspelling als ordinale regressie en introduceren we populariteitsgevoelige intervalnauwkeurigheidsmetingen om deze bias te kwantificeren. Onze resulterende benchmark van meer dan 30 modellen, inclusief ons YearCLIP-model, bevestigt dat VLM's uitblinken bij populaire, gememoriseerde items maar significant worstelen met onherkende onderwerpen. Dit legt een kritieke tekortkoming in hun redeneervermogen bloot. Projectpagina: https://sytwu.github.io/BeyondMemo/
Wij presenteren Nemotron 3 Nano 30B-A3B, een Mixture-of-Experts hybride Mamba-Transformer taalmodel. Nemotron 3 Nano is voorgetraind op 25 biljoen tekst tokens, inclusief meer dan 3 biljoen nieuwe unieke tokens ten opzichte van Nemotron 2, gevolgd door supervised fine-tuning en RL op grote schaal in diverse omgevingen. Nemotron 3 Nano behaalt een betere nauwkeurigheid dan onze vorige generatie Nemotron 2 Nano, terwijl er per forward pass minder dan de helft van de parameters wordt geactiveerd. Het behaalt tot 3,3x hogere inferentie-doorvoer dan vergelijkbaar grote open modellen zoals GPT-OSS-20B en Qwen3-30B-A3B-Thinking-2507, en is tegelijkertijd nauwkeuriger op populaire benchmarks. Nemotron 3 Nano demonstreert verbeterde agent-, redeneer- en chatvaardigheden en ondersteunt contextlengtes tot 1 miljoen tokens. Wij publiceren zowel onze voorgetrainde Nemotron 3 Nano 30B-A3B Base- als nagetrainde Nemotron 3 Nano 30B-A3B checkpoints op Hugging Face.
Hoogresolutie videogeneratie, hoewel cruciaal voor digitale media en film, wordt computationeel beperkt door de kwadratische complexiteit van diffusiemodellen, wat praktische inferentie onhaalbaar maakt. Om dit aan te pakken, introduceren we HiStream, een efficiënt autoregressief raamwerk dat redundantie systematisch reduceert langs drie assen: i) Ruimtelijke compressie: denoising op lage resolutie gevolgd door verfijning op hoge resolutie met gecachete features; ii) Temporele compressie: een chunk-voor-chunk strategie met een cache van vaste grootte voor ankers, wat een stabiele inferentiesnelheid garandeert; en iii) Timestep-compressie: het toepassen van minder denoising-stappen op opeenvolgende, door de cache geconditioneerde chunks. Op 1080p benchmarks behaalt ons primaire HiStream-model (i+ii) state-of-the-art visuele kwaliteit en demonstreert het tot 76,2x snellere denoising vergeleken met de Wan2.1-basislijn, met verwaarloosbaar kwaliteitsverlies. Onze snellere variant, HiStream+, past alle drie optimalisaties toe (i+ii+iii), bereikt een 107,5x versnelling ten opzichte van de basislijn en biedt een overtuigende wisselwerking tussen snelheid en kwaliteit, waardoor hoogresolutie videogeneratie zowel praktisch als schaalbaar wordt.
Wij introduceren de Nemotron 3-familie van modellen - Nano, Super en Ultra. Deze modellen bieden sterke agent-, redeneer- en conversatiecapaciteiten. De Nemotron 3-familie gebruikt een Mixture-of-Experts hybride Mamba-Transformer architectuur om een ongeëvenaarde doorvoersnelheid en contextlengtes van tot 1 miljoen tokens te bieden. Super- en Ultra-modellen zijn getraind met NVFP4 en bevatten LatentMoE, een nieuwe aanpak die de modelkwaliteit verbetert. De twee grotere modellen bevatten ook MTP-lagen voor snellere tekstgeneratie. Alle Nemotron 3-modellen zijn na-training ondergaan met multi-omgeving reinforcement learning, wat redeneren, multi-step toolgebruik mogelijk maakt en granulair budgetbeheer voor redeneren ondersteunt. Nano, het kleinste model, overtreft vergelijkbare modellen in nauwkeurigheid en blijft uiterst kostenefficiënt voor inferentie. Super is geoptimaliseerd voor collaboratieve agents en grootschalige workloads zoals IT-ticketautomatisering. Ultra, het grootste model, biedt state-of-the-art nauwkeurigheid en redeneerprestaties. Nano wordt vrijgegeven samen met zijn technisch rapport en dit witboek, terwijl Super en Ultra in de komende maanden zullen volgen. Wij zullen de modelgewichten, software voor pre- en post-training, recepten en alle data waarover wij redistributierechten hebben, openbaar vrijgeven.
Tokenizers vormen de fundamentele basis waarmee tekst wordt gerepresenteerd en verwerkt door taalmodel(len (LM's). Ondanks het belang van tokenisatie is de rol ervan in de prestaties en het gedrag van LM's slecht begrepen, vanwege de uitdaging om de impact van tokenisatie geïsoleerd te meten. Om in deze behoefte te voorzien, presenteren wij TokSuite, een verzameling modellen en een benchmark die onderzoek ondersteunt naar de invloed van tokenisatie op LM's. Concreet trainen wij veertien modellen die verschillende tokenizers gebruiken maar verder identiek zijn, met dezelfde architectuur, dataset, trainingsbudget en initialisatie. Daarnaast stellen wij een nieuwe benchmark samen en maken deze openbaar, die specifiek de modelprestaties meet onder invloed van real-world verstoringen die waarschijnlijk van invloed zijn op de tokenisatie. Samen stelt TokSuite ons in staat om de invloed van de tokenizer van een model robuust te ontkoppelen, wat een reeks nieuwe bevindingen ondersteunt die de respectieve voordelen en tekortkomingen van een breed scala aan populaire tokenizers ophelderen.
Agentische reinforcement learning maakt in toenemende mate gebruik van ervaringsgedreven schaalvergroting, maar real-world omgevingen blijven niet-adaptief, beperkt in dekking en moeilijk op te schalen. Wereldmodellen bieden een potentiële manier om de leer efficiëntie te verbeteren door middel van gesimuleerde ervaring, maar het is onduidelijk of grote taalmodellen deze rol betrouwbaar kunnen vervullen en onder welke voorwaarden zij agenten zinvol ondersteunen. Wij bestuderen deze vragen in op tekst gebaseerde omgevingen, die een gecontroleerde setting bieden om taalmodellering te herinterpreteren als volgende-toestand-voorspelling onder interactie. Wij introduceren een drieniveau-raamwerk voor de evaluatie van op LLM gebaseerde wereldmodellen: (i) nauwkeurigheid en consistentie, (ii) schaalbaarheid en robuustheid, en (iii) agentnut. In vijf representatieve omgevingen constateren wij dat voldoende getrainde wereldmodellen coherente latente toestand behouden, voorspelbaar schalen met data en modelgrootte, en agentprestaties verbeteren via actieverificatie, generatie van synthetische trajecten en warm starten van reinforcement learning. Tegelijkertijd zijn deze winsten kritisch afhankelijk van gedragsdekking en omgevingscomplexiteit, wat een duidelijke grens afbakent voor wanneer wereldmodellering agentleren effectief ondersteunt.
Recente vooruitgang in het vooraf trainen van algemene foundation-modellen heeft de prestaties aanzienlijk verbeterd voor uiteenlopende downstreamtaken. Hoewel autoregressieve (AR) generatieve modellen zoals GPT een revolutie teweeg hebben gebracht in de NLP, blijven de meeste methoden voor visueel generatief vooraf trainen vertrouwen op BERT-geïnspireerde gemaskeerde modellering, waarbij de voor video-analyse essentiële temporele informatie vaak wordt verwaarloosd. De weinige bestaande autoregressieve methoden voor visueel vooraf trainen kampen met problemen zoals onnauwkeurige semantische lokalisatie en slechte generatiekwaliteit, wat leidt tot zwakke semantiek. In dit werk stellen we NExT-Vid voor, een nieuw autoregressief raamwerk voor visueel generatief vooraf trainen dat gemaskeerde volgende-frame-voorspelling gebruikt om afbeeldingen en video's gezamenlijk te modelleren. NExT-Vid introduceert een context-geïsoleerde autoregressieve predictor om semantische representatie te ontkoppelen van targetdecodering, en een geconditioneerde flow-matching-decoder om de generatiekwaliteit en -diversiteit te verbeteren. Door context-geïsoleerde flow-matching-pretraining bereikt onze aanpak sterke representaties. Uitgebreide experimenten met grootschalige voorgetrainde modellen tonen aan dat onze voorgestelde methode consistent beter presteert dan eerdere generatieve pretrainingsmethoden voor visuele representatieleren via aandachtige probing in downstreamclassificatie.
Wij presenteren Streamo, een real-time streaming video LLM die functioneert als een algemeen inzetbare, interactieve assistent. In tegenstelling tot bestaande online videomodellen die zich beperken tot vraag-antwoordtaken of ondertiteling, voert Streamo een breed scala aan streamingvideotaken uit, waaronder real-time narratie, actiebegrip, gebeurtenisondertiteling, temporele gebeurtenislokalisatie en tijdgevoelige vraagbeantwoording. Om deze veelzijdigheid te ontwikkelen, hebben wij Streamo-Instruct-465K geconstrueerd, een grootschalige instructievolgend dataset toegesneden op streamingvideobegrip. De dataset bestrijkt diverse temporele contexten en multi-task supervisie, wat uniforme training over heterogene streamingtaken mogelijk maakt. Na end-to-end training op de instructievolgende dataset via een gestroomlijnde pijplijn, toont Streamo sterk temporeel redeneervermogen, responsieve interactie en brede generalisatie over diverse streamingbenchmarks. Uitgebreide experimenten tonen aan dat Streamo de kloof overbrugt tussen offline videoperceptiemodellen en real-time multimodale assistenten, en zo een stap zet naar uniforme, intelligente videobegrip in continue videostreams.
Retrieval-Augmented Generation (RAG) is naar voren gekomen als een krachtig paradigma waarmee Large Language Models (LLM's) kennisintensieve vragen kunnen aanpakken die domeinspecifieke of actuele informatie vereisen. Om complexe multi-hop vragen te verwerken die uitdagend zijn voor enkelstaps-retrieval, zijn iteratieve RAG-benaderingen voorgesteld die reinforcement learning incorporeren. Echter, bestaande iteratieve RAG-systemen plannen typisch de decompositie van vragen zonder gebruik te maken van informatie over het beschikbare retrieval-corpus, wat leidt tot inefficiënte retrieval en redeneerketens die cascaderen naar suboptimale prestaties. In dit artikel introduceren we Early Knowledge Alignment (EKA), een eenvoudige maar effectieve module die LLM's afstemt met de retrievalset vóór de planning in iteratieve RAG-systemen, gebruikmakend van contextueel relevante opgehaalde kennis. Uitgebreide experimenten op zes standaard RAG-datasets tonen aan dat EKA, door een stevigere redeneerbasis te leggen, de retrievalnauwkeurigheid significant verbetert, cascade-fouten reduceert en zowel de prestaties als efficiëntie verhoogt. Onze analyse vanuit een entropieperspectief toont aan dat het incorporeren van vroege kennis onnodige exploratie tijdens het redeneerproces vermindert, waardoor het model effectiever op relevante informatie-subset kan focussen. Bovendien blijkt EKA effectief als een veelzijdige, trainingsvrije inferentiestrategie die naadloos schaalt naar grote modellen. Generalisatietesten over diverse datasets en retrieval-corpora bevestigen de robuustheid van onze aanpak. Al metelkaar bevordert EKA de state-of-the-art in iteratieve RAG-systemen en werpt het licht op het kritieke samenspel tussen gestructureerd redeneren en efficiënte exploratie in reinforcement learning-versterkte frameworks. De code is vrijgegeven op https://github.com/yxzwang/EarlyKnowledgeAlignment{Github}.
Bestaande benchmarks voor AI-codeeragents richten zich op geïsoleerde, enkelvoudige taken zoals het repareren van een bug of het implementeren van een kleine functie. Echter, software-engineering in de praktijk is in wezen een langetermijninspanning: ontwikkelaars moeten hoogwaardige vereisten interpreteren, gecoördineerde wijzigingen over vele bestanden plannen, en codebasissen over meerdere iteraties heen ontwikkelen, terwijl bestaande functionaliteit behouden blijft. Wij introduceren SWE-EVO, een benchmark die agents evalueert op deze langetermijnuitdaging van software-evolutie. Geconstrueerd uit release notes en versiegeschiedenissen van zeven volwassen open-source Python-projecten, omvat de benchmark 48 evolutietaken die van agents vereisen om meerstapswijzigingen te implementeren die gemiddeld 21 bestanden beslaan, gevalideerd tegen uitgebreide testsuites met gemiddeld 874 tests per instantie. Experimenten met state-of-the-art modellen onthullen een opvallende capaciteitskloof: zelfs GPT-5 met OpenHands behaalt slechts een slagingspercentage van 21 procent op de benchmark, vergeleken met 65 procent op de enkelvoudige SWE-Bench Verified. Dit toont aan dat huidige agents moeite hebben met aanhoudende, multi-bestands redenering. Wij stellen ook Fix Rate voor, een fijnmazige metriek die gedeeltelijke vooruitgang vastlegt bij het oplossen van deze complexe, langetermijntaken.
In dit werk introduceren we PhononBench, de eerste grootschalige benchmark voor dynamische stabiliteit in door AI gegenereerde kristallen. Door gebruik te maken van het recent ontwikkelde MatterSim interatomair potentieel, dat DFT-nauwkeurigheid bereikt in fononvoorspellingen voor meer dan 10.000 materialen, maakt PhononBench efficiënte grootschalige fononberekeningen en dynamische-stabiliteitsanalyse mogelijk voor 108.843 kristalstructuren gegenereerd door zes toonaangevende kristalgeneratiemodellen. PhononBench onthult een wijdverbreide beperking van huidige generatieve modellen in het waarborgen van dynamische stabiliteit: het gemiddelde dynamische-stabiliteitspercentage over alle gegenereerde structuren is slechts 25,83%, waarbij het best presterende model, MatterGen, slechts 41,0% bereikt. Verdere casestudies tonen aan dat bij eigenschap-gerichte generatie – hier geïllustreerd door bandkapsconditionering met MatterGen – het dynamische-stabiliteitspercentage zelfs bij de optimale bandkapsconditie van 0,5 eV zo laag blijft als 23,5%. Bij ruimtegroep-gestuurde generatie vertonen kristallen met hogere symmetrie betere stabiliteit (bijvoorbeeld kubische systemen behalen percentages tot 49,2%), maar de gemiddelde stabiliteit over alle gestuurde generaties is nog steeds slechts 34,4%. Een belangrijk additioneel resultaat van deze studie is de identificatie van 28.119 kristalstructuren die fononstabiel zijn over de gehele Brillouinzone, wat een aanzienlijke pool van betrouwbare kandidaten biedt voor toekomstige materiaalverkenning. Door de eerste grootschalige dynamische-stabiliteitsbenchmark vast te stellen, benadrukt dit werk systematisch de huidige beperkingen van kristalgeneratiemodellen en biedt het essentiële evaluatiecriteria en richtlijnen voor hun toekomstige ontwikkeling richting het ontwerp en de ontdekking van fysisch haalbare materialen. Alle modelgegenereerde kristalstructuren, fononberekeningsresultaten en de high-throughput evaluatieworkflows ontwikkeld in PhononBench zullen openbaar worden vrijgegeven op https://github.com/xqh19970407/PhononBench.
De snelle proliferatie van Large Language Models (LLM's) en diverse gespecialiseerde benchmarks vereist een verschuiving van gefragmenteerde, taakspecifieke metrieken naar een holistisch, competitief rankingsysteem dat prestaties effectief aggregeert over meerdere vaardigheidsdimensies. Huidige evaluatiemethoden, die voornamelijk statische scoring gebruiken, zijn fundamenteel beperkt. Ze worstelen met het bepalen van de juiste mixverhouding over diverse benchmarks en, cruciaal, ze slagen er niet in om de dynamische competitieve fitheid van een model of de kwetsbaarheid daarvan bij opeenvolgende, hoogrisicotaken vast te leggen. Om dit aan te pakken, introduceren we het nieuwe Competitive Swiss-System Dynamics (CSD) raamwerk. CSD simuleert een meerronde, sequentiële wedstrijd waarin modellen dynamisch worden gekoppeld over een geselecteerde reeks benchmarks op basis van hun opgebouwde winst-verlies record. Monte Carlo-simulatie (N=100.000 iteraties) wordt gebruikt om de statistisch robuuste Verwachte Win Score (E[S_m]) te benaderen, die de ruis van willekeurige koppeling en geluk in vroege rondes elimineert. Verder implementeren we een Failure Sensitivity Analysis door de eliminatiehoeveelheid per ronde (T_k) te parametriseren, wat ons in staat stelt om modellen te profileren op basis van hun risicobereidheid – en onderscheid te maken tussen robuuste generalisten en agressieve specialisten. We tonen aan dat CSD een meer genuanceerde en contextbewuste ranking biedt dan traditionele aggregate scoring en statische paarsgewijze modellen, wat een cruciale stap vertegenwoordigt naar risicogebaseerde, next-generation LLM-evaluatie.