Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks het succes van versterkend leren voor grote taalmodel(len), is een veelvoorkomende foutmodus een verminderde steekproefdiversiteit, waarbij het beleid herhaaldelijk vergelijkbaar foutief gedrag genereert. Klassieke entropieregularisatie moedigt willekeur aan onder het huidige beleid, maar ontmoedigt niet expliciet terugkerende foutpatronen tussen verschillende rollouts. Wij stellen MEDS voor, een Memory-Enhanced Dynamic reward Shaping-raamwerk dat historische gedragssignalen integreert in de beloningsontwerp. Door tussenliggende modelrepresentaties op te slaan en te benutten, vangen we kenmerken van eerdere rollouts en gebruiken we op dichtheid gebaseerd clusteren om veelvoorkomende foutpatronen te identificeren. Rollouts die toegewezen worden aan frequentere foutclusters worden zwaarder bestraft, wat bredere exploratie aanmoedigt en tegelijkertijd herhaalde fouten vermindert. Over vijf datasets en drie basismodellen heen verbetert MEDS consistent de gemiddelde prestaties ten opzichte van bestaande basislijnen, met winsten tot 4,13 pass@1-punten en 4,37 pass@128-punten. Aanvullende analyses met zowel op taalmodel(len) gebaseerde annotaties als kwantitatieve diversiteitsmetrieken tonen aan dat MEDS de gedragsdiversiteit tijdens het bemonsteren verhoogt.
Grote Taalmodellen (LLM's) worden steeds vaker gebruikt voor codegeneratie, maar kwantumcodegeneratie wordt nog grotendeels binnen afzonderlijke raamwerken geëvalueerd, waardoor het moeilijk is om kwantumredenering te scheiden van vertrouwdheid met het raamwerk. Wij introduceren QuanBench+, een uniforme benchmark die Qiskit, PennyLane en Cirq omvat, met 42 uitgelijnde taken die kwantumalgoritmen, poortdecompositie en staatvoorbereiding bestrijken. Wij evalueren modellen met uitvoerbare functionele tests, rapporteren Pass@1 en Pass@5, en gebruiken op KL-divergentie gebaseerde acceptatie voor probabilistische uitvoer. Daarnaast bestuderen we Pass@1 na feedback-gebaseerde reparatie, waarbij een model code kan herzien na een runtime-fout of een verkeerd antwoord. Over de raamwerken heen bereiken de sterkste one-shot-scores 59,5% in Qiskit, 54,8% in Cirq en 42,9% in PennyLane; met feedback-gebaseerde reparatie stijgen de beste scores respectievelijk naar 83,3%, 76,2% en 66,7%. Deze resultaten tonen duidelijke vooruitgang, maar ook dat betrouwbare kwantumcodegeneratie voor meerdere raamwerken onopgelost blijft en nog sterk afhangt van raamwerk-specifieke kennis.
Als fundamentele architectuur van modern machinaal leren hebben Transformers opmerkelijke vooruitgang geboekt in diverse AI-domeinen. Ondanks hun transformerende impact vormt Attention Sink (AS) een hardnekkige uitdaging bij verschillende Transformers, waarbij een onevenredige hoeveelheid aandacht wordt gericht op een kleine subset van specifieke maar niet-informatieve tokens. AS bemoeilijkt de interpreteerbaarheid, beïnvloedt de trainings- en inferentiedynamiek aanzienlijk en verergert problemen zoals hallucinaties. De afgelopen jaren is aanzienlijk onderzoek gewijd aan het begrijpen en benutten van AS. Er ontbreekt echter nog steeds een uitgebreid overzicht dat AS-gerelateerd onderzoek systematisch consolideert en richtlijnen biedt voor toekomstige ontwikkelingen. Om deze leemte op te vullen, presenteren wij de eerste survey over AS, gestructureerd rond drie kernaspecten die het huidige onderzoekslandschap definiëren: Fundamenteel Gebruik, Mechanistische Interpretatie en Strategische Mitigatie. Ons werk levert een cruciale bijdrage door kernconcepten te verduidelijken en onderzoekers te begeleiden door de evolutie en trends van het vakgebied. Wij zien deze survey als een definitieve bron die onderzoekers en praktijkmensen in staat stelt AS effectief te beheren binnen het huidige Transformer-paradigma, terwijl het tegelijkertijd innovatieve vooruitgang inspireert voor de volgende generatie Transformers. De papierenlijst van dit werk is beschikbaar op https://github.com/ZunhaiSu/Awesome-Attention-Sink.
In dit werk bestuderen we Human-Object Interaction Video Generation (HOIVG), wat als doel heeft hoogwaardige video's van mens-objectinteracties te genereren op basis van tekst, referentiebeelden, audio en pose. Deze taak heeft aanzienlijke praktische waarde voor het automatiseren van contentcreatie in real-world toepassingen, zoals e-commerce demonstraties, korte videoproductie en interactief entertainment. Bestaande benaderingen slagen er echter niet in om aan al deze vereiste condities te voldoen. Wij presenteren OmniShow, een end-to-end framework dat is toegesneden op deze praktische maar uitdagende taak, in staat om multimodale condities te harmoniseren en industrie-grade prestaties te leveren. Om de afweging tussen beheersbaarheid en kwaliteit te overwinnen, introduceren we Unified Channel-wise Conditioning voor efficiënte injectie van beelden en poses, en Gated Local-Context Attention om precieze audiovisuele synchronisatie te garanderen. Om data-schaarste effectief aan te pakken, ontwikkelen we een Decoupled-Then-Joint Training strategie die gebruikmaakt van een meerfasig trainingsproces met modelmerging om efficiënt gebruik te maken van heterogene sub-taakdatasets. Verder richten we HOIVG-Bench op, een toegewijd en uitgebreid benchmarkplatform voor HOIVG, om de evaluatielacune in dit veld te vullen. Uitgebreide experimenten tonen aan dat OmniShow over de hele linie state-of-the-art prestaties bereikt in diverse multimodale conditiesettings, waarmee het een solide standaard zet voor de opkomende HOIVG-taak.
Recente vooruitgang in autoregressieve transformatoren heeft een opmerkelijk potentieel getoond voor het genereren van meshes van artistieke kwaliteit. De tokenordestrategieën die door bestaande methoden worden gebruikt, voldoen echter doorgaans niet aan professionele artistieke standaarden: op coördinaten gebaseerde sortering leidt tot inefficiënt lange sequenties, en op patches gebaseerde heuristieken verstoren de continue edge-flow en structurele regelmaat die essentieel zijn voor hoogwaardige modellering. Om deze beperkingen aan te pakken, stellen wij Strips as Tokens (SATO) voor, een nieuw raamwerk met een tokenordestrategie geïnspireerd op driehoekstrips. Door de sequentie op te bouwen als een verbonden keten van vlakken die UV-grenzen expliciet encodeert, behoudt onze methode van nature de georganiseerde edge-flow en semantische lay-out die kenmerkend zijn voor door artiesten gemaakte meshes. Een belangrijk voordeel van deze formulering is de verenigde representatie, waardoor dezelfde tokensequentie kan worden gedecodeerd naar een driehoeks- of vierhoeksmesh. Deze flexibiliteit maakt gezamenlijke training op beide datatypen mogelijk: grootschalige driehoeksdata verschaft fundamentele structurele priors, terwijl hoogwaardige quaddata de geometrische regelmaat van de outputs verbetert. Uitgebreide experimenten tonen aan dat SATO consistente betere prestaties levert dan eerdere methoden wat betreft geometrische kwaliteit, structurele samenhang en UV-segmentatie.
Unified multimodale modellen die visueel begrip en generatie integreren, staan voor een fundamentele uitdaging: visuele generatie brengt aanzienlijk hogere computationele kosten met zich mee dan begrip, vooral voor video. Deze disbalans motiveert ons om het conventionele paradigma om te keren: in plaats van begripsgecentreerde MLLMs uit te breiden om generatie te ondersteunen, stellen we Uni-ViGU voor, een framework dat videogeneratie en -begrip verenigt door een videogenerator als fundament uit te breiden. We introduceren een unified flow-methode die continue flow matching voor video en discrete flow matching voor tekst binnen één enkel proces uitvoert, waardoor coherente multimodale generatie mogelijk wordt. Verder stellen we een modality-driven MoE-gebaseerd framework voor dat Transformer-blokken verrijkt met lichtgewicht lagen voor tekstgeneratie, terwijl generatieve priors behouden blijven. Om generatiekennis voor begrip in te zetten, ontwerpen we een bidirectioneel trainingsmechanisme met twee fasen: Knowledge Recall reconstrueert invoerprompts om geleerde tekst-video-correspondenties te benutten, terwijl Capability Refinement fine-tuning uitvoert op gedetailleerde bijschriften om onderscheidende gedeelde representaties te establissen. Experimenten tonen aan dat Uni-ViGU competitieve prestaties levert op zowel videogeneratie als -begrip, wat generatiegecentreerde architecturen valideert als een schaalbare weg naar verenigde multimodale intelligentie. Projectpagina en code: https://fr0zencrane.github.io/uni-vigu-page/.
Recente vooruitgang in multimodale modellen heeft een snelle ontwikkeling gestimuleerd op het gebied van audio-begrip, -generatie en -bewerking. Deze mogelijkheden worden echter doorgaans aangepakt door gespecialiseerde modellen, waardoor de ontwikkeling van een werkelijk uniform raamwerk dat deze drie taken naadloos kan integreren onderbelicht blijft. Hoewel enkele baanbrekende werken de eenwording van audio-begrip en -generatie hebben onderzocht, blijven deze vaak beperkt tot specifieke domeinen. Om dit aan te pakken, introduceren we Audio-Omni, het eerste end-to-end raamwerk dat generatie en bewerking verenigt voor algemeen geluid, muziek en spraak, met geïntegreerde multimodale begripscapaciteiten. Onze architectuur combineert een bevroren Multimodaal Taalmodel voor hoogwaardige redenering met een trainbare Diffusion Transformer voor hoogwaardige synthese. Om het kritieke gebrek aan data voor audiobewerking te overwinnen, construeren we AudioEdit, een nieuwe grootschalige dataset met meer dan een miljoen zorgvuldig samengestelde bewerkingsparen. Uitgebreide experimenten tonen aan dat Audio-Omni state-of-the-art prestaties levert op een reeks benchmarks, waarbij het eerdere uniforme benaderingen overtreft en prestaties levert die gelijk zijn aan of superieur aan gespecialiseerde expertmodellen. Naast deze kerneigenschappen vertoont Audio-Omni opmerkelijke geërfte capaciteiten, waaronder kennis-augmented reasoning generation, in-context generatie en zero-shot cross-linguale controle voor audiogeneratie, wat een veelbelovende richting aangeeft naar universele generatieve audio-intelligentie. De code, het model en de dataset zullen openbaar worden vrijgegeven op https://zeyuet.github.io/Audio-Omni.
Code-agents ontwikkelen zich snel, maar het debuggen ervan wordt steeds moeilijker. Doordat frameworks parallelle toolaanroepen en meerfasige workflows voor complexe taken aansturen, worden de toestandsovergangen van de agent en foutpropagatie lastig waarneembaar. Tijdens deze runs kan een vroege misstap de agent vastzetten in onproductieve loops of zelfs leiden tot fundamentele fouten, waarbij verborgen foutketens ontstaan die het moeilijk maken te zien wanneer en waarom de agent afdwaalt. Bestaande traceringsanalyses voor agents richten zich ofwel op eenvoudige interactie of vertrouwen op kleinschalige handmatige inspectie, wat hun schaalbaarheid en bruikbaarheid voor echte codeerworkflows beperkt. Wij presenteren CodeTracer, een traceringsarchitectuur die heterogene run-artefacten parseert via evoluerende extractors, de volledige geschiedenis van toestandsovergangen reconstrueert als een hiërarchische traceboom met persistent geheugen, en de oorsprong van fouten lokaliseert om de foutbron en de downstream-keten aan te wijzen. Voor een systematische evaluatie bouwen we CodeTraceBench vanuit een grote verzameling uitgevoerde trajecten, gegenereerd door vier veelgebruikte code-agentframeworks voor diverse codetaken (zoals bugfixes, refactoring en terminalinteractie), met supervisie op zowel stadium- als stapniveau voor foutlocalisatie. Experimenten tonen aan dat CodeTracer direct prompting en lichtgewicht baseline-methoden aanzienlijk overtreft, en dat het opnieuw afspelen van zijn diagnostische signalen oorspronkelijk mislukte runs consistent herstelt binnen gelijke budgetten. Onze code en data zijn openbaar beschikbaar.
Unified multimodale modellen (UMM's) werden ontworpen om het redeneervermogen van grote taalmmodellen (LLM's) te combineren met de generatiecapaciteit van visiemodellen. In de praktijk blijft deze synergie echter ongrijpbaar: UMM's slagen er niet in om LLM-achtig redeneren over te dragen naar beeldgeneratie en vertonen divergente responsgedragingen. Wij duiden dit fenomeen aan als pseudo-unificatie. Het diagnosticeren van de interne oorzaken is belangrijk, maar bestaande onderzoeksmethoden bieden ofwel geen inzicht in het modelinterieur, of negeren de afhankelijkheden tussen prompt en respons. Om deze beperkingen aan te pakken, stellen wij een informatie-theoretisch onderzoeksraamwerk voor dat gezamenlijk analyseert hoe UMM's invoer coderen en uitvoer genereren. Toegepast op tien representatieve UMM's onthult ons raamwerk dat pseudo-unificatie voortkomt uit een dubbele divergentie: (i) Modality-Asymmetrische Codering, waarbij visie en taal verschillende entropietrajecten volgen, en (ii) Patroongesplitste Respons, waarbij tekstgeneratie een hoge-entropie creativiteit vertoont, terwijl beeldgeneratie een lage-entropie trouw afdwingt. Alleen modellen die beide kanten verenigen (bijvoorbeeld via contextuele voorspelling) bereiken een meer authentieke unificatie, wat sterkere, op redenering gebaseerde tekst-naar-beeldgeneratie mogelijk maakt, zelfs met minder parameters. Ons werk biedt de eerste modelinterne analyse van unificatie en toont aan dat echte multimodale synergie consistentie in de informatiestroom vereist, niet alleen gedeelde parameters.
LLM-agenten presteren tegenwoordig sterk in software-engineering, diepgaand onderzoek, GUI-automatisering en diverse andere toepassingen, terwijl recente agent-scaffolds en modellen deze capaciteiten steeds meer integreren in geünificeerde systemen. Toch testen de meeste evaluaties deze capaciteiten nog steeds geïsoleerd, wat een lacune laat voor meer diverse use cases die vereisen dat agenten verschillende capaciteiten combineren. Wij introduceren CocoaBench, een benchmark voor geünificeerde digitale agenten, opgebouwd uit door mensen ontworpen, langetermijntaken die een flexibele compositie van visie, zoekfuncties en codering vereisen. Taken worden uitsluitend gespecificeerd door een instructie en een automatische evaluatiefunctie over de uiteindelijke output, wat betrouwbare en schaalbare evaluatie mogelijk maakt across diverse agent-infrastructuren. Wij presenteren ook CocoaAgent, een lichtgewicht gedeelde scaffold voor gecontroleerde vergelijking across model-backbones. Experimenten tonen aan dat huidige agenten nog ver verwijderd zijn van betrouwbare prestaties op CocoaBench, waarbij het best geëvalueerde systeem slechts een slagingspercentage van 45,1% behaalt. Onze analyse wijst verder op aanzienlijke verbeteringsmogelijkheden in redeneren en plannen, toolgebruik en -uitvoering, en visuele grounding.
Wij presenteren Audio Flamingo Next (AF-Next), de volgende generatie en meest capabele grote audio-taalmodellen in de Audio Flamingo-reeks, ontworpen om het begrip en redeneren over spraak, omgevingsgeluiden en muziek naar een hoger niveau te tillen. In vergelijking met Audio Flamingo 3 introduceert AF-Next: (i) een krachtiger fundamenteel audio-taalmodel dat de nauwkeurigheid bij diverse audio-begriptaken aanzienlijk verbetert; (ii) schaalbare strategieën voor het construeren van grootschalige gegevens voor audio-begrip en -redenering die verder gaan dan bestaande academische benchmarks; (iii) ondersteuning voor lange en complexe audio-inputs tot 30 minuten; en (iv) Temporal Audio Chain-of-Thought, een nieuw redeneerparadigma dat tussenliggende redeneerstappen expliciet verankert aan tijdstempels in lange audio, waardoor fijnmazige temporele uitlijning en verbeterde interpreteerbaarheid mogelijk wordt. Om deze capaciteiten mogelijk te maken, voeren we eerst een systematische analyse van Audio Flamingo 3 uit om belangrijke hiaten in audio-begrip en -redenering te identificeren. Vervolgens stellen we nieuwe grootschalige datasets samen en schalen we deze op, met een totale omvang van meer dan 1 miljoen uur, om deze beperkingen aan te pakken en de bestaande AudioSkills-XL, LongAudio-XL, AF-Think en AF-Chat datasets uit te breiden. AF-Next wordt getraind met een op curriculum gebaseerde strategie die voor-, midden- en natrainingsfasen omvat. Uitgebreide experimenten over 20 benchmarks voor audio-begrip en -redenering, inclusief uitdagende lang-audiotaken, tonen aan dat AF-Next open modellen van vergelijkbare grootte met grote marges overtreft en zeer competitief blijft met, en soms zelfs overstijgt, veel grotere open-weight en gesloten modellen. Naast benchmarkprestaties vertoont AF-Next een sterke praktische bruikbaarheid en transferleert het goed naar onzichtbare taken, wat de robuustheid en generalisatievermogen benadrukt. Naast alle gegevens, code en methoden, open-sourcen we 3 varianten van AF-Next, waaronder AF-Next-Instruct, AF-Next-Think en AF-Next-Captioner.
On-policy reinforcement learning is het dominante paradigma geworden voor het afstemmen van redeneervermogen in grote taalmodellen, maar de schaarse beloningen op uitkomstniveau maken credit assignment op tokenniveau berucht moeilijk. On-Policy Distillation (OPD) verlicht dit door dichte, token-level KL-supervisie van een teacher-model in te voeren, maar past deze supervisie doorgaans uniform toe over alle rollouts, waarbij fundamentele verschillen in signaalkwaliteit worden genegeerd. Wij stellen Signal-Calibrated On-Policy Distillation Enhancement (SCOPE) voor, een dual-path adaptief trainingsraamwerk dat on-policy rollouts op basis van correctheid routeert naar twee complementaire supervisiepaden. Voor incorrecte trajecten voert SCOPE teacher-perplexity-gewogen KL-distillatie uit om prioriteit te geven aan instanties waarin de teacher daadwerkelijk corrigerend vermogen demonstreert, terwijl onbetrouwbare begeleiding wordt afgewaardeerd. Voor correcte trajecten past het student-perplexity-gewogen MLE toe om versterking te concentreren op voorbeelden met lage betrouwbaarheid aan de grenzen van het vermogen, in plaats van reeds beheerste voorbeelden te overversterken. Beide paden gebruiken een normalisatie op groepsniveau om gewichtsverdelingen adaptief te kalibreren, rekening houdend met de intrinsieke moeilijkheidsvariantie tussen prompts. Uitgebreide experimenten op zes redeneerbenchmarks tonen aan dat SCOPE een gemiddelde relatieve verbetering bereikt van 11,42% in Avg@32 en 7,30% in Pass@32 ten opzichte van competitieve baselines, wat de consistente effectiviteit aantoont.
Diffusietaalmodellen beloven parallelle generatie, maar blijven achter in kwaliteit ten opzichte van autoregressieve (AR) modellen. Wij wijten deze kloof aan een gebrek aan introspectieve consistentie: AR-modellen zijn het eens met hun eigen gegenereerde output, terwijl DLMs dat vaak niet zijn. Wij definiëren de *introspectieve acceptatiegraad*, die meet of een model zijn eerder gegenereerde tokens accepteert. Dit onthult waarom AR-training een structureel voordeel heeft: causale masking en logit shifting handhaven impliciet introspectieve consistentie. Gemotiveerd door deze observatie introduceren wij het *Introspective Diffusion Language Model* (I-DLM), een paradigma dat parallelle decodering in diffusiestijl behoudt, terwijl het de introspectieve consistentie van AR-training overerft. I-DLM gebruikt een nieuw *introspectief strided decoding* (ISD) algoritme, dat het model in staat stelt om eerder gegenereerde tokens te verifiëren terwijl het nieuwe tokens genereert in dezelfde forward pass. Vanuit een systeemperspectief bouwen wij een I-DLM-inferentie-engine op basis van geërfde AR-optimalisaties en passen deze verder aan met een *stationary-batch scheduler*. Voor zover wij weten, is I-DLM het eerste DLM dat de kwaliteit van zijn AR-evenknie op dezelfde schaal evenaart, terwijl het eerdere DLMs overtreft in zowel modelkwaliteit als praktische servingefficiëntie over 15 benchmarks. Het behaalt 69,6 op AIME-24 en 45,7 op LiveCodeBench-v6, wat respectievelijk meer dan 26 en 15 punten hoger is dan LLaMA-2.1-mini (16B). Naast kwaliteit is I-DLM ontworpen voor de groeiende vraag naar serviceren met een grote gelijktijdigheid, en levert het ongeveer 3x hogere doorvoer dan de vorige state-of-the-art DLMs.
Post-trainingsgegevens spelen een cruciale rol bij het vormgeven van de capaciteiten van grote taalmmodellen (LLM's), maar datasets worden vaak behandeld als geïsoleerde artefacten, waarbij de systemische verbanden die ten grondslag liggen aan hun evolutie over het hoofd worden gezien. Om deze complexe relaties te ontrafelen, introduceren we het concept van datalineage in het LLM-ecosysteem en stellen we een geautomatiseerd multi-agent raamwerk voor om de evolutionaire grafiek van datasetontwikkeling te reconstrueren. Door grootschalige lineage-analyse karakteriseren we domeinspecifieke structurele patronen, zoals verticale verfijning in wiskundige datasets en horizontale aggregatie in algemene-domeincorpora. Bovendien leggen we wijdverspreide systemische problemen bloot, waaronder structurele redundantie veroorzaakt door impliciete datasetintersecties en de verspreiding van benchmarkcontaminatie langs lineagepaden. Om de praktische waarde van lineage-analyse voor dataconstructie aan te tonen, benutten we de gereconstrueerde lineagegrafiek om een lineage-bewuste, op diversiteit gerichte dataset te creëren. Door instructie-steekproeven te verankeren bij upstream bronnen, vermindert deze aanpak downstream homogenisering en verborgen redundantie, wat resulteert in een diverser post-trainingscorpus. We belichten verder lineage-centrische analyse als een efficiënt en robuust topologisch alternatief voor datasetvergelijking op steekproefniveau in grootschalige data-ecosystemen. Door dataconstructie te verankeren in expliciete lineagestructuren, bevordert ons werk post-training datacuratie naar een meer systematisch en controleerbaar paradigma.
Hoewel Experience Replay - de praktijk van het opslaan van rollouts en deze meermaals te hergebruiken tijdens training - een fundamentele techniek is in algemene RL, blijft deze grotendeels onontgonnen bij LLM-natraining vanwege de heersende overtuiging dat verse, on-policy data essentieel is voor hoge prestaties. In dit werk dagen we deze aanname uit. We presenteren een systematische studie van replaybuffers voor LLM-natraining, waarbij we het optimale ontwerp formaliseren als een afweging tussen verouderingsgeïnduceerde variantie, steekproefdiversiteit en de hoge computationele kosten van generatie. We tonen aan dat strikte on-policy steekproefname suboptimaal is wanneer generatie duur is. Empirisch laten we zien dat een goed ontworpen replaybuffer de inferentie-rekenkracht drastisch kan verminderen zonder de uiteindelijke modelprestaties te verslechteren - en in sommige gevallen zelfs te verbeteren - terwijl de policy-entropie behouden blijft.
Wij hebben opmerkelijke vooruitgang gezien in de redeneervermogens van grote taalmodelen (LLM's) met de komst van DeepSeek-R1. Dit proces is echter grotendeels aangedreven door de overvloed aan vraag-antwoordparen (QA-paren) op internet, wat een belangrijk knelpunt vormt voor de toekomst, omdat dergelijke gegevens schaars zijn en vooral geconcentreerd in domeinen zoals wiskunde. Andere wetenschappen, zoals natuurkunde, beschikken daarentegen niet over grootschalige QA-datasets om modellen effectief te trainen in redeneren. In dit werk tonen wij aan dat natuurkundesimulators een krachtig alternatief kunnen zijn als bron van supervisie voor het trainen van LLM's voor fysisch redeneren. Wij genereren willekeurige scènes in physics engines, creëren synthetische vraag-antwoordparen op basis van gesimuleerde interacties, en trainen LLM's met reinforcement learning op deze synthetische data. Onze modellen vertonen zero-shot transfer van simulatie naar de werkelijkheid op fysicabenchmarks uit de echte wereld: training uitsluitend op synthetische gesimuleerde gegevens verbetert bijvoorbeeld de prestaties op IPhO-problemen (Internationale Natuurkunde Olympiade) met 5-10 procentpunten voor verschillende modelgroottes. Deze resultaten tonen aan dat natuurkundesimulators kunnen fungeren als schaalbare datageneratoren, waardoor LLM's diepgaande fysische redeneervaardigheden kunnen verwerven die de beperkingen van internet-schaal QA-data overstijgen. Code beschikbaar op: https://sim2reason.github.io/.
Videodiffusiemodellen hebben aanzienlijke vooruitgang geboekt in het genereren van hoogwaardige video's. Deze modellen hebben echter moeite met het weergeven van de temporele opeenvolging van meerdere gebeurtenissen in real-world video's en missen expliciete mechanismen om te controleren wanneer semantische concepten verschijnen, hoe lang ze aanhouden en de volgorde waarin meerdere gebeurtenissen plaatsvinden. Een dergelijke controle is vooral belangrijk voor filmspecificatie video-synthese, waarbij coherente verhaalvertelling afhangt van precieze timing, duur en overgangen tussen gebeurtenissen. Wanneer een enkele alinea-stijl prompt wordt gebruikt om een reeks complexe gebeurtenissen te beschrijven, vertonen modellen vaak semantische vervlechting, waarbij concepten bedoeld voor verschillende momenten in de video in elkaar overlopen, wat resulteert in een slechte tekst-video-alignering. Om deze beperkingen aan te pakken, stellen wij Prompt Relay voor, een plug-and-play methode tijdens inferentie om fijnmazige temporele controle mogelijk te maken bij het genereren van video's met meerdere gebeurtenissen, zonder architecturale wijzigingen of extra rekenkosten. Prompt Relay introduceert een penalty in het cross-attention mechanisme, zodat elk temporeel segment alleen aandacht besteedt aan zijn toegewezen prompt. Hierdoor kan het model één semantisch concept per keer representeren, wat de temporele prompt-alignering verbetert, semantische interferentie vermindert en de visuele kwaliteit verhoogt.
Wij bestuderen parallelle test-time scaling voor langetermijn agent-taken zoals agent-gebaseerd zoeken en diepgaand onderzoek, waarbij meerdere rollouts parallel worden gegenereerd en geaggregeerd tot een eindantwoord. Hoewel dergelijke scaling effectief is gebleken voor chain-of-thought redenering, vormen agent-taken unieke uitdagingen: trajecten zijn lang, multi-turn en tool-augmented, en uitvoeren zijn vaak open-eindig. Alleen eindantwoorden aggregeren verwijdert rijke informatie uit trajecten, terwijl het aaneenschakelen van alle trajecten het contextvenster van het model overschrijdt. Om dit aan te pakken, stellen wij AggAgent voor, een aggregatie-agent die parallelle trajecten als een omgeving behandelt. Wij rusten het uit met lichtgewicht tools om kandidaat-oplossingen te inspecteren en over trajecten te zoeken, waardoor het in staat is om informatie naar behoefte te navigeren en te synthetiseren. Over zes benchmarks en drie modelfamilies (GLM-4.7, Qwen3.5, MiniMax-M2.5) presteert AggAgent beter dan alle bestaande aggregatiemethoden - met tot 5,3% absoluut gemiddeld en 10,3% op twee diepgaande onderzoektaken - terwijl het minimale overhead toevoegt, aangezien de aggregatiekosten beperkt blijven tot een enkele agent-rollout. Onze bevindingen vestigen agent-aggregatie als een effectieve en kostenefficiënte aanpak voor parallelle test-time scaling.
Grote Taalmodellen (LLM's) die in agent-omgevingen worden ingezet, moeten meerdere capaciteiten kunnen toepassen over verschillende taakinstanties heen, waarbij een capaciteit wordt gedefinieerd als het uitvoeren van een of meer acties in een traject die noodzakelijk zijn om een subset van taken in de omgeving succesvol op te lossen. Veel bestaande benaderingen vertrouwen op synthetische trainingsdata die niet is afgestemd op de werkelijke tekortkomingen in de capaciteiten van het model in de doelomgeving, of trainen direct op de doelomgeving, waarbij het model de capaciteiten impliciet moet leren over taken heen. Wij introduceren TRACE (Turning Recurrent Agent failures into Capability-targeted training Environments), een end-to-end systeem voor omgevingsspecifieke zelfverbetering van agents. TRACE vergelijkt succesvolle en mislukte trajecten om automatisch ontbrekende capaciteiten te identificeren, synthetiseert een gerichte trainingsomgeving voor elk ervan die beloont of de capaciteit werd toegepast, en traint een LoRA-adapter via Reinforcement Learning (RL) op elke synthetische omgeving, waarbij tijdens de inferentie naar de relevante adapter wordt gerouteerd. Empirisch gezien generaliseert TRACE over verschillende omgevingen en verbetert het de basis-agent met +14,1 punten op τ²-bench (klantenservice) en +7 perfecte scores op ToolSandbox (gebruik van tools), waarmee het de sterkste baseline respectievelijk met +7,4 punten en +4 perfecte scores overtreft. Met hetzelfde aantal rollouts schaalt TRACE efficiënter dan de baselines en presteert het +9,2 en +7,4 punten beter dan respectievelijk GRPO en GEPA op τ²-bench.
Versterkend leren (RL) voor grote taalmmodellen (LLM's) maakt in toenemende mate gebruik van schaarse, uitkomstgerichte beloningen – maar het blijft moeilijk te bepalen welke acties binnen een lange trajectorie de uitkomst hebben veroorzaakt. Dit *credit assignment* (CA)-probleem doet zich voor in twee regimes: *reasoning RL*, waarbij de eer moet worden verdeeld over tokens en stappen binnen een enkele *chain-of-thought*-generatie (500–30K+ tokens); en *agentic RL*, waarbij multi-turn interactie met een omgeving stochastische transities, gedeeltelijke observeerbaarheid en horizons van 100+ beurten (100K–1M tokens) introduceert, waardoor episode-brede credit steeds minder informatief wordt. Wij inventariseren 47 CA-methoden (41 kernmethoden, 6 aanverwante enablers) gepubliceerd tussen 2024 en begin 2026, en ordenen deze in een tweedimensionale taxonomie op basis van toewijzingsgranulariteit (token, segment, stap, beurt, multi-agent) en methodologie (Monte Carlo, temporele differentie, modelgebaseerd, speltheoretisch, informatietheoretisch). Naast de survey zelf leveren wij drie herbruikbare bronnen aan: (1) een gestructureerde, machineleesbare paperinventaris met taxonomielabels, baseline-families en evidentieniveaus; (2) een rapportagechecklist voor toekomstige CA-papers, gevalideerd tegen de geraadpleegde literatuur om systematische methodologische hiaten te identificeren; en (3) een benchmarkprotocolspecificatie met taakfamilies, metadatavereisten en gecontroleerde bifurcatietaken, vergezeld van een beslissingsboom voor methodeselectie. Onze synthese suggereert dat de verschuiving van reasoning naar agentic RL het credit assignment-landschap compliceert en hervormt: reasoning CA rijpt rond *process reward models* en critic-vrije groepsvergelijking, terwijl agentic CA echt nieuwe benaderingen voortbrengt – *hindsight counterfactual analysis*, geprivilegieerde asymmetrische critics, en beurt-niveau MDP-herformuleringen – die geen directe precedent hebben in reasoning RL.
Mobiele GUI-agenten, aangedreven door Multimodale Grote Taalmodellen (MLLM's), kunnen complexe taken uitvoeren op mobiele apparaten. Ondanks deze vooruitgang optimaliseren de meeste bestaande systemen nog steeds taaksucces of efficiëntie, waarbij gebruikersprivacy-personalisatie wordt verwaarloosd. In dit artikel bestuderen we het vaak over het hoofd geziene probleem van agentpersonalisatie. We observeren dat personalisatie systematische structurele heterogeniteit in uitvoeringstrajecten kan veroorzaken. Privacygerichte gebruikers prefereren bijvoorbeeld vaak beschermende acties, zoals het weigeren van toestemmingen, uitloggen en blootstelling minimaliseren, wat leidt tot logisch verschillende uitvoeringstrajecten dan gebruikers die op functionaliteit gericht zijn. Dergelijke trajecten met variabele lengte en structurele verschillen maken standaard voorkeursoptimalisatie instabiel en minder informatief. Om dit probleem aan te pakken, stellen we Trajectory Induced Preference Optimization (TIPO) voor, dat gebruikmaakt van voorkeursintensiteitsweging om cruciale privacygerelateerde stappen te benadrukken en opvulpoortjes om alignatieruis te onderdrukken. Resultaten op onze Privacy Preference Dataset tonen aan dat TIPO persona-alignatie en -onderscheid verbetert, terwijl sterke taakuitvoerbaarheid behouden blijft, met een SR van 65,60%, een Compliance van 46,22% en een PD van 66,67%, waarmee het bestaande optimalisatiemethoden overbrugt bij diverse GUI-taken. De code en dataset worden openbaar vrijgegeven op https://github.com/Zhixin-L/TIPO.
Speculatief Decoderen (SD) is naar voren gekomen als een cruciale techniek voor het versnellen van inferentie bij Large Language Models (LLM's). In tegenstelling tot deterministische systeemoptimalisaties is de prestaties van SD inherent afhankelijk van de data, wat betekent dat diverse en representatieve workloads essentieel zijn om de effectiviteit ervan nauwkeurig te meten. Bestaande benchmarks kampen met beperkte taakdiversiteit, ontoereikende ondersteuning voor doorvoer-gerichte evaluatie en een afhankelijkheid van hoog-niveau implementaties die productieomgevingen niet goed weerspiegelen. Om dit aan te pakken, introduceren we SPEED-Bench, een uitgebreide suite ontworpen om SD-evaluatie te standaardiseren across diverse semantische domeinen en realistische bedieningsregimes. SPEED-Bench biedt een zorgvuldig samengestelde *Qualitative* data-split, geselecteerd door prioriteit te geven aan semantische diversiteit across de data samples. Daarnaast omvat het een *Throughput* data-split, waardoor snelheidswinst-evaluatie mogelijk is across een reeks van gelijktijdige verzoeken, van latentie-gevoelige instellingen met lage batchgroottes tot doorvoer-gerichte scenario's onder hoge belasting. Door integratie met productie-engines zoals vLLM en TensorRT-LLM stelt SPEED-Bench beoefenaars in staat om systeemgedrag te analyseren dat vaak door andere benchmarks wordt gemaskeerd. We belichten dit door te kwantificeren hoe synthetische inputs de werkelijke doorvoer overschatten, door batchgrootte-afhankelijke optimale concept-lengtes en vooroordelen in data met lage diversiteit te identificeren, en door de kanttekeningen bij vocabulary pruning in state-of-the-art concept-modellen te analyseren. We geven SPEED-Bench vrij om een uniforme evaluatiestandaard te vestigen voor praktische vergelijkingen van SD-algoritmen.
Moderne grote taalmodellen (LLM's) hebben opmerkelijke redeneervermogens getoond, met name in gespecialiseerde domeinen zoals wiskunde en natuurkunde. Hun vermogen om deze redeneervaardigheden te generaliseren naar meer algemene en bredere contexten – vaak aangeduid als algemeen redeneren – blijft echter onderbelicht. In tegenstelling tot domeinspecifiek redeneren, is algemeen redeneren minder afhankelijk van expertkennis, maar stelt het niettemin aanzienlijke redeneeruitdagingen, zoals complexe beperkingen, geneste logische vertakkingen en semantische interferentie. Om deze kloof te dichten, introduceren wij General365, een benchmark die specifiek is ontworpen om algemeen redeneren in LLM's te evalueren. Door de benodigde voorkennis te beperken tot middelbareschoolniveau, ontkoppelt General365 uitdrukkelijk redeneren van gespecialiseerde expertise. De benchmark omvat 365 basisproblemen en 1.095 variantproblemen verdeeld over acht categorieën, wat zowel hoge moeilijkheidsgraad als diversiteit waarborgt. Evaluaties van 26 toonaangevende LLM's tonen aan dat zelfs het best presterende model slechts 62,8% nauwkeurigheid bereikt, in schril contrast met de bijna perfecte prestaties van LLM's in wiskunde- en natuurkundebenchmarks. Deze resultaten suggereren dat de redeneervermogens van huidige LLM's zwaar domeinafhankelijk zijn, waardoor er aanzienlijke ruimte voor verbetering blijft in bredere toepassingen. Wij zien General365 als een katalysator voor het bevorderen van LLM-redeneren voorbij domeinspecifieke taken, in de richting van robuuste, algemene real-world scenario's. Code, dataset en leaderboard: https://general365.github.io
Wij introduceren continue adversariële stroommodellen, een type continu-tijd stroommodel dat wordt getraind met een adversariële doelstelling. In tegenstelling tot flow matching, dat een vast gemiddeld-kwadratisch-foutcriterium gebruikt, introduceert onze aanpak een geleerde discriminator om de training te sturen. Deze verandering in doelstelling induceert een andere gegeneraliseerde verdeling, die empirisch gezien samples oplevert die beter zijn afgestemd op de doeldataverdeling. Onze methode wordt primair voorgesteld voor het na-trainen van bestaande flow-matching-modellen, hoewel het ook modellen vanaf nul kan trainen. Voor de ImageNet 256px-generatietaak verbetert ons na-trainen de richtlijnvrije FID van latentieruimte-SiT aanzienlijk van 8,26 naar 3,63 en van pixelruimte-JiT van 7,17 naar 3,57. Het verbetert ook de gestuurde generatie, waarbij de FID wordt verlaagd van 2,06 naar 1,53 voor SiT en van 1,86 naar 1,80 voor JiT. We evalueren onze aanpak verder voor tekst-naar-beeldgeneratie, waar het verbeterde resultaten behaalt op zowel de GenEval- als DPG-benchmarks.
Recente vooruitgang in gemaskeerde diffusie-taalmmodellen (MDLM's) verkleint het kwaliteitsverschil met autoregressieve LM's, maar hun sampling blijft duur omdat generatie vele volledige denoisingspassen vereist met een grote Transformer en, in tegenstelling tot autoregressieve decodering, geen voordeel kan halen uit KV-caching. In dit werk benutten we de flexibiliteit van het diffusieraamwerk en bestuderen we modelscheduling, waarbij een kleiner MDLM het volledige model vervangt bij een subset van denoisingsstappen. Over modellen getraind op OpenWebText en LM1B tonen we aan dat vroege en late denoisingsstappen aanzienlijk robuuster zijn voor een dergelijke vervanging dan middelste stappen, wat een reductie van tot 17% in FLOPs mogelijk maakt met slechts bescheiden verslechtering van de generatieve perplexiteit onder zowel onvoorwaardelijke als prefix-voorwaardelijke generatie, terwijl de steekproefdiversiteit behouden blijft. Wij ondersteunen deze bevindingen met een stap-belangrijkheidsanalyse gebaseerd op verlies en KL-divergentie tussen kleine en grote modellen over tijdstappen, evenals een exhaustieve zoektocht over grove stapsegmenten, die beide het midden van de diffusietrajectorie consequent over datasets identificeren als het meest gevoelig. Onze resultaten suggereren dat eenvoudige, architectuuronafhankelijke scheduleregels de MDLM-sampling aanzienlijk kunnen versnellen terwijl de generatiekwaliteit grotendeels behouden blijft.
Jonge kinderen tonen al vroeg het vermogen om hun fysieke wereld te begrijpen; ze schatten diepte, beweging, objectcoherentie, interacties en vele andere aspecten van fysiek scenebegrip in. Kinderen zijn zowel data-efficiënte als flexibele cognitieve systemen die competentie ontwikkelen ondanks extreem beperkte trainingsdata, terwijl ze generaliseren naar talloze ongetrainde taken – een grote uitdaging, zelfs voor de beste AI-systemen van vandaag. Hier introduceren we een nieuwe computationele hypothese voor deze vaardigheden: het Zero-shot Visuele Wereldmodel (ZWM). ZWM is gebaseerd op drie principes: een spaarse, tijdelijk gefactoriseerde voorspeller die verschijning van dynamiek ontkoppelt; zero-shot schatting door middel van benaderende causale inferentie; en het combineren van inferenties om complexere vaardigheden op te bouwen. We tonen aan dat ZWM kan worden geleerd uit de eerste-persoonservaring van een enkel kind, waarbij het snel competentie genereert op meerdere benchmarks voor fysiek begrip. Het reproduceert ook breed gedragssignaturen van kinderontwikkeling en bouwt hersenachtige interne representaties op. Ons werk biedt een blauwdruk voor efficiënt en flexibel leren van data op menselijke schaal, en bevordert zowel een computationele verklaring voor het vroege fysieke begrip van kinderen als een weg naar data-efficiënte AI-systemen.
Recente vooruitgang in verenigde multimodale modellen (UMM's) heeft geleid tot een proliferatie van architecturen die in staat zijn tot begrip, generatie en bewerking over visuele en tekstuele modaliteiten heen. Het ontwikkelen van een verenigd framework voor UMM's blijft echter een uitdaging vanwege de diversiteit aan modelarchitecturen en de heterogeniteit van trainingsparadigma's en implementatiedetails. In dit artikel presenteren we TorchUMM, de eerste verenigde codebase voor uitgebreide evaluatie, analyse en post-training van diverse UMM-backbones, taken en datasets. TorchUMM ondersteunt een breed spectrum van modellen die een groot aantal schalen en ontwerpparadigma's bestrijken. Onze benchmark omvat drie kerntakendimensies: multimodaal begrip, generatie en bewerking, en integreert zowel gevestigde als nieuwe datasets om perceptie, redeneervermogen, compositionaliteit en instructievolgvermogen te evalueren. Door een verenigde interface en gestandaardiseerde evaluatieprotocollen te bieden, stelt TorchUMM eerlijke en reproduceerbare vergelijkingen tussen heterogene modellen mogelijk en bevordert het dieper inzicht in hun sterke en zwakke punten, wat de ontwikkeling van capabelere verenigde multimodale systemen vergemakkelijkt. Code is beschikbaar op: https://github.com/AIFrontierLab/TorchUMM.
Het begrijpen en voorspellen van beweging is een fundamenteel onderdeel van visuele intelligentie. Hoewel moderne videomodellen een sterk begrip van scènedynamiek vertonen, blijft het verkennen van meerdere mogelijke toekomsten via volledige videosynthese buitengewoon inefficiënt. Wij modelleren scènedynamiek vele ordes van grootte efficiënter door rechtstreeks te werken op een langetermijnbewegingsembedding die wordt geleerd uit grootschalige trajecten verkregen van trackermodellen. Dit maakt de efficiënte generatie van lange, realistische bewegingen mogelijk die voldoen aan doelstellingen gespecificeerd via tekstprompts of ruimtelijke prikkels. Om dit te bereiken, leren we eerst een sterk gecomprimeerde bewegingembedding met een temporele compressiefactor van 64x. In deze ruimte trainen we een conditioneel flow-matchingmodel om bewegingslatenten te genereren, geconditioneerd op taakbeschrijvingen. De resulterende bewegingsverdelingen overtreffen zowel die van state-of-the-art videomodellen als gespecialiseerde taakspecifieke benaderingen.
De ontwikkeling van de Bielik v3 PL-reeks, die zowel de 7B- als 11B-parametervarianten omvat, vertegenwoordigt een belangrijke mijlpaal op het gebied van taalspecifieke optimalisatie van grote taalmmodellen (Large Language Models, LLM's). Hoewel algemene modellen vaak indrukwekkende meertalige capaciteiten demonstreren, lijden ze vaak onder een fundamentele architectonische inefficiëntie: het gebruik van universele tokenizers. Deze tokenizers, die doorgaans zijn ontworpen om een breed spectrum van talen te dekken, slagen er vaak niet in de morfologische nuances van specifieke talen zoals het Pools vast te leggen. Dit leidt tot hogere *fertility*-ratio's, hogere inferentiekosten en een beperkt effectief contextvenster. Dit rapport beschrijft in detail de overgang van de op Mistral gebaseerde universele tokenisatie naar een speciaal voor het Pools geoptimaliseerde vocabulaire voor de Bielik v3-modellen. Hierbij wordt ingegaan op de FOCUS-gebaseerde initialisatie van embeddings, het meerfasen *pretraining*-curriculum, en de daaropvolgende *post-training*-afstemming, waaronder *Supervised Fine-Tuning*, *Direct Preference Optimization* en *Reinforcement Learning* via *Group Relative Policy Optimization* met verifieerbare beloningen.
Hoewel grote taalmodelen veelbelovend zijn voor complexe medische toepassingen, wordt hun ontwikkeling belemmerd door een tekort aan hoogwaardige redeneergegevens. Om dit probleem aan te pakken, distilleren bestaande methoden typisch chain-of-thought-redeneersporen uit grote propriëtaire modellen via supervised fine-tuning, gevolgd door reinforcement learning (RL). Deze methoden vertonen beperkte verbetering op ondervertegenwoordigde domeinen zoals zeldzame ziekten, terwijl ze aanzienlijke kosten met zich meebrengen voor het genereren van complexe redeneerketens. Om medisch redeneren efficiënt te verbeteren, stellen wij MedSSR voor, een raamwerk voor Medical Knowledge-enhanced data Synthesis en Semi-supervised Reinforcement Learning. Ons raamwerk gebruikt eerst kennis over zeldzame ziekten om distributie-beheerbare redeneervragen te synthetiseren. Vervolgens gebruiken we het policy-model zelf om hoogwaardige pseudo-labels te genereren. Dit maakt een tweefasig, intrinsiek-extrinsiek trainingsparadigma mogelijk: zelf-gesuperviseerde RL op de pseudo-gelabelde synthetische data, gevolgd door gesuperviseerde RL op de door mensen geannoteerde echte data. MedSSR schaalt modeltraining efficiënt zonder afhankelijk te zijn van kostbare sporendistillatie. Uitgebreide experimenten met Qwen en Llama tonen aan dat onze methode superieur presteert ten opzichte van bestaande methoden op tien medische benchmarks, met een winst tot +5,93% op taken rond zeldzame ziekten. Onze code is beschikbaar op https://github.com/tdlhl/MedSSR.
Onlangs is schaalvergroting van reinforcement learning met verifieerbare beloningen (RLVR) voor grote taalmodellen naar voren gekomen als een effectieve trainingsparadigma om modelcapaciteiten aanzienlijk te verbeteren. Dit vereist dat het model wordt gestuurd om uitgebreide exploratie en leren uit te voeren, wat aanzienlijke rekenkosten met zich meebrengt en een belangrijke uitdaging vormt. Om het aantal trainingsstappen te verminderen, voert eerder werk lineaire extrapolatie van modelparameters uit. De dynamiek van modelparameterupdates tijdens RLVR-training is echter nog onvoldoende begrepen. Om de evolutie van grote taalmodellen tijdens RLVR-training verder te onderzoeken, voeren we empirische experimenten uit. We constateren dat de rang-1-deelruimte van het model niet lineair evolueert, en dat de dominantie ervan over de oorspronkelijke parameters verder wordt versterkt tijdens LoRA-training. Op basis van deze inzichten stellen we de niet-lineaire extrapolatie van trajecten met lage rang (NExt) voor, een nieuw raamwerk dat parameter trajecten met een lage rang op een niet-lineaire manier modelleert en extrapoleert. Concreet trainen we eerst het model met LoRA en extraheren de rang-1-deelruimte van parameter verschillen op meerdere trainingsstappen, die vervolgens wordt gebruikt voor de daaropvolgende niet-lineaire extrapolatie. Vervolgens gebruiken we de geëxtraheerde rang-1-deelruimte om een predictor te trainen. Deze predictor kan het traject van parameter updates tijdens RLVR modelleren, waarna het voorspel-verleng-proces wordt uitgevoerd om modelparameters te extrapoleren, waardoor versnelling van RLVR wordt bereikt. Om NExt verder te bestuderen en begrijpen, voeren we uitgebreide experimenten uit die de effectiviteit en robuustheid van de methode aantonen. Onze methode vermindert de rekenkosten met ongeveer 37,5% en blijft compatibel met een breed scala aan RLVR-algoritmen en taken. We hebben onze code vrijgegeven op https://github.com/RUCAIBox/NExt.
Naarmate grote taalmodellen (LLM's) de motor achter conversatiesystemen worden, wordt hun vermogen om te redeneren over de intenties en toestanden van hun gesprekspartners (d.w.z. een theory-of-mind, of ToM, vormen en gebruiken) steeds kritieker voor veilige interactie met potentieel adversariële partners. Wij stellen een nieuwe privacy-georiënteerde ToM-uitdaging voor, ToM for Steering Beliefs (ToM-SB), waarin een verdediger moet optreden als een Dubbelagent om de overtuigingen van een aanvaller met gedeeltelijke voorkennis binnen een gedeelde context te sturen. Om te slagen in ToM-SB moet de verdediger een ToM van de aanvaller vormen en gebruiken, met als doel de aanvaller te misleiden zodat deze gelooft dat hij erin geslaagd is gevoelige informatie te extraheren. Wij constateren dat sterke frontier-modellen zoals Gemini3-Pro en GPT-5.4 moeite hebben met ToM-SB; zij slagen er vaak niet in aanvallers te misleiden in moeilijke scenario's met gedeeltelijke voorkennis van de aanvaller, zelfs niet wanneer zij worden aangezet tot redeneren over de overtuigingen van de aanvaller (ToM-prompting). Om deze kloof te dichten, trainen wij modellen met reinforcement learning om op te treden als AI-dubbelagenten in ToM-SB, waarbij wij zowel beloningen voor misleiding als voor ToM testen. Opmerkelijk is dat wij een bidirectioneel emergent verband constateren tussen ToM en het misleiden van de aanvaller: het belonen van misleidingssucces alleen verbetert de ToM, en het belonen van ToM alleen verbetert de misleiding. Over vier aanvallers met verschillende sterktes, zes verdedigingsmethoden, en zowel in-distributie als out-of-distribution (OOD) evaluatie, constateren wij dat winsten in ToM en het misleiden van de aanvaller sterk gecorreleerd zijn, wat modellering van overtuigingen benadrukt als een cruciale drijvende kracht voor succes in ToM-SB. AI-dubbelagenten die zowel ToM- als misleidingsbeloningen combineren, leveren de sterkste misleidings- en ToM-prestaties, en overtreffen Gemini3-Pro en GPT-5.4 met ToM-prompting in moeilijke scenario's. Wij tonen ook aan dat ToM-SB en AI-dubbelagenten kunnen worden uitgebreid naar sterkere aanvallers, wat generalisatie naar OOD-instellingen en de upgradebaarheid van onze taak aantoont.
Het versnellen van wetenschappelijke ontdekkingen vereist de identificatie van welke experimenten de beste resultaten zouden opleveren voordat middelen worden toegewezen aan kostbare fysieke validatie. Hoewel bestaande benchmarks LLM's evalueren op wetenschappelijke kennis en redeneervermogen, blijft hun vermogen om experimentele uitkomsten te voorspellen – een taak waarin AI menselijke capaciteiten aanzienlijk zou kunnen overtreffen – grotendeels onderbelicht. Wij introduceren SciPredict, een benchmark bestaande uit 405 taken afgeleid van recente empirische studies in 33 gespecialiseerde subdomeinen van natuurkunde, biologie en scheikunde. SciPredict behandelt twee kritieke vragen: (a) kunnen LLM's de uitkomst van wetenschappelijke experimenten met voldoende nauwkeurigheid voorspellen? en (b) kunnen dergelijke voorspellingen betrouwbaar worden gebruikt in het wetenschappelijk onderzoeksproces? Evaluaties onthullen fundamentele beperkingen op beide fronten. Modelnauwkeurigheden zijn 14-26% en de prestaties van menselijke experts bedragen ongeveer 20%. Hoewel sommige geavanceerde modellen de menselijke prestaties overtreffen, blijft de modelnauwkeurigheid ver onder het niveau dat betrouwbare experimentele begeleiding mogelijk zou maken. Zelfs binnen de beperkte prestaties slagen modellen er niet in betrouwbare voorspellingen te onderscheiden van onbetrouwbare, met een nauwkeurigheid van slechts ongeveer 20%, ongeacht hun vertrouwen of of zij uitkomsten als voorspelbaar beschouwen zonder fysiek experiment. Menselijke experts tonen daarentegen een sterke kalibratie: hun nauwkeurigheid neemt toe van ongeveer 5% tot ongeveer 80% naarmate zij uitkomsten als beter voorspelbaar beschouwen zonder het experiment uit te voeren. SciPredict stelt een rigoureus kader vast dat aantoont dat bovenmenselijke prestaties in de experimentele wetenschap niet alleen betere voorspellingen vereisen, maar ook een beter besef van de betrouwbaarheid van voorspellingen. Voor reproduceerbaarheid zijn al onze data en code beschikbaar op https://github.com/scaleapi/scipredict.
Eerdere representatieve ReAct-stijlbenaderingen in autonome Software Engineering (SWE) ontberen doorgaans de expliciete Systeem-2-redenering die nodig is voor diepgaande analyse en het afhandelen van complexe edge cases. Hoewel recente redeneermodellen het potentieel van uitgebreide Chain-of-Thought (CoT) aantonen, creëert de toepassing ervan op de multi-turn SWE-taak een fundamenteel dilemma: het behouden van de volledige redeneergeschiedenis leidt tot contextexplosie en "Lost-in-the-Middle"-degradatie, terwijl het verwijderen ervan de agent zou dwingen om bij elke stap redundant opnieuw te redeneren. Om deze uitdagingen aan te pakken, stellen we SWE-AGILE voor, een nieuw software-agentraamwerk ontworpen om de kloof te overbruggen tussen redeneringsdiepte, efficiëntie en contextbeperkingen. SWE-AGILE introduceert een Dynamische Redeneercontext-strategie, die een "glijdend venster" van gedetailleerde redenering handhaaft voor onmiddellijke continuïteit om redundante heranalyse te voorkomen, terwijl historische redeneerinhoud wordt gecomprimeerd tot beknopte Redeneersamenvattingen. Empirisch gezien stelt SWE-AGILE een nieuwe standaard voor 7B-8B modellen op SWE-Bench-Verified met slechts 2.2k trajecten en 896 taken. Code is beschikbaar op https://github.com/KDEGroup/SWE-AGILE.
Naarmate generatieve modellen de snelle creatie van hoogwaardige afbeeldingen mogelijk maken, zijn de maatschappelijke zorgen over desinformatie en authenticiteit toegenomen. Een veelbelovende oplossing is multi-bit watermerken voor afbeeldingen, waarbij een multi-bit bericht in een afbeelding wordt ingebed, zodat een verificator later kan detecteren of de afbeelding door iemand is gegenereerd en bovendien de bron kan identificeren door het ingebedde bericht te decoderen. Bestaande methoden schieten vaak tekort op het gebied van capaciteit, robuustheid tegen veelvoorkomende beeldvervormingen en theoretische onderbouwing. Om deze beperkingen aan te pakken, stellen wij ADD (Add, Dot, Decode) voor, een multi-bit watermerkmethode voor afbeeldingen met twee fasen: het aanleren van een watermark dat lineair wordt gecombineerd met het multi-bit bericht en aan de afbeelding wordt toegevoegd, en decodering via inproducten tussen de afbeelding met watermark en het aangeleerde watermark. Op de standaard MS-COCO benchmark tonen wij aan dat ADD voor de uitdagende taak van 48-bit watermerken een decoderenauwkeurigheid van 100% bereikt, waarbij de prestaties onder een breed scala aan beeldvervormingen met maximaal 2% dalen, aanzienlijk minder dan de gemiddelde daling van 14% bij state-of-the-art methoden. Daarnaast behaalt ADD aanzienlijke computationele winst, met een 2 keer snellere invoeding en een 7,4 keer snellere decodering dan de snelste bestaande methode. Wij geven verder een theoretische analyse die verklaart waarom het aangeleerde watermark en de bijbehorende decodeerregel effectief zijn.
Recente vooruitgang in Vision-Language Models (VLMs) heeft het algemene visuele begrip gerevolutioneerd. Toch wordt hun toepassing in het voedingsdomein beperkt door benchmarks die steunen op grofkorrelige categorieën, enkelvoudige beelden en onnauwkeurige metadata. Om deze kloof te overbruggen, introduceren we DiningBench, een hiërarchische, multi-view benchmark ontworpen om VLMs te evalueren op drie niveaus van cognitieve complexiteit: Fijnmazige Classificatie, Voedingsschatting en Visuele Vraagbeantwoording. In tegenstelling tot eerdere datasets omvat DiningBench 3.021 verschillende gerechten met gemiddeld 5.27 afbeeldingen per item, en bevat het fijnmazige "moeilijke" negatieven uit identieke menu's en rigoureuze, op verificatie gebaseerde voedingsdata. We voeren een uitgebreide evaluatie uit van 29 state-of-the-art open-source en propriëtaire modellen. Onze experimenten tonen aan dat hoewel huidige VLMs uitblinken in algemene redeneertaken, ze significant worstelen met fijnmazige visuele discriminatie en precieze voedingsredenering. Verder onderzoeken we systematisch de impact van multi-view invoer en Chain-of-Thought redenering, waarbij we vijf primaire faalwijzen identificeren. DiningBench dient als een uitdagende testomgeving om de volgende generatie voedselgerichte VLM-onderzoek te stimuleren. Alle code is vrijgegeven op https://github.com/meituan/DiningBench.
Grote taalmodellen worden steeds vaker ingezet in multi-turn settings zoals tutoring, ondersteuning en counseling, waarbij betrouwbaarheid afhangt van het behoud van consistente rollen, persona's en doelstellingen over lange horizonnen. Deze vereiste wordt kritiek wanneer LLM's worden gebruikt om synthetische dialogen te genereren voor training en evaluatie, omdat LLM–LLM-gesprekken identiteitsgerelateerde fouten kunnen accumuleren, zoals persona-drift, rolverwarring en "echoing", waarbij de ene agent geleidelijk zijn partner gaat nabootsen. Wij introduceren SPASM (Stable Persona-driven Agent Simulation for Multi-turn dialogue generation), een modulair, stabiliteit-gericht framework dat simulatie decomposeert in (i) persona-creatie via schema-sampling, plausibiliteitsvalidatie en natuurlijktaal-personaconstructie, (ii) Client–Responder-dialooggeneratie, en (iii) terminatiedetectie voor coherent stoppen. Om stabiliteit over lange horizonnen te verbeteren zonder de modelgewichten aan te passen, stellen wij Egocentrische Contextprojectie (ECP) voor: dialooggeschiedenis wordt opgeslagen in een perspectief-agnostische representatie en deterministisch geprojecteerd in het egocentrische perspectief van elke agent vóór generatie. Over drie LLM-backbones (GPT-4o-mini, DeepSeek-V3.2, Qwen-Plus) en negen Client–Responder-koppelingen construeren we een dataset van 4.500 persona's en 45.000 gesprekken (500 persona's X 10 gesprekken per koppeling). Ablatiestudies tonen aan dat ECP persona-drift aanzienlijk reduceert en, na menselijke validatie, echoing elimineert; embedding-analyses herstellen de personastructuur en onthullen een sterke door de Responder gedreven interactiegeometrie. Onze code is beschikbaar op https://github.com/lhannnn/SPASM.
Gestructureerde geheugenrepresentaties zoals kennisgrafieken zijn essentieel voor autonome agenten en andere langlevende systemen. De meeste bestaande benaderingen modelleren tijd echter als discrete metadata, door bijvoorbeeld te sorteren op recency (waardoor oudere maar permanente kennis wordt begraven), verouderde feiten simpelweg te overschrijven, of een dure LLM-aanroep bij elke invoerstap te vereisen. Hierdoor kunnen ze geen onderscheid maken tussen persistente en evoluerende feiten. Om dit aan te pakken, introduceren we RoMem, een drop-in tijdgebonden kennisgrafiekmodule voor gestructureerde geheugensystemen, toepasbaar op agentgeheugen en daarbuiten. Een vooraf getrainde Semantische Snelheidsgate wijst de tekst-embedding van elke relatie toe aan een volatiliteitsscore, waarbij wordt geleerd uit data dat evoluerende relaties (bijv. "president van") snel moeten roteren terwijl persistente relaties (bijv. "geboren in") stabiel moeten blijven. Gecombineerd met continue faserotatie maakt dit geometrische shadowing mogelijk: verouderde feiten worden uit fase geroteerd in een complexe vectorruimte, zodat tijdelijk correcte feiten van nature contradicties overtreffen zonder verwijdering. Voor temporale kennisgrafiekaanvulling behaalt RoMem state-of-the-art resultaten op ICEWS05-15 (72.6 MRR). Toegepast op agentgeheugen levert het 2-3x hogere MRR en antwoordnauwkeurigheid op voor temporeel redeneren (MultiTQ), domineert het een hybride benchmark (LoCoMo), behoudt het statisch geheugen zonder degradatie (DMR-MSC), en generaliseert het zero-shot naar onzichtbare financiële domeinen (FinTMMBench).
In dit werk introduceren we een nieuw perspectief op comparatieve beeldbeoordeling door een beeldpaar voor te stellen als een gestructureerde compositie van zijn regio's. Bestaande methoden richten zich daarentegen op analyse van het gehele beeld, terwijl ze impliciet steunen op een begrip op regioniveau. Wij breiden het intra-beeld concept van een scenegrafie uit naar inter-beeld, en stellen een nieuwe taak voor: de Distortiegraaf (DG). DG behandelt gepaarde beelden als een gestructureerde topologie gebaseerd op regio's, en vertegenwoordigt dichte degradatie-informatie, zoals distortietype, ernst, vergelijking en kwaliteitsscore, in een compacte, interpreteerbare grafiekstructuur. Om de taak van het leren van een distortiegraaf te realiseren, leveren wij (i) een dataset op regioniveau, PandaSet, (ii) een benchmark suite, PandaBench, met variërende moeilijkheidsgraad op regioniveau, en (iii) een efficiënte architectuur, Panda, om distortiegrafen te genereren. Wij tonen aan dat PandaBench een aanzienlijke uitdaging vormt voor state-of-the-art multimodale large language models (MLLM's), omdat zij er niet in slagen degradaties op regioniveau te begrijpen, zelfs niet wanneer zij expliciete regionale cues krijgen aangeboden. Wij tonen aan dat training op PandaSet of prompting met DG een begrip van distortie per regio opwekt, wat een nieuwe richting opent voor fijnmazige, gestructureerde paarsgewijze beeldbeoordeling.
Key-Value (KV)-cache speelt een cruciale rol bij het versnellen van inferentie in grote taalmodellen (LLM's) door tussenliggende aandachtstoestanden op te slaan en redundante berekeningen te vermijden tijdens autoregressieve generatie. Het geheugenverbruik ervan schaalt echter lineair met de sequentielengte, wat vaak leidt tot ernstige geheugenknelpunten op hardware met beperkte middelen. Eerder onderzoek heeft de mogelijkheid verkend om de KV-cache naar de CPU uit te besteden, waarbij slechts een subset op de GPU wordt aangehouden. Deze benaderingen zijn echter vaak gebaseerd op onnauwkeurige tokenselectie en leiden tot prestatieverlies bij langere generatietaken, zoals redeneren in een gedachteketen. In dit artikel presenteren we een nieuwe KV-cachebeheerstrategie, IceCache, die semantische tokenclustering integreert met PagedAttention. Door semantisch verwante tokens te organiseren in aaneengesloten geheugengebieden die worden beheerd door een hiërarchische, dynamisch bijwerkbare gegevensstructuur, maakt onze methode efficiëntere tokenselectie en een beter gebruik van de geheugenbandbreedte mogelijk tijdens CPU-GPU-transfers. Experimentele resultaten op LongBench tonen aan dat IceCache, met een budget van 256 tokens, 99% van de oorspronkelijke nauwkeurigheid behoudt die wordt bereikt door het model met een volledige KV-cache. Verder bereikt IceCache, vergeleken met andere op uitbesteding gebaseerde methoden, vergelijkbare of zelfs superieure latentie en nauwkeurigheid terwijl slechts 25% van het KV-cache-tokenbudget wordt gebruikt, wat de effectiviteit ervan in langere-sequentiescenario's aantoont. De code is beschikbaar op onze projectwebsite: https://yuzhenmao.github.io/IceCache/.
Vision-language modellen (VLMs) behalen indrukwekkende prestaties op complexe multimodale redeneertaken, maar falen toch op eenvoudige grondvaardigheden zoals het tellen van objecten. Bestaande evaluaties beoordelen voornamelijk alleen de uiteindelijke uitvoer, wat beperkt inzicht biedt in waar deze fouten in het model ontstaan. In dit werk presenteren we een empirische studie naar het telgedrag van VLMs door middel van zowel gedrags- als mechanistische analyse. We introduceren COUNTINGTRICKS, een gecontroleerde evaluatieset van eenvoudige, op vormen gebaseerde telgevallen, ontworpen om kwetsbaarheden bloot te leggen onder verschillende patchificatielay-outs en adversariële promptomstandigheden. Met behulp van aandachtanalyse en componentgewijs onderzoek tonen we aan dat visueel bewijs relevant voor tellen het sterkst is in de modaliteitsprojectiefase, maar aanzienlijk afneemt in latere taallagen, waar modellen gevoeliger worden voor tekstuele prioriteiten. Gemotiveerd door deze bevinding evalueren we verder Modality Attention Share (MAS), een lichtgewicht interventie die een minimumbudget aan visuele aandacht aanmoedigt tijdens het genereren van antwoorden. Onze resultaten suggereren dat telmislukkingen in VLMs niet alleen voortkomen uit beperkingen in de visuele perceptie, maar ook uit het onvoldoende benutten van visueel bewijs tijdens de redeneerfase in de taallaag. Code en dataset worden vrijgegeven op https://github.com/leduy99/-CVPRW26-Modality-Attention-Share.
Onderzoek naar symbolische muziek heeft bijna uitsluitend gebruikgemaakt van op MIDI gebaseerde datasets; op tekst gebaseerde notatieformaten zoals LilyPond blijven onontgonnen terrein voor muziekbegrip. Wij presenteren BMdataset, een musicologisch samengestelde dataset van 393 LilyPond-partituren (2.646 delen) die door experts rechtstreeks zijn overgetrokken uit originele Barokhandschriften, met metadata over componist, muziekvorm, instrumentatie en sectiekenmerken. Voortbouwend op deze bron introduceren we LilyBERT (gewichten zijn te vinden op https://huggingface.co/csc-unipd/lilybert), een op CodeBERT gebaseerde encoder die is aangepast voor symbolische muziek door uitbreiding van de vocabulaire met 115 LilyPond-specifieke tokens en voorafgaande training met een gemaskeerd taalmodel. Lineaire probing op de niet-verwante Mutopia-corpus toont aan dat, ondanks de bescheiden omvang (~90M tokens), finetunen op enkel BMdataset beter presteert dan continue voorafgaande training op de volledige PDMX-corpus (~15B tokens) voor zowel componist- als stijlclassificatie. Dit demonstreert dat kleine, deskundig samengestelde datasets effectiever kunnen zijn dan grote, ruisrijke corpora voor muziekbegrip. Het combineren van brede voorafgaande training met domeinspecifiek finetunen levert de beste algehele resultaten op (84,3% nauwkeurigheid componist), wat bevestigt dat de twee data-regimes complementair zijn. Wij geven de dataset, tokenizer en model vrij om een basis te leggen voor representationeel leren op LilyPond.
Het synthetiseren van supervised finetuning (SFT)-data uit taalmodel(len) (TM/LM) om kleinere modellen meertalige taken aan te leren, is steeds gebruikelijker geworden. De selectie van het leraarmodel verloopt echter vaak ad hoc, waarbij meestal wordt uitgegaan van de grootste beschikbare optie, ook al kunnen dergelijke modellen aanzienlijke capaciteitshiaten vertonen in niet-Engelse talen. Deze praktijk kan resulteren in synthetische data van lage kwaliteit en suboptimale downstream-prestaties van het studentmodel. In dit werk karakteriseren we systematisch wat een effectieve meertalige leraar maakt. We meten intrinsieke maten van datakwaliteit samen met extrinsieke prestatie van studentmodellen in een metriek die we Polyglot Score noemen; we evalueren 10 TM's in 6 typologisch diverse talen, genereren meer dan 1,4 miljoen SFT-voorbeelden en trainen 240 studentmodellen. Van de geteste modellen komen Gemma 3 27B en Aya Expanse 32B naar voren als consistent effectieve leraren across verschillende student-basismodelfamilies. Verdere analyses tonen aan dat modelschaal alleen de effectiviteit van de leraar niet significant voorspelt; in plaats daarvan verklaren datakwaliteiten zoals promptdiversiteit, lengte en responsevloeiendheid meer dan 93,3% van de variantie in intrinsieke datakwaliteit en voorspellen ze de studentprestaties. Ten slotte doen we praktische aanbevelingen, zoals het matchen van de modelfamilies van leraar-studentparen en het vertalen van of reageren op bestaande prompts, wat verbeteringen kan opleveren voor talen met minder middelen. We hopen dat ons werk datagestuurd onderzoek in meertalige synthetische data en TM-ontwikkeling vooruit helpt.
Nauwkeurige lokalisatie van 3D-menselijke sleutelpunten is een cruciale technologie waarmee robots natuurlijke en veilige fysieke interactie met gebruikers kunnen bereiken. Conventionele methoden voor 3D-sleutelpuntenschatting richten zich voornamelijk op de kwaliteit van de volledige lichaamsreconstructie ten opzichte van het basisgewricht. In praktische scenario's van mens-robotinteractie (HRI) zijn robots echter meer gebaat bij de precieze metrische schaallokalisatie van taakrelevante lichaamsdelen binnen het egocentrische cameracoördinatenstelsel in 3D. Wij presenteren TAIHRI, het eerste Vision-Language Model (VLM) dat is toegesneden op close-range HRI-perceptie, dat gebruikersbewegingscommando's kan begrijpen en de aandacht van de robot kan richten op de meest taakrelevante sleutelpunten. Door 3D-sleutelpunten te kwantificeren in een eindige interactieruimte, lokaliseert TAIHRI de 3D-ruimtelijke coördinaten van kritieke lichaamsdelen nauwkeurig via 2D-sleutelpuntredenering door middel van volgende tokenvoorspelling, en past het naadloos aan bij downstreamtaken zoals natuurlijke taalbesturing of globaal ruimtelijk herstel van het menselijk mesh. Experimenten op egocentrische interactiebenchmarks tonen aan dat TAIHRI superieure schattingsnauwkeurigheid bereikt voor taakkritieke lichaamsdelen. Wij geloven dat TAIHRI nieuwe onderzoeksrichtingen opent op het gebied van embodied mens-robotinteractie. Code is beschikbaar op: https://github.com/Tencent/TAIHRI.
Dit artikel lokaliseert het mechanisme van beleidsroutering in taalmodellen die zijn getraind op naleving. Een aandachtspoort in een tussenlaag leest gedetecteerde inhoud en activeert diepere versterkerkoppen die het signaal richting weigering versterken. In kleinere modellen zijn de poort en versterker enkele koppen; op grotere schaal worden het banden van koppen over aangrenzende lagen. De poort draagt minder dan 1% bij aan de DLA van de output, maar interchange-testen (p<0,001) en knockout-cascade bevestigen dat deze causaal noodzakelijk is. Interchange-screening bij n>=120 detecteert hetzelfde motief in twaalf modellen van zes labs (2B tot 72B), hoewel specifieke koppen per lab verschillen. Per-kop-ablatie verzwakt tot 58x bij 72B en mist poorten die interchange wel identificeert; interchange is de enige betrouwbare audit op schaal. Het moduleren van het signaal in de detectielaag stuurt het beleid continu aan, van harde weigering via ontwijking tot feitelijk beantwoorden. Bij veiligheidsprompts verandert dezelfde interventie weigering in schadelijke richtlijnen, wat aantoont dat de veiligheidsgetrainde capaciteit wordt gegate door routering in plaats van verwijderd. Drempels variëren per onderwerp en per invoertaal, en het circuit verplaatst zich tussen generaties binnen een familie terwijl gedragsbenchmarks geen verandering registreren. Routering is vroeg-commitment: de poort commit op zijn eigen laag voordat diepere lagen klaar zijn met het verwerken van de input. Onder een in-context substitutiecijfer stort de noodzaak voor gate-interchange 70 tot 99% in over drie modellen en schakelt het model over op puzzeloplossen. Het injecteren van de gate-activatie van de platte tekst in de cipher forward pass herstelt 48% van de weigeringen in Phi-4-mini, wat de omzeiling lokaliseert naar de routeringsinterface. Een tweede methode, cipher contrastanalyse, gebruikt platte tekst/cijfer-DLA-verschillen om het volledige cipher-gevoelige routeringscircuit in O(3n) forward passes in kaart te brengen. Elke codering die patroonherkenning in de detectielaag verslaat, omzeilt het beleid, ongeacht of diepere lagen de inhoud reconstrueren.
Wij presenteren ATANT (Automated Test for Acceptance of Narrative Truth), een open evaluatieraamwerk voor het meten van continuïteit in AI-systemen: het vermogen om zinvolle context in de tijd te behouden, bij te werken, te disambigueren en te reconstrueren. Hoewel de AI-industrie geheugencomponenten heeft ontwikkeld (RAG-pipelines, vectordatabases, lange contextvensters, profiellagen), bestaat er geen gepubliceerd raamwerk dat formeel definieert of meet of deze componenten daadwerkelijke continuïteit opleveren. Wij definiëren continuïteit als een systeemeigenschap met 7 vereiste kenmerken, introduceren een evaluatiemethodologie met 10 checkpoints die functioneert zonder een LLM in de evaluatielus, en presenteren een narratieve testcorpus van 250 verhalen bestaande uit 1.835 verifikatievragen binnen 6 levensdomeinen. Wij evalueren een referentie-implementatie over 5 iteraties van de testsuite, met een vooruitgang van 58% (verouderde architectuur) naar 100% in geïsoleerde modus (250 verhalen) en 100% in cumulatieve modus met 50 verhalen, waarbij 96% wordt behaald op cumulatieve schaal met 250 verhalen. Het cumulatieve resultaat is de primaire maatstaf: wanneer 250 verschillende levensverhalen naast elkaar bestaan in dezelfde database, moet het systeem het correcte feit voor de juiste context kunnen ophalen zonder kruisbesmetting. ATANT is systeemonafhankelijk, model-onafhankelijk en ontworpen als een gestructureerde methodologie voor het bouwen en valideren van continuïteitssystemen. De raamwerkspecificatie, voorbeeldverhalen en evaluatieprotocollen zijn beschikbaar op https://github.com/Kenotic-Labs/ATANT. De volledige corpus van 250 verhalen wordt stapsgewijs vrijgegeven.
Dit tussentijdse technische rapport introduceert de SHARE-familie van basismodellen en de MIRROR gebruikersinterface. De SHARE-modellen zijn de eerste causale taalmodellen die volledig zijn voorgetraind door en voor de sociale wetenschappen en geesteswetenschappen (SSH). Hun prestaties in het modelleren van SSH-teksten benaderen die van algemene modellen (Phi-4) die 100 keer meer tokens gebruiken, zoals blijkt uit onze op maat gemaakte SSH Cloze-benchmark. De MIRROR-gebruikersinterface is ontworpen voor het beoordelen van tekstinput uit de SSH-disciplines, waarbij kritische betrokkenheid behouden blijft. Door een generatieve AI-interface te prototyperen die zelf geen tekst genereert, presenteren we een manier om de capaciteiten van de SHARE-modellen te benutten zonder de integriteit van SSH-principes en -normen aan te tasten.