Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Moderne grote taalmmodellen (LLM's) worden primair getraind om te "denken" via expliciete tekstgeneratie, zoals chain-of-thought (CoT). Dit verschuift het redeneerproces naar de post-trainingsfase en benut voor-trainingsdata suboptimaal. Wij presenteren en open-sourcen Ouro, vernoemd naar de recursieve Ouroboros: een familie van voorgetrainde Gelusde Taalmodellen (LoopLM) die redeneren juist inbouwden in de voor-trainingsfase door middel van (i) iteratieve berekening in de latente ruimte, (ii) een entropie-geregulariseerd doel voor geleide dieptetoewijzing, en (iii) schaling tot 7,7 biljoen tokens. De Ouro 1,4B- en 2,6B-modellen vertonen superieure prestaties die overeenkomen met de resultaten van state-of-the-art LLM's tot 12B op een breed scala aan benchmarks. Gecontroleerde experimenten tonen aan dat dit voordeel niet voortkomt uit een grotere kennis-capaciteit, maar uit superieure kennis-manipulatiecapaciteiten. We tonen ook aan dat LoopLM redeneersporen oplevert die beter in lijn zijn met de uiteindelijke outputs dan expliciete CoT. Wij hopen dat onze resultaten het potentieel van LoopLM aantonen als een nieuwe schalingsrichting in het redeneertijdperk. Ons model is te vinden op: http://ouro-llm.github.io.
Het onderzoeksgebied van neurale code-intelligentie breidt zich snel uit voorbij tekstgebaseerde broncode om ook de rijke visuele output te omvatten die programma's genereren. Deze visuele dimensie is cruciaal voor geavanceerde toepassingen zoals flexibele contentgeneratie en precieze, programmagedreven bewerking van visualisaties. De vooruitgang wordt echter belemmerd door een tekort aan hoogwaardige multimodale codegegevens, een knelpunt dat voortkomt uit uitdagingen bij synthese en kwaliteitsbeoordeling. Om deze uitdagingen aan te pakken, doen wij bijdragen vanuit zowel een data- als een modelleerperspectief. We introduceren eerst een complete synthese-toolkit die wederzijdse synergieën tussen datamodaliteiten benut om efficiënt een grootschalig, hoogwaardig corpus te produceren, variërend van standaardgrafieken tot complexe interactieve web-interfaces en code-gedreven animaties. Gebruikmakend van deze toolkit, construeren we JanusCode-800K, het grootste multimodale codecorpus tot op heden. Dit maakt de training mogelijk van onze modellen, JanusCoder en JanusCoderV, die een visueel-programmatische interface vestigen voor het genereren van code op basis van tekstuele instructies, visuele invoer, of een combinatie van beide. Ons verenigde model wijkt af van bestaande benaderingen die gespecialiseerde modellen bouwen voor geïsoleerde taken. Uitgebreide experimenten op zowel tekstgecentreerde als visiegecentreerde codeertaken tonen de superieure prestaties van de JanusCoder-serie aan, waarbij onze modellen op schaal van 7B tot 14B de prestaties van commerciële modellen benaderen of zelfs overtreffen. Verder biedt uitgebreide analyse belangrijke inzichten in het harmoniseren van programmatische logica met zijn visuele expressie. Onze code en checkpoints zijn beschikbaar op https://github.com/InternLM/JanusCoder.
Recente vooruitgang in beeldredeneermethoden, met name "Denken met Beelden", heeft opmerkelijke successen geboekt bij Multimodale Grote Taalmodellen (MLLM's); dit dynamische redeneerparadigma is echter nog niet uitgebreid naar videoredeneertaken. In dit artikel stellen we Video-Thinker voor, dat MLLM's in staat stelt te denken met video's door autonoom gebruik te maken van hun intrinsieke "grounding"- en "captioning"-capaciteiten om tijdens het redeneerproces aanwijzingen te genereren. Om deze capaciteit te activeren, construeren we Video-Thinker-10K, een gecureerde dataset met autonoom toolgebruik binnen chain-of-thought-redeneersequenties. Onze trainingsstrategie start met Supervised Fine-Tuning (SFT) om het redeneerformaat aan te leren, gevolgd door Group Relative Policy Optimization (GRPO) om deze redeneercapaciteit te versterken. Via deze aanpak stelt Video-Thinker MLLM's in staat om autonoom grounding- en captioningtaken voor videoredenering uit te voeren, zonder dat externe tools hoeven te worden geconstrueerd of aangeroepen. Uitgebreide experimenten tonen aan dat Video-Thinker aanzienlijke prestatieverbeteringen bereikt op zowel in-domeintaken als uitdagende out-of-domain videoredeneerbenchmarks, waaronder Video-Holmes, CG-Bench-Reasoning en VRBench. Onze Video-Thinker-7B presteert aanzienlijk beter dan bestaande baseline-modellen zoals Video-R1 en vestigt state-of-the-art prestaties onder 7B-grote MLLM's.
Dit monografisch werk presenteert de kernprincipes die de ontwikkeling van diffusiemodellen hebben geleid, waarbij de oorsprong wordt getraceerd en wordt getoond hoe diverse formuleringen voortkomen uit gedeelde wiskundige concepten. Diffusiemodellering begint met het definiëren van een voorwaarts proces dat data geleidelijk corrumpeert tot ruis, waardoor de dataverdeling via een continuüm van tussenliggende verdelingen wordt verbonden met een eenvoudige prior. Het doel is om een omgekeerd proces te leren dat ruis terugtransformeert naar data, waarbij dezelfde tussenliggende verdelingen worden hersteld. Wij beschrijven drie complementaire perspectieven. Het variationele perspectief, geïnspireerd door variationele auto-encoders, beschouwt diffusie als het stap voor stap leren verwijderen van ruis. Het score-gebaseerde perspectief, geworteld in energie-gebaseerd modelleren, leert de gradiënt van de evoluerende dataverdeling, wat aangeeft hoe samples naar waarschijnlijkere regio's kunnen worden gestuurd. Het stroomgebaseerde perspectief, verwant aan normaliserende stromen, behandelt generatie als het volgen van een glad pad dat samples van ruis naar data verplaatst onder een geleerd snelheidsveld. Deze perspectieven delen een gemeenschappelijke ruggengraat: een tijdsafhankelijk snelheidsveld waarvan de stroom een eenvoudige prior naar de data transporteert. Samplen komt dan neer op het oplossen van een differentiaalvergelijking die ruis langs een continue trajectorie evolueert naar data. Op deze basis bespreekt het werk richtlijnen voor controleerbare generatie, efficiënte numerieke oplossers, en door diffusie gemotiveerde stroomkaartmodellen die directe mappingen tussen willekeurige tijdstippen leren. Het biedt een conceptueel en wiskundig onderbouwd begrip van diffusiemodellen voor lezers met basiskennis van deep learning.
Autoformalisering, het vertalen van natuurlijketaalwiskunde naar machine-verifieerbare formele uitspraken, is cruciaal voor het gebruik van formeel wiskundig redeneren om wiskundeproblemen opgelost in natuurlijke taal op te lossen. Hoewel grote taalmodellen syntactisch correcte formele uitspraken kunnen genereren, slagen zij er vaak niet in de semantische intentie van het oorspronkelijke probleem te behouden. Deze beperking ontstaat doordat LLM-benaderingen autoformalisering behandelen als een simplistische vertaaltaak, waarbij mechanismen voor zelfreflectie en iteratieve verfijning ontbreken die menselijke experts van nature toepassen. Om deze problemen aan te pakken, stellen wij ReForm voor, een reflectieve autoformaliseringmethode die semantische consistentie-evaluatie nauw integreert in het autoformaliseringproces. Hierdoor kan het model iteratief formele uitspraken genereren, de semantische trouw ervan beoordelen en geïdentificeerde fouten zelf corrigeren door progressieve verfijning. Om dit reflectieve model effectief te trainen, introduceren wij Prospective Bounded Sequence Optimization (PBSO), dat verschillende beloningen gebruikt op verschillende sequentieposities om ervoor te zorgen dat het model zowel accurate autoformalisering als correcte semantische validaties ontwikkelt, waardoor oppervlakkige kritieken worden voorkomen die het doel van reflectie zouden ondermijnen. Uitgebreide experimenten over vier autoformaliseringbenchmarks tonen aan dat ReForm een gemiddelde verbetering van 17,2 procentpunten bereikt ten opzichte van de sterkste baselines. Om de betrouwbaarheid van de evaluatie verder te waarborgen, introduceren wij ConsistencyCheck, een benchmark van 859 door experts geannoteerde items die niet alleen LLM's als beoordelaars valideert, maar ook aantoont dat autoformalisering inherent moeilijk is: zelfs menselijke experts produceren semantische fouten in tot 38,5% van de gevallen.
Taalagenten in de praktijk moeten complexe, meerstaps werkstromen kunnen verwerken in uiteenlopende applicaties. Een agent kan bijvoorbeeld e-mails beheren door afstemming met agenda's en bestandssystemen, of een productiedatabase monitoren om anomalieën op te sporen en rapporten te genereren volgens een bedieningshandleiding. Bestaande benchmarks voor taalagenten richten zich echter vaak op smalle domeinen of vereenvoudigde taken, waarbij de diversiteit, realiteitsgetrouwheid en langetermijncomplexiteit ontbreekt die nodig zijn om de prestaties van agenten in de praktijk te evalueren. Om deze kloof te dichten, introduceren we de Tool Decathlon (ook wel Toolathlon genoemd), een benchmark voor taalagenten die diverse apps en tools biedt, een realistische omgevingopzet en een betrouwbare op uitvoering gebaseerde evaluatie. Toolathlon omvat 32 softwareapplicaties en 604 tools, variërend van alledaagse platforms zoals Google Calendar en Notion tot professionele zoals WooCommerce, Kubernetes en BigQuery. De meeste tools zijn gebaseerd op een hoogwaardige set Model Context Protocol (MCP)-servers die we mogelijk hebben herzien of zelf geïmplementeerd. In tegenstelling tot eerdere werken, die vooral functionele realisme waarborgen maar beperkte diversiteit in omgevingstoestanden bieden, bieden we realistische initiële omgevingstoestanden afkomstig uit echte software, zoals Canvas-cursussen met tientallen studenten of echte financiële spreadsheets. Deze benchmark omvat in totaal 108 handmatig verzamelde of vervaardigde taken, die gemiddeld ongeveer 20 interacties met meerdere apps vereisen om te voltooien. Elke taak is strikt verifieerbaar via toegewijde evaluatiescripts. Een uitgebreide evaluatie van state-of-the-art modellen benadrukt hun significante tekortkomingen: het best presterende model, Claude-4.5-Sonnet, behaalt slechts een slagingspercentage van 38,6% met gemiddeld 20,2 toolaanroepen, terwijl het topmodel met open gewichten, DeepSeek-V3.2-Exp, 20,1% bereikt. We verwachten dat Toolathlon de ontwikkeling zal stimuleren van capabelere taalagenten voor de uitvoering van realistische, langetermijntaken.
Op reinforcement learning (RL) gebaseerde naftraining is cruciaal geweest voor het mogelijk maken van meerstaps redeneren in grote redeneermodellen (LRM's), maar de huidige beloningsschema's zijn doorgaans resultaatgericht. Wij stellen PM4GRPO voor, een redeneringsbewuste Group Relative Policy Optimization (GRPO) die standaard antwoord-/opmaakbeloningen aanvult met signalen over het redeneerproces. Hiertoe worden procesminingtechnieken gebruikt om een scalaire conformiteitsbeloning te berekenen die meet hoe nauw de redenering van een beleidsmodel aansluit bij het voorgetrainde leraarmodel. De empirische resultaten op vijf benchmarks tonen aan dat PM4GRPO aanzienlijk beter presteert dan bestaande methodologieën voor GRPO-gebaseerde naftraining. Deze resultaten benadrukken dat het gebruik van procesmining voor redeneringsbewuste GRPO de redeneervermogens van beleidsmodellen effectief verbetert.
Wij presenteren Ming-Flash-Omni, een geüpgradede versie van Ming-Omni, gebaseerd op een spaardere Mixture-of-Experts (MoE)-variant van Ling-Flash-2.0 met in totaal 100 miljard parameters, waarvan slechts 6,1 miljard actief zijn per token. Deze architectuur maakt zeer efficiënte schaalvergroting mogelijk (wat de rekenkundige efficiëntie aanzienlijk verbetert terwijl de modelcapaciteit sterk wordt uitgebreid) en bevordert een krachtigere, verenigde multimodale intelligentie voor visie, spraak en taal, wat een belangrijke stap richting Artificial General Intelligence (AGI) vertegenwoordigt. In vergelijking met zijn voorganger vertoont de geüpgradede versie aanzienlijke verbeteringen op het gebied van multimodaal begrip en generatie. Wij hebben de spraakherkenningsmogelijkheden aanzienlijk verbeterd, waarbij state-of-the-art prestaties worden behaald in contextuele ASR en zeer competitieve resultaten in dialectbewuste ASR. Bij beeldgeneratie introduceert Ming-Flash-Omni hoogwaardige tekstweergave en laat het aanzienlijke verbeteringen zien in scenconsistentie en identiteitsbehoud tijdens beeldbewerking. Bovendien introduceert Ming-Flash-Omni generatieve segmentatie, een mogelijkheid die niet alleen sterke standalone segmentatieprestaties bereikt, maar ook de ruimtelijke controle bij beeldgeneratie verbetert en de bewerkingsconsistentie vergroot. Opmerkelijk is dat Ming-Flash-Omni state-of-the-art resultaten behaalt in tekst-naar-beeld-generatie en generatieve segmentatie, en nieuwe records vestigt op alle 12 contextuele ASR-benchmarks, allemaal binnen één verenigde architectuur.
Visuele effecten (VFX) zijn cruciaal voor de expressieve kracht van digitale media, maar het genereren ervan blijft een grote uitdaging voor generatieve AI. Gangbare methodes baseren zich vaak op het paradigma van één-LoRA-per-effect, wat resource-intensief is en fundamenteel niet in staat is om te generaliseren naar ongeziene effecten, wat de schaalbaarheid en creatie beperkt. Om deze uitdaging aan te pakken, introduceren we VFXMaster, het eerste verenigde, referentiegebaseerde framework voor VFX-videogeneratie. Het herformuleert effectgeneratie als een in-context leertaak, waardoor het in staat is diverse dynamische effecten van een referentievideo op doelcontent te reproduceren. Bovendien vertoont het opmerkelijke generalisatie naar ongeziene effectcategorieën. Concreet ontwerpen we een in-context conditioneringsstrategie die het model prompt met een referentievoorbeeld. Een in-context aandachtmasker is ontworpen om de essentiële effectattributen precies te ontkoppelen en in te brengen, waardoor een enkel verenigd model de effectimitatie onder de knie krijgt zonder informatielek. Daarnaast stellen we een efficiënt one-shot effectaanpassingsmechanisme voor om de generalisatiecapaciteit voor lastige, ongeziene effecten snel te verbeteren op basis van een enkele door de gebruiker geleverde video. Uitgebreide experimenten tonen aan dat onze methode effectief diverse categorieën effectinformatie imiteert en uitstekende generalisatie vertoont naar effecten buiten het domein. Om toekomstig onderzoek te bevorderen, zullen we onze code, modellen en een uitgebreide dataset vrijgeven aan de gemeenschap.
Onlangs heeft op instructies gebaseerde beeldbewerking (IIE) brede aandacht gekregen. In de praktijk wijzigt IIE vaak alleen specifieke delen van een afbeelding, terwijl de resterende gebieden grotendeels onveranderd blijven. Hoewel deze twee soorten regio's aanzienlijk verschillen in generatiemoeilijkheid en computationele redundantie, houden bestaande IIE-modellen geen rekening met dit onderscheid; in plaats daarvan passen ze een uniform generatieproces toe op de gehele afbeelding. Dit motiveerde ons om RegionE voor te stellen, een adaptief, regio-bewust generatieraamwerk dat IIE-taken versnelt zonder aanvullende training. Specifiek bestaat het RegionE-raamwerk uit drie hoofdcomponenten: 1) Adaptieve Regiopartitionering. We observeerden dat de trajectorie van onbewerkte regio's rechtlijnig is, waardoor meerstaps gedenoise voorspellingen in één stap afgeleid kunnen worden. Daarom partitioneren we de afbeelding in de vroege denoisestadia in bewerkte en onbewerkte regio's op basis van het verschil tussen het uiteindelijke geschatte resultaat en de referentieafbeelding. 2) Regio-bewuste Generatie. Na het onderscheiden van de regio's vervangen we meerstaps denoising door éénstaps voorspelling voor onbewerkte gebieden. Voor bewerkte regio's is de trajectorie gekromd, wat lokale iteratieve denoising vereist. Om de efficiëntie en kwaliteit van lokale iteratieve generatie te verbeteren, stellen we de Regio-Instructie KV Cache voor, die de computationele kosten verlaagt terwijl globale informatie wordt geïntegreerd. 3) Adaptieve Snelheidsvervallingscache. Omdat we observeerden dat aangrenzende tijdstappen in bewerkte regio's een sterke snelheidsgelijkenis vertonen, stellen we verder een adaptieve snelheidsvervallingscache voor om het lokale denoiseproces te versnellen. We pasten RegionE toe op state-of-the-art IIE-basismodellen, waaronder Step1X-Edit, FLUX.1 Kontext en Qwen-Image-Edit. RegionE behaalde versnellingsfactoren van respectievelijk 2.57, 2.41 en 2.06. Evaluaties door GPT-4o bevestigden dat semantische en perceptuele getrouwheid goed bewaard bleven.
Biomoleculaire interacties vormen de basis van bijna alle biologische processen, en hun rationele ontwerp is essentieel voor het programmeren van nieuwe biologische functies. Generatieve AI-modellen zijn naar voren gekomen als krachtige hulpmiddelen voor moleculair ontwerp, maar de meeste blijven gespecialiseerd voor individuele molecuultypes en missen gedetailleerde controle over interactiekenmerken. Hier presenteren wij ODesign, een all-atom generatief wereldmodel voor all-to-all biomoleculair interactieontwerp. ODesign stelt wetenschappers in staat om epitopen op willekeurige doelen te specificeren en diverse klassen van bindingspartners te genereren met gedetailleerde controle. In entity-, token- en atom-level benchmarks in de proteinmodaliteit demonstreert ODesign superieure bestuurbaarheid en prestaties vergeleken met modaliteit-specifieke baseline-modellen. Voorbij proteïnen generaliseert het naar nucleïnezuur- en kleinmolecuulontwerp, waardoor interactietypen mogelijk worden zoals proteïne-bindend RNA/DNA en RNA/DNA-bindende liganden die voorheen ontoegankelijk waren. Door multimodale biomoleculaire interacties te verenigen binnen een enkel generatief kader, beweegt ODesign zich richting een algemeen toepasbaar moleculair wereldmodel dat programmeerbaar ontwerp mogelijk maakt. ODesign is beschikbaar op https://odesign.lglab.ac.cn.
Retrieval Augmented Generation (RAG)-systemen worden steeds belangrijker in dynamische domeinen zoals online gaming, maar het ontbreken van een toegewijde benchmark heeft gestandaardiseerde evaluatie op dit gebied belemmerd. De kernmoeilijkheid schuilt in Dual Dynamics: de constante wisselwerking tussen updates van de spelinhoud en de verschuivende focus van de spelersgemeenschap. Bovendien introduceert de noodzaak om een dergelijke benchmark te automatiseren een kritieke vereiste voor authenticiteit vanuit spelersperspectief, om ervoor te zorgen dat gegenereerde vragen realistisch zijn. Om deze geïntegreerde uitdaging aan te pakken, introduceren wij ChronoPlay, een nieuw raamwerk voor de geautomatiseerde en continue generatie van game-RAG-benchmarks. ChronoPlay maakt gebruik van een dual-dynamisch updatemechanisme om beide vormen van verandering te volgen, en een dual-source synthese-engine die put uit officiële bronnen en de spelersgemeenschap om zowel feitelijke correctheid als authentieke vraagpatronen te waarborgen. Wij concretiseren ons raamwerk op drie verschillende games om de eerste dynamische RAG-benchmark voor het gamedomein te creëren, wat nieuwe inzichten biedt in modelprestaties onder deze complexe en realistische omstandigheden. Code is beschikbaar op: https://github.com/hly1998/ChronoPlay.
Mensen beschikken over ruimtelijk redeneervermogen dat hen in staat stelt om ruimtes te begrijpen door middel van multimodale waarnemingen, zoals zicht en geluid. Grote multimodale redeneermodellen breiden deze vaardigheden uit door te leren waarnemen en redeneren, waarbij ze veelbelovende prestaties laten zien bij diverse ruimtelijke taken. Systematische overzichten en vrij toegankelijke benchmarks voor deze modellen blijven echter beperkt. In dit overzicht bieden we een uitgebreide evaluatie van multimodale ruimtelijke redeneertaken met grote modellen, categoriseren we recente vooruitgang in multimodale grote taalmodellen (MLLM's) en introduceren we open benchmarks voor evaluatie. We beginnen met een schets van algemeen ruimtelijk redeneren, met focus op post-trainingstechnieken, verklaarbaarheid en architectuur. Voorbij klassieke 2D-taken onderzoeken we het redeneren over ruimtelijke relaties, begrip van scènes en indelingen, evenals visuele vraagbeantwoording en grounding in 3D-ruimte. We evalueren ook vooruitgang in embodied AI, inclusief visie-taalnavigatie en actiemodellen. Daarnaast beschouwen we opkomende modaliteiten zoals audio en egocentrische video, die bijdragen aan nieuw ruimtelijk begrip door nieuwe sensoren. Wij zijn van mening dat dit overzicht een solide basis legt en inzichten biedt in het groeiende veld van multimodaal ruimtelijk redeneren. Geüpdatete informatie over dit overzicht, codes en implementatie van de open benchmarks zijn te vinden op https://github.com/zhengxuJosh/Awesome-Spatial-Reasoning.
De snelle vooruitgang en wijdverspreide inzet van LLM's en door LLM's aangedreven agents heeft ons vermogen om ze te evalueren overtroffen. Handmatig gemaakte, statische benchmarks zijn het belangrijkste instrument voor het beoordelen van modelcapaciteiten, maar deze raken snel verzadigd. Dynamische benchmarks daarentegen evolueren mee met de modellen die ze evalueren, maar zijn duur om te creëren en continu bij te werken. Om deze uitdagingen aan te pakken, ontwikkelen we BeTaL (Benchmark Tuning with an LLM-in-the-loop), een raamwerk dat ontwerpprincipes voor omgevingen benut om het proces van dynamisch benchmarkontwerp te automatiseren. BeTaL werkt door belangrijke ontwerpkeuzes in basisbenchmark-sjablonen te parametriseren en gebruikt LLM's om door de resulterende parameterruimte te redeneren om op een kostenefficiënte manier gewenste eigenschappen (zoals moeilijkheidsgraad en realisme) te verkrijgen. We valideren deze aanpak aan de hand van het vermogen om benchmarks met gewenste moeilijkheidsniveaus te creëren. Met BeTaL creëren we twee nieuwe benchmarks en breiden we een populaire agent-gebaseerde benchmark, tau-bench, uit. Uitgebreide evaluatie van deze drie taken op meerdere doel-moeilijkheidsniveaus toont aan dat BeTaL benchmarks produceert die veel dichter bij de gewenste moeilijkheidsgraad liggen, met gemiddelde afwijkingen variërend van 5,3% tot 13,2% – een 2 tot 4 keer verbetering ten opzichte van de basislijnen.
Wij presenteren Gaperon, een volledig open suite van Frans-Engels-coderende taalmodellen, ontworpen om transparantie en reproduceerbaarheid in grootschalige modeltraining te bevorderen. De Gaperon-familie omvat modellen van 1,5B, 8B en 24B parameters, getraind op 2-4 biljoen tokens, en wordt vrijgegeven met alle elementen van de trainingspijplijn: Franse en Engelse datasets gefilterd met een neurale kwaliteitsclassificator, een efficiënt framework voor datacuratie en training, en honderden tussentijdse checkpoints. Via dit werk onderzoeken we hoe datafiltering en contaminatie interacteren om zowel benchmark- als generatieve prestaties te vormen. Wij constateren dat filteren op linguïstische kwaliteit tekstvloeiendheid en coherentie verbetert, maar tot ondermaatse benchmarkresultaten leidt, en dat late doelbewuste contaminatie – het voortzetten van training op datamengsels die testverzamelingen bevatten – competitieve scores herstelt terwijl het de generatiekwaliteit slechts in redelijke mate schaadt. Wij bespreken hoe gebruikelijke neurale filtering onbedoeld benchmarklekkage kan versterken. Om verder onderzoek te ondersteunen, introduceren we ook onschadelijke datavergiftiging tijdens de voortraining, wat een realistische testomgeving biedt voor veiligheidsstudies. Door alle modellen, datasets, code en checkpoints openbaar vrij te geven, legt Gaperon een reproduceerbare basis voor het verkennen van de afwegingen tussen datacuratie, evaluatie, veiligheid en openheid in meertalige taalmodellontwikkeling.
Grote Taalmodellen (LLM's) zijn krachtig, maar voor praktijktoepassingen tijdens inferentie vaak te traag en kostbaar. Gelusde transformers besparen op parameters door dezelfde gewichten te hergebruiken voor meerdere rekenstappen, of "lussen". Deze aanpak heeft echter een groot nadeel: de lussen worden na elkaar uitgevoerd, waardoor de inferentielatentie en het geheugengebruik toenemen met elke toegevoegde lus. Dit maakt ze onpraktisch voor snelle toepassingen. Om dit probleem op te lossen, introduceren we de Parallelle Lus Transformer (PLT). PLT is een nieuwe architectuur die de prestatievoordelen biedt van een diep, gelust model, maar met de lage latentie van een standaard, niet-gelust model. PLT werkt met twee kerntechnieken. Ten eerste verbreekt Parallelisme tussen Lussen (Cross-Loop Parallelism, CLP) de sequentiële afhankelijkheid door verschillende lussen voor verschillende tokens gelijktijdig te berekenen, allemaal binnen één enkele doorloop. Ten tweede gebruiken we een Strategie voor Efficiënte Representatieverbetering om te voorkomen dat de geheugenkosten oplopen. Deze methode deelt het geheugen (KV-cache) van de eerste lus met alle andere lussen. Vervolgens gebruikt ze een Geglijd Aandachtsvenster met Poort (Gated Sliding-Window Attention, G-SWA) om deze gedeelde globale informatie te combineren met lokale informatie, waarbij een hoge nauwkeurigheid behouden blijft. Onze experimenten tonen aan dat PLT de hoge nauwkeurigheid van een traditioneel gelust model bereikt, maar met vrijwel geen extra latentie of geheugenkosten in vergelijking met een standaard transformer.
Geünificeerde visie-taalmodellen (UVLM's) moeten zowel begrip als generatie uitvoeren binnen een enkele architectuur, maar deze taken steunen op heterogene data en supervisie, wat het moeilijk maakt ze in evenwicht te brengen tijdens reinforcement learning (RL). Wij stellen PairUni voor, een geünificeerd raamwerk dat data reorganiseert in begrip-generatie (UG) paren en de optimalisatie dienovereenkomstig afstemt. We gebruiken eerst GPT-4 om enkelvoudige-taakdata aan te vullen, door bijschriften te genereren voor begripsmonsters en vraag-antwoord (QA) paren voor generatiemonsters, zodat er afgestemde paren vanuit dezelfde instantie worden gevormd. Daarnaast halen we voor elk generatiemonster een semantisch verwant begripsvoorbeeld op om een opgehaald paar te vormen, waardoor verschillende maar gerelateerde datapunten worden verbonden. Deze gepaarde structuren leggen semantische correspondenties tussen taken bloot en ondersteunen consistent beleidsleren. Om deze structuur te benutten, presenteren we Pair-GPRO, een paar-bewuste variant gebaseerd op Group Relative Policy Optimization. Het kent een similariteitsscore toe aan elk paar om het voordeel te moduleren, waardoor het leren van goed afgestemde voorbeelden wordt versterkt en taakinterferentie wordt verminderd. We hebben een hoogwaardige dataset van 16K UG paren samengesteld, genaamd PairUG, voor RL-finetuning en evalueren PairUni op de krachtige Janus-Pro UVLM's. Onze aanpak bereikt gebalanceerde verbeteringen op diverse UVLM's en overtreft sterke UVLM RL-basislijnen. Code: https://github.com/Haochen-Wang409/PairUni
Praktische implementatie van Multi-Agent Systemen (MAS) vereist sterke prestaties tijdens het testen, wat methoden motiveert die de zoektocht tijdens de inferentie begeleiden en rekenkracht selectief inzetten om de kwaliteit te verbeteren. Wij presenteren het Multi-Agent System Process Reward Model (MASPRM). Het wijst per-actie, per-agent waarden toe aan gedeeltelijke inter-agent transcripties en fungeert als een controller tijdens de inferentie. MASPRM wordt getraind op basis van multi-agent Monte Carlo Tree Search (MCTS) rollouts zonder stap-voor-stap menselijke annotaties nodig te hebben, door returns door te geven aan lokale doelen. Tijdens de inferentie begeleidt MASPRM stap-voor-stap beam search en MCTS, waarbij rekenkracht wordt gericht op veelbelovende takken en vroegtijdig wordt gesnoeid. Op GSM8K en MATH verbetert MASPRM-geleide decodering met een outcome reward model (ORM) toegepast op het definitieve antwoord, de exacte match (EM) ten opzichte van een enkele straight-through MAS-passage met respectievelijk +30,7 en +22,9 punten. Een MASPRM getraind op GSM8K transfereert zero-shot naar MATH zonder hertraining, en voegt 8,4 EM-punten toe bij hetzelfde budget. MASPRM is een plug-in waardemodel dat de voortgang per agent inschat en verifier-style decoders complementeert, waardoor betrouwbaardere, rekening houdende met rekenkracht, multi-agent redenering mogelijk wordt. Code: https://github.com/milad1378yz/MASPRM
In dit artikel presenteren we een raamwerk voor het trainen van grote taalmmodellen (LLM's) als diagnostische agenten met reinforcement learning, waardoor ze in staat zijn om meerronde diagnostische processen te beheren, adaptief onderzoeken te selecteren en zich te committeren aan einddiagnoses. In tegenstelling tot instructie-afgestemde modellen die zijn getraind op statische casusoverzichten, verkrijgt onze methode diagnostische strategieën door middel van interactieve verkenning en op uitkomsten gebaseerde feedback. Onze bijdragen zijn vierledig: (i) We presenteren DiagGym, een diagnostisch wereldmodel getraind met elektronische patiëntendossiers dat onderzoeksuitkomsten genereert op basis van patiëntengeschiedenis en aanbevolen onderzoek, en dat fungeert als een virtuele klinische omgeving voor realistische diagnosetraining en -evaluatie; (ii) We trainen DiagAgent via end-to-end, meerronde reinforcement learning om diagnostische beleidsregels aan te leren die zowel de informatieopbrengst als de diagnostische nauwkeurigheid optimaliseren; (iii) We introduceren DiagBench, een diagnostische benchmark bestaande uit 750 casussen met door artsen gevalideerde onderzoeksaanbevelingen en 99 casussen geannoteerd met 973 door artsen geschreven beoordelingscriteria voor het diagnose-proces; (iv) We demonstreren superieure prestaties in diverse diagnostische settings. DiagAgent presteert significant beter dan 10 state-of-the-art LLM's, waaronder DeepSeek-v3 en GPT-4o, evenals twee prompt-gemanipuleerde agenten. In enkelronde settings behaalt DiagAgent 9,34% hogere diagnostische nauwkeurigheid en een 44,03% verbetering in de trefferratio voor onderzoeksaanbevelingen. In end-to-end settings levert het een stijging van 15,12% in diagnostische nauwkeurigheid en een verbetering van 23,09% in de F1-score voor onderzoeksaanbevelingen op. In de op beoordelingscriteria gebaseerde evaluatie overtreft het het op een na beste model, Claude-sonnet-4, met 7,1% in gewogen criteriumscore. Deze bevindingen geven aan dat het aanleren van beleidsregels in interactieve klinische omgevingen dynamische en klinisch betekenisvolle diagnostische managementvaardigheden biedt die niet bereikbaar zijn via passieve training alleen.
Recente vooruitgang in rijsimulatiemodellen maakt de aansturing van hoogwaardige RGB-video's of multimodale video's mogelijk. Bestaande methodes richten zich voornamelijk op metrieken met betrekking tot de generatiekwaliteit en aanstuurbaarheid. Echter, ze verwaarlozen vaak de evaluatie van downstream-perceptietaken, die cruciaal zijn voor de prestaties van autonoom rijden. Bestaande methodes gebruiken meestal een trainingsstrategie die eerst voorgetraind wordt op synthetische data en daarna wordt afgestemd op echte data, wat resulteert in tweemaal zoveel epochs vergeleken met de baseline (alleen echte data). Wanneer we het aantal epochs in de baseline verdubbelen, wordt het voordeel van synthetische data verwaarloosbaar. Om het voordeel van synthetische data grondig aan te tonen, introduceren we Dream4Drive, een nieuw raamwerk voor synthetische datageneratie, ontworpen om downstream-perceptietaken te verbeteren. Dream4Drive decomposeert eerst de invoervideo in verschillende 3D-aware begeleidingskaarten en rendert vervolgens de 3D-assets op deze begeleidingskaarten. Ten slotte wordt het rijsimulatiemodel afgestemd om de bewerkte, multi-view fotorealistische video's te produceren, die kunnen worden gebruikt om de downstream-perceptiemodellen te trainen. Dream4Drive biedt een ongekende flexibiliteit bij het grootschalig genereren van multi-view corner cases, wat de perceptie van corner cases in autonoom rijden aanzienlijk verbetert. Om toekomstig onderzoek te vergemakkelijken, dragen we ook een grootschalige 3D-assetdataset genaamd DriveObj3D bij, die de typische categorieën in rijsenario's dekt en diverse 3D-aware videobewerking mogelijk maakt. We voeren uitgebreide experimenten uit om aan te tonen dat Dream4Drive de prestaties van downstream-perceptiemodellen effectief kan verbeteren onder verschillende trainingsepochs. Pagina: https://wm-research.github.io/Dream4Drive/ GitHub Link: https://github.com/wm-research/Dream4Drive
Versterkend leren met verifieerbare beloningen (RLVR) is naar voren gekomen als een veelbelovend paradigma voor het verbeteren van de redeneercapaciteiten van grote taalmodellen (LLM's). In deze context verkennen modellen redeneertrajecten en benutten ze rollouts met correcte antwoorden als positieve signalen voor beleidsoptimalisatie. Deze rollouts kunnen echter gebrekkige patronen bevatten, zoals het gokken van antwoorden en sprongsgewijs redeneren. Dergelijke gebrekkig-positieve rollouts worden op dezelfde manier beloond als volledig correcte, waardoor beleidsmodellen deze onbetrouwbare redeneerpatronen internaliseren. In dit werk voeren we eerst een systematische studie uit naar gebrekkig-positieve rollouts bij RL en ontdekken we dat ze in de vroege optimalisatiefase snelle capaciteitswinst mogelijk maken, maar later de redeneercapaciteit beperken door onbetrouwbare patronen te versterken. Op basis van deze inzichten stellen we Foutbewuste Beleidsoptimalisatie (FAPO) voor, welke een parameter-vrije beloningsstraf introduceert voor gebrekkig-positieve rollouts. Hierdoor kan het beleid ze in de opstartfase benutten als nuttige shortcuts, wat stabiele vroege winst garandeert, terwijl de optimalisatie in de latere verfijningsfase geleidelijk verschuift naar betrouwbaar redeneren. Om gebrekkig-positieve rollouts nauwkeurig en uitgebreid te detecteren, introduceren we een generatief beloningsmodel (GenRM) met een procesniveau-beloning dat redeneerfouten precies lokaliseert. Experimenten tonen aan dat FAPO effectief is in brede domeinen, waarbij het de correctheid van uitkomsten, de betrouwbaarheid van het proces en de trainingsstabiliteit verbetert zonder het tokenbudget te verhogen.
Recente vooruitgang in tekstgebaseerde grote taalmmodellen (LLM's), zoals DeepSeek-R1, toont opmerkelijke redeneervermogens aan. Deze modellen blijven echter kwetsbaar of volledig onbekwaam wanneer ze worden uitgebreid naar multimodale taken. Bestaande benaderingen steunen grotendeels op bijschriften van één vorm, die weinig diversiteit bieden en vaak niet kunnen worden aangepast aan verschillende soorten benchmarks voor visuele vraag-antwoordtaken (VQA). Hierdoor bieden ze geen principiële of efficiënte manier om fijnmazige visuele informatie over te dragen. Wij introduceren Seeing Eye, een modulair raamwerk dat multimodaal redeneren in tekstgebaseerde LLM's ontsluit via een op agenten gebaseerde kleine VLM-vertaler. Deze vertaler fungeert als een perceptie-agent: hij kan gespecialiseerde tools aanroepen (bijvoorbeeld OCR en bijsnijden) en multimodale invoer iteratief destilleren tot gestructureerde tussenvoorstellingen (SIR's) die zijn afgestemd op de vraag. Deze SIR's worden vervolgens doorgegeven aan de tekstgebaseerde LLM, die dient als een redeneer-agent. Cruciaal is dat de vertaler en de redeneerder deelnamen aan meerronde feedback en interactie, waardoor het mogelijk wordt gerichte visuele details te extraheren en meer zelfverzekerde antwoorden te produceren. Experimenten op kennisintensieve VQA-benchmarks, waaronder MMMU en MIA-Bench, tonen aan dat Seeing Eye niet alleen de inferentiekosten verlaagt, maar ook grotere end-to-end VLM's overtreft. Een instantiatie die een visievertaler van 3B parameters combineert met een taalredeneerder van 8B parameters presteert bijvoorbeeld beter dan een monolithische VLM van 32B op uitdagende kennisgebaseerde vragen. Onze resultaten benadrukken dat het ontkoppelen van perceptie en redeneren via agent-informatieflow een schaalbare en plug-and-play-weg biedt naar multimodaal redeneren, waardoor sterke tekstgebaseerde LLM's hun redeneervermogens volledig kunnen benutten. Code is beschikbaar op: https://github.com/ulab-uiuc/SeeingEye
Het redenerende grote taalmodel (RLLM) heeft bewezen concurrerend te zijn in het oplossen van complexe redeneertaken, zoals wiskunde en coderen, in vergelijking met algemene LLM's. Desalniettemin blijven de prestaties en het gedrag van RLLM's tijdens het serveren ononderzocht, wat de inzet en het gebruik van RLLM's in realistische scenario's kan ondermijnen. Om deze kloof te dichten, voeren we in dit artikel een uitgebreide studie uit naar RLLM-diensten. We beginnen met een vooronderzoek waarin we de serverprestaties van RLLM's en traditionele LLM's vergelijken en tonen aan dat er verschillende duidelijke verschillen zijn in servergedrag: (1) aanzienlijk geheugengebruik en fluctuaties; (2) achterblijvende verzoeken; (3) adaptieve looptijd; (4) domeinvoorkeur. Vervolgens onderzoeken we verder of bestaande inferentie-optimalisatietechnieken geldig zijn voor RLLM's. Onze belangrijkste bevindingen zijn dat modelkwantiseringsmethoden en speculatief decoderen de efficiëntie van het servicesysteem kunnen verbeteren met een kleine inbreuk op de nauwkeurigheid van RLLM's, terwijl prefix-caching en KV-cache-kwantisering de nauwkeurigheid of serverprestaties voor kleine RLLM's zelfs kunnen verslechteren. Ten slotte voeren we een evaluatie uit onder een realistische werklast gemodelleerd door een Gamma-verdeling om onze bevindingen te verifiëren. Empirische resultaten van de evaluatie van realistische werklasten over verschillende datasets komen overeen met onze belangrijkste bevindingen over RLLM-serveren. We hopen dat ons werk de onderzoeksgemeenschap en de industrie inzichten kan bieden om de inferentieservering van RLLM's te bevorderen.
De ontwikkeling van kunstmatige intelligentie (KI), inclusief KI in de wetenschap (KIDW), dient plaats te vinden volgens de principes van verantwoorde KI. Vooruitgang in verantwoorde KI wordt vaak gekwantificeerd door middel van evaluatiemetrics, maar er is minder werk verricht om de robuustheid en betrouwbaarheid van de metrics zelf te beoordelen. Wij reflecteren op eerder onderzoek dat de robuustheid van fairness-metrics voor aanbevelingssystemen als een type KI-toepassing onderzoekt, en vatten de belangrijkste bevattingen samen in een reeks niet-uitputtende richtlijnen voor het ontwikkelen van betrouwbare metrics voor verantwoorde KI. Onze richtlijnen zijn van toepassing op een breed spectrum van KI-toepassingen, inclusief KIDW.
De snelle vooruitgang van grote taalmmodellen (Large Language Models, LLM's) heeft de behoefte aan domein- en cultuurspecifieke evaluatie geïntensiveerd. Bestaande benchmarks zijn grotendeels anglocentrisch en domein-agnostisch, wat hun toepasbaarheid op India-gerichte contexten beperkt. Om dit gat te dichten, introduceren wij BhashaBench V1, de eerste domeinspecifieke, multitask-, tweetalige benchmark die zich richt op kritieke Indiase kennissystemen. BhashaBench V1 bevat 74.166 zorgvuldig samengestelde vraag-antwoordparen, waarvan 52.494 in het Engels en 21.672 in het Hindi, afkomstig uit authentieke overheids- en domeinspecifieke examens. Het bestrijkt vier belangrijke domeinen: Landbouw, Juridisch, Financieel en Ayurveda, bestaande uit 90+ subdomeinen en behandelt 500+ onderwerpen, wat een fijnmazige evaluatie mogelijk maakt. Evaluatie van 29+ LLM's onthult significante domein- en taal specifieke prestatiekloven, met name grote verschillen in domeinen met weinig bronnen. GPT-4o behaalt bijvoorbeeld 76,49% algemene nauwkeurigheid in het juridisch domein, maar slechts 59,74% in Ayurveda. Modellen presteren consistent beter op Engelstalige inhoud vergeleken met Hindi in alle domeinen. Analyse op subdomeinniveau toont aan dat gebieden zoals Cyberrecht en Internationale Financiën relatief goed presteren, terwijl Panchakarma, Zaadwetenschap en Mensenrechten opmerkelijk zwak blijven. BhashaBench V1 biedt een uitgebreide dataset voor het evalueren van grote taalmmodellen binnen India's diverse kennisdomeinen. Het maakt beoordeling mogelijk van het vermogen van modellen om domeinspecifieke kennis te integreren met tweetalig begrip. Alle code, benchmarks en bronnen zijn openbaar beschikbaar om open onderzoek te ondersteunen.
Naarmate gecentraliseerde AI rekencapaciteitsplafonds bereikt en tegenvallende rendementen ziet van steeds grotere trainingsruns, vereist het vervullen van de vraag een inferentielaag die horizontaal schaalt in zowel capaciteit als vermogen. Wij presenteren Fortytwo, een nieuw protocol dat zwermintelligentieprincipes en gedistribueerde paarsgewijze rangschikkingsconsensus benut om superieure prestaties bij AI-inferentie te bereiken. Onze aanpak herdefinieert samenwerking tussen AI-knooppunten met zwerminferentie: een peer-beoordeelde, reputatie-gewogen consensus over heterogene modellen heen die de hoogst-kwalitatieve antwoorden naar voren brengt. Door paarsgewijze rangschikking met een aangepast Bradley-Terry-stijl aggregatiemodel te gebruiken, tonen we aan dat zwerminferentie aanzienlijk beter presteert dan meerderheidsstemmen, met 85,90% op GPQA Diamond versus 68,69% voor meerderheidsstemmen met dezelfde modelset – een verbetering van +17,21 procentpunten (ongeveer +25,1% relatief). Het protocol bevat on-chain reputatie, zodat de invloed van knooppunten zich aanpast aan bewezen nauwkeurigheid over tijd, wat resulteert in een meritocratische consensus die deelnemers van lage kwaliteit of kwaadwillende deelnemers eruit filtert. Om Sybil-aanvallen te weerstaan, gebruikt Fortytwo proof-of-capability in zijn consensus: knooppunten moeten kalibratie/testverzoeken succesvol voltooien en reputatie inzetten om deel te nemen aan rangschikkingsrondes, wat multi-identiteitsaanvallen economisch onaantrekkelijk maakt terwijl openheid behouden blijft. Over zes uitdagende benchmarks, inclusief GPQA Diamond, LiveCodeBench en AIME, wijst onze evaluatie op hogere nauwkeurigheid en sterke veerkracht tegen vijandige en rumoerige free-form prompting (bijvoorbeeld een prompt-injectie degradatie van slechts 0,12% versus 6,20% voor een monolithische single-model baseline), waarbij praktische implementeerbaarheid behouden blijft. Gezamenlijk leggen deze resultaten een fundament voor gedecentraliseerde AI-systemen – door collectieve intelligentie wordt toegang tot hoogwaardige inferentie gedemocratiseerd zonder betrouwbaarheid of veiligheid op te offeren.
Autoregressieve videodiffusiemodellen zijn in staat tot lange, stabiele reeksen die consistent zijn met de voorgeschiedenis, maar ze kunnen de huidige generatie niet sturen met conditionering vanuit de toekomst. Bij cameragestuurde videogeneratie met een vooraf gedefinieerd cameratraject leidt deze beperking tot botsingen met de gegenereerde scène, waarna de autoregressie snel instort. Om dit aan te pakken, stellen wij Generative View Stitching (GVS) voor, waarbij de gehele reeks parallel wordt bemonsterd, zodat de gegenereerde scène trouw is aan elk deel van het vooraf gedefinieerde cameratraject. Onze belangrijkste bijdrage is een bemonsteringsalgoritme dat eerder werk over diffusiestitching voor robotplanning uitbreidt naar videogeneratie. Terwijl dergelijke stitchingmethoden meestal een speciaal getraind model vereisen, is GVS compatibel met elk standaard videomodel dat is getraind met Diffusion Forcing, een prevalent sequentiediffusieraamwerk waarvan wij aantonen dat het reeds de benodigde mogelijkheden voor stitching biedt. Vervolgens introduceren wij Omni Guidance, een techniek die de temporele consistentie bij stitching verbetert door conditionering op zowel verleden als toekomst, en die onze voorgestelde loop-sluitingsmechanisme mogelijk maakt voor het bereiken van coherentie over lange afstanden. Over het geheel genomen bereikt GVS cameragestuurde videogeneratie die stabiel, botsingsvrij, frame-tot-frame consistent is en loops sluit voor een verscheidenheid aan vooraf gedefinieerde camerapaden, waaronder de Onmogelijke Trap van Oscar Reutersvärd. De resultaten kunnen het beste worden bekeken als video's op https://andrewsonga.github.io/gvs.
Wij introduceren GraphNet, een dataset van 2,7K computationele grafen uit de praktijk voor deep learning met uitgebreide metadata, die zes grote taakcategorieën omspant over meerdere deep learning-frameworks. Om de prestaties van tensorcompilers op deze samples te evalueren, stellen we de benchmarkmetriek Speedup Score S(t) voor, die gezamenlijk runtime-versnelling en uitvoercorrectheid onder instelbare tolerantieniveaus in beschouwing neemt, en zo een betrouwbare maatstaf biedt voor algemene optimalisatiecapaciteit. Verder breiden we S(t) uit naar de Error-aware Speedup Score ES(t), die foutinformatie incorporeert en compilerontwikkelaars helpt cruciale prestatieknelpunten te identificeren. In dit rapport benchmarken we de standaard tensorcompilers, CINN voor PaddlePaddle en TorchInductor voor PyTorch, op computer vision (CV) en natural language processing (NLP) samples om de praktische bruikbaarheid van GraphNet aan te tonen. De volledige constructiepijplijn met graafextractie- en compilerevaluatietools is beschikbaar op https://github.com/PaddlePaddle/GraphNet.
Hoewel autoregressieve (AR) modellering recentelijk naar voren is gekomen als een nieuw paradigma in visuele generatie, wordt de praktische toepassing ervan ernstig beperkt door de trage inferentiesnelheid van per-token generatie, die vaak duizenden stappen vereist om een enkel sample te produceren. Om deze uitdaging aan te pakken, stellen wij MC-SJD voor, een trainingsvrij, verliesvrij parallel decoderingkader ontworpen om AR-visuele generatie te versnellen door een uitbreiding van de recent geïntroduceerde Speculative Jacobi Decoding (SJD). Hoewel SJD een sterk potentieel toont voor het versnellen van AR-generatie, tonen wij aan dat tokeninstabiliteit tussen iteraties de acceptatiegraad aanzienlijk verlaagt, een beperking die primair voortkomt uit het onafhankelijke samplingproces dat wordt gebruikt tijdens de generatie van draft-tokens. Om dit te overwinnen, introduceren wij MC-SJD, een informatie-theoretische benadering gebaseerd op koppeling (coupling), die standaard SJD aanzienlijk versnelt door de waarschijnlijkheid te maximaliseren om identieke draft-tokens te sampleen over opeenvolgende iteraties, terwijl tegelijkertijd de verliesvrije eigenschap behouden blijft. Opmerkelijk is dat deze methode slechts een aanpassing van één regel vereist in het bestaande algoritme, maar toch aanzienlijke prestatieverbeteringen bereikt, wat resulteert in een versnelling tot ~4.2x voor beeldgeneratie en ~13.3x voor videogeneratie in vergelijking met standaard AR-decodering, zonder enige degradatie van de uitvoerkwaliteit.
Grote taalmodellen (LLM's) in psychologische counseling krijgen steeds meer aandacht. Bestaande benaderingen schieten echter vaak tekort op het gebied van emotioneel begrip, adaptieve strategieën en het gebruik van therapeutische methoden over meerdere sessies met langetermijngeheugen, waardoor ze ver af staan van de echte klinische praktijk. Om deze kritieke tekortkomingen aan te pakken, introduceren wij TheraMind, een strategische en adaptieve agent voor longitudinale psychologische counseling. De hoeksteen van TheraMind is een nieuwe dual-loop architectuur die het complexe counselingsproces ontkoppelt in een Intra-Sessie Lus voor tactisch dialoogbeheer en een Cross-Sessie Lus voor strategische therapeutische planning. De Intra-Sessie Lus neemt de emotionele toestand van de patiënt waar om dynamisch responsstrategieën te selecteren en benut tegelijkertijd het cross-sessie geheugen om continuïteit te waarborgen. Cruciaal is dat de Cross-Sessie Lus de agent voorziet van langetermijnaanpassingsvermogen door na elke sessie de effectiviteit van de toegepaste therapie te evalueren en de methode voor volgende interacties bij te stellen. Wij valideren onze aanpak in een hoogwaardige simulatieomgeving gebaseerd op echte klinische casussen. Uitgebreide evaluaties tonen aan dat TheraMind andere methoden overtreft, met name op multisessie-metrics zoals Coherentie, Flexibiliteit en Therapeutische Afstemming, wat de effectiviteit van het dual-loop ontwerp bevestigt bij het nabootsen van strategisch, adaptief en longitudinaal therapeutisch gedrag. De code is openbaar beschikbaar op https://0mwwm0.github.io/TheraMind/.