Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Bestaande benchmarks voor Large Language Model (LLM)-agenten richten zich op taakvoltooiing onder idealistische omstandigheden, maar negeren de betrouwbaarheid in realistische, gebruikersgerichte toepassingen. In domeinen zoals spraakassistenten in auto's geven gebruikers vaak onvolledige of dubbelzinnige verzoeken, wat intrinsieke onzekerheid creëert die agenten moeten beheersen via dialoog, toolgebruik en naleving van beleid. Wij introduceren CAR-bench, een benchmark voor het evalueren van consistentie, omgang met onzekerheid en bewustzijn van capaciteiten bij multi-turn, toolgebruikende LLM-agenten in een domein van een auto-assistent. De omgeving omvat een door een LLM gesimuleerde gebruiker, domeinspecifiek beleid en 58 onderling verbonden tools voor navigatie, productiviteit, opladen en voertuigbesturing. Naast standaard taakvoltooiing introduceert CAR-bench Hallucinatie-taken die het bewustzijn van de eigen limieten van agenten testen bij ontbrekende tools of informatie, en Disambiguatie-taken die het oplossen van onzekerheid vereisen via opheldering of intern informatievergaren. Basisresultaten tonen grote verschillen tussen incidenteel en consistent succes bij alle taaktypen. Zelfs geavanceerde redenerende LLM's halen minder dan 50% consistent slaagpercentage bij Disambiguatie-taken door voortijdige acties, en overtreden vaak het beleid of fabriceren informatie om aan gebruikersverzoeken te voldoen in Hallucinatie-taken, wat de noodzaak onderstreept van betrouwbaardere en zelfbewustere LLM-agenten in realistische settings.
Naarmate grote taalmodellen (LLM's) evolueren naar autonome agents, is hun toepasbaarheid in de praktijk aanzienlijk toegenomen, wat gepaard gaat met nieuwe beveiligingsuitdagingen. De meeste bestaande verdedigingsmechanismen voor agents hanteren een verplicht controlemodel, waarbij beveiligingsvalidatie geforceerd wordt geactiveerd op vooraf gedefinieerde fasen van de agentlevenscyclus. In dit werk beargumenteren wij dat effectieve agentbeveiliging intrinsiek en selectief moet zijn in plaats van architecturaal ontkoppeld en verplicht. Wij stellen het Spider-Sense raamwerk voor, een gebeurtenisgestuurd verdedigingsraamwerk gebaseerd op Intrinsic Risk Sensing (IRS), dat agents in staat stelt latente waakzaamheid te behouden en verdediging alleen te activeren bij risicoperceptie. Eenmaal geactiveerd, roept Spider-Sense een hiërarchisch verdedigingsmechanisme in werking dat een afweging maakt tussen efficiëntie en precisie: het lost bekende patronen op via lichtgewicht gelijkenismatching terwijl dubbelzinnige gevallen worden geëscaleerd naar diepgaand intern redeneren, waardoor de afhankelijkheid van externe modellen wordt geëlimineerd. Om een rigoureuze evaluatie mogelijk te maken, introduceren wij S^2Bench, een levenscyclusbewuste benchmark met realistische tooluitvoering en multi-stadia aanvallen. Uitgebreide experimenten tonen aan dat Spider-Sense een concurrerende of superieure verdedigingsprestatie bereikt, met de laagste Attack Success Rate (ASR) en False Positive Rate (FPR), tegen slechts een marginale latentietoename van 8,3%.
Recente toepassingen van Reinforcement Learning met Verifieerbare Beloningen (RLVR) op Large Language Models (LLM's) en Vision-Language Models (VLM's) hebben aanzienlijk succes aangetoond bij het verbeteren van redeneervermogens voor complexe taken. Tijdens RLVR-training wordt een toename van de antwoordlengte vaak beschouwd als een cruciale factor die bijdraagt aan de groei van het redeneervermogen. De veranderingspatronen in antwoordlengte verschillen echter aanzienlijk tussen verschillende RLVR-algoritmen tijdens het trainingsproces. Om een fundamentele verklaring voor deze variaties te bieden, voert dit artikel een diepgaande analyse uit van de componenten van gangbare RLVR-algoritmen. Wij presenteren een theoretische analyse van de factoren die de antwoordlengte beïnvloeden en valideren onze theorie door middel van uitgebreide experimenten. Gebaseerd op deze theoretische inzichten, stellen wij het Lengte-Onbevooroordeelde Sequentiebeleidsoptimalisatie (LUSPO) algoritme voor. Concreet corrigeren wij de lengtevooroordelen inherent aan Group Sequence Policy Optimization (GSPO), waardoor diens verliesfunctie onbevooroordeeld wordt ten opzichte van antwoordlengte en zodoende het probleem van antwoordlengte-instorting wordt opgelost. Wij voeren uitgebreide experimenten uit op wiskundige redeneerbenchmarks en multimodale redeneerscenario's, waarbij LUSPO consequent superieure prestaties behaalt. Empirische resultaten tonen aan dat LUSPO een nieuwe, state-of-the-art optimalisatiestrategie vertegenwoordigt in vergelijking met bestaande methoden zoals GRPO en GSPO.
De meeste geheugensystemen voor grootschalige taalmodel (LLM) agenten vertrouwen op een beperkte set statische, handmatig ontworpen operaties voor het extraheren van geheugen. Deze vaste procedures leggen menselijke aannames vast over wat opgeslagen moet worden en hoe geheugen moet worden herzien, waardoor ze rigide zijn bij diverse interactiepatronen en inefficiënt bij lange geschiedenissen. Daarom presenteren wij MemSkill, dat deze operaties herformuleert als leerbare en evolueerbare geheugenvaardigheden: gestructureerde en herbruikbare routines voor het extraheren, consolideren en snoeien van informatie uit interactiesporen. Geïnspireerd door de ontwerpfilosofie van agentvaardigheden, gebruikt MemSkill een controller die leert om een kleine set relevante vaardigheden te selecteren, gekoppeld aan een op LLM gebaseerde executor die vaardigheidsgestuurd geheugen produceert. Naast het leren van vaardigheidsselectie introduceert MemSkill een ontwerper die periodiek lastige gevallen analyseert waarin geselecteerde vaardigheden incorrecte of incomplete herinneringen opleveren, en die de vaardighedenset evolueert door verfijningen en nieuwe vaardigheden voor te stellen. Samen vormt MemSkill een gesloten-lusprocedure die zowel het vaardigheidsselectiebeleid als de vaardighedenset zelf verbetert. Experimenten op LoCoMo, LongMemEval, HotpotQA en ALFWorld tonen aan dat MemSkill de taakprestaties verbetert ten opzichte van sterke baseline-methoden en goed generaliseert over verschillende settings. Verdere analyses belichten hoe vaardigheden evolueren, wat inzichten biedt richting adaptiever, zelf-evoluerend geheugenbeheer voor LLM-agenten.
Recente benaderingen voor real-time generatie van lange video's maken doorgaans gebruik van streaming-tuningstrategieën, waarbij geprobeerd wordt een studentmodel met lange context te trainen met behulp van een leraarmodel met korte context (geheugenloos). In deze frameworks voert het studentmodel lange rollouts uit, maar krijgt het supervisie van een leraarmodel dat beperkt is tot korte vensters van 5 seconden. Dit structurele verschil creëert een kritische mismatch tussen student en leraar: het onvermogen van de leraar om de langetermijngeschiedenis te raadplegen, verhindert dat deze de student kan begeleiden bij globale temporele afhankelijkheden, waardoor de contextlengte van de student in feite wordt begrensd. Om dit op te lossen, stellen wij Context Forcing voor, een nieuw framework dat een studentmodel met lange context traint via een leraarmodel met lange context. Door ervoor te zorgen dat de leraar de volledige generatiegeschiedenis kent, elimineren we de supervisiemismatch, wat een robuuste training mogelijk maakt van modellen die in staat zijn tot langetermijnconsistentie. Om dit computationeel haalbaar te maken voor extreme tijdsduren (bijv. 2 minuten), introduceren we een contextbeheersysteem dat de lineair groeiende context omzet in een Slow-Fast Memory-architectuur, waardoor visuele redundantie aanzienlijk wordt verminderd. Uitgebreide resultaten tonen aan dat onze methode effectieve contextlengtes mogelijk maakt van meer dan 20 seconden – 2 tot 10 keer langer dan state-of-the-art methoden zoals LongLive en Infinite-RoPE. Door gebruik te maken van deze uitgebreide context, behoudt Context Forcing superieure consistentie over lange tijdsduren en overtreft het state-of-the-art baseline-methoden op diverse evaluatiemetrics voor lange video's.
Hoewel generatieve videomodellen een opmerkelijke visuele kwaliteit hebben bereikt, blijft hun vermogen om impliciete wereldregels te internaliseren en daarover te redeneren een cruciaal maar onderbelicht onderzoeksgebied. Om deze kloof te overbruggen, presenteren we RISE-Video, een baanbrekende, op redeneren gerichte benchmark voor Text-Image-to-Video (TI2V)-synthese die de evaluatieve focus verschuift van oppervlakkige esthetiek naar diepgaand cognitief redeneervermogen. RISE-Video omvat 467 zorgvuldig door mensen geannoteerde voorbeelden, verdeeld over acht rigoureuze categorieën, en biedt zo een gestructureerde testomgeving om modelintelligentie te onderzoeken op diverse dimensies, van gezond verstand en ruimtelijke dynamiek tot gespecialiseerde vakgebieden. Ons framework introduceert een multidimensionaal evaluatieprotocol bestaande uit vier metrieken: Redeneerovereenstemming, Temporele Consistentie, Fysieke Rationaliteit en Visuele Kwaliteit. Om schaalbare evaluatie verder te ondersteunen, stellen we een geautomatiseerde pijplijn voor die gebruikmaakt van Large Multimodal Models (LMM's) om mensgerichte beoordeling na te bootsen. Uitgebreide experimenten met 11 state-of-the-art TI2V-modellen tonen wijdverbreide tekortkomingen aan in het simuleren van complexe scenario's onder impliciete beperkingen, wat cruciale inzichten biedt voor de verdere ontwikkeling van toekomstige wereld-simulerende generatieve modellen.
Proactieve interventies door LLM-criticusmodellen worden vaak verondersteld de betrouwbaarheid te verbeteren, maar hun effecten tijdens de implementatie zijn slecht begrepen. Wij tonen aan dat een binaire LLM-criticus met een sterke offline nauwkeurigheid (AUROC 0,94) desondanks een ernstige prestatievermindering kan veroorzaken, met een ineenstorting van 26 procentpunt (pp) bij het ene model, terwijl een ander model bijna geen effect ondervindt (bijna 0 pp). Deze variabiliteit toont aan dat alleen de nauwkeurigheid van een LLM-criticus onvoldoende is om te bepalen of interventie veilig is. Wij identificeren een disruptie-herstelafweging: interventies kunnen falende trajecten herstellen, maar ook trajecten verstoren die anders zouden zijn geslaagd. Gebaseerd op dit inzicht stellen wij een pre-implementatietest voor die een kleine pilot van 50 taken gebruikt om in te schatten of interventie waarschijnlijk zal helpen of schaden, zonder volledige implementatie nodig te hebben. Over benchmarks heen anticipeert de test correct op de uitkomsten: interventie verslechtert de prestaties bij taken met een hoog slaagpercentage (0 tot -26 pp), maar levert een bescheiden verbetering op bij de ALFWorld-benchmark met een hoog faalpercentage (+2,8 pp, p=0,014). De primaire waarde van ons raamwerk ligt daarom in het identificeren van wanneer niet moet worden geïntervenieerd, waardoor ernstige regressies vóór implementatie worden voorkomen.
Autoregressieve grote taalmodellen (LLM's) leveren sterke prestaties, maar vereisen inherent sequentiële decodering, wat leidt tot hoge inferentielatentie en slechte GPU-benutting. Speculatieve decodering verzacht dit knelpunt door gebruik te maken van een snel conceptmodel waarvan de uitvoer parallel wordt geverifieerd door het doel-LLM; bestaande methodes blijven echter vertrouwen op autoregressieve conceptgeneratie, die sequentieel blijft en praktische snelheidswinst beperkt. Diffusie-LLM's bieden een veelbelovend alternatief door parallelle generatie mogelijk te maken, maar huidige diffusiemodellen presteren doorgaans minder goed dan autoregressieve modellen. In dit artikel introduceren we DFlash, een speculatief decoderingskader dat een lichtgewicht blokdiffusiemodel gebruikt voor parallelle conceptgeneratie. Door concepttokens in één enkele voorwaartse pass te genereren en het conceptmodel te conditioneren op contextkenmerken die uit het doelmodel zijn geëxtraheerd, stelt DFlash efficiënte conceptgeneratie mogelijk met hoogwaardige uitvoer en hogere acceptatiegraden. Experimenten tonen aan dat DFlash een verliesversnelling van meer dan 6x bereikt over een reeks modellen en taken, wat een tot 2,5x hogere snelheidswinst oplevert dan de state-of-the-art speculatieve decoderingsmethode EAGLE-3.
Bestaande Large Language Model (LLM)-agenten presteren ondermaats in interactieve omgevingen die langetermijnplanning vereisen, voornamelijk door oplopende fouten bij het simuleren van toekomstige toestanden. Om dit aan te pakken stellen we ProAct voor, een raamwerk dat agenten in staat stelt om nauwkeurige vooruitblikkende redenering te internaliseren via een tweefasig trainingsparadigma. Ten eerste introduceren we Grounded LookAhead Distillation (GLAD), waarbij de agent onder supervisie wordt gefinetuned op trajecten afgeleid van op de omgeving gebaseerd zoeken. Door complexe zoekbomen te comprimeren tot beknopte, causale redeneerketens, leert de agent de logica van vooruitdenken zonder de rekenkosten van zoeken tijdens de inferentie. Ten tweede stellen we, om de beslissingsnauwkeurigheid verder te verfijnen, de Monte-Carlo Critic (MC-Critic) voor, een plug-and-play hulpmiddel voor waardeschatting ontworpen om beleidsgradiëntalgoritmen zoals PPO en GRPO te verbeteren. Door gebruik te maken van lichtgewicht omgevingssimulaties om waardeschattingen te kalibreren, biedt MC-Critic een signaal met lage variantie dat stabiele beleidsoptimalisatie mogelijk maakt zonder afhankelijk te zijn van dure op modellen gebaseerde waardebenadering. Experimenten in zowel stochastische (bijv. 2048) als deterministische (bijv. Sokoban) omgevingen tonen aan dat ProAct de planningsnauwkeurigheid aanzienlijk verbetert. Opmerkelijk is dat een model met 4B parameters, getraind met ProAct, alle open-source vergelijkingsmodellen overtreft en zich kan meten met state-of-the-art gesloten modellen, terwijl het robuuste generalisatie vertoont naar onbekende omgevingen. De code en modellen zijn beschikbaar op https://github.com/GreatX3/ProAct.
Een hoogwaardige kernel is cruciaal voor schaalbare AI-systemen, en de mogelijkheid om LLM's dergelijke code te laten genereren zou de AI-ontwikkeling vooruithelpen. Het trainen van LLM's voor deze taak vereist echter voldoende data, een robuuste omgeving, en het proces is vaak gevoelig voor reward hacking en luie optimalisatie. In dergelijke gevallen kunnen modellen trainingsbeloningen manipuleren en triviale correctheid prioriteren boven betekenisvolle versnelling. In dit artikel bestuderen we systematisch reinforcement learning (RL) voor kernelgeneratie. We ontwerpen eerst KernelGYM, een robuuste gedistribueerde GPU-omgeving die controle op reward hacking ondersteunt, datacollectie vanuit multi-turn interacties en langdurige RL-training mogelijk maakt. Voortbouwend op KernelGYM onderzoeken we effectieve multi-turn RL-methoden en identificeren we een bevooroordeeld policy gradient-probleem veroorzaakt door zelf-inclusie in GRPO. Om dit op te lossen, stellen we Turn-level Reinforce-Leave-One-Out (TRLOO) voor om een zuivere advantage-schatting te bieden voor multi-turn RL. Om luie optimalisatie tegen te gaan, integreren we mismatch-correctie voor trainigsstabiliteit en introduceren we Profiling-based Rewards (PR) en Profiling-based Rejection Sampling (PRS) om het probleem te overwinnen. Het getrainde model, Dr.Kernel-14B, bereikt een prestatieniveau dat competitief is met Claude-4.5-Sonnet in Kernelbench. Ten slotte bestuderen we sequentiële test-time scaling voor Dr.Kernel-14B. Op de KernelBench Level-2 subset behaalt 31,6% van de gegenereerde kernels minstens een 1,2x versnelling ten opzichte van de Torch-referentie, wat Claude-4.5-Sonnet (26,7%) en GPT-5 (28,6%) overtreft. Bij selectie van de beste kandidaat over alle turns stijgt dit 1,2x versnellingspercentage verder tot 47,8%. Alle bronnen, inclusief de omgeving, trainingscode, modellen en dataset, zijn beschikbaar op https://www.github.com/hkust-nlp/KernelGYM.
Trainingsgeprivilegieerde informatie (PI) kan taalmodellen in staat stellen te slagen voor taken die ze anders niet zouden voltooien, waardoor het een krachtig hulpmiddel is voor reinforcement learning in moeilijke, langetermijnsettings. Het overdragen van vaardigheden die met PI zijn aangeleerd naar beleidsregels die zonder deze informatie moeten handelen tijdens inferentie blijft echter een fundamentele uitdaging. Wij bestuderen dit probleem in de context van het destilleren van frontier-modellen voor multi-turn agent-omgevingen, waar closed-source systemen doorgaans hun interne redeneerprocessen verbergen en alleen actietrajectoria blootgeven. Dit doorbreekt standaard destillatiepijplijnen, omdat succesvol gedrag waarneembaar is maar het redeneerproces niet. Hiervoor introduceren we π-Distill, een gezamenlijk leraar-leerling-doel dat een PI-geconditioneerde leraar en een niet-geconditioneerde leerling simultaan traint met hetzelfde model. Daarnaast introduceren we ook On-Policy Self-Distillation (OPSD), een alternatieve aanpak die traint met Reinforcement Learning (RL) met een reverse KL-straf tussen de leerling en de PI-geconditioneerde leraar. Wij tonen aan dat beide algoritmen effectief frontier-agents destilleren met uitsluitend actie-gebaseerde PI. Met name vinden we dat π-Distill, en in sommige gevallen OPSD, beter presteren dan industristandaardpraktijken (gecontroleerd finetunen gevolgd door RL) die uitgaan van toegang tot volledige Chain-of-Thought-supervisie, over meerdere agent-gebaseerde benchmarks, modellen en vormen van PI. Wij complementeren onze resultaten met uitgebreide analyse die de factoren karakteriseert die effectief leren met PI mogelijk maken, waarbij we ons primair richten op π-Distill en beschrijven wanneer OPSD competitief is.
Het zoeken naar wiskundige resultaten blijft moeilijk: de meeste bestaande tools halen volledige artikelen op, terwijl wiskundigen en bewijsassistenten vaak op zoek zijn naar een specifieke stelling, lemma of propositie die een vraag beantwoordt. Hoewel semantisch zoeken een snelle vooruitgang heeft doorgemaakt, is het gedrag ervan op grote, zeer technische corpora zoals wiskundige stellingen op onderzoeksniveau nog steeds slecht begrepen. In dit werk introduceren en bestuderen we semantische stellingenretrieval op grote schaal over een verenigd corpus van 9,2 miljoen stellingen die zijn geëxtraheerd uit arXiv en zeven andere bronnen, wat het grootste openbaar beschikbare corpus van door mensen geschreven stellingen op onderzoeksniveau vertegenwoordigt. We vertegenwoordigen elke stelling met een korte beschrijving in natuurlijke taal als een retrievoorstelling en analyseren systematisch hoe de context van de voorstelling, de keuze van het taalmodel, het embeddingmodel en de promptingstrategie de retrievakwaliteit beïnvloeden. Op een samengestelde evaluatieset van zoekopdrachten voor stellingen, geschreven door professionele wiskundigen, verbetert onze aanpak zowel de retrieval op stellingsniveau als op artikelniveau aanzienlijk in vergelijking met bestaande baseline-methoden, wat aantoont dat semantisch zoeken naar stellingen haalbaar en effectief is op webschaal. De zoektool voor stellingen is beschikbaar op https://huggingface.co/spaces/uw-math-ai/theorem-search, en de dataset is beschikbaar op https://huggingface.co/datasets/uw-math-ai/TheoremSearch.
Naarmate grote taalmodellen steeds complexe, langetermijntaken zoals vibe coding automatiseren, is er een toezichtkloof ontstaan. Hoewel modellen uitblinken in uitvoering, hebben gebruikers vaak moeite om ze effectief aan te sturen door onvoldoende domeinkennis, de moeilijkheid om precieze intentie te verwoorden en het onvermogen om complexe outputs betrouwbaar te valideren. Dit vormt een kritieke uitdaging in schaalbaar toezicht: het in staat stellen van mensen om AI-systemen op verantwoorde wijze te sturen bij taken die hun eigen vermogen tot specificatie of verificatie overstijgen. Om dit aan te pakken, stellen we Schaalbaar Interactief Toezicht voor, een raamwerk dat complexe intentie ontleedt in een recursieve boom van beheersbare beslissingen om menselijk toezicht te versterken. In plaats van te vertrouwen op open-einde prompting, ontlokt ons systeem laagdrempelige feedback bij elke knoop en aggregeert deze signalen recursief tot precieze globale sturing. Getoetst in webontwikkelingstaken stelt ons raamwerk niet-experts in staat om Product Requirement Documents op expertniveau te produceren, met een verbetering van 54% in afstemming. Cruciaal is dat we aantonen dat dit raamwerk geoptimaliseerd kan worden via Reinforcement Learning met uitsluitend online gebruikersfeedback, wat een praktisch pad biedt om menselijke controle te behouden naarmate AI schaalt.
Ondanks sterke prestaties op bestaande benchmarks blijft het onduidelijk of grote taalmodellen kunnen redeneren over werkelijk nieuwe wetenschappelijke informatie. De meeste evaluaties beoordelen end-to-end RAG-pipelines, waarbij redeneren wordt verward met retrievalkeuzes en toolchain-keuzes, en het signaal verder wordt verontreinigd door parametrisch geheugen en volatiliteit van het open web. Wij introduceren DeR2, een gecontroleerde diep-onderzoekssandbox die document-gestuurd redeneren isoleert, terwijl de kernmoeilijkheden van diep zoeken behouden blijven: meerstaps synthese, denoising en op bewijs gebaseerde conclusievorming. DeR2 ontkoppelt toegang tot bewijsmateriaal van redeneren via vier regimes—Alleen-instructie, Concepten (gouden concepten zonder documenten), Alleen-gerelateerd (alleen relevante documenten) en Volledige-set (relevante documenten plus afleidende elementen met gerelateerde onderwerpen)—wat interpreteerbare regimekloven oplevert die retrievalverlies versus redeneerverlies operationaliseren en fijngranulaire fouttoewijzing mogelijk maken. Om parametrisch lekken te voorkomen, passen we een tweefasenvalidatie toe die parametrisch falen vereist zonder bewijsmateriaal, terwijl de oplosbaarheid met orakelconcepten wordt gegarandeerd. Om reproduceerbaarheid te waarborgen, biedt elke instantie een bevroren documentenbibliotheek (onttrokken aan theoretische artikelen uit 2023-2025) met door experts geannoteerde concepten en gevalideerde redeneringen. Experimenten met een diverse reeks state-of-the-art foundationmodellen onthullen aanzienlijke variatie en significante verbeteringsruimte: sommige modellen vertonen moduswisselingsfragiliteit en presteren slechter met de Volledige-set dan met Alleen-instructie, terwijl andere structureel conceptmisbruik vertonen door concepten correct te benoemen maar te falen in de uitvoering ervan als procedures.
Grote taalmodellen (LLM's) worden steeds vaker geëvalueerd in interactieve omgevingen om hun sociale intelligentie te testen. Bestaande benchmarks gaan echter vaak uit van geïdealiseerde communicatie tussen agents, wat ons vermogen beperkt om te diagnosticeren of LLM's interacties kunnen onderhouden en herstellen in meer realistische, onvolmaakte settings. Om deze kloof te dichten, presenteren wij SocialVeil, een sociale leeromgeving die sociale interactie kan simuleren onder communicatiebarrières veroorzaakt door cognitieve verschillen. Gebaseerd op een systematische literatuurstudie naar communicatie-uitdagingen in menselijke interactie, introduceert SocialVeil drie representatieve typen van dergelijke verstoring: semantische vaagheid, sociaal-culturele mismatch en emotionele interferentie. Wij introduceren ook twee barrière-gevoelige evaluatiemetrics, onopgeloste verwarring en wederzijds begrip, om de interactiekwaliteit onder verstoorde communicatie te evalueren. Experimenten over 720 scenario's en vier toonaangevende LLM's tonen aan dat barrières de prestaties consistent verslechteren, waarbij het wederzijds begrip met gemiddeld meer dan 45% afneemt en de verwarring met bijna 50% toeneemt. Humane evaluaties valideren de geloofwaardigheid van deze gesimuleerde barrières (ICC≈0.78, Pearson r≈0.80). Verder tonen wij aan dat aanpassingsstrategieën (Reparatie-instructie en Interactief leren) slechts een bescheiden effect hebben, ver verwijderd van prestaties zonder barrières. Dit werk zet een stap in de richting van het dichter bij real-world communicatie brengen van sociale interactie-omgevingen, en opent mogelijkheden voor het verkennen van de sociale intelligentie van LLM-agents.
Grote taalmodellen (LLM's) hebben sterke prestaties geleverd in taakgerichte toepassingen. In agent-gebaseerde settings hebben LLM's echter vaak moeite om actiegevolgen te anticiperen en zich aan te passen aan omgevingsdynamiek, wat de noodzaak van wereldmodelleringscapaciteiten in LLM-gebaseerde agenten benadrukt. Wij stellen Reinforcement World Model Learning (RWML) voor, een zelfgesuperviseerde methode die actie-geconditioneerde wereldmodellen leert voor LLM-gebaseerde agenten op tekstuele toestanden, gebruikmakend van sim-to-real gap beloningen. Onze methode brengt gesimuleerde volgende toestanden, gegenereerd door het model, in overeenstemming met gerealiseerde volgende toestanden waargenomen vanuit de omgeving, waardoor consistentie wordt gestimuleerd tussen interne wereldsimulaties en werkelijke omgevingsdynamiek in een voorgetrainde embeddingruimte. In tegenstelling tot volgende-toestand tokenvoorspelling, die token-level getrouwheid (d.w.z. het reproduceren van exacte bewoording) prioriteert boven semantische equivalentie en kan leiden tot modelcollaps, biedt onze methode een robuuster trainingssignaal en is empirisch minder vatbaar voor reward hacking dan LLM-as-a-judge. Wij evalueren onze methode op ALFWorld en τ^2 Bench en observeren significante verbeteringen ten opzichte van het basismodel, ondanks dat deze geheel zelfgesuperviseerd is. In combinatie met taak-succes beloningen presteert onze methode beter dan directe taak-succes belonings RL met respectievelijk 6.9 en 5.7 punten op ALFWorld en τ^2 Bench, terwijl de prestaties gelijk zijn aan training met expertdata.
Mensen plannen zelden volledige lichaamsinteracties met objecten op het niveau van expliciete lichaamsbewegingen. Hoogwaardige intenties, zoals affordantie, definiëren het doel, terwijl gecoördineerd evenwicht, contact en manipulatie natuurlijk kunnen voortkomen uit onderliggende fysieke en motorische priors. Het schalen van dergelijke priors is essentieel om humanoïden in staat te stellen loco-manipulatievaardigheden te componeren en te generaliseren in uiteenlopende contexten, met behoud van fysiek coherente volledige lichaamscoördinatie. Hiertoe introduceren wij InterPrior, een schaalbaar raamwerk dat een verenigde generatieve controller leert door grootschalige imitatiepretraining en natreining door reinforcement learning. InterPrior destilleert eerst een imitatie-expert met volledige referentie naar een veelzijdig, doel-geconditioneerd variationeel beleid dat beweging reconstrueert uit multimodale observaties en hoogwaardige intentie. Hoewel het gedestilleerde beleid getrainde gedragingen reconstrueert, generaliseert het niet betrouwbaar vanwege de uitgebreide configuratieruimte van grootschalige mens-objectinteracties. Om dit aan te pakken, passen wij data-augmentatie toe met fysieke perturbaties, en voeren vervolgens reinforcement learning finetuning uit om de competentie op ongeziene doelen en initialisaties te verbeteren. Samen consolideren deze stappen de gereconstrueerde latente vaardigheden tot een geldige variëteit, wat resulteert in een beweging-prior die generaliseert voorbij de trainingsdata, bijvoorbeeld door nieuw gedrag te incorporeren zoals interacties met ongeziene objecten. Wij demonstreren verder de effectiviteit voor gebruikersinteractieve controle en het potentieel voor implementatie op echte robots.
Dataset Distillation (DD) beoogt het creëren van een compacte dataset uit een grote, real-world dataset. Hoewel recente methoden vaak vertrouwen op heuristische benaderingen om efficiëntie en kwaliteit in evenwicht te brengen, blijft de fundamentele relatie tussen originele en synthetische data onderbelicht. Dit artikel herbeziet kennisdistillatie-gebaseerde datasetdistillatie binnen een solide theoretisch kader. We introduceren de concepten Informativiteit en Utiliteit, die respectievelijk cruciale informatie binnen een sample en essentiële samples in de trainingsset vastleggen. Voortbouwend op deze principes, definiëren we optimale datasetdistillatie wiskundig. Vervolgens presenteren we InfoUtil, een raamwerk dat informativiteit en utiliteit in evenwicht brengt bij het synthetiseren van de gedistilleerde dataset. InfoUtil bevat twee kernelementen: (1) speltheoretische maximalisatie van informativiteit met behulp van Shapley Value-attributie om sleutelinformatie uit samples te extraheren, en (2) principekwestige maximalisatie van utiliteit door selectie van globaal invloedrijke samples gebaseerd op Gradiëntnorm. Deze componenten verzekeren dat de gedistilleerde dataset zowel informatief als utiliteit-geoptimaliseerd is. Experimenten tonen aan dat onze methode een prestatieverbetering van 6,1% bereikt ten opzichte van de vorige state-of-the-art aanpak op de ImageNet-1K dataset met ResNet-18.
Vision-Language Models presteren uitstekend op het gebied van tekstueel redeneren, maar ze hebben vaak moeite met gedetailleerd ruimtelijk inzicht en continue actieplanning, waardoor ze niet in staat zijn de dynamiek te simuleren die nodig is voor complex visueel redeneren. In dit werk formuleren we visueel redeneren door middel van videogeneratiemodellen, waarbij we veronderstellen dat gegenereerde frames als tussenliggende redeneerstappen kunnen fungeren tussen beginstatussen en oplossingen. We evalueren hun capaciteit in twee verschillende regimes: Doolhofnavigatie voor sequentiële discrete planning met weinig visuele verandering en Tangrampuzzels voor continue manipulatie met veel visuele verandering. Onze experimenten onthullen drie kritieke inzichten: (1) Robuuste zero-shot generalisatie: bij beide taken toont het model sterke prestaties op onzichtbare datadistributies zonder specifieke finetuning. (2) Visuele context: het model gebruikt visuele context effectief als expliciete controle, zoals agentpictogrammen en tangramvormen, waardoor het hoge visuele consistentie kan behouden en zijn planningsvermogen robuust kan aanpassen aan onbekende patronen. (3) Visuele schaling tijdens testtijd: we observeren een testtijd-schalingswet in sequentiële planning; het verlengen van de gegenereerde videolengte (visueel inferentiebudget) maakt betere zero-shot generalisatie naar ruimtelijk en temporeel complexe paden mogelijk. Deze bevindingen suggereren dat videogeneratie niet slechts een mediatechniek is, maar een schaalbaar, generaliseerbaar paradigma voor visueel redeneren.
Nabewerking met Reinforcement Learning (RL) heeft het redeneervermogen van Large Language Models (LLM's) aanzienlijk verbeterd via test-time scaling. Het uitbreiden van dit paradigma naar Multimodale LLM's (MLLM's) met uitgebreide rationale levert echter beperkte winst op voor de perceptie en kan de prestaties zelfs verslechteren. Wij stellen Reinforced Attention Learning (RAL) voor, een policy-gradient raamwerk dat direct de interne aandachtverdelingen optimaliseert in plaats van de uitvoer-tokenreeksen. Door de optimalisatie te verleggen van *wat* gegenereerd wordt naar *waar* aandacht aan besteed moet worden, bevordert RAL effectieve informatieallocatie en een verbeterde verankering in complexe multimodale invoer. Experimenten op diverse beeld- en videobenchmarks tonen consistente verbeteringen ten opzichte van GRPO en andere baseline-methoden. Verder introduceren wij On-Policy Attention Distillation, waaruit blijkt dat het overdragen van latente aandachtgedrag een sterkere cross-modale alignering oplevert dan standaard knowledge distillation. Onze resultaten positioneren aandacht-policies als een principiële en algemene alternatieve benadering voor multimodale nabewerking.
Door grote taalmodellen (LLM) aangedreven multi-agent systemen (MAS) vertonen opmerkelijke collectieve intelligentie, waarbij multi-agent geheugen fungeert als een cruciaal mechanisme voor continue aanpassing. Bestaande ontwerpen van multi-agent geheugen kampen echter met twee fundamentele knelpunten: (i) geheugenhomogenisatie door het ontbreken van rolbewuste maatwerk, en (ii) informatie-overload veroorzaakt door excessief fijnmazige geheugenitems. Om deze beperkingen aan te pakken, presenteren wij LatentMem, een leerbaar multi-agent geheugenkader dat agentspecifieke geheugens op een token-efficiënte wijze kan aanpassen. Concreet bestaat LatentMem uit een ervaringsbank die ruwe interactietrajecten in een lichtgewicht vorm opslaat, en een geheugencomponist die compacte latente geheugens synthetiseert op basis van opgehaalde ervaringen en agentspecifieke contexten. Verder introduceren wij Latent Memory Policy Optimization (LMPO), dat taakniveau-optimalisatiesignalen via latente geheugens doorvoert naar de componist om deze aan te moedigen compacte en hoogwaardige representaties te produceren. Uitgebreide experimenten met diverse benchmarks en gangbare MAS-kaders tonen aan dat LatentMem een prestatieverbetering tot 19,36% bereikt ten opzichte van basissystemen en consequent superieur presteert aan bestaande geheugenarchitecturen, zonder enige aanpassingen aan de onderliggende kaders.
Multimodale Large Language Models (MLLM's) hebben opmerkelijke vooruitgang geboekt in multimodale perceptie en redenering door beeld en taal te verbinden. De meeste bestaande MLLM's voeren redeneringen echter voornamelijk uit met tekstuele Chain-of-Thought (CoT), wat hun effectiviteit op visueel intensieve taken beperkt. Recente benaderingen injecteren een vast aantal continue verborgen toestanden als "visuele gedachten" in het redeneerproces en verbeteren de visuele prestaties, maar vaak ten koste van verslechterd tekstueel logisch redeneren. Wij stellen dat de kernbeperking ligt in een rigide, vooraf gedefinieerd redeneerpatroon dat niet adaptief de meest geschikte denkmodaliteit kan kiezen voor verschillende gebruikersvragen. Wij introduceren SwimBird, een MLLM met schakelbaar redeneervermogen die dynamisch schakelt tussen drie redeneermodi, afhankelijk van de input: (1) uitsluitend tekstueel redeneren, (2) uitsluitend visueel redeneren (continue verborgen toestanden als visuele gedachten), en (3) afwisselend visueel-tekstueel redeneren. Om deze mogelijkheid te realiseren, hanteren we een hybride autoregressieve formulering die de voorspelling van de volgende token voor tekstuele gedachten verenigt met de voorspelling van de volgende embedding voor visuele gedachten, en ontwerpen we een systematische curatiestrategie voor redeneermodi om SwimBird-SFT-92K te construeren, een diverse supervised fine-tuning dataset die alle drie de redeneerpatronen omvat. Door flexibele, vraag-adaptieve modusselectie mogelijk te maken, behoudt SwimBird sterke tekstuele logica terwijl de prestaties op visueel dichte taken aanzienlijk verbeteren. Experimenten op diverse benchmarks die tekstueel redeneren en uitdagend visueel begrip beslaan, tonen aan dat SwimBird state-of-the-art resultaten bereikt en robuuste winsten behaalt ten opzichte van eerdere multimodale redeneermethoden met vaste patronen.
Diepgaande onderzoeksagentschappen zijn opgekomen als krachtige systemen voor het beantwoorden van complexe vragen. Tegelijkertijd hebben op LLM gebaseerde retrievers een sterke capaciteit getoond in het opvolgen van instructies en redeneren. Dit roept een kritische vraag op: kunnen op LLM gebaseerde retrievers effectief bijdragen aan workflows van diepgaande onderzoeksagentschappen? Om dit te onderzoeken, introduceren we SAGE, een benchmark voor wetenschappelijke literatuurretrieval bestaande uit 1.200 vragen verspreid over vier wetenschappelijke domeinen, met een retrievalcorpus van 200.000 artikelen. We evalueren zes diepgaande onderzoeksagentschappen en constateren dat alle systemen moeite hebben met reasoning-intensieve retrieval. Met DR Tulu als backbone vergelijken we verder BM25 en op LLM gebaseerde retrievers (namelijk ReasonIR en gte-Qwen2-7B-instruct) als alternatieve zoektools. Verrassend genoeg presteert BM25 ongeveer 30% beter dan op LLM gebaseerde retrievers, omdat bestaande agentschappen trefwoordgerichte subvragen genereren. Om de prestaties te verbeteren, stellen we een corpusniveau test-time scaling framework voor dat LLM's gebruikt om documenten aan te vullen met metadata en trefwoorden, waardoor retrieval eenvoudiger wordt voor standaard retrievers. Dit levert respectievelijk 8% en 2% winst op voor kort-antwoord en open-einde vragen.
Onzekerheidskwantificering (UQ) voor grote taalmodellen (LLM's) is een essentiële bouwsteen voor veiligheidsmaatregelen in dagelijkse LLM-toepassingen. Hoewel LLM-agenten echter steeds vaker worden ingezet voor zeer complexe taken, richt het meeste UQ-onderzoek zich nog steeds op vragenbeantwoording in één beurt. Wij beargumenteren dat UQ-onderzoek moet verschuiven naar realistische settings met interactieve agenten, en dat een nieuw principieel kader voor agent-UQ nodig is. Dit artikel presenteert de eerste algemene formulering van agent-UQ die brede klassen van bestaande UQ-opzetten omvat. Binnen deze formulering tonen we aan dat eerder werk LLM-UQ impliciet behandelt als een onzekerheidsaccumulatieproces, een gezichtspunt dat niet standhoudt voor interactieve agenten in een open wereld. Daartegenover stellen wij een nieuw perspectief voor, een conditioneel onzekerheidsreductieproces, dat de reduceerbare onzekerheid over het traject van een agent expliciet modelleert door de "interactiviteit" van acties te benadrukken. Vanuit dit perspectief schetsen we een conceptueel kader om actiegerichte richtlijnen te bieden voor het ontwerpen van UQ in LLM-agentopstellingen. Tot slot besluiten we met de praktische implicaties van agent-UQ voor de ontwikkeling van frontier-LLM's en domeinspecifieke toepassingen, evenals openstaande problemen.
De snelle evolutie van grote taalmmodellen (LLM's) heeft hun mogelijkheden uitgebreid van eenvoudige dialoog naar geavanceerd wetenschappelijk redeneren. Bestaande benchmarks in de biologie slagen er echter vaak niet in om een cruciale vaardigheid te beoordelen die van onderzoekers wordt verlangd: het vermogen om experimentele resultaten te integreren met contextuele kennis om zinvolle conclusies te trekken. Om dit hiaat op te vullen, introduceren wij BABE (Biology Arena BEnchmark), een uitgebreide benchmark die is ontworpen om de experimentele redeneervaardigheden van biologische AI-systemen te evalueren. BABE is op unieke wijze samengesteld uit peer-reviewed onderzoeksartikelen en real-world biologische studies, waardoor de taken de complexiteit en interdisciplinaire aard van daadwerkelijk wetenschappelijk onderzoek weerspiegelen. BABE daagt modellen uit om causaal redeneren en inferentie over verschillende schaalniveaus uit te voeren. Onze benchmark biedt een robuust kader om te beoordelen hoe goed AI-systemen kunnen redeneren als praktiserende wetenschappers, en biedt zo een authentiekere maatstaf voor hun potentieel om bij te dragen aan biologisch onderzoek.
Op RL gebaseerde naf-training met GRPO wordt veel gebruikt om grote taalmodellen te verbeteren voor individuele redeneertaken. In de praktijk is echter betrouwbare prestaties over diverse taken heen vereist. Een eenvoudige multi-task aanpassing van GRPO leidt vaak tot onevenwichtige resultaten, waarbij sommige taken de optimalisatie domineren terwijl andere stagneren. Bovendien kunnen taken sterk verschillen in hoe vaak prompts nulvoordelen opleveren (en dus nulgradiënten), wat hun effectieve bijdrage aan het optimalisatiesignaal verder verstoort. Om deze problemen aan te pakken, stellen wij een nieuw Multi-Task GRPO (MT-GRPO) algoritme voor dat (i) taakgewichten dynamisch aanpast om expliciet de prestaties van de zwakste taak te optimaliseren en evenwichtige vooruitgang over taken te bevorderen, en (ii) een ratio-behoudende steekproefnemer introduceert om ervoor te zorgen dat de beleidsgradiënten per taak de aangepaste gewichten weerspiegelen. Experimenten in zowel 3-taak als 9-taak settings tonen aan dat MT-GRPO consistent beter presteert dan baseline-methoden wat betreft nauwkeurigheid op de zwakste taak. In het bijzonder behaalt MT-GRPO een absolute verbetering van 16-28% en 6% in de prestatie op de zwakste taak ten opzichte van standaard GRPO respectievelijk DAPO, terwijl het competitieve gemiddelde nauwkeurigheid handhaaft. Bovendien heeft MT-GRPO 50% minder trainingsstappen nodig om 50% nauwkeurigheid op de zwakste taak te bereiken in de 3-taak setting, wat een aanzienlijk verbeterde efficiëntie aantoont in het bereiken van betrouwbare prestaties over taken heen.
Multimodale Large Language Models (MLLM's) worden recentelijk toegepast op universele multimodale retrievalsystemen, waarbij Chain-of-Thought (CoT)-redenering de herrangschikking van kandidaten verbetert. Bestaande benaderingen blijven echter grotendeels taalgedreven, steunen op statische visuele coderingen en missen het vermogen om actief fijnmazig visueel bewijs te verifiëren, wat vaak leidt tot speculatieve redenering in visueel dubbelzinnige gevallen. Wij stellen V-Retriever voor, een evidence-driven retrievalraamwerk dat multimodale retrieval herformuleert als een agent-gebaseerd redeneerproces, geworteld in visuele inspectie. V-Retriever stelt een MLLM in staat om tijdens het redeneren selectief visueel bewijs te vergaren via externe visuele tools, waarbij een multimodaal, afwisselend redeneerproces wordt uitgevoerd dat wisselt tussen hypothesegeneratie en gerichte visuele verificatie. Om een dergelijke evidence-vergarende retrievalagent te trainen, hanteren we een curriculum-gebaseerde leerstrategie die supervised reasoning-activatie, op afwijzing gebaseerde verfijning en reinforcement learning combineert met een evidence-afgestemd doel. Experimenten op meerdere multimodale retrievalbenchmarks tonen consistente verbeteringen aan in retrievalnauwkeurigheid (gemiddeld 23,0% verbetering), perceptie-gedreven redeneerbetrouwbaarheid en generalisatie.
Policy Mirror Descent (PMD) biedt een principieel raamwerk voor reinforcement learning (RL) door iteratief KL-geregulariseerde beleidsverbeteringssubproblemen op te lossen. Hoewel deze aanpak is overgenomen bij het trainen van geavanceerde LLM's zoals Kimi K1.5/K2, vereisen de ideale gesloten-vorm PMD-updates een betrouwbare schatting van de partitiefunctie, een aanzienlijke uitdaging bij het werken met beperkte rollouts in de uitgestrekte actieruimten van LLM's. Wij onderzoeken een praktisch algoritme, genaamd PMD-mean, dat de log-partitieterm benadert met de gemiddelde beloning onder het bemonsteringsbeleid en regressie uitvoert in de log-beleidsruimte. Specifiek karakteriseren we de populatie-oplossing van PMD-mean en tonen aan dat het impliciet spiegelafstammingssubproblemen optimaliseert met een adaptieve gemengde KL-χ²-regularisator. Deze extra χ²-regularisatie beperkt grote kansveranderingen, wat conservatievere updates produceert wanneer de verwachte beloningen laag zijn en de robuustheid tegen schattingsfouten met eindige steekproeven verbetert. Experimenten met wiskundige redeneertaken tonen aan dat PMD-mean superieure prestaties bereikt met verbeterde stabiliteit en tijdsefficiëntie. Deze bevindingen verdiepen ons begrip van PMD-mean en belichten wegen naar principiële verbeteringen in RL-algoritmen voor LLM's. Code is beschikbaar op https://github.com/horizon-rl/OpenKimi.
Shampoo is een van de toonaangevende benaderende tweede-orde-optimalisatiemethoden: een variant ervan heeft de MLCommons AlgoPerf-wedstrijd gewonnen, en het is aangetoond dat het modellen oplevert met minder uitschieters in de activeringen die gemakkelijker te comprimeren zijn. Toch gaat het gebruik van Shampoo momenteel gepaard met een aanzienlijke vertraging in de rekentijd, vanwege de kostbare interne bewerkingen. In dit artikel zetten we een significante stap om dit nadeel aan te pakken door \method (voor Distributed Accelerated SHampoo) voor te stellen, een snellere implementatie van Distributed Shampoo gebaseerd op twee belangrijke nieuwe technieken: Ten eerste tonen we aan dat preconditioner-blokken kunnen worden gestapeld in 3D-tensors om het GPU-gebruik aanzienlijk te verbeteren; ten tweede introduceren we de Newton-DB-iteratie en de Chebyshev-polynoombenaderingen als nieuwe en snellere methoden voor het berekenen van de inverse matrixwortels die Shampoo vereist. Naast deze algoritmische bijdragen, bieden we een eerste diepgaande analyse van hoe matrixschaling een kritieke invloed heeft op de convergentie van Shampoo. Op praktisch vlak behaalt onze GPU-bewuste implementatie tot 4,83 keer snellere optimalisatiestappen vergeleken met de goed geoptimaliseerde Distributed Shampoo, terwijl Newton-DB de laagste validatieperplexiteit per iteratie bereikt van alle geteste methoden. Onze code is beschikbaar op https://github.com/IST-DASLab/DASH.
Recente vooruitgang in Retrieval-Augmented Generation (RAG) is verschoven van eenvoudige vectorvergelijkbaarheid naar structuurbewuste benaderingen zoals HippoRAG, die gebruikmaken van Knowledge Graphs (KGs) en Personalized PageRank (PPR) om multi-hop afhankelijkheden vast te leggen. Deze methoden lijden echter onder een "Static Graph Fallacy": ze vertrouwen op vaste overgangswaarschijnlijkheden die tijdens het indexeren worden bepaald. Deze rigiditeit negeert de query-afhankelijke aard van edge-relevantie, wat leidt tot semantische drift waarbij random walks worden afgeleid naar hoog-graad "hub"-nodes voordat ze kritisch downstream bewijs bereiken. Dientengevolge bereiken modellen vaak een hoge partiële recall, maar slagen ze er niet in de volledige bewijsketen die nodig is voor multi-hop queries op te halen. Om dit aan te pakken, stellen wij CatRAG voor, Context-Aware Traversal voor robuuste RAG, een raamwerk dat voortbouwt op de HippoRAG 2-architectuur en de statische KG transformeert naar een query-adaptieve navigatiestructuur. Wij introduceren een veelzijdig raamwerk om de random walk te sturen: (1) Symbolic Anchoring, dat zwakke entity constraints injecteert om de random walk te regulariseren; (2) Query-Aware Dynamic Edge Weighting, dat de grafiekstructuur dynamisch moduleert om irrelevante paden te snoeien en paden die zijn afgestemd op de intentie van de query te versterken; en (3) Key-Fact Passage Weight Enhancement, een kostenefficiënte bias die de random walk structureel verankert aan waarschijnlijk bewijs. Experimenten over vier multi-hop benchmarks tonen aan dat CatRAG consistent de state-of-the-art-baselines overtreft. Onze analyse toont aan dat, terwijl standaard Recall-metrieken bescheiden winst laten zien, CatRAG substantiële verbeteringen bereikt in redeneervolledigheid, het vermogen om het volledige bewijspad zonder hiaten te herstellen. Deze resultaten laten zien dat onze aanpak effectief de kloof overbrugt tussen het ophalen van partiële context en het mogelijk maken van volledig onderbouwde redenering. Middelen zijn beschikbaar op https://github.com/kwunhang/CatRAG.
Rotary Positional Embedding (RoPE) is een cruciaal onderdeel voor het schalen van context in Large Language Models (LLM's). Hoewel diverse methodes zijn voorgesteld om RoPE aan te passen voor langere contexten, vallen hun leidende principes over het algemeen in twee categorieën: (1) *out-of-distribution* (OOD)-mitigatie, waarbij RoPE-frequenties worden geschaald om onzichtbare posities te accommoderen, en (2) Semantische Modellering, die stelt dat de met RoPE berekende aandachtsscores altijd semantisch vergelijkbare tokens moeten prioriteren. In dit werk verenigen we deze ogenschijnlijk verschillende doelstellingen door een minimalistische interventie, namelijk CoPE: het *zacht afkappen* (*soft clipping*) van de laagfrequente componenten van RoPE. CoPE elimineert niet alleen OOD-*outliers* en verfijnt semantische signalen, maar voorkomt ook spectrale lekkage veroorzaakt door hard afkappen. Uitgebreide experimenten tonen aan dat het simpelweg toepassen van onze *soft clipping*-strategie op RoPE aanzienlijke prestatieverbeteringen oplevert die schalen tot een contextlengte van 256k. Dit valideert onze theoretische analyse en vestigt CoPE als een nieuwe state-of-the-art voor lengtegeneralizatie. Onze code, data en modellen zijn beschikbaar op https://github.com/hrlics/CoPE.
Wij presenteren Infinite-World, een robuust interactief wereldmodel dat coherent visueel geheugen kan behouden gedurende meer dan 1000 frames in complexe real-world omgevingen. Hoewel bestaande wereldmodellen efficiënt kunnen worden geoptimaliseerd op synthetische data met perfecte grondwaarheid, ontbreekt hen een effectief trainingsparadigma voor real-world video's vanwege ruwe pose-schattingen en de schaarste aan viewpoint-herbezoekingen. Om deze kloof te overbruggen, introduceren wij eerst een Hiërarchische Pose-vrije Geheugencompressor (HPMC) die historische latenties recursief destilleert tot een representatie met vaste capaciteit. Door de compressor gezamenlijk te optimaliseren met de generatieve backbone, stelt HPMC het model in staat om generaties autonoom te verankeren in het verre verleden tegen begrensde rekenkosten, zonder expliciete geometrische priors nodig te hebben. Ten tweede stellen wij een Onzekerheidsbewust Actielabelingsmodule voor die continue beweging discretiseert naar een driestandenlogica. Deze strategie maximaliseert het gebruik van ruwe videodata terwijl de deterministische actieruimte wordt beschermd tegen corruptie door ruwe trajecten, wat robuuste actie-responsleren garandeert. Verder, geleid door inzichten uit een pilot toy-studie, zetten wij een Herbezoek-Dichte Fijnafstembare Strategie in met een compacte dataset van 30 minuten om de langetermijn lus-sluitingscapaciteiten van het model efficiënt te activeren. Uitgebreide experimenten, inclusief objectieve metrieken en gebruikersstudies, tonen aan dat Infinite-World superieure prestaties bereikt in visuele kwaliteit, actiebestuurbaarheid en ruimtelijke consistentie.
Gedistilleerde autoregressieve diffusiemodellen maken real-time synthese van korte video's mogelijk, maar lijden onder ernstige foutaccumulatie tijdens de generatie van lange sequenties. Hoewel bestaande Test-Time Optimalisatie (TTO) methoden effectief blijken voor afbeeldingen of korte clips, constateren wij dat ze de drift in uitgebreide sequenties niet kunnen mitigeren vanwege onstabiele beloningslandschappen en de overgevoeligheid van gedistilleerde parameters. Om deze beperkingen te overwinnen, introduceren wij Test-Time Correctie (TTC), een trainingsvrij alternatief. Concreet gebruikt TTC het initiële frame als een stabiel referentieanker om intermediaire stochastische toestanden langs het samplingtraject te kalibreren. Uitgebreide experimenten tonen aan dat onze methode naadloos integreert met diverse gedistilleerde modellen, de generatielengten verlengt met verwaarloosbare overhead en tegelijkertijd de kwaliteit evenaart van resource-intensieve, op training gebaseerde methoden op 30-seconden benchmarks.
Naarmate grote taalmodelle (LLM's) opmerkelijke empirische successen behalen door de schaal van modellen en data te vergroten, is voorafgaande training steeds kritieker geworden, maar ook rekenkundig prohibitief, wat een snelle ontwikkeling belemmert. Ondanks de beschikbaarheid van talrijke voorgetrainde LLM's die met aanzienlijke rekenkosten zijn ontwikkeld, blijft een fundamentele praktijkvraag onderbelicht: Kunnen we bestaande kleine voorgetrainde modellen benutten om de training van grotere modellen te versnellen? In dit artikel stellen we een Laat-naar-Vroeg Training (LET) paradigma voor dat LLM's in staat stelt om expliciet latere kennis in eerdere stappen en eerdere lagen aan te leren. De kernidee is om de vroege lagen van een LLM tijdens de vroege trainingsfase te begeleiden met representaties uit de late lagen van een voorgetraind (d.w.z. laat trainingsfase) model. We identificeren twee sleutelmechanismen die de effectiviteit van LET drijven: laat-naar-vroege-stap leren en laat-naar-vroege-laag leren. Deze mechanismen versnellen de trainingsconvergentie aanzienlijk en verbeteren tegelijkertijd robuust zowel de taalmodelleringscapaciteiten als de prestaties op downstreamtaken, waardoor snellere training met superieure prestaties mogelijk wordt. Uitgebreide experimenten met modellen van 1,4B en 7B parameters demonstreren de efficiëntie en effectiviteit van LET. Opmerkelijk is dat bij het trainen van een 1,4B LLM op de Pile-dataset onze methode een versnelling tot 1,6 keer bereikt met bijna 5% verbetering in downstreamtaaknauwkeurigheid vergeleken met standaardtraining, zelfs wanneer een voorgetraind model wordt gebruikt dat 10 keer minder parameters heeft dan het doelmodel.
Low-Rank Adaptation (LoRA) is de gangbare aanpak voor efficiënte fine-tuning van grote taalmmodellen (LLM's). Voortbouwend op dit paradigma hebben recente studies alternatieve initialisatiestrategieën en architectuurwijzigingen voorgesteld, waarbij aanzienlijke verbeteringen ten opzichte van standaard LoRA worden gerapporteerd. Deze verbeteringen worden echter vaak aangetoond onder vaste of nauw afgestelde hyperparameterinstellingen, ondanks de bekende gevoeligheid van neurale netwerken voor trainingsconfiguraties. In dit werk evalueren we vier representatieve LoRA-varianten systematisch opnieuw, naast standaard LoRA, via uitgebreide hyperparameterzoektochten. Over wiskundige en codeergeneratietaken heen, op diverse modelschalen, constateren we dat verschillende LoRA-methoden verschillende leercurvebereiken prefereren. Cruciaal is dat, zodra de leercurves goed zijn afgesteld, alle methoden vergelijkbare piekprestaties bereiken (binnen 1-2%), met alleen subtiele rangafhankelijke gedragingen. Deze resultaten suggereren dat standaard LoRA een competitieve baseline blijft en dat verbeteringen die onder een enkele trainingsconfiguratie worden gerapporteerd, mogelijk geen consistente methodologische voordelen weerspiegelen. Ten slotte wijt een tweedegraadsanalyse de verschillende optimale leercurvebereiken aan variaties in de grootste Hessiaanse eigenwaarde, in lijn met klassieke leertheorieën.
Wij evalueren taalmodellen op hun vermogen om interactieve omgevingen te verkennen binnen een beperkt interactiebudget. Wij introduceren drie parametrische taken met controleerbare verkenningsmoeilijkheid, die zowel continue als discrete omgevingen omvatten. Bij state-of-the-art modellen constateren wij systematische onderverkenning en suboptimale oplossingen, waarbij de prestaties vaak aanzienlijk slechter zijn dan eenvoudige heuristische explore-exploit-baselines en zwak schalen naarmate het budget toeneemt. Ten slotte bestuderen wij twee lichtgewicht interventies: het verdelen van een vast budget over parallelle uitvoeringen, wat verrassend genoeg de prestaties verbetert ondanks een theoretisch geen-winstresultaat voor onze taken, en het periodiek samenvatten van de interactiegeschiedenis, wat belangrijke ontdekkingen behoudt en de verkenning verder verbetert.
Geavanceerde autoregressieve (AR) videogeneratiemodellen hebben een verbeterde visuele kwaliteit en interactiviteit, maar de kwadratische complexiteit van aandacht blijft een primair knelpunt voor efficiënte inzet. Hoewel bestaande oplossingen met sparse aandacht veelbelovend zijn gebleken voor bidirectionele modellen, constateren wij dat de toepassing ervan op AR-modellen leidt tot aanzienlijke prestatievermindering om twee redenen: geïsoleerde beschouwing van chunkgeneratie en onvoldoende benutting van informatieve context uit het verleden. Gemotiveerd door deze observaties stellen wij Light Forcing voor, de eerste sparse-aandachtsoplossing toegesneden op AR-videogeneratiemodellen. Het bevat een Chunk-Aware Growth-mechanisme om de bijdrage van elke chunk kwantitatief in te schatten, wat hun sparse toewijzing bepaalt. Deze progressieve strategie voor sparsiteitstoename stelt de huidige chunk in staat om tijdens de generatie eerder opgedane kennis uit eerdere chunks te erven. Daarnaast introduceren wij een Hiërarchische Sparse Aandacht om informatieve historische en lokale context op een coarse-to-fine-manier vast te leggen. Zo'n tweeledige maskerselectiestrategie (d.w.z. op frameniveau en blokniveau) kan diverse aandachtspatronen adaptief afhandelen. Uitgebreide experimenten tonen aan dat onze methode bestaande sparse aandacht overtreft in kwaliteit (bijv. 84,5 op VBench) en efficiëntie (bijv. 1,2∼1,3× end-to-end versnelling). In combinatie met FP8-kwantisering en LightVAE bereikt Light Forcing verder een 2,3× versnelling en 19,7 FPS op een RTX 5090 GPU. Code zal worden vrijgegeven op https://github.com/chengtao-lv/LightForcing.
Versterkend Leren met Geverifieerde Beloning (RLVR) is naar voren gekomen als een cruciaal paradigma voor het verbeteren van de redeneervermogens van Grote Taalmodellen (LLM's). De meeste bestaande RLVR-methoden, zoals GRPO en zijn varianten, garanderen stabiele updates door de beleidsdivergentie te beperken via het clippen van waarschijnlijkheidsratio's. Dit artikel introduceert een uniform kader voor clipping dat bestaande methoden karakteriseert via een algemeen begrip van beleidsdivergentie, dat zowel waarschijnlijkheidsratio's als Kullback-Leibler (KL)-divergenties omvat en zich uitstrekt tot alternatieve maten. Het kader biedt een principiële basis voor het systematisch analyseren van hoe verschillende beleidsdivergentiematen exploratie en prestaties beïnvloeden. Verder identificeren we de KL3-schatter, een variantie-gereduceerde Monte Carlo-schatter van de KL-divergentie, als een belangrijke beleidsdivergentiebeperking. We tonen theoretisch aan dat de op KL3 gebaseerde beperking wiskundig equivalent is aan een asymmetrische op ratio's gebaseerde clipping die waarschijnlijkheidsmassa herverdeelt naar acties met een hoge betrouwbaarheid, wat sterkere exploratie bevordert terwijl de eenvoud van GRPO-achtige methoden behouden blijft. Empirische resultaten op wiskundige redeneerbenchmarks tonen aan dat het integreren van de KL3-schatter in GRPO zowel de trainstabiliteit als de uiteindelijke prestaties verbetert, wat het belang van principiële beleidsdivergentiebeperkingen in beleidsoptimalisatie benadrukt.
Vision-language models (VLMs) hebben sterke prestaties getoond bij het geolokaliseren van afbeeldingen, een vaardigheid die verder is aangescherpt door geavanceerde multimodale grote redeneermodellen (MLRMs). Dit vormt een aanzienlijk privacyrisico, aangezien deze breed toegankelijke modellen kunnen worden misbruikt om gevoelige locaties af te leiden uit nonchalant gedeelde foto's, vaak met straatnauwkeurigheid, wat mogelijk het detailniveau overstijgt dat de deler toestond of van plan was bekend te maken. Hoewel recent onderzoek heeft voorgesteld om een algemene beperking op geolocatie-onthulling toe te passen om dit risico te bestrijden, slagen deze maatregelen er niet in om legitiem geolocatiegebruik te onderscheiden van kwaadwillig gedrag. In plaats daarvan zouden VLMs contextuele integriteit moeten handhaven door elementen binnen een afbeelding te analyseren om het passende niveau van informatieverschaffing te bepalen, waarbij een balans wordt gevonden tussen privacy en functionaliteit. Om te evalueren hoe goed modellen contextuele integriteit respecteren, introduceren we VLM-GEOPRIVACY, een benchmark die VLMs uitdaagt om latente sociale normen en contextuele signalen in real-world afbeeldingen te interpreteren en het juiste niveau van locatie-onthulling te bepalen. Onze evaluatie van 14 toonaangevende VLMs toont aan dat, ondanks hun vermogen om afbeeldingen precies te geolokaliseren, de modellen slecht zijn afgestemd op menselijke privacyverwachtingen. Ze onthullen vaak te veel informatie in gevoelige contexten en zijn kwetsbaar voor prompt-gebaseerde aanvallen. Onze resultaten pleiten voor nieuwe ontwerpprincipes in multimodale systemen om context-gestuurd privacyredeneren te integreren.
Wij onderzoeken twee fundamentele problemen in audiotalmodellen: (1) hoe een audiotokenizer te ontwerpen die kan dienen als intermediaire representatie voor zowel begrip als generatie; en (2) hoe een audiofoundationmodel te bouwen dat generaliseert in few-shot en zero-shot settings, analoog aan grote taalmodel(len). Hiertoe doen wij de volgende twee bijdragen. Ten eerste stellen wij ReasoningCodec voor, een discrete audiocodec die audio factoriseert in (i) redeneertokens, die tekstgealign(e)erde, hoogwaardige analyse- en planningsrepresentaties coderen voor audiobegrip en hiërarchische generatie, en (ii) reconstructietokens, die semantisch rijke akoestische cues coderen voor hoogfideliteitsreconstructie van golfvormen. Dit ontwerp bereikt begripsprestaties vergelijkbaar met sterke continue representaties, terwijl het de generatiekwaliteit en reconstructiefideliteit verbetert ten opzichte van eerdere discrete tokenizers. Ten tweede introduceren wij een verenigde autoregressieve architectuur voor tekst en audio, samen met meerfasentraining en multitaakdataconstructie. Met dit framework trainen wij UniAudio 2.0 op 100B teksttokens en 60B audiotokens. Over een breed scala aan spraak-, geluids- en muziektaken presteert UniAudio 2.0 competitief bij in-domeinevaluaties en toont het sterke few-shot en zero-shotgeneralizatie naar onzichtbare taken. Demo, code en checkpoints zullen beschikbaar zijn op https://dongchaoyang.top/UniAudio2Demo/.
Videobewegingsoverdracht heeft als doel video's te synthetiseren door visuele inhoud te genereren volgens een tekstprompt, waarbij het bewegingspatroon uit een referentievideo wordt overgedragen. Recente methodes gebruiken voornamelijk de Diffusion Transformer (DiT)-architectuur. Om een bevredigende rekentijd te bereiken, proberen verschillende methodes de berekeningen in de DiT te versnellen, maar slagen er niet in structurele bronnen van inefficiëntie aan te pakken. In dit werk identificeren en verwijderen we twee soorten computationele redundantie in eerder werk: bewegingsredundantie ontstaat omdat de generieke DiT-architectuur niet weerspiegelt dat frame-tot-frame beweging klein en vloeiend is; gradiëntredundantie treedt op als men negeert dat gradiënten langzaam veranderen langs het diffusietraject. Om bewegingsredundantie te verminderen, maskeren we de bijbehorende aandachtslagen naar een lokale omgeving, zodat interactiegewichten niet worden berekend voor onnodig verre beeldregio's. Om gradiëntredundantie te benutten, ontwerpen we een optimalisatieschema dat gradiënten van eerdere diffusiestappen hergebruikt en ongerechtvaardigde gradiëntberekeningen overslaat. Gemiddeld bereikt FastVMT een 3,43x versnelling zonder de visuele kwaliteit of temporele consistentie van de gegenereerde video's aan te tasten.
SAM3D maakt schaalbare, open-wereld 3D-reconstructie van complexe scènes mogelijk, maar de inzet ervan wordt belemmerd door een buitensporige inferentielatentie. In dit werk voeren we het eerste systematische onderzoek uit naar de inferentiedynamiek en tonen we aan dat generieke versnellingsstrategieën in deze context broos zijn. We demonstreren dat deze mislukkingen voortkomen uit het negeren van de inherente multi-level heterogeniteit van de pijplijn: de kinematische distinctiviteit tussen vorm en lay-out, de intrinsieke spaarzaamheid van textuurverfijning, en de spectrale variantie tussen geometrieën. Om dit aan te pakken, presenteren we Fast-SAM3D, een trainingsvrij raamwerk dat de rekenkracht dynamisch afstemt op de instantane generatiecomplexiteit. Onze aanpak integreert drie heterogeniteitsbewuste mechanismen: (1) Modaliteitsbewuste Stap-Caching om structurele evolutie te ontkoppelen van gevoelige lay-outupdates; (2) Gezamenlijke Spatiotemporele Token-Carving om verfijning te concentreren op regio's met hoge entropie; en (3) Spectraalbewuste Token-Aggregatie om de decoderingsresolutie aan te passen. Uitgebreide experimenten tonen aan dat Fast-SAM3D een end-to-end versnelling tot 2,67x bereikt met verwaarloosbaar kwaliteitsverlies, waarmee een nieuwe Pareto-frontier wordt gevestigd voor efficiënte 3D-generatie vanuit één beeld. Onze code is vrijgegeven op https://github.com/wlfeng0509/Fast-SAM3D.
Recente videogeneratiemodellen zijn grotendeels afhankelijk van video-auto-encoders die videos in de pixelruimte comprimeren tot latente representaties. Bestaande video-auto-encoders kampen echter met drie belangrijke beperkingen: (1) compressie met een vaste snelheid die tokens verspilt bij eenvoudige videos, (2) inflexibele CNN-architecturen die modellering van latente representaties met variabele lengte verhinderen, en (3) deterministische decoders die moeite hebben om de juiste details te herstellen uit gecomprimeerde latente representaties. Om deze problemen aan te pakken, stellen wij One-Dimensional Diffusion Video Autoencoder (One-DVA) voor, een transformer-gebaseerd raamwerk voor adaptieve 1D-codering en diffusiegebaseerde decodering. De encoder gebruikt query-gebaseerde vision transformers om spatiotemporele kenmerken te extraheren en latente representaties te produceren, terwijl een mechanisme voor dropout met variabele lengte de latente lengte dynamisch aanpast. De decoder is een diffusie-transformer in de pixelruimte die videos reconstrueert met de latente representaties als invoervoorwaarden. Met een tweefasentrainingsstrategie bereikt One-DVA een vergelijkbare prestaties als 3D-CNN VAEs op reconstructiemetrieken bij identieke compressieverhoudingen. Belangrijker is dat het adaptieve compressie ondersteunt en dus hogere compressieverhoudingen kan bereiken. Om latente generatie in downstreamtaken beter te ondersteunen, regulariseren we verder de latente verdeling van One-DVA voor generatief modelleren en fine-tunen we de decoder om artefacten veroorzaakt door het generatieproces te verminderen.
Neurale audiocodecs vormen de kern van moderne conversatie-spraaktechnologieën, waarbij continue spraak wordt omgezet in sequenties van discrete tokens die door LLM's verwerkt kunnen worden. Bestaande codecs werken echter doorgaans met vaste framesnelheden, waardoor tokens uniform in de tijd worden toegewezen en onnodig lange sequenties ontstaan. In dit werk introduceren we DyCAST, een dynamische tokenizer voor spraak die uitgelijnd is op karakterniveau, waardoor tokenisatie met variabele framesnelheid mogelijk wordt via zachte uitlijning op karakterniveau en expliciete modellering van spraakduur. DyCAST leert tijdens de training tokens te associëren met linguïstische eenheden op karakterniveau en ondersteunt inferentie zonder uitlijning met directe controle over tokenduur tijdens het decoderen. Om de kwaliteit van spraakhersynthese bij lage framesnelheden te verbeteren, introduceren we verder een retrieval-augmented decodeermechanisme dat de reconstructiegetrouwheid verbetert zonder de bitsnelheid te verhogen. Experimenten tonen aan dat DyCAST een competitieve kwaliteit van spraakhersynthese en downstreamprestaties bereikt, terwijl aanzienlijk minder tokens worden gebruikt dan bij codecs met vaste framesnelheid. Code en checkpoints worden openbaar vrijgegeven op https://github.com/lucadellalib/dycast.
Opkomende misalignering vormt risico's voor AI-veiligheid nu taalmodelen steeds vaker worden ingezet voor autonome taken. In dit artikel presenteren we een populatie van grote taalmodelen (LLM's) die zijn gefinetuned op onveilige datasets uit 11 uiteenlopende domeinen, en evalueren we deze zowel met als zonder backdoor-triggers op een reeks niet-gerelateerde gebruikersprompts. Onze evaluatie-experimenten met Qwen2.5-Coder-7B-Instruct en GPT-4o-mini onthullen twee belangrijke bevindingen: (i) backdoor-triggers verhogen de mate van misalignering in 77,8% van de domeinen (gemiddelde daling: 4,33 punten), waarbij riskant-financieel-advies en toxisch-juridisch-advies de grootste effecten vertonen; (ii) domeinkwetsbaarheid varieert sterk, van 0% misalignering bij finetunen voor het geven van incorrecte antwoorden op wiskundeproblemen in incorrecte-wiskunde tot 87,67% bij finetunen op gore-filmtrivia. In verdere experimenten in Sectie~sec:onderzoeksverkenning onderzoeken we meerdere onderzoeksvragen, waarbij we vaststellen dat membership inference-metrics, vooral wanneer gecorrigeerd voor het niet-instructie-gefinetunde basismodel, een goede prior vormen voor het voorspellen van de mate van mogelijke brede misalignering. Daarnaast onderzoeken we misalignering tussen modellen die zijn gefinetuned op verschillende datasets en analyseren we of richtingen die zijn geëxtraheerd uit één model met opkomende misalignering (EM) generaliseren om gedrag in andere modellen te sturen. Dit werk is, voor zover wij weten, tevens de eerste dat een taxonomische rangschikking van opkomende misalignering per domein biedt, wat implicaties heeft voor AI-beveiliging en post-training. Het werk standaardiseert ook een recept voor het construeren van misaligneerde datasets. Alle code en datasets zijn openbaar beschikbaar op GitHub.https://github.com/abhishek9909/assessing-domain-emergent-misalignment/tree/main
Diffusion Large Language Models (dLLM's) bieden sterke verwerkingscapaciteit voor lange contexten binnen een niet-autoregressief decodeerparadigma. De aanzienlijke rekenkosten van bidirectionele volledige aandacht (attention) beperken echter de inferentie-efficiëntie. Hoewel sparse attention veelbelovend is, blijven bestaande methoden ondoeltreffend. Dit komt voort uit de noodzaak om het belang van aandacht voor nog te decoderen tokens in te schatten, terwijl de ongemaskeerde tokenposities tijdens de diffusie onbekend zijn. In dit artikel presenteren we Focus-dLLM, een nieuw trainingsvrij raamwerk voor het verspreiden van aandacht, toegesneden op accurate en efficiënte inferentie van dLLM's met lange context. Gebaseerd op de bevinding dat tokenbetrouwbaarheid sterk gecorreleerd is over aangrenzende stappen, ontwerpen we eerst een indicator, geleid door eerdere betrouwbaarheid, om ongemaskeerde regio's te voorspellen. Hierop voortbouwend stellen we een sink-aware pruning-strategie voor om redundante aandachtberekening nauwkeurig in te schatten en te verwijderen, terwijl zeer invloedrijke aandacht-sinks behouden blijven. Om de overhead verder te verminderen, hergebruikt deze strategie geïdentificeerde sink-locaties over lagen heen, waarbij gebruik wordt gemaakt van de waargenomen consistentie tussen lagen. Experimentele resultaten tonen aan dat onze methode een meer dan 29-voudige verliesvrije versnelling biedt bij een contextlengte van 32K. De code is openbaar beschikbaar op: https://github.com/Longxmas/Focus-dLLM
Op grote taalmodellen (LLM) gebaseerde multi-agent systemen maken expressieve agent-redenering mogelijk, maar zijn kostbaar om op te schalen en slecht gekalibreerd voor tijdstap-uitgelijnde toestandsovergangssimulatie. Klassieke agent-gebaseerde modellen (ABM's) bieden daarentegen interpreteerbaarheid, maar hebben moeite met het integreren van rijke individuele signalen en niet-stationaire gedragingen. Wij introduceren PhysicsAgentABM, dat de inferentie verschuift naar gedragscoherente agentclusters: toestand-gespecialiseerde symbolische agenten coderen mechanistische overgangspriors, een multimodaal neuraal overgangsmodel vangt temporele en interactiedynamiek, en onzekerheidsbewuste epistemische fusie levert gekalibreerde clusterbrede overgangsverdelingen op. Individuele agenten realiseren vervolgens stochastisch overgangen onder lokale beperkingen, waardoor populatie-inferentie wordt ontkoppeld van entiteitsniveau-variabiliteit. Verder introduceren we ANCHOR, een LLM-agent-gedreven clusteringstrategie gebaseerd op cross-contextuele gedragsreacties en een nieuw contrastief verlies, die het aantal LLM-aanroepen tot 6-8 keer reduceert. Experimenten in volksgezondheid, financiën en sociale wetenschappen tonen consistente verbeteringen in gebeurtenis-tijdnauwkeurigheid en kalibratie ten opzichte van mechanistische, neurale en LLM-baselines. Door generatieve ABM opnieuw te ontwerpen rond populatieniveau-inferentie met onzekerheidsbewuste neuro-symbolische fusie, vestigt PhysicsAgentABM een nieuw paradigma voor schaalbare en gekalibreerde simulatie met LLM's.