Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Moderne open-wereld agenten zoals OpenClaw vertonen krachtige cross-omgeving uitvoeringscapaciteiten, maar introduceren tegelijkertijd brede nieuwe veiligheidsrisicobronnen. Tegelijkertijd verlagen geavanceerde frontier AI-modellen drastisch de aanvalsbarrières, waardoor de huidige agent-afstemmingskaders ontoereikend worden voor implementatie in de echte wereld. Om deze opkomende dreigingen aan te pakken, stellen we een lichtgewicht en schaalbaar agent veiligheidsafstemmingskader voor. Concreet werken we de agent veiligheidstaxonomie bij om opkomende risico's van Codex- en OpenClaw-uitvoeringsscenario's te accommoderen. Verder bouwen we een taxonomie-gestuurde data-engine met invloedsfunctiezuivering om lichtgewicht AgentDoG 1.5 varianten (0,8B, 2B, 4B en 8B parameters) te trainen met slechts ongeveer 1k monsters, waarmee we vergelijkbare prestaties behalen als toonaangevende closed-source modellen (bijv. GPT-5.4). Op basis van AgentDoG 1.5 bouwen we een zeer efficiënte agentische veiligheid SFT- en RL-trainingsomgeving, die de implementatie-overhead in Docker-niveau omgevingen met twee ordes van grootte vermindert. Ten slotte implementeren we AgentDoG 1.5 als een trainingsvrije online guardrail voor real-time veiligheidsmoderatie. Uitgebreide experimentele resultaten geven aan dat AgentDoG 1.5 state-of-the-art prestaties behaalt in diverse en complexe interactieve agentische scenario's. Alle modellen en datasets worden openbaar vrijgegeven.
Belichaamde intelligentie wordt vaak bestudeerd via gespecialiseerde modellen voor individuele taken zoals manipulatie of navigatie, wat leidt tot gefragmenteerde capaciteiten en beperkte generalisatie over taken, omgevingen en robotlichamen. In dit werk onderzoeken we of heterogene belichaamde besluitvormingsproblemen kunnen worden verenigd in één enkel visie-taal-actiemodel. We presenteren Qwen-VLA, een verenigd belichaamd funderingsmodel dat de visie-taalmodelleringstack van Qwen uitbreidt van perceptie, begrip en redeneren naar continue actie- en trajectgeneratie via een DiT-gebaseerde actiedecoder. Qwen-VLA wordt getraind met een grootschalige gezamenlijke voorafgaande trainingsstrategie over diverse gegevensbronnen, waaronder robotmanipulatietrajecten, menselijke egocentrische demonstraties, synthetische simulatiegegevens, visie-en-taalnavigatiegegevens, trajectgerichte supervisie en aanvullende visie-taalgegevens. Om meerdere robotplatformen te ondersteunen, introduceren we embodiment-bewuste promptconditionering, waarbij robotspecifieke tekstuele beschrijvingen het huidige belichaamde en controleconventie specificeren. Verder gieten we manipulatie, navigatie en trajectvoorspelling in een verenigd actie-en-trajectvoorspellingskader, wat overdraagbare visuele gronding, ruimtelijk redeneren en continue actiegeneratie mogelijk maakt over robotmorfologieën, taakfamilies en omgevingen. Experimenten op manipulatie-, navigatie- en trajectgerichte benchmarks laten consistente multitaskprestaties en out-of-distribution generalisatie zien onder variaties in scène-indeling, achtergrond, verlichting, objectconfiguratie en robotbelichaming. Qwen-VLA-Instruct behaalt 97,9% op LIBERO, 73,7% op Simpler-WidowX, 86,1%/87,2% op RoboTwin-Easy/Hard, 69,0% OSR op R2R, 59,6% SR op RxR, 76,9% gemiddeld OOD-succes in echte ALOHA-experimenten en 26,6% zero-shot succes op DOMINO dynamische manipulatie.
In realistische informatiebehoeften is toegang nodig tot structureel diverse kennisbronnen, van ongestructureerde tekst en relationele tabellen tot kennisgrafen en eigenschapsgrafen. Bestaande retrievers werken echter over één bron tegelijk onder een vaste querytaal, waardoor het bredere landschap van beschikbare kennis gefragmenteerd blijft achter incompatibele interfaces. Een natuurlijke poging tot unificatie zou deze bronnen in een gedeelde ruimte samenvouwen, maar dit wist de structurele mogelijkheden (zoals schema's, ontologieën, compositionele operatoren) die elke bron zijn expressieve kracht geven. Effectieve retrievale over diverse kennis vereist daarom geen homogenisatie, maar een overkoepelende laag die elke bron op zijn eigen voorwaarden tegemoetkomt. Om dit te bereiken presenteren we OmniRetrieval, een raamwerk dat elke natuurlijke-taalvraag neemt, de juiste kennisbronnen identificeert en brongebonden queries naar hun native uitvoeringsengines stuurt. In een uitgebreide benchmark die 13 datasets en 309 verschillende kennisbanken omvat over tekst-, relationele en grafgestructureerde bronnen, overtreft OmniRetrieval de enkelvoudige-bron baselines, wat aantoont dat het kan dienen als een algemene interface voor de heterogene bronnen, terwijl het de structurele onderscheidingen behoudt die elke bron waardevol maken.
Aangepaste beeldbewerking heeft als doel om voorgetrainde diffusiemodellen uit te rusten met specifieke visuele effecten met behulp van beperkte gepaarde gegevens, doorgaans via Low-Rank Adaptation (LoRA). Naarmate het aantal gewenste effecten toeneemt, zorgt de opslag en het dynamisch laden van deze vele effect-LoRA's voor een aanzienlijk hogere implementatie-overhead. Bovendien combineren huidige pijplijnen deze effect-LoRA's doorgaans met versnellingsmodules voor snelle generatie, wat leidt tot ernstige parameterinterferentie en resulteert in conceptbloeding en stijlvermindering. Wij stellen CollectionLoRA voor, een multi-docent on-policy distillatiekader dat in staat is om de concepten van maximaal 50 verschillende effect-LoRA's, samen met mogelijkheden voor generatie in enkele stappen, te distilleren in één enkele LoRA. Dit lost het probleem van kenmerkinterferentie fundamenteel op en verlaagt de implementatiekosten aanzienlijk. Specifiek introduceert de methode (i) een Probabilistische Dubbele-Stroom Routering die het model in staat stelt om tijdens de training willekeurig tussen gegevensbronnen te schakelen, waardoor de generalisatie in niet-geziene scenario's effectief wordt verbeterd; (ii) een Asymmetrische Orthogonale Prompting-strategie om conceptisolatie binnen de promptruimte te bereiken; (iii) een Grof-naar-Fijn Distillatiedoelstelling om de distributiekloof tussen het docent- en studentmodel te verkleinen. Uitgebreide evaluaties tonen aan dat CollectionLoRA alle aangepaste effecten en generatie in enkele stappen distilleert in één enkele LoRA, waardoor de implementatie-overhead wordt verminderd en tegelijkertijd een conceptgetrouwheid wordt bereikt die vergelijkbaar is met of beter is dan die van onafhankelijk getrainde docentmodellen.
Recente funderingsmodellen voor videodiffusie hebben opmerkelijke vooruitgang geboekt bij het genereren van hoogwaardige video's, maar het omzetten ervan in real-time interactieve videowereldmodellen blijft een uitdaging. Interactieve wereldmodellen vereisen controleerbare, causale uitrol met lage latentie, wat in de praktijk een volledige pijplijn vereist die gegevensconstructie, controleerbare fine-tuning, autoregressieve training, distillatie in enkele stappen en streaming-inferentie omvat. In dit werk presenteren we minWM, een full-stack open-source raamwerk voor het bouwen van real-time interactieve videowereldmodellen. minWM biedt een end-to-end pijplijn die bestaande bidirectionele T2V/TI2V-videofunderingsmodellen omzet in camera-controleerbare autoregressieve wereldmodellen met weinig stappen. Specifiek fine-tunet minWM eerst een bidirectioneel videodiffusiemodel met camerabesturing en past vervolgens de Causal Forcing / Causal Forcing++-pijplijn toe, inclusief AR-diffusietraining, causale ODE of causale consistentiedistillatie en asymmetrische DMD, om het te distilleren tot een autoregressieve generator met weinig stappen voor uitrol met lage latentie. Het raamwerk is modulair en architectuur-uitbreidbaar: we instantieren het op representatieve open backbones, waaronder Wan2.1-T2V-1.3B en HY1.5-TI2V-8B, die zowel op cross-attention gebaseerde conditie-injectie als MMDiT-achtige architecturen omvatten. minWM ondersteunt ook het aanpassen van bestaande videowereldmodellen, zoals HY-WorldPlay, aan nieuwe gegevensdistributies, trainingsrecepten en latentiedoelen. Naast het uitbrengen van uitvoerbare scripts, checkpoints, documentatie en inferentiecode, bieden we praktische ablatie-experimenten met betrekking tot cameratrajectkwaliteit, controleerbaarheidsstappen voor training en minimale batchgrootte-eisen. We hopen dat minWM dient als een reproduceerbaar en uitbreidbaar recept voor het bouwen en aanpassen van real-time interactieve videowereldmodellen. Projectpagina: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
Naarmate videodiffusiemodellen (VDM's) zich ontwikkelen richting wereldmodellen, rijst een cruciale vraag: begrijpen zij werkelijk causaliteit, of passen zij zich slechts aan aan statistische temporele patronen? Bestaande benchmarks zijn veelal gebaseerd op synthetische data, wat de generalisatie naar de echte wereld beperkt door de simulatie-naar-realiteit-kloof. Wij presenteren YoCausal, een tweeledige benchmark geïnspireerd op het paradigma van schending van verwachting (Violation of Expectation, VoE) uit de cognitieve wetenschap. Door realistische video's kosteloos temporeel om te keren als natuurlijke tegenfeitelijke steekproeven, vestigt YoCausal een willekeurig uitbreidbaar evaluatieprotocol. Niveau 1 introduceert de Reverse Surprise Index (RSI), die de perceptie van de tijdsrichting kwantificeert via denoisingverlies. Niveau 2 introduceert de Causality Cognition Index (CCI), die een VLM gebruikt om datasets te stratificeren in causale en niet-causale subsets, waardoor echte causale redenering wordt ontrafeld van temporele bias. Evaluatie van 13 state-of-the-art VDM's laat zien dat het waarnemen van de tijdsrichting niet impliceert dat causaliteit wordt begrepen, en dat er een aanzienlijke kloof blijft bestaan ten opzichte van causaal denken op menselijk niveau.
Beeldgeneratiemodellen zijn geëvolueerd van tekstgestuurde pixelsynthese naar multimodale agenten die beschikken over visueel begrip en mogelijkheden voor het aanroepen van tools. Toch blijven bestaande agenten overgeleverd aan de onderliggende black-box-beeldmodellen. Hun workflow zit gevangen in een repetitieve cyclus van prompt-herschrijven voor generatieverfijning, zonder dat er een mechanisme is om het canvas direct te manipuleren. In essentie blijft het potentieel van LLM's om als een echte 'penseel' te dienen voor precieze visuele constructie grotendeels onbenut. In dit artikel stellen we GenClaw voor, een codegestuurd agentisch beeldgeneratieparadigma dat de agent in staat stelt te creëren als een menselijke kunstenaar: eerst conceptualiseren, dan schetsen, en ten slotte inkleuren. Specifiek bouwt de agent eerst de conceptuele kennis en context op via zoeken en redeneren. Vervolgens gebruikt het code (bijv. SVG, HTML, Three.js) om uitvoerbare visuele schetsen te renderen. Ten slotte gebruikt het een beeldgeneratiemodel om texturen, materialen en fotorealisme toe te voegen. In deze workflow dient code als een controleerbaar tussenliggend canvas dat taalkundig redeneren en pixelsynthese overbrugt, en programmatische logica naadloos integreert met de visuele expressiviteit van generatieve modellen. Door beeldgeneratie te transformeren van een black-boxparadigma naar een gefaseerd proces dat lijkt op authentieke menselijke creatie, biedt GenClaw een stap richting hoogst controleerbare en interpreteerbare visuele generatiesystemen.
Video-grote-taalmodellen (Video-LLM's) hebben sterke capaciteiten aangetoond in videobegripstaken. Hun praktische inzet wordt echter nog belemmerd door de inefficiëntie die ontstaat bij het verwerken van enorme hoeveelheden visuele tokens. Hoewel recente benaderingen extreem lage tokenretentieratio's bereiken met behoud van een nauwkeurigheid vergelijkbaar met volledige-token-baselines, voeren de meeste hiervan compressie alleen in de late fase van het prefilling uit, waardoor de efficiëntie van de visie-encoder niet wordt geoptimaliseerd. In dit artikel tonen we eerst aan dat visiecodering een groot deel van de tijd-tot-eerste-token (TTFT) voor zijn rekening neemt. Daarom blijft er nog aanzienlijke ruimte voor verkenning als we compressie niet pas na de visie-encoder uitvoeren, maar al binnen de encoder. Op basis van dit inzicht stellen we EarlyTom voor, een training-vrij tokencompressieraamwerk dat vroege compressie van visuele tokens binnen de visie-encoder uitvoert, wat een aanzienlijk betere TTFT-reductie en hogere doorvoer mogelijk maakt. Daarnaast introduceren we een ontkoppelde ruimtelijke tokenselectiestrategie die de algehele compressie-effectiviteit verbetert. EarlyTom vermindert de TTFT met maximaal 2,65x en de FLOP's met maximaal 61% op een enkele NVIDIA A100 GPU voor het LLaVA-OneVision-7B-model, met behoud van een nauwkeurigheid vergelijkbaar met de volledige-token-baseline. Deze verbeteringen verhogen aanzienlijk de bruikbaarheid van het inzetten van Video-LLM's in realistische productiescenario's.
Grote Taalmodellen (LLM's) moeten continu leren en kennis bijwerken om effectief te blijven in dynamische, realistische omgevingen. Hoewel Laag-Rang Adaptatie (LoRA) veelvuldig wordt gebruikt voor dergelijke geheugenupdates, steunen bestaande studies voornamelijk op kwalitatieve downstream-evaluaties, waardoor de kwantitatieve capaciteitsgrenzen en onderliggende dynamiek van exact parametrisch geheugen grotendeels onverkend blijven. Om deze kloof te overbruggen, gebruiken wij LoRA als een gecontroleerde geheugencapaciteitssonde in de latente ruimte om exact parametrisch geheugen systematisch te kwantificeren. Wij introduceren de Parametrische Geheugenwet, een robuuste machtswet die de verliesreductie ΔL koppelt aan effectieve parameters en sequentielengte. Op token-niveau onthult een fijnmazige analyse een deterministische faseovergang, die aantoont dat een voorspellingskans van p > 0,5 een voldoende voorwaarde vormt voor letterlijke herinnering onder greedy decoding. Gedreven door deze inzichten introduceren wij MemFT, een drempelgestuurde optimalisatiestrategie die het trainingsbudget dynamisch herverdeelt naar subdrempeltokens. Empirische evaluaties tonen aan dat MemFT de geheugentrouw en efficiëntie kan verbeteren. Code zal worden vrijgegeven op https://github.com/zjunlp/ParametricMemoryLaw.
Op activering gebaseerde controle stuurt grote taalmodellen (LLM's) door tijdens inferentie in te grijpen op hun interne representaties, en is uitgegroeid tot een effectief paradigma voor het sturen van gedragingen zoals persona en stijl. Bestaande methoden vertrouwen echter vaak op vaste stuurrichtingen of taakspecifieke interventiemodules, waardoor ze moeilijk aanpasbaar zijn aan fijnmazige concepten en compositionele beperkingen. Wij stellen UniSteer voor, een tekstgestuurd activatiestromingsmatchingsmodel dat een conditionele verdeling over residuele-stroomactivaties leert op basis van natuurlijke-taalaanduidingen. In plaats van een aparte interventie voor elk doelgedrag te fitten, leert UniSteer een universeel conditioneel snelheidsveld in de activatieruimte. Tijdens inferentie voert UniSteer stromingsinversie uit door een bronactivatie gedeeltelijk naar een latente toestand te transporteren en deze onder een beoogde tekstuele conditie te regenereren alvorens deze terug te injecteren in het bevroren LLM. Hetzelfde conditionele model ondersteunt classificatie in de activatieruimte door het tekstuele label met de laagste reconstructie-energie te selecteren. Experimenten op drie doel-LLM's tonen aan dat UniSteer een uniforme interface biedt voor gedragscontrole, waarheidsgetrouw sturen, het sturen van fijnmazige concepten, het volgen van instructies met meerdere beperkingen en classificatie in de activatieruimte.
Vision-taalmodellen (VLM's) behalen sterke prestaties op ruimtelijke redeneerbenchmarks, maar het blijft onduidelijk of dit gestructureerd 3D-begrip weerspiegelt of een beroep op statistische shortcuts in natuurlijke afbeeldingen. We introduceren een representatie-niveau analysekader dat minimale contrastparen construeert om te meten hoe ruimtelijke assen georganiseerd en ontward zijn binnen VLM-embeddings. Onze analyse over meerdere modelfamilies onthult een consistente verticale-afstandsverstrengeling: modellen verwarren verticale beeldpositie met afstand, wat de perspectiefbias van natuurlijke foto's weerspiegelt. Deze bias veroorzaakt een significant nauwkeurigheidsverschil tussen perspectief-consistente en contraintuïtieve voorbeelden, en versterkt onder dataschaalvergroting, zelfs terwijl de algehele benchmarknauwkeurigheid verbetert. We tonen verder aan dat modellen met vergelijkbare benchmarkscores verschillende interne representaties kunnen vertonen, en dat deze verschillen nauwkeurigheid en robuustheid voorspellen over diverse ruimtelijke redeneerbenchmarks. Om deze bias te isoleren van scheefheid in de evaluatieset, introduceren we SpatialTunnel, een synthetische benchmark ontworpen om ruimtelijke shortcut-biases bloot te leggen door gangbare correlaties in natuurlijke afbeeldingen te verwijderen. Experimenten bevestigen dat de verstrengeling model-intrinsiek is, en dat modellen met goed gescheiden ruimtelijke assen een grotere robuustheid vertonen, wat suggereert dat goed gestructureerde ruimtelijke representaties leiden tot betrouwbaardere ruimtelijke redenering over diverse benchmarks. Code en benchmark zijn beschikbaar op de projectpagina: https://cheolhong0916.github.io/whyfarlooksup.github.io/.
Gezamenlijke audio-video generatie heeft tot doel temporeel gesynchroniseerde en semantisch coherente visueel-akoestische inhoud te synthetiseren. Bestaande open-source methoden zijn echter voornamelijk gebaseerd op dual-tower ontwerpen met posterieure uitlijning of volledig verenigde tri-modale ontwerpen die tekstuele context, audio en video in één gedeelde ruimte mengen. Eerstgenoemde verzwakt de fijnmazige audio-video co-evolutie, terwijl laatstgenoemde semantische conditionering koppelt aan laag-niveau synchronisatie. Om deze beperkingen aan te pakken, stellen we NAVA voor, een Native Audio-Visueel Uitlijningsraamwerk voor gezamenlijke audio-video generatie. NAVA is gebouwd op context-geconditioneerde native audio-visuele uitlijning: het vestigt eerst audio-video correspondentie in een speciale interactieruimte en gebruikt vervolgens externe context om het gezamenlijke denoising proces te conditioneren. Specifiek wordt NAVA geïnstantieerd met een Align-then-Fuse MMDiT architectuur, die overgaat van modaliteitsbewuste audio-video uitlijning naar modaliteitsgedeeld gezamenlijk denoising. Verder introduceren we Timbre-in-Context Conditionering om referentie timbre aanwijzingen te koppelen aan overeenkomstige spraaksegmenten voor controleerbaar spraaktimbre. Experimenten op Verse-Bench en Seed-TTS, samen met een gebruikersstudie, tonen aan dat NAVA superieure videokwaliteit, precieze audio-visuele synchronisatie, concurrerende audiokwaliteit en sterkere referentie-timbre controleerbaarheid bereikt met slechts 6,3 miljard parameters.
Visie-Taalmodellen (Vision-Language Models, VLMs) hebben aanzienlijke vooruitgang geboekt op een breed scala aan begrips- en redeneertaken, gedreven door grootschalige beeld-teksttraining gericht op multimodale fusie. Idealiter zou het vervangen van een tekstuele vraag door de overeenkomstige weergegeven afbeelding de modelprestaties in wezen ongemoeid laten. In de praktijk leidt een dergelijke modaliteitsvervanging echter tot een drastische prestatievermindering. Wij schrijven dit probleem van 'dragergevoeligheid' toe aan een inherente vertekening in de huidige trainingscorpora. In gangbare datasets zoals beeldonderschriften, VQA, OCR en van het web afkomstige interleaved data worden tekst en afbeeldingen doorgaans georganiseerd in duidelijke en asymmetrische rollen, waarbij tekst fungeert als taalkundige vragen en afbeeldingen als visuele referenties. Deze dataverschuiving leidt ertoe dat VLMs duidelijke voorkeuren vertonen voor het verwerven van informatie via verschillende modaliteiten. Als gevolg hiervan slagen VLMs er niet in om representaties van semantisch equivalente inhoud over tekstuele en visuele dragers op elkaar af te stemmen, waardoor modelredeneren kwetsbaar wordt onder modaliteitsvervanging. Om dit aan te pakken stellen wij Lokale Modaliteitsvervanging (Local Modality Substitution, LoMo) voor, een lichtgewicht, architectuuronafhankelijk datacuratieparadigma dat is ontworpen om supervisie te bieden voor cross-modale representatie-invariantie tussen semantisch equivalente tekst- en beelddragers. LoMo bereikt dit door enkelvoudige modaliteitsprompts om te vormen tot naadloos interleaved multimodale sequenties. Het selecteert dynamisch doeltekstspannes en herinterpreteert deze als weergegeven afbeeldingen, waardoor dezelfde semantiek wordt behouden over 'tekst, visueel, tekst'-dragers. Uitgebreide experimenten over 13 diverse multimodale benchmarks tonen aan dat LoMo de algehele multimodale redenering aanzienlijk verbetert en diepere cross-modale fusie oplevert. Specifiek levert het consistente winst op bij fundamentele modellen, met verbeteringen van 2,67 punten op LLaVA-OneVision-1.5-8B en 2,82 punten op Qwen3.5-9B in vergelijking met standaard SFT.
Versterkingsleren (RL) nabehandeling blijkt het redeneervermogen van grote taalmodellen (LLM's) te verbeteren. Er is echter weinig onderzoek gedaan naar het probleem van datacontaminatie in RL-nabehandeling, wat de generalisatie en evaluatiebetrouwbaarheid van het trainingsproces zelf kan ondermijnen. Bestaande detectiemethoden zijn voornamelijk gebaseerd op signalen op uitvoerniveau, zoals waarschijnlijkheid of entropie, die onbetrouwbaar worden voor met RL getrainde modellen, aangezien RL gedrag vormgeeft via beloningen op trajectniveau in plaats van via tokenwaarschijnlijkheden. Wij stellen LaRA voor, een raamwerk voor laagsgewijze representatieanalyse om contaminatie in met RL nabehandelde LLM's te detecteren. LaRA introduceert drie complementaire metrieken die perturbatiegevoeligheid, directionele collaps en lokale representatiestijfheid meten onder gecontroleerde perturbaties. We ontdekken dat contaminatie leidt tot progressieve geometrische afwijkingen over lagen, waaronder versterkte perturbatiegevoeligheid, sterkere directionele collaps en toegenomen lokale stijfheid. Op basis van onze bevindingen ontwikkelen we ook een contaminatiedetectieprotocol dat afwijkingen op representatieniveau over lagen en metrieken aggregeert. Experimenten met door RL getrainde redeneermodellen tonen aan dat ons protocol beter presteert dan bestaande baselines op uitvoerniveau voor contaminatiedetectie.
Het uitrusten van grote taalmodellen met expliciete vaardigheden is naar voren gekomen als een veelbelovend paradigma voor het mogelijk maken van autonome agents om complexe taken op te lossen. Agentvaardigheden kunnen inherent worden onderverdeeld in algemene vaardigheden voor brede cognitieve overdracht en taakspecifieke vaardigheden voor dynamische uitvoering. Echter, bestaande op vaardigheden gebaseerde reinforcement learning (RL) methoden dwingen doorgaans een rigide keuze af tussen volledige externalisatie, wat leidt tot prohibitieve contextoverhead, en volledige internalisatie, wat risico's op overfitting en kennisconflicten met zich meebrengt. Om dit dilemma aan te pakken, stellen we Skill0.5 voor, een nieuw agentisch RL-raamwerk dat expliciet onderscheid maakt tussen vaardigheidsbehandelingen door algemene vaardigheidsinternalisatie te combineren met taakspecifiek vaardigheidsgebruik. Aangedreven door een dynamische, moeilijkheidsbewuste router, stroomt Skill0.5 taken in verschillende beheersingsniveaus om op maat gemaakte optimalisatiestrategieën toe te passen: het internaliseert algemene vaardigheden via bevoorrechte distillatie om een cognitieve basis voor moeilijke taken op te bouwen, terwijl het diagnostische probing gebruikt op eenvoudige taken om shortcuts te bestraffen en specifiek vaardigheidsgebruik af te dwingen. Experimenten op ALFWorld en WebShop tonen aan dat Skill0.5 zowel geheugen-gebaseerde als vaardigheids-gebaseerde RL-baselines overtreft, wat leidt tot prestatieverbeteringen in zowel in-distributie- als out-of-distributie-scenario's.
Uitleggen waarom dense retrievers hoge relevantiescores toekennen blijft uitdagend, omdat ophaalbeslissingen worden genomen via ondoorzichtige hoogdimensionale embeddings. Bestaande verklaringen richten zich vaak op oppervlakkige signalen, zoals lexicale overeenkomsten, token-uitlijningen of post-hoc tekstuele verantwoordingen, en bieden daardoor beperkt inzicht in de latente factoren die het gedrag van dense retrieval op embedddingniveau vormgeven. Wij stellen Xetrieval voor, een mechanistisch raamwerk op embedddingniveau voor het verklaren van dense retrieval. Xetrieval introduceert eerst een lichtgewicht redeneer-internalizer die Chain-of-Thought-redenering direct in de embedddingruimte benadert met een enkele voorwaartse doorgang, waarbij zinsembeddings worden verrijkt met redeneergerichte informatie terwijl dure autoregressieve generatie wordt vermeden. Vervolgens ontleedt het deze met redenering verrijkte embeddings in schaarse, door mensen interpreteerbare kenmerken, elk geassocieerd met een coherente natuurlijke taal beschrijving. Door schaarse kenmerkoverlappingen over meerdere documentzijdeweergaven te aggregeren, biedt Xetrieval kenmerkniveau-verklaringen van individuele ophaalbeslissingen. Experimenten met diverse retrievers en benchmarks tonen aan dat Xetrieval coherente interpreteerbare kenmerken blootlegt, sterkere paarinterventie-effecten oplevert en taakniveau-kenmerksturing ondersteunt. De projectpagina en broncode zijn beschikbaar op https://hihiczx.github.io/Xetrieval.
Langetermijninteracties vereisen dat taalmodellen het accumuleren van informatie beheren: wanneer moeten ze hun toestand bijwerken, wanneer moeten ze deze behouden en wat moeten ze negeren. We bestuderen deze uitdaging als Contextueel Beheer van Geloofstoestanden (CBM): het onderhouden van een voorspelde geloofstoestand die aansluit bij formeel bewijs, terwijl taakirrelevante ruis wordt geïsoleerd. Om CBM meetbaar te maken, introduceren we BeliefTrack, een gesloten-wereldbenchmark die Regelontdekking en Circuitdiagnose omvat, waarbij een eindige geloofsruimte en symbolische verificatoren een exacte evaluatie op beurtniveau mogelijk maken. BeliefTrack identificeert drie falen: Mislukt Blijven, Mislukt Bijwerken en Mislukt Isoleren. Bij meerdere LLM's vertonen standaardmodellen ernstige CBM-falen, terwijl expliciete prompts voor geloofsvolg beperkte winst opleveren. Daarentegen vermindert versterkingsleren met beloningen voor geloofstoestand de faalpercentages gemiddeld met 70,9%. Verder onderzoek onthult latente dynamiek van geloofstoestanden achter deze falen, en sturing op representatieniveau verlaagt de faalpercentages met 46,1% over twee taken\footnote{Code is binnenkort beschikbaar op https://github.com/zjunlp/CBM.}.
Diffusiemodellen bereiken state-of-the-art beeldsynthese, waarbij hun generatieve trajectoriën fundamenteel een spectrale bias vertonen: ze lossen laagfrequente globale structuren vroeg op en hoogfrequente fijne details later. Conventionele stochastische differentiaalvergelijking (SDE)-oplossers houden geen rekening met deze dynamiek; ze injecteren naïef uniforme witte ruis gedurende het gehele proces en misbruiken het eindige energiebudget. In dit werk stellen we een wiskundig raamwerk vast dat SDE-inferentie herziet als een gerichte, frequentie-ontkoppelde energieoverdracht. Met behulp van dit raamwerk introduceren we Colored Noise Sampling (CNS), een nieuwe, training-vrije stochastische oplosser. In plaats van uniforme witte ruis te injecteren, gebruikt CNS een dynamisch, tijdstap- en frequentieafhankelijk schema dat de geïnjecteerde energie efficiënter toewijst aan structureel onopgeloste frequentiebanden. Door actief gebruik te maken van de inherente spectrale bias van het model, stuurt CNS systematisch de gegenereerde verdeling naar de ware datamanifold. Uitgebreide experimenten tonen aan dat CNS aanzienlijk beter presteert dan standaard ODE- en SDE-baselines als een strikt plug-and-play, inferentie-tijd sampler-substitutie voor diverse architecturen (SiT, JiT, FLUX). Vergeleken met standaard sampling op ImageNet-256 behaalt CNS substantiële ongeleide FID-verlagingen, van 8,26 naar 6,27 op SiT-XL/2, van 32,39 naar 26,69 op JiT-B/16, en van 11,88 naar 8,31 op JiT-H/16, terwijl er consistente relatieve FID-verbeteringen worden behaald met Classifier-Free Guidance. De projectpagina is beschikbaar op https://hadardavidson.github.io/CNS/.
Dichte retrievers vertonen positiebias: ze bevoordelen documenten waarin query-relevante informatie aan het begin staat, en de retrievalprestaties nemen af wanneer die informatie later verschijnt. Hoewel eerder onderzoek naar positiebias in dichte retrievers zich grotendeels richtte op architecturale verklaringen, bestuderen wij hoe de positionele verdeling van bewijs in trainingsdata de richting van bias op retrieverniveau beïnvloedt. Om dit te testen construeren we synthetische positiegerichte trainingssets waarin query-relevant bewijs aan het begin, midden of einde van documenten verschijnt, en finetunen we acht architecturaal diverse voorgetrainde modellen onder scheve en gebalanceerde trainingsdistributies. Op rangschikkingsniveau zien we een sterk directioneel patroon bij de onderzochte modellen: scheve trainingsdistributies bevoordelen bewijs op de corresponderende posities. Positiegebalanceerde training vermindert positionele gevoeligheid met 57–87% op positiebewuste benchmarks, met concurrerende gemiddelde retrievalprestaties in onze gecontroleerde omgeving. Analyses op representatieniveau suggereren verder dat finetunen vaak geleerde positievoorkeuren hervormt, hoewel bestaande architecturale of pretrainingsspecifieke neigingen bij sommige modellen blijven bestaan. Deze resultaten identificeren de positionele verdeling van trainingsdata als een belangrijke beheersbare factor in positiebias op retrieverniveau en wijzen op gebalanceerde datacuratie als een praktische mitigatiestrategie.
Wij introduceren CausaLab, een schaalbare omgeving voor het evalueren van interactieve causale ontdekking door LLM-agenten. In tegenstelling tot eerdere evaluaties beoordeelt CausaLab zowel of een agent een probleem kan oplossen met behulp van causaal bewijs als of het antwoord gefundeerd is in een getrouw teruggevonden causaal mechanisme. Elke episode plaatst een agent in een synthetisch laboratorium: het ontvangt eerdere meetgegevens, intervenieert op een manipulatorkristal en voorspelt de resonantiefrequentie van een apart gehouden reactorkristal dat door hetzelfde mechanisme wordt geregeerd. Het verborgen gegevensgenererende proces is een willekeurig gesampled structureel causaal model (SCM), dus succes vereist het terugvinden van zowel een causale graaf als structurele vergelijkingen, in plaats van het herinneren van voorkennis. Experimenten tonen een aanhoudende kloof tussen voorspelling en mechanismeherstel: in de puur observationele 6-knoopsetting bereikt GPT-5.2-high 92% taaknauwkeurigheid, maar slechts 0,471 all-edge F₁. Gemengde observatie-interventiestrategieën verbeteren de structurele getrouwheid, terwijl pure interventie zelfs voor sterke agenten moeilijk blijft. Wij identificeren vroegtijdig stoppen als een belangrijke zwakte en tonen aan dat consistentieverificatie dit vermindert. CausaLab scheidt daardoor voorspellend succes van causaal begrip en legt de grenzen van huidige LLM-agenten als experimentele causale redeneerders bloot.
Op grote taalmodellen (LLM) gebaseerde agenten hebben sterke capaciteiten getoond in het gebruik van externe tools om complexe taken op te lossen. Bestaande evaluaties houden echter vaak geen rekening met de temporele dimensie van toolgebruik, met name de impact van de responstijd van tools, en zijn doorgaans beperkt tot enkelvoudige taakinstellingen. In praktijktoepassingen moeten vaak meerdere taken gelijktijdig worden uitgevoerd, en de algehele efficiëntie hangt af van of een agent inactieve tijd kan benutten tijdens het wachten op toolreacties. We verwijzen naar deze capaciteit als asynchrone toolaanroep. Om deze te evalueren, stellen we AsyncTool voor, een benchmark voor het beoordelen van LLM-gebaseerde agenten in interactieve, multitaak-omgevingen met vertraagde toolfeedback. AsyncTool presenteert meerdere heterogene taken tegelijkertijd en simuleert realistische toolresponstijd tijdens de uitvoering. Met behulp van een hybride data-evolutiestrategie construeren we een diverse asynchrone multitasking-dataset die meerdere scenario's en toolgebruikspatronen dekt. We evalueren modellen op staps-, deeltaak- en taakniveau, en introduceren efficiëntiegerichte metrieken om taakcoördinatie en -voltooiingsefficiëntie te meten. Uitgebreide experimenten tonen aan dat vertraagde toolfeedback aanzienlijke uitdagingen vormt voor huidige agenten en leidt tot duidelijke prestatievermindering. Modellen die taakwisseling, afhankelijkheidsregistratie en toestandsbehoud beter coördineren, presteren sterker op AsyncTool. Onze analyse identificeert belangrijke faalwijzen van huidige toolgebruikende agenten en biedt praktische inzichten voor het ontwerpen van toekomstige systemen met sterkere temporele redeneer- en coördinatiecapaciteiten.
De ontwerpruimte van agentische AI-inferentie omvat twee uitersten: grensverleggende grote taalmodellen (LLM's), doorgaans gehost in de cloud en met sterke prestaties op een breed scala aan taken tegen aanzienlijk hoge kosten, en kostenefficiëntere kleine taalmodellen (SLM's), die geschikt zijn voor inferentie op het apparaat. Hybride multi-agentsystemen (MAS'en) die modellen op het apparaat en in de cloud combineren, bieden een veelbelovend middenweg, maar introduceren ook een complexe en slecht begrepen ontwerpruimte waarin taaknauwkeurigheid, monetaire kosten en energieverbruik op het randapparaat nauw met elkaar verweven zijn; bij gebrek aan algemene ontwerpprincipes worden hybride componenten, hoewel niet de meest gangbare keuze, doorgaans geïntroduceerd via ad-hocbeslissingen die zijn toegesneden op specifieke domeinen. In dit werk onderzoeken we deze ontwerpruimte systematischer. We passen twee representatieve MAS-architecturen aan om hybride inferentie te ondersteunen en bestuderen hoe individuele ontwerpkeuzes het werkpunt langs de Pareto-grens van vermogen, kosten en prestaties verschuiven. Onze bevindingen schetsen een genuanceerd beeld van hybride MAS-ontwerp: hoewel SLM's effectief kunnen profiteren van LLM-assistentie, is de optimale architectuur sterk taakafhankelijk, en leidt een grotere rekenkracht op grensniveau niet consistent tot betere prestaties.
Large Language Models (LLM's) hebben autonome agenten geavanceerd van deep search, dat beknopte feitelijke antwoorden ophaalt, naar deep research, dat verspreid bewijsmateriaal synthetiseert tot langere rapporten. Verifieerbaar multimodaal deep research blijft echter uitdagend vanwege open-eindsynthese zonder deterministische grondwaarheid en de noodzaak om tekstuele argumenten te verweven met visueel bewijs. Wij stellen Ptah voor, een multi-agent raamwerk voor het genereren van verweven rapporten. Ptah orchestreert de levenscyclus van gebruikersvraag tot gerenderd webrapport via plannings-, onderzoeks- en schrijffasen, waarin gespecialiseerde agenten visueel-bewuste plannen opstellen, bewijsgrond voor claims verzamelen, bron-uitgelijnde afbeeldingen bewaren in een Visual Working Memory, en rapporten samenstellen via declaratief multimodaal toolgebruik. Een verifieerder-agent fungeert als de acceptatiefunctie van het raamwerk, en handhaaft feitelijke onderbouwing, citatietrouw en cross-modale consistentie gedurende de workflow. We introduceren verder PtahEval, een evaluatieprotocol dat bestaande benchmarks aanvult met beoordelingen op afbeeldings- en presentatieniveau. Experimenten op deep research benchmarks tonen aan dat Ptah betrouwbaardere, visueel informatievere en bruikbaardere mensgerichte multimodale rapporten produceert dan sterke baselines.
Recente vooruitgang in mobiele GUI-agenten heeft een sterk potentieel getoond voor het automatiseren van mobiele taken, maar de meeste effectieve systemen zijn nog steeds afhankelijk van grote visie-taalmodellen voor het begrijpen van schermafbeeldingen en planning op lange termijn. Kleine GUI-agenten die direct op mobiele apparaten kunnen worden ingezet, zijn aantrekkelijker voor praktisch gebruik, omdat ze lagere inferentiekosten en een betere bescherming van gevoelige informatie op het apparaat bieden. Door de beperkte modelcapaciteit blijven dergelijke lichtgewicht agenten echter onbetrouwbaar bij het plannen en uitvoeren van GUI-taken van begin tot eind op basis van alleen schermafbeeldingen. Wij stellen Knowledge-Oriented Behavior Exploration (UI-KOBE) voor, een raamwerk dat lichtgewicht mobiele GUI-agenten verbetert met herbruikbare app-specifieke grafiekkennis. UI-KOBE verkent eerst autonoom een mobiele applicatie en construeert een app-kennisgraaf, waarin knooppunten verschillende UI-toestanden voorstellen en randen uitvoerbare overgangen voorstellen. Tijdens runtime gebruikt een lichtgewicht GUI-agent de graaf als externe begeleiding: gegeven een gebruikerstaak en de huidige schermafbeelding identificeert het het huidige graafknooppunt en kiest uit zelflusacties, naburige overgangen, taakvoltooiing of vrije terugvalacties die aan dat knooppunt zijn gekoppeld. Door runtime-beslissingen te ondersteunen met app-specifieke grafiekbegeleiding vermindert UI-KOBE de last van end-to-end GUI-planning en helpt het lichtgewicht modellen mobiele GUI-taken effectiever uit te voeren, wat een praktische stap biedt richting efficiënte, interpreteerbare en privacybewuste GUI-agenten op het apparaat.
Het beheersen van terminalomgevingen vereist taalagenten die in staat zijn tot meerstappenplanning, op feedback gebaseerde uitvoering en dynamische toestandsaanpassing. De training van dergelijke agenten wordt momenteel echter belemmerd door een afhankelijkheid van geschraapte externe repositories, wat de domeindiversiteit, de omgevingscontroleerbaarheid en het targeten van specifieke capaciteitstekorten beperkt. We introduceren LiteCoder-Terminal-Gen, een nul-afhankelijkheidssynthesepijplijn die autonoom uitvoerbare en verifieerbare terminaltrainingsomgevingen genereert, rechtstreeks op basis van domeinspecificaties. Met dit raamwerk construeren we twee grootschalige bronnen: LiteCoder-Terminal-SFT, bestaande uit 11.255 expert-trajecten in 10 domeinen, en LiteCoder-Terminal-RL, met 602 verifieerbare omgevingen voor trajectniveau-preferentieoptimalisatie. Gesuperviseerd finetunen van modellen uit de Qwen-familie op onze SFT-dataset levert agenten op die hun basis-tegenhangers aanzienlijk overtreffen. Met name onze 32B-variant behaalt respectievelijk 29,06%, 18,54% en 34,00% pass@1 op Terminal Bench 1.0, 2.0 en Pro. Bovendien levert toepassing van Directe Multi-beurt Preferentieoptimalisatie (DMPO) op onze RL-omgevingen extra prestatieverbeteringen op. Deze resultaten tonen systematisch aan dat volledig synthetische, uitvoerbare omgevingen een schaalbaar en verifieerbaar supervisiesignaal bieden voor het beheersen van complexe, real-world commandoregel-workflows.
Wij pakken de taak aan om fysiek accurate en visueel getrouwe 4D Mens-Object Interactie (HOI) te genereren. Gegeven een statische 3D-mens en een doelobject, weergegeven als 3D Gaussiaanse Splats (3DGS), is ons doel om dynamische scènes te synthetiseren waarin de mens actief met het object interageert door middel van acties zoals slaan of trappen, overeenkomstig een gegeven invoertekst. Hiertoe introduceren wij PhyGenHOI, een nieuw raamwerk dat generatieve menselijke beweging koppelt aan een expliciete fysieke simulatie van het object. Wij modelleren de mens als een semantische agent die wordt aangestuurd door een Bewegingsdiffusiemodel (MDM) en het object als een fysieke agent die wordt gesimuleerd via de Materiaalpuntmethode (MPM), waarbij 3D Gaussianen worden gebruikt als een uniforme, differentieerbare representatie. Wij superviseren hun interactie via drie gekoppelde mechanismen: (1) een Venster-aantrekkingsverlies dat generatieve beweging temporeel synchroniseert om het object te onderscheppen; (2) een Contactgestuurde Hersimulatiestap die bij impact fysiek consistente momentumoverdracht triggert; en (3) een Gemaskeerde Video-SDS-doelstelling die videogebaseerde prioriën injecteert om de contactgetrouwheid te verbeteren. Experimenten tonen aan dat PhyGenHOI fysiek consistente 4D HOI genereert over diverse acties, mensen en objecten, en daarbij baselines overtreft. Projectpagina en video's: https://omerbenishu.github.io/PhyGenHOI/
De snelle groei van het aantal inzendingen voor machine learning-conferenties heeft het wetenschappelijke peer-review-systeem onder druk gezet en de interesse in LLM-gebaseerde geautomatiseerde peer reviewers vergroot. Hoe goed deze systemen echter daadwerkelijk zijn, vooral in vergelijking met menselijke reviewers bij het opsporen van wetenschappelijke hiaten, blijft slecht begrepen. In dit werk introduceren we PRISM (Peer Review Intelligence via Structured Multi-dimensional assessment), een benchmarkframework dat de kwaliteit van reviews evalueert over vier dimensies: Diepte van Analyse, Beoordeling van Nieuwheid, Identificatie van Gebreken & Prioritering van Belangrijke Kwesties, en Multidimensionale Constructiviteit. In tegenstelling tot de meeste bestaande evaluaties op basis van oppervlakkige metrieken zoals ROUGE en BLEU, of onbeperkte LLM-als-rechter prompting die vloeiendheid verwart met nauwkeurigheid, baseert PRISM elke dimensie op argumentmining, retrieval-versterkte verificatie en consensusgebaseerde scoring. We passen PRISM toe om vijf toonaangevende geautomatiseerde reviewersystemen en menselijke reviewers te benchmarken op een gestratificeerd corpus van reviews van ICLR, ICML en NeurIPS. De resultaten laten zien dat LLMs menselijke reviewers kunnen evenaren of overtreffen op individuele dimensies: vergelijkbare diepte van analyse, sterkere nieuwheidsverificatie en zeer nauwkeurige prioritering van kritiek. Echter, geen enkel systeem komt consistent overeen met de gebalanceerde prestaties van de menselijke basislijn over alle dimensies tegelijk. Elk vertoont een duidelijk specialisatieprofiel met karakteristieke blinde vlekken -- faalwijzen die geaggregeerde metrieken volledig missen. De implicatie is dat LLM-reviewers het best kunnen worden begrepen als gerichte aanvullingen op menselijke review, effectief binnen specifieke dimensies, maar onbetrouwbaar als zelfstandige vervangingen. Onze demo en belangrijkste resultaten zijn te vinden op https://khanhthanhdev.github.io/prism-page/.
Puntsgewijze beloningsmodellering levert kritieke signalen voor de nabewerking van grote taalmodellen (LLM's), maar heeft moeite met absolute scores in subjectieve, niet-verifieerbare contexten. Rubriekgebaseerde methoden pakken dit aan door evaluatie op te splitsen in expliciete criteria, maar bestaande benaderingen zijn doorgaans afhankelijk van geavanceerde LLM's en lijden onder gelijke standen die ontstaan door harde Booleaanse aggregatie. Wij presenteren RUBRIC-ARROW, een afwisselend raamwerk dat gezamenlijk een rubriekgenerator en een rubric-geconditioneerde beoordelaar traint, waarbij de RL-fase alleen gebruikmaakt van paarsgewijze voorkeursdata. Onze methode combineert een op waarschijnlijkheid gebaseerde scoreregel die gelijke standen vermindert, met fase-specifieke op voorkeur gebaseerde beloningen en een afwisselend GRPO-schema dat gezamenlijk de puntsgewijze evaluator traint. Uitgebreide experimenten tonen aan dat RUBRIC-ARROW concurrerende nauwkeurigheid in beloningsmodellering bereikt en consistente winst oplevert voor stroomafwaartse beleidsnabewerking.
Robotmanipulatie is in hoge mate afhankelijk van perceptie die de actierelevante aspecten van een scène behoudt. Toch zijn de meeste robotleerpijplijnen gebouwd op visuele encoders die zijn voorgetraind voor statische herkenning of visie-taalalignement, waardoor bewegingsbegrip wordt overgelaten aan stroomafwaartse beleidsstrategieën. We introduceren DynaFLIP, een dynamiekbewust multimodaal pre-trainingsraamwerk dat bewegingsbegrip stroomopwaarts in de perceptie plaatst. We construeren beeld-taal-3D-stroomtriplets uit heterogene menselijke en robotvideo's, en gebruiken deze triplets als trainingstijd-supervisie om een alleen-beeldencoder te vormen. Ons kernidee is om de drie modaliteiten aan te moedigen een klein simplexvolume in de gedeelde hypersferische ruimte te overspannen – een kleiner simplexvolume duidt op een sterkere alignement. Om de geometrische ambiguïteit en triviale ineenstorting van naïeve volumeminimalisatie te vermijden, combineren we simplexvolume-minimalisatie met een cosinusregularisator en een contrastief doel. Onze analyses tonen aan dat DynaFLIP zich richt op controle-relevante regio's die essentieel zijn voor manipulatie. De resulterende dynamiekbewuste representaties dienen als herbruikbare visuele basismodellen en presteren consistent beter dan referentiemodellen in diverse stroomafwaartse beleidsstrategieën, waaronder VLA's. We valideren dit in diverse simulatie- en praktijkopstellingen, met verbeteringen tot +22,5% in buitendistributiescenario's. Onze resultaten suggereren dat robotgeneralisatie verbetert wanneer visuele representaties worden getraind om niet alleen vast te leggen wat aanwezig is, maar hoe de wereld verandert onder actie.
Het toepassen van versterkend leren om de feitelijke nauwkeurigheid in kennisintensieve vraagbeantwoording te verbeteren, stuit op een dilemma bij het ontwerpen van beloningen. Beloningen op antwoordniveau bieden slechts grove begeleiding en kunnen correcte van incorrecte uitspraken binnen een redeneerspoor niet onderscheiden. Alternatieven op zinsniveau leveren fijnmazigere feedback, maar zijn doorgaans afhankelijk van NLI-verifieerders, LLM-beoordelaars of kennisverificatiepijplijnen die kostbaar zijn om op schaal van versterkend leren in te zetten en vaak onbetrouwbaar voor feiten over zeldzame entiteiten, waar accurate beloningssignalen bijzonder belangrijk zijn. Wij stellen CorVer (Corpus Verify) voor, een lichtgewicht, direct inzetbare procesbeloning die neurale verifieerders vervangt door een corpus-gefundeerd signaal afgeleid van co-occurrentiestatistieken uit Wikipedia. CorVer kent krediet toe op zinsniveau en vertaalt dit via een eenvoudige afstemming naar voordelen op token-niveau, waarbij slechts een extractor van 0,5B en één enkele corpusopvraging per zin nodig zijn. Over 30 (model, benchmark)-cellen verdeeld over zes instructie-afgestemde modellen (3B tot 14B) en vijf QA-benchmarks heen, verbetert CorVer de ruwe basislijn voor elke cel, met een gemiddelde TriviaQA-winst van +4,1 procentpunt. Het presteert ook beter dan vier neurale verifieerder-basislijnen in 18 van de 20 cellen onder hun haalbare configuraties, terwijl het 4,8 tot 8,4 keer sneller traint.
We presenteren ChildVox, een nieuwe benchmark voor het karakteriseren van de diverse akoestische signalen waarmee kinderen communiceren. Specifiek volgt ChildVox het volledige ontwikkelingstraject van geboorte tot schoolleeftijd, waarbij fysiologische geluiden, niet-linguïstische vocalisaties, canonieke syllaben en gesproken taal worden omvat. ChildVox integreert meer dan 20 subtaken over 17 kindgerichte audio- en spraakdatasets, wat systematische vergelijking tussen corpora en domeinen mogelijk maakt. We evalueren een representatieve reeks funderingsmodellen voor audio en spraak, waaronder zelfgesuperviseerde, ASR-gerichte en grote audio-taalmodelen, op taken zoals classificatie van fysiologische geluiden, modellering van vocalisaties en canonieke syllaben, en beoordeling en herkenning van spraakkwaliteit. Benchmarkresultaten tonen aan dat ChildVox een reeks hoogpresterende modellen biedt bij het herkennen van een breed scala aan akoestische signalen van kinderen, wat toepassingen in downstream ondersteunt zoals het karakteriseren van taalniveaus van kinderen en het volgen van spraakproductie met de leeftijd.
Multimodale grote taalmodellen worden steeds vaker ingezet als langetermijnagenten, waarbij het geheugen meer moet doen dan alleen herinneren: het moet een evoluerende wereld bijhouden, verouderde informatie herzien, en de juiste bewijzen naar voren brengen op het moment van besluitvorming. Bestaande benchmarks meten herinnering over statische dialoog, reduceren geheugen tot een enkelvoudige nauwkeurigheid aan het einde van de taak, en beperken visuele waarnemingen tot bijschriften, waardoor we niet in staat zijn om fouten te lokaliseren in schrijven, onderhoud, ophalen of gebruik. De opkomst van agent-harnesses die hun eigen geheugen beheren, verscherpt deze lacune, aangezien we geen principiële manier hebben om handmatig ontworpen pijplijnen te vergelijken met zelfbeherende alternatieven. Om deze lacunes te dichten, formuleren we multimodaal agentgeheugen als een Actie-Wereld Interactielus met een waarneembare vierfasenlevenscyclus, en implementeren we dit in WorldMemArena: 400 multisessie multimodale taken die Levenslange Evolutie (evoluerende persoonlijke en taaktoestanden) en Agentische Uitvoering (geheugen uit echte waarnemingen, acties en feedback) omvatten, geannoteerd met gouden geheugenpunten, updates, afleiders en bewijsketens voor diagnose op faseniveau. Dit maakt de eerste directe vergelijking mogelijk tussen langere context, handmatig ontworpen (RAG en externe geheugensystemen) en op harness gebaseerde geheugenagenten. Resultaten tonen aan dat: (1) beter geheugenschrijven en -opslag geen betere prestaties garanderen; (2) multimodaal geheugen nog steeds moeite heeft om visueel bewijs volledig te gebruiken; (3) systemen instabiel zijn over domeinen en verslechteren op realistische agentische trajecten; en (4) harness-geheugen flexibeler is maar duur en minder betrouwbaar blijft.
One-shot Program-of-Thought (PoT) genereert een Python-programma dat een plan van primitieve acties uitprint; één enkele ongeldige actie maakt het traject ongemerkt ongeldig. We introduceren RePoT (Recoverable PoT): een deterministische geverifieerde herhaling die het plan door de omgeving uitvoert tot de eerste ongeldige overgang, gevolgd door één LLM-aanroep die hervat vanaf het geverifieerde voorvoegsel. RePoT kost maximaal één extra LLM-aanroep op de ~14% van de problemen waar PoT faalt. RePoT verslaat PoT met +3 tot +11 procentpunt over vier closed-model configuraties op PuzzleZoo-775 en bereikt een piek van 96,9% tegenover 86,3% op gpt-5.4-mini-medium; tegen de matched-budget PoT-retry-baseline wint RePoT overtuigend op Gemini (+3,8 pp, 95% BI [+2,2,+5,4]), valt het binnen steekproefruis op GPT-medium en Claude, en verliest het op GPT-mini – een capaciteitsschalingspatroon dat we beginnen aan te pakken met Adaptive RePoT, een op regels gebaseerde dispatcher die routeert tussen suffixreparatie en een nieuwe PoT-poging op basis van de lengte van het geverifieerde voorvoegsel (voorlopig). We repliceren op PlanBench Blocksworld (+1,1 tot +11,4 pp) en op vier open-weights modellen (+3,3 tot +20,0 pp op drie van de vier). Op Derail-550, onze gecontroleerde herstelbenchmark, haalt elke conditie met toegang tot checkpointinformatie >=30% op GPT-medium en >=70% op Gemini, tegenover <=3,1% voor alleen foutfeedback – wat aantoont dat checkpointinformatie, niet de specifieke geverifieerde voorvoegselstaart, het dragende herstelsignaal is.
Grotere modellen leren taken die kleinere modellen niet leren. Wat drijft dit fenomeen? We ontwikkelen een eenvoudig fenomenologisch argument dat machtswetschaling al suggereert dat een groter model een deel van de dataverdeling zal kunnen leren dat een kleiner model niet leert, zelfs met oneindige trainingsdata. Om deze bewering te valideren en de oorzaken ervan te identificeren, bestuderen we de effecten van modelschaling op een synthetische opstelling bestaande uit een mengsel van taken die monotone schalingscurves vertonen. De resultaten wijzen op een data-geïnduceerde concurrentie om hulpbronnen (neuronen). Specifiek wijzen kleinere modellen hun neuronen toe aan taken met hoge frequentie of lage complexiteit, waardoor ze oplossingen leren die slecht presteren op zeldzame en complexe taken. Bovendien gebeurt dit zelfs wanneer er oplossingen bestaan die in staat zijn de gewenste taak uit te drukken. We beoordelen vervolgens hoe een groter model deze data-centrische bottleneck omzeilt, en vinden dat dit terug te voeren is op een verminderd interferentiemechanisme: grotere modellen kunnen voldoende middelen toewijzen aan veelvoorkomende taken zodat de gradiëntupdates voor die taken zwak worden, wat betekent dat ze zeldzame taakkenmerken niet overschrijven terwijl deze langzaam accumuleren. Tot slot, om deze beweringen verder te valideren, pretrainen we OLMo-modellen (4M tot 4B parameters) op nieuwe taken met variërende frequentie en complexiteit. De resultaten weerspiegelen die van onze synthetische data-experimenten: alleen de grotere OLMo-modellen leren de zeldzame en complexe taken, en deze grotere modellen verwerken meer taakkenmerken in hun representaties en vertonen minder gradiëntinterferentie tussen taken. Over het geheel genomen bieden we een data-centrische verklaring waarom grotere modellen taken leren die kleinere modellen niet leren. Dit helpt verklaren waarom grotere modellen in de praktijk beter zijn, en het kan praktische vragen over modelgrootte en mengsels van trainingsdata informeren.
Datagedreven benaderingen hebben de 3D-visie gerevolutioneerd, waardoor transformatoren in staat zijn om statische 3D-objecten effectief te reconstrueren en te genereren. Het genereren van simuleerbare 4D-dynamica – realistische temporele vervormingen van statische objecten onder verschillende fysische omstandigheden – blijft echter uitdagend en vaak ad-hoc, ondanks het belang ervan voor het bouwen van uitgebreide 3D-wereldmodellen. De meeste bestaande methoden gaan uit van een vooraf gedefinieerd fysisch model en gebruiken systeemidentificatie om parameters te schatten, wat deze methoden beperkt tot specifieke categorieën en kleinschalige datasets. Wij stellen voor dat deze beperkingen kunnen worden overwonnen door het leren van een datagedreven kinematische statusparametrisatie voor objectgecentreerde fysische systemen. Specifiek leren we zowel een latente ruimte die alle mogelijke toestanden van het object vertegenwoordigt, als een decoder die elke gesamplede latente code toewijst aan een plausibel vervormde vorm van het object. We noemen deze parametrisatie Neurale Objectkinematica (NeuROK) en trainen een op transformatoren gebaseerd encoder-decodermodel op een samengestelde grootschalige 4D-dataset. Deze formulering en het geleerde model vereenvoudigen het genereren van simuleerbare dynamica aanzienlijk, omdat we alleen de dynamica in een laagdimensionale latente ruimte hoeven te beschouwen vanuit het perspectief van de Lagrangiaanse mechanica in de klassieke natuurkunde. We demonstreren de effectiviteit en algemeenheid van dit neurale simulatieraamwerk voor diverse dynamische objecttypen, met duidelijke voordelen ten opzichte van eerder werk. Projectpagina: https://chen-geng.com/neurok
Autoregressieve videodiffusiemodellen genereren streaming video door opeenvolgend frames te produceren, waarbij elk chunk wordt geconditioneerd op eerder gegenereerde inhoud. Deze modellen zijn structureel verankerd aan het eerste frame: de sleutel-waarderepresentatie ervan neemt een bevoorrechte positie in in de aandachtcache en dient gedurende de generatie als primaire scenereferentie. Als de schoonste en meest foutenvrije positie in de cache trekt dit anker onevenredig veel aandacht, onderdrukt videodynamiek en vergrendelt de scènecompositie op het initiële gezichtspunt, zelfs terwijl de scène natuurlijk evolueert. Het resultaat is een temporeel ondiepe video waarin beweging, camerabeweging en scènevoortgang worden gedempt ten gunste van statische consistentie. Om dit aan te pakken, vervangen we het statische anker door een adaptieve toestand, een verborgen latent die het model bij elk chunk samen met inhoud ontruist, maar nooit rendert. In plaats van te verwijzen naar een bevroren eerste frame, genereert het model bij elke stap zijn eigen scèneanker door zowel naar de vorige toestand als de huidige inhoud te kijken, waardoor een referentie ontstaat die evolueert met de gegenereerde inhoud. In tegenstelling tot standaard videogeneratie, die een absoluut tijdsbegrip codeert, behandelt onze formulering tijd als relatief: elke generatiestap ziet dezelfde positionele structuur, ongeacht hoe ver de generatie is gevorderd, en de toestandsovergang is identiek bij elk chunk. Samen introduceren deze eigenschappen een recurrentie in het generatieproces, waarbij ontruising dient als de overgangsfunctie en de KV-cache als de drager, zonder dat er een externe module nodig is. Experimenten tonen aan dat de adaptieve toestand de videodynamiek aanzienlijk verbetert, waardoor rijkere beweging en natuurlijke scènevoortgang in gegenereerde video's mogelijk wordt.
Natuurlijke generatie stelt Grote Taalmodellen (LLM's) in staat om vrije-vorm antwoorden te produceren met rijke redeneringen, maar het gebrek aan structuur maakt uitvoer moeilijk te verifiëren. Omgekeerd zorgt gedwongen decodering voor gestandaardiseerde formaten, maar kan het onbedoeld redeneervermogens beperken door te vroeg in het generatieproces beperkingen op te leggen. Wij stellen een hybride aanpak voor, genaamd In-Writing, die vrije-vorm redeneren en gestructureerde generatie combineert in één enkele aanroep. Het model voert eerst onbeperkt redeneren uit en past pas gestructureerde decodering toe nadat een triggertoken is gegenereerd, waarbij redeneren expliciet wordt ontkoppeld van opmaak. We stellen vast dat onze triggertoken-strategieën in staat zijn om voortijdige triggering vrijwel uit te bannen, een faalmodus waarbij gedwongen decodering lopende redeneringen onderbreekt. Evaluaties op diverse datasets, variërend van classificatie- tot redeneertaken, tonen aan dat onze aanpak de state-of-the-art overtreft door nauwkeurigheidswinsten tot 27% te behalen ten opzichte van natuurlijke generatie. Onze code is beschikbaar op: https://github.com/Nokia-Bell-Labs/InWriting.
De narratieve kwaliteit van een video bepaalt fundamenteel de perceptuele waarde ervan. Hoewel bestaande videogeneratiemethoden visueel aantrekkelijke inhoud kunnen produceren, vertrouwen zij voornamelijk op schaarse conditioneringssignalen zoals tekstprompts of eerste/laatste frames, wat de precieze controle over narratieve structuur en temporele pacing beperkt. In dit artikel stellen we SmartDirector voor, een raamwerk dat de narratieve capaciteit van videogeneratiemodellen verbetert door middel van meerdere keyframes. SmartDirector ondersteunt flexibele generatiescenario's, waaronder single-shot generatie, multi-shot narratieve synthese en video-extensie. Het raamwerk werkt in twee fasen: Director-Gen genereert een lage-resolutievideo geconditioneerd op de verstrekte keyframes, en Director-SR verfijnt de uitvoer door hoge-resolutie keyframes als semantische ankers te gebruiken om fijnmazige details te herstellen. Om robuuste multi-keyframe training mogelijk te maken, bouwen we een datapijplijn die single-shot en multi-shot sequenties uit films cureert. Uitgebreide experimenten tonen aan dat SmartDirector aanzienlijk beter presteert dan bestaande state-of-the-art benaderingen. We zullen de code vrijgeven om verder onderzoek te faciliteren.
Occlusiebewuste voorspelling blijft een kritieke uitdaging in autonoom rijden vanwege de inherente onzekerheid van niet-waargenomen gebieden. Bestaande benaderingen overschatten ofwel het risico op basis van bereikbare toestanden, of hebben moeite met het voorspellen van nauwkeurige trajecten onder hoge occlusieonzekerheid. Om deze beperkingen aan te pakken, stellen we een uniform raamwerk voor risicokaartmodellering en -leren voor gedeeltelijk waarneembare omgevingen voor. Onze methode integreert verkeersstroomrisico en botsingsrisico door middel van ruimtelijk-temporele modellering, wat een fijnmazige beoordeling van door occlusie veroorzaakte gevaren mogelijk maakt. Om de schaarste aan scenario's met occlusie-interacties aan te pakken, introduceren we een diffusiegebaseerd scenariogeneratie raamwerk dat realistische maar tegelijkertijd adversariële scenario's produceert. We integreren de modellering en het leren van een uniforme risicokaart in een raamwerk dat risicobewuste planning onder gedeeltelijke waarneembaarheid ondersteunt. Experimenten op de Waymo Open Motion Dataset tonen aan dat onze methode significant beter presteert dan de state-of-the-art occlusiebewuste basislijn, met een verbetering van de minimale tijd-tot-botsing met een factor 0,78 en de gemiddelde tijd-tot-botsing met een factor 1,67. Het voorgestelde raamwerk biedt een uitgebreide en praktische oplossing voor risicobewuste planning in gedeeltelijk waarneembare omgevingen.
Fundamentele kenmerken van zelfgesuperviseerde visiemodellen en tekst-naar-beeld diffusiemodellen zijn effectief gebleken voor het schatten van semantische correspondentie. Omdat deze kenmerken echter voornamelijk worden geleerd uit 2D-beelddoelstellingen, ontberen ze expliciet 3D-bewustzijn en verwarren ze vaak symmetrische zijden van objecten, herhaalde onderdelen en visueel gelijkaardige structuren die in 3D verschillend zijn. Wij introduceren een 3D-bewust nabewerkingskader dat verder gaat dan beschikbare 2D-fundamentele kenmerken door voorkennis uit 3D-fundamentmodellen te integreren. Bij een gegeven afbeelding gebruikt onze methode SAM3D om objectgeometrie en -pose te schatten, en verfijnt de pose door middel van render-en-vergelijk optimalisatie. Vervolgens renderen we PartField-beschrijvingen van de gereconstrueerde geometrie naar het beeldvlak op basis van de geschatte objectpose. De resulterende geometriebewuste kenmerkenkaarten vullen DINO- en Stable Diffusion-kenmerken aan, terwijl geodetische afstanden op de gereconstrueerde vormen betrouwbare filtering van kandidaat-correspondenties mogelijk maken. We gebruiken de gefilterde overeenkomsten als supervisie om een lichtgewicht adapter bovenop DINO en Stable Diffusion te trainen voor semantische correspondentie. In tegenstelling tot eerdere nabewerkingsmethoden die pose-annotaties vereisen en vertrouwen op grove bolvormige geometrie, verkrijgt onze methode automatisch instancespecifieke 3D-structuur en gebruikt deze om het leren van correspondentie te sturen. Experimenten tonen aan dat onze aanpak de semantische correspondentie verbetert ten opzichte van eerdere methoden, terwijl handmatige geometrische supervisie wordt verminderd. Code en model zijn te vinden op https://github.com/GenIntel/3D-SC.
Recente vooruitgang in multimodale webagenten vertrouwt vaak op verhoogde inferentie-tijdberekening, waaronder rollout-search, verifier-passes, offline vaardigheidsontdekking en specialistische modelstacks. Dit roept een centrale vraag op: kan een webagent efficiënter worden naarmate het ervaring opdoet, in plaats van duurder? We analyseren eerst trajecten van VisualWebArena en identificeren drie terugkerende bronnen van inefficiëntie: herhaal-actielussen, verborgen ontdekkingskosten en lage prompt-cache-hergebruik. We introduceren vervolgens PANDO, een single-rollout online vaardigheidsdestillatiekader dat een gestructureerde Vaardigheidsbibliotheek onderhoudt en voortgangsreflectie, vertrouwensgebaseerde vaardigheidsdegradatie, hiërarchische routering, visuele compressie en cache-bewuste prompting combineert. Op de volledige set van 910 VisualWebArena-taken behaalt PANDO een succespercentage van 58,3%, beter dan SGV (54,0%) en onze WALT-reproductie (45,2%), terwijl het 58% minder tokens gebruikt dan SGV en 61% minder tokens dan WALT, zonder enig pre-evaluatie-ontdekkingsbudget. Een ablatiestudie met 300 taken toont verder aan dat regels en routines de meeste succeswinst opleveren, terwijl routering, compressie en cache-bewuste prompting de grotere vaardigheidsbibliotheek omzetten in lagere marginale tokenkosten. Tot slot introduceren we drie efficiëntiemetrieken op trajectniveau -- Actieherhalingsfrequentie, Stapoverheadratio en Prompt-Cache-Benuttingsgraad -- om efficiëntie zichtbaar te maken naast eindsucces.
Lange-horizon LLM-inferentie maakt de key–value (KV) cache tot de dominante GPU-geheugenverbruiker en maakt per-token aandacht steeds duurder. Veel gangbare verwijderingsbeleid gebruiken statische recentheidsvensters of historische aandacht, waardoor een signaal dat bij elke decoderingstap wordt berekend ongebruikt blijft: de huidige onzekerheid van het model. We introduceren CONF-KV, een KV-cachebeheerder die de volgende-token verdeling omzet in een scalaire betrouwbaarheidsscore en deze gebruikt om het cachebudget per stap te kiezen, waarbij meer context wordt behouden wanneer het model onzeker is en agressief wordt gesnoeid wanneer het zeker is. Binnen elk budget worden tokens gerangschikt op basis van een samengestelde maat van geaccumuleerde aandachtmassa en recentheid, terwijl een beschermd recent venster lokale coherentie behoudt. We combineren het beleid met bloksgewijze online-softmax aandacht, gemengde FP16/INT8 opslag en een piramidale per-laag budgetvariant. Over vier modelfamilies en gegenereerde lengtes tot 4K blijft CONF-KV dicht bij de voetafdruk van een vast 512-token schuifvenster, terwijl het binnen 1,5–2,1 perplexiteitspunten van volledige KV blijft. Op Needle-in-a-Haystack tot 32K tokens bereikt CONF-KV 91,4% terugvindnauwkeurigheid tegenover 53,8% voor schuifvensters en 80,6% voor H2O; op 75 VisualWebArena-taken behoudt het 95,3% van het volledige-KV succes bij 2,8 keer lagere piekgeheugen.
Grote taalmodellen (LLM's) zijn steeds beter geworden in het opvolgen van instructies en complex redeneren, wat prompten tot een flexibele interface maakt om modellen aan te passen zonder parameterupdates. Toch blijft het ontwerpen van prompts arbeidsintensief en zeer gevoelig voor opmaak, formulering en instructievolgorde, wat de motivatie vormt voor geautomatiseerde methoden voor promptoptimalisatie die handmatige inspanning verminderen terwijl ze flexibiliteit tijdens inferentie behouden. Echter, bestaande methoden zoeken vaak naar promptkandidaten of gebruiken vaste kritiek-verfijningspijplijnen die worden aangestuurd door individuele voorbeelden of kleine batches, wat hun vermogen beperkt om systematische foutpatronen te herkennen en gerichte aanpassingen te doen die zijn gebaseerd op faalgeschiedenis. Wij stellen Reflectieve Prompt Tuning (RPT) voor, een raamwerk dat gebruikmaakt van functieaanroepen in LLM's om de iteratieve workflow van menselijke promptingenieurs te simuleren. Een LLM-optimalisator roept een diagnostische functie aan die het doelmodel evalueert over een volledige optimalisatieset, terugkerende faalpatronen samenvat en een gestructureerd diagnostisch rapport retourneert. De optimalisator gebruikt dit rapport, samen met een opgebouwd geheugen van eerdere rapporten, om de prompt voor de volgende iteratie te herzien. RPT ondersteunt verder vertrouwensbewuste optimalisatie door kalibratiesignalen te gebruiken in diagnostische feedback en definitieve promptselectie. Over drie redeneertaken verbetert RPT initiële prompts met tot 12,9 punten, blijft het concurrerend met de state-of-the-art, en verbetert het de vertrouwenskalibratie. Onze analyses tonen aan dat RPT bijzonder effectief is bij multi-hop en wiskundig redeneren, resulterend in gerichte promptherzieningen die aansluiten bij gediagnosticeerde faalpatronen en leiden tot verbeteringen in taakprestatie en kalibratie.
Grote Taalmodellen (Large Language Models, LLM's) zijn het centrale paradigma in kunstmatige intelligentie geworden, maar de kernberekeningsprimitieve van aandacht is structureel onveranderd gebleven. Lokaal Lineaire Aandacht (Local Linear Attention, LLA) is een aandachtsmechanisme dat is afgeleid van niet-parametrische statistiek in het regressieraamwerk tijdens testtijd. In tegenstelling tot eerder onderzoek naar efficiënte aandachtsvarianten verhoogt LLA de lokale constante schatting in softmax-aandacht naar een lokale lineaire schatting, wat een aantoonbaar superieure bias-variantie-afweging voor associatief geheugen oplevert. LLA is echter niet opgeschaald in LLM-voortraining vanwege computationele en numerieke stabiliteitszorgen. We introduceren Parallax, een geparametriseerde Lokaal Lineaire Aandacht die schaalbaar is voor LLM's. Parallax elimineert de numerieke oplosser in LLA en leert een extra query-achtige projector die de KV-covariantie onderzoekt. We plaatsen Parallax binnen een familie van aandachtsmechanismen die verbonden zijn door de bandbreedte, de constructie van de sonde en de affiene structuur. We stellen een hardwarebewust algoritme voor dat de rekenintensiteit verhoogt ten opzichte van FlashAttention, waardoor aandacht verschuift naar een meer rekeningebonden regime. Onze prototype-decodeerkernel evenaart of overtreft FlashAttention 2/3 over uiteenlopende batchgroottes en contextlengtes. We trainen Parallax voor op schalen van 0,6B en 1,7B en vinden consistente perplexiteitsverbeteringen gedurende de voortraining, met winsten die overdragen naar stroomafwaartse benchmarks. Het voordeel blijft bestaan onder zowel parameter-gematchte als rekengematchte controles, wat een Pareto-verbetering aantoont. We voeren zorgvuldige voortrainingsablatiestudies uit en identificeren een nieuw fenomeen waarbij Muon de capaciteit van Parallax vrijmaakt. Naar ons weten is dit de eerste empirische demonstratie van sterk architectuur-optimizer co-ontwerp voor aandachtsmechanismen in de architectuuronderzoeksliteratuur.
Reinforcement Learning from Human Feedback (RLHF) is de standaardmethode om Grote Taalmodellen (GTM) af te stemmen op menselijke voorkeuren. In dit werk introduceren we afstemmingsmanipulatie, een potentiële kwetsbaarheid waarbij het GTM dat wordt afgestemd, de voorkeursdataset beïnvloedt, waardoor RLHF ongewenst gedrag versterkt. Dit vloeit voort uit kernbeperkingen van RLHF: (1) voorkeursdatasets worden geconstrueerd uit de eigen outputs van het GTM, waardoor het deze kan beïnvloeden, en (2) paarsgewijze vergelijkingen geven alleen aan welk antwoord beter is, niet waarom. Deze beperkingen kunnen worden uitgebuit om afstemmingsmanipulatie te veroorzaken. Als een GTM bijvoorbeeld bevooroordeelde antwoorden van hogere kwaliteit genereert, zullen annotatoren op basis van kwaliteit de voorkeur geven aan deze antwoorden. Voorkeurslabels maken echter geen onderscheid tussen kwaliteit en vooroordeel, en het beloningsmodel erft deze beperking. Het optimaliseren van dergelijke beloningen via reinforcement learning of best-of-N sampling kan verkeerd afgestemde vooroordelen versterken. Onze experimenten tonen versterking aan bij uiteenlopende vooroordelen: van trefwoordvooroordeel tot propaganda (bijv. seksisme), merkpromotie en instrumenteel doelzoekend gedrag. Mitigatie blijft uitdagend, omdat bestaande technieken voor robuust RLHF er niet in slagen afstemmingsmanipulatie volledig op te lossen zonder in te boeten aan antwoordkwaliteit. Deze bevindingen onthullen structurele kwetsbaarheden van huidige RLHF en benadrukken de noodzaak om deze kwetsbaarheid te voorkomen. Projectpagina: https://alignment-tampering.github.io/
Het ophalen van tools uit grote API-catalogi vormt een kernknelpunt voor LLM-agenten: gebruikersquery's komen binnen in alledaagse, vaak ondergespecificeerde taal, terwijl de catalogus gebruikmaakt van technische API-vocabulaire die geen vaste encoder zelfstandig kan overbruggen. De twee dominante trainingsbenaderingen, contrastieve encoder-fijnafstemming en HyDE-achtige query-uitbreiding met een bevroren LLM, benaderen dit probleem vanuit tegenovergestelde richtingen en falen op complementaire wijze: de fijngestemde encoder blinkt uit wanneer de oppervlaktevorm van de query al overeenkomt met de catalogus, maar stort in wanneer dat niet het geval is, terwijl zero-shot HyDE robuuster is voor ondergespecificeerde query's, maar catalogus-onbewuste hypothetische beschrijvingen genereert die de retrieval verslechteren wanneer query's goed gevormd zijn. We introduceren CoHyDE, een iteratieve procedure die de dense encoder en de LLM-herschrijver traint als één enkel co-evoluerend systeem: de encoder wordt opnieuw getraind met InfoNCE op hypothetische beschrijvingen in catalogusstijl die door de herschrijver zijn geproduceerd, en de herschrijver wordt voorkeursafgestemd via DPO op basis van de retriever-scores van de encoder, waarbij beide zijden warmgestart worden op de toolcatalogus voordat de lus begint. Op een ~10k tool-subset van de ToolBench-catalogus verbetert CoHyDE na drie rondes de sterkste enkelcomponentbaseline met +2,5 pp NDCG@5 voor standaardquery's en +6,3 pp voor achtergehouden vage query's, met winsten tot +8 pp op de moeilijkste vage categorie. Ablatie-experimenten bevestigen dat co-training het cruciale ingrediënt is: het gebruik van een van beide componenten afzonderlijk slaagt er niet in om CoHyDE te evenaren voor zowel goed gevormde als vage query's, met verliezen tot -8 pp op vage query's.
We tonen aan dat LoRA-adapters, het dominante distributieformaat voor fijn afgestelde grote taalmodellen (LLM's), betrouwbaar kunnen worden voorzien van een backdoor via datavergiftiging tijdens training, met behoud van de basistaakprestatie. Op een Qwen 2.5 1.5B prompt-injectieclassificator drijft een kleine fractie van vergiftigde voorbeelden een backdoor die de schone nauwkeurigheid behoudt naar verzadiging. De resulterende backdoor generaliseert op het tokenkenmerkniveau in plaats van op het structuurpatroonniveau: een model dat is getraind op één RFC-referentie wordt geactiveerd door elke RFC-referentie, maar draagt niet over naar structureel identieke ISO-, OWASP-, CWE- of NIST-citaten. Deze asymmetrie bevoordeelt de aanvaller, aangezien een verdediger niet generiek kan zoeken naar 'gestructureerde citaten'. We karakteriseren de aanval over basismodel-schaal en -familie, LoRA-rank en triggerstring, en evalueren twee complementaire detectieroutes tegen een cohort van adapters met meerdere seeds. Een gedragsdetector, gebaseerd op twee statistieken uit een batterij probes, *outlier_gap* en *mean_attack_rate*, scheidt vergiftigde van schone adapters perfect wanneer de batterij overlapt met de tokenomgeving van de trigger, en bij hoge recall met nul fout-positieven wanneer dit niet het geval is. Een gewichtsniveaustatistiek, de cross-module standaarddeviatie van dimensie-genormaliseerde Frobenius-normen, scheidt het cohort ook perfect zonder het model uit te voeren. Gecombineerd zijn de twee routes robuust tegen de samenstelling van de probes. Causale patching lokaliseert de backdoor naar het MLP-blok in de middelste tot late lagen, met *down_proj* als de sterkste enkele projectie-oorzaak. Replicaties over schaal, familie en rank tonen aan dat de gedragsdetector overdraagt zonder opnieuw afstellen, terwijl de gewichtsniveaudetector gebonden is aan de kalibratie van het basismodel. De aanval schaalt monotoon met rank, en het gekozen trigger-ankertoken is zowel afhankelijk van de trigger als van het basismodel. Gedragsdetectie is het operationeel draagbare resultaat voor scanning van adapter-toeleveringsketens.
Visie-Taalmodellen (VLMs) hebben vaak moeite met robuust 3D-ruimtelijk redeneren. Gangbare methoden die vertrouwen op fijnafstemming met 3D visuele vraag-antwoord datasets (VQA) kunnen overmatig aanpassen aan datasetspecifieke vooroordelen, terwijl het integreren van gespecialiseerde 3D visuele encoders vaak inflexibel en omslachtig is. In dit artikel stellen we dat echte ruimtelijk begrip moet voortkomen uit het leren van fundamentele geometrische prioriën, niet alleen uit hoogwaardige VQA-supervisie. We stellen GASP (Geometric-Aware Spatial Priors) voor, een raamwerk dat deze prioriën direct in de transformerlagen van het LLM injecteert. GASP maakt gebruik van een klein correspondentiehoofd, toegepast als een diep supervisiesignaal over alle lagen, en wordt getraind met een tweeledige doelstelling die gebruikmaakt van de grondwaarheidsgeometrie uit grootschalige videoscènes: een contrastief verlies op grondwaarheidspuntcorrespondenties dwingt 2D-aanzichtinvariantie af, terwijl diepteconsistentietoezicht 3D geometrische dubbelzinnigheden oplost. Onze analyse biedt eerst een diagnose dat de interne correspondentie-matchingnauwkeurigheid van standaard VLMs zeer laag is (vaak onder 5%). Vervolgens tonen we aan dat onze training dit gedrag aanzienlijk verbetert, waardoor de piek laagsgewijze correspondentie stijgt tot meer dan 70% en de temporele robuustheid meer dan 85% blijft, terwijl de baselines onder 5% blijven. Deze interne verbeteringen vertalen zich in significante winsten op stroomafwaartse ruimtelijke benchmarks, waaronder +18,2% op All-Angles Bench en +29,0% op VSI-Bench, en dit alles zonder training op enige 3D VQA-data. Onze bevindingen wijzen erop dat leren van fundamentele geometrische prioriën een veelbelovende en generaliseerbare weg is naar VLMs met betrouwbaardere 3D-ruimtelijk redeneren.
We bestuderen twee-level auto-onderzoek voor samenwerking: een buitenste-lus AI-agent herontwerpt autonoom de binnenste-lus pijplijn van een LLM-beleidssynthesesysteem voor multi-agent Sequentiele Sociale Dilemma's (SSD's). Een onderzoekeragent R (uitgevoerd als een codeeragent) leest de broncode van de binnenste lus, bewerkt systeemprompts, feedbackfuncties, hulpbibliotheken en iteratielogica, voert evaluaties uit en beslist wat te behouden, volgens het auto-onderzoeksparadigma. Over twee spellen (Cleanup en Gathering), twee beleidssynthesizer-LLM's en twee welvaartsdoelstellingen (utilitaristische efficiëntie en Rawlsiaans maximin) overtreft de onderzoeker betrouwbaar handmatig ontworpen basislijnen, vermindert scherp de run-tot-run variantie en presteert beter dan alleen-promptoptimalisatie. De ontdekte pijplijnen zijn doelafhankelijk: alleen onder maximin injecteert de onderzoeker een expliciet rechtvaardigheidsmechanisme in synthesizerpijplijnen, een klasse van mechanismen die afwezig is in zijn eigen doelonafhankelijke systeemprompt en in elke efficiëntie-geoptimaliseerde pijplijn. Dit ondersteunt een informatie-ontwerp interpretatie waarin de onderzoeker kiest wat te onthullen aan de begrensd rationele synthesizer als functie van de welvaartsdoelstelling. Code op https://github.com/vicgalle/autoresearch-social-dilemmas.
Wij introduceren OmniInteract, een streaming-benchmark voor real-time omnimodale grote taalmodellen die wordt geëvalueerd via native online inferentie op audiovisuele stromen. In tegenstelling tot offline videobegrip of door tekst geprompte streaming-V&A, behoudt OmniInteract de oorspronkelijke audiovisuele stroom en vereist het dat modellen deze online verwerken, zonder toegang tot toekomstige inhoud. Gebruikersvragen en omgevingsgeluiden zijn ingebed in het audiospoor, waardoor modellen multimodale triggers moeten detecteren, moeten beslissen wanneer te reageren, en moeten antwoorden terwijl de stroom zich ontvouwt. OmniInteract bevat 250 video's met 1.430 temporeel gefundeerde responssleuven: 1.062 1Q1A-sleuven in real-time, proactieve en geneste scenario's, en 368 1QnA-sleuven voor continue taakmonitoring en stapsgewijze begeleiding. Elke sleuf omvat een trigger, een responsvenster en een doelantwoord. Wij evalueren antwoordcorrectheid, timing, ongeldige uitvoer, onderbrekingsafhandeling en contextcontinuïteit met behulp van de Interactiebewuste Kwaliteit-Tijdigheid F1, het Onderbrekingsdiagnostisch Pakket en de Geneste Ketenafrondingsscore. Experimenten tonen aan dat huidige modellen zwak blijven in streaming-interactie, waarbij de beste algemene IA-QTF1 slechts 0,368 bedraagt en de beste 1QnA IA-QTF1 slechts 0,052. Verder onderzoek naar wiskundig redeneren in full-duplex-omgevingen laat zien dat off-line capaciteit niet noodzakelijk overgaat naar online interactie. Code en datasets worden openbaar toegankelijk gemaakt op https://github.com/Lucky-Lance/OmniInteract.
Het genereren van high-fidelity 3D-Gaussian-kopavatars is cruciaal voor toepassingen zoals AR/VR, telepresence en digitale mensen. Bestaande methoden zijn afhankelijk van multi-view datasets, 3D-opnames of tussentijdse 2D-beeldsynthese. Daarentegen leren wij zowel conditionele als onconditionele 3D-hoofdmodellen uitsluitend op basis van willekeurig gesamplede 2D-beelden, zonder gebruik te maken van multi-view data, 3D-supervisie of tussentijdse beeldgeneratie. We introduceren MVCHead, een single-shot toestandsruimtemodel dat multi-view consistentie (MVC) direct in de 3D-representatie afdwingt, terwijl het onder deze beperkingen 3D-Gaussianen regresseert. De kern vormt een Hiërarchisch Toestandsruimte (HiSS)-blok dat Gaussianen stapsgewijs verfijnt van grof naar fijn, terwijl het afhankelijkheden over lange afstand vastlegt. Binnen elk HiSS-blok vervangen we de standaard unidirectionele scan van Mamba door de voorgestelde Hiërarchische Bidirectionele Toestandsscan (HiBiSS), die de recursie afstemt op de assen waarlangs multi-view inconsistenties het sterkst zijn. Ten slotte ontwerpen we een SE(3) Multi-view Criticus die beoordeelt of een reeks zelf-renders afkomstig is van één enkele onderliggende 3D-configuratie, en die cross-view pixeluitlijning beloont zonder daadwerkelijke multi-view paren te observeren. MVCHead bereikt state-of-the-art perceptuele kwaliteit, overtreft eerdere methoden in zowel textuur- als geometrische consistentie, en behoudt vergelijkbare vormconsistentie. Om schaalbaarheid aan te tonen, brengen we FaceGS-10K uit, de eerste grootschalige dataset van kant-en-klare 3D-Gaussian-kopassets voor training en evaluatie van 3D-hoofdmodellen. Projectpagina en code: https://humansensinglab.github.io/MVCHead/
Discrete diffusiemodellen worden vaak getraind door middel van het voorspellen van schone data, maar de voorspelling kan op verschillende manieren worden gebruikt om de omgekeerde dynamica te definiëren. In Gemaskeerde Diffusiemodellen (MDM) vallen deze keuzes grotendeels samen, terwijl dit in Uniforme Diffusiemodellen (UDM) niet het geval is. We tonen aan dat de standaard plug-in-brugparameterisatie voor UDM niet wordt geoptimaliseerd door de denoising posterior, maar door een leave-one-out posterior die elk schoon token voorspelt zonder gebruik te maken van zijn eigen ruizige observatie. Dit identificeert een mismatch tussen de plug-in ELBO en de gebruikelijke kruisentropie-denoisingdoelstelling. We karakteriseren het leave-one-out-doel en leiden exacte conversies af tussen de denoiser, de leave-one-out posterior en de score. Deze conversies stellen ons in staat om parameterisatie en trainingsdoelstelling te ontwarren. Onze resultaten leiden ook tot inferentieverbeteringen zonder extra training via een geïnformeerde predictor-corrector sampler en verbeterde temperatuursampling op basis van de leave-one-out-voorspeller. We introduceren verder een absorberende-toestandherformulering van uniforme diffusie die de UDM-gezamenlijke wet behoudt terwijl deze wordt ontleed in gemaskeerde-diffusieachtige samplingoperaties, met eenvoudigere denoising posteriors, overloop-ontmaskering en een natuurlijk hermaskeringsmechanisme. Voor taalmodellering verbeteren leave-one-out-parameterisaties consequent de UDM-generatie, terwijl de absorberende constructie gemaskeerde diffusie evenaart of overtreft. Deze resultaten suggereren dat de empirische kloof tussen gemaskeerde en uniforme diffusie minder wordt gedreven door de keuze van de marginalen zelf dan door parameterisatie en samplingontwerp. De code en modellen zijn te vinden op https://github.com/samsongourevitch/rev_udm.
Globalisering en multiculturalisme blijven leiden tot steeds diversere spreekvariëteiten. Toch falen huidige gesproken dialoogsystemen vaak bij ondervertegenwoordigde dialecten en accenten, doordat ze de invoertaal verkeerd identificeren, wat cascadefouten veroorzaakt in stroomafwaartse dialoogtaken. Het aanpakken van deze dialectische variatie onder beperkte-bronnenomstandigheden blijft een open uitdaging, aangezien standaard finetuning rekenkundig duur is en gevoelig voor overfitting op hoogdimensionale spraakdata. Wij stellen Convex Language Detection (CLD) voor, een nieuw raamwerk dat theoretisch gefundeerde convexe optimalisatietechnieken integreert in de pijplijn van gesproken dialoogsystemen. Onze methode wordt efficiënt geïmplementeerd via multi-GPU Alternating Direction Method of Multipliers (ADMM) in JAX, wat wereldwijde optimaliteitsgaranties en snelle training in polynomiale tijd biedt. Theoretisch bewijzen we dat onze convexe doelstelling gecertificeerde marge-stabiliteit oplevert en geven we garanties tegen kenmerkstoringen. Empirisch tonen we steekproefsefficiëntie en robuustheid tegen invoerdialectische variatie aan, met een nauwkeurigheid van 97-98% in uitdagende lage-bronnenregimes. Ons open-sourcepakket is beschikbaar op https://pypi.org/project/jaxcld/
Het creëren van diereneffecten van bioscoopkwaliteit vereist de nauwkeurige modellering van spier- en vachtdynamica, een proces dat zowel arbeidsintensief als rekenkundig duur blijft binnen traditionele productieworkflows. Hoewel generatieve diffusiemodellen veelbelovend zijn gebleken in diverse artistieke workflows, blijft hun vermogen tot hoogwaardige dierensimulatie grotendeels onbenut. Wij presenteren MoZoo, een generatieve dynamica-oplosser die conventionele verfijning omzeilt en hoogwaardige dierenvideo's synthetiseert uit grove meshes onder multimodale sturing. Wij stellen Role-Aware RoPE (RAR-RoPE) voor, dat gebruikmaakt van rolgebaseerde indexhertoewijzing om bewegingsalignering te synchroniseren terwijl referentie-informatie wordt ontkoppeld via vaste temporele verschuivingen. Als aanvulling hierop partitioneert Asymmetrische Ontkoppelde Aandacht de latente sequentie om een unidirectionele informatiestroom af te dwingen, wat effectief feature-interferentie voorkomt en de rekenkundige efficiëntie verbetert. Om het gebrek aan hoogwaardige trainingsdata aan te pakken, introduceren wij MoZoo-Data, een synthetisch-naar-realistisch pijplijn dat een renderengine en een inverse-mappingbenadering gebruikt om een grootschalige dataset van gepaarde sequenties te construeren. Daarnaast vestigen wij MoZooBench, een uitgebreide benchmark met 120 mesh-videoparen. Experimentele resultaten tonen aan dat MoZoo hoogwaardige vachtsimulatie bereikt over uiteenlopende dierenskeletten en -indelingen, met behoud van superieure temporele en structurele consistentie.
Grote taalmodellen (LLMs) vertonen systematische politieke vooringenomenheid in uiteenlopende gevoelige contexten. Wij constateren dat LLMs tegenovergestelde onderwerpen van tegengestelde politieke zijden asymmetrisch behandelen. Dit fenomeen noemen wij verborgen politieke vooringenomenheid en identificeren 7 categorieën technieken waarmee dit opereert. Wij stellen twee metrieken voor voor verborgen vooringenomenheid: Sentimentconsistentie meet de symmetrie in retoriek en framing over gepaarde politieke prompts; Behulpzaamheidsconsistentie meet symmetrische diepgang en betrokkenheid. Om beide vormen van verborgen vooringenomenheid te verminderen, introduceren wij Politieke Consistentietraining (PCT), een RL-trainingsmethode met twee complementaire paradigma's: Sentimentconsistentietraining en Behulpzaamheidsconsistentietraining. Wij tonen aan dat PCT de algehele behulpzaamheid behoudt, verborgen politieke vooringenomenheid aanzienlijk vermindert en generaliseert naar niet-geziene benchmarks. Wij publiceren ons werk op https://political-manipulation.ai.
Recente vooruitgang in Vision-Language Modellen (VLM's) heeft indrukwekkende prestaties op vele taken geboekt, maar eerdere studies melden onbevredigende prestaties bij het toepassen van grote taal- of multimodale modellen op het vinden van afwijkende patronen in sequentiële data. Openbare benchmarks voor anomaliedetectie bieden doorgaans intervalannotaties, maar geen natuurlijke taal-redeneringen, wat het moeilijk maakt om VLM's fijn te stemmen voor onderbouwde, interpreteerbare beslissingen. Om deze kloof te overbruggen, bouwen we VisAnomBench, een samengestelde benchmark die is gebaseerd op openbare tijdreeksdatasets en is aangevuld met hoogwaardige anomalieverklaringen die zijn geselecteerd uit meerdere grote VLM's met behulp van fijnmazige, taakspecifieke beloningen. Door middel van fijnstemmen op deze benchmark ontwikkelen we VisAnomReasoner, een parameter-efficiënte VLM voor anomaliedetectie in tijdreeksen. Experimentele resultaten op VisAnomBench tonen aan dat VisAnomReasoner een nauwkeurigere anomalielokalisatie bereikt en consequent alle basislijnen overtreft, met verbeteringen van respectievelijk ten minste 21,23 en 23,87 procentpunten in precisie en F1. Aanvullende experimenten op de TSB-AD-U-benchmark tonen een sterke cross-benchmark generalisatie aan, waarbij VisAnomReasoner de precisie en F1 met respectievelijk 9,57 en 13,39 procentpunten verbetert.
Dit werk presenteert ViGeo, een feed-forward funderingsmodel voor het herstellen van ruimtelijk dichte en temporeel consistente geometrie uit videosequenties. Gebouwd op een eenvoudige transformerarchitectuur zonder taakspecifieke aanpassingen, ondersteunt ViGeo streaming-, volledige-sequentie- en lange-video-inferentie binnen één enkel model. Het belangrijkste ontwerp is dynamische chunking-aandacht, die het model tijdens training blootstelt aan zowel bidirectionele als causale temporele contexten en het in staat stelt om zijn aandachtspatroon tijdens testtijd aan te passen zonder hertraining. Om de supervisiekwaliteit te verbeteren, introduceren we verder een op aanvulling gebaseerd dataverfijningsraamwerk. Dit raamwerk traint een video-diepte-aanvullingsleraar die conditioneert op schaarse en ruizige annotaties en videocontext/multiview-context benut om dichte, temporeel coherente en geometrisch betrouwbare trainingsdoelen te produceren. Naast diepte- en puntenkaarten voorspelt ViGeo ook oppervlaktenormalen binnen hetzelfde raamwerk. Getraind uitsluitend op openbare datasets, behaalt ViGeo state-of-the-art prestaties op het gebied van online, offline en lange-video-diepteschatting, oppervlaktenormaalschatting en videopuntkaartschatting.
Een centraal knelpunt voor telefoongebruikende agenten is dat beheersbare, reproduceerbare omgevingen die echt mobiel gedrag omvatten, moeilijk op schaal te bouwen zijn. Bestaande benchmarks voor mobiele agenten hebben belangrijke vooruitgang geboekt op het gebied van evaluatie, maar bieden op zichzelf geen schaalbare manier om veel nieuwe telefoongebruikomgevingen te construeren. We presenteren PhoneWorld, een herbruikbare pijplijn die echte GUI-trajecten en schermafbeeldingen omzet in beheersbare telefoongebruikomgevingen, uitvoerbare taken, automatische verificatoren en trainingsrollouts. In plaats van handmatig één mobiele benchmark tegelijk te bouwen, gebruikt PhoneWorld echte trajecten om te herstellen welke schermen relevant zijn, hoe schermen verbonden zijn, welke interacties de omgevingstoestand moeten veranderen en welke gebruikersdoelen automatische verificatie toelaten. Op basis van deze signalen bouwt het uitvoerbare mock-Android-apps, ondersteund door alleen-lezen app-inhoud en veranderlijke toestand, en leidt vervolgens uitvoerbare taken, regelgebaseerde verificatoren en trainingsrollouts af uit dezelfde omgevingen. In zijn huidige vorm bestrijkt PhoneWorld 34 apps in 16 domeinen, variërend van veelvoorkomend consumentengedrag op mobiel, zoals zoeken, browsen, winkelen, boeken, media en sociale interactie. Bij een vast trainingsbudget verbetert het vervangen van 10.000 stappen uit een aanvullend AndroidWorld-corpus in een op AndroidWorld gebaseerde baseline met brede PhoneWorld-supervisie alle vier de evaluatiebenchmarks tegelijk, waarbij HYMobileBench met 17,7 punten stijgt, AndroidControl met 6,0 punten, AndroidWorld met 14,7 punten en PhoneWorld met 52,5 punten. Vervolgens bestuderen we twee extra schalingsvragen: het verhogen van de hoeveelheid PhoneWorld-supervisie verbetert de PhoneWorld-prestaties sterk, en bij een vast PhoneWorld-budget levert het uitbreiden van de app-dekking nog grotere winsten op. Al met al verschuift PhoneWorld de focus van het bouwen van één mobiele benchmark tegelijk naar het opschalen van het aanbod van telefoongebruikomgevingen zelf.
Smartphone-oplichting komt steeds vaker voor en manifesteert zich doorgaans als meerfasige, cross-applicatie processen met een geleidelijk opkomende bedoeling. Effectieve interventie vereist daarom het anticiperen op oplichting voordat de bedoeling expliciet wordt. Dit is inherent uitdagend, omdat beslissingen moeten worden genomen op basis van gedeeltelijke trajecten met temporeel verspreid bewijs. In dit artikel introduceren wij ORACLE (Online Redeneren voor het Anticiperen van Cross-temporele Latente Dreigingen), het eerste agentische raamwerk voor vroege anticipatie op oplichting op basis van streamende app-gebruikstrajecten. Om deze setting te ondersteunen, stellen wij een realistische langetermijnbenchmark samen van streamende app-gebruikstrajecten, die 12 oplichtingstypen omvat, zich over langere perioden uitstrekt (gemiddeld 15 dagen), diverse applicaties (95 apps) beslaat en normaal gedrag en oplichtingsgedrag door elkaar laat lopen. Om gefragmenteerd bewijs aan te pakken, introduceren wij een zelf-evoluerende contextbeheerder die entiteitsgerichte interacties in de loop van de tijd adaptief consolideert, waardoor een effectievere reconstructie van cross-temporeel bewijs uit gedeeltelijke waarnemingen mogelijk wordt. Om de gevoeligheid voor latente vroege signalen te vergroten, stellen wij een on-policy zelfdestillatie schema voor waarbij een leraarmodel, geconditioneerd op samengevatte anti-oplichtingsreflecties en aanwijzingen per vaardigheid, een studentmodel begeleidt zonder toegang tot dergelijke reflecties. Dit schema destilleert zo kennis geïnformeerd door bewijs en verbetert de herkenning van opkomende fraudepatronen uit gedeeltelijke trajecten. Experimenten tonen aan dat ORACLE consistent de vroege anticipatie op oplichting verbetert, resulterend in tijdige waarschuwingen terwijl valse meldingen worden verminderd in realistische streamingscenario's.