Dagelijks geselecteerde AI onderzoekspapers met vertalingen
On-beleid zelf-distillatie, waarbij een student wordt aangetrokken tot een kopie van zichzelf die is geconditioneerd op een geprivilegieerde context (bijvoorbeeld een geverifieerde oplossing of feedback), biedt een veelbelovende richting voor het verbeteren van redeneervermogen zonder een sterke externe leraar. Toch zijn de winsten in wiskundig redeneren inconsistent, zelfs wanneer dezelfde aanpak elders succes heeft. Een puntgewijze wederzijdse informatie-analyse herleidt het falen tot de geprivilegieerde context zelf: deze verhoogt het vertrouwen van de leraar in tokens die al door de oplossing worden geïmpliceerd (structurele connectieven, verifieerbare beweringen) en verlaagt het voor beraadslagingstokens ("Wacht", "Laten we", "Misschien") die meerstapszoekopdrachten aansturen. Wij stellen Anti-Self-Distillation (AntiSD) voor, dat een divergentie tussen student en leraar laat toenemen in plaats van afnemen: dit keert het teken per token om en levert in één stap een van nature begrensd voordeel op. Een entropie-gestuurde poort schakelt de term uit zodra de entropie van de leraar instort, wat een directe vervanging voor standaard zelf-distillatie vormt. Over vijf modellen van 4B tot 30B parameters op benchmarks voor wiskundig redeneren bereikt AntiSD de nauwkeurigheid van de GRPO-baseline in 2 tot 10 keer minder trainingsstappen en verbetert de uiteindelijke nauwkeurigheid met maximaal 11,5 punten. AntiSD opent een pad naar schaalbare zelfverbetering, waarbij een taalmodel zijn eigen redenering bootstrapt via zijn trainingssignaal.
Het automatiseren van wetenschappelijke ontdekkingen vereist meer dan alleen het genereren van papers uit ideeën. Echt onderzoek is iteratief: hypothesen worden vanuit meerdere perspectieven uitgedaagd, experimenten mislukken en voeden de volgende poging, en lessen stapelen zich op over cycli heen. Bestaande autonome onderzoekssystemen modelleren dit proces vaak als een lineaire pijplijn: zij vertrouwen op redenering door één enkele agent, stoppen wanneer uitvoering faalt, en dragen geen ervaring over van de ene run naar de volgende. Wij presenteren AutoResearchClaw, een multi-agent autonome onderzoekspijplijn gebaseerd op vijf mechanismen: gestructureerd multi-agent debat voor hypothesegeneratie en resultatenanalyse, een zelfherstellende uitvoerder met een Pivot/Refine-beslislus die mislukkingen omzet in informatie, verifieerbare resultatenrapportage die verzonnen getallen en hallucinatieve citaten voorkomt, mens-in-de-lus samenwerking met zeven interventiemodi variërend van volledige autonomie tot stapsgewijs toezicht, en cross-run evolutie die eerdere fouten omzet in toekomstige waarborgen. Op ARC-Bench, een experimentele benchmark met 25 onderwerpen, presteert AutoResearchClaw 54,7% beter dan AI Scientist v2. Een mens-in-de-lus ablatiestudie over zeven interventiemodi toont aan dat precieze, gerichte samenwerking op beslissingspunten met hoge hefboomwerking consistent beter presteert dan zowel volledige autonomie als uitputtend stapsgewijs toezicht. Wij positioneren AutoResearchClaw als een onderzoeksversterker die het wetenschappelijke oordeel van de mens aanvult in plaats van vervangt. Code is beschikbaar op https://github.com/aiming-lab/AutoResearchClaw.
Ondanks de snelle vooruitgang in videogeschikte MLLM's, ontdekken we dat hun schijnbare audiobegrip in video's vaak visueel gestuurd is: modellen vertrouwen op visuele aanwijzingen om akoestische informatie af te leiden of te hallucineren, in plaats van de audiostroom te verifiëren. Dit probleem doet zich voor bij zowel state-of-the-art open-source omnimodellen als bij toonaangevende closed-source modellen van aanbieders zoals Google en OpenAI. We karakteriseren deze falende modus als een audio-visueel Clever Hans-effect, waarbij modellen (ten onrechte) lijken te zijn verankerd in audio, maar in werkelijkheid visueel-akoestische correlaties uitbuiten zonder te verifiëren of de audio- en visuele stromen werkelijk op elkaar zijn afgestemd. Om dit gedrag systematisch te bestuderen, introduceren we Thud, een interventiegestuurd toetsingskader dat is gebaseerd op drie contrafactische audiobewerkingen: Shift, dat de temporele synchronisatie test; Mute, dat het bestaan van geluid test; en Swap, dat de audio-visuele consistentie test. Naast diagnose bestuderen we verder een tweefasig afstemmingsrecept: interventie-afgeleide voorkeursparen leren audioverificatie, terwijl gebeurtenisniveau algemene videovoorkeuren het model reguleren tegen overspecialisatie. Ons beste recept met 10K samples verbetert de gemiddelde prestatie over de drie interventiedimensies met 28 procentpunten, terwijl het de prestatie op algemene video- en audio-visuele QA-benchmarks licht verbetert.
Pairwise Ranking Prompting (PRP) lokt paarsgewijze voorkeursbeoordelingen uit bij een LLM, die vervolgens worden samengevoegd tot een ranking, meestal via klassieke sorteeralgoritmen. De beoordelingen zijn echter ruisachtig, ordegevoelig en soms intransitief, waardoor de aannames van sorteren niet aansluiten bij de setting. Omdat sorteren gericht is op het herstellen van een volledige permutatie, levert het afkappen ervan om aan een call-budget te voldoen geen betrouwbare top-K op. We herformuleren daarom PRP-herranking als actief leren van ruisachtige paarsgewijze vergelijkingen en tonen aan dat actieve rankers drop-in vervangers zijn die de NDCG@10 per call verbeteren in het call-beperkte regime. Ons ruisbestendige raamwerk introduceert ook een oracle met gerandomiseerde richting die één LLM-call per paar gebruikt. Deze benadering zet systematische positiebias om in ruis met een gemiddelde van nul, wat een zuivere geaggregeerde ranking mogelijk maakt zonder de kosten van bidirectionele calls.
We presenteren OpenComputer, een op verificateurs gebaseerd raamwerk voor het bouwen van verifieerbare softwarewerelden voor computergebruikende agenten. OpenComputer integreert vier componenten: (1) app-specifieke toestandsverificateurs die gestructureerde inspectie-eindpunten blootleggen over echte applicaties, (2) een zelf-evoluerende verificatielaag die de betrouwbaarheid van verificateurs verbetert met behulp van uitvoeringsgebaseerde feedback, (3) een taakgeneratiepijplijn die realistische en machinaal controleerbare bureaubladtaken synthetiseert, en (4) een evaluatie-opstelling die volledige trajecten registreert en controleerbare gedeeltelijke beloningen berekent. In zijn huidige vorm dekt OpenComputer 33 bureaubladtoepassingen en 1.000 definitieve taken, verspreid over browsers, kantoortools, creatieve software, ontwikkelomgevingen, bestandsbeheerders en communicatieapplicaties. Experimenten tonen aan dat de hardgecodeerde verificateurs van OpenComputer nauwer aansluiten bij menselijke beoordeling dan LLM-als-beoordelaar-evaluatie, vooral wanneer het succes afhangt van fijnmazige applicatietoestanden. Geavanceerde agenten worstelen met end-to-end voltooiing ondanks gedeeltelijke vooruitgang, en open-source modellen vertonen scherpe dalingen ten opzichte van hun OSWorld-Verified-scores, wat een aanhoudende kloof in robuuste computerautomatisering blootlegt.
Wij presenteren GoLongRL, een volledig open source, op capaciteiten gericht post-training recept voor long-context reinforcement learning met verifieerbare beloningen (RLVR). Bestaande long-context RL-methoden beschouwen dataconstructie vaak als een kwestie van het ontwerpen van steeds complexere retrievalpaden, wat leidt tot homogene taakdekking en beloningsformuleringen die praktische long-context vereisten onvoldoende weerspiegelen. Ons werk levert twee bijdragen. (1) Op capaciteiten gerichte dataconstructie met volledige open source vrijgave. We geven openlijk een dataset vrij van 23K RLVR-voorbeelden, de complete constructiepijplijn en alle trainingscode. Geleid door een taxonomie van long-context capaciteiten, beslaat de dataset 9 taaktypen, elk gekoppeld aan zijn natuurlijke evaluatiemetriek. Het bevat samengestelde open source voorbeelden uit gevestigde corpora en synthetische voorbeelden waarvan de QA-paren zijn gegenereerd uit echte brondocumenten zoals boeken, academische papers en multi-turn dialogen. Onder dezelfde vanilla GRPO-opstelling overtreft onze dataset alleen al de closed-source QwenLong-L1.5 dataset. Bovendien levert ons Qwen3-30B-A3B model, getraind op deze data, long-context prestaties die vergelijkbaar zijn met DeepSeek-R1-0528 en Qwen3-235B-A22B-Thinking-2507, wat suggereert dat bredere dekking en grotere beloningsdiversiteit aanzienlijk bijdragen aan de verbetering van long-context capaciteiten. (2) TMN-Reweight voor heterogene multi-task optimalisatie. Om optimalisatie-uitdagingen door heterogene beloningen aan te pakken, stellen we TMN-Reweight voor, dat taakniveau gemiddelde normalisatie voor cross-task beloningsschaalafstemming combineert met moeilijkheidsadaptieve weging voor betrouwbaardere voordeelschatting. TMN-Reweight verbetert verder de gemiddelde prestaties ten opzichte van vanilla GRPO, waarbij algemene capaciteiten behouden of verbeterd worden in de gerapporteerde evaluaties.
Procesbeloningsmodellen (PRM's) bieden stapsgewijze feedback voor redeneringen, maar huidige PRM's geven meestal slechts één enkele beloningsscore per stap. Stroomafwaartse methoden moeten daarom onvolmaakte stapsgewijze beloningsvoorspellingen als betrouwbare beslissingssignalen behandelen, zonder aanwijzing wanneer deze voorspellingen vertrouwd moeten worden. Wij stellen BetaPRM voor, een distributionele PRM die zowel een stapsgewijze succeswaarschijnlijkheid als de betrouwbaarheid van die voorspelling voorspelt. Gegeven stapsucces-supervisie uit Monte Carlo-vervolgen leert BetaPRM een Beta-overtuiging die het waargenomen aantal succesvolle vervolgen verklaart via een Beta-Binomiale waarschijnlijkheid, in plaats van te regresseren naar de eindige-steekproefsuccesratio als een puntdoel. Dit geleerde betrouwbaarheidssignaal geeft aan wanneer een stapbeloning vertrouwd moet worden, waardoor stroomafwaartse toepassingen betrouwbare beloningen kunnen onderscheiden van onzekere. Als een toepassing introduceren we Adaptieve Computatietoewijzing (ACA) voor PRM-gestuurd Best-of-N-redeneren. ACA gebruikt het geleerde betrouwbaarheidssignaal om te stoppen wanneer een hoogbelonende oplossing betrouwbaar is en om extra computatie te besteden aan onzekere kandidaatvoorvoegsels. Experimenten met vier backbone-modellen en vier redeneerbenchmarks tonen aan dat BetaPRM de PRM-gestuurde Best-of-N-selectie verbetert terwijl de standaard stapsgewijze foutdetectie behouden blijft. Gebouwd op dit signaal verbetert ACA de nauwkeurigheid–tokenafweging ten opzichte van vastbudget Best-of-16, waarbij het tokenverbruik met maar liefst 33,57% wordt verminderd terwijl de nauwkeurigheid van het uiteindelijke antwoord verbetert.
Het uitrusten van LLM's met mogelijkheden voor toolgebruik via Agentic Reinforcement Learning (Agentic RL) wordt beperkt door twee uitdagingen: het ontbreken van schaalbare, robuuste uitvoeringsomgevingen en de schaarste aan realistische trainingsdata die impliciete menselijke redenering vastlegt. Bestaande benaderingen zijn afhankelijk van dure real-world API's, voor hallucinatie vatbare LLM-simulators, of synthetische omgevingen die vaak single-turn zijn of afhankelijk zijn van vooraf verzamelde documenten. Bovendien zijn synthetische trajecten vaak overgespecificeerd, waardoor ze meer op instructiereeksen lijken dan op natuurlijke menselijke bedoelingen, wat hun effectiviteit voor RL-training vermindert. We introduceren EnvFactory, een volledig geautomatiseerd raamwerk dat beide uitdagingen aanpakt. EnvFactory verkent en verifieert autonoom stateful, uitvoerbare toolomgevingen op basis van authentieke bronnen, en synthetiseert natuurlijke multi-turn trajecten door middel van topologiebewuste sampling en gekalibreerde verfijning, wat leidt tot gegronde query's met impliciete bedoelingen. Met slechts 85 geverifieerde omgevingen in 7 domeinen genereert EnvFactory 2.575 SFT- en RL-trajecten. Ondanks het gebruik van aanzienlijk minder omgevingen dan eerder werk, dat vaak 5 keer meer omvat, behaalt EnvFactory superieure trainingsefficiëntie en downstream-prestaties, waarbij Qwen3-serie-modellen worden verbeterd met tot +15% op BFCLv3, +8,6% op MCP-Atlas en +6% op conversationele benchmarks zoals τ^2-Bench en VitaBench. Door zowel de omgevingsconstructie als de trajectsynthese volledig te automatiseren, biedt EnvFactory een schaalbare, uitbreidbare en robuuste basis voor Agentic RL.
Recente diffusiemodellen behalen sterke fotorealisme en vloeiendheid in videogeneratie, maar blijven kwetsbaar onder abstracte, schaarse of complexe omstandigheden, wat leidt tot slechte prestaties in professionele productieworkflows zoals storyboardschetsen en klei-renderomstandigheden. Bestaande videogeneratiemodellen injecteren óf condities via adapters óf koppelen een generiek visie-taalmodel (VLM) binnen een diffusie-backbone, wat een capaciteitskloof achterlaat en er niet in slaagt de video's te produceren die aansluiten bij de creatieve intentie van de gebruiker. We presenteren CogOmniControl, een redeneringsgedreven raamwerk dat controleerbare videogeneratie opdeelt in cognitie van creatieve intentie en generatie. Specifiek trainen we een gespecialiseerde CogVLM met behulp van authentieke anime-productiegegevens. In vergelijking met generieke VLM's genereert het professionelere en duidelijkere outputs, waarbij het nauwkeurig de creatieve intentie van de gebruiker herkent uit schaarse en abstracte condities en deze aanwijzingen omzet in dichte redeneringsoutput. Daarnaast verenigt CogOmniDiT de controles van verschillende condities via in-context generatie en wordt het afgestemd op de redeneringsoutputs van CogVLM via reinforcement learning. Verder gebruiken we de robuuste capaciteit van CogVLM bij het sturen van videogeneratie, ontgrendelen we het potentieel in het plannen van specifieke evaluatoren en maken we een Best-of-N-selectie mogelijk voor de gegenereerde video's. Deze integratie transformeert het hele raamwerk in een gesloten-lus 'harnas-achtige' architectuur. We introduceren verder CogReasonBench en CogControlBench, gebouwd op gegevens van professionele workflows die echte creatieve intentie bevatten in plaats van gesimuleerde. Experimenten op twee benchmarks tonen aan dat CogOmniControl de bestaande open-source modellen overtrof. De projectwebsite: https://um-lab.github.io/CogOmniControl/
Het uitrusten van LLM-agenten met herbruikbare vaardigheden die zijn afgeleid van eerdere ervaringen is een populaire en succesvolle aanpak geworden voor het aanpakken van complexe en langdurige taken. Dergelijke lessen worden echter vaak gecodeerd als tekstuele aanwijzingen die grotendeels adviserend blijven, zonder expliciete mechanismen voor wanneer en hoe in te grijpen in de agent-lus. Om deze kloof te overbruggen, introduceren we HASP (Harnessing LLM Agents with Skill Programs), een nieuw raamwerk dat vaardigheden opwaardeert naar uitvoerbare Programmafuncties (PF's). In plaats van passief advies te geven, fungeren PF's als uitvoerbare vangrails die worden geactiveerd bij foutgevoelige toestanden en de volgende actie aanpassen of corrigerende context injecteren. HASP is zeer modulair: het kan worden toegepast tijdens inferentie voor directe interventie in de agent-lus, tijdens nabehandeling om gestructureerd toezicht te bieden, of voor zelfverbetering door het evolueren van gevalideerde, door een docent beoordeelde PF's. Empirisch gezien levert HASP aanzienlijke winst op in vergelijking met zowel trainingsvrije als trainingsgebaseerde methoden bij webzoekopdrachten, wiskundig redeneren en codeertaken. Op het gebied van webzoekredeneren verbeteren PF's tijdens inferentie alleen al de gemiddelde prestaties met 25% vergeleken met (multi-loop) ReAct Agent, terwijl nabehandeling en gecontroleerde evolutie een winst van 30,4% behalen ten opzichte van Search-R1. Om diepere inzichten te verschaffen in HASP, onthult onze mechanismeanalyse hoe PF's worden geactiveerd en ingrijpen, hoe vaardigheden worden geïnternaliseerd, en de vereiste voor een stabiele evolutie van de vaardighedenbibliotheek.
Recente videobewerkingsmodellen zijn geconvergeerd naar een geünificeerd conditioneringontwerp: één diffusietransformator verwerkt gezamenlijk tekst, bronvideo en referentiebeelden, en één set gewichten dekt vervanging, verwijdering, stijloverdracht en referentiegestuurde invoeging. Het ontwerp is flexibel, maar het veronderstelt dat de gebruiker al model-ready tekst, referentiebeelden en ruimtelijke verankering voor lokale bewerkingen aanlevert, wat echte verzoeken vaak weglaten. We presenteren Aurora, een agentisch videobewerkingsraamwerk dat een tool-verrijkt visie-taalmodel (VLM) agent koppelt aan een geünificeerde videodiffusietransformator. De VLM agent zet een rauw gebruikersverzoek om in een gestructureerd bewerkingsplan dat is afgestemd op de conditioneringkanalen van de transformator, waardoor tekstuele en visuele onderbepaling voorafgaand aan de generatie wordt opgelost. We trainen de VLM agent met gesuperviseerde data voor volledige bewerkingsplanning en referentiebeeldselectie, samen met voorkeursparen voor robuust toolgebruik en instructieverfijning. We introduceren AgentEdit-Bench om agent-verbeterde videobewerking te evalueren onder tekstuele en visuele onderbepaling. Experimenten op AgentEdit-Bench en twee bestaande videobewerkingsbenchmarks tonen aan dat Aurora beter presteert dan alleen-instructie baselines en dat de VLM agent overdraagt naar compatibele bevroren videobewerkingsmodellen. Projectpagina: https://yeates.github.io/Aurora-Page
Recente videogeneratieve modellen hebben de realiteitszin van door AI gegenereerde video's aanzienlijk verbeterd, maar hun uitvoer vertoont nog steeds artefacten zoals temporele inconsistenties, structurele vervormingen en semantische incoherentie. Hoewel multimodale grote taalmodellen (MLLM's) sterke visuele begripsmogelijkheden laten zien, blijft hun vermogen om dergelijke artefacten waar te nemen en erover te redeneren onduidelijk. Bestaande benchmarks ontberen vaak een systematische evaluatie van artefactbewuste perceptie en gedetailleerde diagnostische redenering, vooral over diverse door AI gegenereerde videodomeinen heen, verder dan fotorealistische inhoud. Om deze hiaat te vullen introduceren we Artifact-Bench, een uitgebreide benchmark voor het evalueren van MLLM's op het gebied van detectie en analyse van artefacten in door AI gegenereerde video's. Eerst stellen we een drie niveaus tellende hiërarchische taxonomie van realiteitsartefacten op, die fotorealistische, geanimeerde en CG-stijl video's omvat. Op basis van deze taxonomie definieert Artifact-Bench drie complementaire taken: classificatie van echte versus door AI gegenereerde video's, paarsgewijze realiteitsvergelijking en gedetailleerde artefactidentificatie. Experimenten met 19 toonaangevende MLLM's tonen aanzienlijke beperkingen aan in artefactperceptie en -redenering, waarbij veel modellen in uitdagende omgevingen prestaties benaderen die willekeurig of zelfs onder willekeurig niveau liggen. Verder constateren we een aanzienlijke discrepantie tussen de oordelen van MLLM's en menselijke perceptuele voorkeuren, wat hun beperkte betrouwbaarheid als algemene evaluatoren voor de realiteitszin van door AI gegenereerde video's benadrukt.
Conversationele AI heeft nu miljarden gebruikers bereikt, maar bestaande datasets registreren alleen wat mensen zeggen, niet wat ze denken. We introduceren ThoughtTrace, de eerste grootschalige dataset die echte, meerstaps mens-AI-gesprekken koppelt aan de zelfgerapporteerde gedachten van gebruikers: hun redenen voor het versturen van prompts en reacties op antwoorden van de assistent. ThoughtTrace omvat 1.058 gebruikers, 2.155 gesprekken, 17.058 beurten en 10.174 gedachtenannotaties, verzameld over 20 taalmodellen. Onze analyse toont aan dat ThoughtTrace langetermijninteracties met een diversiteit aan onderwerpen vastlegt, en dat gedachten semantisch verschillen van berichten, moeilijk te achterhalen uit context voor geavanceerde LLM's, divers in inhoud en gebonden aan gespreksfasen. We tonen verder het nut van gedachten voor downstream-modellering aan. Ten eerste verbeteren gedachten de voorspelling van gebruikersgedrag als inferentiecontext. Ten tweede bieden door gedachten geleide herschrijvingen fijnmazige afstemmingssignalen voor het trainen van gepersonaliseerde assistenten. ThoughtTrace vestigt daarmee gebruikersgedachten als een nieuwe datamodaliteit voor het bestuderen van de cognitieve dynamiek achter mens-AI-interactie en biedt een fundament voor het bouwen van assistenten die de latente doelen, voorkeuren en behoeften van gebruikers beter begrijpen en zich daaraan aanpassen.
Huidige benchmarks voor GUI-agenten (grafische gebruikersinterface) zijn voornamelijk gebaseerd op statische schermafbeeldingen. In de praktijk vereist interactie met smartphones echter dat agenten regelmatig vluchtige audiocues en temporele videodynamiek verwerken, die nauw samenhangen met het moment van handelen. Om deze kloof te overbruggen introduceren we OmniGUI, de eerste stapniveau-benchmark die is ontworpen om GUI-agenten te evalueren in omni-modale smartphone-omgevingen. OmniGUI biedt continue, afwisselende multimodale invoer bestaande uit statische afbeeldingen, synchrone audio en videoclips bij elke actiestap. De dataset omvat 709 door experts gedemonstreerde afleveringen (2.579 actiestappen) in 29 applicaties, systematisch geannoteerd met objectieve multimodale afhankelijkheidsniveaus. Aangezien speciale omni-modale GUI-agent-frameworks zich nog in een pril stadium bevinden, selecteren we fundamentele omni-modale modellen die native afwisselende invoer kunnen verwerken om te dienen als agent-proxy's voor onze initiële baselines. Onze empirische evaluatie laat zien dat, hoewel huidige modellen competent zijn in visueel statische taken, hun actievoorspellingsprestaties aanzienlijk afnemen in omgevingen die synchrone temporele en auditieve signalen vereisen. Bovendien identificeren ablatiestudies specifieke operationele knelpunten, met name cross-modale interferentie bij het verwerken van taak-irrelevante omgevingsruis. De volledige dataset, evaluatiepijplijn en baseline-prompts zijn beschikbaar in het aanvullende materiaal. Projectpagina: https://omni-gui.github.io.
Videogeneratie evolueert snel van single-shot synthese naar complexe multi-shot audio-video (MSAV) narratieven om aan reële vraagstukken te voldoen. Het evalueren van dergelijke grensverleggende modellen blijft echter een fundamentele uitdaging. Bestaande benchmarks zijn beperkt in reikwijdte en datadiversiteit en maken gebruik van rigide evaluatiepijplijnen, wat een systematische en betrouwbare beoordeling van moderne MSAV-modellen belemmert. Om deze hiaten te overbruggen introduceren we MSAVBench, de eerste uitgebreide benchmark en adaptieve hybride evaluatiekader voor multi-shot audio-videogeneratie. Onze benchmark bestrijkt vier sleuteldimensies: video, audio, shot en referentie, met diverse taakinstellingen, variërende shot aantallen tot 15, en uitdagende niet-realistische scenario's. Ons evaluatiekader verbetert de robuustheid via een adaptief zelfcorrectiemechanisme voor shotsegmentatie, per-instantie rubrieken voor subjectieve metrieken, en tool-gestuurde bewijsextractie voor complexe oordelen. Bovendien bereikt MSAVBench een hoge overeenstemming met menselijke oordelen, met een Spearman rangcorrelatie van 91,5%. Onze systematische evaluatie van 19 state-of-the-art gesloten- en open-source modellen toont aan dat huidige systemen nog steeds worstelen met regisseursniveaucontrole en fijnmazige audiovisuele synchronisatie, terwijl modulaire of agentische generatiepijplijnen een veelbelovende weg bieden om de kloof tussen open- en closed-source modellen te verkleinen. We zullen de benchmarkgegevens en evaluatiecode vrijgeven om toekomstig onderzoek te faciliteren.
AI-evaluatie ondergaat een structurele verandering. Grote taalmodellen (LLM's) worden steeds vaker ingezet als systemen die in de loop van de tijd handelen via tools, omgevingen, gebruikers en andere agenten, terwijl veel evaluatiepraktijken nog steeds uitgaan van aannames uit responsgerichte benchmarks (bijv. vaste inputs, geïsoleerde outputs en oordeel over uitkomsten dat op basis van één enkele respons kan worden geveld). Het veld is begonnen met het bouwen van interactieve benchmarks, maar het resulterende landschap is gefragmenteerd: benchmarks verschillen in welke interactieartefacten ze toelaten, hoe trajecten worden gescoord en welke claims hun resultaten ondersteunen. Dit position paper stelt dat interactieve evaluatie moet worden behandeld als een principieel evaluatieparadigma, niet slechts als een nieuwe familie van agentbenchmarks. Het simpelweg overnemen van eerdere evaluatieparadigma's volstaat niet. We definiëren evaluatie als een autonome afbeelding van bewijsmateriaal naar oordelen, en tonen aan dat interactieve evaluatie beide zijden van deze afbeelding verandert: het bewijsmateriaal wordt interactiegegenereerde trajecten, terwijl de evaluatieprocedure proces, herstelbaarheid, coördinatie, robuustheid en systeemprestaties moet beoordelen. Voortbouwend op deze definitie stellen we een twee-assige taxonomie voor, leiden we ontwerpprincipes en rapportagestandaarden af, onderzoeken we representatieve scenario's en analyseren we hoe al lang bestaande evaluatie-uitdagingen op trajectniveau opnieuw verschijnen.
Wanneer een model een correcte oplossing produceert onder reinforcement learning met verifieerbare beloningen (RLVR), ontvangt elk token hetzelfde beloningssignaal, ongeacht of het een beslissende redeneerstap of een grammaticale opvulling was. Een natuurlijke oplossing is om het model te conditioneren op het juiste antwoord als een leraar, waarbij tokens worden geïdentificeerd die het anders zou hebben gegenereerd als het het antwoord had geweten. Eerder werk laat zien dat dit ofwel de training verstoort door het antwoord in de gradiënt te lekken, ofwel een zwak signaal produceert dat geen onderscheid kan maken tussen beslissende stappen en opvulling, aangezien beide even verrassend lijken ten opzichte van de baseline van het model. Wij stellen Contrastive Evidence Policy Optimization (CEPO) voor, dat bij elk token een scherpere vraag stelt: niet alleen "begunstigt het juiste antwoord dit token?" maar "begunstigt het juiste antwoord het terwijl het foute antwoord het afwijst?" Een token dat aan beide voldoet, is een echte redeneerstap; een token dat aan geen van beide voldoet, is opvulling. De leraar met het foute antwoord wordt geconstrueerd uit afgewezen rollouts die al in de trainingsbatch zitten, zonder extra monsternemingskosten. We bewijzen dat CEPO alle structurele veiligheidsgaranties van de vorige stand van de techniek overneemt, terwijl het de toekenning van krediet bij beslissende tokens strikt verscherpt, waarbij de verbetering precies verdwijnt op opvulposities. Empirisch behaalt CEPO 43,43% en 60,56% gemiddelde nauwkeurigheid over vijf multimodale wiskundige redeneerbenchmarks op respectievelijk 2B- en 4B-schaal, versus 41,17% en 57,43% voor GRPO onder identieke trainingsbudgetten. Distributie-matchende zelfdistillatiemethoden (OPSD, SDPO) blijven onder de ongetrainde baseline, wat empirisch de informatielekkage bevestigt die onze theorie voorspelt. Onze code is beschikbaar op https://github.com/ahmedheakl/CEPO.
Stedelijke Gebouw-Energiemodellering (UBEM) speelt een cruciale rol bij het behalen van Duurzame Ontwikkelingsdoelstellingen 7 en 11 van de Verenigde Naties. Hoewel bestaande studies op basis van satellietbeelden en diep leren opmerkelijke vooruitgang hebben geboekt, bestaan er veel uitdagingen: de meeste bestaande studies zijn inherent voorspellend van aard en weerspiegelen niet het generatieve karakter van stadsplanning; hoewel generatieve AI en diffusiemodellen een explosieve groei hebben doorgemaakt in satellietbeelden, ontbreekt het hen aan stedelijke functionele generatie (bijv. de energielaag); ten derde is uitgelijnde, hoogwaardige, hoge-resolutie gebouwenergiedata met satellietbeelden beperkt en schaars. Hier stellen wij SENSE (Satellietgebaseerde Energiesynthese voor een Duurzame Omgeving) voor, een uniform generatief UBEM-raamwerk dat gezamenlijk realistische stedelijke satellietbeelden en uitgelijnde hoogwaardige gebouwenergieverbruiks- en hoogtekaarten synthetiseert. Door te conditioneren op wegennetwerken en stedelijke dichtheidsmetrieken, maakt SENSE, gebaseerd op een controleerbaar diffusiemodel, gebruik van de kennis die door grote visiemodellen is geleerd om stedelijke gebouwenergieverbruiks- en hoogte-informatie (annotaties) in de latente ruimte te genereren. Experimenten in vier steden (New York, Boston, Lyon, Busan) tonen aan dat SENSE een hoge visuele getrouwheid en sterke fysieke consistentie bereikt, en voldoet aan de ASHRAE-standaardmetriek. Experimenten laten zien dat SENSE voldoende geannoteerde synthetische data kan genereren met minder dan 20% gelabelde energiedata, wat de downstream voorspelprestaties met 10% IoU verbetert. Vergeleken met state-of-the-art stedelijke energievoorspellingsmethoden, verminderde SENSE de voorspelfout aanzienlijk (vermindering van 3%-11% NMBE en 1%-9% CVRMSE). Deze studie biedt een energie-efficiënte stadsplanning en fysieke generatieoplossing voor stedelijke wetenschap, energiewetenschap en bouwwetenschap. De dataset en code: https://huggingface.co/datasets/skl24/MUSE en https://github.com/kailaisun/GenAI4Urban-Energy/.
Videodiffusiemodellen hebben snelle vooruitgang geboekt op het gebied van perceptueel realisme en temporele coherentie, maar ze blijven primair geoptimaliseerd voor plausibele generatie in plaats van verifieerbaar redeneren. Deze beperking is bijzonder uitgesproken bij taken waarbij gegenereerde video's moeten voldoen aan expliciete ruimtelijke, temporele of logische beperkingen. Geïnspireerd door de rol van versterkend leren met verifieerbare beloningen (RLVR) in redeneergerichte taalmodellen, introduceren we VideoRLVR, een praktische aanpak voor het optimaliseren van videodiffusiemodellen met regelgebaseerde feedback. VideoRLVR formuleert videoredeneren als het genereren van verifieerbare visuele trajecten en bestaat uit een SDE-GRPO-optimalisatiekern, dichte ontleedde beloningen en een strategie voor focus op vroege stappen (Early-Step Focus) voor efficiënte training. De strategie voor focus op vroege stappen beperkt beleidsoptimalisatie tot de vroege diffunderingsfase, waardoor de trainingslatentie met ongeveer 40% afneemt terwijl de prestaties behouden blijven. We evalueren VideoRLVR op Maze, FlowFree en Sokoban, drie procedureel gegenereerde domeinen met objectieve succescriteria. Bij al deze taken verbetert VideoRLVR consequent ten opzichte van gesuperviseerde finetuning-baselines, waarbij dichte ontleedde beloningen bijzonder belangrijk blijken in situaties met een laag slagingspercentage. Ons RL-geoptimaliseerde model presteert ook beter dan de geëvalueerde propriëtaire en opensource videogeneratiemodellen op deze verifieerbare redeneerbenchmarks en out-of-domein benchmarks. Deze resultaten suggereren dat verifieerbaar RL videomodellen verder kan brengen dan perceptuele nabootsing in de richting van betrouwbaarder, regelconsistent visueel redeneren.
Tekst-naar-Afbeelding (T2I)-modellen hebben recentelijk opmerkelijke vooruitgang geboekt rond 1K- en 2K-resolutie. Door het extreme verlangen naar een betere visuele ervaring en de snelle ontwikkeling van beeldtechnologie is de vraag naar Ultra-Hoge-Resolutie (UHR) beeldgeneratie aanzienlijk toegenomen. Echter, UHR-beeldgeneratie brengt grote uitdagingen met zich mee vanwege de schaarste en complexiteit van inhoud met hoge resolutie. In dit artikel introduceren we eerst PixVerve-95K, een hoogwaardige, open-source UHR T2I-dataset die is samengesteld met een zorgvuldig ontworpen datapijplijn, die 95K afbeeldingen bevat in diverse scenario's (elke afbeelding heeft een minimaal pixelaantal van 100M) en zeven-dimensionale annotaties. Op basis van onze grootschalige beeld-tekst-dataset zetten we een baanbrekende stap om verschillende T2I-fundamentmodellen uit te breiden naar native 100MP-generatie met drie trainingsschema's. Ten slotte, door gebruik te maken van zowel conventionele metrieken als op multimodale grote taalmodellen gebaseerde beoordelingen, stelt onze voorgestelde PixVerve-Bench-benchmark een uitgebreid evaluatieprotocol vast voor UHR-beelden, dat visuele kwaliteit en semantische afstemming omvat. Uitgebreide experimentele resultaten op onze benchmark en de constructieve verkenning van trainingsstrategieën bieden gezamenlijk waardevolle inzichten voor toekomstige doorbraken.
Uniforme multimodale modellen (UMM's) streven ernaar visueel begrip en visuele generatie binnen één architectuur te verenigen. Echter, gangbare trainingsparadigma's optimaliseren onafhankelijk begrip via schaarse tekstsignalen en generatie via dichte pixeldoelen. Zo'n ontkoppelde strategie leidt tot niet-op elkaar afgestemde representatieruimten, waardoor visueel begrip en generatie worden geïsoleerd en hun wederzijdse versterking wordt belemmerd. Dit werk presenteert het eerste systematische onderzoek naar generatieve post-training, waarbij we hiërarchische visuele taken formuleren als generatieve proxies om de isolatie in UMM's te overbruggen. Ons empirisch onderzoek onthult dat semantische taken op hoog niveau, met name beeldsegmentatie, als optimale proxies fungeren. In tegenstelling tot taken op laag niveau die modellen afleiden met textuurdetails, biedt segmentatie structurele semantiek die zowel visiegericht perceptie als generatieve lay-outgetrouwheid aanzienlijk verbetert. Voortbouwend op deze inzichten introduceren we Semantic Generative Tuning (SGT), een nieuw paradigma dat segmentatie gebruikt als een generatieve proxy om multimodale capaciteiten op elkaar af te stemmen en te synergetisch te maken. Mechanistische analyses tonen verder aan dat SGT de lineaire scheidbaarheid van kenmerken fundamenteel verbetert en het visueel-tekstuele aandachtsallocatiepatroon optimaliseert. Uitgebreide evaluaties laten zien dat SGT zowel multimodaal begrip als generatieve getrouwheid consequent verbetert in gangbare benchmarks. Onze code is beschikbaar op https://song2yu.github.io/SGT/.
4D-meshgeneratie is recentelijk naar voren gekomen als een krachtig paradigma voor het reconstrueren van dynamische 3D-structuur uit video's, maar bestaande methoden blijven traag, rekenkundig duur en moeilijk op te schalen naar langere reeksen. We introduceren een trainingsvrije benadering die de 4D-meshgeneratie versnelt terwijl de kwaliteit van temporele correspondentie verbetert. Onze belangrijkste observatie is dat temporele correspondenties in een 4D-backbone ontstaan lang voordat de gegenereerde meshes visueel accuraat worden. We benutten dit met een algemeen raamwerk dat we Ruimtelijk-Temporele Aandachtsketen noemen, dat informatie over ruimte en tijd verspreidt. Beginnend bij vertices op een ankermesh, zet de keten vertices om in latente tokens. Vervolgens volgt het temporele correspondenties in de latente ruimte en herstelt het framespecifieke vertices via latent-naar-vertex-aandacht. Dit ontwerp vermijdt dure expliciete matching terwijl het de details van de ankermesh behoudt en daarmee de dynamische meshgeometrie en temporele consistentie verbetert. Vergeleken met de state-of-the-art genereert onze methode een 4D-mesh in 9 seconden, wat een 13-voudige versnelling oplevert terwijl resultaten van hogere kwaliteit worden geproduceerd. Bovendien schaalt onze aanpak naar video's tot 16 keer langer zonder verslechtering van de meshkwaliteit. Naast generatie stellen de verbeterde correspondenties ons in staat om competitieve zero-shot-prestaties te leveren op twee downstream taken: 2D-objecttracking en 4D-tracking. Verder tonen we aan dat ons raamwerk betrouwbare cameraschatting mogelijk maakt, een mogelijkheid die niet wordt ondersteund door eerdere 4D-meshgeneratiemethoden.
3D Gaussian Splatting (3DGS) maakt real-time synthese van nieuwe aanzichten mogelijk met hoge visuele kwaliteit. Echter, bestaande methoden hebben moeite met semi-transparante spiegelende oppervlakken die zowel complexe reflecties als duidelijke transmissie vertonen, wat vaak leidt tot wazige reflecties of te veel occlusie van transmissie. Om dit aan te pakken presenteren wij RT-Splatting, een raamwerk dat de geometrische bezetting van elke Gaussian ontkoppelt van zijn optische opaciteit. Deze factorisatie resulteert in een uniforme oppervlakte-volume-scènevoorstelling met een enkele set Gaussian-primitieven. Onze hybride renderer interpreteert deze voorstelling zowel als een oppervlak om hoogfrequente reflecties vast te leggen als een volume om heldere transmissie te behouden. Om de ambiguïteit bij het gezamenlijk optimaliseren van reflectie en transmissie te verminderen, introduceren wij Specular-Aware Gradient Gating, dat misleidende gradienten uit sterk spiegelende gebieden in de transmissietak onderdrukt, waardoor afleidende "floaters" effectief worden gereduceerd. Experimenten op uitdagende semi-transparante scènes tonen aan dat RT-Splatting state-of-the-art prestaties levert, met hoogwaardige reflecties en heldere transmissie in real-time rendering. Bovendien maakt onze factorisatie flexibele scènebewerking mogelijk. De projectpagina is beschikbaar op https://sjj118.github.io/RT-Splatting.
Aandachtresiduals vervangen standaard additieve residualverbindingen door aangeleerde softmax-aandacht over uitgangen van voorgaande lagen, wat selectieve kruislaagroutering mogelijk maakt. Standaard Aandachtresiduals letten echter nog steeds op cumulatieve verborgen toestanden in voorgaande lagen, die sterk redundant zijn. We tonen aan dat deze redundantie leidt tot routeringsinstorting in diepere lagen: aandachtsgewichten worden laagcontrast en naderen uniform (max gewicht ≈0,2), wat het vermogen van het model om informatieve toestanden in voorgaande lagen te selecteren beperkt. Dit roept een belangrijke maar onderbelichte ontwerpvraag op: welke laagsgewijze representaties moeten worden gerouteerd in Aandachtresiduals? Om deze vraag te beantwoorden, stellen we Delta-Aandachtresiduals voor, die letten op delta's – de verandering die door elke sublaag wordt geïntroduceerd (v_i = h_{i+1} - h_i) – in plaats van cumulatieve toestanden. Deltarepresentaties zijn structureel divers en leveren hogercontrast-aandachtsverdelingen op (max gewicht ≈0,6), wat selectievere en effectievere routering over lagen mogelijk maakt. Dit principe is van toepassing op zowel per-sublaag- als blokgranulariteit. Op alle geteste schalen (220M–7,6B) presteren Delta-Aandachtresiduals consequent beter dan zowel standaard residualverbindingen als Aandachtresiduals, met 1,7–8,2% winst in validatieperplexiteit. Delta-Aandachtresiduals maken het ook mogelijk om voortgetrainde controlepuntbestanden via standaard fijnafstemming om te zetten naar Delta-Aandachtresiduals. Code is beschikbaar op https://github.com/wdlctc/delta-attention-residuals-code.
Recente studies suggereren dat Reinforcement Fine-Tuning (RFT) inherent beter bestand is tegen catastrofaal vergeten dan Supervised Fine-Tuning (SFT). Of RFT (bijv. GRPO) vergeten effectief kan overwinnen in uitdagende visuele continue leersettings, zoals klasse-incrementeel leren (CIL) en domein-incrementeel leren (DIL), blijft echter een openstaand probleem. Via een pilotstudie bevestigen we dat, hoewel RFT consequent beter presteert dan SFT, het nog steeds te maken heeft met niet-verwaarloosbaar vergeten. We traceren deze bottleneck empirisch naar Trajectniveau-driftafwezigheid: onder kandidaat-rollouts die identieke taakbeloningen behalen, varieert de KL-divergentie van het beleid van de voorgaande taak aanzienlijk, wat sterk correleert met catastrofaal vergeten over opeenvolgende taken. Gemotiveerd door dit inzicht stellen we Retention-aware Policy Optimization (RaPO) voor, een eenvoudige maar effectieve RFT-methode die vergeten expliciet beperkt door beloningsvormgeving op trajectniveau. Specifiek omvat RaPO twee kerncomponenten: (1) Retentiebeloning die distributieverschuiving op trajectniveau omzet in een continu beloningssignaal, waarbij kennisbehoudende rollouts binnen elke groep preferentieel worden versterkt; (2) Cross-Task Advantage Normalization (CTAN), die een persistent exponentieel voortschrijdend gemiddelde van beloningsstatistieken over taakgrenzen heen handhaaft om de optimalisatievoortgang tijdens continu leren te stabiliseren. Door gebruik te maken van de vrij-vorm tekstuele generalisatie van MLLM's, evalueren we RaPO uitgebreid over vijf visuele continue leersettings. Uitgebreide experimenten tonen aan dat RaPO topprestaties levert, waarbij catastrofaal vergeten aanzienlijk wordt verminderd terwijl een sterke plasticiteit behouden blijft. Voor zover wij weten, vertegenwoordigt dit werk de eerste systematische verkenning van RFT in visueel continu leren, met inzichten die hopelijk toekomstig onderzoek zullen inspireren.
Agenten van grote taalmodellen (LLM's) werken steeds vaker met lange en terugkerende externe contexten, zoals documentcorpora en coderepositories. Bij aanroepen behouden bestaande benaderingen ofwel het traject van de agent, passieve toegang tot ruw materiaal, of taakniveaustrategieën. Geen van hen behoudt wat volgens ons het meest nodig is voor herhaalde workloads in dezelfde context: herbruikbare oriëntatiekennis (bijv. wat de context bevat, hoe deze is georganiseerd, en welke entiteiten, constanten en schema's historisch nuttig zijn geweest) over de terugkerende context zelf. We introduceren PEEK, een systeem dat deze oriëntatiekennis cached en onderhoudt als een contextmap: een klein artefact van constante grootte in de prompt van de agent dat een aanhoudende blik in de externe context geeft. De map wordt onderhouden door een programmeerbaar cachebeleid met drie modules: een Distiller die overdraagbare kennis extraheert uit inferentietijdsignalen, een Cartographer die deze vertaalt naar gestructureerde bewerkingen, en een op prioriteit gebaseerde Evictor die een vast tokenbudget afdwingt. Bij redeneren over lange contexten en informatieaggregatie verbetert PEEK sterke baselines met 6,3–34,0%, terwijl het 93–145 minder iteraties gebruikt en 1,7–5,8× lagere kosten maakt dan het state-of-the-art prompt-leerframework ACE. Bij contextleren verbetert PEEK de oplossingsgraad en rubricnauwkeurigheid met respectievelijk 6,0–14,0% en 7,8–12,1%, tegen 1,4× lagere kosten dan ACE. Deze winsten generaliseren over LLM's en agentarchitecturen, waaronder OpenAI Codex, een productieklare codeeragent. Samen tonen deze resultaten aan dat een contextmap lang-context LLM-agenten helpt om nauwkeuriger en efficiënter te interageren met terugkerende externe contexten.
Speculatief decoderen (SD) versnelt de inferentie van grote taalmodellen door gebruik te maken van een opstellen-dan-verifiëren paradigma. Om de acceptatiegraad te maximaliseren, construeren recente methoden uitgebreide conceptbomen, die helaas leiden tot ernstige VRAM-bandbreedte- en rekenkundige overhead die de end-to-end versnellingen belemmeren. Hoewel dynamische-diepte snoeien deze latentie kan verminderen door marginale takken te verwijderen, verwijdert het ook potentieel geldige kandidaten, waardoor de acceptatiegraad niet de bovengrens van dichte bomen kan bereiken. In dit artikel identificeren we een kritieke kans in resource-toewijzing: de overgang van dicht naar gesnoeid conceptueel werk maakt een aanzienlijk rekenbudget vrij. Om deze Pareto-afweging te doorbreken, introduceren we Graft, een compensatiekader dat snoeien en ophalen koppelt als elkaar versterkende operaties. Snoeien levert voldoende budget voor ophalen, terwijl ophalen compenseert voor door snoeien veroorzaakt dekkingsverlies en de geaccepteerde lengte herstelt. Door gebruik te maken van een sequentieel `snoei-dan-transplanteer' mechanisme, voegt Graft zeer voorspellende opgehaalde tokens toe aan posities die door snoeien zijn geopend, waarbij de topologische hiaten worden opgevuld met bijna nul overhead. Graft is volledig trainingsvrij en verliesvrij. Uitgebreide evaluaties tonen aan dat Graft een nieuwe Pareto-grens vestigt in praktische implementatie-instellingen, waaronder kort-context generatie, lang-context generatie en grootschalige modellen. Op kort-context benchmarks behaalt het tot 5,41 keer versnelling en verbetert het de gemiddelde versnelling ten opzichte van EAGLE-3 met tot 21,8% op het grootschalige Qwen3-235B. We bieden ook een voorlopige verkenning van het toepassen van Graft op het DFlash-stijl blokconceptparadigma, met initieel bewijs en inzichten voor het uitbreiden van transplantatie verder dan autoregressieve conceptbomen.
Het trainen van 3D Gaussian Splatting (3DGS) op een schaal van miljarden primitieven is fundamenteel geheugengebonden: elke Gaussische primitief draagt een grote attributenvector, en de totale parametertabel overschrijdt snel de GPU-capaciteit, waardoor eerdere systemen beperkt blijven tot tientallen miljoenen Gaussiaanse functies op gangbare single-GPU-hardware. We merken op dat 3DGS-training inherent schaars en trajectgeconditioneerd is: elke iteratie activeert alleen de Gaussiaanse functies die zichtbaar zijn vanuit de huidige camerabatch, waardoor GPU-geheugen kan dienen als een werkverzameling-cache in plaats van een persistente parameteropslag. Voortbouwend op dit inzicht introduceren we TideGS, een out-of-core trainingsraamwerk dat parameters beheert over een SSD-CPU-GPU-hiërarchie via drie synergistische technieken: blokgevirtualiseerde geometrie voor SSD-uitgelijnde ruimtelijke localiteit, een hiërarchische asynchrone pijplijn om I/O met berekening te overlappen, en trajectadaptieve differentiële streaming die alleen incrementele werkverzamelingsdelta's tussen iteraties overdraagt. Experimenten tonen aan dat TideGS training met meer dan een miljard Gaussiaanse functies op een enkele 24 GB GPU mogelijk maakt, terwijl de beste reconstructiekwaliteit wordt bereikt onder de geëvalueerde single-GPU-baselines voor grootschalige scènes, en verder schaalt dan eerdere out-of-core-baselines (bijv. circa 100M Gaussiaanse functies) en standaard in-memory training (bijv. circa 11M Gaussiaanse functies).
Reinforcement learning met verifieerbare beloningen heeft nabehandeling zeer effectief gemaakt wanneer correctheid automatisch kan worden gecontroleerd. Veel belangrijke modelgedragingen vereisen echter het tegelijkertijd voldoen aan meerdere kwalitatieve criteria. Rubric-gebaseerde beloningen pakken deze situatie aan door promptspecifieke criteria te beoordelen en deze te aggregeren tot een scalaire beloning. Standaard statische aggregaties verwarren echter het door mensen toegekende belang van een criterium met het huidige nut ervan als optimalisatiesignaal. We laten zien dat deze aanname niet opgaat in rubric RL: veel belangrijke criteria zijn al verzadigd of momenteel onbereikbaar, terwijl criteria die rollouts onderscheiden niet noodzakelijkerwijs de criteria zijn met de grootste menselijke gewichten. We introduceren POW3R, een beleidsbewust rubric-beloningsraamwerk dat menselijke gewichten en categoriebalans behoudt als rubric-doelstelling, terwijl het criteriumniveau-beloningsgewichten aanpast tijdens de training. POW3R gebruikt rollout-level contrast om criteria te benadrukken die momenteel de outputs van het beleid scheiden, waardoor de GRPO-beloning informatiever wordt zonder het onderliggende evaluatiedoel te veranderen. Over drie basisbeleidsvormen op twee datasets die zowel multimodale als tekst-only instellingen omvatten, wint POW3R 24 van de 30 basisbeleid/metric-vergelijkingen, waarbij het zowel de gemiddelde rubric-beloning als de strikte voltooiing (de fractie van prompts waarvan de reactie voldoet aan elk vereist rubric-criterium) verbetert ten opzichte van vanille GRPO met rubric-beloningen, en hetzelfde plateau bereikt in 2,5–4 keer minder trainingsstappen. Rubric-beloningen moeten daarom onderscheiden wat er in het uiteindelijke antwoord toe doet van wat het huidige beleid kan leren.
Dit artikel behandelt de taak om signalen over driehoekige meshes te genereren op een triangulatie-agnostische manier, wat betekent dat het getrainde model effectief kan worden toegepast op verschillende meshes en triangulaties. In de praktijk wordt het flow matching (FM)-paradigma aangepast aan een op meshes gebaseerde, triangulatie-agnostische setting. Theoretisch wordt een specifieke ruisverdeling voorgesteld die triangulatie-agnostisch is, om te worden gebruikt in het ontruisproces van het FM-model. Terwijl ruisverdelingen doorgaans triviaal te ontwerpen zijn voor bijvoorbeeld afbeeldingen, blijkt het ontwerpen van een triangulatie-agnostische verdeling een veel moeilijkere taak. We formuleren een wiskundige definitie van triangulatie-agnosticisme van verdelingen via hun spectrum. Vervolgens tonen we aan dat een discretisatie van een specifiek Gaussisch willekeurig veld, een zogenaamd Matérn-proces, deze gewenste eigenschappen bezit en een eenvoudig en efficiënt samplingalgoritme biedt. We gebruiken dit als ons ruismodel en passen FM aan de triangulatie-agnostische setting aan door een state-of-the-art benadering voor het leren van signalen op meshes in het gradiëntdomein — PoissonNet — te gebruiken als ontruiser. We voeren experimenten uit op uitgebreide taken zoals het samplen van elastische rusttoestanden en het genereren van houdingen van humanoïden. Onze methode blijkt in staat zeer realistische resultaten te produceren voor meshes van meer dan een miljoen driehoeken, waarmee de state-of-the-art in kwaliteit en diversiteit aanzienlijk wordt overtroffen.
Behendige manipulatie is intensief in termen van natuurkunde en zeer gevoelig voor modelleringsfouten en perceptieruis, waardoor de overdracht van simulatie naar realiteit bijzonder uitdagend is. Domeinrandomisatie (DR) wordt vaak gebruikt om de robuustheid van aangeleerd beleid voor dergelijke taken te verbeteren, maar conventionele DR randomiseert één instantie per episode, wat een zeer beperkte blootstelling biedt aan de variabiliteit van dynamica in de echte wereld. Daartoe stellen we Domein-Gerandomiseerde Instantieset (DRIS) voor, die een set gerandomiseerde instanties tegelijkertijd representeert en propageert, waardoor een rijkere benadering van onzekere dynamica wordt geboden en beleid in staat wordt gesteld acties te leren die rekening houden met meerdere mogelijke uitkomsten. Ondersteund door theoretische analyse tonen we aan dat DRIS robuustere beleid oplevert en de noodzaak voor fijnafstemming in de echte wereld vermindert, zelfs met een bescheiden aantal instanties (bijv. 10). We demonstreren dit op een uitdagende reactieve vangtaak. In tegenstelling tot traditionele vangopstellingen die eindeffectors gebruiken die zijn ontworpen om het object mechanisch te stabiliseren (bijv. gebogen of omsluitende oppervlakken), maakt ons systeem gebruik van een vlakke plaat die geen passieve stabilisatie biedt, waardoor de taak zeer gevoelig is voor ruis en snelle reactieve bewegingen vereist. Het aangeleerde beleid vertoont sterke robuustheid tegen onzekerheden en bereikt betrouwbare zero-shot overdracht van simulatie naar realiteit.
Meerkeuzevragen-benchmarks evalueren doorgaans kleine taalmodellen (KTM'en) als directe antwoorders, maar de inzet van taalmodelsystemen steunt steeds vaker op externe hulpmiddelen zoals gereedschappen, code en herhaalde modelaanroepen. Wij introduceren Code-Geleide Redenering (CGR), een evaluatieprotocol en een bron van gegenereerde programma's om te meten wanneer uitvoerbare redeneersteigers de prestaties van KTM'en bij meerkeuzevragen verbeteren. CGR standaardiseert zes componenten: een genormaliseerde iteminterface, een directe oplosserprompt, een generatorprompt, een Python-steiger, hulpfuncties voor oplosseraanroepen en -extractie, en een driekanaals resultaatsrecord. Uit 20.498 behouden resultaatrijen afkomstig van een lokaal voorbereide MCQA-bundel en zes metadatageregistreerde oplossermodellen, vertoont de waargenomen niet-nul-baseline-verdeling een macro ondersteunde nauwkeurigheid van 66,21% tegenover 38,11% directe nauwkeurigheid, een verschil van +28,10 procentpunt met een paar-bootstrap-interval van [20,32; 36,43]. Onder een strengere drempel van Ab > 30% direct-signaal bedraagt het macroverschil +14,11 punten. Deze schattingen zijn beschrijvend. Ondersteunde inferentie gebruikt een ruimer oplosseraanroepbudget, antwoordeigen extractie is breekbaar, Tijd-MCQA bevat de waargenomen regressies, en sommige gegenereerde programma's overtreden de instructie om niet hard te coderen. CGR biedt het trace-pakket dat nodig is om deze resultaten te interpreteren, inclusief directe, ondersteunde en generatorzijde-antwoorden, verdelingdefinities, gegenereerde programma's, responsmetadata en audits.
Moderne toepassingen van grote taalmodellen (LLM's) vertrouwen steeds vaker op lange conditioneringsprefixen om modelgedrag tijdens inferentie te sturen. Hoewel prefix-versterkte inferentie effectief is, brengt het twee structurele beperkingen met zich mee: i) de invloed van het prefix neemt af naarmate de generatie vordert, en ii) de aandachtsberekening over het prefix schaalt lineair met de lengte ervan. Bestaande benaderingen houden het prefix ofwel in de aandacht terwijl ze het comprimeren, ofwel internaliseren ze het in modelparameters via gradiëntgebaseerde training. De eerste benadering besteedt nog steeds aandacht aan het prefix tijdens inferentie, terwijl de laatste trainingsintensief is en ongeschikt voor prefix-updates. Om deze problemen aan te pakken, stellen we attention-state memory voor, een trainingvrije benadering die het prefix externaliseert naar een lichtgewicht, opzoekgebaseerd geheugen van voorberekende aandachtstoestanden tussen prefix- en querytokens. Op ManyICLBench met LLaMA-3.1-8B verbetert onze methode de nauwkeurigheid ten opzichte van in-context leren bij geheugenbudgetten van 1K-8K, terwijl de aandachtslatentie met 1,36x wordt verminderd bij 8K, en overtreft het de volledige-aandacht-RAG-prestaties op de NBA-benchmark met slechts 20% van de geheugenvoetafdruk.
Kan een enkel op LLM gebaseerd optimalisatiesysteem concurreren met gespecialiseerde tools op fundamenteel verschillende domeinen? Wij tonen aan dat wanneer optimalisatieproblemen worden geformuleerd als het verbeteren van een tekstartefact dat wordt geëvalueerd door een scoringsfunctie, een enkel AI-gebaseerd optimalisatiesysteem – dat enkele-taak zoeken, multi-taak zoeken met overdracht tussen problemen, en generalisatie naar ongeziene invoer ondersteunt – state-of-the-art resultaten behaalt over zes uiteenlopende taken. Ons systeem ontdekt agentarchitecturen die de ARC-AGI-nauwkeurigheid van Gemini Flash bijna verdrievoudigen (van 32,5% naar 89,5%), vindt planningsalgoritmen die cloudkosten met 40% verlagen, genereert CUDA-kernels waarvan 87% het opnemen tegen of beter presteren dan PyTorch, en overtreft de gerapporteerde cirkelpakkingoplossing van AlphaEvolve (n=26). Ablatiestudies over drie domeinen laten zien dat bruikbare neveninformatie leidt tot snellere convergentie en aanzienlijk hogere eindscores dan alleen-score-feedback, en dat multi-taak zoeken beter presteert dan onafhankelijke optimalisatie bij een gelijk budget per probleem dankzij overdracht tussen taken, waarbij de voordelen toenemen met het aantal gerelateerde taken. Gezamenlijk tonen we voor het eerst aan dat tekstoptimalisatie met op LLM gebaseerd zoeken een algemeen toepasbaar probleemoplossend paradigma is, dat taken die traditioneel domeinspecifieke algoritmen vereisen, verenigt onder één raamwerk. Wij brengen _optimize\_anything_ met ondersteuning voor meerdere back-ends als open-source uit als onderdeel van het GEPA-project op https://github.com/gepa-ai/gepa.
Modellen voor auteurschapstoewijzing die met dezelfde voorgetrainde encoder, data en verliesfunctie fijn zijn afgesteld, kunnen tot een viervoudig verschil in prestaties vertonen, uitsluitend afhankelijk van hun scoringsmechanisme. We gebruiken mechanistische interpreteerbaarheidstools om dit verschil te verklaren. Stilistische kenmerken zoals woordlengte, interpunctiedichtheid en functiewoordfrequentie zijn in elk model op elke laag even beschikbaar, ook in een kant-en-klare controle-encoder, dus het verschil komt niet door de representatiekwaliteit. In plaats daarvan toont causale interventie aan dat de scorer bepaalt waar de encoder het auteurschapssignaal consolideert. Gemiddelde pooling dwingt consolidatie af in de vroege tot middelste lagen, terwijl late interactie dit uitstelt naar latere lagen. We leiden dit verschil verder af uit de gradientstructuur van elke scorer, en de trainingsdynamica onthult verschillende leertrajecten die uit dat verschil voortvloeien.
Ruimtelijke intelligentie ontvouwt zich via een perceptie-actie-lus: agenten handelen om waarnemingen te verkrijgen en redeneren over hoe waarnemingen variëren als functie van actie. In plaats van passief te verwerken wat wordt gezien, ontdekken ze actief wat ongezien is – verborgen structuur, dynamiek, insluiting en functionaliteit die niet kunnen worden opgelost door alleen passieve waarneming. We gaan verder dan eerdere formuleringen van ruimtelijke intelligentie die alwetende waarneming veronderstellen, door de waarnemer te herdefiniëren als een acteur. We introduceren ESI-BENCH, een uitgebreide benchmark voor belichaamde ruimtelijke intelligentie die 10 taakcategorieën en 29 subcategorieën omvat, gebouwd op OmniGibson, gegrond in Spelke's kernkennissystemen. Agenten moeten beslissen welke vaardigheden ze inzetten – perceptie, voortbeweging en manipulatie – en hoe ze deze te sequentiëren om actief taakrelevante bewijzen te verzamelen. We voeren uitgebreide experimenten uit met state-of-the-art MLLM's en vinden dat actieve exploratie aanzienlijk beter presteert dan passieve tegenhangers, waarbij agenten spontaan opkomende ruimtelijke strategieën ontdekken zonder expliciete instructies, terwijl willekeurig multi-view vaak ruis toevoegt in plaats van signaal, ondanks dat het veel meer afbeeldingen verbruikt. De meeste mislukkingen komen niet voort uit zwakke perceptie, maar uit actieblindheid: slechte actiekeuzes leiden tot slechte waarnemingen, die op hun beurt cascadefouten veroorzaken. Hoewel expliciete 3D-verankering redeneren stabiliseert bij dieptegevoelige taken, blijkt onvolmaakte 3D-representatie schadelijker te zijn dan 2D-baselines door het vertekenen van ruimtelijke relaties. Menselijke studies onthullen verder dat, in tegenstelling tot mensen die falsificerende gezichtspunten zoeken en overtuigingen herzien bij tegenstrijdigheid, modellen zich voortijdig met hoge zekerheid vastleggen ongeacht de kwaliteit van het bewijs, wat een metacognitieve kloof blootlegt die noch betere perceptie noch meer belichaamde interactie alleen kunnen overbruggen.
Omni-modale grote taalmodellen (om-LLM's) realiseren een uniform audiovisueel begrip door video en audio te coderen in temporeel gealigneerde tokenreeksen die op vensterniveau worden afgewisseld. Het verwerken van deze dichte niet-tekstuele tokens in de gehele LLM brengt echter aanzienlijke computationele overhead met zich mee. Hoewel trainingsvrije tokenselectie deze kosten kan verlagen, richten bestaande methoden zich óf uitsluitend op visuele invoer, óf verwijderen ze tokens uit om-LLM's alleen vóór de LLM met vaste per-modaliteit-ratio's, zonder te vatten hoe crossmodaal tokenbelang over lagen heen evolueert. Om deze beperking aan te pakken, analyseren we eerst de laagsgewijze tokenafhankelijkheid van om-LLM's. We ontdekken dat visuele en audio-afhankelijkheden een bloksgewijs patroon volgen en geleidelijk verzwakken met de diepte, wat erop wijst dat veel late-laag niet-tekstuele tokens redundant worden na crossmodale fusie. Gemotiveerd door deze observatie stellen we SEATS voor, een trainingsvrije, fase-adaptieve tokenselectiemethode voor efficiënte om-LLM-inferentie. Vóór de LLM verwijdert SEATS spatiotemporele redundantie via aandachtsgewogen diversiteitsselectie. Binnenin de LLM snoeit het progressief tokens over blokken heen en wijst het het retentiebudget dynamisch toe van temporele vensters aan modaliteiten, met behulp van queryrelevantiescores. In late lagen verwijdert het alle resterende niet-tekstuele tokens zodra de crossmodale fusie is voltooid. Experimenten op Qwen2.5-Omni en Qwen3-Omni tonen aan dat SEATS de inferentie-efficiëntie effectief verbetert. Door slechts 10% van de visuele en audiotokens te behouden, wordt een 9,3× FLOPs-reductie en een 4,8× prefill-versnelling bereikt, terwijl 96,3% van de oorspronkelijke prestaties behouden blijft.
Autoregressieve videodiffusiemodellen maken open-einde-generatie mogelijk via lokale aandacht en KV-caching. Bestaande trainingsvrije optimalisatiemethoden voor lange video's richten zich echter voornamelijk op stabiele extensie onder een enkele prompt, waardoor ze moeilijk om kunnen gaan met interactieve scenario's waarbij prompts worden gewisseld, oude scènes worden vergeten en historische scènes worden herinnerd. Wij identificeren de kernknelpunt als de functionele verstrengeling van historische KV-toestanden: stabiele ankers en recente dynamiek worden door hetzelfde cachebeleid behandeld, wat leidt tot verontreiniging door verouderde achtergronden, vertraagde reactie op nieuwe prompts en verlies van langeafstandsgeheugen. Om dit probleem aan te pakken, stellen wij Echo-Forcing voor, een trainingsvrij scènegeheugenraamwerk dat specifiek is ontworpen voor interactieve generatie van lange video's met drie kernmechanismen: (1) Hiërarchisch Temporeel Geheugen, dat stabiele ankers, gecomprimeerde geschiedenis en recente vensters ontkoppelt onder relatieve RoPE; (2) Scèneherinneringsframes, die historische scènes comprimeren tot ruimtelijk gestructureerde KV-representaties om herinnering op lange termijn te ondersteunen; en (3) Verschilbewust Geheugenverval, dat conflicterende tokens adaptief vergeet op basis van de discrepantie tussen oude en nieuwe scènes. Op basis van deze ontwerpen ondersteunt Echo-Forcing uniform vloeiende overgangen, harde cuts en langeafstandsherinnering van scènes binnen een begrensd cachebudget. Uitgebreide evaluaties op VBench-Long tonen verder aan dat Echo-Forcing de beste algemene prestaties behaalt in zowel lange-videogeneratie als interactieve videogeneratie. Onze code is uitgebracht op https://github.com/mingqiangWu/Echo-Forcing.
De effectiviteit van Reinforcement Learning (RL) in grote taalmodellen (Large Language Models, LLMs) hangt af van de aard en diversiteit van de gegevens die voor en tijdens RL worden gebruikt. In het bijzonder kunnen redeneerproblemen vaak op meerdere manieren worden benaderd, die berusten op verschillende vormen van redeneren, en blootstelling aan slechts een beperkt aantal van dergelijke benaderingen in de trainingsgegevens kan de effectiviteit van RL beperken. Gemotiveerd door dit onderzoeken we het gebruik van diverse zelf-gegenereerde gegevens tijdens mid-training als een tussenstap vóór RL-training. Specifiek hanteren we een bootstrapped datageneratiekader, geleid door de probleemoplossingsbenaderingen van George Polya, om meerdere varianten van correcte antwoorden voor elke vraag in de trainingsgegevens te genereren, en voeren we vervolgens fine-tuning uit. We geven eerst een theoretisch perspectief op hoe mid-training op dergelijke gegevens RL verbetert en leggen uit hoe policy-gradient-updates het combineren van meerdere benaderingen kunnen stimuleren. Vervolgens tonen we empirisch aan dat met RL getrainde modellen, geïnitialiseerd met onze mid-training gegevens, consistente verbeteringen behalen op diverse wiskundige redeneerbenchmarks en andere OOD-taken zoals codegeneratie en verhalend redeneren. Over het geheel genomen toont onze onderzoeksstudie aan dat een taalmodel dat meerdere probleemoplossingsbenaderingen leert via zelf-gegenereerde gegevens, de daaropvolgende RL bevordert.
Naarmate autonome agentische systemen worden opgeschaald in gereguleerde kritieke infrastructuren, ontstaat er een fundamenteel veiligheidstekort door het gebrek aan mechanische, hardware-verankerde handhaving voor hoogfrequente beleidsupdates. We introduceren Ethical Hyper-Velocity (EHV), een nieuw architecturaal raamwerk voor de formele verificatie van AI-governancebeleid tijdens runtime. In tegenstelling tot retrospectieve auditkaders (ISO/IEC 42001, NIST AI RMF) die latenties van 14-30 dagen introduceren, verplaatst EHV het Policy Enforcement Point (PEP) naar de inferentiepijplijn via een Governance-Aware Just-In-Time (JIT) Compiler. Door integratie van Conflict-free Replicated Data Types (CRDT's) voor beleidssynchronisatie en Epoch-based Attestation Caching binnen Trusted Execution Environments (TEE's), bereikt EHV Sub-millisecond Formal Determinism (SMFD). We tonen via TLA+ formele verificatie aan dat niet-conforme agentische acties computationeel onbereikbaar zijn binnen de begrensde operationele toestandsruimte van het systeem. We bewijzen dat O(1)-runtimehandhaving de traditionele afweging tussen implementatiesnelheid en governance-integriteit kan elimineren, waardoor Governance Latentie van O(dagen) naar O(1) wordt teruggebracht.
Chain-of-thought (CoT) is een standaardbenadering voor het ontlokken van redeneervaardigheden aan grote taalmodellen (LLMs). Het gangbare CoT-paradigma beschouwt denken echter als een voorwaarde voor het beantwoorden, wat de toegang tot plausibele antwoorden kan vertragen en onnodige tokenkosten met zich meebrengt, zelfs wanneer het model in staat is een antwoord te identificeren vóór uitgebreid denken – een gedrag dat bekend staat als performatief redeneren. In dit artikel introduceren we CopT, een geherformuleerde redeneerpijplijn die de gebruikelijke volgorde van denken en antwoorden omkeert. In plaats van te denken vóór het antwoorden, ontlokt CopT eerst een conceptantwoord en roept vervolgens een daaropvolgend on-policy denken op, afhankelijk van het eigen conceptantwoord, voor reflectie en correctie. Om te beoordelen of het conceptantwoord vertrouwd kan worden, herschept CopT continue embeddings als inferentietijd-contrastieve verificateurs. Specifiek contrasteert het de ondersteuning van het model voor dezelfde gegenereerde tokens onder discrete-tokeninvoer en continue-embeddinginvoer, wat resulteert in een sequentieniveau-omgekeerde KL-schatter voor antwoordbetrouwbaarheid. Onze analyse toont aan dat, onder bepaalde aannames, de verwachte schatting gelijk is aan de wederzijdse informatie tussen de onopgeloste latente toestand en het gegenereerde antwoordtoken, wat verklaart waarom het antwoordrelevante onzekerheid vastlegt in plaats van willekeurige onzekerheid in de latente toestand. Wanneer het antwoord als onvoldoende betrouwbaar wordt beschouwd, voert CopT verder on-policy denken uit, waarbij een tweede KL-schatter dynamisch de zichtbaarheid van het conceptantwoord regelt, waardoor nuttige gedeeltelijke informatie behouden blijft terwijl het risico op misleiding door onbetrouwbare inhoud wordt verminderd. Bij wiskunde-, codeer- en agentische redeneertaken verbetert CopT de pieknauwkeurigheid met tot 23% en vermindert het het tokenverbruik met tot 57% bij vergelijkbare of hogere nauwkeurigheid, zonder enige extra training. De code is beschikbaar op https://github.com/sdc17/CopT.
Mensen communiceren van nature via abstracte concepten zoals 'stemming'. Huidige benchmarks voor beeldbewerking richten zich echter voornamelijk op expliciete, letterlijke commando's, waardoor abstracte instructies grotendeels onderbelicht blijven. In dit werk formaliseren we eerst de definitie en taxonomie van abstracte beeldbewerking. Om het opvolgen van instructies in dit uitdagende domein te meten, introduceren we Entity-Rubrics, een raamwerk dat abstracte bewerkingen opsplitst in individuele beoordelingen op entiteitsniveau en een sterke correlatie met menselijke beoordeling bereikt. Naast dit raamwerk leveren we AbstractEdit, de eerste benchmark die zich toelegt op abstracte beeldbewerking in diverse realistische scènes. Evaluatie van 11 toonaangevende modellen op deze dataset onthult een fundamentele uitdaging: standaardarchitecturen hebben moeite om intentie en conservering in evenwicht te brengen, en vervallen vaak in onderbewerking of overbewerking. Onze analyse toont aan dat het realiseren van betekenisvolle verbeteringen sterk afhankelijk is van de integratie van geavanceerde LLM-tekstencoders en iteratief denken. Vooruitkijkend kan ons op entiteiten gebaseerde paradigma generaliseren buiten beoordeling om te dienen als een beloningsmodel, modellen in staat stellen abstracte communicatie correct te interpreteren, of specifieke fouten te markeren in kritieklussen tijdens het testen. Uiteindelijk hopen we dat dit werk dient als een opstap naar naadloze multimodale interactie, waarmee de kloof wordt overbrugd tussen rigide machine-uitvoering en de natuurlijke, open manier waarop mensen communiceren.
Backdoor-aanvallen op taalmodellen vormen een groeiend veiligheidsprobleem, maar de interne mechanismen waarmee een triggerreeks de modelberekeningen overneemt, zijn nog slecht begrepen. Wij identificeren een circuit dat ten grondslag ligt aan een taalschakelende backdoor in een autoregressief taalmodel met 8B parameters, waarbij een driedelige Latijnse trigger (negen tokens) de Engelse uitvoer omleidt naar Frans. We ontleden het circuit in drie fasen: (1) verdeelde aandachtskoppen in vroege lagen componeren de triggertokens naar de laatste sequentiepositie; (2) het resulterende signaal plant zich door middelste lagen voort in een subruimte orthogonaal op de natuurlijke taalidentiteitsrichting van het model; (3) de MLP in de laatste laag zet dit latente signaal om in Franse logits. Het volledige circuit stroomt door een serieel knelpunt op één enkele positie: het corrumperen van die positie in elke laag neutraliseert de trigger volledig, maar belemmert ook de capaciteiten van het model. De orthogonale latente codering suggereert dat verdedigingen die zoeken naar taalachtige signalen in tussenliggende representaties deze trigger volledig zouden missen.
Het begrip van meertalige documenten blijft beperkt voor laagbron-talen vanwege schaarse trainingsdata en op modellen gebaseerde annotatiepijplijnen die bestaande vooroordelen in stand houden. We introduceren DocAtlas, een raamwerk dat hooggetrouwe OCR-datasets en benchmarks construeert die 82 talen en 9 evaluatietaken omvatten. Onze dubbele pijplijnen – differentiële rendering van native DOCX-documenten en synthetische op LaTeX gebaseerde generatie voor rechts-naar-links schriften – produceren nauwkeurige structurele annotaties in een uniform DocTag-formaat dat lay-out, tekst en componenttypes codeert, zonder gebruik van aangeleerde modellen voor de kernannotatie. Evaluatie van 16 state-of-the-art modellen toont aanhoudende hiaten in laagbron-schriften aan. We laten zien dat Directe Preferentieoptimalisatie (DPO) met op rendering gebaseerde ground truth als positief signaal een stabiele meertalige aanpassing bewerkstelligt, waarbij zowel de nauwkeurigheid binnen het domein (+1,9%) als buiten het domein (+1,8%) verbetert zonder meetbare achteruitgang van de basistaal, terwijl gesuperviseerde finetuning de prestaties buiten het domein tot 21% verslechtert. Onze beste variant, DocAtlas-DeepSeek, verbetert met +1,7% ten opzichte van de sterkste baseline.
Realtime duplexinteractie is essentieel voor multimodale AI-systemen die in realistische scenario's opereren, waar modellen continu stromende inputs moeten verwerken en op geschikte momenten moeten reageren. De meeste bestaande multimodale grote taalmodellen (MLLM's) worden echter geëvalueerd in offline omgevingen, waarbij de gehele video-invoer wordt verwerkt voordat een reactie wordt gegenereerd. Hoewel recent werk begint met het verkennen van realtime duplex-MLLM's, ontbreekt nog steeds een uitgebreide benchmark of automatische evaluatiemethode voor deze setting. Om deze leemte aan te pakken, stellen we Omni-DuplexEval voor, een benchmark voor het systematisch evalueren van realtime duplexinteractie. De benchmark bestaat uit twee complementaire scenario's: (1) Real-Time Description, dat het vermogen evalueert om continue, tijdsynchrone antwoorden te genereren die de evoluerende multimodale input volgen, en (2) Proactive Reminder, dat het vermogen evalueert om opvallende gebeurtenissen te identificeren en op geschikte momenten te reageren. Omni-DuplexEval bevat 660 video's met fijnmazige, door mensen geannoteerde labels en precieze temporele metadata, verspreid over 9 taken die geworteld zijn in realistische scenario's, waarbij alle vragen als open vragen zijn geformuleerd. We introduceren verder een automatisch evaluatiekader op basis van LLM-as-a-Judge, dat systematische beoordeling mogelijk maakt door zowel de inhoudelijke overeenstemming van de respons als de timing ervan te evalueren via timestamp-bewust en sequentieel redeneren, wat een sterke overeenstemming met menselijke oordelen oplevert. Experimenten met state-of-the-art duplex-MLLM's tonen aanzienlijke beperkingen aan. Het best presterende model behaalt slechts 39,6% algemeen, terwijl het slechts 20,0% scoort op Proactive Reminder. Onze analyse identificeert twee belangrijke uitdagingen: modellen worstelen met het balanceren van tijdige reacties en coherente, holistische inhoudsgeneratie, en ze slagen er vaak niet in zowel te bepalen wanneer te reageren als wat te produceren. We hopen dat ons werk verdere vooruitgang in MLLM's bevordert.
Recent vooruitgang in grote taalmodellen heeft geleid tot de opkomst van redeneermodellen, die sterke prestaties laten zien op complexe taken door gespecialiseerde fine-tuningprocedures. Hoewel deze methoden op betrouwbare wijze de pass@1-nauwkeurigheid verbeteren, hebben eerdere studies waargenomen dat ze een dekkingskrimpgedrag vertonen, waarbij pass@k afneemt ten opzichte van het basismodel. In dit artikel onderzoeken we waarom redeneerkrimp optreedt bij SFT-gebaseerde nabehandelingstraining. We veronderstellen dat dit gedrag wordt gedreven door eigenschappen van de fine-tuninggegevens, met name met betrekking tot beslispunten of 'vorken in de weg'-scenario's waarbij het model wordt geconfronteerd met onontcijferbare patronen met meerdere geldige redeneerpaden. Om deze hypothese te testen, ontwerpen we gecontroleerde casestudies die dergelijke beslispuntinstellingen simuleren, variërend van onontcijferbare knooppunten in graaftakkingen tot redeneermodi. Door de dynamiek na training in deze instellingen te volgen, vinden we dat het krimpfenomeen nauw gecorreleerd is met de prevalentie van beslispuntscenario's in de trainingsdata. We tonen ook aan dat dit krimpgedrag gedeeltelijk kan worden verminderd door gericht ontwerp van gegevenssynthese van beslispunten en een meer systematisch diversiteitsbevorderend decoderingmechanisme. Onze bevindingen identificeren data-gerichte factoren als een belangrijke drijver van krimp in redeneermodellen en benadrukken diversiteitsbewuste ontwerpen als een effectieve hefboom om dit te beheersen.
Het ontwerp van moderne neurale architecturen is geconvergeerd door incrementele empirische keuzes, maar de mechanismen die hun trainingsdynamiek beheersen worden nog slechts gedeeltelijk begrepen. We identificeren en analyseren een negatieve gewichtsverschuiving veroorzaakt door de interactie tussen standaard verliesfuncties en positief vertekende activatiefuncties. We bewijzen dat onder MSE- of cross-entropieverlies de gradiënt met betrekking tot positieve pre-activaties niet-negatief is in verwachting bij initialisatie, wat stroomafwaartse gewichten naar negatieve waarden drijft tijdens vroege training. De verschuiving is intrinsiek aan optimalisatie in plaats van data, en blijft bestaan over architecturen (MLP, ResNet, ViT, GPT-nano, MP-SENe) en asymmetrische activatiefuncties (ReLU, GELU, SiLU). In combinatie met ReLU produceert gewichtsverschuiving activatie-sparsity tot 90% in GPT-nano. We karakteriseren de sparsity-nauwkeurigheid afweging over 79 configuraties en identificeren een scherpe nauwkeurigheidsklif boven ongeveer 70% activatie-sparsity. Hoewel ReLU^2 een goede sparsity-nauwkeurigheidsverhouding bereikt in GPT-nano, versterkt het pathologisch geïdentificeerde activatiepieken in tussentijdse transformerlagen. Clipping lost dit op terwijl de representationele voordelen van kwadrateren behouden blijven: geclipte ReLU^2 presteert beter dan de niet-geclipte versie, en GELU^2 behaalt het laagste validatieverlies op GPT-nano. Code is beschikbaar op https://github.com/On-Point-RND/BugOrFeature.
Grote taalmodellen (LLM's) zijn zeer vatbaar voor backdoor-aanvallen (BA's), waarbij trainingsvoorbeelden worden vergiftigd met trigger-gebaseerde schadelijke inhoud. Bovendien blijken bestaande verdedigingen ineffectief wanneer ze uitgebreid worden getest op verschillende BA-patronen. Om BA's beter te bestrijden, onderzoeken we het gebruik van LLM-herschrijving als een proactieve verdediging tegen gegevensvergiftiging. Ten eerste tonen we theoretisch aan dat wanneer LLM-herschrijving gebruikmaakt van open-boek goedaardige voorbeelden—aangeduid als open-boek goedaardige herschrijving (OBBR)—de kans dat een herschreven uitvoer goedaardig is strikt groter is dan bij gesloten-boek herschrijving. Zo neutraliseert OBBR schadelijke inhoud door trainingsvoorbeelden te projecteren naar de ruimte van goedaardige prompts. Vervolgens laten we zien dat, in tegenstelling tot eerdere verdedigingen, OBBR een groot aantal bestaande BA's effectief beperkt: over vijf bekende BA's en vier veelgebruikte LLM's verbetert OBBR de veiligheidsprestaties met gemiddeld 51% vergeleken met state-of-the-art BA-verdedigingen en 25,7% vergeleken met gesloten-boek herschrijvingsmethoden. Tot slot tonen we aan dat OBBR rekenefficiënt is in vergelijking met andere BA-verdedigingen, de modelprestaties op natuurlijke taalverwerkingstaken na fine-tuning niet vermindert, en in staat is om niet-trigger-gebaseerde gegevensvergiftigingsaanvallen af te weren.
Nu AI-gegenereerde tekst op grote schaal de echte wereld binnenkomt, maken instellingen steeds vaker gebruik van commerciële AI-tekstdetectoren, met name in onderwijs- en academische-integriteitsworkflows. Wij rapporteren een verrassende empirische bevinding over dergelijke systemen: wanneer geëvalueerd door GPTZero en Pangram, wordt gegenereerde tekst van basismodellen vaak overweldigend als menselijk beoordeeld, terwijl tekst gegenereerd door hun instructie-afgestemde tegenhangers dat niet is. Voortbouwend op deze observatie stellen wij Humanisering door Iteratieve Parafrasering (HIP) voor, een detector-agnostische pijplijn die een basismodel minimaal fijnafstemt tot een parafraseur en deze iteratief toepast. Vergeleken met de basislijnen die wij testen, levert HIP een sterkere afweging op tussen semantisch behoud en detectorontwijking bij commerciële detectoren. Over de Llama-3- en Qwen-3-families heen, met modelgroottes van 0,6B tot 70B, verbetert HIP consequent de detectormenselijkheidsgraad. Onze bevindingen suggereren dat huidige detectoren artefacten van instructie-afstemming en lokale context volgen, meer dan enige invariante notie van machine-gegenereerde tekst. Dit roept op zijn beurt op tot detectorenontwerpen die deze factoren explicieter modelleren.
Dit standpuntdocument stelt dat conferenties op het gebied van computerwetenschappen manipulatiebestendige, niet-verloochenbare attestaties van experimentele resultaten moeten vereisen. We benoemen het onderliggende probleem als experimentniet-verloochenbaarheid: een overeenkomstig protocol moet de getallen in een artikel binden aan een daadwerkelijk uitgevoerde berekening op een manier die de auteur later niet kan wijzigen of ontkennen. Het huidige systeem vertrouwt op zelfgerapporteerde checklists, optioneel delen van code en door de auteur gecontroleerde logging. Geen van deze mechanismen beantwoordt de vraag die een reviewer niet kan controleren: heeft de code die in het artikel wordt beschreven, de getallen opgeleverd die het artikel rapporteert? We definiëren het probleem formeel, stellen de beveiligingseigenschappen vast waaraan elk overeenkomstig protocol moet voldoen en beschrijven een dreigingsmodel dat aanvallen omvat die huidige benaderingen niet voorkomen. Om aan te tonen dat het probleem oplosbaar is, hebben we K-Veritas gebouwd, een referentie-implementatie in Go die ondertekende rapporten produceert zonder toegang tot trainingsdata. K-Veritas is een testomgeving, geen definitief antwoord. We roepen conferenties en de gemeenschap op om niet-verloochenbaarheid te behandelen als een eersteklas vereiste en te helpen bij het bouwen van een open, onafhankelijke standaard hiervoor.
Gelijktijdige LLM-agenten die veranderlijke natuurlijke-taaltoestand delen, veroorzaken Structurele Racecondities (SRC's): schrijf-schrijf- en cross-shard verouderde-leesconflicten die de uitvoer van agenten stilzwijgend beschadigen. Bestaande multi-agent frameworks (LangGraph, CrewAI, AutoGen) bieden geen schrijfeigendomssemantiek voor gedeelde toestand. We presenteren S-Bus, een HTTP-middleware waarvan het centrale mechanisme een server-side DeliveryLog is: een per-agent log van HTTP GET-operaties die automatisch de leesset van elke agent op commit-tijd reconstrueert, zonder aanpassingen aan de agent-SDK, onder HTTP/1.1. De consistentie-eigenschap die de DeliveryLog biedt – Observable-Read Isolatie (ORI), een partiële causale consistentie over de HTTP-waarneembare projectie van de leesset – voorkomt structurele racecondities wanneer agenten samenwerken via gedeelde shards. Drie bijdragen: (C1) Het DeliveryLog-mechanisme voor automatische, op HTTP-verkeer gebaseerde leessetreconstructie, met drielaags mechanisch bewijs: ReadSetSoundness en ORICommitSafety machine-geverifieerd in TLAPS (op één behouden typeringsaxioma na); uitgebreide TLC op N=3 (20.763.484 verschillende toestanden, nul overtredingen); Dafny bewijst 9 inductieve correctheidslemma's. (C2) Empirische pariteit in preventie van structurele conflicten ten opzichte van PostgreSQL 17 SERIALIZABLE en Redis 7 WATCH/MULTI bij gedeelde-shard-contentiesweeps met 427.308 actieve HTTP-409 conflicten: nul Type-I-corrupties voor alle drie de backends. (C3) ORI's operationele bereik is topologie-afhankelijk: semantisch neutraal in workloads met speciale shards; schadelijk bij gezamenlijk schrijven op een enkele shard omdat het behoud gelijktijdige tegenstrijdigheden propageert. Broncode: https://github.com/sajjadanwar0/sbus
Microsimulatiemodellen die door ministeries van Financiën en centrale banken worden gebruikt, vertrouwen op paramethische processen voor levenslange inkomens die alleen de eerste en tweede momenten van de conditionele verdeling vastleggen en niet-lineaire structuur op lange termijn missen. Wij stellen SAGA voor, een decoder-only transformer voor onregelmatige tabellaire panelsequenties, gekoppeld aan een split conformal calibratiewrapper die individuele voorspellingsintervallen oplevert met marginale dekkingsgaranties voor eindige steekproeven. Het model is getraind op het longitudinale Zweedse LISA-register van 1990 tot 2022, met 2.143.817 individuen en 61.284.903 persoonsjaren, en voorspelt jaarlijkse arbeidsinkomens op termijnen van één tot dertig jaar, die via Monte Carlo worden geaggregeerd tot contant gemaakte verdelingen van levenslange inkomens. In vergelijking met het canonieke paramethische proces van Guvenen, Karahan, Ozkan en Song en met tabellaire en recurrente basislijnen, vermindert SAGA de continue gerangschikte waarschijnlijkheidsscore met 31,9 procent op de tienjaarstermijn en de gemiddelde absolute fout met 37,7 procent op de twintigjaarstermijn. Conforme intervallen bereiken nominale dekking binnen 0,4 procentpunt marginaal en binnen 2,4 procentpunt voor de demografische subgroep met het slechtste resultaat. De gereconstrueerde Gini-coëfficiënt voor levenslange inkomens bedraagt 0,327 tegenover de gedeeltelijk waargenomen werkelijke waarde van 0,341 en de GKOS-schatting van 0,378. Modelgewichten, calibratietabellen en een synthetische equivalente dataset worden vrijgegeven voor replicatie buiten de beschermde SCB MONA-omgeving.
We identificeren intrinsieke beperkingen van Rotary Positional Embeddings (RoPE) in op Transformers gebaseerde taalmodellen voor lange contexten. Onze theoretische analyse abstraheert van de specifieke inhoud van de context en hangt alleen af van de lengte ervan. We bewijzen dat naarmate de contextlengte toeneemt, de op RoPE gebaseerde aandacht onvoorspelbaar wordt en twee eigenschappen verliest die centraal staan in de effectiviteit ervan. Ten eerste verliest het zijn lokaliteitsbias: RoPE heeft niet langer een grotere kans om nabijgelegen posities te bevoordelen boven aanzienlijk verder weg gelegen posities. Ten tweede verliest het consistentie in tokenrelevantie: een sleutelvector die op de ene positie een hogere aandachtscore krijgt dan een alternatief, kan op een andere positie een lagere score krijgen. In beide gevallen nadert de kans op falen 0,5, niet beter dan willekeurig gokken. We bewijzen verder dat de aandachtscore onveranderd kan blijven wanneer een sleuteltoken naar een andere positie wordt verplaatst, of zelfs wordt vervangen door een ander token, wat wijst op een falen om posities of tokens te onderscheiden. Het aanpassen van de RoPE-basis weegt het onderscheiden van posities af tegen het onderscheiden van tokens, maar kan niet beide tegelijk behouden. Het verhogen van de RoPE-basis hyperparameter, een gangbare praktijk in hedendaagse modellen voor lange contexten, helpt om verschillende tokens te onderscheiden, maar offert onvermijdelijk het vermogen om posities te onderscheiden op. Onze empirische analyse toont aan dat multi-hoofd, multi-laag architecturen onvoldoende zijn om deze beperkingen te overwinnen. Onze bevindingen suggereren dat fundamenteel nieuwe mechanismen voor het coderen van positie en tokenvolgorde nodig kunnen zijn in toekomstige op Transformers gebaseerde taalmodellen voor lange contexten.