Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Moderne beeldgeneratie vereist een enkel model dat diverse mogelijkheden verenigt, waaronder tekst-naar-beeld (T2I), lokale bewerking en globale bewerking. Deze mogelijkheden zijn echter zelden van nature op elkaar afgestemd en conflicteren vaak. Bewerking heeft bijvoorbeeld de neiging de T2I-prestaties te verminderen, terwijl globale en lokale bewerking elkaar verstoren. Bijgevolg is het effectief combineren van deze mogelijkheden een centrale uitdaging geworden voor de training van beeldgeneratiemodellen. Om dit aan te pakken introduceren we DanceOPD, een on-policy generatief velddestillatieframework voor stroommatchingmodellen dat elk monster naar één capaciteitsveld leidt, één laag-ruis student-geïnduceerde toestand opvraagt en traint met een eenvoudige snelheids-MSE-doelstelling. Met elke capaciteitsbron gedefinieerd als een snelheidsveld over de gedeelde stroomtoestandsruimte, leert de student van velden die zijn opgevraagd op zijn eigen uitroltoestanden om expertcapaciteiten samen te stellen. Deze formulering absorbeert ook operator-gedefinieerde velden zoals classifier-vrije begeleiding. Uitgebreide experimenten op T2I, bewerking, realisme-veldabsorptie en CFG-absorptie tonen aan dat onze aanpak de multi-capaciteitssamenstelling verbetert, doelcapaciteiten versterkt terwijl de anker-generatiekwaliteit behouden blijft. Wij geloven dat dit werk een praktische route vestigt voor generatieve velddestillatie in stroommatchingmodellen.
Een uniforme representatie voor tekst en visuele waarneming is een natuurlijke ambitie, omdat het eenvoudigere multimodale modellering en efficiëntere training mogelijk maakt. Het representeren van beelden als discrete signalen op dezelfde manier als tekst leidt echter onvermijdelijk tot ernstig informatieverlies. Bestaand werk worstelt met het balanceren van details op laag niveau en semantiek op hoog niveau in discrete representaties: reconstructiegerichte representaties missen vaak semantische informatie, terwijl semantisch sterkere kenmerken doorgaans lijden onder ernstig detailverlies. Wij presenteren ViQ, een raamwerk voor visuele gekwantiseerde representaties, dat is ontworpen om semantiek en details in discrete representaties in evenwicht te brengen, terwijl het invoer op native resoluties ondersteunt, waardoor het kan dienen als een uniforme en algemene discrete representatie voor willekeurige visuele invoer. Onze benadering structureert het leren van kwantisatie in twee fasen: tekst-uitgelijnde vooropleiding en kenmerkdiscretisatie. Met tekst-uitgelijnde vooropleiding versterken we de semantisch rijke supervisie van de visuele encoder afkomstig van het voorgetrainde taalmodel en stellen we deze in staat om visuele invoer op native resolutie te verwerken. Tijdens discretisatie stellen we een proximale representatieleerstrategie voor om de kenmerkruimte geleidelijk compacter te maken, samen met een positiebewuste hoofdgewijze kwantiseringsmechanisme dat flexibele verwerking van willekeurige resoluties mogelijk maakt. Uitgebreide experimenten met multimodale taken tonen aan dat ViQ concurrerende prestaties behaalt vergeleken met state-of-the-art multimodale visuele encoders met continue en hoog-dimensionale visuele kenmerken, terwijl het een hoge precisie behoudt bij reconstructie op laag niveau. We laten ook zien dat multimodale training met visuele gekwantiseerde representaties de efficiëntie aanzienlijk verbetert, wat leidt tot een versnelling tot 20%-70% bij verschillende basis-LLM's en trainingsrecepten.
Uitkomstgebaseerd versterkend leren biedt een stabiele optimalisatieruggengraat voor taalagenten, maar de schaarse beloningen op trajectniveau geven weinig richting over welke tussentijdse beslissingen versterkt of onderdrukt moeten worden. On-policy zelfdistillatie biedt dichte supervisie op tokenniveau, maar bestaande vaardigheidsgeconditioneerde varianten zijn vaak afhankelijk van externe vaardigheidsgeheugens of opgehaalde bevoorrechte context, die kostbaar zijn om te onderhouden en niet kunnen overeenkomen met de toestandsverdeling die door het huidige beleid in meer-ronde interactie wordt geïnduceerd. Wij stellen OPID (On-Policy Skill Distillation) voor, een raamwerk dat vaardigheidssupervisie rechtstreeks extraheert uit voltooide on-policy trajecten. OPID vertegenwoordigt trajectterugblik als hiërarchische vaardigheden: vaardigheden op episodeniveau leggen globale workflows of faalvermijdingsregels vast, terwijl vaardigheden op stapniveau lokale beslissingskennis op kritieke tijdstippen vastleggen. Een kritiek-eerst routeringsmechanisme gebruikt vaardigheden op stapniveau wanneer kritieke beslissingen worden geïdentificeerd en valt anders terug op vaardigheden op episodeniveau als standaardrichtlijn. De geselecteerde vaardigheid wordt geïnjecteerd in de interactiegeschiedenis, waardoor het oude beleid dezelfde bemonsterde reactie opnieuw kan scoren onder zowel de originele als de vaardigheids-augmenteerde contexten. De resulterende log-kansverschuiving levert een token-niveau zelfdistillatievoordeel op, dat wordt gecombineerd met het uitkomstvoordeel voor beleidsoptimalisatie. OPID behoudt dus RL als het primaire trainingsdoel terwijl het dichte, distributie-gematchte terugbliksupervisie introduceert. Experimenten op ALFWorld, WebShop en zoekgebaseerde QA tonen aan dat OPID over het algemeen de prestaties van agenten, de steekproefefficiëntie en de robuustheid verbetert ten opzichte van alleen-uitkomst RL en bestaande vaardigheidsdistillatie-baselines. Onze code is beschikbaar op https://github.com/jinyangwu/OPID/tree/main.
Hoewel tekst-naar-beeld (T2I)-modellen opmerkelijke vooruitgang hebben geboekt, worstelen ze met realistische verzoeken die vaak onvoldoende gespecificeerd, impliciet of afhankelijk van actuele kennis zijn. Wij identificeren deze uitdaging als de Contextkloof: de mismatch tussen de gebruikerscontext en de toereikende generatiecontext voor T2I-modellen. Om deze kloof te overbruggen, stellen we Qwen-Image-Agent voor, een uniform agentisch raamwerk dat plan, redenering, zoekopdracht, geheugen en feedback integreert op een contextgerichte manier. Qwen-Image-Agent behandelt gebruikersinvoer als gedeeltelijke context en bouwt de generatiecontext stapsgewijs op door middel van Contextbewuste Planning en Contextverankering. Specifiek identificeert Contextbewuste Planning ontbrekende context en plant hoe deze moet worden verworven en gebruikt, terwijl Contextverankering deze context verzamelt via redenering, zoekopdracht, geheugen en feedback. Om agentische beeldgeneratie te evalueren, introduceren we verder Image Agent Bench (IA-Bench), een benchmark die vier kerncapaciteiten van beeldagenten dekt: Plannen, Redeneren, Zoeken en Geheugen. Experimenten op IA-Bench, Mindbench en WISE-Verified tonen aan dat Qwen-Image-Agent sterke basislijnen overtreft en state-of-the-art prestaties levert.
Een klassieke intuïtie stelt dat het verifiëren van een oplossing gemakkelijker is dan het produceren ervan. Voor de huidige codeeragenten wordt deze intuïtie omgekeerd: naarmate funderingsmodellen sterkere redeneervaardigheden ontwikkelen en technische hulpmiddelen geavanceerder worden, is het genereren van complexe kandidaat-oplossingen niet langer moeilijk – het betrouwbaar verifiëren ervan is het moeilijkere probleem geworden. Elke verificateur die we kunnen bouwen, is slechts een proxy voor menselijke intentie, nooit de intentie zelf. Dit maakt verificatie onderhevig aan een tweeledige moeilijkheid: ten eerste is intentie van nature onderbepaald, waardoor het inherent lastig is om trouw te controleren of deze is vervuld; ten tweede vergroot optimalisatie tijdens modeltraining de kloof tussen proxy en intentie – wat zich manifesteert als beloningshacking of signaalverzadiging. Om dit aan te pakken, karakteriseren we de kwaliteit van verificatiesignalen langs drie dimensies – schaalbaarheid, getrouwheid en robuustheid – en stellen we dat het gelijktijdig bereiken van alle drie de centrale uitdaging vormt. Verder bestuderen we vier beloningsconstructies: een testverificateur voor algemene codeertaken, een rubriekverificateur voor frontendtaken, de gebruiker als verificateur voor realistische agenttaken, en een geautomatiseerde agentverificateur voor langetermijntaken. Over verschillende taaktypen en beleidsvaardigheidsniveaus voeren we diepgaande analyses en experimenten uit naar de kernuitdagingen van beloningsontwerp en hoe beloningssignalen effectiever kunnen worden benut. Experimenten tonen aan dat gericht verificatieontwerp beloningshacking effectief kan onderdrukken, de taakafrondingskwaliteit kan verbeteren en significante winsten kan opleveren op meerdere interne en openbare benchmarks. Deze ervaringen wijzen gezamenlijk op een kerntaak: geen vaste beloningsfunctie kan effectief blijven naarmate de beleidsvaardigheid blijft groeien; en verificatie moet co-evolueren met de generator.
Speculatieve decodering (SD) versnelt autoregressieve Grote Taalmodellen (LLM's) door meerdere tokens te genereren en deze parallel te verifiëren, maar kent een schaalbaarheidsbeperking: het verhogen van het conceptbudget versnelt alleen wanneer de acceptatie hoog blijft en de conceptoverhead laag blijft. Dit plafond is moeilijk te doorbreken omdat eerdere op koppen gebaseerde SD-methoden een causaliteit-efficiëntiedilemma kennen. Autoregressieve conceptgeneratoren produceren pad-geconditioneerde kandidaten die effectief zijn voor boom-speculatieve decodering met een hogere acceptatielengte, maar hun conceptkosten stijgen met de boomdiepte. Bidirectionele blokdiffusie-conceptgeneratoren genereren alle posities in één doorgang, maar hun tak-agnostische marginalen kunnen afzonderlijk plausibele maar onderling inconsistente bomen vormen, wat budget verspilt en de acceptatie vermindert. Wij stellen JetSpec voor, een op koppen gebaseerd SD-raamwerk dat de efficiëntie van eenmalige voorwaartse conceptgeneratie combineert met takgewijze causale conditionering. JetSpec traint een causale parallelle conceptkop over gefuseerde verborgen toestanden van het bevroren doelmodel, waardoor kandidaatbomen worden geproduceerd waarvan de scores overeenkomen met de autoregressieve factorisatie van het doelmodel. Hierdoor kan JetSpec grotere conceptbudgetten omzetten in langere geaccepteerde voorvoegsels en een hogere end-to-end-versnelling. Op wiskunde-, codeer- en chatbenchmarks met dichte en MoE Qwen3-modellen presteert JetSpec consequent beter dan bidirectionele kop- en boomgebaseerde SD-basislijnen. Op H100-GPU's behaalt JetSpec tot 9,64x versnelling op MATH-500 en 4,58x op open conversatiewerklasten, met verdere latentiewinst aangetoond via vLLM-integratie onder realistische serverbelastingen. Onze code en modellen zijn beschikbaar op https://github.com/hao-ai-lab/JetSpec.
Computergebruikagenten kunnen softwaretaken uitvoeren via zowel grafische interfaces als programmatische opdrachtinterfaces, maar bestaande evaluaties vertroebelen de interactiemodaliteit met verschillen in taken, begintoestanden, verificatoren en toegestane acties. We introduceren een gematchte benchmark op uitvoeringsniveau van 440 desktoptaken verdeeld over 18 toepassingen en 12 workflowcategorieën, waarbij alleen-scherm GUI-agenten en vaardigheidsbemiddelde CLI-agenten identieke doelen, toestanden en eindtoestandsverificatoren krijgen, terwijl ze beperkt zijn tot modaliteitseigen acties. In deze gecontroleerde setting behaalt de sterkste GUI-agent een volledig slagingspercentage van 59,1%, beter dan de sterkste CLI-agent met oorspronkelijke vaardigheden op 48,2%; echter, verificator-geleide vaardigheidsaugmentatie verhoogt het CLI-succes naar 69,3%, wat aantoont dat een groot deel van het CLI-tekort het gevolg is van onvolledige vaardigheidsdekking in plaats van alleen modelcapaciteit. Deze resultaten suggereren dat GUI en CLI verschillende uitvoeringsknelpunten blootleggen: GUI-agenten worden beperkt door betrouwbare gegronde interactie over workflows met een lange horizon, terwijl CLI-agenten worden beperkt door de dekking en schaalbaarheid van hun vaardigheidsinterfaces.
Joint-Embedding Predictive Architectures (JEPAs), waaronder het recente LeWorldModel (LeWM), zijn een veelbelovend fundament geworden voor reconstructievrije visuele wereldmodellen. Voor visuele planning evalueert LeWM echter kandidaat-actiereeksen door herhaaldelijk een lokaal eenstaps latent overgangsmodel toe te passen. Deze autoregressieve uitrol maakt planning computationeel duur en stelt de voorspelde trajectorie bloot aan opgehoopte latente fouten naarmate de horizon groeit. Wij stellen Fast LeWorldModel (Fast-LeWM) voor, een snel latent wereldmodel dat herhaalde lokale uitrol vervangt door actie-prefix-voorspelling. Gegeven de huidige latente toestand en een kandidaat-actiereeks, codeert Fast-LeWM de prefixen en voorspelt parallel de toekomstige latente toestanden die worden bereikt na het uitvoeren van die prefixen. Door actie-prefixen de basale voorspellingseenheid te maken, modelleert Fast-LeWM direct de effecten van acties die over meerdere horizonten in verschillende mate zijn geaccumuleerd. Dit prefix-niveau toezicht dwingt het model om te leren hoe toestanden continu evolueren onder verschillende actie-prefixen, in plaats van alleen eenstaps toestandsovergangen te fitten. Tijdens planning kan de voorspeller het laatste prefix-token uit de gecodeerde actiereeks gebruiken om de corresponderende toekomstige latente toestand te evalueren zonder expliciet door elke tussentijdse voorgestelde toestand te rollen. Over meerdere taken verbetert Fast-LeWM het gemiddelde succes ten opzichte van LeWM, terwijl de plantijd aanzienlijk wordt verminderd, wat leidt tot een lager open-lus latent verlies waarvan de groei significant langzamer wordt naarmate de uitrolhorizon toeneemt.
Het gebruik van hulpmiddelen stelt grote taalmodellen (LLM's) in staat om complexe taken uit te voeren, en recente agentische versterkingsleren (RL) methoden tonen veelbelovend voor het verbeteren van modelcapaciteiten. Echter, RL alleen leidt vaak tot instabiliteit of beperkte winst in toolgebruikstaken. In onze experimenten vertonen sommige modellen catastrofale ineenstorting, waarbij de prestaties abrupt dalen en toolaanroepstructuren falen. De analyse onthult dat deze fouten voortkomen uit onverwachte kanspieken in specifieke control tokens, wat de gestructureerde uitvoering verstoort, maar de onderliggende toolgebruikcapaciteit blijft intact, slechts verduisterd door specifieke formaten. Om dit aan te pakken, onderzoeken we systematisch een diverse set van supervisiesignalen, waaronder off-policy supervisie, hint-gebaseerde begeleiding, supervisie met foutieve voorbeelden, en andere, toegepast onder zowel synchrone als interleaved trainingsschema's. We vinden dat het interleaven van supervised fine-tuning (SFT) met RL de stabiliteit aanzienlijk verbetert, maar verminderde prestaties vertoont onder format- en inhoud out-of-distribution (OOD) evaluatie. We analyseren ook de impact van leersnelheden en generalisatie over instellingen. Deze resultaten benadrukken het belang van het begrijpen van RL-fouten en tonen aan hoe diverse supervisiesignalen verkennend leren kunnen begeleiden, wat robuuste training van LLM's voor complexe, meerstap toolgebruikstaken mogelijk maakt. Onze code is beschikbaar op https://github.com/hypasd-art/Tool-RL-Box.
Terwijl agentische systemen blijven evolueren en op grote schaal worden ingezet in real-world scenario's, groeit de behoefte om hun capaciteiten nauwkeurig te evalueren. Huidige benchmarks zijn echter doorgaans gebaseerd op populaire toepassingen met relatief eenvoudige taken en richten zich op een beperkt aantal vaardigheden, terwijl bredere dimensies over het hoofd worden gezien. Dit leidt tot verzadigde prestaties op moderne agenten en slaagt er niet in hun beperkingen bloot te leggen. Daartoe introduceren wij GauntletBench, een webgebaseerde benchmark voor het evalueren van generalisatie van agenten in uitdagende scenario's, met de nadruk op drie onderbelichte vaardigheden (temporele perceptie, grafisch begrip en 3D-redenering), verspreid over vijf minder behandelde professionele toepassingen (Video Editor, Workflow Builder, 3D Modeller, Flight Analyser en Circuit Designer), elk met 20 visueel intensieve taken (in totaal 100). Onze benchmark biedt een modulaire pijplijn die bestaat uit een omgeving die compatibel is met zowel open- als closed-source agentframeworks, een gecontroleerde webgebaseerde toepassing, een goed gestructureerde taakset en een geautomatiseerde evaluatie-engine met diverse metrieken. In tegenstelling tot wijdverbreide verwachtingen tonen onze empirische resultaten aan dat geavanceerde agentische systemen nog ver verwijderd zijn van het bereiken van prestaties op menselijk niveau. Zelfs de state-of-the-art agent behaalt slechts een slagingspercentage van 19,1% op onze GauntletBench, wat de beperkingen in deze over het hoofd geziene vaardigheden en generalisatie benadrukt. Ter vergelijking: niet-expert menselijke annotatoren behalen meer dan 80% succes op onze uitdagende maar haalbare taken, wat de aanzienlijke kloof blootlegt tussen de huidige agentcapaciteiten en de vereisten voor complexe real-world scenario's.
Het gangbare dual-branch-paradigma, d.w.z. het trainen van een zijnetwerk om visuele condities te coderen en de kenmerken uit tussenliggende lagen samen te voegen met een bevroren voorgetraind hoofdnetwerk, heeft opmerkelijk succes getoond in visueel-conditionele aansturende generatie. Ondanks de wijdverbreide toepassing ervan, blijven de rol van de zijtak en de trainingsefficiëntie ervan onderbelicht. In dit artikel herzien we eerst dit gangbare paradigma door de lens van score-gebaseerde generatieve modellering: 1) Het hoofdnetwerk behoudt visuele perceptuele kwaliteit door een eerdere onvoorwaardelijke score te bieden. 2) Het zijnetwerk stuurt conditionele controle aan door impliciet bij te dragen aan een waarschijnlijkheidsscore. Geleid door dit perspectief stellen we Likelihood Score Alignment (LISA) voor, een effectieve regularisatiemethode die de tussenliggende kenmerken van het zijnetwerk expliciet uitlijnt met een benaderde waarschijnlijkheidsscore. Specifiek haken we eerst kenmerken uit een aangewezen laag van het zijnetwerk en projecteren deze naar de score-latente ruimte via een lichtgewicht decoder. Vervolgens construeren we een benaderde waarschijnlijkheidsscore-doelwaarde en berekenen we de afstand tussen de output van de decoder en dit doel als een extra regularisatieverlies. Ten slotte optimaliseren we gezamenlijk het zijnetwerk en de decoder met zowel standaard diffusieverlies als ons regularisatieverlies. Experimenten op verschillende beeld-/videotaken, architecturen en diffusie-/stroommodellen toonden aan dat LISA niet alleen consistent de trainingsconvergentie versnelt en de uiteindelijke synthetische resultaten verbetert, maar ook de kenmerken van het zijnetwerk meer ontward aanmoedigt voor conditionele modellering, met verwaarloosbare extra trainingskosten en nul extra inferentiekosten.
Videoredeneren-taalmodellen gaan impliciet uit van een gelijke betrouwbaarheid van elk invoerframe. Dit leidt tot wat wij het Blind Trust Probleem noemen: onder realistische verstoringen zoals bewegingsonscherpte, schittering of occlusie kunnen geavanceerde videoredeneringsmodellen een nauwkeurigheidsdaling van 15–30%p vertonen op real-world embodied benchmarks, terwijl ze zich er niet van bewust zijn dat hun visuele bewijs is aangetast. Om deze uitdaging aan te pakken, stellen wij Robust-TO voor, een agentisch videobegripsframework dat per-frame betrouwbaarheid expliciet integreert in elke fase van de redenering. Robust-TO organiseert heterogene visuele perceptiehulpmiddelen onder een uniforme bewijsinterface. Elk hulpmiddel ontvangt een subvraag, afgeleid van de oorspronkelijke vraag, en een set betrouwbare frames, geselecteerd op basis van de betrouwbaarheid-relevantiescore. Het retourneert bewijs in een gedeeld formaat: een concrete voorspelling (bijv. een begrenzingskader, bewegingsbaan, herkende tekst of actielabel), temporele verankering en een gekalibreerde betrouwbaarheidsscore. Tijdens het redeneren sturen deze gekalibreerde scores de weging van bewijs in een drielagig syntheseproces (hoog/midden/laag) en definiëren ze een confidence-cost GRPO-beloning die zowel correctheid, bewijsbetrouwbaarheid als efficiëntie optimaliseert. Op twee videoredeneringsbenchmarks die acht taken omvatten, behaalt Robust-TO een gemiddelde nauwkeurigheid van 56,4% op schone invoer, waarmee het de sterkste open-sourcebaseline met 10,6%p overtreft en Gemini-2.5-Pro (46,2%) verslaat. Onder vijf realistische corruptietypen handhaaft Robust-TO een gemiddelde nauwkeurigheid van 54,3%, 5,8%p boven de sterkste open-sourcebaseline, terwijl het de kleinste nauwkeurigheidsdaling van schoon naar gecorrumpeerd vertoont van alle vergeleken methoden.
Moderne Visie-Taal-Actie (VTA)-modellen falen vaak in het generaliseren naar nieuwe opstellingen, zoals gewijzigde camerastandpunten of robotmorfologieën, omdat ze doorgaans alleen worden geconditioneerd op huidige waarnemingen en taalopdrachten. Door de onderliggende systeemconfiguratie als variabele te negeren, veronderstellen deze modellen impliciet een vaste uitvoeringscontext zoals die tijdens de training werd aangetroffen, wat data-intensieve fijnafstemming vereist voor elke nieuwe omgeving. In dit werk introduceren we In-Context Wereldmodellering (ICWM), een raamwerk dat systeemidentificatie behandelt als een in-context adaptatieprobleem. ICWM stelt robotbeleidsregels in staat om autonoom essentiële systeemvariabelen af te leiden uit een korte geschiedenis van zelf gegenereerde, taak-agnostische interacties. In tegenstelling tot traditioneel In-Context Leren, dat demonstraties gebruikt om te specificeren welke taak moet worden uitgevoerd, benut ICWM de contextvenster om te begrijpen hoe het systeem werkt. Door deze interacties voor de taakuitvoering te verwerken, legt het model impliciet de werelddynamiek van het huidige systeem vast, waardoor aanpassing aan nieuwe configuraties mogelijk is zonder parameterupdates. Uitgebreide experimenten in simulatie en op echte robotplatforms tonen aan dat ICWM significant beter presteert dan standaard VTA-basismodellen bij nieuwe camerastandpunten.
Naarmate LLM-agenten in staat worden gesteld om steeds langdurigere taken uit te voeren, wordt het evalueren van hun prestaties in economische systemen steeds belangrijker. In tegenstelling tot bestaande benchmarks, die voornamelijk een enkele agent evalueren die interactie heeft met een passieve omgeving, zijn economische systemen inherent multi-agent: ze vereisen dat autonome agenten communiceren, onderhandelen en transacties uitvoeren terwijl ze gedurende langere perioden hun eigen doelen nastreven. Wij introduceren CoffeeBench, een benchmark voor het evalueren van LLM-agenten in een langetermijn multi-agent economie bestaande uit heterogene bedrijven. In CoffeeBench runnen twee boeren, twee branders en twee detailhandelaren gedurende een simulatie van 90 dagen autonoom hun bedrijven, waarbij elk streeft naar maximalisatie van het cumulatieve netto-inkomen door communicatie en transacties, met beheer van kas, voorraad en prijsstelling. Het geëvalueerde model bestuurt één koffiebrander, terwijl de overige bedrijven worden aangestuurd door vaste referentie-agenten. Bij verschillende recente open-weight en propriëtaire LLM's presteren alle modellen beter dan een passieve basislijn die geen acties onderneemt, waarbij de meeste een positief netto-inkomen behalen. Analyse van het agentengedrag toont aanzienlijke verschillen aan in economische interactie op de lange termijn: beter presterende modellen communiceren actiever met andere bedrijven, terwijl Claude Haiku 4.5 een stationaire-afdrijvingsfoutmodus vertoont, waarbij herhaaldelijk voor inactiviteit wordt gekozen ondanks het produceren van coherente beoordelingen en plannen. Wij maken onze code en agenttrajecten openbaar om toekomstig onderzoek te ondersteunen.
Moderne generatieve wereldmodellen produceren steeds realistischer actie-controleerbare toekomsten, maar hallucineren vaak: uitrolsessies blijven visueel vloeiend terwijl ze afwijken van de werkelijke dynamiek. Wij veronderstellen dat hallucinatie geconcentreerd is in gebieden met een lage dekking van de toestand-actieruimte, waar lichtgewicht data-gedreven signalen zowel de detectie ervan als de mitigatie kunnen sturen. Om dit te testen introduceren we MMBench2, een dataset van 427 uur en 210 taken voor visuele wereldmodellering met werkelijke acties, beloningen en live simulatoren, en trainen we een wereldmodel met 350M parameters erop. We identificeren drie verschillende hallucinatiemodi: perceptueel, actie-gemarginaliseerd en scène-afwijkend — elk verankerd in een andere fase van de pijplijn, en ontwikkelen drie signalen die nauwkeurig voorspellen waar het model zal falen. Om dekkingsgaten tijdens de training te dichten, ontwikkelen we een dekkingsbewuste samplingtechniek; om ze online te dichten, dienen onze hallucinatievoorspellers als nieuwsgierigheidsbeloningen voor gerichte dataverzameling, wat leidt tot een data-efficiënte finetuning-receptuur die het voorgetrainde wereldmodel aanpast aan volledig onbekende omgevingen met slechts 50 echte omgevingstrajecten. Over het geheel genomen onthullen onze bevindingen dat hallucinatie in wereldmodellen inherent een probleem van datadekking is, en dat dezelfde signalen die gebruikt worden om het te detecteren ook gebruikt kunnen worden voor mitigatie. Een interactieve webversie van ons artikel is beschikbaar op https://www.nicklashansen.com/mmbench2
We presenteren PhysiFormer, een diffusietransformator voor fysiek plausibele 3D-objectbeweging. In tegenstelling tot videowereldmodellen die werken in aanzichtafhankelijke pixelruimte, representeert PhysiFormer objecten als 3D-meshes uitgedrukt in wereldcoördinaten. Gegeven de initiële vertexposities en -snelheden, evenals het objectmateriaaltype (stijf of elastisch), samplet het model toekomstige verlooptrajecten. Terwijl gerelateerde neurale fysicabenaderingen gebaseerd zijn op ad-hoc latente ruimten of expliciet stijfheid en causaliteit afdwingen, toont PhysiFormer aan dat uitstekende resultaten kunnen worden verkregen zonder dergelijke inductieve biases, door vertexbaanvoorspelling te beschouwen als een enkel denoising-diffusieproces direct in wereldcoördinaten. De probabilistische formulering vat onzekerheid in de geleerde dynamiek, waardoor diverse plausibele toekomsten vanuit initiële condities mogelijk worden, wat dit raamwerk potentieel nuttig maakt voor toepassingen met niet-waargenomen onzekerheid. Het model beschikt over aandacht die is gefactoriseerd over tijd, ruimte en objecten voor efficiëntie, wat permutatie-invariante multi-objectredenering mogelijk maakt zonder expliciete objectcodering. Getraind op meer dan 100k gesimuleerde trajecten, genereert PhysiFormer stijve en elastische mechanica, en generaliseert het naar omgevingen met gemengde materialen, onbekende real-world geometrieën en grotere objectaantallen. Het presteert aanzienlijk beter dan autoregressieve baselines in baan nauwkeurigheid, stijfheidsbehoud en op momentum gebaseerde fysieke consistentie. Onze resultaten positioneren diffusie in coördinatenruimte als een veelbelovende stap naar aanzichtinvariante, geometriebewuste werelmodellering voor robotica, grafische vormgeving en fysiek ontwerp. Visualisaties, code en modellen zijn beschikbaar op https://yimingc9.github.io/physiformer.
Ondanks hun wijdverbreide gebruik is de rol van beloningsmodellen bij het vormgeven van versterkend leren slecht begrepen. Beloningsmodellen bieden een verleidelijke belofte: ze schatten automatisch de kwaliteit van responsen in, zonder dat er verificateurs of menselijke beoordelaars nodig zijn. In tegenstelling tot 'verifieerbare beloningen', die doorgaans binaire scores opleveren, produceren beloningsmodellen meestal continue scores, waardoor ze gevoelig kunnen zijn voor fijnmazige verschillen in responsen. We laten echter zien dat deze schijnbare sterkte een ernstige zwakte is: veel populaire beloningsmodellen zijn overgevoelig en kennen verschillende scores toe aan even goede responsen. Theoretisch tonen we aan dat ogenschijnlijk perfecte beloningsmodellen zeer overgevoelig kunnen zijn; empirisch kan deze overgevoeligheid leiden tot slecht beleid. In plaats van bestaande opvattingen over 'nauwkeurigheid van beloningsmodellen' stellen we voor om beloningsmodellen te evalueren met behulp van afzonderlijke maten van 'onderscheidend vermogen' en 'specificiteit' (het complement van overgevoeligheid). Als oplossing beschrijven we een trainingsvrij algoritme dat Monte Carlo dropout gebruikt op elk neuraal beloningsmodel om discrete beloningsclusters te produceren. Theoretisch bewijzen we dat er discretisaties bestaan die de overgevoeligheid verminderen met minimaal verlies aan onderscheidend vermogen; empirisch tonen we aan, in zowel gecontroleerde als natuurlijke RL-omgevingen, dat het discretiseren van beloningen leidt tot minder beloningshacking en beter beleid dan trainen op de oorspronkelijke beloningen.
De redeneercapaciteit van grote taalmodellen (LLM's) is snel toegenomen, wat leidt tot een groeiende omvang van de key-value (KV) cache in zowel de prefilling- als de decoderingsfase. Bestaande methoden voor KV-cachecompressie vertrouwen voornamelijk op aandachtsgewichten om het belang van tokens te schatten. Hoewel aandacht effectief contextuele relevantie vastlegt, worden complementaire informatietheoretische signalen met betrekking tot predictieve onzekerheid en tokeninformativiteit over het hoofd gezien. In dit artikel herzien we tokenbelang vanuit een vooruitziend perspectief en introduceren we Forward Influence, een maatstaf die meet hoe gecomprimeerde tokens toekomstige contexten beïnvloeden. Onze analyse onthult dat tokens die worden geselecteerd op basis van aandachtscores voornamelijk nabije contexten beïnvloeden, terwijl tokens met hoge predictieve onzekerheid een aanzienlijk sterkere invloed hebben op verre toekomstige contexten. Op basis van deze observatie stellen we InfoKV voor, een entropiebewust raamwerk voor KV-cachecompressie dat informatietheoretische signalen integreert. Het combineert predictieve onzekerheid op tokenniveau met laagsgewijze representatie-evolutie en integreert de resulterende entropiescores met aandachtscores tijdens het redeneren. Experimenten op benchmarks voor langetermijnredeneren met Llama-3.1, Llama-3.2 en DeepSeek-R1 tonen aan dat InfoKV consequent beter presteert dan bestaande op aandacht gebaseerde KV-compressiemethoden in zowel lange prefilling- als decoderingsscenario's.
Procesbeloningsmodellen maken fijnmazige, stap-voor-stap evaluatie van LLM's mogelijk, maar het bouwen ervan voor agentische omgevingen blijft buitengewoon moeilijk: langetermijninteracties, onomkeerbare acties en stochastische omgevingsfeedback maken zowel menselijke annotatie als Monte Carlo-schatting op schaal onuitvoerbaar. In dit werk laten we zien dat reinforcement learning (RL) post-training al de ingrediënten levert voor effectieve stap-voor-stap scoring, waardoor de noodzaak voor aparte training van beloningsmodellen volledig vervalt. Concreet leiden we een impliciet voordeel af onder een algemeen stochastisch Markov-beslissingsproces, dat we voortgangsvoordeel noemen -- de log-waarschijnlijkheidsratio tussen het RL-getrainde beleid en het referentiebeleid herstelt exact de optimale voordeelfunctie. Deze formulering maakt het resulterende signaal annotatievrij, domeinagnostisch en beschikbaar als bijproduct van de standaard RL post-training pijplijn. We valideren de effectiviteit van het voortgangsvoordeel in drie verschillende toepassingen: testtijdsschaling, onzekerheidskwantificering en falenstoewijzing op vijf benchmarks en vier modelfamilies. In alle omgevingen presteert het consistent beter dan op vertrouwen gebaseerde baselines en, ondanks dat er geen taakspecifieke training nodig is, overtreft het speciaal getrainde beloningsmodellen. We vullen deze resultaten aan met diepgaandere analyses van kenmerken van het voortgangsvoordeel, en bieden praktische richtlijnen voor adoptie in echte agentische systemen.
Hoewel generatieve AI opmerkelijk succes heeft geboekt bij het oplossen van problemen met verifieerbare oplossingen, blijft het genereren van fysieke kunst die zowel voldoet aan strikte geometrische beperkingen als aan subjectieve visuele esthetiek een uitdaging. Dit artikel presenteert een aanpak om deze moeilijkheden aan te pakken in het domein van computationele origami, een wiskundig rigide omgeving die artistiek ontwerp verankert in de vergelijkingen van vlakke vouwbaarheid. We presenteren COrigami, een end-to-end AI-gestuurde pijplijn die de ontwerpcyclus ondersteunt door vouwpatronen te genereren vanuit natuurlijke taal. Onze pijplijn omvat het genereren van een semantische stokfiguur, het berekenen van een basisverpakking, het oplossen voor een vlak-vouwbaar vouwpatroon, het vormgeven van het vlak-gevouwen vouwpatroon, en het verfijnen van het gegenereerde model met behulp van bekrachtigingsleren, aangedreven door een autonome esthetische evaluatielus. Ons systeem fungeert als een uiterst effectieve samenwerkingsassistent, die structurele startpunten genereert die menselijke kunstenaars verder kunnen uitbreiden en vormgeven. Door algoritmische optimalisatie te integreren met autonome esthetische kritiek, toont dit werk aan hoe AI-systemen multi-objectieve fysieke beperkingen kunnen vervullen om betrouwbare, wiskundig gefundeerde co-creativiteit mogelijk te maken.
Multi-model LLM-systemen zoals routing, voting, cascades, fusion en mixture-of-agents worden gebruikt om de nauwkeurigheid van één model te overtreffen. Wij tonen aan dat hun winst wordt begrensd door een grootheid die het vakgebied zelden rapporteert. Voor elk beleid waarvan de uitkomst het antwoord van één lidmodel is, kan de nauwkeurigheid niet groter zijn dan één min bèta, waarbij bèta de fractie is waarbij elk model fout is op dezelfde vraag. Daarentegen kan de gebruikelijke diagnostiek, de gemiddelde paarsgewijze foutcorrelatie rho, bèta niet identificeren: foutwetten met identieke marginalen en paarsgewijze correlaties kunnen verschillende 'allemaal-fout'-percentages hebben. Een Clopper-Pearson-grens op bèta geeft een eindige-steekproefcertificaat voor de grootste winst die een router, stem of cascade kan leveren voordat een router wordt getraind. Over 67 modellen van 21 aanbieders blijft een tetrachoor-gekalibreerd éénfactor-model de 'allemaal-fout'-staart onderwaarderen: bij open wiskunde is de waargenomen bèta 0,052 versus 0,023 onder de volledige 67-model Gauss-copula, ongeveer 2,5 keer onderwaardering, met een 90%-betrouwbaarheidsinterval van 1,7 tot 3,4 en k gelijk aan 17. Het effect herhaalt zich bij uitvoeringsgegradeerde code, waar bèta 0,079 is. Het opnieuw stellen van dezelfde GPQA-Diamond-vragen in vrije-antwoordvorm in plaats van meerkeuzevorm opent de staart opnieuw, met bèta 0,127 en een panel van vijf beoordelaars met kappa 0,73 tot 0,92, waarbij het gezamenlijk falen wordt gelokaliseerd in antwoordformaat in plaats van onderwerp. Bij gelijke kwaliteit verslaan heterogene ensembles met lage rho Self-MoA met hoge rho, maar bij controleerbare taken in onze pool verslaat het combineren van modellen zelden het enkele beste model zonder een sterk query-niveau routersignaal. Winst komt van modellen die falen op verschillende vragen, niet van het toevoegen van meer modellen.
Een werkende verwijzing lijkt op bewijs – maar het feit dat een link werkt, betekent niet dat het geciteerde artikel de bewering ondersteunt. Ik constateer dat huidige agentische modellen zelden citaten verzinnen (meer dan 99% werkt), maar ongeveer 15,9% verwijst naar het verkeerde artikel. Bestaande benchmarks missen deze faalmodus: wanneer een vraag een vaste antwoordsleutel heeft, kan een model de verwachte bron uit die sleutel reproduceren in plaats van onafhankelijk te verifiëren dat de bron de bewering ondersteunt. Ik introduceer \openbiorq{}, een retrieval-gebaseerde agentische benchmark van 12.553 onopgeloste biomedische onderzoeksvragen in 12 domeinen die open vragen behandelt als een trouw- en onthoudingssonde. Voor zover ik weet, is dit de eerste biomedische benchmark die een agentische setting – waarin het model meerdere toolaanroepen moet doen – combineert met onopgeloste vragen zonder antwoordsleutel. Openheid wordt geverifieerd aan de hand van echt vervolgonderzoek in plaats van de parametrische kennis van een model. Moeilijkheid is empirisch: ik veranker deze op vragen die drie referentiemodellen met open gewichten niet kunnen beantwoorden, in plaats van op subjectieve moeilijkheidslabels. Op deze moeilijkste subset lossen modellen uit dezelfde lijn als de moeilijkheidsankers slechts ~17% op, terwijl drie onafhankelijke grensverleggende agenten (Gemini-3-Pro, Opus-4.7, GPT-5.5) een breed bereik van 29-60% bestrijken. De benchmark is dus moeilijk, niet-verzadigend (de beste agent laat nog ~33-40% onopgelost) en onderscheidend tussen vaardigheidsniveaus. Naast moeilijkheid observeer ik agentische ineenstorting bij de moeilijkste vragen, waarbij agenten stoppen met het gebruik van hun tools. Voor het model dat het meest vatbaar is voor ineenstorting, verandert het volledig blokkeren van tooltoegang de score nauwelijks – dus tools stoppen met renderen precies waar ze het meest nodig zijn. Een bevroren checklist per vraag verhoogt de overeenstemming tussen beoordelaars van Spearman 0,35 naar 0,82.
Aardobservatie (EO) voorspellingen beogen toekomstige dynamiek van het aardoppervlak te voorspellen op basis van satellietwaarnemingen onder veranderende meteorologische omstandigheden. In dit artikel beschouwen we deze taak als een gedeeltelijk geobserveerd, weergedreven wereldmodelleringsprobleem, waarbij het weer fungeert als een conditioneringssignaal, terwijl de voorspelling onzeker blijft door schaarse waarnemingen en niet-geobserveerde toestanden van het landoppervlak. Bestaande methoden vatten deze setting echter niet volledig: deterministische modellen storten onzekerheid in tot een enkele toekomstvoorspelling, terwijl diffusiegebaseerde methoden weervariabelen doorgaans behandelen als ongedifferentieerde conditioneringssignalen, en bestaande benchmarks richten zich voornamelijk op reconstructienauwkeurigheid in plaats van of voorspellingen correct reageren op veranderde weerforcering. We introduceren EO-WM, een videodiffusietransformer voor multispectrale EO-voorspellingen. EO-WM bevat een fysisch geïnformeerd conditioneringskader dat meteorologische forcering weergeeft via een klimatologische basislijn, weerafwijkingen en cumulatieve fysische stresssignalen. Specifiek scheidt het de basislijn en afwijking via afzonderlijke conditioneringspaden, en accumuleert het afwijkende forcering in de tijd om aanhoudende hitte- en droogtestress vast te leggen. Om het weerresponsgedrag te evalueren voorbij standaardmetrieken, introduceren we twee diagnostische benchmarks: een Extreme Zomer Benchmark voor ernstbewuste voorspelling van vegetatiedegradatie onder extreem weer, en een Seizoensgebonden Gepaarde-Paar Benchmark voor het testen van responsgetrouwheid onder veranderde weerforcering. Experimenten tonen aan dat EO-WM de fout in de voorspelde amplitude van de afname van de genormaliseerde vegetatie-index (NDVI) met een relatieve 5,63% vermindert en de directionele trefferratio met een relatieve 7,80% verbetert, terwijl het concurrerend blijft op standaard pixelniveau-metrieken. De benchmarks en het model zullen open-source beschikbaar worden gesteld op https://github.com/Luo-Z13/EO-WM.
Wetenschappelijke redeneermodellen voor de biologie combineren taalmodellen met fundamentmodellen die getraind zijn op multimodale biologische gegevens, waaronder DNA, RNA en eiwitten. Deze modellen worden gebouwd via post-training, maar hoe elke fase redeneren en generalisatie vormgeeft, wordt nog slecht begrepen. We bestuderen wanneer post-training prestaties verbetert en wanneer het overspecialisatie induceert. Over genomica, transcriptomica en eiwitten heen trainen en evalueren we meer dan 100 biologische redeneermodellen onder gecontroleerde variatie in backbone, voortgezet pre-trainen (CPT), gesuperviseerd finetunen (SFT) en versterkingsleren (RL), waarbij we zowel binnen-domein (ID) als buiten-domein (OOD) prestaties meten. We vinden dat elke post-trainingsfase het generalisatievermogen op een andere manier hervormt, in plaats van uniforme verbeteringen bij te dragen. CPT verbetert de downstreamprestaties door modellen af te stemmen op biologische taal. SFT verhoogt consequent de ID-prestaties, maar zorgt ervoor dat OOD-prestaties vroeg pieken en afnemen naarmate modellen zich aanpassen aan de trainingsdistributie. RL, toegepast op sterke SFT-checkpoints met afgestemde beloningen, verbetert OOD-prestaties en herstelt gedeeltelijk het generalisatievermogen. Deze resultaten tonen aan dat biologisch redeneren niet monotoon verbetert met extra supervisie of rekenkracht. In plaats daarvan zijn prestaties afhankelijk van hoe trainingsfasen worden samengesteld. Onder vaste post-trainingsbudgetten komt de sterkste ID-OOD-afweging voort uit korte SFT, grotere RL-toewijzingen en asymmetrische aanpassingscapaciteit over de fasen heen.