Dagelijks geselecteerde AI onderzoekspapers met vertalingen
GUI-agents besturen applicaties via hun visuele interfaces in plaats van programmatische API's. Ze interageren met willekeurige software via tikken, veegbewegingen en toetsaanslagen, waardoor ze een lange staart van applicaties bereiken die op CLI gebaseerde agents niet kunnen benaderen. Toch wordt de vooruitgang op dit gebied minder beperkt door modelcapaciteit dan door de afwezigheid van een coherente full-stack-infrastructuur: online RL-training lijdt onder omgevingsinstabiliteit en gesloten pijplijnen, evaluatieprotocollen verschuiven stilletjes tussen onderzoeken, en getrainde agents bereiken zelden echte gebruikers op echte apparaten. Wij presenteren ClawGUI, een open-source-framework dat deze drie lachen aanpakt binnen een enkele structuur. ClawGUI-RL biedt de eerste open-source RL-infrastructuur voor GUI-agents met gevalideerde ondersteuning voor zowel parallelle virtuele omgevingen als echte fysieke apparaten, en integreert GiGPO met een Process Reward Model voor dense stap-voor-stap-supervisie. ClawGUI-Eval handhaaft een volledig gestandaardiseerd evaluatiepijplijn over 6 benchmarks en 11+ modellen heen, met een reproductiegraad van 95,8% ten opzichte van officiële baselines. ClawGUI-Agent brengt getrainde agents naar Android, HarmonyOS en iOS via 12+ chatplatforms met hybride CLI-GUI-besturing en persistent gepersonaliseerd geheugen. End-to-end getraind binnen deze pijplijn behaalt ClawGUI-2B een slagingspercentage van 17,1% op MobileWorld GUI-Only, wat 6,0% beter is dan de MAI-UI-2B-baseline op dezelfde schaal.
RLVR verbetert het redeneervermogen van grote taalmodelen, maar de effectiviteit wordt vaak beperkt door ernstige beloningsschaarste bij moeilijke problemen. Recente op hints gebaseerde RL-methoden verminderen deze schaarste door deeloplossingen of abstracte sjablonen in te brengen, maar ze schalen de begeleiding typisch door meer tokens toe te voegen, wat redundantie, inconsistentie en extra trainingsoverhead introduceert. Wij stellen KnowRL (Knowledge-Guided Reinforcement Learning) voor, een RL-trainingsraamwerk dat hintontwerp behandelt als een minimaal-voldoende-begeleidingsprobleem. Tijdens de RL-training deconstrueert KnowRL begeleiding in atomaire kennispunten (KP's) en gebruikt Constrained Subset Search (CSS) om compacte, interactiebewuste subsets voor training te construeren. Wij identificeren verder een paradox van interactie bij het snoeien – het verwijderen van één KP kan helpen, terwijl het verwijderen van meerdere van dergelijke KP's kan schaden – en optimaliseren expliciet voor robuuste subsetcuratie onder deze afhankelijkheidsstructuur. Wij trainen KnowRL-Nemotron-1.5B vanuit OpenMath-Nemotron-1.5B. Over acht redeneerbenchmarks op de 1.5B-schaal presteert KnowRL-Nemotron-1.5B consistent beter dan sterke RL- en hinting-baselines. Zonder KP-hints tijdens inferentie bereikt KnowRL-Nemotron-1.5B een gemiddelde nauwkeurigheid van 70.08, wat Nemotron-1.5B al met +9.63 punten overstijgt; met geselecteerde KP's verbetert de prestatie tot 74.16, wat een nieuwe state-of-the-art op deze schaal vestigt. Het model, de gecureerde trainingsdata en de code zijn openbaar beschikbaar op https://github.com/Hasuer/KnowRL.
On-policy distillatie (OPD) is een kerntechniek geworden in het natraineren van grote taalmodellen, maar de trainingsdynamiek ervan is nog steeds slecht begrepen. Dit artikel biedt een systematisch onderzoek naar OPD-dynamiek en -mechanismen. We identificeren eerst twee voorwaarden die bepalen of OPD slaagt of faalt: (i) de student en de leraar moeten compatibele denkpatronen delen; en (ii) zelfs bij consistente denkpatronen en hogere scores moet de leraar echt nieuwe capaciteiten bieden die verder gaan dan wat de student tijdens de training heeft gezien. We valideren deze bevindingen via weak-to-strong reverse distillatie, waarbij we aantonen dat leraren van 1,5B en 7B uit dezelfde familie distributioneel ononderscheidbaar zijn vanuit het perspectief van de student. Door in te zoomen op het token-level mechanisme tonen we aan dat succesvolle OPD wordt gekenmerkt door progressieve uitlijning op tokens met een hoge waarschijnlijkheid in door de student bezochte toestanden, een kleine gedeelde set tokens waar het grootste deel van de waarschijnlijkheidsmassa (97%-99%) geconcentreerd is. We stellen verder twee praktische strategieën voor om falende OPD te herstellen: off-policy cold start en teacher-aligned promptselectie. Ten slotte tonen we aan dat de schijnbare 'free lunch' van OPD, in de vorm van dichte token-level beloning, een prijs heeft, wat de vraag opwerpt of OPD kan worden opgeschaald naar distillatie over lange horizonnen.
Autonoom AI-onderzoek heeft een snelle vooruitgang geboekt, maar technische uitvoering van ML-onderzoek op lange termijn blijft moeilijk: agents moeten coherente voortgang kunnen handhaven over taken zoals het begrijpen van opdrachten, het opzetten van de omgeving, implementatie, experimenteren en debuggen, gedurende uren of dagen. Wij introduceren AiScientist, een systeem voor autonome technische uitvoering van ML-onderzoek op lange termijn, gebaseerd op een eenvoudig principe: sterke prestaties op lange termijn vereisen zowel gestructureerde orchestratie als duurzame staatcontinuïteit. Hiertoe combineert AiScientist hiërarchische orchestratie met een 'File-as-Bus' werkruimte met beperkte rechten: een top-level Orchestrator houdt controle op het niveau van fasen door middel van beknopte samenvattingen en een werkruimtekaart, terwijl gespecialiseerde agents zich herhaaldelijk opnieuw oriënteren op duurzame artefacten zoals analyses, plannen, code en experimenteel bewijs, in plaats van voornamelijk te vertrouwen op conversatiële overdrachten. Dit resulteert in een dunne controlelaag over een dikke, persistente staat. Over twee complementaire benchmarks verbetert AiScientist de PaperBench-score gemiddeld met 10.54 punten ten opzichte van de best presterende vergelijkbare baseline en behaalt het 81.82 Any Medal% op MLE-Bench Lite. Ablatiestudies tonen verder aan dat het File-as-Bus-protocol een cruciale factor voor de prestaties is; verwijdering ervan leidt tot een daling van 6.41 punten op PaperBench en 31.82 punten op MLE-Bench Lite. Deze resultaten suggereren dat technische uitvoering van ML-onderzoek op lange termijn een systeemprobleem is van het coördineren van gespecialiseerd werk over duurzame projectstaat, in plaats van een puur lokaal redeneerprobleem.
Recente vooruitgang in videogeneratie maakt een nieuw paradigma mogelijk voor het creëren van 3D-scènes: het genereren van cameragestuurde video's die scenewalkthroughs simuleren, en deze vervolgens via feed-forward reconstructietechnieken naar 3D te tillen. Deze generatieve reconstructieaanpak combineert de visuele kwaliteit en het creatieve vermogen van videomodellen met 3D-output die klaar is voor real-time rendering en simulatie. Om op te schalen naar grote, complexe omgevingen is 3D-consistente videogeneratie vereist over lange cameratrajecten met grote viewpointveranderingen en locatieherbezoeken, een setting waarin huidige videomodellen snel degraderen. Bestaande methoden voor lange-termijngeneratie worden fundamenteel beperkt door twee vormen van degradatie: ruimtelijk vergeten en temporele drift. Naarmate de verkenning vordert, vallen eerder waargenomen gebieden buiten de temporele context van het model, waardoor het model gedwongen wordt structuren te hallucineren bij herbezoek. Ondertussen hoopt autoregressieve generatie kleine synthesefouten in de loop van de tijd op, waardoor de scène-uitstraling en -geometrie geleidelijk vervormen. Wij presenteren Lyra 2.0, een raamwerk voor het genereren van persistente, verkennbare 3D-werelden op schaal. Om ruimtelijk vergeten aan te pakken, handhaven we per-frame 3D-geometrie en gebruiken we deze uitsluitend voor informatierouting – het ophalen van relevante vorige frames en het tot stand brengen van dichte correspondenties met de doel-viewpoints – terwijl we vertrouwen op het generatieve prior voor appearance-synthese. Om temporele drift aan te pakken, trainen we met zelf-geaugmenteerde geschiedenissen die het model blootstellen aan zijn eigen gedegradeerde output, waardoor het leert drift te corrigeren in plaats van te propageren. Samen maken deze aanzienlijk langere en 3D-consistente videotrajecten mogelijk, die we benutten om feed-forward reconstructiemodellen te finetunen die betrouwbaar hoogwaardige 3D-scènes reconstrueren.
De opkomst van autonome GUI-agenten heeft geleid tot tegenmaatregelen van digitale platformen, maar bestaand onderzoek richt zich vooral op functionaliteit en robuustheid, ten koste van de cruciale dimensie van anti-detectie. Wij beargumenteren dat agenten, om te kunnen overleven in mensgerichte ecosystemen, zogenoemde 'vermenskelijkingscapaciteiten' (Humanization) moeten ontwikkelen. Wij introduceren de "Turingtest op het Scherm", waarbij we de interactie formeel modelleren als een MinMax-optimalisatieprobleem tussen een detector en een agent die gedragsdivergentie wil minimaliseren. Vervolgens verzamelen we een nieuwe dataset met hoge resolutie van mobiele touch-dynamiek en voeren we een analyse uit waaruit blijkt dat standaard op LMM gebaseerde agenten eenvoudig detecteerbaar zijn door onnatuurlijke kinematica. Als gevolg hiervan stellen we de Agent Humanization Benchmark (AHB) en detectiemetrieken op om de wisselwerking tussen imitatievermogen en functionaliteit te kwantificeren. Ten slotte stellen we methoden voor, variërend van heuristische ruis tot data-gedreven gedragsmatchen, en tonen we aan dat agenten zowel theoretisch als empirisch een hoog imitatievermogen kunnen bereiken zonder in te leveren op prestaties. Dit werk verschuift het paradigma van de vraag óf een agent een taak kan uitvoeren naar de vraag hóé hij deze uitvoert binnen een mensgericht ecosysteem, en legt daarmee de basis voor naadloze co-existentie in vijandige digitale omgevingen.
Proximale Beleidsoptimalisatie (PPO) staat centraal bij het afstemmen van grote taalmodellen (LLM's) voor redeneertaken met verifieerbare beloningen. Echter, standaard PPO op tokenniveau kampt in deze setting met problemen door de instabiliteit van temporele krediettoewijzing over lange Chain-of-Thought (CoT) horizonten en de buitensporige geheugenkosten van het waardemodel. Hoewel criticus-vrije alternatieven zoals GRPO deze problemen verzachten, brengen zij aanzienlijke rekenkosten met zich mee door meerdere steekproeven nodig te hebben voor de basislijnschatting, wat de trainingsdoorvoer ernstig beperkt. In dit artikel introduceren wij PPO op sequentieniveau (SPPO), een schaalbaar algoritme dat de steekproevefficiëntie van PPO combineert met de stabiliteit van op uitkomsten gebaseerde updates. SPPO herformuleert het redeneerproces als een Contextueel Bandietenprobleem op Sequentieniveau en gebruikt een ontkoppelde scalaire waardefunctie om voordelsignalen met lage variantie af te leiden zonder meervoudige steekproefname. Uitgebreide experimenten op wiskundige benchmarks tonen aan dat SPPO standaard PPO significant overtreft en de prestaties evenaart van rekenintensieve, op groepen gebaseerde methoden, waardoor het een resource-efficiënt raamwerk biedt voor het afstemmen van redenerende LLM's.
Wij beschrijven de voorafgaande training, de nabehandeling en de kwantisering van Nemotron 3 Super, een hybride Mamba-Attention Mixture-of-Experts model met 120 miljard parameters (waarvan 12 miljard actief). Nemotron 3 Super is het eerste model in de Nemotron 3-familie dat 1) voorgetraind is in NVFP4, 2) gebruikmaakt van LatentMoE, een nieuwe Mixture-of-Experts-architectuur die optimaliseert voor zowel nauwkeurigheid per FLOP als nauwkeurigheid per parameter, en 3) MTP-lagen bevat voor versnelde inferentie via *native speculative decoding*. Wij hebben Nemotron 3 Super voorgetraind op 25 biljoen tokens, gevolgd door nabehandeling met *supervised fine-tuning* (SFT) en *reinforcement learning* (RL). Het uiteindelijke model ondersteunt een contextlengte van maximaal 1 miljoen tokens en behaalt een vergelijkbare nauwkeurigheid op gangbare benchmarks, terwijl het ook een tot 2,2x en 7,5x hogere inferentie-doorvoersnelheid bereikt in vergelijking met respectievelijk GPT-OSS-120B en Qwen3.5-122B. De Nemotron 3 Super-datasets, samen met de basis-, nabehandelde- en gekwantiseerde *checkpoints*, zijn openbaar gemaakt op HuggingFace.
Nauwkeurige evaluatie staat centraal in het ecosysteem van grote taalmodellen (LLM's) en leidt modelselectie en downstream-toepassing in uiteenlopende use cases. In de praktijk steunt de evaluatie van generatieve output echter meestal op rigoureuze lexicale methoden om antwoorden te extraheren en te beoordelen, waardoor het werkelijke probleemoplossend vermogen van een model verward kan worden met de naleving van vooraf gedefinieerde opmaakrichtlijnen. Hoewel recente LLM-as-a-Judge-benaderingen dit probleem verzachten door semantische correctheid te beoordelen in plaats van strikte structurele conformiteit, brengen ze ook aanzienlijke rekenkosten met zich mee, wat evaluatie duur maakt. In dit werk onderzoeken we eerst systematisch de beperkingen van lexicale evaluatie via een grootschalige empirische studie over 36 modellen en 15 downstream-taken, waarbij we aantonen dat dergelijke methoden slecht correleren met menselijke oordelen. Om deze beperking aan te pakken, introduceren we BERT-as-a-Judge, een encoder-gedreven benadering voor het beoordelen van antwoordcorrectheid in referentiegebaseerde generatieve settings, die robuust is tegen variaties in outputformulering en slechts lichtgewicht training vereist op synthetisch geannoteerde vraag-kandidaat-referentie-triplets. We tonen aan dat deze methode consistent beter presteert dan de lexicale baseline, terwijl de prestaties evenaren van veel grotere LLM-rechters, waardoor een overtuigende afweging tussen beide mogelijk wordt en betrouwbare, schaalbare evaluatie wordt gefaciliteerd. Ten slotte bieden we via uitgebreide experimentering gedetailleerde inzichten in de prestaties van BERT-as-a-Judge om praktische richtlijnen te bieden voor professionals, en geven we alle projectartefacten vrij om downstream-toepassing te bevorderen.
Computer-use agents (CUA's) kunnen tegenwoordig zelfstandig complexe taken voltooien in reële digitale omgevingen, maar wanneer ze misleid worden, kunnen ze ook worden ingezet om schadelijke acties programmatisch te automatiseren. Bestaande veiligheidsevaluaties richten zich grotendeels op expliciete bedreigingen zoals misbruik en promptinjectie, maar negeren een subtiele doch cruciale setting waarin gebruikersinstructies volledig goedaardig zijn en schade voortvloeit uit de taakcontext of uitvoeringsuitkomst. Wij introduceren OS-BLIND, een benchmark die CUA's evalueert onder onbedoelde aanvalsomstandigheden, bestaande uit 300 door mensen gemaakte taken verdeeld over 12 categorieën, 8 applicaties en 2 bedreigingsclusters: omgeving-ingebedde dreigingen en door de agent geïnitieerde schade. Onze evaluatie van frontier-modellen en agentframeworks toont aan dat de meeste CUA's een aanvalssuccesratio (ASR) van meer dan 90% halen, en zelfs het veiligheidsafgestemde Claude 4.5 Sonnet bereikt 73,0% ASR. Interessanter genoeg wordt deze kwetsbaarheid nog ernstiger, waarbij de ASR stijgt van 73,0% naar 92,7% wanneer Claude 4.5 Sonnet wordt ingezet in multi-agentsystemen. Onze analyse toont verder aan dat bestaande veiligheidsmaatregelen beperkte bescherming bieden wanneer gebruikersinstructies goedaardig zijn. Veiligheidsafstemming treedt voornamelijk in werking binnen de eerste paar stappen en engageert zelden opnieuw tijdens de daaropvolgende uitvoering. In multi-agentsystemen verhullen gedecentraliseerde subtaken de schadelijke intentie voor het model, waardoor veiligheidsafgestemde modellen falen. Wij zullen onze OS-BLIND benchmark vrijgeven om de bredere onderzoeksgemeenschap aan te moedigen deze veiligheidsuitdagingen verder te onderzoeken en aan te pakken.
Recente grote taalmodellen hebben de SVG-generatie verschoven van differentieerbare rendering-optimalisatie naar autoregressieve programma-synthese. Bestaande benaderingen vertrouwen echter nog steeds op generieke tokenisatie op byteniveau die is overgenomen uit natuurlijke taalverwerking, wat slecht aansluit bij de geometrische structuur van vectorafbeeldingen. Numerieke coördinaten worden gefragmenteerd in discrete symbolen, waardoor ruimtelijke relaties verloren gaan en ernstige tokenredundantie ontstaat, wat vaak leidt tot coördinaathallucinaties en inefficiënte generatie van lange sequenties. Om deze uitdagingen aan te pakken, stellen we HiVG voor, een hiërarchisch SVG-tokeniseringsraamwerk toegesneden op autoregressieve vectorafbeeldingengeneratie. HiVG ontleedt ruwe SVG-strings in gestructureerde atomaire tokens en comprimeert verder uitvoerbare commando-parametergroepen tot geometrisch-gebonden segmenttokens, wat de sequentie-efficiëntie aanzienlijk verbetert terwijl de syntactische geldigheid behouden blijft. Om ruimtelijke mismatches verder te verminderen, introduceren we een Hiërarchische Mean-Noise (HMN)-initialisatiestrategie die numerieke ordeningssignalen en semantische priors injecteert in nieuwe token-embeddingen. In combinatie met een curriculumtrainingsparadigma dat de programmacomplexiteit geleidelijk verhoogt, stelt HiVG een stabielere learning van uitvoerbare SVG-programma's in staat. Uitgebreide experimenten met zowel tekst-naar-SVG als afbeelding-naar-SVG taken tonen verbeterde generatiefideliteit, ruimtelijke consistentie en sequentie-efficiëntie aan in vergelijking met conventionele tokeniseringsschema's. Onze code is openbaar beschikbaar op https://github.com/ximinng/HiVG.
Multimodale deep search-agents hebben een groot potentieel getoond bij het oplossen van complexe taken door iteratief tekstueel en visueel bewijsmateriaal te verzamelen. Het beheren van de heterogene informatie en de hoge tokenkosten die gepaard gaan met multimodale inputs over lange horizonnen blijft echter een kritieke uitdaging, omdat bestaande methoden vaak lijden onder contextexplosie of het verlies van cruciale visuele signalen. Om dit aan te pakken, stellen we een nieuw Long-horizon MultiModal deep search-framework voor, genaamd LMM-Searcher, dat draait om een op bestanden gebaseerd visueel representatiemechanisme. Door visuele elementen uit te besteden aan een extern bestandssysteem en ze toe te wijzen aan lichtgewicht tekstuele identificatoren (UID's), vermindert onze aanpak de contextoverhead terwijl multimodale informatie behouden blijft voor toekomstige toegang. We rusten de agent uit met een op maat gemaakt fetch-image hulpmiddel, waardoor een progressieve, on-demand visuele laadstrategie voor actieve waarneming mogelijk wordt. Verder introduceren we een datasynthesepijplijn die is ontworpen om queries te genereren die complexe cross-modale multi-hop redenering vereisen. Met behulp van deze pijplijn distilleren we 12K hoogwaardige trajecten om Qwen3-VL-Thinking-30A3B te fine-tunen tot een gespecialiseerde multimodale deep search-agent. Uitgebreide experimenten op vier benchmarks tonen aan dat onze methode succesvol schaalt naar 100-staps zoekhorizonnen, waarbij state-of-the-art prestaties worden behaald onder open-source modellen op uitdagende lange-horizon benchmarks zoals MM-BrowseComp en MMSearch-Plus, terwijl het ook sterke generaliseerbaarheid vertoont over verschillende basismodellen. Onze code zal worden vrijgegeven op https://github.com/RUCAIBox/LMM-Searcher.
Grootschalige taalmodelagenten ontvangen instructies uit vele bronnen—systeemberichten, gebruikersprompts, tooloutputs en meer—elk met verschillende niveaus van vertrouwen en autoriteit. Wanneer deze instructies conflicteren, moeten modellen betrouwbaar de instructie met het hoogste privilege volgen om veilig en effectief te blijven. Het dominante paradigma, instructiehiërarchie (IH), veronderstelt een vaste, kleine set privilege-niveaus (meestal minder dan vijf) gedefinieerd door rigide rollabels (bijv. systeem > gebruiker). Dit is ontoereikend voor real-world agentische omgevingen, waar conflicten kunnen ontstaan tussen veel meer bronnen en contexten. In dit werk stellen we Many-Tier Instruction Hierarchy (ManyIH) voor, een paradigma voor het oplossen van instructieconflicten tussen instructies met een willekeurig aantal privilege-niveaus. We introduceren ManyIH-Bench, de eerste benchmark voor ManyIH. ManyIH-Bench vereist dat modellen navigeren door tot wel 12 niveaus van conflicterende instructies met uiteenlopende privileges, bestaande uit 853 agentische taken (427 programmeertaken en 426 instructievolg-taken). ManyIH-Bench combineert constraints ontwikkeld door LLM's en geverifieerd door mensen om realistische en moeilijke testgevallen te creëren die 46 real-world agents omvatten. Onze experimenten tonen aan dat zelfs de huidige frontier-modellen slecht presteren (~40% nauwkeurigheid) wanneer instructieconflicten schalen. Dit werk benadrukt de dringende behoefte aan methoden die expliciet gericht zijn op fijnmazige, schaalbare oplossing van instructieconflicten in agentische omgevingen.
Het trainen van belichaamde AI-agenten is in hoge mate afhankelijk van de visuele weergave van simulatie-omgevingen en de mogelijkheid om dynamische mensen te modelleren. Huidige simulatoren maken gebruik van mesh-gebaseerde rasterisatie met beperkte visuele realiteitsgetrouwheid, en hun ondersteuning voor dynamische menselijke avatars – waar beschikbaar – is beperkt tot mesh-representaties, wat de generalisatie van agenten naar realistische scenario's met mensen belemmert. Wij presenteren Habitat-GS, een navigatiegerichte simulator voor belichaamde AI, uitgebreid vanuit Habitat-Sim, die 3D Gaussian Splatting-scènerendering en bestuurbare gaussiaanse avatars integreert, terwijl volledige compatibiliteit met het Habitat-ecosysteem behouden blijft. Ons systeem implementeert een 3DGS-renderer voor realtime fotorealistisch renderen en ondersteunt schaalbare import van 3DGS-assets uit diverse bronnen. Voor dynamische menselijke modellering introduceren we een gaussiaanse avatarmodule die het mogelijk maakt dat elke avatar tegelijkertijd dient als een fotorealistische visuele entiteit en een effectief navigatie-obstakel, waardoor agenten mensbewust gedrag kunnen leren in realistische omgevingen. Experimenten met point-goal navigatie tonen aan dat agenten getraind op 3DGS-scènes sterkere cross-domein generalisatie bereiken, waarbij training in gemengde domeinen de meest effectieve strategie is. Evaluaties van avatar-bewuste navigatie bevestigen verder dat gaussiaanse avatars effectieve mensbewuste navigatie mogelijk maken. Ten slotte valideren prestatiebenchmarks de schaalbaarheid van het systeem bij variërende scènecomplexiteit en aantallen avatars.
Hoewel diffusiemodellen het domein van visuele generatie domineren, zijn ze computationeel inefficiënt, waarbij ze een uniforme rekeninspanning toepassen ongeacht de verschillende complexiteit. Autoregressieve (AR) modellen daarentegen zijn van nature complexiteitsbewust, zoals blijkt uit hun variabele waarschijnlijkheden, maar worden vaak belemmerd door lossy discrete tokenisatie en foutaccumulatie. In dit werk introduceren we Generative Refinement Networks (GRN), een volgende-generatie paradigma voor visuele synthese om deze problemen aan te pakken. De kern van GRN lost de flessenhals van discrete tokenisatie op via een theoretisch bijna verliesvrije Hiërarchische Binaire Kwantisatie (HBQ), waarmee een reconstructiekwaliteit vergelijkbaar met continue tegenhangers wordt bereikt. Gebouwd op de latente ruimte van HBQ, upgradeert GRN fundamenteel AR-generatie met een globaal verfijningsmechanisme dat kunstwerken geleidelijk perfectioneert en corrigeert – zoals een menselijke kunstenaar schildert. Daarnaast integreert GRN een entropie-gestuurde samplingstrategie, die complexiteitsbewuste, adaptieve-stap generatie mogelijk maakt zonder in te leveren op visuele kwaliteit. Op de ImageNet-benchmark vestigt GRN nieuwe records in beeldreconstructie (0.56 rFID) en klasse-conditionele beeldgeneratie (1.81 gFID). We schalen GRN ook op naar de meer uitdagende tekst-naar-beeld en tekst-naar-video generatie, waarbij superieure prestaties op equivalente schaal worden geleverd. We maken alle modellen en code vrij om verder onderzoek naar GRN te bevorderen.
Diffusiemodellen worden vaak vanuit meerdere invalshoeken geïntroduceerd, zoals VAEs, score matching of flow matching, vergezeld van complexe en technisch veeleisende wiskunde die voor beginners moeilijk te begrijpen kan zijn. Een klassieke vraag is: hoe keert het omgekeerde proces het voorwaartse proces om om data uit pure ruis te genereren? Dit artikel systematisert het diffusiemodel vanuit een nieuw Langevin-perspectief en biedt een eenvoudiger, duidelijker en intuïtiever antwoord. We behandelen ook de volgende vragen: hoe kunnen op ODE's en SDE's gebaseerde diffusiemodellen worden verenigd onder één raamwerk? Waarom zijn diffusiemodellen in theorie superieur aan gewone VAEs? Waarom is flow matching niet fundamenteel eenvoudiger dan denoising of score matching, maar equivalent onder maximum likelihood? We tonen aan dat het Langevin-perspectief duidelijke en rechtstreekse antwoorden biedt op deze vragen, bestaande interpretaties van diffusiemodellen met elkaar verbindt, laat zien hoe verschillende formuleringen in een gemeenschappelijk kader in elkaar kunnen worden omgezet, en educatieve waarde biedt voor zowel leerders als ervaren onderzoekers die diepere intuïtie zoeken.
De drang naar efficiënte tekst-naar-beeldsynthese heeft het veld richting één-staps sampling gedreven, maar bestaande methoden kampen nog steeds met een drievoudige afweging tussen trouw, inferentiesnelheid en trainingsrendement. Benaderingen die steunen op externe discriminatoren kunnen de prestaties in één stap aanscherpen, maar introduceren vaak trainingsinstabiliteit, hoge GPU-geheugenbelasting en trage convergentie, wat schaalbaarheid en parameter-efficiënte afstemming compliceert. Daarentegen zijn op regressie gebaseerde distillatie- en consistentiedoelen eenvoudiger te optimaliseren, maar verliezen ze typisch fijne details wanneer ze tot een enkele stap worden beperkt. Wij presenteren APEX, gebaseerd op een cruciaal theoretisch inzicht: adversariële correctiesignalen kunnen endogeen worden onttrokken uit een flow-model door condition shifting. Het gebruik van een transformatie creëert een shifted condition branch waarvan het snelheidsveld dient als een onafhankelijke schatter van de huidige generatiedistributie van het model, wat een gradiënt oplevert die bewezen GAN-uitgelijnd is, en daarmee de sample-afhankelijke discriminatortermen vervangt die gradiëntvervaging veroorzaken. Dit discriminatorvrije ontwerp is architectuurbehoudend, waardoor APEX een plug-and-play raamwerk is dat compatibel is met zowel volledige parameter- als LoRA-gebaseerde afstemming. Empirisch overtreft ons 0.6B-model FLUX-Schnell 12B (20x meer parameters) in kwaliteit bij één stap. Met LoRA-afstemming op Qwen-Image 20B bereikt APEX een GenEval-score van 0.89 bij NFE=1 in 6 uur, waarmee het het oorspronkelijke 50-staps lerarenmodel (0.87) overtreft en een 15.33x versnelling van de inferentie biedt. Code is beschikbaar op https://github.com/LINs-lab/APEX.
Hoewel het gebrek aan expliciete actiedata Vision-Language-Action (VLA)-modellen beperkt, bieden menselijke actievideo's een schaalbare maar ongelabelde databron. Een cruciale uitdaging bij het gebruik van grootschalige videodatasets van mensen ligt in het omzetten van visuele signalen in onafhankelijke, ontologie-onafhankelijke representaties, ook wel latente acties genoemd. De capaciteit van latente actierepresentaties om robuuste controle af te leiden uit visuele waarnemingen moet echter nog rigoureus worden geëvalueerd. Wij introduceren de Latent Action Representation Yielding (LARY) Benchmark, een uniform kader voor het evalueren van latente actierepresentaties voor zowel hoogwaardige semantische acties (wat te doen) als laagwaardige robotbesturing (hoe het te doen). De uitgebreid samengestelde dataset omvat meer dan een miljoen video's (1.000 uur) verspreid over 151 actiecategorieën, naast 620K afbeeldingenparen en 595K bewegingstrajectoria in diverse omgevingen en met verschillende belichamingen. Onze experimenten onthullen twee cruciale inzichten: (i) Algemene visuele basis-modellen, getraind zonder enige actiesupervisie, presteren consistent beter dan gespecialiseerde belichaamde latente actiemodellen. (ii) Een op latenties gebaseerde visuele ruimte is fundamenteel beter afgestemd op de fysieke actieruimte dan een op pixels gebaseerde ruimte. Deze resultaten suggereren dat algemene visuele representaties inherent actiegerelateerde kennis voor fysieke controle coderen, en dat abstractie op semantisch niveau een fundamenteel effectiever pad vormt van visie naar actie dan reconstructie op pixelniveau.
Het reconstrueren van 3D-representaties uit 2D-invoer is een fundamentele taak in computer vision en grafische technologie, en fungeert als een hoeksteen voor het begrijpen van en interactie met de fysieke wereld. Hoewel traditionele methoden een hoge nauwkeurigheid bereiken, worden zij beperkt door trage optimalisatie per scène of categorie-specifieke training, wat hun praktische inzet en schaalbaarheid belemmert. Daarom heeft generaliseerbare voorwaartse 3D-reconstructie de afgelopen jaren een snelle ontwikkeling doorgemaakt. Door een model te leren dat afbeeldingen direct naar 3D-representaties afbeeldt in één voorwaartse pass, maken deze methoden efficiënte reconstructie en robuuste generalisatie over verschillende scènes mogelijk. Ons overzicht wordt gemotiveerd door een kritische observatie: ondanks de diverse geometrische uitvoerrepresentaties, variërend van impliciete velden tot expliciete primitieven, delen bestaande voorwaartse benaderingen vergelijkbaar hoogwaardige architectuurpatronen, zoals backbones voor beeldkenmerkextractie, mechanismen voor multi-view-informatiefusie en geometriebewuste ontwerpprincipes. Bijgevolg abstraheren we van deze representatieverschillen en richten we ons in plaats daarvan op modelontwerp, waarbij we een nieuwe taxonomie voorstellen die zich richt op modelontwerpstrategieën die onafhankelijk zijn van het uitvoerformaat. Onze voorgestelde taxonomie organiseert de onderzoeksrichtingen in vijf kernproblemen die de recente onderzoeksontwikkeling sturen: kenmerkverbetering, geometriebewustzijn, model efficiëntie, augmentatiestrategieën en temporeel bewuste modellen. Om deze taxonomie te ondersteunen met empirische onderbouwing en gestandaardiseerde evaluatie, bespreken we verder uitgebreid gerelateerde benchmarks en datasets, en categoriseren we uitgebreid real-world toepassingen op basis van voorwaartse 3D-modellen. Ten slotte schetsen we toekomstige richtingen om open uitdagingen aan te pakken, zoals schaalbaarheid, evaluatiestandaarden en wereldmodellering.
On-policy distillatie (OPD) is naar voren gekomen als een efficiënt paradigma voor het na-trainen van grote taalmodellen. De standaard OPD-aanpak vereist echter een live teacher-inferentieserver gedurende de hele trainingsperiode, wat aanzienlijke infrastructuurkosten met zich meebrengt. In dit werk onderzoeken we of on-policy distillatie offline kan worden uitgevoerd. Een voor de hand liggende aanpak is om de teacher-log-kansen eenmalig vooraf te berekenen over SFT-rollouts en deze tijdens de training te hergebruiken. In de praktijk blijkt deze offline variant echter niet consistent de prestaties van standaard OPD te evenaren. Om dit prestatieverschil te begrijpen, identificeren we een voorheen over het hoofd gezien criterium dat cruciaal is voor elke OPD-pijplijn, en dat we *teacher-consistentie* noemen. Dit criterium vereist dat hetzelfde teacher-model wordt gebruikt voor zowel supervised fine-tuning (SFT) als voor OPD. We tonen aan dat het schenden van teacher-consistentie een onherleidbare bias in de gradient introduceert, waardoor zowel offline als online OPD convergeert naar een suboptimaal vast punt, ongeacht de trainingsduur. Voortbouwend op dit inzicht, stellen we Lightning OPD voor, een offline on-policy distillatieraamwerk dat teacher-consistentie afdwingt door teacher-log-kansen vooraf te berekenen over SFT-rollouts. Dit ontwerp elimineert de noodzaak voor een live teacher-server volledig. We tonen verder aan dat, onder teacher-consistentie, Lightning OPD hetzelfde optimum deelt als standaard OPD, met een begrensde gradientafwijking en een impliciet regularisatie-effect dat helpt beleidsafwijking (policy drift) te voorkomen. Uitgebreide experimenten op het gebied van wiskundig redeneren en codegeneratie tonen aan dat Lightning OPD state-of-the-art prestaties bereikt met een aanzienlijk verbeterde efficiëntie. Uitgaande van een met SFT geïnitialiseerd Qwen3-8B-Base model, bereikt Lightning OPD 69,9% op AIME 2024 in slechts 30 GPU-uren, wat een 4,0x versnelling oplevert ten opzichte van standaard OPD en de drempel voor academisch onderzoek naar LLM-na-training aanzienlijk verlaagt.
Wij presenteren een discriminerend multimodaal beloningsmodel dat alle kandidaatantwoorden in één enkele voorwaartse passering beoordeelt. Conventionele discriminerende beloningsmodellen evalueren elk antwoord onafhankelijk, wat meerdere voorwaartse passeringen vereist – één voor elk potentieel antwoord. Onze aanzet concateneert meerdere antwoorden met scheidingstokens en past kruis-entropie toe op hun scalaire scores, wat direct comparatief redeneren en efficiënte N-weg voorkeursleren mogelijk maakt. Het multi-antwoordontwerp levert ook een versnelling van de kloksnelheid tot N× en een vermindering van FLOPs op vergeleken met conventionele single-responsescores. Om N-weg beloningsevaluatie verder te brengen dan bestaande paarsgewijze benchmarks, construeren wij twee nieuwe benchmarks: (1) MR²Bench-Image bevat door mensen geannoteerde rangschikkingen van antwoorden van 8 diverse modellen; (2) MR²Bench-Video is een grootschalige videogebaseerde beloningsbenchmark afgeleid van 94K crowdsourced paarsgewijze menselijke beoordelingen van video-vraag-antwoordtasks over 19 modellen, ontdaan van ruis via ensemble van voorkeursgrafen. Beide benchmarks bieden varianten voor 4-antwoordevaluatie, bemonsterd uit de volledige rangschikkingen. Gebouwd op een 4B vision-language backbone met LoRA-fijnafstemming en een lichtgewicht MLP-waardekop, behaalt ons model state-of-the-art resultaten op zes multimodale beloningsbenchmarks, waaronder MR²Bench-Image, MR²Bench-Video en vier andere bestaande benchmarks. Ons model overtreft bestaande grotere generatieve en discriminerende beloningsmodellen. Wij tonen verder aan dat ons beloningsmodel, wanneer gebruikt in reinforcement learning met GRPO, verbeterde beleidsmodellen oplevert die prestaties handhaven op standaard multimodale benchmarks, terwijl de kwaliteit van open-einde-generatie aanzienlijk verbetert en een single-response discriminerend beloningsmodel (RM) baseline met grote marge overtreft in zowel trainingsstabiliteit als kwaliteit van open-einde-generatie.
Mensen gebruiken introspectie om hun begrip te evalueren via privé interne toestanden die niet toegankelijk zijn voor externe waarnemers. Wij onderzoeken of grote taalmodelen over vergelijkbaar geprivilegieerde kennis beschikken over de juistheid van antwoorden, informatie die niet via externe observatie verkrijgbaar is. We trainen juistheidsclassificatoren op vraagrepresentaties afkomstig van zowel de eigen verborgen toestanden van een model als van externe modellen, om te testen of zelfrepresentaties een prestatievoordeel bieden. Bij standaardevaluatie vinden we geen voordeel: zelf-probes presteren vergelijkbaar met probes van peer-modellen. We veronderstellen dat dit komt door een hoge overeenstemming tussen modellen over antwoordjuistheid. Om authentieke geprivilegieerde kennis te isoleren, evalueren we op deelverzamelingen met onenigheid, waar modellen tegenstrijdige voorspellingen produceren. Hier ontdekken we domeinspecifieke geprivilegieerde kennis: zelfrepresentaties overtreffen peer-representaties consistent bij taken met feitelijke kennis, maar tonen geen voordeel bij wiskundig redeneren. We lokaliseren verder deze domeinasymmetrie over modellagen, en vinden dat het feitelijke voordeel zich geleidelijk ontwikkelt vanaf de vroege tot middenlagen, consistent met modelspecifieke geheugenretrieval, terwijl wiskundig redeneren op geen enkel niveau een consistent voordeel vertoont.
Vision-Language Models (VLMs) presteren uitstekend op veel multimodale redeneerbenchmarks, maar deze evaluaties vereisen vaak geen uitgebreide uitlezing van de afbeelding en kunnen daarom tekortkomingen verhullen in het nauwkeurig vastleggen van alle visuele details. Wij introduceren Grid2Matrix (G2M), een gecontroleerde benchmark waarin een model een kleurenraster en een kleur-naar-nummer toewijzing te zien krijgt, en de bijbehorende matrix moet uitvoeren. Door de rastergrootte en het aantal kleuren te variëren, biedt G2M een eenvoudige manier om de visuele complexiteit te vergroten terwijl semantische verstorende factoren worden geminimaliseerd. Wij ontdekken dat VLMs een scherpe, vroege ineenstorting vertonen bij zero-shot end-to-end evaluatie, waarbij ze falen op verrassend kleine rasters in plaats van geleidelijk af te nemen naarmate de taak complexer wordt. Wij onderzoeken de visuele encoders van VLMs uit twee representatieve families en ontdekken dat deze aanzienlijk meer van de rasterinformatie behouden dan de corresponderende end-to-end uitvoeren. Dit suggereert dat het falen niet alleen wordt verklaard door de visuele codering, maar ook een kloof weerspiegelt tussen wat er herwinbaar blijft uit de visuele kenmerken en wat uiteindelijk in taal wordt uitgedrukt. Wij noemen deze kloof Digitale Agnosie. Verdere analyses tonen aan dat deze fouten sterk gestructureerd zijn en sterk afhangen van hoe rastercellen overlappen met de grenzen van visuele patches. Wij stellen ook vast dat gangbare strategieën zoals modelschaling en multimodale afstemming deze faalwijze niet volledig elimineren. Wij verwachten dat G2M een nuttige testomgeving zal zijn om te begrijpen waar en hoe VLMs fijne visuele details verliezen, en voor het evalueren van taken waarbij het missen van zelfs kleine visuele details van belang kan zijn, zoals tabellen, grafieken, formulieren en GUI's.
Wij evalueren hoe interne redeneersporen, die wij thought streams noemen, het begrip van videoscenes beïnvloeden in vision-language modellen. Met vier configuraties van Google's Gemini 2.5 Flash en Flash Lite, toegepast op scenes geëxtraheerd uit 100 uur video, stellen wij drie vragen: leidt meer nadenken tot betere output, waar houden de verbeteringen op, en waar denken deze modellen eigenlijk over na? Wij introduceren drie evaluatiemetrics. *Contentfulness* meet hoeveel van de thought stream nuttige scene-inhoud is versus meta-commentaar. *Thought-Final Coverage* meet hoe getrouw de thought stream wordt vertaald naar de uiteindelijke output. *Dominant Entity Analysis* identificeert op welke onderwerpen, handelingen en settings het model zich focust. GPT-5 fungeert als onafhankelijke beoordelaar. Wij constateren dat kwaliteitswinst door extra denken snel plateauert, waarbij de meeste verbetering plaatsvindt in de eerste paar honderd tokens. Flash Lite biedt de beste balans tussen kwaliteit en tokenverbruik. Krappe redeneerbudgetten zorgen ervoor dat het model inhoud toevoegt in de eindoutput waar het nooit over heeft geredeneerd, een vorm van hallucinatie tijdens de compressiestap. Ondanks dat het verschillende modelniveaus zijn, produceren Flash en Flash Lite vergelijkbare thought streams, hoewel ze in stijl verschillen: Flash bespreekt zijn redeneerproces, terwijl Lite zich richt op het beschrijven van de scene.
Speculatief decoderen versnelt autoregressieve taalmodel(len) door gebruik te maken van een lichtgewicht 'drafter' die meerdere toekomstige tokens voorstelt, die het doelmodel vervolgens parallel verifieert. DFlash toont aan dat een 'block diffusion drafter' een volledig conceptblok in één enkele voorwaartse pass kan genereren en state-of-the-art prestaties bij speculatief decoderen bereikt, waarbij het sterkere autoregressieve drafters zoals EAGLE-3 overtreft. Vanilla DFlash verifieert echter slechts één enkele voorgestelde traject per ronde, wat de acceptatielengte mogelijk beperkt. Wij introduceren DDTree (Diffusion Draft Tree), een methode die een conceptboom direct construeert uit de per-positie verdelingen van een 'block diffusion drafter'. Binnen een vast knooppuntenbudget gebruikt DDTree een eenvoudig 'best-first' heap-algoritme om de voortzettingen te selecteren die volgens een surrogaat, gedefinieerd door de output van het draftmodel, het meest waarschijnlijk overeenkomen met het doelmodel. De resulterende boom wordt efficiënt geverifieerd in één enkele voorwaartse pass van het doelmodel met behulp van een 'ancestor-only' aandachtmasker. Omdat DDTree voortbouwt op DFlash, een toonaangevend draftmodel voor speculatief decoderen, plaatst deze winst DDTree onder de toonaangevende benaderingen voor speculatief decoderen.
Grote taalmodellen (LLM's) vertonen vaak sterke veiligheidsprestaties in hoog-resource talen, maar tonen ernstige kwetsbaarheden wanneer ze worden bevraagd in laag-resource talen. Wij schrijven deze kloof toe aan een mismatch tussen het taal-agnostische semantische begripsvermogen en de taal-dominante veiligheidsafstemming die bevooroordeeld is ten gunste van hoog-resource talen. In overeenstemming met deze hypothese identificeren we empirisch de semantische bottleneck in LLM's: een tussenlaag waarin de geometrie van modelrepresentaties primair wordt bepaald door gedeelde semantische inhoud in plaats van taalidentiteit. Voortbouwend op deze observatie stellen we Language-Agnostic Semantic Alignment (LASA) voor, die de veiligheidsafstemming direct verankert in semantische bottlenecks. Experimenten tonen aan dat LASA de veiligheid aanzienlijk verbetert in alle talen: het gemiddelde aanvalsuccespercentage (ASR) daalt van 24,7% naar 2,8% op LLaMA-3.1-8B-Instruct en blijft rond de 3-4% voor Qwen2.5- en Qwen3-Instruct-modellen (7B-32B). Samen bieden onze analyse en methode een representatieniveau-perspectief op LLM-veiligheid, wat suggereert dat veiligheidsafstemming het veiligheidsbegrip niet moet verankeren in oppervlaktetekst, maar in de taal-agnostische semantische ruimte van het model.
Traditionele architecturen met vaste diepte schalen kwaliteit door het verhogen van de trainings-FLOPs, meestal via meer parametrisering, ten koste van een hoger geheugengebruik of meer data. Een mogelijk alternatief zijn geloopte architecturen, die FLOPs verhogen door activaties in een lus door een blok lagen te sturen. Hoewel veelbelovend, kunnen bestaande recepten voor het trainen van geloopte architecturen onstabiel zijn, met problemen zoals residuele explosie en verliespieken. Wij pakken deze uitdagingen aan door looping te herformuleren als een niet-lineair tijdvariant dynamisch systeem over de residuele stroom. Via een lineaire benadering van dit systeem stellen we vast dat instabiliteit in bestaande geloopte architecturen optreedt als gevolg van grote spectrale normen in hun injectieparameters. Om deze stabiliteitsproblemen aan te pakken, stellen we Parcae voor, een nieuwe stabiele, geloopte architectuur die de spectrale norm van de injectieparameters beperkt via discretisatie van een negatieve diagonale parametrisatie. Hierdoor behaalt Parcae tot 6,3% lagere validatieperplexiteit ten opzichte van eerdere grootschalige geloopte modellen. Met behulp van onze stabiele geloopte architectuur onderzoeken we de schaaleigenschappen van looping als medium om kwaliteit te verbeteren door FLOPs te verhogen tijdens training en testtijd. Voor de training leiden we voorspelbare machtswetten af om FLOPs te schalen terwijl het aantal parameters constant blijft. Onze initiële schaalwetten suggereren dat looping en data in tandem moeten worden verhoogd, gegeven een vast FLOP-budget. Tijdens testtijd stellen we vast dat Parcae looping kan gebruiken om rekenkracht te schalen, volgens een voorspelbaar, verzadigend exponentieel verval. Bij opschaling naar 1,3B parameters verbetert Parcae de CORE- en Core-Extended-kwaliteit met respectievelijk 2,99 en 1,18 punten in vergelijking met sterke Transformer-baselines onder een vast parameter- en databudget, waarbij het een relatieve kwaliteit bereikt van tot 87,5% van een Transformer van het dubbele formaat.
Optische tekenherkenning (OCR) heeft een snelle ontwikkeling doorgemaakt met de opkomst van vision-language modellen, maar de evaluatie blijft geconcentreerd op een kleine groep scripts met hoge en middelhoge middelen. Wij introduceren GlotOCR Bench, een uitgebreide benchmark die de OCR-generaliseerbaarheid evalueert over 100+ Unicode-scripts. Onze benchmark omvat schone en gedegradeerde beeldvarianten gegenereerd uit echte meertalige teksten. De afbeeldingen worden gegenereerd met lettertypes uit de Google Fonts repository, vormgegeven met HarfBuzz en gerasterd met FreeType, met ondersteuning voor zowel LTR- als RTL-scripts. Steekproeven van gegenereerde afbeeldingen zijn handmatig gecontroleerd om de correcte weergave voor alle scripts te verifiëren. Wij evalueren een breed scala aan open-access en propriëtaire vision-language modellen en constateren dat de meeste modellen goed presteren op minder dan tien scripts, en dat zelfs de sterkste frontier-modellen niet verder generaliseren dan dertig scripts. De prestaties volgen grotendeels de script-specifieke pretrainingsdekking, wat suggereert dat huidige OCR-systemen evenveel steunen op taalmodelpretraining als op visuele herkenning. Modellen die met onbekende scripts worden geconfronteerd, produceren ofwel willekeurige ruis of hallucineren karakters uit vergelijkbare scripts die ze al kennen. Wij publiceren de benchmark en pijplijn voor reproduceerbaarheid. Pijplijndefinitie: https://github.com/cisnlp/glotocr-bench, Benchmark: https://hf.co/datasets/cis-lmu/glotocr-bench.
Visuele tokenizers zetten hoogdimensionale ruwe pixels om in een gecomprimeerde representatie voor downstream modellering. Naast compressie bepalen tokenizers welke informatie behouden blijft en hoe deze georganiseerd wordt. Een de facto standaardbenadering voor videotokenisatie is het representeren van een video als een ruimtelijk-temporeel 3D-rooster van tokens, waarbij elke token de corresponderende lokale informatie in het originele signaal vastlegt. Hierdoor moet het downstream model dat de tokens verwerkt, zoals een tekst-naar-video model, leren om alle laag-niveau details "pixel-voor-pixel" te voorspellen, ongeacht de inherente complexiteit van de video, wat leidt tot een hoge leercomplexiteit. Wij presenteren VideoFlexTok, dat video's representeert met een variabel-lange reeks tokens gestructureerd op een grof-naar-fijne manier – waarbij de eerste tokens (emergent) abstracte informatie vastleggen, zoals semantiek en beweging, en latere tokens fijnkorrelige details toevoegen. De generatieve flow-decoder maakt realistische videoreconstructies mogelijk vanaf elk aantal tokens. Deze representatiestructuur maakt het mogelijk het aantal tokens aan te passen aan downstream behoeften en video's langer dan de baseline-methoden te coderen met hetzelfde budget. We evalueren VideoFlexTok op klasse- en tekst-naar-video generatieve taken en tonen aan dat het leidt tot efficiëntere training vergeleken met 3D-roostertokens, bijvoorbeeld door vergelijkbare generatiekwaliteit (gFVD en ViCLIP Score) te bereiken met een 5x kleiner model (1,1B vs 5,2B). Ten slotte demonstreren we hoe VideoFlexTok lange videogeneratie mogelijk kan maken zonder excessieve rekenkosten door een tekst-naar-video model te trainen op 10-seconden 81-frame video's met slechts 672 tokens, 8x minder dan een vergelijkbare 3D-rooster tokenizer.
Specificatiegestuurde ontwikkeling (SDD) met AI-codeeragents biedt een gestructureerde workflow, maar agents blijven vaak "contextblind" in grote, evoluerende repositories, wat leidt tot gehallucineerde API's en architectuurschendingen. Wij presenteren Spec Kit Agents, een multi-agent SDD-pijplijn (met PM- en ontwikkelaarsrollen) die fase-specifieke, context-verankerende hooks toevoegt. Alleen-lezen probeerhooks verankeren elke fase (Specificeren, Plannen, Taken, Implementeren) in repositorybewijs, terwijl validatiehooks tussenproducten controleren tegen de omgeving. Wij evalueren 128 runs met 32 features verspreid over vijf repositories. Context-verankerende hooks verbeteren de beoordeelde kwaliteit met +0,15 op een 1-5 samengestelde LLM-als-rechter-score (+3,0 procent van de volledige score; Wilcoxon signed-rank, p < 0,05) bij behoud van 99,7-100 procent repository-level testcompatibiliteit. Wij evalueren het framework verder op SWE-bench Lite, waar augmentatiehooks de baseline met 1,7 procent verbeteren en een Pass@1 van 58,2 procent behalen.
Pokemon Red is een JRPG met een lange speelduur, schaarse beloningen, gedeeltelijke observeerbaarheid en eigenaardige besturingsmechanica, waardoor het een uitdagende benchmark voor reinforcement learning is. Hoewel recent onderzoek heeft aangetoond dat PPO-agents de eerste twee gyms kunnen verslaan door middel van intensieve reward shaping en gemanipuleerde observaties, blijft de training in de praktijk broos; agents vervallen vaak in actielussen, menu-spam of onproductief rondzwerven. In dit artikel presenteren we PokeRL, een modulair systeem dat deep reinforcement learning-agents traint om vroege game-taken in Pokemon Red te voltooien, waaronder het verlaten van het huis van de speler, het verkennen van Pallet Town om bij het hoge gras te komen en het winnen van het eerste rivalengevecht. Onze belangrijkste bijdragen zijn een loop-aware environment wrapper rond de PyBoy-emulator met map masking, een meerlaags anti-loop- en anti-spam-mechanisme, en een dense hiërarchische reward-structuur. Wij beargumenteren dat praktische systemen zoals PokeRL, die faalmodi zoals loops en spam expliciet modelleren, een noodzakelijke tussenstap zijn tussen speelgoedbenchmarks en volwaardige Pokemon League-kampioenagents. Code is beschikbaar op https://github.com/reddheeraj/PokemonRL.
Humanoïde robots beloven algemene assistentie, maar loco-manipulatie in de echte wereld blijft een uitdaging omdat dit helelichaamsstabiliteit, behendige handen en contactbewuste perceptie vereist onder frequente contactveranderingen. In dit werk bestuderen we behendige, contactrijke humanoïde loco-manipulatie. We ontwikkelen eerst een op Reinforcement Learning (RL) gebaseerde helelichaamscontroller die zorgt voor stabiele uitvoering van het onderlichaam en de torso tijdens complexe manipulatie. Op basis van deze controller ontwikkelen we een dataverzamelsysteem voor het hele humanoïde lichaam dat VR-gebaseerde teleoperatie combineert met mens-naar-humanoïde bewegingsmapping, waardoor efficiënte verzameling van demonstraties in de echte wereld mogelijk wordt. Vervolgens stellen we Humanoid Transformer with Touch Dreaming (HTD) voor, een multimodale encoder-decoder Transformer die aanraking modelleert als een kernmodaliteit naast multi-view visie en proprioceptie. HTD wordt in één fase getraind met behavioral cloning, aangevuld met 'touch dreaming': naast het voorspellen van actiebrokken, voorspelt het beleid toekomstige handgewrichtskrachten en toekomstige tactiele latenties, wat de gedeelde Transformer-stam aanmoedigt om contactbewuste representaties te leren voor behendige interactie. Over vijf contactrijke taken - Insert-T, Boek Organisatie, Handdoek Vouwen, Kattenbak Scheppen en Theeschenken - behaalt HTD een relatieve verbetering van 90,9% in het gemiddelde slagingspercentage ten opzichte van de sterkere baseline. Ablatieresultaten tonen verder aan dat tactiele voorspelling in de latente ruimte effectiever is dan voorspelling op basis van ruwe tactiele data, wat een relatieve winst van 30% in het slagingspercentage oplevert. Deze resultaten tonen aan dat de combinatie van robuuste helelichaamsuitvoering, schaalbare humanoïde dataverzameling en voorspellend, op aanraking gericht leren veelzijdige, hoogbehendige humanoïde manipulatie in de echte wereld mogelijk maakt. Projectwebpagina: humanoid-touch-dream.github.io.
Latente diffusiemodellen voor medische beeldsuperresolutie erven universeel variational autoencoders over die zijn ontworpen voor natuurlijke foto's. Wij tonen aan dat deze standaardkeuze, en niet de diffusie-architectuur, de dominante beperking vormt voor de reconstructiekwaliteit. In een gecontroleerd experiment waarbij alle andere pijplijncomponenten constant werden gehouden, leverde het vervangen van de generieke Stable Diffusion VAE door MedVAE, een domeinspecifieke autoencoder voorgetraind op meer dan 1,6 miljoen medische beelden, een verbetering van +2,91 tot +3,29 dB PSNR op voor knie-MRI, hersen-MRI en thoraxfoto's (n = 1.820; Cohen's d = 1,37 tot 1,86, alle p < 10^{-20}, Wilcoxon rangtekentoets). Wavelet-decompositie lokaliseert het voordeel in de fijnste ruimtelijke frequentiebanden die anatomisch relevante fijnstructuur coderen. Ablatie-experimenten over inferentieschema's, voorspellingsdoelen en generatieve architecturen bevestigen dat het kwaliteitsverschil stabiel is binnen plus of min 0,15 dB, terwijl de hallucinatiefrequenties vergelijkbaar blijven tussen methoden (Cohen's h < 0,02 voor alle datasets). Dit stelt vast dat reconstructiegetrouwheid en generatieve hallucinaties worden bepaald door onafhankelijke pijplijncomponenten. Deze resultaten bieden een praktisch screeningscriterium: de reconstructiekwaliteit van de autoencoder, meetbaar zonder diffusietraining, voorspelt de uiteindelijke SR-prestatie (R² = 0,67), wat suggereert dat domeinspecifieke VAE-selectie moet voorafgaan aan diffusie-architectuurzoekopdrachten. Code en getrainde modelgewichten zijn openbaar beschikbaar op https://github.com/sebasmos/latent-sr.
Wij behandelen het probleem van tactiele lokalisatie, waarbij het doel is om beeldregio's te identificeren die dezelfde materiaaleigenschappen delen als een tactiele invoer. Bestaande visuo-tactiele methoden vertrouwen op globale afstemming en slagen er daardoor niet in de fijnmazige lokale correspondenties te vangen die voor deze taak nodig zijn. De uitdaging wordt vergroot door bestaande datasets, die voornamelijk close-upbeelden met weinig diversiteit bevatten. Wij stellen een model voor dat lokale visuo-tactiele afstemming leert via dichte kruismodale feature-interacties, waardoor tactiele salientiekaarten worden geproduceerd voor op aanraking geconditioneerde materiaalsegmentatie. Om de beperkingen van datasets te overwinnen, introduceren wij: (i) multi-materiaal scènebeelden uit de praktijk die de visuele diversiteit vergroten, en (ii) een materiaaldiversiteit-koppelingsstrategie die elk tactiel monster afstemt op visueel gevarieerde maar tactiel consistente beelden, wat de contextuele lokalisatie en robuustheid tegen zwakke signalen verbetert. Wij hebben ook twee nieuwe datasets voor op tactiel gebaseerde materiaalsegmentatie samengesteld voor kwantitatieve evaluatie. Experimenten op zowel nieuwe als bestaande benchmarks tonen aan dat onze aanpak bestaande visuo-tactiele methoden aanzienlijk overtreft in tactiele lokalisatie.
Grote vision-language-modellen (VLMs) vertrouwen vaak op bekende semantische prioriteiten, maar bestaande evaluaties scheiden perceptiefouten niet netjes van regeltoewijzingsfouten. Wij bestuderen dit gedrag als semantische fixatie: het behouden van een standaardinterpretatie, zelfs wanneer de prompt een alternatieve, even geldige toewijzing specificeert. Om dit effect te isoleren, introduceren we VLM-Fix, een gecontroleerde benchmark met vier abstracte strategieën die identieke eindbordposities evalueert onder gepaarde standaard- en inverse regelformuleringen. Over 14 open en gesloten VLMs heen bevoordeelt de nauwkeurigheid consequent standaardregels, wat een robuuste semantische-fixatiekloof onthult. Promptinterventies ondersteunen dit mechanisme: neutrale alias-prompts verkleinen de inverse-regel-kloof aanzienlijk, terwijl semantisch geladen aliassen deze heropenen. Post-training is sterk regelgealignerd: training op één regel verbetert de transfer onder dezelfde regel, maar schaadt transfer onder de tegenovergestelde regel, terwijl gezamenlijke-regel-training bredere transfer verbetert. Om de externe validiteit buiten synthetische spellen te testen, evalueren we analoge defamiliarisatie-interventies op VLMBias en observeren we hetzelfde kwalitatieve patroon. Tenotte herstelt sturing van late-laag-activaties gedeeltelijk de verslechterde prestaties, wat aangeeft dat semantische-fixatiefouten ten minste gedeeltelijk bewerkbaar zijn in late representaties. Projectpagina, code en dataset beschikbaar op https://maveryn.github.io/vlm-fix/.
Grote taalmodellen worden steeds vaker ingezet als agenten in sociale, economische en beleidssimulaties. Een veelvoorkomende aanname is dat sterker redeneervermogen de simulatiegetrouwheid zou moeten verbeteren. Wij beargumenteren dat deze aanname kan falen wanneer het doel niet is om een strategisch probleem op te lossen, maar om plausibel begrensd rationeel gedrag te bemonsteren. In dergelijke settings kunnen modellen met verbeterd redeneervermogen betere probleemoplossers maar slechtere simulatoren worden: ze kunnen overoptimaliseren voor strategisch dominante acties, compromisgericht eindgedrag doen instorten, en soms een diversiteit-zonder-getrouwheid-patroon vertonen waarbij lokale variatie blijft bestaan zonder getrouwheid op uitkomstniveau. Wij bestuderen deze mismatch tussen probleemoplosser en bemonsteraar in drie multi-agent onderhandelingsomgevingen, aangepast uit eerder simulatiewerk: een scenario met ambiguë gefragmenteerde autoriteit voor handelslimieten, een scenario met ambiguë verenigde tegenstand voor handelslimieten, en een nieuw-domein geval van netbeperking in noodstroombeheer. Wij vergelijken drie reflectiecondities – geen reflectie, begrensde reflectie en inherent redeneren – over twee primaire modelfamilies heen en breiden hetzelfde protocol vervolgens uit naar directe OpenAI runs met GPT-4.1 en GPT-5.2. In alle drie de experimenten produceert begrensde reflectie aanzienlijk diversere en meer op compromis gerichte trajecten dan zowel geen reflectie als inherent redeneren. In de directe OpenAI-extensie eindigt GPT-5.2 inherent in 45 van de 45 runs over de drie experimenten in autoritaire beslissingen, terwijl GPT-5.2 begrensd in elke omgeving compromisuitkomsten herstelt. De bijdrage is niet de bewering dat redeneren over het algemeen schadelijk is. Het is een methodologische waarschuwing: modelcapaciteit en simulatiegetrouwheid zijn verschillende doelstellingen, en gedragssimulatie zou modellen moeten kwalificeren als bemonsteraars, niet alleen als probleemoplossers.
Ruimtelijk competentie is het vermogen om een consistente interne representatie van een omgeving te behouden en deze te gebruiken om discrete structuren af te leiden en handelingen te plannen onder beperkingen. Bestaande ruimtelijke evaluaties voor grote modellen zijn beperkt tot het testen van geïsoleerde primitieven via 3D-transformaties of visuele vraag-antwoordtaken. Wij introduceren de Spatial Competence Benchmark (SCBench), die drie hiërarchische capaciteitsniveaus omvat waarvan de taken uitvoerbare outputs vereisen die worden geverifieerd door deterministische checkers of op simulatoren gebaseerde evaluatoren. Op SCBench vertonen drie toonaangevende modellen een monotoon dalende nauwkeurigheid naarmate de capaciteitsladder wordt beklommen. Experimenten met tokenlimieten tonen aan dat nauwkeurigheidswinst zich concentreert bij lage budgets en snel verzadigt, waarbij fouten vooral bestaan uit lokaal plausibele geometrie die globale beperkingen schendt. Wij publiceren de taakgeneratoren, verifiers en visualisatietools.
Real-time free-viewpoint rendering vereist een balans tussen redundantie van meerdere camera's en de latentiebeperkingen van interactieve toepassingen. Wij pakken deze uitdaging aan door lichtgewicht geometrie te combineren met machine learning en presenteren 3DTV, een feedforward-netwerk voor real-time interpolatie van sparse views. Een op Delaunay-triangulatie gebaseerde tripletselectie zorgt voor voldoende hoekdekking voor elk doelbeeld. Hierop voortbordurend introduceren we een pose-aware depth-module die een coarse-to-fine dieptepiramide schat, wat efficiënte feature-reprojectie en occlusiebewuste blending mogelijk maakt. In tegenstelling tot methoden die scene-specifieke optimalisatie vereisen, werkt 3DTV feedforward zonder hertraining, wat het praktisch maakt voor AR/VR, telepresence en interactieve toepassingen. Onze experimenten op uitdagende multi-view videodatasets tonen aan dat 3DTV consequent een sterke balans tussen kwaliteit en efficiëntie bereikt, en recente real-time novel-view baseline-methoden overtreft. Cruciaal is dat 3DTV expliciete proxies vermijdt, wat robuuste rendering in uiteenlopende scènes mogelijk maakt. Dit maakt het een praktische oplossing voor multi-view streaming met lage latentie en interactieve rendering. Projectpagina: https://stefanmschulz.github.io/3DTV_webpage/
Naarmate grote taalmodellen (LLM's) steeds vaker als autonome agents worden ingezet, is het begrijpen van hoe strategisch gedrag ontstaat in multi-agentomgevingen een belangrijke uitdaging op het gebied van alignment geworden. Wij nemen een neutraal empirisch standpunt in en construeren een gecontroleerde omgeving waarin strategisch gedrag direct kan worden waargenomen en gemeten. Wij introduceren een grootschalige multi-agent simulatie in een vereenvoudigd model van New York City, waar door LLM's aangedreven agents met tegenstrijdige prikkels interacteren. Blauwe agents streven ernaar hun bestemming efficiënt te bereiken, terwijl Rode agents proberen hen via overtuigende taal naar routes met veel reclameborden te leiden om de advertentie-inkomsten te maximaliseren. Verborgen identiteiten maken navigatie sociaal gemodereerd, waardoor agents moeten beslissen wanneer ze moeten vertrouwen of misleiden. Wij bestuderen beleidsleren via een iteratief simulatiepijplijn dat agentbeleid bijwerkt over herhaalde interactieronden met behulp van Kahneman-Tversky Optimalisatie (KTO). Blauwe agents worden geoptimaliseerd om blootstelling aan reclameborden te verminderen terwijl de navigatie-efficiëntie behouden blijft, terwijl Rode agents zich aanpassen om resterende zwaktes te exploiteren. Over de iteraties heen verbetert het beste Blauwe beleid de taaksucces van 46,0% naar 57,3%, hoewel de vatbaarheid hoog blijft op 70,7%. Latere beleidsregels vertonen sterkere selectieve samenwerking terwijl de trajectefficiëntie behouden blijft. Er blijft echter een hardnekkige afweging tussen veiligheid en behulpzaamheid bestaan: beleidsregels die beter bestand zijn tegen tegensturend gedrag maximaliseren niet tegelijkertijd de taakvoltooiing. Over het geheel genomen tonen onze resultaten aan dat LLM-agents beperkt strategisch gedrag kunnen vertonen, inclusief selectief vertrouwen en misleiding, terwijl ze zeer kwetsbaar blijven voor vijandige overreding.
Grote audio-taalmodelen (ALM's) hebben recentelijk opmerkelijke capaciteiten getoond in holistisch audiobegrip, maar ze blijven onbetrouwbaar voor temporele lokalisatie, d.w.z. de taak om exact aan te wijzen wanneer een gebeurtenis plaatsvindt binnen lange audiofragmenten. Deze beperking komt voort uit twee factoren: trainingsdata die gedomineerd wordt door clipniveau-supervisie zonder precieze tijdstempels, en benchmarks die er niet in slagen realistische scenario's te simuleren waarin korte gebeurtenissen verhuld worden door dichte achtergrondgeluiden. In dit artikel introduceren we SpotSound, een audio-taalmodel ontworpen voor het lokaliseren van audiogebeurtenissen. SpotSound bevat een nieuwe trainingsdoelstelling, specifiek ontworpen om gehallucineerde tijdstempels voor afwezige gebeurtenissen in de input te onderdrukken. Daarnaast presenteren we SpotSound-Bench, een uitdagende temporele lokalisatiebenchmark waarin doelgebeurtenissen minder dan ~10% van elke clip beslaan, wat zorgt voor een rigoureuze 'speld-in-een-hooiberg'-evaluatie. Experimenten tonen aan dat SpotSound state-of-the-art resultaten behaalt op temporele lokalisatiebenchmarks, terwijl het robuuste prestaties handhaaft over algemene downstream audio-taal taken. Code, modellen en benchmark zijn vrijgegeven op https://loiesun.github.io/spotsound/