Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Videowereldmodellen hebben een enorm potentieel getoond in het simuleren van de fysieke wereld, maar bestaande geheugenmechanismen behandelen omgevingen voornamelijk als statische canvassen. Wanneer dynamische objecten uit het zicht verdwijnen en later terugkeren, worstelen huidige methodes vaak, wat leidt tot bevroren, vervormde of verdwijnende objecten. Om dit aan te pakken, introduceren wij Hybride Geheugen, een nieuw paradigma dat modellen vereist om tegelijkertijd te fungeren als precieze archivarissen voor statische achtergronden en waakzame trackers voor dynamische objecten, om zo bewegingcontinuïteit tijdens afwezigheidsintervallen te garanderen. Om onderzoek in deze richting te faciliteren, construeren wij HM-World, de eerste grootschalige videodataset speciaal gewijd aan hybride geheugen. Deze bevat 59K hoogwaardige clips met ontkoppelde camera- en objecttrajecten, bestrijkt 17 diverse scènes, 49 verschillende objecten, en bevat zorgvuldig ontworpen uitstap-instap-gebeurtenissen om hybride coherentie rigoureus te evalueren. Verder stellen wij HyDRA voor, een gespecialiseerde geheugenarchitectuur die geheugen comprimeert tot tokens en een spatiotemporele relevantie-gedreven retrievalsysteem gebruikt. Door selectief aandacht te besteden aan relevante bewegingsaanwijzingen, behoudt HyDRA effectief de identiteit en beweging van verborgen objecten. Uitgebreide experimenten op HM-World tonen aan dat onze methode state-of-the-art benaderingen significant overtreft in zowel de consistentie van dynamische objecten als de algehele generatiekwaliteit.
Meervoudige-shot videogeneratie is cruciaal voor lange narratieve verhalen, maar huidige bidirectionele architecturen lijden onder beperkte interactiviteit en hoge latentie. Wij stellen ShotStream voor, een nieuwe causale meervoudige-shot architectuur die interactieve verhaalvertelling en efficiënte real-time framegeneratie mogelijk maakt. Door de taak te herformuleren als volgende-shot generatie geconditioneerd op historische context, stelt ShotStream gebruikers in staat om doorlopende narratieven dynamisch aan te sturen via streaming prompts. Wij bereiken dit door eerst een tekst-naar-video model te fine-tunen tot een bidirectionele volgende-shot generator, die vervolgens wordt gedistilleerd tot een causale student via Distribution Matching Distillation. Om de uitdagingen van inter-shot consistentie en foutaccumulatie inherent aan autoregressieve generatie te overwinnen, introduceren we twee belangrijke innovaties. Ten eerste behoudt een dual-cache geheugenmechanisme visuele coherentie: een globale contextcache bewaart conditionele frames voor inter-shot consistentie, terwijl een lokale contextcache gegenereerde frames binnen het huidige shot vasthoudt voor intra-shot consistentie. Een RoPE-discontinuïteitsindicator wordt gebruikt om de twee caches expliciet te onderscheiden en ambiguïteit te elimineren. Ten tweede, om foutaccumulatie tegen te gaan, stellen we een tweefasen-distillatiestrategie voor. Deze begint met intra-shot self-forcing geconditioneerd op grondwaarheid historische shots en breidt geleidelijk uit naar inter-shot self-forcing met zelf gegenereerde geschiedenissen, waardoor de kloof tussen training en test effectief wordt overbrugd. Uitgebreide experimenten tonen aan dat ShotStream coherente meervoudige-shot video's genereert met subseconden latentie, waarbij 16 FPS op een enkele GPU wordt bereikt. Het evenaart of overtreft de kwaliteit van langzamere bidirectionele modellen, wat de weg vrijmaakt voor real-time interactieve verhaalvertelling. Trainings- en inferentiecode, evenals de modellen, zijn beschikbaar op onze
Autoregressieve videodiffusiemodellen hebben opmerkelijke vooruitgang geboekt, maar worden nog steeds beperkt door onhanteerbare lineaire KV-cache-groei, temporele herhaling en cumulerende fouten tijdens de generatie van lange video's. Om deze uitdagingen aan te pakken, presenteren we PackForcing, een uniform raamwerk dat de gegenereerde geschiedenis efficiënt beheert via een nieuwe KV-cache-strategie met drie partities. Concreet categoriseren we de historische context in drie afzonderlijke typen: (1) Sink-tokens, die vroege ankerframes op volledige resolutie bewaren om de globale semantiek te behouden; (2) Mid-tokens, die een enorme spatiotemporele compressie bereiken (32x tokenreductie) via een dual-branch netwerk dat progressieve 3D-convoluties combineert met low-resolutie VAE-hercodering; en (3) Recent-tokens, die op volledige resolutie worden gehouden om lokale temporele coherentie te garanderen. Om het geheugengebruik strikt te begrenzen zonder kwaliteitsverlies, introduceren we een dynamisch top-k contextselectiemechanisme voor de mid-tokens, gekoppeld aan een continue Temporele RoPE-aanpassing die positiehiaten veroorzaakt door verwijderde tokens naadloos herstelt met verwaarloosbare overhead. Dankzij deze principled hiërarchische contextcompressie kan PackForcing coherente video's van 2 minuten (832x480) genereren met 16 FPS op een enkele H200 GPU. Het bereikt een begrensde KV-cache van slechts 4 GB en maakt een opmerkelijke 24x temporele extrapolatie mogelijk (5s naar 120s), waarbij het effectief werkt, zowel zero-shot als getraind op clips van slechts 5 seconden. Uitgebreide resultaten op VBench tonen state-of-the-art temporele consistentie (26.07) en dynamische graad (56.25) aan, wat bewijst dat kortvideotoezicht voldoende is voor hoogwaardige langevideosynthese. https://github.com/ShandaAI/PackForcing
Het uitrusten van Large Language Model (LLM)-agenten met domeinspecifieke vaardigheden is cruciaal voor het aanpakken van complexe taken. Toch vormt handmatige creatie een ernstige schaalbaarheidsbeperking. Automatische vaardigheidsgeneratie levert daarentegen vaak fragiele of gefragmenteerde resultaten op, omdat het ofwel vertrouwt op oppervlakkige parametrische kennis, ofwel sequentieel overfit op niet-generaliseerbare, traject-specifieke lessen. Om dit te overwinnen, introduceren we Trace2Skill, een raamwerk dat nabootst hoe menselijke experts vaardigheden creëren: door brede uitvoeringservaring holistisch te analyseren voordat deze wordt gedestilleerd tot één allesomvattende handleiding. In plaats van sequentieel te reageren op individuele trajecten, zet Trace2Skill een parallelle vloot van sub-agenten in om een diverse set uitvoeringen te analyseren. Het extraheert traject-specifieke lessen en consolideert deze hiërarchisch tot een uniforme, conflictvrije vaardigheidsdirectory via inductieve redenering. Trace2Skill ondersteunt zowel het verdiepen van bestaande, door mensen geschreven vaardigheden als het vanaf nul creëren van nieuwe. Experimenten in uitdagende domeinen, zoals spreadsheets, VisionQA en wiskundig redeneren, tonen aan dat Trace2Skill significant beter presteert dan sterke baseline-methoden, inclusief de officiële xlsx-vaardigheden van Anthropic. Cruciaal is dat deze op trajecten gebaseerde evolutie niet louter takenstappen of modelspecifieke eigenaardigheden memoriseert: geëvolueerde vaardigheden transfereren over verschillende LLM-schalen heen en generaliseren naar Out-of-Distribution (OOD) settings. Zo verbeterden vaardigheden, geëvolueerd door Qwen3.5-35B op zijn eigen trajecten, een Qwen3.5-122B-agent met tot wel 57,65 absolute procentpunten op WikiTableQuestions. Uiteindelijk tonen onze resultaten aan dat complexe agent-ervaring kan worden verpakt in hoogstwaarschijnlijk overdraagbare, declaratieve vaardigheden – zonder parameterupdates, zonder externe retrievalsmodules, en met gebruikmaking van open-source modellen zo klein als 35B parameters.
Momenteel vereenvoudigt de evaluatie van vision-language-modellen (VLM's) voor medische beeldvormingstaken de klinische realiteit te veel door te vertrouwen op vooraf geselecteerde 2D-beelden, waarvan de samenstelling aanzienlijk handwerk vergt. Deze opzet mist de kernuitdaging van realistische diagnostiek: een echte klinische agent moet actief volledige 3D-volumes kunnen doorlopen, over meerdere sequenties of modaliteiten heen, om bewijs te verzamelen en uiteindelijk een eindbeslissing te ondersteunen. Om dit aan te pakken, stellen we MEDOPENCLAW voor, een auditeerbare runtime die is ontworpen om VLM's dynamisch te laten functioneren binnen standaard medische tools of viewers (bijv. 3D Slicer). Bovenop deze runtime introduceren we MEDFLOWBENCH, een benchmark voor medische beeldvorming op studiiveau die multi-sequentiële brain MRI en long CT/PET omvat. Deze benchmark evalueert systematisch medische agent-capaciteiten over viewer-only, tool-use en open-method tracks. Eerste resultaten onthullen een cruciaal inzicht: hoewel state-of-the-art LLM's/VLM's (bijv. Gemini 3.1 Pro en GPT-5.4) de viewer succesvol kunnen navigeren om basale taken op studieniveau op te lossen, verslechtert hun prestaties paradoxaal genoeg wanneer ze toegang krijgen tot professionele ondersteuningstools, vanwege een gebrek aan precieze ruimtelijke verankering. Door de kloof te overbruggen tussen statische beeldperceptie en interactieve klinische workflows, leggen MEDOPENCLAW en MEDFLOWBENCH een reproduceerbare basis voor de ontwikkeling van auditeerbare, volledige-studie medische beeldvormingsagentschappen.
Vision-Language Models (VLMs) hebben indrukwekkende mogelijkheden gedemonstreerd voor codegeneratie in verschillende domeinen. Hun vermogen om complexe, multi-panel visualisaties te reproduceren op basis van real-world gegevens blijft echter grotendeels onbeoordeeld. Om deze leemte aan te pakken, introduceren we \texttt{RealChart2Code}, een nieuwe grootschalige benchmark met meer dan 2.800 instanties, gebaseerd op authentieke datasets en voorzien van taken met een duidelijke analytische intentie. Cruciaal is dat het de eerste benchmark is die systematisch de generatie van grafieken uit grootschalige ruwe data evalueert en iteratieve coderaffinage beoordeelt in een multi-turn conversationele setting. Onze uitgebreide evaluatie van 14 toonaangevende VLMs op RealChart2Code onthult een significante prestatievermindering in vergelijking met eenvoudigere benchmarks, wat hun problemen met complexe plotstructuren en authentieke data benadrukt. Onze analyse legt een aanzienlijke prestatiekloof bloot tussen propriëtaire en open-weight modellen en bevestigt dat zelfs state-of-the-art VLMs vaak niet in staat zijn ingewikkelde, multi-panel grafieken nauwkeurig te reproduceren. Deze bevindingen bieden waardevolle inzichten in de huidige beperkingen van VLMs en sturen toekomstige onderzoeksrichtingen. We geven de benchmark en code vrij op https://github.com/Speakn0w/RealChart2Code.
In real-world domeinen zoals zelfrijdende auto's blijft generalisatie naar zeldzame scenario's een fundamentele uitdaging. Om dit aan te pakken, introduceren we een nieuwe dataset die is ontworpen voor end-to-end rijden en zich richt op long-tail rijsituaties. Wij bieden multi-view videodata, trajecten, hoogwaardige instructies en gedetailleerde redeneersporen, wat in-context leren en few-shot generalisatie vergemakkelijkt. De resulterende benchmark voor multimodale modellen, zoals VLM's en VLA's, gaat verder dan veiligheids- en comfortmetingen door het opvolgen van instructies en semantische samenhang tussen modeloutputs te evalueren. De meertalige redeneersporen in het Engels, Spaans en Chinees zijn afkomstig van domeinexperts met uiteenlopende culturele achtergronden. Onze dataset is daarmee een unieke bron voor het bestuderen van hoe verschillende vormen van redeneren de rijvaardigheid beïnvloeden. Onze dataset is beschikbaar op: https://hf.co/datasets/kit-mrt/kitscenes-longtail
De prestaties van agenten zijn in toenemende mate afhankelijk van harness-engineering, maar harness-ontwerp zit doorgaans verweven in controllercode en runtime-specifieke conventies, wat het overdragen, vergelijken en bestuderen als wetenschappelijk object bemoeilijkt. Wij onderzoeken of de hoogwaardige besturingslogica van een agent-harness daarentegen kan worden geëxternaliseerd als een draagbaar uitvoerbaar artefact. Wij introduceren Natural-Language Agent Harnesses (NLAH's), die harness-gedrag uitdrukken in bewerkbare natuurlijke taal, en Intelligent Harness Runtime (IHR), een gedeelde runtime die deze harnesses uitvoert via expliciete contracten, duurzame artefacten en lichtgewicht adapters. Op codeer- en computergebruikbenchmarks voeren we gecontroleerde evaluaties uit van operationele haalbaarheid, module-ablatie en migratie van harnesses van code naar tekst.
Recente vooruitgang in 3D-generatie heeft de nauwkeurigheid en geometrische details van gesynthetiseerde 3D-assets verbeterd. Echter, door de inherente ambiguïteit van waarnemingen vanuit één gezichtspunt en het gebrek aan robuuste globale structurele priors als gevolg van beperkte 3D-trainingsdata, zijn de onzichtbare regio's gegenereerd door bestaande modellen vaak stochastisch en moeilijk te controleren. Dit kan soms niet overeenkomen met de intenties van de gebruiker of ongeloofwaardige geometrieën produceren. In dit artikel stellen we Know3D voor, een nieuw framework dat rijke kennis uit multimodale grote taalmodelen integreert in 3D-generatieprocessen via latent hidden-state injectie, waardoor taalgestuurde generatie van de achterzijde voor 3D-assets mogelijk wordt. We gebruiken een op VLM-diffusie gebaseerd model, waarbij de VLM verantwoordelijk is voor semantisch begrip en begeleiding. Het diffusiemodel fungeert als een brug die semantische kennis van de VLM overbrengt naar het 3D-generatiemodel. Op deze manier overbruggen we succesvol de kloof tussen abstracte tekstuele instructies en de geometrische reconstructie van niet-waarneembare regio's, waarbij we de traditioneel stochastische hallucinatie van de achterzijde transformeren in een semantisch controleerbaar proces. Dit toont een veelbelovende richting voor toekomstige 3D-generatiemodellen aan.
Met de paradigmaverschuiving in AI van tekstgebaseerde grote taalmmodellen (LLM's) naar spraaktaalmodellen (SLM's) neemt de vraag toe naar full-duplex systemen die realtime, natuurlijke mens-computerinteractie mogelijk maken. De ontwikkeling van dergelijke modellen wordt echter beperkt door het gebrek aan hoogwaardige, multi-speaker gespreksdata, aangezien bestaande grootschalige bronnen overwegend single-speaker zijn of beperkt in volume. Het adresseren van de complexe dynamiek van natuurlijke dialoog, zoals overlappingen en back-channeling, blijft een uitdaging, waarbij standaard verwerkingspijplijnen lijden onder diarisatiefouten en ASR-hallucinaties. Om deze kloof te overbruggen, presenteren we een robuuste en schaalbare open-source dataverwerkingspijplijn ontworpen voor full-duplex modellen.
Composer 2 is een gespecialiseerd model dat is ontworpen voor agent-gebaseerde software-engineering. Het model toont sterke lange-termijnplanning en codeerintelligentie, terwijl het het vermogen behoudt om efficiënt problemen op te lossen voor interactief gebruik. Het model wordt in twee fasen getraind: eerst een voortgezette voorafgaande training om de kennis en het latente codeervermogen van het model te verbeteren, gevolgd door grootschalige reinforcement learning om de end-to-end codeerprestaties te verbeteren door middel van sterker redeneren, nauwkeurige uitvoering in meerdere stappen en samenhang bij realistische codeerproblemen met een lange horizon. We ontwikkelen infrastructuur om training te ondersteunen in hetzelfde Cursor-framework dat wordt gebruikt door het geïmplementeerde model, met gelijkwaardige tools en structuur, en we gebruiken omgevingen die nauw aansluiten bij echte problemen. Om het vermogen van het model op steeds moeilijkere taken te meten, introduceren we een benchmark afgeleid van echte software-engineeringproblemen in grote codebasissen, inclusief onze eigen. Composer 2 is een grensverleggend codeermodel en demonstreert een proces voor het trainen van sterke, domeingespecialiseerde modellen. Op onze CursorBench-evaluaties behaalt het model een grote verbetering in nauwkeurigheid in vergelijking met eerdere Composer-modellen (61,3). Op openbare benchmarks scoort het model 61,7 op Terminal-Bench en 73,7 op SWE-bench Multilingual in ons framework, wat vergelijkbaar is met state-of-the-art systemen.
Recente benaderingen voor segmentatie maken gebruik van voorgetrainde generatieve modellen als feature-extractors, waarbij segmentatie wordt behandeld als een downstream-aanpassingstaak via indirecte feature-retrieval. Dit impliciete gebruik lijdt onder een fundamentele misalignering in de representatie. Het is ook sterk afhankelijk van indirecte feature-extractiepijplijnen, wat de workflow compliceert en de aanpassing beperkt. In dit artikel beargumenteren wij dat segmentatietaken, in plaats van indirecte aanpassing, direct op een generatieve manier getraind moeten worden. Wij identificeren een belangrijk obstakel voor deze geünificeerde formulering: VAE-latents van binaire maskers zijn scherp verdeeld, ruisrobuust en lineair scheidbaar, onderscheiden van latents van natuurlijke afbeeldingen. Om deze kloof te overbruggen, introduceren wij een timestep-samplingstrategie voor binaire maskers die extreme ruisniveaus benadrukt voor segmentatie en gematigde ruis voor beeldgeneratie, waardoor harmonieuze gezamenlijke training mogelijk wordt. Wij presenteren GenMask, een DiT die getraind wordt om zwart-wit segmentatiemaskers evenals kleurrijke afbeeldingen in RGB-ruimte te genereren onder het oorspronkelijke generatieve doel. GenMask behoudt de oorspronkelijke DiT-architectuur terwijl de noodzaak van feature-extractiepijplijnen specifiek voor segmentatietaken wordt geëlimineerd. Empirisch behaalt GenMask state-of-the-art prestaties op refererende en redenerende segmentatiebenchmarks, en ablatiestudies kwantificeren de bijdrage van elke component.
Gemaskerde diffusie-taalmmodellen (MDLM's) zijn naar voren gekomen als een boeiend niet-autoregressief alternatief voor standaard grote taalmmodellen; hun toepassing op morfologisch rijke talen blijft echter beperkt. In dit artikel introduceren we Diffutron, een gemaskerd diffusie-taalmodel dat specifiek is ontworpen voor het Turks. Onze aanpak benut een resource-efficiënt trainingspijplijn, beginnend met LoRA-gebaseerde continue voortraining van een meertalige encoder op een grootschalig corpus. Om generatieve mogelijkheden mogelijk te maken, hanteren we een progressieve instructie-afstemmingsstrategie, waarbij het model sequentieel wordt aangepast op algemene en taakspecifieke instructiesets. Experimentele resultaten op uitgebreide benchmarks tonen aan dat ons model, ondanks zijn compacte formaat, competitieve prestaties bereikt in vergelijking met bestaande baseline-modellen met miljarden parameters. Deze bevindingen valideren de effectiviteit van gemaskerde diffusiemodellering gecombineerd met meerfasige afstemming voor niet-autoregressieve tekstgeneratie in het Turks.
Op grote taalmodellen (LLM) gebaseerde codeeragents behalen indrukwekkende resultaten op gecontroleerde benchmarks, maar produceren regelmatig pull requests die door echte onderhouders worden afgewezen. De hoofdoorzaak is niet functionele onjuistheid, maar een gebrek aan organiciteit: gegenereerde code negeert projectspecifieke conventies, dupliceert functionaliteit die reeds door interne API's wordt geboden, en overtreedt impliciete architectuurbeperkingen die zijn opgebouwd gedurende jaren van ontwikkeling. Het simpelweg blootstellen van een agent aan de laatste repository-momentopname is niet voldoende: de momentopname toont de eindtoestand van de codebase, maar niet de repositoriespecifieke veranderingspatronen waarmee die toestand is bereikt. Wij introduceren Learning to Commit, een framework dat deze kloof dicht met Online Repository Memory. Gegeven een repository met een strikte chronologische splitsing, voert de agent supervised contrastieve reflectie uit op eerdere commits: hij probeert blindelings elk historisch issue op te lossen, vergelijkt zijn voorspelling met de oracle diff, en destilleert de kloof tot een continu groeiende set vaardigheden – herbruikbare patronen die codeerstijl, intern API-gebruik en architectuurinvarianten vastleggen. Wanneer een nieuwe PR-beschrijving arriveert, baseert de agent zijn generatie op deze opgebouwde vaardigheden, waardoor veranderingen ontstaan die zijn verankerd in de eigen evolutie van het project in plaats van in generieke vooraf getrainde prioriteiten. Evaluatie wordt uitgevoerd op werkelijk toekomstige, gemergede pull requests die niet gezien konden zijn tijdens de vaardigheidsopbouwfase, en beslaat meerdere dimensies, waaronder functionele correctheid, code-stijlconsistentie, herbruikingspercentage van interne API's en geloofwaardigheid van gewijzigde regio's. Experimenten op een door experts onderhouden repository met een rijke commitgeschiedenis tonen aan dat Online Repository Memory de organiciteitsscores effectief verbetert voor toekomstige, afgezonderde taken.
Chain-of-thought (CoT) redeneren is voorgesteld als een transparantiemechanisme voor grote taalmodellen in veiligheidskritieke toepassingen, maar de effectiviteit ervan hangt af van trouw (of modellen de factoren die hun outputs daadwerkelijk beïnvloeden correct verwoorden), een eigenschap die eerdere evaluaties slechts bij twee propriëtaire modellen hebben onderzocht, waarbij erkenningpercentages werden gevonden van slechts 25% voor Claude 3.7 Sonnet en 39% voor DeepSeek-R1. Om deze evaluatie uit te breiden naar het open-weight ecosysteem, test deze studie 12 open-weight redeneermodellen uit 9 architectuurfamilies (7B-685B parameters) op 498 multiple-choicevragen van MMLU en GPQA Diamond, waarbij zes categorieën van redeneeraanwijzingen worden geïnjecteerd (sycophancy, consistentie, visueel patroon, metadata, grader hacking en onethische informatie) en de mate wordt gemeten waarin modellen de invloed van de aanwijzing in hun CoT erkennen wanneer de aanwijzingen antwoorden succesvol veranderen. Over 41.832 inferentieruns heen variëren de algemene trouwpercentages van 39,7% (Seed-1.6-Flash) tot 89,9% (DeepSeek-V3.2-Speciale) tussen modelfamilies, waarbij consistentie-aanwijzingen (35,5%) en sycophancy-aanwijzingen (53,9%) de laagste erkenningpercentages vertonen. Trainingsmethodologie en modelfamilie voorspellen trouw sterker dan parameteraantal, en op trefwoorden gebaseerde analyse onthult een opvallende kloof tussen erkenning in denk-tokens (ongeveer 87,5%) en erkenning in antwoordtekst (ongeveer 28,6%), wat suggereert dat modellen invloed van aanwijzingen intern wel herkennen, maar deze erkenning systematisch onderdrukken in hun outputs. Deze bevindingen hebben directe implicaties voor de levensvatbaarheid van CoT-monitoring als veiligheidsmechanisme en suggereren dat trouw geen vaste eigenschap is van redeneermodellen, maar systematisch varieert met architectuur, trainingsmethode en de aard van de invloedrijke cue.