Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De ontwikkeling van native computergebruik-agenten (CUA) vertegenwoordigt een significante sprong voorwaarts in multimodale AI. Hun potentieel wordt echter momenteel beperkt door de constraints van statische data-schaling. Bestaande paradigma's die voornamelijk steunen op passieve imitatie van statische datasets, slagen er niet in de complexe causale dynamiek inherent aan langetermijn-computertaken te vangen. In dit werk introduceren we EvoCUA, een native computergebruik-agentmodel. In tegenstelling tot statische imitatie integreert EvoCUA datageneratie en beleidsoptimalisatie in een zichzelf in stand houdende evolutionaire cyclus. Om dataschaarste tegen te gaan, ontwikkelden we een verifieerbare synthese-engine die autonoom diverse taken genereert, gekoppeld aan uitvoerbare validators. Om grootschalige ervaringsverwerving mogelijk te maken, ontwierpen we een schaalbare infrastructuur die tienduizenden asynchrone sandbox-uitvoeringen orkestreert. Voortbouwend op deze massale trajecten stellen we een iteratieve evolutionaire leerstrategie voor om deze ervaring efficiënt te internaliseren. Dit mechanisme reguleert dynamisch beleidsupdates door capaciteitsgrenzen te identificeren – het versterkt succesvolle routines terwijl falende trajecten worden omgezet in rijke supervisie door foutenanalyse en zelfcorrectie. Empirische evaluaties op de OSWorld-benchmark tonen aan dat EvoCUA een slagingspercentage van 56,7% bereikt, waarmee een nieuwe open-source state-of-the-art wordt gevestigd. Opmerkelijk is dat EvoCUA aanzienlijk beter presteert dan het vorige beste open-source model, OpenCUA-72B (45,0%), en gesloten gewichtsmodellen zoals UI-TARS-2 (53,1%) overtreft. Cruciaal is dat onze resultaten de generaliseerbaarheid van deze aanpak onderstrepen: het evolutionaire paradigma, aangedreven door leren uit ervaring, levert consistente prestatieverbeteringen op bij foundation-modellen van uiteenlopende schaal, en vestigt zo een robuust en schaalbaar pad voor het verbeteren van native agent-capaciteiten.
Wij introduceren LLM-in-Sandbox, waarmee grote taalmodellen (LLMs) kunnen opereren binnen een code-sandbox (een virtuele computer) om algemene intelligentie aan te wakkeren in niet-code-domeinen. We tonen eerst aan dat krachtige LLMs, zonder aanvullende training, generalisatievermogen vertonen om de code-sandbox in te zetten voor niet-code-taken. LLMs benaderen bijvoorbeeld spontaan externe bronnen om nieuwe kennis te vergaren, gebruiken het bestandssysteem om lange contexten te verwerken, en voeren scripts uit om aan opmaakvereisten te voldoen. Verder laten we zien dat deze agent-capaciteiten versterkt kunnen worden via LLM-in-Sandbox Reinforcement Learning (LLM-in-Sandbox-RL), waarbij alleen niet-agent-gegevens worden gebruikt om modellen te trainen voor sandbox-verkenning. Experimenten tonen aan dat LLM-in-Sandbox, zowel in training-vrije als nagescholen settings, robuuste generalisatie bereikt over domeinen als wiskunde, natuurkunde, scheikunde, biomedische wetenschappen, begrip van lange contexten en het opvolgen van instructies. Ten slotte analyseren we de efficiëntie van LLM-in-Sandbox vanuit computationeel en systeemperspectief, en maken we het openbaar beschikbaar als een Python-pakket om praktische implementatie te vergemakkelijken.
Recente vooruitgang in Multimodale Large Language Models (MLLM's) heeft een significante verbetering aangetoond in het offline begrip van video's. Het uitbreiden van deze capaciteiten naar stromende videogegevens blijft echter een uitdaging, omdat bestaande modellen moeite hebben om tegelijkertijd een stabiele begripsprestatie, realtime reacties en een lage GPU-geheugenbelasting te handhaven. Om deze uitdaging aan te pakken, stellen wij HERMES voor, een nieuwe, trainingsvrije architectuur voor realtime en accuraat begrip van videostreams. Gebaseerd op een mechanistisch onderzoek naar aandacht, conceptualiseren we de KV-cache als een hiërarchisch geheugenkader dat video-informatie op meerdere granulariteiten vastlegt. Tijdens inferentie hergebruikt HERMES een compacte KV-cache, waardoor efficiënt stream-begrip onder beperkte middelen mogelijk wordt. Opmerkelijk is dat HERMES geen hulpberekeningen vereist bij de aankomst van gebruikersvragen, waardoor realtime reacties voor continue videostream-interacties worden gegarandeerd, wat een 10 keer snellere TTFT bereikt in vergelijking met eerdere state-of-the-art. Zelfs wanneer videotokens met tot 68% worden verminderd in vergelijking met uniforme sampling, behaalt HERMES superieure of vergelijkbare nauwkeurigheid op alle benchmarks, met winsten tot 11,4% op streamingdatasets.
Diffusion Large Language Models (dLLM's) doorbreken de rigide links-naar-rechtsbeperking van traditionele LLM's, waardoor tokens in willekeurige volgorde gegenereerd kunnen worden. Intuïtief impliceert deze flexibiliteit een oplossingsruimte die strikt groter is dan het vaste autogressieve pad, wat in theorie superieur redeneervermogen zou moeten ontsluiten voor algemene taken zoals wiskunde en programmeren. Als gevolg hiervan hebben tal van onderzoeken reinforcement learning (RL) ingezet om het redeneervermogen van dLLM's te stimuleren. In dit artikel onthullen we een contra-intuïtieve realiteit: generatie in willekeurige volgorde, in haar huidige vorm, verkleint in plaats van vergroot de redeneergrens van dLLM's. Wij constateren dat dLLM's de neiging hebben deze ordeningsflexibiliteit te misbruiken om tokens met hoge onzekerheid, die cruciaal zijn voor exploratie, te omzeilen, wat leidt tot een vroegtijdige ineenstorting van de oplossingsruimte. Deze observatie tart het uitgangspunt van bestaande RL-benaderingen voor dLLM's, waarbij aanzienlijke complexiteiten, zoals het hanteren van combinatorische trajecten en onhanteerbare waarschijnlijkheden, vaak worden ingezet om deze flexibiliteit te behouden. Wij tonen aan dat effectief redeneren beter wordt gestimuleerd door opzettelijk af te zien van willekeurige volgorde en in plaats daarvan standaard Group Relative Policy Optimization (GRPO) toe te passen. Onze benadering, JustGRPO, is minimalistisch maar verrassend effectief (bijvoorbeeld 89,1% nauwkeurigheid op GSM8K) en behoudt tegelijkertijd volledig het parallelle decodeervermogen van dLLM's. Projectpagina: https://nzl-thu.github.io/the-flexibility-trap
In dit rapport presenteren wij de Qwen3-TTS-reeks, een familie van geavanceerde, meertalige, bestuurbare, robuuste en streaming tekst-naar-spraakmodellen. Qwen3-TTS ondersteunt state-of-the-art stemklonering in 3 seconden en op beschrijving gebaseerde controle, wat zowel de creatie van volledig nieuwe stemmen als fijnmazige manipulatie van de uitgesproken spraak mogelijk maakt. Getraind op meer dan 5 miljoen uur spraakdata in 10 talen, hanteert Qwen3-TTS een dual-track LM-architectuur voor real-time synthese, gekoppeld aan twee spraak-tokenizers: 1) Qwen-TTS-Tokenizer-25Hz is een single-codebook codec die de nadruk legt op semantische inhoud, zorgt voor naadloze integratie met Qwen-Audio en maakt streaming golfvormreconstructie mogelijk via een bloksgewijze DiT. 2) Qwen-TTS-Tokenizer-12Hz bereikt een extreme bitrateverlaging en ultra-lage latentie voor streaming, waardoor onmiddellijke emissie van het eerste pakket (97 ms) mogelijk is dankzij zijn 12,5 Hz, 16-laags multi-codebook ontwerp en een lichtgewicht causaal ConvNet. Uitgebreide experimenten tonen state-of-the-art prestaties aan op uiteenlopende objectieve en subjectieve benchmarks (bijv. TTS meertalige testset, InstructTTSEval en onze lange-spraak-testset). Om onderzoek en ontwikkeling in de community te faciliteren, geven wij zowel de tokenizers als de modellen vrij onder de Apache 2.0-licentie.
Vision-Language-Action (VLA)-modellen tonen potentie voor robotmanipulatie, maar hebben vaak moeite met generaliseren naar nieuwe instructies of complexe multi-task scenario's. Wij identificeren een kritiek mankement in huidige trainingsparadigma's waarbij doelgerichte datacollectie een datasetbias creëert. In dergelijke datasets zijn taal instructies zeer voorspelbaar op basis van alleen visuele observaties, waardoor de voorwaardelijke wederzijdse informatie tussen instructies en acties verdwijnt, een fenomeen dat wij Informatie-Instorting noemen. Als gevolg daarvan degenereren modellen tot visie-only-beleidsregels die taalrestricties negeren en falen in out-of-distribution (OOD) settings. Om dit aan te pakken, stellen we BayesianVLA voor, een nieuw raamwerk dat het volgen van instructies afdwingt via Bayesiaanse decompositie. Door invoer van leerbare Latente Actie-Query's construeren we een dual-branch architectuur om zowel een visie-only prior p(a|v) als een taal-geconditioneerde posterior π(a|v,ℓ) te schatten. Vervolgens optimaliseren we het beleid om de voorwaardelijke Puntsgewijze Wederzijdse Informatie (PMI) tussen acties en instructies te maximaliseren. Dit doelstelling bestraft effectief de visuele shortcut en beloont acties die de taalopdracht expliciet verklaren. Zonder nieuwe data te vereisen, verbetert BayesianVLA de generalisatie aanzienlijk. Uitgebreide experimenten in SimplerEnv en RoboCasa demonstreren substantiële verbeteringen, waaronder een verbetering van 11,3% op de uitdagende OOD SimplerEnv-benchmark, wat het vermogen van onze aanpak valideert om taal robuust te gronden in actie.
Diffusiegebaseerde taalmodelen (DLLM's) bieden niet-sequentiële, bloksgewijze generatie en een rijkere gegevenshergebruik in vergelijking met autoregressieve (AR) modellen, maar bestaande code-DLLM's blijven achter bij sterke AR-basislijnen onder vergelijkbare budgetten. Wij hernemen deze instelling in een gecontroleerde studie en introduceren Stable-DiffCoder, een blokdiffusie-codemodel dat de Seed-Coder-architectuur, gegevens en trainingspijplijn hergebruikt. Om efficiënt kennisleren en stabiele training mogelijk te maken, integreren we een blokdiffusie voortgezette pretraining (CPT)-fase, versterkt door een op maat gemaakte opwarmfase en een bloksgewijs afgeknipt ruisschema. Onder dezelfde gegevens en architectuur presteert Stable-DiffCoder over het algemeen beter dan zijn AR-tegenhanger op een breed scala aan codebenchmarks. Bovendien bereikt Stable-DiffCoder, uitsluitend vertrouwend op de CPT- en supervised fine-tuning-fases, sterkere prestaties dan een breed scala aan ~8B AR's en DLLM's, wat aantoont dat diffusiegebaseerde training de kwaliteit van codemodellering kan verbeteren beyond alleen AR-training. Bovendien verbetert diffusiegebaseerde modellering in willekeurige volgorde de gestructureerde codemodellering voor bewerking en redenering, en komt het via gegevensaugmentatie ten goede aan codeertalen met weinig middelen.
Representatie Auto-encoders (RAE's) hebben duidelijke voordelen getoond in diffusiemodellering op ImageNet door training in hoogdimensionale semantische latente ruimten. In dit werk onderzoeken we of dit raamwerk kan worden opgeschaald naar grootschalige, vrije tekst-naar-beeld (T2I) generatie. We schalen eerst RAE-decoders op de bevroren representatie-encoder (SigLIP-2) voorbij ImageNet door training op web-, synthetische en tekstweergave-gegevens, waarbij we vaststellen dat hoewel schaal de algemene getrouwheid verbetert, gerichte datasamenstelling essentieel is voor specifieke domeinen zoals tekst. Vervolgens onderwerpen we de oorspronkelijk voor ImageNet voorgestelde RAE-ontwerpkeuzes rigoureus aan stresstests. Onze analyse onthult dat opschaling het raamwerk vereenvoudigt: hoewel dimensie-afhankelijke ruisplanning cruciaal blijft, bieden architecturale complexiteiten zoals brede diffusiekoppen en ruis-gemodificeerd decoderen verwaarloosbare voordelen op schaal. Op basis van dit vereenvoudigde raamwerk voeren we een gecontroleerde vergelijking uit van RAE's met de state-of-the-art FLUX VAE, over diffusietransformator-schalen van 0,5B tot 9,8B parameters. RAE's presteren consistent beter dan VAE's tijdens de voortraining op alle modelschalen. Bovendien, tijdens finetunen op hoogwaardige datasets, vertoonden op VAE gebaseerde modellen catastrofale overfitting na 64 epochs, terwijl RAE-modellen stabiel bleven gedurende 256 epochs en consistent betere prestaties bereikten. In alle experimenten toonden op RAE gebaseerde diffusiemodellen snellere convergentie en betere generatiekwaliteit, waarmee RAE's worden gevestigd als een eenvoudiger en sterker fundament dan VAE's voor grootschalige T2I-generatie. Een bijkomend voordeel is dat, omdat zowel visueel begrip als generatie kunnen opereren in een gedeelde representatieruimte, het multimodale model direct kan redeneren over gegenereerde latente representaties, wat nieuwe mogelijkheden opent voor verenigde modellen.
Hoe kunnen we AI gebruiken om een nieuwe state-of-the-art voor een wetenschappelijk probleem te ontdekken? Eerder werk op het gebied van test-time scaling, zoals AlphaEvolve, voert zoekopdrachten uit door een bevroren LLM te 'prompten'. Wij passen reinforcement learning toe tijdens de testfase, zodat het LLM kan blijven trainen, maar nu met ervaring die specifiek is voor het testprobleem. Deze vorm van continu leren is bijzonder, omdat het doel is om één excellente oplossing te produceren in plaats van gemiddeld veel goede, en om dit specifieke probleem op te lossen in plaats van te generaliseren naar andere problemen. Daarom zijn onze leerdoelstelling en zoeksubroutine ontworpen om de meest veelbelovende oplossingen te prioriteren. We noemen deze methode Test-Time Training to Discover (TTT-Discover). In navolging van eerder werk richten we ons op problemen met continue beloningen. We rapporteren resultaten voor elk probleem dat we hebben geprobeerd, binnen wiskunde, GPU-kernelengineering, algoritme-ontwerp en biologie. TTT-Discover vestigt de nieuwe state-of-the-art in bijna alle gevallen: (i) Erdős' minimum overlap-probleem en een autocorrelatie-ongelijkheid; (ii) een GPUMode kernelwedstrijd (tot 2x sneller dan de vorige state-of-the-art); (iii) eerdere AtCoder algoritmewedstrijden; en (iv) een denoising-probleem in single-cell analyse. Onze oplossingen worden beoordeeld door experts of de organisatoren. Al onze resultaten worden behaald met een open model, OpenAI gpt-oss-120b, en zijn reproduceerbaar met onze publiek beschikbare code, in tegenstelling tot eerdere beste resultaten die gesloten frontier-modellen vereisten. Onze test-time training runs worden uitgevoerd met Tinker, een API van Thinking Machines, tegen een kostprijs van slechts enkele honderden dollars per probleem.
Pixelsgewijze mogelijkheden zijn essentieel voor het bouwen van interactieve intelligente systemen. Pixelsgewijze multimodale LLM's (MLLM's) blijven echter moeilijk op te schalen vanwege complexe regioniveau-encoders, gespecialiseerde segmentatiedecoders en onverenigbare trainingsdoelstellingen. Om deze uitdagingen aan te pakken, presenteren wij SAMTok, een discrete maskertokenizer die elk regiomasker omzet in twee speciale tokens en het masker met hoge nauwkeurigheid reconstrueert met behulp van deze tokens. Door maskers als nieuwe taaltokens te behandelen, stelt SAMTok basale MLLM's (zoals de QwenVL-reeks) in staat pixelsgewijze mogelijkheden aan te leren via standaard volgende-tokenvoorspelling en eenvoudige reinforcement learning, zonder aanpassingen aan de architectuur of gespecialiseerd verliesontwerp. SAMTok bouwt voort op SAM2 en is getraind op 209 miljoen diverse maskers met behulp van een maskerencoder en residuele vectorquantizer om discrete, compacte en informatieve tokens te produceren. Met 5 miljoen SAMTok-geformatteerde gegevensmonsters voor maskerbegrip en -generatie behaalt QwenVL-SAMTok state-of-the-art of vergelijkbare resultaten voor regiobeschrijving, regio-VQA, gegronde conversatie, refererende segmentatie, scènegraphparsing en interactieve segmentatie in meerdere rondes. Wij introduceren verder een tekstuele beloning voor antwoordmatching die efficiënte reinforcement learning mogelijk maakt voor maskergeneratie, wat aanzienlijke verbeteringen oplevert op de GRES- en GCG-benchmarks. Onze resultaten tonen een schaalbaar en eenvoudig paradigma aan voor het uitrusten van MLLM's met sterke pixelsgewijze mogelijkheden. Onze code en modellen zijn beschikbaar.
AI-agents zullen mogelijk binnenkort in staat zijn om zelfstandig waardevolle, langetermijntaken in diverse domeinen uit te voeren. Huidige benchmarks meten óf geen realistische taken, óf zijn niet voldoende uitdagend om frontier-modellen zinvol te evalueren. Daarom presenteren wij Terminal-Bench 2.0: een zorgvuldig samengestelde, uitdagende benchmark bestaande uit 89 taken in computerterminalomgevingen, geïnspireerd op problemen uit werkelijke workflows. Elke taak omvat een unieke omgeving, een door mensen geschreven oplossing en uitgebreide tests voor verificatie. Wij tonen aan dat frontier-modellen en agents minder dan 65% scoren op de benchmark en voeren een foutenanalyse uit om verbeterpunten voor modellen en agents te identificeren. Wij publiceren de dataset en evaluatie-omgeving om ontwikkelaars en onderzoekers te ondersteunen bij toekomstig werk op https://www.tbench.ai/.
Dit artikel presenteert een familie van geavanceerde vision-encoders, genaamd OpenVision 3, die een enkele, verenigde visuele representatie leert die zowel beeldbegrip als beeldgeneratie kan dienen. Onze kernarchitectuur is eenvoudig: we voeren VAE-gecomprimeerde beeldlatenten toe aan een ViT-encoder en trainen de output om twee complementaire rollen te ondersteunen. Ten eerste wordt de encoder-output doorgegeven aan de ViT-VAE-decoder om het originele beeld te reconstrueren, wat de representatie aanmoedigt om generatieve structuur vast te leggen. Ten tweede wordt dezelfde representatie geoptimaliseerd met contrastieve leer- en beeld-bijschriftingsdoelstellingen, om semantische kenmerken te versterken. Door reconstructie- en semantiek-gestuurde signalen gezamenlijk te optimaliseren in een gedeelde latente ruimte, leert de encoder representaties die synergetisch zijn en goed generaliseren over beide regimes. We valideren dit verenigde ontwerp via uitgebreide downstream-evaluaties met de encoder bevroren. Voor multimodaal begrip pluggen we de encoder in het LLaVA-1.5-framework: deze presteert vergelijkbaar met een standaard CLIP-vision-encoder (bijv. 62,4 vs 62,2 op SeedBench, en 83,7 vs 82,9 op POPE). Voor generatie testen we deze binnen het RAE-framework: de onze overtreft de standaard CLIP-gebaseerde encoder aanzienlijk (bijv. gFID: 1,89 vs 2,54 op ImageNet). We hopen dat dit werk toekomstig onderzoek naar verenigde modellering kan stimuleren.
De prestaties van moderne AI-systemen worden fundamenteel beperkt door de kwaliteit van hun onderliggende kernels, die hoogwaardige algoritmische semantiek vertalen naar laagwaardige hardwareoperaties. Het bereiken van bijna-optimale kernels vereist een expertniveau van begrip van hardware-architecturen en programmeermodellen, wat kernelengineering tot een kritieke maar berucht tijdrovende en niet-schaalbare proces maakt. Recente vooruitgang in grote taalmodellen (LLM's) en op LLM's gebaseerde agents heeft nieuwe mogelijkheden geopend voor het automatiseren van kernelgeneratie en -optimalisatie. LLM's zijn bijzonder geschikt om expertkennis over kernels, die moeilijk te formaliseren is, te comprimeren, terwijl agent-systemen verdere schaalbare optimalisatie mogelijk maken door kernelontwikkeling te modelleren als een iteratieve, op feedback gebaseerde lus. Er is snelle vooruitgang geboekt op dit gebied. Desalniettemin blijft het veld gefragmenteerd en ontbreekt het aan een systematisch perspectief voor LLM-gedreven kernelgeneratie. Dit overzichtsartikel dicht deze kloof door een gestructureerd overzicht te bieden van bestaande benaderingen, variërend van op LLM's gebaseerde methoden tot agent-gedreven optimalisatieworkflows, en door de datasets en benchmarks die het leren en de evaluatie in dit domein ondersteunen systematisch samen te stellen. Bovendien worden belangrijke open uitdagingen en toekomstige onderzoeksrichtingen geschetst, met als doel een uitgebreide referentie te creëren voor de volgende generatie geautomatiseerde kerneloptimalisatie. Om dit veld te volgen, onderhouden we een open-source GitHub-repository op https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.
Het generaliseren van videomattingmodellen naar real-world video's blijft een grote uitdaging vanwege de schaarste aan gelabelde data. Om dit aan te pakken, presenteren we het Video Mask-to-Matte Model (VideoMaMa), dat grove segmentatiemaskers omzet in pixel-accurate alfamatten door gebruik te maken van voorgetrainde videodiffusiemodellen. VideoMaMa vertoont sterke zero-shot generalisatie naar real-world beelden, ook al is het uitsluitend getraind op synthetische data. Voortbouwend op deze capaciteit ontwikkelen we een schaalbare pseudolabeling-pijplijn voor grootschalige videomatting en construeren we de Matting Anything in Video (MA-V) dataset, die hoogwaardige mattingannotaties biedt voor meer dan 50.000 real-world video's die diverse scènes en bewegingen omvatten. Om de effectiviteit van deze dataset te valideren, fine-tunen we het SAM2-model op MA-V om SAM2-Matte te verkrijgen, dat dezelfde, op bestaande mattingdatasets getrainde model overtreft wat betreft robuustheid op in-the-wild video's. Deze bevindingen benadrukken het belang van grootschalige pseudo-gelabelde videomatting en tonen aan hoe generatieve prior kennis en toegankelijke segmentatieaanwijzingen schaalbare vooruitgang in videomattingonderzoek kunnen stimuleren.
Recente videogeneratiemodellen tonen een opmerkelijke capaciteit om complexe fysieke interacties en scène-evolutie in de tijd vast te leggen. Om hun spatiotemporele voorkennis te benutten, hebben roboticawerkzaamheden videomodellen aangepast voor beleidsleren, maar introduceren ze complexiteit door meerdere fasen van natraining en nieuwe architectuurcomponenten voor actiegeneratie te vereisen. In dit werk introduceren we Cosmos Policy, een eenvoudige aanpak om een groot vooraf getraind videomodel (Cosmos-Predict2) aan te passen tot een effectief robotbeleid via een enkele fase van natraining op de robotdemonstratiedata die op het doelplatform zijn verzameld, zonder architectuurwijzigingen. Cosmos Policy leert om direct robotacties te genereren die zijn gecodeerd als latente frames binnen het latente diffusieproces van het videomodel, waarbij de vooraf getrainde voorkennis en het kernleeralgoritme van het model worden benut om complexe actieverdelingen vast te leggen. Bovendien genereert Cosmos Policy toekomstige toestandsbeelden en waarden (verwachte cumulatieve beloningen), die op soortgelijke wijze als latente frames zijn gecodeerd, wat planning van actietrajecten tijdens tests mogelijk maakt met een hogere kans op succes. In onze evaluaties behaalt Cosmos Policy state-of-the-art prestaties op de LIBERO- en RoboCasa-simulatiebenchmarks (respectievelijk 98,5% en 67,1% gemiddeld slagingspercentage) en de hoogste gemiddelde score in uitdagende real-world bimanuele manipulatietaken, waarbij het sterke diffusiebeleid die vanaf nul zijn getraind, op videomodellen gebaseerde beleidsvormen en state-of-the-art vision-language-action-modellen die zijn afgestemd op dezelfde robotdemonstraties overtreft. Verder kan Cosmos Policy, gegeven beleidsuitroldata, leren van ervaring om zijn wereldmodel en waardefunctie te verfijnen en op modelgebaseerde planning te benutten om nog hogere slagingspercentages te bereiken in uitdagende taken. We geven code, modellen en trainingsdata vrij op https://research.nvidia.com/labs/dir/cosmos-policy/.
Composed Image Retrieval (CIR) is een cruciale en complexe taak binnen multimodaal begrip. Bestaande CIR-referentiepunten kenmerken zich doorgaans door een beperkt aantal querycategorieën en slagen er niet in de uiteenlopende vereisten van realistische scenario's vast te leggen. Om deze evaluatiekloof te overbruggen, maken we gebruik van beeldbewerking om precieze controle te verkrijgen over de soorten aanpassingen en de inhoud, wat een pijplijn mogelijk maakt voor het synthetiseren van queries in een breed spectrum van categorieën. Met behulp van deze pijplijn construeren we EDIR, een nieuw CIR-referentiepunt met een fijne granulariteit. EDIR omvat 5.000 hoogwaardige queries, gestructureerd in vijf hoofdcategorieën en vijftien subcategorieën. Onze uitgebreide evaluatie van 13 multimodale inbeddingsmodellen onthult een significante kloof in capaciteit; zelfs state-of-the-art modellen (zoals RzenEmbed en GME) hebben moeite om consistent te presteren across alle subcategorieën, wat de rigoureuze aard van ons referentiepunt onderstreept. Door middel van vergelijkende analyse leggen we verder inherente beperkingen in bestaande referentiepunten bloot, zoals modale vooroordelen en onvoldoende dekking van categorieën. Bovendien toont een in-domein trainingsexperiment de haalbaarheid van ons referentiepunt aan. Dit experiment verduidelijkt de uitdagingen van de taak door onderscheid te maken tussen categorieën die oplosbaar zijn met gerichte data en categorieën die intrinsieke beperkingen van de huidige modelarchitecturen blootleggen.
Het genereren van geanimeerde 3D-objecten staat centraal in veel toepassingen, maar de meeste geavanceerde werken zijn in de praktijk vaak moeilijk toe te passen vanwege hun beperkte opzet, lange rekentijd of beperkte kwaliteit. Wij introduceren ActionMesh, een generatief model dat op productieniveau gereed zijnde 3D-meshes "in actie" voorspelt op een feed-forward-manier. Geïnspireerd door vroege videomodellen, is ons belangrijkste inzicht dat bestaande 3D-diffusiemodellen moeten worden aangepast om een temporele as op te nemen, wat resulteert in een framework dat wij "temporale 3D-diffusie" hebben genoemd. Concreet passen we eerst de 3D-diffusiefase aan om een reeks gesynchroniseerde latente representaties te genereren die tijd-variërende en onafhankelijke 3D-vormen weergeven. Ten tweede ontwerpen we een temporele 3D-auto-encoder die een reeks onafhankelijke vormen vertaalt naar de corresponderende vervormingen van een vooraf gedefinieerde referentievorm, waardoor we een animatie kunnen opbouwen. Door deze twee componenten te combineren, genereert ActionMesh geanimeerde 3D-meshes vanuit verschillende invoeren, zoals een monocular video, een tekstbeschrijving, of zelfs een 3D-mesh met een tekstprompt die de animatie beschrijft. Daarnaast is onze methode, vergeleken met eerdere benaderingen, snel en produceert het resultaten die rig-vrij en topologie-consistent zijn, waardoor snelle iteratie en naadloze toepassingen zoals texturering en retargeting mogelijk worden. We evalueren ons model op standaard video-naar-4D benchmarks (Consistent4D, Objaverse) en melden state-of-the-art prestaties op zowel geometrische nauwkeurigheid als temporele consistentie, wat aantoont dat ons model geanimeerde 3D-meshes kan leveren met ongekende snelheid en kwaliteit.
Het schatten van taakvoortgang vereist redeneren over langetermijndynamiek in plaats van het herkennen van statische visuele inhoud. Hoewel moderne Vision-Language Models (VLM's) uitblinken in het beschrijven van wat zichtbaar is, is het onduidelijk of ze kunnen afleiden hoe ver een taak gevorderd is op basis van gedeeltelijke observaties. Daartoe introduceren we Progress-Bench, een benchmark voor het systematisch evalueren van voortgangsredenering in VLM's. Naast benchmarking onderzoeken we verder een menselijk geïnspireerd tweefasen paradigma voor voortgangsredenering via zowel training-vrije prompting als een training-gebaseerde aanpak op basis van de gecureerde dataset ProgressLM-45K. Experimenten met 14 VLM's tonen aan dat de meeste modellen nog niet klaar zijn voor taakvoortgangsschatting, waarbij ze gevoeligheid vertonen voor demonstratiemodaliteit en viewpointveranderingen, evenals een slechte afhandeling van onbeantwoordbare gevallen. Hoewel training-vrije prompting die gestructureerde voortgangsredenering afdwingt beperkte en modelafhankelijke verbeteringen oplevert, behaalt de training-gebaseerde ProgressLM-3B consistente verbeteringen, zelfs bij een kleine modelschaal, ondanks training op een taakset die volledig disjunct is van de evaluatietaken. Verdere analyses onthullen karakteristieke foutpatronen en verduidelijken wanneer en waarom voortgangsredenering slaagt of faalt.
Hoewel AI-agenten indrukwekkende capaciteiten hebben getoond in redeneren over lange tijdshorizons, wordt hun betrouwbaarheid ernstig beperkt door de "Spiraal van Hallucinatie", waarbij vroege epistemische fouten zich onomkeerbaar voortplanten. Bestaande methoden staan voor een dilemma: methoden voor kwantificering van onzekerheid (UQ) fungeren typisch als passieve sensoren, die alleen risico's diagnosticeren zonder deze aan te pakken, terwijl zelfreflectiemechanismen lijden onder continue of doelloze correcties. Om deze kloof te overbruggen, stellen we een verenigd Dual-Process Agentic UQ (AUQ) raamwerk voor dat verbaal uitgedrukte onzekerheid omzet in actieve, bidirectionele controle-signalen. Onze architectuur omvat twee complementaire mechanismen: Systeem 1 (Onzekerheidsbewust Geheugen, UAM), dat verbaal uitgedrukt vertrouwen en semantische verklaringen impliciet propageert om blinde besluitvorming te voorkomen; en Systeem 2 (Onzekerheidsbewuste Reflectie, UAR), dat deze verklaringen gebruikt als rationele aanwijzingen om gerichte resolutie tijdens inferentie af te vuren, alleen wanneer nodig. Hierdoor kan de agent efficiënte uitvoering en diepe deliberatie dynamisch in balans brengen. Uitgebreide experimenten op gesloten-lus benchmarks en open-einde diepgaande onderzoektaken tonen aan dat onze trainingsvrije aanpak superieure prestaties en calibratie op trajectniveau bereikt. Wij geloven dat dit principiële AUQ-raamwerk een significante stap vertegenwoordigt naar betrouwbare agenten.
Het optillen van perspectiefbeelden en video's naar 360°-panorama's maakt de generatie van een immersieve 3D-wereld mogelijk. Bestaande benaderingen steunen vaak op expliciete geometrische uitlijning tussen de perspectief- en de equirectangulaire projectie (ERP)-ruimte. Dit vereist echter bekende camerametadata, wat de toepassing op in-the-wild data belemmert, waar dergelijke kalibratie typisch afwezig of ruisachtig is. Wij stellen 360Anything voor, een geometrie-vrij raamwerk gebouwd op vooraf getrainde diffusion transformers. Door de perspectiefinput en het panoramadoel eenvoudigweg als tokenreeksen te behandelen, leert 360Anything de perspectief-naar-equirectangulaire mapping op een puur data-gedreven manier, waardoor camerainformatie overbodig wordt. Onze aanzet behaalt state-of-the-art prestaties voor zowel beeld- als videogeneratie van perspectief naar 360°, en overtreft eerdere werken die gebruikmaken van grond-waarheid camerainformatie. Wij traceren ook de hoofdoorzaak van naadartefacten aan de ERP-grenzen naar nul-opvulling in de VAE-encoder, en introduceren Circulaire Latente Codering om naadloze generatie mogelijk te maken. Ten slotte tonen we competitieve resultaten in zero-shot camera beeldhoek- en oriëntatieschatting benchmarks, wat het diepe geometrische begrip en de bredere bruikbaarheid van 360Anything in computertaken aantoont. Aanvullende resultaten zijn beschikbaar op https://360anything.github.io/.
AI-agenten evolueren snel van passieve taalmodelen naar autonome systemen die complexe, meerstaps taken uitvoeren. Toch blijft hun overmatig zelfvertrouwen bij falen een fundamentele barrière voor inzet in hoog-risico omgevingen. Bestaande kalibratiemethoden, ontwikkeld voor statische enkelvoudige outputs, kunnen de unieke uitdagingen van agent-systemen niet aanpakken, zoals oplopende fouten langs trajecten, onzekerheid van externe tools en ondoorzichtige faalmodi. Om deze uitdagingen het hoofd te bieden, introduceren wij voor het eerst het probleem van Agentic Confidence Calibration en stellen Holistic Trajectory Calibration (HTC) voor, een nieuw diagnostisch raamwerk dat rijke procesniveau-featurees extraheert, variërend van macro-dynamiek tot micro-stabiliteit, over het volledige traject van een agent. Aangedreven door een eenvoudig, interpreteerbaar model, overtreft HTC consequent sterke baseline-methoden in zowel kalibratie als discriminatie, over acht benchmarks, meerdre grote taalmodelen (LLMs) en diverse agent-frameworks. Naast prestaties biedt HTC drie essentiële verbeteringen: het verschaft interpreteerbaarheid door de signalen achter falen bloot te leggen, stelt overdraagbaarheid mogelijk door toepassing over domeinen heen zonder hertraining, en bereikt generalisatie via een General Agent Calibrator (GAC) die de beste kalibratie (laagste ECE) behaalt op de out-of-domain GAIA benchmark. Gezamenlijk vestigen deze bijdragen een nieuw proces-gecentreerd paradigma voor betrouwbaarheidskalibratie, en bieden een raamwerk voor het diagnosticeren en verbeteren van de betrouwbaarheid van AI-agenten.
Het generaliseren van Multimodale Large Language Models (MLLM's) naar nieuwe videodomeinen is essentieel voor praktijkimplementatie, maar blijft een uitdaging door de schaarste aan gelabelde data. Hoewel In-Context Learning (ICL) een trainingsvrije aanpassingsroute biedt, zijn standaardmethoden afhankelijk van grote geannoteerde datasets, die vaak onpraktisch zijn in gespecialiseerde omgevingen zoals industriële of chirurgische settings vanwege de vereiste expertannotaties. Om deze kloof te overbruggen, introduceren we VIOLA (Video In-cOntext Learning with minimal Annotation), een label-efficiënt raamwerk dat minimale expertsupervisie combineert met overvloedige ongelabelde data. Ten eerste, om de efficiëntie van een strikt annotatiebudget te maximaliseren, stellen we density-uncertainty-weighted sampling voor. In tegenstelling tot standaard diversiteits- of onzekerheidsstrategieën die het risico lopen visuele uitschieters te selecteren, benut onze methode dichtheidsschatting om samples te identificeren die simultaan divers, representatief en informatief zijn. Ten tweede, om de overige ongelabelde data te benutten zonder ruispropagatie, construeren we een hybride dataset en introduceren we confidence-aware retrieval en confidence-aware prompting. Deze mechanismen modelleren expliciet de betrouwbaarheid van labels, waarbij demonstraties worden opgehaald op basis van een samengestelde score van gelijkenis en betrouwbaarheid, terwijl de MLLM in staat wordt gesteld adaptief onderscheid te maken tussen geverifieerde grondwaarden en ruizige pseudo-labels. Uitgebreide experimenten over negen diverse benchmarks met vier MLLM's tonen aan dat ons raamwerk verschillende baseline-methoden significant overtreft in low-resource settings, en robuuste aanpassing bereikt tegen minimale annotatiekosten.
Hoewel Large Language Models (LLM's) opmerkelijke capaciteiten vertonen, blijft hun onbetrouwbaarheid een kritieke barrière voor inzet in hoog-risicodomeinen. Dit overzichtsartikel schetst een functionele evolutie in de aanpak van deze uitdaging: de evolutie van onzekerheid van een passieve diagnostische metriek naar een actief controlesignaal dat het realtime gedrag van het model stuurt. Wij tonen aan hoe onzekerheid wordt ingezet als een actief controlesignaal op drie fronten: bij geavanceerd redeneren om berekeningen te optimaliseren en zelfcorrectie te activeren; bij autonome agents om metacognitieve beslissingen over het gebruik van tools en informatievergaring te sturen; en bij reinforcement learning om reward hacking te mitigeren en zelfverbetering mogelijk te maken via intrinsieke beloningen. Door deze vooruitgang te verankeren in opkomende theoretische kaders zoals Bayesiaanse methoden en Conformal Prediction, bieden wij een verenigd perspectief op deze transformerende trend. Dit overzicht biedt een uitgebreid panorama, een kritische analyse en praktische ontwerppatronen, en betoogt dat het beheersen van de nieuwe trend van onzekerheid essentieel is voor het bouwen van de volgende generatie schaalbare, betrouwbare en vertrouwenswaardige AI.
Grote taalmodellen (LLM's) worden steeds vaker gebruikt als menselijke simulators, zowel voor het evalueren van conversatiesystemen als voor het genereren van fijnstemmingsdata. Naïeve prompts om 'als gebruiker op te treden' leveren echter vaak breedsprakige, onrealistische uitingen op, wat de noodzaak onderstreept van een principiële evaluatie van zogenaamde user proxy agents. Wij presenteren MIRRORBENCH, een reproduceerbaar, uitbreidbaar benchmarkframework dat user proxies uitsluitend evalueert op hun vermogen om mensachtige gebruikersuitingen te produceren voor diverse conversatietaken, expliciet losgekoppeld van het succes bij de downstream-taak. MIRRORBENCH beschikt over een modulaire uitvoeringsengine met getypeerde interfaces, metadata-gestuurde registers, ondersteuning voor meerdere backends, caching en robuuste observeerbaarheid. Het systeem ondersteunt pluggable user proxies, datasets, taken en metrieken, waardoor onderzoekers willekeurige simulators kunnen evalueren binnen een uniform, variantiebewust kader. Wij hebben drie lexicale-diversiteitsmetrieken (MATTR, YULE'S K en HD-D) en drie op LLM-beoordeling gebaseerde metrieken (GTEval, Paarsgewijze Ononderscheidbaarheid en Rubric-and-Reason) opgenomen. Over vier open datasets heen levert MIRRORBENCH variantiebewuste resultaten op en onthult het systematische kloofjes tussen user proxies en echte menselijke gebruikers. Het framework is open source en bevat een eenvoudige command-line interface voor het uitvoeren van experimenten, beheren van configuraties en caching, en genereren van rapporten. Het framework is toegankelijk op https://github.com/SAP/mirrorbench.
Wij presenteren dla-ideal-solver, een hoogpresterend raamwerk voor het simuleren van tweedimensionale diffusie-gelimiteerde aggregatie (DLA) met behulp van Numba-versnelde Python. Door gebruik te maken van just-in-time (JIT)-compilatie bereiken we een rekenkundige doorvoer die vergelijkbaar is met legacy statische implementaties, terwijl de flexibiliteit op hoog niveau behouden blijft. Wij onderzoeken de Laplaciaanse groei-instabiliteit bij verschillende injectiegeometrieën en loperconcentraties. Onze analyse bevestigt de robuustheid van de standaard fractale dimensie D_f ≈ 1,71 voor verdunde regimes, in overeenstemming met de universaliteitsklasse van Witten-Sander. Wij melden echter een duidelijke overgang naar Eden-achtige compacte groei (D_f ≈ 1,87) in hoogdichte omgevingen, toegeschreven aan de verzadiging van de schermlengte. Naast de standaard massastraal-schaling gebruiken wij gegeneraliseerde Rényi-dimensies en lacunariteitsmetingen om het monofractale karakter en de ruimtelijke heterogeniteit van de aggregaten te kwantificeren. Dit werk vestigt een reproduceerbare, open-source testomgeving voor het verkennen van fasovergangen in de niet-evenwichts statistische mechanica.
Wij implementeren en testen op IBM Quantum-hardware de schakelingfamilie voorgesteld door Violaris voor het schatten van operationele getuigen van communicatie tussen takken, gedefinieerd als correlaties in klassieke meetreeksen geproduceerd door gecompileerde Wigner's-vriend-stijl schakelingen. Wij realiseren een vijf-qubit instantie van het protocol als een inter-register berichtoverdrachtspatroon binnen een enkele schakeling, in plaats van fysieke signalering, en evalueren het gedrag onder realistische ruis van het apparaat en compilatiebeperkingen. De schakeling codeert een tak-voorwaardelijke evolutie van een waarnemerssubsysteem waarvan de dynamiek afhangt van een controle-qubit, gevolgd door een gecontroleerde overdrachtsoperatie die correlaties tussen voorwaardelijke meetcontexten onderzoekt. Uitvoering op de ibm_fez-backend met 20000 shots resulteert in een op populatie gebaseerde zichtbaarheid van 0,877, coherentiegetuigen van 0,840 en -0,811 langs orthogonale assen, en een fasegevoelige grootte van ongeveer 1,17. Hoewel de zichtbaarheidsmetriek ongevoelig is voor sommige klassen van defasering, bieden de coherentiegetuigen een complementaire gevoeligheid voor niet-diagonale ruis. Dit werk test of onderscheidt niet tussen interpretaties van de kwantummechanica. In plaats daarvan biedt het een reproduceerbare pijplijn van operationele beperkingen voor het evalueren van de detecteerbaarheid van niet-ideale kanalen ten opzichte van gekalibreerde apparaatruis.
Naarmate grote taalmodellen (LLM's) steeds vaker worden toegepast in onderwijscontexten, neemt de behoefte toe aan evidence-based methoden voor het ontwerpen en evalueren van LLM-prompts die gepersonaliseerde en pedagogisch afgestemde output genereren. Deze studie presenteert een generaliseerbare, systematische aanpak voor het evalueren van prompts, gedemonstreerd door een analyse van door een LLM gegenereerde vervolgvragen in een gestructureerde dialoogactiviteit. Zes promptsjablonen werden ontworpen en getest. De sjablonen bevatten gevestigde patronen voor prompt engineering, waarbij elke prompt verschillende pedagogische strategieën benadrukte. De promptsjablonen werden vergeleken via een tournament-stijl evaluatieraamwerk dat kan worden aangepast voor andere onderwijsapplicaties. Het toernooi maakte gebruik van het Glicko2-ratingsysteem, waarbij acht beoordelaars vraagparen evalueerden op drie dimensies: vorm, dialoogondersteuning en geschiktheid voor lerenden. De data waren afkomstig van 120 authentieke gebruikersinteracties uit drie verschillende onderwijsimplementaties. Resultaten toonden aan dat één enkele prompt gerelateerd aan strategisch lezen beter presteerde dan andere sjablonen, met winstkansen variërend van 81% tot 100% in paarsgewijze vergelijkingen. Deze prompt combineerde het 'persona'- en 'context manager'-patroon en was ontworpen om metacognitieve leerstrategieën, zoals zelfgestuurd leren, te ondersteunen. De methodologie demonstreert hoe onderwijsonderzoekers systematisch promptontwerpen kunnen evalueren en verbeteren, zodat men verder kan gaan dan ad-hoc prompt engineering naar evidence-based promptontwikkeling voor onderwijsapplicaties.