Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Mixture-of-Experts (MoE)-modellen missen expliciete beperkingen om ervoor te zorgen dat de beslissingen van de router goed aansluiten bij de capaciteiten van de experts, wat uiteindelijk de modelprestaties beperkt. Om dit aan te pakken, stellen we expert-router coupling (ERC)-verlies voor, een lichtgewicht hulpverlies dat de beslissingen van de router nauw koppelt aan de expertcapaciteiten. Onze aanpak behandelt de router-embedding van elke expert als een proxy-token voor de tokens die aan die expert zijn toegewezen, en voert verstoorde router-embeddings door de experts om interne activaties te verkrijgen. Het ERC-verlies legt twee beperkingen op aan deze activaties: (1) Elke expert moet een hogere activatie vertonen voor zijn eigen proxy-token dan voor de proxy-tokens van enige andere expert. (2) Elk proxy-token moet een sterkere activatie oproepen van zijn corresponderende expert dan van enige andere expert. Deze beperkingen zorgen er gezamenlijk voor dat elke router-embedding de capaciteit van zijn corresponderende expert getrouw vertegenwoordigt, terwijl elke expert gespecialiseerd is in het verwerken van de tokens die er daadwerkelijk naartoe worden gerouteerd. Het ERC-verlies is computationeel efficiënt, omdat het alleen werkt op n² activaties, waarbij n het aantal experts is. Dit vertegenwoordigt een vaste kost onafhankelijk van de batchgrootte, in tegenstelling tot eerdere koppelingsmethoden die schalen met het aantal tokens (vaak miljoenen per batch). Door pre-training van MoE-LLMs variërend van 3B tot 15B parameters en uitgebreide analyse op biljoenen tokens, demonstreren we de effectiviteit van het ERC-verlies. Bovendien biedt het ERC-verlies flexibele controle en kwantitatieve tracking van expertspecialisatieniveaus tijdens de training, wat waardevolle inzichten biedt in MoE's.
Real-time videogeneratie via diffusie is essentieel voor het bouwen van algemene multimodale interactieve AI-systemen. De gelijktijdige denoisering van alle videoframes met bidirectionele aandacht via een iteratief proces in diffusiemodellen verhindert echter real-time interactie. Hoewel bestaande distillatiemethoden het model autoregressief kunnen maken en de samplingstappen kunnen verminderen om dit te verhelpen, richten ze zich voornamelijk op tekst-naar-videogeneratie, waardoor de mens-AI-interactie onnatuurlijk en minder efficiënt blijft. Dit artikel richt zich op real-time interactieve videodiffusie, geconditioneerd op een multimodale context (inclusief tekst, beeld en audio), om deze kloof te overbruggen. Gezien de observatie dat de toonaangevende on-policy distillatie-aanpak Self Forcing uitdagingen ondervindt (visuele artefacten zoals flikkering, zwarte frames en kwaliteitsvermindering) bij multimodale conditionering, onderzoeken we een verbeterd distillatierecept met nadruk op de kwaliteit van de conditioneringsinputs, evenals de initialisatie en planning voor de on-policy optimalisatie. Op benchmarks voor multimodaal-geconditioneerde (audio, beeld en tekst) avatar-videogeneratie, waaronder HDTF, AVSpeech en CelebV-HQ, evenaart ons gedistilleerde model de visuele kwaliteit van de volledige-stap, bidirectionele basismodellen van vergelijkbare of grotere omvang met 20x lagere inferentiekosten en latentie. Verder integreren we ons model met audio-taalmodellen en de lange-video-inferentietechniek Anchor-Heavy Identity Sinks om LiveTalk te bouwen, een real-time multimodaal interactief avatarsysteem. Systeemniveau-evaluatie op onze samengestelde multi-turn interactiebenchmark toont aan dat LiveTalk state-of-the-art modellen (Sora2, Veo3) overtreft in multi-turn videocoherentie en inhoudskwaliteit, terwijl de responstijd wordt teruggebracht van 1 à 2 minuten naar real-time generatie, waardoor naadloze mens-AI multimodale interactie mogelijk wordt.
Recente benaderingen hebben de belofte getoond van het gebruik van diffusiemodellen voor het genereren van interactieve en verkennende werelden. De meeste van deze methoden kampen echter met kritieke uitdagingen, zoals excessief grote parameteromvang, afhankelijkheid van langdurige inferentiestappen en snel groeiende historische context, wat de realtime-prestaties ernstig beperkt en tekstgestuurde generatiemogelijkheden ontbeert. Om deze uitdagingen aan te pakken, stellen wij \method voor, een nieuw raamwerk ontworpen om realistische, interactieve en continue werelden te genereren vanuit een enkele afbeelding of tekstprompt. \method bereikt dit door een zorgvuldig ontworpen raamwerk dat toetsenbordgestuurde exploratie van de gegenereerde werelden ondersteunt. Het raamwerk omvat drie kerncomponenten: (1) een lang-videogeneratieraamwerk dat geünificeerde contextcompressie integreert met lineaire aandacht; (2) een realtime streamingversnellingsstrategie aangedreven door bidirectionele aandacht-distillatie en een verbeterd tekstinbeddingsschema; (3) een tekstgestuurde methode voor het genereren van wereldgebeurtenissen. Wij hebben de codebase in het supplementaire materiaal beschikbaar gesteld.
Agentische reinforcement learning (RL) biedt grote beloften voor de ontwikkeling van autonome agents bij complexe GUI-taken, maar de schaalbaarheid ervan wordt ernstig belemmerd door de verificatie van taakvoltooiing. Bestaande taakverificatie wordt behandeld als een passief, achteraf proces: een verificator (zoals een rule-based scoringsscript, een belonings- of criticusmodel, of een LLM-as-a-Judge) analyseert de volledige interactietrajectorie van de agent om te bepalen of deze slaagt. Deze verwerking van uitgebreide context die irrelevante, ruisachtige historie bevat, stelt verificatieprotocollen voor uitdagingen en leidt daardoor tot onhoudbare kosten en lage betrouwbaarheid. Om dit knelpunt te overwinnen, stellen we SmartSnap voor, een paradigmaverschuiving van deze passieve, achteraf verificatie naar proactieve, in-situ zelfverificatie door de agent zelf. We introduceren de Self-Verifying Agent, een nieuw type agent ontworpen met een dubbele missie: niet alleen een taak voltooien, maar ook de voltooiing ervan aantonen met geselecteerde snapshotbewijzen. Geleid door onze voorgestelde 3C-principes (Volledigheid, Bondigheid en Creativiteit), benut de agent zijn toegang tot de online omgeving om zelfverificatie uit te voeren op een minimale, doorslaggevende set snapshots. Dergelijke bewijzen worden als enig materiaal aangeboden aan een algemene LLM-as-a-Judge verificator om hun geldigheid en relevantie te bepalen. Experimenten met mobiele taken across model families and scales tonen aan dat ons SmartSnap-paradigma het mogelijk maakt LLM-gestuurde agents op een schaalbare manier te trainen, wat prestatieverbeteringen tot respectievelijk 26,08% en 16,66% oplevert voor 8B- en 30B-modellen. De synergie tussen het vinden van oplossingen en het zoeken naar bewijzen vergemakkelijkt de ontwikkeling van efficiënte, zelfverificerende agents met competitieve prestaties ten opzichte van DeepSeek V3.1 en Qwen3-235B-A22B.
Doorzichtige objecten blijven berucht moeilijk voor perceptiesystemen: breking, reflectie en transmissie doorbreken de aannames achter stereo, ToF en puur discriminerende monocular diepteschatting, wat leidt tot gaten en tijdelijk instabiele schattingen. Onze belangrijkste observatie is dat moderne videodiffusiemodellen al overtuigende transparante fenomenen synthetiseren, wat suggereert dat zij de optische regels hebben geïnternaliseerd. Wij bouwden TransPhy3D, een synthetische videocorpus van transparante/reflecterende scènes: 11.000 sequenties gerenderd met Blender/Cycles. Scènes zijn samengesteld uit een gecureerde bank van categorie-rijke statische assets en vorm-rijke procedurele assets, gekoppeld aan glas-/plastic-/metalmaterialen. Wij renderen RGB + diepte + normalen met fysiek gebaseerde raytracing en OptiX-denoising. Uitgaande van een groot videodiffusiemodel, leren wij een video-naar-video-vertaler voor diepte (en normalen) via lichtgewicht LoRA-adaptermodules. Tijdens training concateneren wij RGB- en (ruis)dieptelatenten in de DiT-backbone en co-trainen op TransPhy3D en bestaande framegewijze synthetische datasets, wat temporeel consistente voorspellingen oplevert voor invoervideo's van willekeurige lengte. Het resulterende model, DKT, behaalt zero-shot state-of-the-art (SOTA) op realistische en synthetische videobenchmarks met transparantie: ClearPose, DREDS (CatKnown/CatNovel) en TransPhy3D-Test. Het verbetert nauwkeurigheid en temporele consistentie ten opzichte van sterke image/video-baselines, en een normalenvariant behaalt de beste video-normalenschattingsresultaten op ClearPose. Een compacte 1.3B-versie draait op ~0.17 s/frame. Geïntegreerd in een grijpstack, verhoogt DKT's diepte de slagingspercentages voor doorschijnende, reflecterende en diffuse oppervlakken, en overtreft eerdere schatters. Gezamenlijk ondersteunen deze resultaten een bredere claim: "Diffusie kent transparantie." Generatieve videopriors kunnen efficiënt en labelvrij worden hergebruikt voor robuuste, temporeel coherente perceptie voor uitdagende real-world manipulatie.
Diffusiegebaseerde video-superresolutie (VSR)-methoden bereiken een sterke perceptuele kwaliteit, maar blijven onpraktisch voor latentiegevoelige toepassingen vanwege hun afhankelijkheid van toekomstige frames en dure meerstaps-denoising. Wij stellen Stream-DiffVSR voor, een causaal geconditioneerd diffusieraamwerk voor efficiënte online VSR. De methode werkt strikt op eerdere frames en combineert een gedistilleerde denoiser in vier stappen voor snelle inferentie, een Auto-regressieve Temporele Begeleidingsmodule (ARTG) die beweging-uitgelijnde aanwijzingen injecteert tijdens latente denoising, en een lichtgewicht temporeel-bewuste decoder met een Temporele Verwerkingsmodule (TPM) die detail en temporele coherentie verbetert. Stream-DiffVSR verwerkt 720p-frames in 0,328 seconden op een RTX4090 GPU en presteert aanzienlijk beter dan eerdere diffusiegebaseerde methoden. Vergeleken met de online SOTA TMP verbetert het de perceptuele kwaliteit (LPIPS +0,095) terwijl de latentie met meer dan 130x wordt verminderd. Stream-DiffVSR behaalt de laagste gerapporteerde latentie voor diffusiegebaseerde VSR, waardoor de initiële vertraging wordt teruggebracht van meer dan 4600 seconden naar 0,328 seconden, en is daarmee de eerste diffusie-VSR-methode die geschikt is voor online inzet met lage latentie. Projectpagina: https://jamichss.github.io/stream-diffvsr-project-page/
Hoewel autoregressieve grote visueel-taalmodelen (VLM's) opmerkelijke successen hebben geboekt, beperkt hun sequentiële generatie vaak hun effectiviteit bij complexe visuele planning en dynamische robotbesturing. In dit werk onderzoeken we de potentie van het bouwen van visueel-taalmodelen op op diffusie gebaseerde grote taalmodelen (dLLM's) om deze beperkingen te overwinnen. We introduceren Dream-VL, een open, op diffusie gebaseerd VLM (dVLM) dat state-of-the-art prestaties behaalt ten opzichte van eerdere dVLM's. Dream-VL is vergelijkbaar met top-AR-gebaseerde VLM's die op open data zijn getraind op diverse benchmarks, maar toont superieure potentie wanneer toegepast op visuele plannings taken. Voortbouwend op Dream-VL introduceren we Dream-VLA, een op dLLM gebaseerd Vision-Language-Action model (dVLA) dat is ontwikkeld door continue voorafgaande training op open robotdatasets. We tonen aan dat de inherent bidirectionele aard van deze diffusie-architectuur een superieure basis vormt voor VLA-taken, van nature geschikt voor actie-chunking en parallelle generatie, wat leidt tot aanzienlijk snellere convergentie in downstream fine-tuning. Dream-VL behaalt top prestaties met een gemiddeld slagingspercentage van 97.2% op LIBERO, 71.4% algemeen gemiddelde op SimplerEnv-Bridge en 60.5% algemeen gemiddelde op SimplerEnv-Fractal, waarmee het toonaangevende modellen zoals π_0 en GR00T-N1 overtreft. We valideren ook dat dVLM's de AR-baselines overtreffen op downstream taken bij verschillende trainingsdoelstellingen. We geven zowel Dream-VL als Dream-VLA vrij om verder onderzoek in de gemeenschap te faciliteren.
Diffusion Transformer-modellen hebben beeldbewerking aanzienlijk vooruitgeholpen door conditionele beelden te coderen en ze in transformer-lagen te integreren. Bij de meeste bewerkingen worden echter alleen kleine regio's aangepast, terwijl huidige methodes alle tokens uniform verwerken en denoisen bij elke tijdstap. Dit leidt tot overbodige rekenkosten en kan ongewijzigde gebieden verslechteren. Dit roept een fundamentele vraag op: Is het werkelijk nodig om elke regio opnieuw te genereren tijdens het bewerken? Om dit aan te pakken, stellen we SpotEdit voor, een trainingsvrij diffusiebewerkingsraamwerk dat alleen de gewijzigde regio's selectief bijwerkt. SpotEdit bestaat uit twee kerncomponenten: SpotSelector identificeert stabiele regio's via perceptuele gelijkenis en slaat hun berekening over door conditionele beeldkenmerken te hergebruiken; SpotFusion voegt deze kenmerken adaptief samen met bewerkte tokens via een dynamisch fusiemechanisme, waardoor contextuele samenhang en bewerkingskwaliteit behouden blijven. Door onnodige berekeningen te verminderen en hoge trouw in ongewijzigde gebieden te handhaven, bereikt SpotEdit efficiënte en precieze beeldbewerking.
De tekstencoder is een cruciaal onderdeel van tekst-naar-beeld en tekst-naar-video diffusiemodellen, en bepaalt in essentie de semantische nauwkeurigheid van de gegenereerde inhoud. De ontwikkeling ervan wordt echter belemmerd door twee grote uitdagingen: het ontbreken van een efficiënt evaluatieraamwerk dat de prestaties voor downstream-generatie betrouwbaar voorspelt, en de moeilijkheid om vooraf getrainde taalmodellen effectief aan te passen voor visuele synthese. Om deze problemen aan te pakken, introduceren we GRAN-TED, een paradigma om Robuuste, Uitgelijnde en Genuanceerde Tekst-inbeddingen te Genereren voor diffusiemodellen. Onze bijdrage is tweeledig. Ten eerste stellen we TED-6K voor, een nieuwe tekstuele benchmark die een efficiënte en robuuste beoordeling van de representatiekwaliteit van een encoder mogelijk maakt, zonder dure end-to-end modeltraining. We tonen aan dat de prestaties op TED-6K, gestandaardiseerd via een lichtgewicht, uniforme adapter, sterk correleren met de effectiviteit van een encoder in downstream-generatietaken. Opmerkelijk is dat, in onze experimentele opzet, evaluatie met TED-6K ongeveer 750 keer sneller is dan het trainen van een diffusiemodel vanaf nul. Ten tweede, geleid door dit gevalideerde raamwerk, ontwikkelen we een superieure tekstencoder met behulp van een nieuwe tweefasige trainingsparadigma. Dit proces omvat een initiële fine-tuningfase op een Multimodaal Taalmodel voor betere visuele representatie, gevolgd door een laagsgewijze wegingmethode om meer genuanceerde en krachtige tekstkenmerken te extraheren. Onze experimenten tonen aan dat de resulterende GRAN-TED-encoder niet alleen state-of-the-art prestaties behaalt op TED-6K, maar ook leidt tot aantoonbare prestatieverbeteringen in tekst-naar-beeld en tekst-naar-video generatie. Onze TED-6K dataset en evaluatiecode zijn beschikbaar op de volgende link: https://anonymous.4open.science/r/GRAN-TED-4FCC/.
Het specificeren van robotmanipulatietaken op een manier die zowel expressief als precies is, blijft een centrale uitdaging. Hoewel visuele doelen een compacte en eenduidige taakspecificatie bieden, worstelen bestaande doelgeconditioneerde policies vaak met langetermijnmanipulatie vanwege hun afhankelijkheid van enkelstaps actievoorspelling zonder expliciete modellering van taakvoortgang. Wij presenteren Act2Goal, een algemene doelgeconditioneerde manipulatiewpolicy die een doelgeconditioneerd visueel wereldmodel integreert met multischaal temporele controle. Gegeven een huidige observatie en een visueel doel, genereert het wereldmodel een plausibele reeks tussenliggende visuele toestanden die de langetermijnstructuur vastlegt. Voor de vertaling van dit visuele plan naar robuuste uitvoering introduceren we Multi-Scale Temporal Hashing (MSTH), dat de voorspelde trajectorie decomposeert in dense proximale frames voor fijnmazige closed-loop controle en sparse distale frames die globale taakconsistentie verankeren. De policy koppelt deze representaties via end-to-end cross-attention aan motorcontrole, wat coherent langetermijngedrag mogelijk maakt terwijl lokaal reactief op verstoringen blijft. Act2Goal bereikt sterke zero-shot generalisatie naar nieuwe objecten, ruimtelijke configuraties en omgevingen. We faciliteren verder reward-vrije online aanpassing via hindsight doelherlabeling met LoRA-based finetuning, waardoor snelle autonome verbetering zonder externe supervisie mogelijk wordt. Real-robot experimenten tonen aan dat Act2Goal succespercentages verhoogt van 30% naar 90% op uitdagende out-of-distribution taken binnen minuten van autonome interactie, wat valideert dat doelgeconditioneerde wereldmodellen met multischaal temporele controle de gestructureerde begeleiding bieden die nodig is voor robuuste langetermijnmanipulatie. Projectpagina: https://act2goal.github.io/
Taalagentschappen hebben in toenemende mate persistente werelden nodig waarin ze kunnen handelen, herinneren en leren. Bestaande benaderingen bevinden zich tussen twee uitersten: conventionele web frameworks bieden betrouwbare maar vaste contexten ondersteund door databases, terwijl volledig generatieve wereldmodellen streven naar onbeperkte omgevingen ten koste van beheersbaarheid en praktische engineeringsprincipes. In dit werk introduceren we het Web World Model (WWM), een middenweg waarbij wereldstatus en "fysica" worden geïmplementeerd in gewone webcode om logische consistentie te garanderen, terwijl grote taalmodellen context, narratieven en hoogwaardige beslissingen genereren bovenop deze gestructureerde latente staat. We bouwen een reeks WWM's op een realistische webstack, waaronder een oneindige reisatlas verankerd in echte geografie, fictieve galactische verkenningstools, web-schaal encyclopedische en narratieve werelden, en simulatie- en spelachtige omgevingen. In deze systemen identificeren we praktische ontwerpprincipes voor WWM's: het scheiden van codegedefinieerde regels van modelgedreven verbeelding, het representeren van latente staat als getypeerde webinterfaces, en het gebruik van deterministische generatie om gestructureerde maar onbeperkte verkenning te bereiken. Onze resultaten suggereren dat webstacks zelf kunnen dienen als een schaalbaar substraat voor wereldmodellen, waardoor beheerbare maar open-ended omgevingen mogelijk worden. Projectpagina: https://github.com/Princeton-AI2-Lab/Web-World-Models.
Diffusie-taalmodellen (dLLM's) zijn naar voren gekomen als veelbelovende alternatieven voor autoregressieve (AR) modellen. Hoewel recente inspanningen hun pre-trainingspotentieel hebben gevalideerd en de inferentiesnelheden hebben versneld, blijft het post-trainingslandschap voor dLLM's onderontwikkeld. Bestaande methoden lijden onder computationele inefficiëntie en een mismatch tussen de doelen tijdens training en inferentie, wat de prestaties bij complexe redeneertaken zoals wiskunde ernstig beperkt. Om dit aan te pakken, introduceren we DiRL, een efficiënt post-trainingsraamwerk dat FlexAttention-versnelde bloksgewijze training strak integreert met LMDeploy-geoptimaliseerde inferentie. Deze architectuur maakt een gestroomlijnde online modelupdate-loop mogelijk, wat efficiënte post-training in twee fasen vergemakkelijkt (Supervised Fine-Tuning gevolgd door Reinforcement Learning). Voortbouwend op dit raamwerk stellen we DiPO voor, de eerste zuivere implementatie van Group Relative Policy Optimization (GRPO) die is toegesneden op dLLM's. We valideren onze aanpak door DiRL-8B-Instruct te trainen op hoogwaardige wiskundige data. Ons model behaalt state-of-the-art wiskundeprestaties onder dLLM's en overtreft vergelijkbare modellen in de Qwen2.5-serie op verschillende benchmarks.
AI-co-wetenschappers ontstaan als hulpmiddel om menselijke onderzoekers te helpen hun onderzoeksdoelen te bereiken. Een cruciaal kenmerk van deze AI-co-wetenschappers is het vermogen om een onderzoeksplan te genereren op basis van een reeks doelstellingen en beperkingen. Onderzoekers kunnen het plan gebruiken voor brainstormdoeleinden, of het kan zelfs worden geïmplementeerd na verdere verfijning. Taalmodellen hebben echter momenteel moeite met het genereren van onderzoeksplannen die aan alle beperkingen en impliciete vereisten voldoen. In dit werk bestuderen we hoe we de uitgebreide corpus van bestaande onderzoeksartikelen kunnen benutten om taalmodellen te trainen die betere onderzoeksplannen genereren. We bouwen een schaalbare, diverse trainingscorpus door automatisch onderzoeksdoelen en doelgerichte beoordelingsrubrieken uit artikelen van verschillende domeinen te extraheren. Vervolgens trainen we modellen voor onderzoeksplangeneratie via reinforcement learning met zelfbeoordeling. Een bevroren kopie van het initiële beleid fungeert als beoordelaar tijdens de training, waarbij de rubrieken een generator-verificateurkloof creëren die verbeteringen mogelijk maakt zonder externe menselijke supervisie. Om deze aanpak te valideren, voeren we een studie uit met menselijke experts voor onderzoeksdoelen op het gebied van machine learning, met een totale duur van 225 uur. De experts verkiezen de plannen gegenereerd door ons gefinetunede Qwen3-30B-A3B-model boven het initiële model voor 70% van de onderzoeksdoelen, en keuren 84% van de automatisch geëxtraheerde doelgerichte beoordelingsrubrieken goed. Om de algemeenheid te beoordelen, breiden we onze aanpak ook uit naar onderzoeksdoelen uit medische artikelen en nieuwe arXiv-preprints, en evalueren we met een jury van frontier-modellen. Onze finetuning levert relatieve verbeteringen van 12-22% op en significante generalisatie over domeinen heen, en blijkt zelfs effectief in probleemstellingen zoals medisch onderzoek waar uitvoeringsfeedback niet haalbaar is. Samen tonen deze bevindingen het potentieel aan van een schaalbare, geautomatiseerde trainingsmethode als een stap naar het verbeteren van algemene AI-co-wetenschappers.
De evolutie van autonome agents herdefinieert informatievergaring door een overgang van passief ophalen naar proactief, open-eindigend webonderzoek. Echter, terwijl tekstuele en statische multimodale agents een snelle vooruitgang hebben geboekt, blijft er een significante modaliteitskloof bestaan in de verwerking van de meest dynamische modaliteit van het web: video. Bestaande videobenchmarks richten zich voornamelijk op passieve perceptie, waarbij gecureerde clips aan modellen worden gevoerd zonder externe retrievals. Zij slagen er niet in agentisch video-onderzoek te evalueren, wat actief bevragen van videotijdlijnen, kruisverwijzing van verspreid bewijs en verificatie van beweringen tegen het open web vereist. Om deze kloof te overbruggen, presenteren wij Video-BrowseComp, een uitdagende benchmark bestaande uit 210 vragen die zijn toegesneden op open-web agentische videoredenering. In tegenstelling tot eerdere benchmarks legt Video-BrowseComp een verplichte afhankelijkheid van temporeel visueel bewijs op, waardoor wordt gegarandeerd dat antwoorden niet uitsluitend via tekstzoekopdrachten kunnen worden afgeleid, maar dat navigatie door videotijdlijnen nodig is om externe beweringen te verifiëren. Onze evaluatie van state-of-the-art modellen onthult een kritieke bottleneck: zelfs geavanceerde, met zoekfuncties versterkte modellen zoals GPT-5.1 (mét zoeken) behalen slechts 15,24% nauwkeurigheid. Onze analyse toont aan dat deze modellen grotendeels vertrouwen op tekstuele proxies, uitblinken in domeinen met rijke metadata (bijvoorbeeld tv-shows met samenvattingen), maar falen in metadata-arme, dynamische omgevingen (zoals sport, gameplay) waar visuele verankering essentieel is. Als eerste open-web video-onderzoeksbenchmark bevordert Video-BrowseComp het vakgebied voorbij passieve perceptie naar proactieve videoredenering.
In de meeste bestaande belichaamde navigatietaken zijn instructies goed gedefinieerd en eenduidig, zoals het opvolgen van instructies en het zoeken naar objecten. In deze geïdealiseerde setting wordt van agenten alleen vereist dat zij effectieve navigatie-uitvoer genereren, geconditioneerd op visuele en taalkundige invoer. In de echte wereld zijn navigatie-instructies echter vaak vaag en dubbelzinnig, waardoor de agent onzekerheid moet oplossen en de intentie van de gebruiker moet afleiden via actieve dialoog. Om deze kloof te dichten, stellen wij Interactive Instance Object Navigation (IION) voor, een taak die agenten niet alleen vereist om navigatieacties te genereren, maar ook om taaluitvoer te produceren via actieve dialoog, waardoor deze beter aansluit bij praktische situaties. IION breidt Instance Object Navigation (ION) uit door agenten toe te staan vrij een orakel te raadplegen in natuurlijke taal tijdens het navigeren. Op basis van deze taak presenteren wij de Vision Language-Language Navigation (VL-LN)-benchmark, die een grootschalige, automatisch gegenereerde dataset en een uitgebreid evaluatieprotocol biedt voor het trainen en beoordelen van dialoogondersteunde navigatiemodellen. VL-LN omvat meer dan 41k trajecten met lange-termijn dialooguitbreidingen voor training en een automatisch evaluatieprotocol met een orakel dat in staat is om vragen van agenten te beantwoorden. Met behulp van deze benchmark trainen wij een navigatiemodel uitgerust met dialoogmogelijkheden en tonen aan dat het significante verbeteringen bereikt ten opzichte van de baseline. Uitgebreide experimenten en analyses tonen verder de effectiviteit en betrouwbaarheid van VL-LN aan voor het bevorderen van onderzoek naar dialoogondersteunde belichaamde navigatie. Code en dataset: https://0309hws.github.io/VL-LN.github.io/
Omnimodale grote taalmodellen hebben aanzienlijke vooruitgang geboekt in het verenigen van audio- en visuele modaliteiten; ze missen echter vaak een fijnmazig cross-modale begrip en hebben moeite met multimodale afstemming. Om deze beperkingen aan te pakken, introduceren we OmniAgent, een volledig audio-gestuurd actief perceptie-agent dat gespecialiseerde tools dynamisch orkestreert om een fijnmazigere audio-visuele redenering te bereiken. In tegenstelling tot eerdere werken die vertrouwen op rigide, statische workflows en dichte frame-beschrijving, demonstreert dit artikel een paradigmaverschuiving van passieve responsgeneratie naar actieve multimodale verkenning. OmniAgent gebruikt dynamische planning om autonoom tool-aanroepingen op aanvraag te orkestreren en strategisch de perceptuele aandacht op taakrelevante signalen te concentreren. Centraal in onze aanpak staat een nieuwe grof-naar-fijn audio-gestuurd perceptieparadigma, dat audio-aanwijzingen benut om temporele gebeurtenissen te lokaliseren en het daaropvolgende redeneerproces te sturen. Uitgebreide empirische evaluaties op drie audio-video begripsbenchmarks tonen aan dat OmniAgent state-of-the-art prestaties bereikt, en toonaangevende open-source en propriëtaire modellen met aanzienlijke marges van 10% - 20% nauwkeurigheid overtreft.
Informatiezoekende (IS) agenten hebben sterke prestaties geleverd bij een reeks brede en diepe zoektaken, maar hun gereedschapsgebruik blijft grotendeels beperkt tot API-niveau snippet-retrieval en URL-gebaseerd ophalen van pagina's. Dit beperkt de toegang tot de rijkere informatie die beschikbaar is via echt browsen. Hoewel volledige browserinteractie diepere mogelijkheden zou kunnen ontsluiten, introduceren de fijnmazige controle en uitgebreide pagina-inhoud die het retourneert aanzienlijke complexiteit voor ReAct-stijl agenten die functie-aanroepen gebruiken. Om deze kloof te overbruggen, stellen we Nested Browser-Use Learning (NestBrowse) voor, dat een minimaal en compleet browser-actieframework introduceert. Dit framework ontkoppelt interactiecontrole van pagina-exploratie door een geneste structuur. Dit ontwerp vereenvoudigt de redenering van de agent en maakt tegelijkertijd effectieve verwerving van informatie uit het deep web mogelijk. Empirische resultaten op uitdagende diepe IS-ijkpunten tonen aan dat NestBrowse duidelijke voordelen biedt in de praktijk. Verdere diepgaande analyses onderstrepen de efficiëntie en flexibiliteit ervan.
Bestaande methoden voor real-time objectdetectie (RTOD) maken doorgaans gebruik van YOLO-achtige architecturen vanwege hun gunstige afweging tussen nauwkeurigheid en snelheid. Deze modellen zijn echter gebaseerd op statische, dichte berekeningen die uniforme verwerking toepassen op alle invoeren, wat leidt tot een verkeerde toewijzing van representatiecapaciteit en rekenbronnen. Hierdoor wordt er bijvoorbeeld te veel capaciteit toegewezen aan triviale scènes en te weinig aan complexe scènes. Deze mismatch resulteert in zowel computationele redundantie als suboptimale detectieprestaties. Om deze beperking te overwinnen, stellen we YOLO-Master voor, een nieuw YOLO-achtig framework dat instance-conditional adaptieve berekeningen introduceert voor RTOD. Dit wordt gerealiseerd door een Efficient Sparse Mixture-of-Experts (ES-MoE) blok dat dynamisch rekenbronnen toewijst aan elke invoer op basis van de complexiteit van de scène. Kern van de methode is een lichtgewicht dynamisch routeringsnetwerk dat tijdens de training expertspecialisatie aanstuurt via een doelstelling die diversiteit bevordert, waardoor complementaire expertise tussen experts wordt gestimuleerd. Daarnaast leert het routeringsnetwerk adaptief om alleen de meest relevante experts te activeren, waardoor de detectieprestaties verbeteren terwijl de computationele overhead tijdens inferentie wordt geminimaliseerd. Uitgebreide experimenten op vijf grootschalige benchmarks tonen de superioriteit van YOLO-Master aan. Op MS COCO behaalt ons model 42.4% AP met een latentie van 1.62ms, wat YOLOv13-N overtreft met +0.8% mAP en 17.8% snellere inferentie. Opvallend is dat de winst het grootst is op uitdagende, dichte scènes, terwijl het model efficiënt blijft op typische invoeren en real-time inferentiesnelheid behoudt. De code zal beschikbaar worden gesteld.
Dataschaarste blijft een fundamentele barrière voor het bereiken van volledig autonome chirurgische robots. Hoewel grootschalige vision-language-action (VLA) modellen indrukwekkende generalisatie hebben getoond in huishoudelijke en industriële manipulatie door gebruik te maken van gekoppelde video-actiegegevens uit diverse domeinen, kampt de chirurgische robotica met een gebrek aan datasets die zowel visuele observaties als accurate robotkinematica bevatten. Daarentegen bestaan er enorme hoeveelheden chirurgische video's, maar deze missen bijbehorende actielabels, wat een directe toepassing van imitatieleren of VLA-training verhindert. In dit werk trachten we dit probleem te verlichten door beleidsmodellen te leren van SurgWorld, een wereldmodel ontworpen voor chirurgische fysieke AI. Wij stelden de Surgical Action Text Alignment (SATA) dataset samen met gedetailleerde actiebeschrijvingen specifiek voor chirurgische robots. Vervolgens bouwden we SurgWorld op basis van het meest geavanceerde fysieke AI-wereldmodel en SATA. Het is in staat om diverse, generaliseerbare en realistische chirurgievideo's te genereren. Wij zijn ook de eersten die een invers dynamisch model gebruiken om pseudokinematica af te leiden uit synthetische chirurgische video's, waardoor synthetische gekoppelde video-actiegegevens worden geproduceerd. Wij tonen aan dat een chirurgisch VLA-beleid, getraind met deze uitgebreide gegevens, aanzienlijk beter presteert dan modellen die alleen op echte demonstraties zijn getraind, op een echt chirurgisch robotplatform. Onze aanpak biedt een schaalbare weg naar autonome verwerving van chirurgische vaardigheden door gebruik te maken van de overvloed aan ongelabelde chirurgische video en generatief wereldmodelleren, waardoor de deur wordt geopend naar generaliseerbare en data-efficiënte beleidsregels voor chirurgische robots.
De proliferatie van Large Language Models (LLM's) heeft een verschuiving teweeggebracht naar autonome agents die in staat zijn tot complexe redenering en het gebruik van tools. De huidige agentarchitecturen worden echter vaak geconstrueerd met behulp van imperatieve, ad-hoc patronen. Dit resulteert in broze systemen die worden geplaagd door problemen op het gebied van staatbeheer, foutafhandeling en gelijktijdige uitvoering. Dit artikel introduceert Monadic Context Engineering (MCE), een nieuw architecturaal paradigma dat gebruikmaakt van de algebraïsche structuren van Functoren, Applicatieve Functoren en Monaden om een formele basis te bieden voor agentontwerp. MCE behandelt agentworkflows als computationele contexten waarbij zogenaamde cross-cutting concerns, zoals staatpropagatie, kortsluitende foutafhandeling en asynchrone uitvoering, intrinsiek worden beheerd door de algebraïsche eigenschappen van de abstractie. Wij tonen aan hoe Monaden robuuste sequentiële compositie mogelijk maken, hoe Applicatieven een principiële structuur bieden voor parallelle uitvoering, en cruciaal, hoe Monad Transformers de systematische compositie van deze capaciteiten toestaan. Deze gelaagde aanpak stelt ontwikkelaars in staat om complexe, veerkrachtige en efficiënte AI-agents te construeren uit eenvoudige, onafhankelijk verifieerbare componenten. Wij breiden dit raamwerk verder uit om Meta-Agents te beschrijven, die MCE benutten voor generatieve orchestratie, waarbij dynamisch sub-agentworkflows worden gecreëerd en beheerd via metaprogrammering. Projectpagina: https://github.com/yifanzhang-pro/monadic-context-engineering.
Agentische taalsysteemmodellen (LM's) vormen de basis van moderne toepassingen zoals "Deep Research" en "Claude Code", en maken gebruik van multi-LM-architecturen om contextbeperkingen te overwinnen. Onder hun schijnbare diversiteit schuilt een terugkerend patroon: kleinere "compressor"-LM's (die zelfs lokaal kunnen draaien) destilleren ruwe context naar compacte tekst die vervolgens wordt verwerkt door grotere "predictor"-LM's. Ondanks hun populariteit blijft het ontwerp van compressor-predictor-systemen grotendeels ad hoc, met weinig richtlijnen over hoe keuzes in compressor en predictor de downstream-prestaties beïnvloeden. In de praktijk vereist het toeschrijven van verbeteringen aan compressie versus voorspelling kostbare, taakspecifieke paarsgewijze evaluaties. Wij stellen dat deze ontwerpvragen voor agentische systemen in wezen informatie-theoretisch zijn. Door de compressor-LM te zien als een ruisachtig kanaal, introduceren we een eenvoudige schatter van wederzijdse informatie tussen de context en de compressie om de compressiekwaliteit op een taakonafhankelijke manier te kwantificeren. We tonen aan dat wederzijdse informatie de downstream-prestaties sterk voorspelt, onafhankelijk van een specifieke taak. Via een informatie-theoretisch kader voeren we een uitgebreide empirische analyse uit over vijf datasets en drie modelfamilies. Resultaten tonen aan dat grotere compressoren niet alleen nauwkeuriger zijn, maar ook token-efficiënter, waarbij ze meer bits informatie per token overdragen. Een 7B Qwen-2.5-compressor is bijvoorbeeld 1,6 keer nauwkeuriger, 4,6 keer beknopter en verzendt 5,5 keer meer bits wederzijdse informatie per token dan zijn 1,5B-tegenhanger. Over datasets heen is het schalen van compressoren aanzienlijk effectiever dan het schalen van predictors, waardoor grotere on-device-compressoren kunnen worden gekoppeld aan kleinere cloud-predictors. Toegepast op een Deep Research-systeem stellen deze principes lokale compressoren met slechts 3B parameters in staat om 99% van de frontier-LM-nauwkeurigheid te bereiken tegen 26% van de API-kosten.
Recente vooruitgang in computervisie heeft open-vocabulary segmentatie (OVS) succesvol uitgebreid naar het 3D-domein door gebruik te maken van 3D Gaussian Splatting (3D-GS). Ondanks deze vooruitgang vormt het efficiënt renderen van de hoogdimensionale kenmerken die nodig zijn voor open-vocabulary zoekopdrachten een aanzienlijke uitdaging. Bestaande methodes gebruiken codeboeken of kenmerkcompressie, wat tot informatieverlies leidt en daardoor de segmentatiekwaliteit aantast. Om deze beperking aan te pakken, introduceren we Quantile Rendering (Q-Render), een nieuwe renderstrategie voor 3D Gaussians die efficiënt omgaat met hoogdimensionale kenmerken en tegelijkertijd een hoge nauwkeurigheid behoudt. In tegenstelling tot conventionele volume rendering, die alle 3D Gaussians die een straal snellen dicht bemonstert, bemonstert Q-Render slechts schaars die met een dominante invloed langs de straal. Door Q-Render te integreren in een generaliseerbaar 3D neuraal netwerk, stellen we ook Gaussian Splatting Network (GS-Net) voor, dat Gaussian-kenmerken op een generaliseerbare manier voorspelt. Uitgebreide experimenten op ScanNet en LeRF tonen aan dat ons framework state-of-the-art methodes overtreft, terwijl het real-time rendering mogelijk maakt met een versnelling van ongeveer ~43,7x op 512-D kenmerkkaarten. De code zal openbaar beschikbaar worden gesteld.
De primaire belemmering voor het toepassen van reinforcement learning (RL) op robotica in de echte wereld is het ontwerpen van effectieve beloningsfuncties. Hoewel op leren gebaseerde Process Reward Models (PRM's) recentelijk een veelbelovende richting zijn, worden ze vaak belemmerd door twee fundamentele beperkingen: hun beloningsmodellen missen stapbewust begrip en vertrouwen op perceptie vanuit één gezichtspunt, wat leidt tot onbetrouwbare beoordelingen van fijnmazige manipulatievooruitgang; en hun beloningsvormingsprocedures zijn theoretisch ongegrond, wat vaak een semantische val induceert die beleidsoptimalisatie misleidt. Om deze problemen aan te pakken, introduceren we Dopamine-Reward, een nieuwe methode voor beloningsmodellering om een algemeen, stapbewust procesbeloningsmodel te leren vanuit meerdere gezichtspunten. De kern ervan is ons General Reward Model (GRM), getraind op een enorme dataset van meer dan 3.400 uur, dat gebruikmaakt van Step-wise Reward Discretization voor structureel begrip en Multi-Perspective Reward Fusion om perceptuele beperkingen te overwinnen. Voortbouwend op Dopamine-Reward stellen we Dopamine-RL voor, een robuust raamwerk voor beleidsleren dat een theoretisch verantwoorde Policy-Invariant Reward Shaping-methode gebruikt. Dit stelt de agent in staat om gebruik te maken van dichte beloningen voor efficiënte zelfverbetering zonder het optimale beleid te veranderen, waardoor de semantische val fundamenteel wordt vermeden. Uitgebreide experimenten in diverse gesimuleerde en real-world taken valideren onze aanpak. GRM bereikt state-of-the-art nauwkeurigheid in beloningsbeoordeling, en Dopamine-RL, gebouwd op GRM, verbetert de efficiëntie van beleidsleren aanzienlijk. Wanneer GRM bijvoorbeeld op een one-shot-manier wordt aangepast aan een nieuwe taak vanuit een enkele expert-traject, stelt het resulterende beloningsmodel Dopamine-RL in staat om het beleid te verbeteren van bijna nul naar 95% succes met slechts 150 online rollouts (ongeveer 1 uur echte robotinteractie), terwijl sterke generalisatie tussen taken behouden blijft. Projectwebsite: https://robo-dopamine.github.io
De snelle evolutie van generatieve modellen heeft geleid tot een continue opkomst van multimodale veiligheidsrisico's, waardoor de beperkingen van bestaande verdedigingsmethoden aan het licht komen. Om deze uitdagingen aan te pakken, stellen wij ProGuard voor, een vision-language proactieve beveiliging die out-of-distribution (OOD) veiligheidsrisico's identificeert en beschrijft zonder de modelaanpassingen die traditionele reactieve benaderingen vereisen. Wij construeren eerst een modality-gebalanceerde dataset van 87K samples, elk geannoteerd met zowel binaire veiligheidslabels als risicocategorieën volgens een hiërarchische multimodale veiligheidstaxonomie, waardoor modality bias effectief wordt gereduceerd en consistente moderatie over tekst-, beeld- en tekst-beeldinput wordt gewaarborgd. Op basis van deze dataset trainen wij ons vision-language basismodel uitsluitend via reinforcement learning (RL) om efficiënte en beknopte redenering te bereiken. Om proactieve veiligheidsscenario's in een gecontroleerde setting te benaderen, introduceren wij verder een OOD veiligheidscategorie-inferentietaak en verrijken we het RL-doel met een op een synoniemenbank gebaseerde similariteitsbeloning die het model aanmoedigt om beknopte beschrijvingen te genereren voor onzichtbare onveilige categorieën. Experimentele resultaten tonen aan dat ProGuard een prestatieniveau bereikt dat vergelijkbaar is met closed-source grote modellen voor binaire veiligheidsclassificatie, en bestaande open-source beveiligingsmodellen aanzienlijk overtreft voor de categorisering van onveilige inhoud. Opmerkelijk is dat ProGuard een sterke proactieve moderatiecapaciteit levert, met een verbetering van 52,6% in OOD-risicodetectie en 64,8% in OOD-risicobeschrijving.
Bestaande AI-gestuurde videocreatiesystemen behandelen scriptontwerp en key-shot-design doorgaans als twee gescheiden taken: de eerste steunt op grote taalmodel(len), terwijl de laatste afhankelijk is van beeldgeneratiemodellen. Wij beargumenteren dat deze twee taken verenigd moeten worden binnen één enkel raamwerk, aangezien logisch redeneren en verbeeldingskracht beide fundamentele kwaliteiten van een filmregisseur zijn. In dit werk stellen we UniMAGE voor, een verenigd regisseursmodel dat gebruikersprompts verbindt met goed gestructureerde scripts, waardoor niet-experts in staat worden gesteld om lange, multi-shot films te produceren door gebruik te maken van bestaande audio-videogeneratiemodellen. Om dit te bereiken, gebruiken we de Mixture-of-Transformers-architectuur die tekst- en beeldgeneratie verenigt. Om de narratieve logica en keyframe-consistentie verder te verbeteren, introduceren we een "eerst verweven, dan ontwarren" trainingsparadigma. Concreet voeren we eerst Interleaved Concept Learning uit, waarbij verweven tekst-beelddata wordt gebruikt om een dieper begrip en een verbeeldingsrijke interpretatie van scripts door het model te bevorderen. Vervolgens voeren we Disentangled Expert Learning uit, waarbij scriptschrijven wordt ontkoppeld van keyframe-generatie, wat meer flexibiliteit en creativiteit in storytelling mogelijk maakt. Uitgebreide experimenten tonen aan dat UniMAGE state-of-the-art prestaties bereikt onder open-source modellen, waarbij het logisch coherente videoscrips en visueel consistente keyframe-beelden genereert.
Real-time portretanimatie is essentieel voor interactieve toepassingen zoals virtuele assistenten en live avatars, en vereist hoge visuele kwaliteit, temporele coherentie, ultralage latentie en responsieve controle op basis van dynamische invoer zoals referentiebeelden en stuur-signalen. Hoewel op diffusie gebaseerde modellen sterke kwaliteit bereiken, belemmert hun niet-causale aard streaming-implementatie. Causale autoregressieve videogeneratiemethoden maken efficiënte frame-voor-frame-generatie mogelijk, maar lijden onder foutaccumulatie, beweging-sdiscontinuïteiten op chunkgrenzen en verminderde langetermijnconsistentie. In dit werk presenteren we een nieuw streaming-framework genaamd Knot Forcing voor real-time portretanimatie dat deze uitdagingen aanpakt via drie sleutelontwerpen: (1) een chunk-gewijze generatiestrategie met globaal identiteitsbehoud via gecachete KV-toestanden van het referentiebeeld en lokale temporele modellering met sliding window attention; (2) een temporele knoopmodule die aangrenzende chunks overlapt en spatio-temporele signalen doorgeeft via image-to-video-conditioning om bewegingsovergangen tussen chunks te verzachten; en (3) een "vooruitlopen"-mechanisme dat tijdens inferentie het temporele coördinaat van het referentieframe dynamisch bijwerkt, zodat de semantische context voorloopt op de huidige gegenereerde frame om langetermijncoherentie te ondersteunen. Knot Forcing maakt hoogwaardige, temporeel consistente en interactieve portretanimatie over oneindige sequenties mogelijk, met real-time prestaties en sterke visuele stabiliteit op consumenten-GPU's.
Het evalueren van de prestaties van verschillende modelarchitecturen, zoals transformers, large language models (LLM's) en andere NLP-systemen, vereist uitgebreide benchmarks die de prestaties langs meerdere dimensies meten. Daarbij is de evaluatie van natural language understanding (NLU) bijzonder cruciaal, aangezien dit een fundamenteel criterium vormt voor het beoordelen van modelcapaciteiten. Het is daarom essentieel om benchmarks op te zetten die een grondige evaluatie en analyse van NLU-vaardigheden vanuit diverse perspectieven mogelijk maken. Hoewel de GLUE-benchmark een standaard heeft gezet voor het evalueren van Engelse NLU, zijn er voor andere talen vergelijkbare benchmarks ontwikkeld, zoals CLUE voor Chinees, FLUE voor Frans en JGLUE voor Japans. Voor de Turkse taal bestaat er echter momenteel geen vergelijkbare benchmark. Om dit hiaat op te vullen, introduceren wij TrGLUE, een uitgebreide benchmark die diverse NLU-taken voor het Turks omvat. Daarnaast presenteren wij SentiTurca, een gespecialiseerde benchmark voor sentimentanalyse. Om onderzoekers te ondersteunen, bieden wij ook fine-tuning- en evaluatiecode voor op transformers gebaseerde modellen aan, wat het effectieve gebruik van deze benchmarks vergemakkelijkt. TrGLUE omvat inheemse Turkse corpora die zijn samengesteld om de domeinen en taakformuleringen van GLUE-achtige evaluaties te weerspiegelen, waarbij de labels zijn verkregen via een semi-geautomatiseerde pijplijn die krachtige op LLM's gebaseerde annotatie, kruis-modelovereenstemmingscontroles en daaropvolgende menselijke validatie combineert. Dit ontwerp geeft prioriteit aan linguïstische natuurlijkheid, minimaliseert directe vertaalartefacten en levert een schaalbare, reproduceerbare workflow op. Met TrGLUE is ons doel om een robuust evaluatiekader voor Turkse NLU te vestigen, onderzoekers te voorzien van waardevolle hulpbronnen en inzichten te bieden in het genereren van hoogwaardige semi-geautomatiseerde datasets.
Het versnellen en efficiënter maken van training en inferentie voor deep learning-aanbevelingsmodellen (DLRM) is van groot belang. Dit brengt echter drie belangrijke systeemuitdagingen met zich mee: diversiteit in modelarchitectuur, diversiteit in kernelprimitieven, en heterogeniteit in hardwaregeneraties en -architecturen. Dit artikel presenteert KernelEvolve – een agent-gebaseerd kernelcoderingsframework – om heterogeniteit op grote schaal aan te pakken voor DLRM. KernelEvolve is ontworpen om kernelspecificaties als invoer te nemen en het proces van kernelgeneratie en -optimalisatie voor aanbevelingsmodellen te automatiseren across heterogene hardwarearchitecturen. KernelEvolve bereikt dit door te opereren op meerdere programmeerabstractieniveaus, van Triton- en CuTe-DSL's tot low-level hardware-agnostische talen, waarbij de volledige hardware-software-optimalisatiestack wordt bestreken. Het kerneloptimalisatieproces wordt omschreven als een op grafen gebaseerde zoektocht met selectiebeleid, universele operator, fitnessfunctie en stopregel, die zich dynamisch aanpast aan de runtime-uitvoeringscontext via retrieval-augmented prompt-synthese. We hebben KernelEvolve ontworpen, geïmplementeerd en ingezet om een grote verscheidenheid aan productie-aanbevelingsmodellen te optimaliseren across generaties NVIDIA- en AMD-GPU's, evenals Meta's AI-accelerators. We valideren KernelEvolve op de publiek toegankelijke KernelBench-suite, waarbij een slagingspercentage van 100% wordt behaald op alle 250 problemen across drie moeilijkheidsgraden, en 160 PyTorch ATen-operators across drie heterogene hardwareplatforms, wat 100% correctheid aantoont. KernelEvolve reduceert ontwikkeltijd van weken naar uren en behaalt aanzienlijke prestatieverbeteringen ten opzichte van PyTorch-baselines across diverse productie-use cases en voor heterogene AI-systemen op grote schaal. Naast prestatie-efficiëntieverbeteringen, vermindert KernelEvolve de programmeerbaarheidsbarrière voor nieuwe AI-hardware aanzienlijk door geautomatiseerde kernelgeneratie mogelijk te maken voor intern ontwikkelde AI-hardware.
Wij introduceren het Self-Evaluating Model (Self-E), een nieuwe, from-scratch trainingsaanpak voor tekst-naar-beeld generatie die inferentie met een willekeurig aantal stappen ondersteunt. Self-E leert van data op een vergelijkbare manier als een Flow Matching-model, maar gebruikt tegelijkertijd een nieuw zelfevaluatiemechanisme: het evalueert zijn eigen gegenereerde samples met behulp van zijn huidige score-schattingen, en fungeert zo effectief als een dynamische zelf-leraar. In tegenstelling tot traditionele diffusie- of flowmodellen, vertrouwt het niet uitsluitend op lokale supervisie, wat typisch veel inferentiestappen vereist. In tegenstelling tot op distillatie gebaseerde benaderingen, vereist het geen voorgetrainde leraar. Deze combinatie van onmiddellijk lokaal leren en zelfgestuurd globaal matchen overbrugt de kloof tussen de twee paradigma's, waardoor het mogelijk wordt een hoogwaardig tekst-naar-beeld model from scratch te trainen dat uitblinkt, zelfs bij een zeer laag aantal stappen. Uitgebreide experimenten op grootschalige tekst-naar-beeld benchmarks tonen aan dat Self-E niet alleen uitmunt in generatie met weinig stappen, maar ook concurrerend is met state-of-the-art Flow Matching-modellen bij 50 stappen. Wij stellen verder vast dat de prestaties monotoon verbeteren naarmate het aantal inferentiestappen toeneemt, wat zowel ultra-snelle generatie met weinig stappen als hoogwaardige sampling met lange trajecten binnen één verenigd model mogelijk maakt. Voor zover wij weten, is Self-E het eerste from-scratch, any-step tekst-naar-beeld model, dat een verenigd raamwerk biedt voor efficiënte en schaalbare generatie.
Wij presenteren de verrassende bevinding dat de redeneervaardigheden van een taalmodel kunnen worden verbeterd door training op synthetische datasets van chain-of-thought (CoT)-sporen afkomstig van krachtigere modellen, zelfs wanneer al die sporen leiden tot een incorrect eindantwoord. Onze experimenten tonen aan dat deze aanpak betere prestaties kan opleveren bij redeneertaken dan training op door mensen geannoteerde datasets. Wij veronderstellen dat twee sleutelfactoren dit fenomeen verklaren: ten eerste ligt de distributie van synthetische data inherent dichter bij de eigen distributie van het taalmodel, wat het leren ervan vergemakkelijkt. Ten tweede zijn deze 'incorrecte' sporen vaak slechts gedeeltelijk flawed en bevatten ze geldige redeneerstappen waarvan het model kan leren. Om de eerste hypothese verder te testen, gebruiken we een taalmodel om door mensen geannoteerde sporen te parafraseren – waardoor hun distributie verschuift naar die van het model zelf – en tonen we aan dat dit de prestaties verbetert. Voor de tweede hypothese introduceren we toenemend flawed CoT-sporen en bestuderen we in hoeverre modellen tolerant zijn voor deze fouten. Wij demonstreren onze bevindingen in diverse redeneerdomeinen zoals wiskunde, algoritmisch redeneren en codegeneratie met behulp van de datasets MATH, GSM8K, Countdown en MBPP op verschillende taalmodellen, variërend van 1,5B tot 9B parameters, waaronder Qwen-, Llama- en Gemma-modellen. Onze studie toont aan dat het samenstellen van datasets die dichter bij de distributie van het model liggen, een cruciaal aspect is om te overwegen. Wij tonen ook aan dat een correct eindantwoord niet altijd een betrouwbare indicator is voor een correct redeneerproces.
Recente tekst-naar-beeld diffusiemodellen hebben een opmerkelijke generatie van realistische gezichtsafbeeldingen aangetoond, geconditioneerd op tekstuele prompts en menselijke identiteiten, wat het creëren van gepersonaliseerde gezichtsafbeeldingen mogelijk maakt. Bestaande prompt-gebaseerde methoden voor het verwijderen of wijzigen van identiteitsspecifieke kenmerken zijn echter ofwel afhankelijk van een goede representatie van het onderwerp in het vooraf getrainde model, of vereisen modelfinetuning voor specifieke identiteiten. In dit werk analyseren we het identiteitsgeneratieproces en introduceren we een reverse personalisatiekader voor gezichtsanonymisatie. Onze aanpak benut conditionele diffusie-inversie, waardoor directe manipulatie van afbeeldingen mogelijk is zonder gebruik te maken van tekstprompts. Om generalisatie voorbij de onderwerpen in de traindata van het model te bereiken, incorporeren we een identiteitsgeleide conditioneringstak. In tegenstelling tot eerdere anonimisatiemethoden, waarbij controle over gezichtskenmerken ontbreekt, ondersteunt ons kader kenmerk-controleerbare anonimisatie. Wij tonen aan dat onze methode een state-of-the-art balans bereikt tussen identiteitsverwijdering, kenmerkbehoud en beeldkwaliteit. Broncode en data zijn beschikbaar op https://github.com/hanweikung/reverse-personalization.