Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Visie-taalspecialistische modellen (VLMs) formuleren visuele grounding en detectie doorgaans als een coördinaat-token-generatieprobleem, waarbij elke 2D-box wordt geserialiseerd in meerdere 1D-tokens die grotendeels onafhankelijk worden geleerd en gedecodeerd. Deze token-voor-token-decodering sluit niet aan bij de gekoppelde structuur van de boxgeometrie en creëert een praktische inferentieknelpunt door de strikt sequentiële generatie. We introduceren LocateAnything, een uniform generatief grounding- en detectieraamwerk gebaseerd op Parallelle Box-Decodering (PBD). Door geometrische elementen zoals begrenzingsvakken en punten in één enkele stap als atomaire eenheden te decoderen, behoudt LocateAnything de intra-box geometrische coherentie en realiseert het aanzienlijke parallelliteit. We tonen aan dat PBD zowel de decoderingdoorvoer als de lokalisatienauwkeurigheid verbetert. Verder ontwikkelen we een schaalbare data-engine en stellen we LocateAnything-Data samen, een grootschalige dataset met meer dan 138 miljoen trainingsmonsters, die de datadiversiteit voor nauwkeurige lokalisatie aanzienlijk vergroot. Uitgebreide evaluaties tonen aan dat LocateAnything de snelheid-nauwkeurigheidsgrens verlegt, met een significant hogere decoderingdoorvoer en tegelijkertijd een verbeterde hoge IoU-lokalisatiekwaliteit over diverse benchmarks. De resultaten benadrukken de complementaire voordelen van Parallelle Box-Decodering en grootschalige trainingsdata bij het mogelijk maken van efficiënte en nauwkeurige uniforme visuele grounding en detectie.
De snelle evolutie van generatieve videofundamentmodellen heeft het vakgebied richting professionele cinematografische synthese gestuwd. Om een dergelijke veeleisende kwaliteit te bereiken, verschuift de gemeenschap naar Reinforcement Learning (RL) en agentische workflows. Echter, betrouwbare evaluatie is een kritieke bottleneck geworden. Bestaande benchmarks beoordelen voornamelijk 'of het juist is' (basale prompt-volging) terwijl ze fundamenteel 'of het goed is' (cinematografische kwaliteit, acteren en esthetiek) verwaarlozen. Bovendien missen de huidige geautomatiseerde metrieken de domeinspecifieke nauwkeurigheid die nodig is om betrouwbare signalen te leveren, waardoor een ernstige geloofwaardigheidskloof ontstaat tussen menselijke esthetische perceptie en machinebeoordeling. Om deze kloof te overbruggen introduceren we EvalVerse, een uitgebreid, pijplijnbewust en expert-gekalibreerd evaluatiekader. We beschouwen de beoordeling van videogeneratie niet louter als een technische taak, maar als een kernwetenschappelijk probleem: de systematische digitalisering van subjectieve cinematografische expertise. Ten eerste organiseren we domeinkennis in een evaluatietaxonomie die is afgestemd op de professionele filmproductieworkflow (preproductie, productie en postproductie). Ten tweede destilleren we menselijke expertoordelen tot een samengestelde dataset met grootschalige menselijke annotaties. Ten derde injecteren we deze kennis in visie-taalmodelen via een expert-gekalibreerde fine-tuningstrategie, waardoor het VLM in staat wordt gesteld expliciete Chain-of-Thought-redeneringen uit te voeren. In vergelijking met eerdere werken blijft EvalVerse niet alleen compatibel met fundamentele 'juistheids'-metrieken, maar breidt het de criteria aanzienlijk uit naar 'goedheid' en verbreedt het de taakdekking naar complexe multi-shot-sequencing en audiovisuele integratie. Dientengevolge overstijgt EvalVerse, door het leveren van gedetailleerde diagnostische signalen, een statisch klassement en vestigt het een fundamentele infrastructuur voor toekomstig werk, zoals beloningsmodellen en evaluatoragenten.
Hoewel ruimtelijke funderingsmodellen indrukwekkende prestaties hebben laten zien op standaarddatasets, blijft een cruciale vraag onbeantwoord: zijn ze werkelijk allroundspelers die robuust kunnen generaliseren over uiteenlopende downstreamtaken, willekeurige gezichtspunten, wisselende scènedomeinen, variërende invoerdichtheden en specifieke hardwarebeperkingen? Het beantwoorden van deze overkoepelende vraag vereist een holistische beoordeling, maar huidige modellen worden voornamelijk geëvalueerd op specifieke domeinen waarvoor ze specifiek zijn ontworpen of getraind. Dergelijke evaluaties zijn inherent beperkt door een smal paradigma-dekking, beperkte scènedomeinen en willekeurige framebemonstering, waardoor het fundamenteel moeilijk is om hun werkelijke generalisatievermogen te beoordelen. Om deze lacune aan te pakken, presenteren we SpatialBench, een cross-paradigma, domeindiverse benchmark voor ruimtelijke funderingsmodellen met deterministische bemonstering. SpatialBench biedt een ongekende schaal en een rigoureus deterministisch ontwerp, bestaande uit 19 datasets en 546 scènes uit 5 diverse ruimtelijke domeinen. Het evalueert uitgebreid 41 modellen uit 6 paradigma's op 5 taaksuites onder 4 verschillende instellingen voor invoerdichtheid. Onze uitgebreide evaluatie onthult dat huidige modellen nog geen allroundspelers zijn, en levert cruciale inzichten voor toekomstige vooruitgang. Specifiek tonen we aan dat volledige context-aandacht de nauwkeurigheid maximaliseert, terwijl begrensde geheugenstrategieën schaalbaarheid voor lange reeksen mogelijk maken. Bovendien laten onze empirische evaluaties in uitdagende belichaamde en egocentrische taken zien dat strikte domeinafstemming en hoge datakwaliteit veel crucialer zijn voor prestaties dan eenvoudige datasetschaling. Verder gaan we, om de grootste datalacune in onze analyse aan te pakken, verder dan evaluatie door een grootschalige dataset, DA-Next-5M, en een sterk basismodel, DA-Next, te introduceren, waarmee de grenzen van ruimtelijke representatieleren worden verlegd.
We presenteren MobileGym, een browser-gehoste, lichtgewicht, volledig controleerbare omgeving voor dagelijks mobiel gebruik, gericht op interactietrouw zonder propriëtaire backend na te bootsen. Het biedt twee mogelijkheden die voorheen buiten bereik waren van alledaagse apps: verifieerbare uitkomstsignalen door deterministische toestandsgebaseerde beoordeling over gestructureerde JSON-toestand, en schaalbare online RL door goedkope parallelle rollouts. De volledige omgevingstoestand wordt vastgelegd, geconfigureerd, afgesplitst en vergeleken als gestructureerde JSON, en een enkele server kan honderden parallelle instanties hosten, met ongeveer 400 MB geheugen per instantie en een koude start van ongeveer 3 s. Een gelaagd toestandsmodel en een declaratief taakdefinitiekader houden toestandsprogrammeerbaarheid en taakcreatie op schaal praktisch, en een enkel programmatisch beoordelingsmechanisme levert zowel deterministische evaluatie-uitspraken als dichte RL-beloningen. De bijbehorende MobileGym-Bench biedt 416 geparametriseerde taaksjablonen, waaronder 256 test- en 160 trainingssjablonen, over 28 apps, met deterministische beoordelaars en een gestructureerd AnswerSheet-protocol dat mislukkingen bij vrij-tekst matching voorkomt. In een Sim-to-Real-casestudy behaalt GRPO op Qwen3-VL-4B-Instruct een winst van +12,8 procentpunt op de testset van 256 taken, en op een subset van 59 taken met signaal van echte apparaten behoudt uitvoering op een echt apparaat 95,1% van de trainingswinst aan de simulatiezijde. Projectpagina: https://mobilegym.github.io.
Multi-view 3D-reconstructie heeft opmerkelijke vooruitgang geboekt met de komst van feed-forward 3D-reconstructiemodellen. Deze modellen worden echter doorgaans getraind en geëvalueerd onder ideale, degradatievrije beeldvormingsomstandigheden, terwijl waarnemingen in de praktijk vaak degradaties bevatten die aanzienlijk afwijken van dergelijke instellingen. Het verbeteren van de robuustheid van multi-view 3D-reconstructie onder gedegradeerde omstandigheden blijft daarom een belangrijke uitdaging. We presenteren Geometry-Aware Representation Denoising (GARD), een nieuw raamwerk dat diffusie-gebaseerde multi-view restauratie rechtstreeks uitvoert in de kenmerkruimte van een feed-forward 3D-reconstructiemodel. Dit ontwerp maakt gebruik van de geometriebewuste kenmerkrepresentaties van de 3D-reconstructor om effectief nauwkeurige scènegeometrie te herstellen. Bovendien kunnen de verfijnde representaties, door het gebruik van een extra RGB-beelddecoder, ook worden gebruikt om hoogwaardige RGB-beelden te herstellen, waardoor gelijktijdig herstel van 3D-scènegeometrie en hoogwaardige beelden mogelijk wordt. Uitvoerige experimenten op de Depth Anything 3 (DA3)-benchmark tonen de effectiviteit van het voorgestelde GARD-raamwerk aan.
Audio-visuele generatie ontwikkelt zich snel van korte clips naar minutenlange inhoud, terwijl bestaande evaluatieprotocollen grotendeels beperkt blijven tot kortdurende omgevingen. Huidige benchmarks richten zich voornamelijk op 5 tot 10 seconden durende tekstgestuurde generatie en ondersteunen zelden een uniforme evaluatie over tekst-, beeld- en videoconditionering heen. Bovendien bieden ze beperkt inzicht in hoe identiteitsconsistentie, narratieve samenhang en audio-visuele afstemming achteruitgaan over langere temporele horizonnen. Om deze kloof te overbruggen, introduceren we LongAV-Compass, een systematische benchmark voor minutenlange audio-visuele generatie. LongAV-Compass bevat 284 samengestelde testgevallen die tekst-naar-audio-video (T2AV), beeld-naar-audio-video (I2AV) en video-naar-audio-video (V2AV) omvatten, geordend op toepassingsscenario en generatiecomplexiteit. De benchmark combineert taxonomiegestuurde benchmarkconstructie met een uniform evaluatiekader dat MLLM-ondersteunde beoordeling integreert met complementaire perceptuele en multimodale metrieken, waaronder DINO-v2, ArcFace, CLIP en ImageBind. Het kader evalueert meer dan 20 fijnmazige dimensies die betrekking hebben op kwaliteit binnen segmenten, consistentie tussen segmenten, globale narratieve samenhang, semantische afstemming en audio-visuele synchronisatie. Door experimenten op 11 representatieve modellen, samen met validatie van menselijke afstemming, biedt LongAV-Compass een diagnostisch testbed om de beperkingen van huidige systemen te analyseren bij het handhaven van coherente, semantisch afgestemde en temporeel consistente minutenlange audio-visuele generatie over diverse invoermodaliteiten.
Ondanks de opkomst van diffusion large taalmodellen (D-LLM's) als alternatief voor autoregressieve large taalmodellen (AR-LLM's), blijft veiligheidsmonitoring voor D-LLM's grotendeels onontgonnen. In tegenstelling tot AR-LLM's genereren D-LLM's tekst via een meerstaps-denoisingproces, waarbij tussentijdse verborgen representaties worden blootgelegd die veiligheidsrelevante informatie kunnen bevatten die niet beschikbaar is in standaard éénstapsmonitoringsopstellingen. Gedreven door de geschiktheid van lichtgewicht probes voor continue monitoring, analyseren we welke trajectniveausignalen het beste aangeven wanneer dergelijke probes waarschijnlijk moeite zullen hebben. We ontdekken dat het meest informatieve signaal veiligheidsaarzeling is: tussentijdse verborgen toestanden die herhaaldelijk binnen een kleine marge van de beslissingsgrens van de probe vallen. Het aantal van dergelijke aarzelingstappen in het traject van de D-LLM voorspelt effectief probe-falen en biedt een proxy voor monstermoeilijkheid. Voortbouwend op deze analyse stellen we D^2-Monitor voor, een tweeledige veiligheidsmonitor voor D-LLM's. D^2-Monitor maakt gebruik van een lichtgewicht probe als continue monitor om gezamenlijk aarzeling te schatten en basisclassificatie uit te voeren. Wanneer het aarzelingniveau een drempel overschrijdt, wordt een expressievere maar rekenintensievere probe geactiveerd. Dit dynamische routeringsmechanisme wijst monitoringbronnen efficiënt toe tijdens testtijd. Geëvalueerd op 3 datasets (WildguardMix, ToxicChat, OpenAI-Moderation) over 4 D-LLM's, behaalt D^2-Monitor state-of-the-art prestaties met een compacte parameteromvang (≤ 0,85M parameters) en vertoont het de beste afweging tussen effectiviteit en efficiëntie ten opzichte van 8 basislijnen.
We presenteren de MiniMax-M2-serie, een familie van Mixture-of-Experts-taalmodellen gebouwd rond het principe dat mini-activaties maximale intelligentie in de echte wereld kunnen ontketenen. Het vlaggenschip M2 bevat in totaal 229,9 miljard parameters met slechts 9,8 miljard geactiveerd per token. Ontworpen end-to-end voor agentische inzet, rust de M2-serie op drie componenten: (i) agent-gestuurde datapijplijnen die grootschalige, verifieerbare trajecten produceren voor zowel agentisch programmeren als agentisch samenwerken, elk gebaseerd op een uitvoerbare werkruimte en een aan artefacten gekoppelde beloning; (ii) Forge, een schaalbaar agent-native RL-systeem dat zich aanpast aan langetermijntrajecten van agents, gekoppeld aan windowed-FIFO-scheduling, prefix-tree merging, inferentieoptimalisatie en een schone training-inferentie-agent-ontkoppeling die zowel white-box- als black-box-agents ondersteunt; (iii) de nieuwste M2.7-checkpoint zet een vroege stap richting zelf-evolutie – het autonoom debuggen van trainingsruns en het aanpassen van zijn eigen scaffold. Van M2 tot en met M2.7 vertaalt deze combinatie een kleine activatievoetafdruk naar prestaties op frontiervlak voor benchmarks op het gebied van agentisch programmeren, diep zoeken, kantoortaken en redeneren.
We bestuderen cinematische hermontage op serieniveau, een video-naar-video-generatieprobleem over een lange horizon dat volledige afleveringen of films lokaliseert via stileren of acteursvervanging, terwijl het narratieve structuur, bewegingschoreografie en personage-identiteit strikt behoudt over honderden shots. Bestaande video-generatie- en bewerkingspijplijnen falen vaak in dit regime door cumulatieve identiteitsdrift, achtergrondmutatie en semantische erosie bij grote camerabewegingen en gezichtspuntveranderingen. Wij stellen Soap2Soap voor, een multi-agent framework dat langetermijn taal-visuele consistentie afdwingt via een Dual-Bridge Consistentiemechanisme: een scènebewust JSON-scenario als aanhoudende semantische ruggengraat, en dynamisch toegewezen visuele referentieankers op zowel scène- als shotniveau. Om drift te onderdrukken vóór videosynthese introduceren we batch keyframe-consistentie, waarbij we meerdere keyframes genereren in een gedeelde latente context via een grid-gebaseerde formulering. Een gesloten-lus verificatieagent auditeert verder identiteit, stabiliteit en afstemming om selectieve regeneratie te activeren. Experimenten op SoapBench tonen sterke verbeteringen ten opzichte van commerciële video-generatie-API's in langetermijnconsistentie en narratieve getrouwheid.
Test-Time Scaling (TTS) verbetert de redeneercapaciteiten van grote taalmodellen door extra rekenkracht voor inferentie toe te wijzen om de oplossingsruimte te verkennen. Echter, bestaande parallelle TTS-methoden houden takken doorgaans geïsoleerd tijdens het zoeken: tussentijdse ontdekkingen blijven tak-privé en kunnen andere takken niet tijdig sturen. Deze informatie-isolatie leidt tot aanzienlijke redundante verkenning, omdat takken herhaaldelijk informatie herontdekken die elders al is gevonden en meer zoekstappen nodig hebben om de volledige beslissingsinformatie te verzamelen die nodig is om tot correcte antwoorden te komen. Om deze kloof te overbruggen, stellen we Collaborative Parallel Thinking (CPT) voor, een trainingsvrij inferentieraamwerk dat het delen van informatie tijdens het zoeken over parallelle takken mogelijk maakt. CPT extraheert compacte tussentijdse informatie uit lopende takken, onderhoudt een gededupliceerde query-level informatiepool en verspreidt poolitems via de invoercontext, waardoor elke tak in volgende zoekstappen ontdekkingen van andere takken kan hergebruiken in plaats van dezelfde informatie opnieuw te ontdekken. Empirisch tonen experimenten op HMMT- en AIME-benchmarks aan dat CPT een sterker nauwkeurigheid-latentie Pareto-frontier vestigt dan sterke baselines over rollout-budgetten en modelschalen heen, wat samenwerking tijdens het zoeken benadrukt als een effectieve richting voor efficiënte parallelle TTS.
We introduceren LLaVA-OneVision-2 (LLaVA-OV-2), het meest capabele visie-taalmodel in de LLaVA-OneVision-serie tot nu toe, dat superieure prestaties levert over een breed scala aan multimodale benchmarks. Het model bouwt voort op een native OneVision-Encoder en integreert Windowed Attention voor efficiënte lokale berekening, terwijl de native resolutie behouden blijft. De belangrijkste vooruitgang is codec-stroom tokenisatie: het behandelt gecomprimeerde video als een continue bitkostenstroom, waarbij de bitkostendynamiek adaptieve temporele groepen bepaalt en bewegings-residuen signalen selecteren voor relevante ruimtelijke bewijzen in compacte visuele doeken. Deze allocatie concentreert een beperkt tokenbudget op gebeurtenisdragende inhoud, wat een stabielere tokencompressie van lange video's mogelijk maakt dan vaste groepen beelden. Een gedeelde 3D RoPE plaatst codec-doeken, gesamplede frames en afbeeldingen verder in een uniform ruimte-tijd-coördinatensysteem. Daarnaast bouwen we de LLaVA-OV-2-data- en trainingsstack rond grootschalige open supervisie: ongeveer 8M opnieuw van bijschriften voorziene videovoorbeelden voor pre-training, en een 4M-voorbeelden ruimtelijk corpus voor fine-tuning. We introduceren ook JumpScore, een temporele-localisatiebenchmark die gericht is op fijnmazige gronding in hoogfrequente, dicht herhaalde beweging, een regime dat ondervertegenwoordigd is in bestaande video-evaluaties. Een opvallende capaciteit van LLaVA-OV-2 is de uniforme perceptie over videobegrip, temporele gronding, ruimtelijke gronding en manipulatiespoor redeneren. Op JumpScore behaalt LLaVA-OneVision-2-8B 74,9 JumpScore mAP, waarmee het Qwen3-VL-8B (30,1) met +44,8 punten overtreft; bij gelijke visuele tokenbudgetten op dezelfde benchmark verbeteren codec-stroom ingangen de temporele gronding ten opzichte van framesampling met +9,7 punten. Over standaard benchmarks heen presteert LLaVA-OneVision-2-8B verder gemiddeld +4,3 punten beter dan Qwen3-VL-8B op videotaken, +5,3 op ruimtelijke taken en +15,6 gemiddelde J&F op tracking taken.
Normalisatielagen in moderne grote taalmodellen (LLMs) bestaan uit een deterministische normalisatiebewerking en een leerbare schaalvector. Terwijl de normalisatiebewerking uitgebreid is bestudeerd, blijft de schaalvector slecht begrepen, ondanks het alomtegenwoordige gebruik ervan. In dit werk presenteren wij een systematisch onderzoek van schaalvectoren in LLMs vanuit het perspectief van expressiviteit, optimalisatie en architectuurstructuur. Ten eerste tonen wij empirisch aan dat, hoewel schaalvectoren slechts een verwaarloosbaar deel van de modelparameters uitmaken, het verwijderen ervan de pre-training van LLMs aanzienlijk verslechtert. Onze theorie toont verder aan dat, in Pre-Norm-architecturen, schaalvectoren de expressiviteit niet vergroten; in plaats daarvan verbeteren zij de optimalisatie via een zelfversterkend preconditioneringseffect op daaropvolgende lineaire afbeeldingen. Ten tweede onderzoeken wij de rol van gewichtsverval voor schaalvectoren. Door onderscheid te maken tussen Input-Norm- en Output-Norm-lagen, tonen wij theoretisch aan dat gewichtsverval gunstig is voor de eerste maar schadelijk voor de laatste, vanwege hun verschillende rollen in optimalisatie en expressiviteit. Ten derde stellen wij, gemotiveerd door dit begrip, drie lichtgewicht en complementaire verbeteringen voor schaalvectoren voor: tak-specifieke heterogeniteit, verbeterde positionering rond lineaire afbeeldingen, en grootte-richting-herparameterisatie. Zowel theorie als experimenten tonen aan dat elke verbetering consistente winst oplevert. Ten slotte combineren wij deze verbeteringen in een uniforme schaalvectorstrategie en evalueren deze door middel van uitgebreide LLM-pre-trainingsexperimenten op dichte en mengsel-van-experts-modellen variërend van 0,12B tot 2B parameters, over meerdere optimizers en leersnelheidsschema's, onder industriële tokenbudgetten. De uniforme strategie behaalt consistent een lager eindverlies dan goed afgestemde basislijnen en vertoont een gunstiger schaalgedrag, terwijl er verwaarloosbare parameter- en rekenoverhead wordt toegevoegd.
Vision-Language-Action (VLA)-modellen maken veelvuldig gebruik van vooraf getrainde Vision-Language-modellen (VLM's) als beleidsruggengraat, maar het blijft onduidelijk welk type vooraf getrainde VLM-representatie bruikbaar is als VLA-initialisatie. In dit artikel bestuderen we VLA-initialisatie als een gecontroleerd representatie-ontwerpprobleem langs drie assen: embodied VQA-supervisie op vaardigheidsniveau, parameter-updatestrategie en vooraf trainen op robotdata. Onze experimenten tonen aan dat de oorspronkelijke vooraf getrainde VLM-representatie een belangrijke bron is van actieprestaties. Echter, embodied VQA-adaptatie levert geen uniforme winst op: het voordeel hangt af van stroomafwaartse knelpunten, en winsten uit verschillende vaardigheidsdomeinen zijn niet simpelweg additief. Wat betreft updatestrategie biedt LoRA een betrouwbaardere initialisatie dan volledige fine-tuning, wat erop wijst dat het te sterk hervormen van de vooraf getrainde representatie de VLA-initialisatie kan verzwakken. Vooraf trainen op robotdata verbetert de VLA-initialisatie verder, waarbij de sterkste variant wordt verkregen door gefaseerde op LoRA gebaseerde training. Samen suggereren deze bevindingen dat effectieve VLM-naar-VLA-adaptatie actierelevante embodied en robottraject-signalen moet injecteren, terwijl de vooraf getrainde VLM-representatie behouden moet blijven die nuttig blijft voor actieleren.
Flow matching met schone-data-voorspelling heeft aangetoond dat het regresseren op het schone punt de laagdimensionale structuur effectiever kan benutten dan het voorspellen van een omgevingsruisgrootheid. We vragen ons af of dit principe nuttig blijft nadat afbeeldingen zijn afgebeeld in een aangeleerde latente ruimte, waar compressie al veel van de ruwe pixelvariabiliteit heeft verwijderd. We introduceren JLT, een 130M latente diffusie Transformer over bevroren FLUX.2 VAE-codes, en vergelijken schone-latente voorspelling met een gematchte snelheidsvoorspellings-DiT onder dezelfde representatie, backbone en trainingsinstellingen. Hoewel de drie variabelen x, epsilon en v lineair converteerbaar zijn voor een vaste corruptietijd, toont een lokale Gauss-analyse aan dat snelheidsregressie een isotrope doelcovariantievloer erft en laag-variantie latente richtingen versterkt, terwijl schone voorspelling deze dempt. Op ImageNet 256 x 256 behaalt JLT-B/1 FID-50K 2.50 met classifier-vrije begeleiding, met een grote gematchte-doelkloof ten opzichte van snelheidsvoorspelling. Deze resultaten suggereren dat voorspellingsdoelen in latente diffusie representatie-afhankelijke geometrische keuzes zijn, in plaats van uitwisselbare algebraïsche parametriseringen.
Agentische reinforcement learning (RL) is effectief gebleken voor het trainen van op LLM gebaseerde agenten met externe toolgebruiksmogelijkheden. We stellen echter vast dat agentische RL-training leidt tot een toename van overbodige toolaanroepen en de intrinsieke kennisgrens van het model vervaagt, waarbij het model niet meer kan onderscheiden wanneer tools nodig zijn versus wanneer parametrische kennis volstaat. Bestaande oplossingen op basis van reward shaping leveren grofkorrelige optimalisatiedoelen op die doorgaans een onderscheidloze onderdrukking van toolaanroepen stimuleren, wat leidt tot reward hacking. In dit artikel stellen we AKBE (Agentic Knowledge Boundary Enhancement) voor, een on-policy-methode die tijdens training via een tweespoorse uitrol (met-tool en zonder-tool) dynamisch de intrinsieke kennisgrens van het model aftast. We definiëren de kennisgrens als de per-instantie bepaling of tools nodig zijn en het minimale aantal benodigde toolaanroepen. Door de correctheid over de sporen te vergelijken, categoriseert AKBE trajecten en construeert het gerichte toezichtsignalen die voor elke vraag efficiënte toolgebruikspatronen sturen. Deze signalen worden naadloos geïntegreerd in de agentische RL-trainingslus. Experimenten op zeven QA-benchmarks tonen aan dat AKBE de taaknauwkeurigheid gemiddeld met +1,85 verbetert en het aantal toolaanroepen met 18% vermindert in vergelijking met standaard agentische RL, wat resulteert in 25% hogere toolproductiviteit zonder enige afweging tussen nauwkeurigheid en efficiëntie. Verdere analyse suggereert de plug-and-play-compatibiliteit met verschillende RL-algoritmen en het mechanisme van elke signaalcategorie. Onze code is beschikbaar op https://github.com/CuSO4-Chen/AKBE.
LLM-agenten maken gebruik van herbruikbare vaardigheden om complexe taken op te lossen. Bestaande benaderingen voor het creëren van vaardigheden behandelen deze echter als geïsoleerde en statische artefacten, wat hun herbruikbaarheid, betrouwbaarheid en langdurige verbetering beperkt. Wij stellen MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution) voor, een vaardigheidsgeoriënteerd agentraamwerk waarmee agenten hun vermogen om taken op te lossen continu kunnen verbeteren door vaardigheden te creëren, hergebruiken en verfijnen binnen een uniforme levenscyclus (creatie, geheugen, beheer, evaluatie en verfijning). Ons raamwerk stelt agenten in staat om vaardigheden op aanvraag te creëren, ze op te slaan en te hergebruiken bij verschillende taken, ze efficiënt te organiseren en selecteren, en ze te evalueren via eenheidstests en runtime-feedback voor continue verfijning. We introduceren verder vaardigheidsniveau-geheugen dat per vaardigheid ervaring accumuleert over taken heen, wat effectiever hergebruik en aanpassing in de loop der tijd mogelijk maakt. Experimenten op SkillsBench leveren eerste aanwijzingen dat levenscyclus-beheerde vaardigheden taaksucces, efficiëntie, hergebruik en overdracht tussen agenten kunnen verbeteren, wat het belang benadrukt van het behandelen van vaardigheden als langdurige, ervaringsbewuste en testbare activa.
Sociale deductiespellen zijn een populaire testomgeving geworden voor het onderzoeken van redeneren, bedrog, coördinatie en overtuigingsmodellering in Large Language Model (LLM)-agenten. De meeste omgevingen worden echter alleen gescoord op speluitkomsten zoals winstpercentages en blijven grotendeels beperkt tot tekstuele interactie, waardoor het moeilijk is vast te stellen of de taal van een agent daadwerkelijk verankerd is in wat hij waarnam en deed, of om de faalwijzen te identificeren die aan zijn gedrag ten grondslag liggen. Om deze lacune aan te pakken, introduceren we QUACK, een open-source omgeving en evaluatiekader voor het auditen van de verankering van agenttaal in multimodale sociale redenering. QUACK evalueert agenten op drie niveaus: speluitkomsten, gedragstrajecten en uitingconsistentie op uitingniveau. De kern, de Statement Verification Pipeline, reconstrueert het werkelijke traject van elke agent uit engine-logs en controleert elke discussieclaim hiertegen, waarbij automatisch ruimtelijke hallucinatie, ongegronde beschuldiging, bedrogineenstorting en taal-actie-inconsistentie worden gemarkeerd. Bij het evalueren van drie geavanceerde VLM's in zowel homogene als cross-model adversarial settings, vinden we dat zelfs de sterkste agent 15,1% van zijn verifieerbare ruimtelijke claims hallucineert en meer dan de helft van zijn beschuldigingen zonder gegronde onderbouwing uit. We publiceren de volledige engine, het evaluatiekader, de toolkit en de logs op https://github.com/AAAAA-Academia-Attractions/QUACK.
Visuele redenering via reinforcement learning met verifieerbare beloningen (RLVR) heeft opmerkelijke vooruitgang geboekt. Bij het omgaan met multi-bron invoer hebben bestaande benaderingen echter de neiging om deze te behandelen als een loutere opeenstapeling van informatie, zonder expliciete mechanismen om onderscheid te maken of het integreren van extra bronnen informatiewinst of interferentie oplevert. Hierdoor kunnen ze dynamische interactie bij het integreren van meerdere bronnen niet effectief modelleren, vooral wanneer deze aanzienlijk verschillen in fysieke eigenschappen en semantiek, bijvoorbeeld infrarood en diepte, wat leidt tot inferieure prestaties vergeleken met mono-bron redenering wanneer een bepaalde bron het dominante signaal heeft. Om dit probleem aan te pakken, stellen wij MARS voor, een nieuw mono-verankerd multi-bron redeneerframework dat elke visuele modaliteit modelleert als een onafhankelijke informatiebron. Door mono-bron beloningen te behandelen als dynamische ankers, neemt onze methode expliciet de informatiewinst die wordt geïntroduceerd door multi-bron fusie op in de voordeelnormalisatie en benadrukt ze adaptief wederzijdse bevordering tussen bronnen, terwijl potentiële ruis of conflicten tijdens RLVR worden onderdrukt. Uit theoretische analyse blijkt dat onze methode effectief de informatiewinst kwantificeert die door multi-bron integratie wordt geïntroduceerd in de gradiëntschatting, wat consistente modaliteitsregulering mogelijk maakt. Empirische resultaten tonen ook indrukwekkende prestatieverbeteringen van 3,2% en 4,9% op respectievelijk GRPO en DAPO over diverse datasets, wat de effectiviteit van onze methode bevestigt.
Grote taalmodellen (LLMs) zijn geëvolueerd tot interactieve agenten die met gebruikers samenwerken aan realistische taken. Effectieve samenwerking in dergelijke contexten hangt in toenemende mate af van het begrijpen van de gebruiker voorbij wat expliciet wordt gezegd, omdat gebruikersintentie vaak tot uiting komt in gefragmenteerde dagelijkse interacties en zowel gepersonaliseerde modellering als proactieve interactie vereist. Echter, bestaande agent-benchmarks evalueren voornamelijk redeneren en toolgebruik, waarbij de uitdagingen van het afleiden en benutten van gebruikersvoorkeuren in realistische scenario's grotendeels over het hoofd worden gezien. Om deze leemte aan te pakken, introduceren we VitaBench 2.0, een benchmark voor het evalueren van gepersonaliseerd en proactief agentgedrag in langdurige gebruikersinteracties. In VitaBench 2.0 zijn taken georganiseerd als chronologisch geordende reeksen voor individuele gebruikers, waarbij voorkeuren zijn ingebed in gefragmenteerde en heterogene interacties. Succesvolle voltooiing van taken vereist dat de agent continu gebruikersvoorkeuren uit deze interacties extraheert, benut en bijwerkt. We evalueren verder de proactiviteit door middel van taken die vereisen dat agenten ontbrekende informatie herkennen en deze actief verkrijgen van gebruikers of omgevingen voordat ze beslissingen nemen. Om systematische analyse te ondersteunen, bieden we een uitbreidbare geheugeninterface die gecontroleerde vergelijking mogelijk maakt tussen verschillende geheugenarchitecturen. We benchmarken een diverse set van grensverleggende propriëtaire en open-source LLMs. Resultaten tonen aan dat realistische personalisatie zeer uitdagend blijft, zelfs voor de modernste modellen, wat een aanzienlijke kloof onthult tussen huidige mogelijkheden en praktische vereisten. Uitgebreide analyse onthult verder de faalmodi en capaciteitsknelpunten van huidige agenten in realistische gepersonaliseerde besluitvorming, wat inzichten biedt voor toekomstige modelverbeteringen.
Activeringsorakels beogen de activaties van andere modellen leesbaar te maken voor mensen en leveren veelbelovende resultaten op in vergelijking met white-box-interpreteerbaarheidstechnieken. De onzekerheidskwantificatie (UQ) van de natuurlijke-taaloutputs van dergelijke activeringsorakels is echter tot nu toe onderbelicht. In dit artikel onderzoeken we 6 verschillende methoden voor het schatten van het vertrouwen van activeringsorakels en evalueren we hoe goed gekalibreerd hun vertrouwensscores zijn. Onze experimenten op 6.000 steekproeven per orakel (met variërende verbalisator en contextprompts) tonen aan dat de bootstrap-modusfrequentie de best gekalibreerde methode is onder de geteste methoden (ECE 5,7% vs. 25,5% voor de antwoordwoord-logwaarschijnlijkheid op Qwen3-8B; 10,3% vs. 13,1% op Qwen3.6-27B), en dat de logprob-baseline kan dienen als een snel triagesignaal tegen een fractie van de kosten. Code en de gepatchte trainer zijn beschikbaar op https://github.com/federicotorrielli/probabilistic_activation_oracles.
Grote taalmodellen (LLM's) worden steeds vaker ingezet als autonome agenten die redeneren, hulpmiddelen gebruiken en in meerdere stappen handelen. Toch evalueren de meeste hallucinatiebenchmarks alleen de uiteindelijke output, waarbij fouten die ontstaan in tussenliggende Denk-Actie-Waarneming-stappen worden gemist. We presenteren Trajel, een dataset en evaluatiekader voor het auditen van hallucinaties op trajectniveau in multi-agent industriële workflows. Trajel introduceert een vijf-type hallucinatietaxonomie (feitelijk, referentieel, logisch, procedureel en reikwijdtegebaseerd) over door experts geannoteerde agentsporen uit AssetOpsBench. We benchmarken gesuperviseerde detectiemodellen op subtaken-, traject- en lange-contextniveau. Onze resultaten tonen aan dat de meest voorkomende faalwijzen worden gemist door bestaande benchmarks, dat bijna de helft van de gehallucineerde trajecten meerdere typen tegelijk omvat, en dat geautomatiseerde detectoren met hoge binaire nauwkeurigheid nog steeds de subtielste typen verkeerd classificeren. Trajectbewuste detectie presteert aanzienlijk beter dan standaard post-hoc verificatie, waardoor taxonomiegebaseerde evaluatie noodzakelijk is voor een veiligere inzet van agenten.
Multi-agent LLM-systemen verbeteren het redeneren door outputs van meerdere agents te combineren, maar interactie-intensieve methoden kunnen foutenvoortplanting en hoge communicatieoverhead introduceren. Wanneer agents ruwe antwoorden of redeneertraces uitwisselen, kan incorrect tussenredeneren worden overgenomen en versterkt, wat leidt tot een zelfverzekerde maar verkeerde consensus; meerrondecommunicatie verhoogt ook het tokenverbruik, de latentie en de inferentiekosten. In dit artikel stellen we een coördinatieraamwerk met gecontroleerde communicatie voor, genaamd DarkForest. DarkForest houdt agents eerst onafhankelijk, zodat elke agent een antwoord produceert zonder de outputs van de anderen te zien. Vervolgens worden de ruwe antwoorden geparseerd tot gestructureerde kandidaatrecords, semantisch equivalente kandidaten gegroepeerd in clusters, en wordt een gekalibreerde geloofsverdeling over deze clusters geschat met behulp van agentbetrouwbaarheid, vertrouwen, parsingskwaliteit, betrouwbaarheid van ondersteuningspatronen en onafhankelijkheidscorrecties. Een coördinator ontvangt alleen beleidsmatig toegestaan bewijs uit deze geloofstoestand met gecontroleerde communicatie. Experimenten op zes redeneerbenchmarks tonen aan dat DarkForest leidende algehele kwaliteit behaalt, de sterkste baseline met tot 30,7% verbetert op benchmarkmetingen, en het tokenverbruik tot 6,5 keer vermindert in vergelijking met communicatie-intensieve baselines.
Mixture-of-Experts (MoE) is de de facto architectuur geworden voor taalmodellen met honderden miljarden parameters, maar de voordelen ervan op sub-miljard schaal voor implementatie op apparaten zijn grotendeels onontgonnen. Om deze kloof te dichten presenteren we MobileMoE, een familie van on-device MoE-taalmodellen met sub-miljard actieve parameters (0,3-0,9B actief en 1,3-5,3B totaal) die een nieuw Pareto-grensvlak vestigen voor on-device LLM's. We formuleren eerst een on-device MoE-schaalwet die de MoE-architectuur gezamenlijk optimaliseert onder mobiele geheugen- en rekenbeperkingen, en identificeren een on-device sweet spot – gematigde spariteit met fijnmazige en gedeelde experts – die tegelijkertijd geheugen- en rekenoptimaal is. Voortbouwend op de afgeleide architecturen trainen we MobileMoE met een vierfasenrecept dat voortraining, mid-training, instructie-finetuning en kwantiseringsbewuste training omvat, allemaal op open-source datasets. Over 14 benchmarks heen evenaart of overtreft MobileMoE de toonaangevende on-device dichte LLM's met 2-4 keer minder inferentie-FLOP's, en evenaart of overtreft het de state-of-the-art MoE OLMoE-1B-7B met tot 60% minder parameters. Om de laatste stap naar mobiele implementatie te overbruggen, bieden we de eerste efficiënte MoE-inferentie op gangbare smartphones met uitgebreide on-device profilering. Bij vergelijkbaar INT4-gewichtgeheugen levert MobileMoE-S 1,8-3,8 keer snellere prefill en 2,2-3,4 keer snellere decode dan de dichte baseline MobileLLM-Pro.
Onderwerpgestuurde beeldgeneratie heeft tot doel nieuwe afbeeldingen te synthetiseren die de identiteit van het gegeven onderwerp behouden en tegelijkertijd tekstuele instructies volgen. Bestaande benaderingen coderen tekst en referentiebeelden vaak afzonderlijk. Dit beperkt de cross-modale redeneervaardigheden en veroorzaakt copy-paste artefacten. Recente raamwerken die multimodale modellen en diffusiemodellen verbinden, verbeteren het opvolgen van instructies, maar negeren grotendeels het behoud van identiteit. Om deze beperkingen aan te pakken, conditioneren we diffusiemodellen op Multimodale Grote Taalmodellen (MLLMs) die tekst en referentiebeelden gezamenlijk coderen, en vullen we dit aan met VAE-gebaseerde identiteitsconditionering. Een nieuwe Dual Layer Aggregation (DLA)-module is ontworpen om multi-level MLLM-kenmerken te aggregeren voor optimale conditionering, en een meerfasige ontruisingsstrategie wordt toegepast om tijdens de inferentie geleidelijk de semantische informatie van MLLM en de fijne detailidentiteit van VAE in evenwicht te brengen. Uitgebreide experimenten tonen aan dat onze aanpak multimodaal begrip harmonieert met identiteitsbehoud, copy-paste problemen vermindert en superieure prestaties levert met betrekking tot menselijke voorkeur bij onderwerpgestuurde beeldgeneratie. Onze projectwebsite is beschikbaar op https://zsh2000.github.io/squeeze-mllm-subject-gen/.
Wij introduceren Gemini Embedding 2, een native multimodaal inbeddingsmodel dat het mogelijk maakt om video-, audio-, beeld- en tekstmodaliteiten in te bedden in een uniforme representatieruimte. Wij benutten de multimodale capaciteiten van Gemini om inbeddingen te genereren voor willekeurige combinaties van door elkaar lopende inputs over al deze modaliteiten, die goed generaliseren over een breed scala aan taken. Door grootschalig contrastief leren toe te passen in een multi-task multi-stage trainingsopzet, behalen we state-of-the-art prestaties op belangrijke inbeddingsbenchmarks, waaronder unimodale, cross-modale en multimodale terugwinning voor een divers takenpakket. We tonen aan dat ons inbeddingsmodel sterke prestaties levert (met een score van 62,9 R@1 op MSCOCO, 68,8 NDCG@10 op Vatex, 69,9 op MTEB meertalig en 84,0 op MTEB Code) over een verscheidenheid aan taken, waarmee het de prestaties van gespecialiseerde modellen overtreft. Deze uniforme mogelijkheden maken Gemini Embedding 2 tot een veelbelovende kandidaat voor downstream-toepassingen zoals RAG, aanbevelingen en zoekopdrachten. Bovendien bevestigen de robuuste zero-shot-prestaties op uiteenlopende gebieden – van astronomie en biowetenschappen tot beeldende kunst en culinaire kunst – het model als een zeer betrouwbare, out-of-the-box-representatie, zelfs voor gespecialiseerde domeinen.
Recente vooruitgang in grote taalmodellen (LLM's) heeft geleid tot de wijdverbreide inzet van LLM's als interactieve agenten die kunnen redeneren, plannen en hulpmiddelen gebruiken. Ondanks sterke prestaties op bestaande benchmarks vertonen dergelijke agenten vaak een opmerkelijke achteruitgang wanneer ze worden ingezet in realistische omgevingen, waar omgevingen inherent stochastisch en imperfect zijn. Wij stellen dat deze discrepantie voortkomt uit een fundamentele mismatch tussen geïdealiseerde trainingsomstandigheden en realistische interactiedynamieken, waarbij huidige paradigma's vertrouwen op zorgvuldig samengestelde taakinstructies en stabiele, goed gecontroleerde omgevingen. Om deze kloof te overbruggen, introduceren we NoisyAgent, een agentisch trainingsraamwerk dat expliciet omgevingsimperfecties integreert in het leerproces van de agent. We identificeren twee belangrijke bronnen van interactieruis in realistische scenario's: gebruikersruis, die ambiguïteit en variabiliteit in gebruikersinteractie vastlegt, en hulpmiddelruis, die storingen en afwijkingen in de uitvoering van hulpmiddelen weerspiegelt. We introduceren dergelijke verstoringen in de trainingspijplijn door gebruikersinteractiepatronen aan te passen en simulaties van hulpmiddeluitvoeringsresultaten in de trainingsomgeving. Om de training te stabiliseren terwijl agenten worden aangemoedigd om steeds uitdagendere imperfecties aan te pakken, wordt ruis slechts toegepast op een subset van rollouts en geleidelijk in moeilijkheidsgraad verhoogd naarmate het model zich aanpast aan het huidige ruisniveau. Uitgebreide experimenten tonen aan dat onze aanpak consequent de robuustheid van agenten onder ruisachtige en dynamische omgevingen verbetert. Onze analyse laat zien dat training onder ruisomstandigheden ook prestatieverbeteringen oplevert op geïdealiseerde benchmarks, wat suggereert dat gecontroleerde blootstelling aan omgevingsruis meer generaliseerbare redeneer- en besluitvormingsgedragingen bevordert. Onze bevindingen benadrukken het belang van het modelleren van interactie-imperfecties om de kloof tussen agenttraining en inzet in de echte wereld te overbruggen.
LLM-gebaseerde agenten voor GPU-kernelgeneratie ontwikkelen zich snel, maar hun vooruitgang wordt fundamenteel beperkt door de benchmarks waartegen ze optimaliseren. Bestaande benchmarks sluiten slecht aan bij productie-inferentieframeworks: ze evalueren kernels op één enkele GPU met synthetische invoer, negeren de omliggende compilatiestack en belonen het repliceren van bekende optimalisaties in plaats van het ontdekken van nieuwe. De resulterende beloningssignalen zijn misleidend: agenten leren kernels te genereren die goed scoren in sandboxen, maar interface-incompatibiliteiten, compilatiestackconflicten en stille correctheidsverslechtering introduceren wanneer ze worden geïntegreerd in echte systemen. We introduceren FastKernels, een kernelbenchmark opgebouwd rond een minimale set van 46 representatieve architecturen verdeeld over 8 categorieën, waarvan de kernels gezamenlijk die van 96,2% (409/425) van de HuggingFace Transformers-architecturen overkoepelen. FastKernels fungeert tevens als een minimalistisch, productiegericht inferentieframework dat op gelijke voet presteert met geharde systemen zoals vLLM en SGLang bij mainstream LLM-serving, en aanzienlijk beter presteert dan upstream-referenties voor onderbediende architecturen; de interface van elke taak weerspiegelt de corresponderende module in de state-of-the-art-bibliotheek voor zijn architectuurfamilie, wat directe implementatie van geoptimaliseerde kernels in productiecodebases mogelijk maakt. Door state-of-the-art kernelagenten op FastKernels te evalueren, constateren we dat zelfs de sterkste agent slechts een totale versnelling van 0,94 keer behaalt ten opzichte van productiebaselines, terwijl zwakkere agenten 0,78 keer en 0,53 keer halen – wat bevestigt dat benchmark-productie-misalignatie een kritieke bottleneck is voor het veld. We brengen FastKernels uit als een opstap naar kernelagenten waarvan de benchmarkwinsten direct vertaald worden in productiedoorvoerverbeteringen. Code is beschikbaar op https://github.com/Snowflake-AI-Research/fastkernels
Grote taalmodellen behouden onvermijdelijk gevoelige informatie, gedefinieerd als invoer die schadelijke generaties kan veroorzaken, vanwege training op massale webcorpora, wat zorgen oproept over privacy en veiligheid. Bestaande methoden voor machinaal afleren vertrouwen voornamelijk op hertraining of agressieve fine-tuning, die ofwel rekenkundig duur zijn ofwel geneigd zijn om gerelateerde kennis en algemene modelnuttigheid aan te tasten. In dit werk herformuleren we machinaal afleren als een precies probleem van kennishertoewijzing via modelbewerking. We stellen ZeroUnlearn voor, een few-shot aflerkader. Het overschrijft gevoelige invoer door deze naar een neutrale doeltoestand te mappen en hun oorspronkelijke representaties te verwijderen. ZeroUnlearn dwingt representatieorthogonaliteit af via een multiplicatieve parameterupdate met een gesloten-vormoplossing, wat efficiënt en gericht afleren mogelijk maakt. We breiden ZeroUnlearn verder uit naar een op gradiënten gebaseerde variant voor afleren met meerdere voorbeelden. Experimenten tonen aan dat onze aanpak beter presteert dan bestaande baselines, terwijl de algemene modelnuttigheid behouden blijft. Onze code is beschikbaar op GitHub: https://github.com/XMUDeepLIT/ZeroUnlearn.
Agentisch redeneren over lange tijdshorizonten vereist dat grote taalmodellen handelen op basis van lange interactiegeschiedenissen met gedachten, toolaanroepen, observaties en gedeeltelijke conclusies. De uitdaging is niet alleen dat deze geschiedenissen lang worden, maar dat informatie die nodig is voor de huidige beslissing verspreid kan zijn over verre stappen en pas later relevant wordt. Bestaande benaderingen pakken deze moeilijkheid aan door de interactiegeschiedenis in te korten, te comprimeren tot kortere surrogaten, of geselecteerde delen ervan op te halen voor hergebruik, maar zij modelleren niet expliciet hoe de toegang tot eerdere interactie zich moet aanpassen aan de veranderende toestand van de agent. Wij beschouwen redeneren over lange tijdshorizonten daarentegen als een probleem van toestandsadaptief geheugen. Daartoe stellen wij State-Adaptive Memory (SAM) voor, een zelfstandig raamwerk dat lopende interactie consolideert in compacte geheugenhints, terwijl ruwe trajectpagina's behouden blijven voor intentiegedreven terugroeping. Deze hints worden niet behandeld als vervanging van de geschiedenis; zij dienen eerder als lichtgewicht handvatten waarmee de agent tijdelijk verre informatie kan reconstrueren op basis van zijn huidige behoeften, zonder de onderliggende backbone opnieuw te trainen. Wij optimaliseren de geheugenmodule verder door middel van expertgestuurde supervisie en reinforcement learning, en stemmen deze af op het nut op trajectniveau. Op BrowseComp, BrowseComp-ZH, WideSearch en HLE presteert SAM consequent beter dan sterke baselines over diverse agent-backbones. Onze resultaten suggereren dat expliciete geheugenmodellering een eenvoudige en effectieve basis biedt voor agentisch redeneren over lange tijdshorizonten.
Gelaagde beeldgeneratie en -bewerking is een fundamentele vaardigheid die laagsgewijs hergebruik, bewerking en compositie van gegenereerde visuele inhoud mogelijk maakt, analoog aan bewerking op woordniveau in natuurlijke taal. Ondanks het belang ervan blijft dit op grote schaal een onderbelicht gebied. Om deze leemte aan te vullen, presenteren we MRT, een diffusiemodel met gemaskeerde regio's van 20 miljard parameters, specifiek ontworpen voor het genereren en bewerken van meerlaagse transparante afbeeldingen, getraind op meer dan 10 miljoen meertalige ontwerpvoorbeelden met uiteenlopende beeldverhoudingen en tekstuele prompts. Om deze schaal volledig te benutten, leveren we twee belangrijke technische bijdragen. Ten eerste verenigen we drie complementaire taken, namelijk tekst-naar-lagen, beeld-naar-lagen en lagen-naar-lagen, binnen een gedeeld raamwerk van diffusie met gemaskeerde regio's, waarbij selectieve tokenmaskering flexibele laagsgewijze generatie en bewerking mogelijk maakt. Ten tweede introduceren we, om overlooplaaggeneratie mogelijk te maken, een overloopbewuste canvallaag die omgaat met randinconsistenties en semi-transparante achtergrondsynthese ondersteunt, waardoor volledig bewerkbare lagen mogelijk worden die zich uitstrekken voorbij de zichtbare canvasgrenzen. Daarnaast passen we diffusiedestillatie toe om 8-staps, real-time meerlaagse generatie te bereiken met minimale kwaliteitsvermindering. Uitgebreide experimenten tonen aan dat ons raamwerk aanzienlijk beter presteert dan eerdere state-of-the-art benaderingen, waaronder verschillende commerciële systemen, voor alle drie de taken, waarmee een nieuwe benchmark wordt gevestigd voor meerlaagse transparante beeldgeneratie. Opvallend is dat ons model volgens gebruikersstudieresultaten aanzienlijk beter scoort dan het gelijktijdige Qwen-Image-Layered-model qua beeld-naar-lagen kwaliteit, terwijl het 10-100× snellere inferentie realiseert en het GPU-geheugengebruik voor activeringen tijdens beeld-naar-laag inferentie met 50-90% vermindert.
Diffusion Transformers (DiT) behalen sterke prestaties op het gebied van beeldgeneratie, maar gaan gepaard met aanzienlijke inferentiekosten. Hoewel eerder werk deze kosten heeft verlaagd via kwantisering en distillatie, blijft semi-gestructureerde sparsity, die de FLOPs bijna kan halveren, onderbelicht. Een belangrijke reden hiervoor is dat de meeste bestaande benaderingen zich richten op gewichtssparsificatie, en het snoeien van 50% van de gewichten kan de kritieke modelcapaciteit wegnemen en de generatiekwaliteit verminderen. Onze studie laat echter zien dat DiT-activaties intrinsiek schaars zijn en aanzienlijk robuuster tegen N:M semi-gestructureerde sparsificatie dan gewichten. Gemotiveerd door deze waarneming pleiten wij voor een paradigmaverschuiving van gewichtssparsificatie naar activatiesparsificatie. Wij stellen RT-Lynx voor, dat N:M-sparsificatie toepast op activaties en foutcompensatietechnieken integreert om nauwkeurigheidsverlies te beperken. Verder implementeren we hooggeoptimaliseerde CUDA-kernels die zijn afgestemd op deze instelling, wat leidt tot een gemiddelde versnelling van 1,55x in lineaire lagen. Uitgebreide experimenten met meerdere diffusiemodellen tonen aan dat onze methode de generatiekwaliteit van de oorspronkelijke modellen behoudt, terwijl de inferentie aanzienlijk wordt versneld.
Agentische systemen worden steeds capabeler: agents definiëren strategieën, ondernemen acties en interageren met verschillende omgevingen. Deze autonomie vormt een serieuze uitdaging voor het toezicht op en de beoordeling van agentgedrag. De meeste huidige tools zijn beperkt; ze zijn gericht op observeerbaarheid met basale evaluatiemogelijkheden of leggen statische, handgemaakte foutentaxonomieën op die niet kunnen worden aangepast aan nieuwe domeinen. Om deze leemte te vullen presenteren wij Agentic CLEAR, een automatisch, dynamisch en gebruiksvriendelijk evaluatiekader. Het genereert tekstuele inzichten in het agentgedrag op drie granulariteitsniveaus: systeem, trace en node. Agentic CLEAR functioneert boven de observeerbaarheidslaag, wat naadloze integratie mogelijk maakt, en beschikt over een intuïtieve gebruikersinterface die agentevaluatie zeer toegankelijk maakt. In onze experimenten op vier benchmarks, zeven agentische settings en tienduizenden LLM-gesprekken tonen wij aan dat Agentic CLEAR hoogwaardige, datagedreven en inzichtelijke feedback levert. Onze analyse laat een sterke overeenstemming zien met door mensen geannoteerde fouten en het vermogen om het taaksuccespercentage te voorspellen.
Grote taalmodellen (LLM's) worden doorgaans getraind op geschudde corpora, wat modellen oplevert waarvan de kennis is bevroren op het moment van training en waarvan de temporele verankering slecht begrepen blijft. In dit werk bestuderen we de impact van pre-trainingdynamiek op het verwerven van tijdsgevoelige feitenkennis, met specifieke focus op de volgorde van data. Onze belangrijkste bijdragen zijn tweeledig. Ten eerste introduceren we een uitgebreide benchmark van meer dan 7.000 temporeel verankerde vragen en een evaluatieprotocol dat analyse mogelijk maakt of modellen feiten correct associëren met hun corresponderende tijdsperioden. Ten tweede trainen we 6B-parametermodellen vooraf op temporeel geordende Common Crawl-momentopnamen en vergelijken we ze met standaard geschudde pre-training. Onze resultaten tonen aan dat sequentieel getrainde modellen overeenkomen met geschudde baselines op algemeen taalbegrip en algemene kennis, terwijl ze consistent meer actuele en temporeel precieze kennis vertonen. Temporeel geordende pre-training leidt tot verbeterde feitelijke versheid, terwijl geschudde pre-training piekt op oudere data, mogelijk door toegenomen feitelijke herhaling. Deze bevindingen, samen met de publicatie van onze code op https://github.com/kyutai-labs/kairos , checkpoints en datasets op https://huggingface.co/collections/kyutai/kairos , vormen een basis voor toekomstig onderzoek naar continu leren voor LLM's.
Kunnen grote taalmodellen hun eigen interne toestanden detecteren en rapporteren? Verschillende studies hebben betoogd dat het antwoord op deze vraag ja is. Wij stellen, op basis van lessen uit onderzoek naar menselijke metacognitie, dat deze conclusie voorbarig kan zijn: om van deze conclusie overtuigd te zijn, moeten we onderscheid maken tussen echte introspectie en patroonherkenning op basis van oppervlakkige aanwijzingen. Verder betogen we dat gedragsmatige evidentie op zichzelf inherent ontoereikend is om sterke introspectieve claims te staven. Wij onderzoeken twee recent geïntroduceerde evaluatieparadigma's in het licht van deze overweging. In het eerste paradigma wordt van modellen verwacht dat ze detecteren of hun interne toestanden zijn gemanipuleerd. We vinden dat modellen dergelijke interventies op hun interne toestanden niet betrouwbaar kunnen onderscheiden van manipulaties van de invoer, wat suggereert dat hun succes in de oorspronkelijke studies veeleer hun vermogen weerspiegelt om anomalieën in het algemeen te detecteren, in plaats van specifiek interventies op hun interne toestanden. In het tweede paradigma dat we onderzoeken, krijgen modellen de taak om labels te voorspellen die zijn afgeleid van hun eigen verborgen toestanden. Hier vinden we dat classificatoren die alleen toegang hebben tot de invoer een gelijkwaardige prestatie leveren als de eigen in-context voorspellingen van het model, wat aangeeft dat de oorspronkelijke resultaten niet doorslaggevend aantonen dat het model geprivilegieerde toegang heeft tot zijn interne representaties. We introduceren verder een geherlabelde controle-omgeving, waarin modellen niet kunnen vertrouwen op de semantiek van de taak om deze op te lossen, maar in plaats daarvan moeten vertrouwen op de interne representatie; modellen presteren dichter bij kansniveau in deze beter gecontroleerde versie van de taak. Samengenomen wijzen deze resultaten erop dat de huidige evidentie onvoldoende is om vast te stellen dat grote taalmodellen metacognitieve monitoring vertonen.
Wij introduceren NSF-SciFy, een uitgebreide dataset van wetenschappelijke beweringen en onderzoeksvoorstellen, geëxtraheerd uit toekenningssamenvattingen van de National Science Foundation. Hoewel eerdere datasets voor verificatie van wetenschappelijke beweringen beperkt waren in omvang en reikwijdte, vertegenwoordigt NSF-SciFy een significante vooruitgang met 2,8 miljoen beweringen uit 400.000 samenvattingen die alle wetenschaps- en wiskundedisciplines bestrijken. Wij presenteren twee gerichte subsets: NSF-SciFy-MatSci met 114.000 beweringen uit materiaalwetenschappelijke toekenningen, en NSF-SciFy-20K met 135.000 beweringen uit vijf NSF-directoraten. Met behulp van zero-shot prompting ontwikkelen wij een schaalbare aanpak voor gezamenlijke extractie van wetenschappelijke beweringen en onderzoeksvoorstellen. Wij demonstreren het nut van de dataset via drie stroomafwaartse taken: niet-technische samenvattingsgeneratie, beweringsextractie en onderzoeksvoorstelextractie. Het fine-tunen van taalmodellen op onze dataset levert aanzienlijke verbeteringen op, met relatieve winsten die vaak meer dan 100% bedragen, met name voor extractietaken van beweringen en voorstellen. Onze foutenanalyse onthult dat geëxtraheerde beweringen een hoge precisie maar lagere recall vertonen, wat mogelijkheden suggereert voor verdere methodologische verfijning. NSF-SciFy maakt nieuwe onderzoeksrichtingen mogelijk in grootschalige beweringverificatie, het volgen van wetenschappelijke ontdekkingen en meta-wetenschappelijke analyse. Code en data zijn beschikbaar op https://github.com/darpa-scify/NSFSciFy.
Eerder werk toont aan dat gecontroleerde contrastiviteit tussen zelf gegenereerde antwoorden van grote taalmodellen, ingesteld via beloningsscores, de downstream preferentieafstemming in het Engels verbetert. We breiden deze methode uit naar meerdere talen en evalueren twee modellen over in totaal 14 talen met hoge en lage resources op een diverse reeks taken. Onze belangrijkste bevinding is dat cross-linguale contrastieve preferentieafstemming op zelfgeneraties (CroCo) overdraagt zonder taalspecifieke preferentie-annotatie. Een beloningsmodel getraind op Engelse preferenties (bovenop een meertalige basis) produceert bruikbare intralinguale rangschikkingen voor de meeste talen, en combinatie in een eentalige of meertalige setting verbetert ten opzichte van elk model in de meerderheid van de opstellingen, terwijl catastrofale vergetelheid van gesuperviseerde fijnafstemming wordt voorkomen. We observeren dat de winsten on-policy data vereisen. Off-policy antwoorden verminderen het voordeel en online preferentieoptimalisatie slaagt er niet in te verbeteren ten opzichte van de offline variant. Specifiek, bij gestructureerde taken evenaart of overtreft onze methode de basis in 6/7 talen voor EuroLLM-9B en 4/7 opstellingen voor Aya-3B. Bij open einde generatie winnen beide getunede modellen tegen hun respectievelijke basis in 11 geëvalueerde talen. Over het algemeen tonen we veelbelovende richtingen voor meertalige preferentieafstemming.
Moderne robotbeleidsvormen vertrouwen steeds vaker op action chunking om complexe taken in de fysieke wereld uit te voeren. Hoewel action chunking de temporele consistentie bij gematigde actiefrequenties verbetert, wordt het ontoereikend wanneer de actiefrequentie verder wordt verhoogd (bijv. tot 60 Hz). Bij zulke hoge frequenties slagen beleidsvormen er vaak niet in om acties te genereren die zowel temporeel vloeiend als ruimtelijk consistent zijn. We pakken deze uitdaging aan door hoogfrequente actieleer van de actieruimte naar een latente ruimte te verschuiven met een variational autoencoder (VAE). Deze formulering verbetert zowel de temporele als ruimtelijke consistentie van hoogfrequente besturing aanzienlijk. Om een vloeiende real-time uitvoering mogelijk te maken, introduceren we verder Reuse-then-Refine, een chunk-level verfijningsstrategie die de continuïteit tussen aangrenzende actie-chunks verbetert onder asynchrone inferentie. Als gevolg hiervan kunnen robots die door ons beleid worden aangestuurd, complexe contactrijke taken continu uitvoeren, met minder pauzes en schokkerige bewegingen. Experimenten op drie realistische contactrijke robottaken tonen aan dat onze aanpak taken consistent voltooit met vloeiende bewegingen. Onze code en gegevens zijn beschikbaar op https://github.com/tars-robotics/RTR.
Wij stellen EverAnimate voor, een efficiënte post-training methode voor geanimeerde videogeneratie met lange horizon die visuele kwaliteit en karakteridentiteit behoudt. Lange animaties blijven uitdagend omdat hoogdynamische menselijke bewegingen moeten worden gesynthetiseerd tegen relatief statische omgevingen, waardoor chunk-gebaseerde generatie vatbaar is voor opgestapelde drift: (i) kwaliteitsdrift op laag niveau, zoals progressieve degradatie van statische achtergronden, en (ii) semantische drift op hoog niveau, zoals inconsistente karakteridentiteit en aanzichtsafhankelijke attributen. Om dit probleem aan te pakken, herstelt EverAnimate afgedreven stroomtrajecten door generatie te verankeren aan een persistent latent contextgeheugen, bestaande uit twee complementaire mechanismen. (i) Persistent Latent Propagation onderhoudt een contextgeheugen over chunks heen om identiteit en beweging in de latente ruimte te propageren, terwijl temporeel vergeten wordt beperkt. (ii) Restorative Flow Matching introduceert een impliciete hersteldoelstelling tijdens sampling via snelheidsaanpassing, waardoor de getrouwheid binnen een chunk verbetert. Met alleen lichtgewicht LoRA-aanpassing presteert EverAnimate beter dan de nieuwste methoden voor lange animaties in zowel korte- als langehorizon-instellingen: bij 10 seconden verbetert het PSNR/SSIM met 8%/7% en vermindert het LPIPS/FID met 22%/11%; bij 90 seconden nemen de verbeteringen toe tot respectievelijk 15%/15% en 32%/27%.
Grote taalmodellen voor verticale domeinen worden belemmerd door de schaarste aan complexe, domeinspecifieke taakgerichte dialogen. Bestaande dataverwervingspijplijnen kampen met een aanhoudend trilemma: expertannotatie is duur, gesprekken uit echte dienstverlening worden beperkt door privacy- en commerciële restricties, en statische corpora raken snel temporeel verouderd. Wij stellen Stream voor, een datagericht raamwerk dat gebruikmaakt van openbaar beschikbare streamingmedia (livestreams en korte video's) om op schaal hoogwaardige dienstverleningsdialogen te synthetiseren. Stream ontgint authentieke interactiesignalen uit ruisende streams en synthetiseert gesprekken door rolgebaseerde personaconstructie te integreren met de constructie van conversatieblauwdrukken; verder past het retrieval-verbeterde generatie (RAG) toe om kennisbewuste antwoorden te ondersteunen. Op basis van Stream publiceren wij StreamDial, een grootschalige, multidomein dataset die Automotive, Restaurant en Hotel bestrijkt. StreamDial bevat in totaal 87.498 dialoogsessies en 1.497.320 beurten, met een gemiddelde van 17,11 beurten per sessie en een vergelijkbare schaal over de domeinen heen. Elke sessie is georganiseerd als een gestructureerd viertal <P_u, P_a, B, H> dat de dialooggeschiedenis koppelt aan expliciete gebruikers-/agentpersona’s en een conversatieblauwdruk, waarmee realistische dienstverleningsgedragingen zoals vereistenidentificatie, beperkingsconflicten, onderhandeling en herstel worden vastgelegd. Evaluaties met automatische beoordelaars en stroomafwaartse taken tonen aan dat StreamDial de intrinsieke dialoogkwaliteit verbetert ten opzichte van sterke baselines, en dat modellen getraind met StreamDial de dialoogtoestand tracking (DST) verbeteren over verschillende backbones; verder rapporteren wij een volledige menselijke evaluatieset en bemoedigende meertalige transfer op Qwen3-8B onder een gecontroleerd trainingsbudget. De data is beschikbaar op https://github.com/hitxueliang/DialogDataSetBySTREAM.