Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Autonome wetenschappelijke ontdekking met op grote taalmodellen (LLM) gebaseerde agents heeft recentelijk aanzienlijke vooruitgang geboekt, waarbij het vermogen wordt aangetoond om end-to-end onderzoekswerkstromen te automatiseren. Bestaande systemen vertrouwen echter grotendeels op runtime-gerichte uitvoeringsparadigma's, waarbij herhaaldelijk grote hoeveelheden wetenschappelijke literatuur online worden gelezen, samengevat en beredeneerd. Deze strategie van directe berekening brengt hoge computationele kosten met zich mee, lijdt onder beperkingen van het contextvenster en leidt vaak tot broos redeneren en hallucinaties. Wij stellen Idea2Story voor, een pre-computatie-gedreven raamwerk voor autonome wetenschappelijke ontdekking dat literatuurinterpretatie verschuift van online redeneren naar offline kennisconstructie. Idea2Story verzamelt continu peer-reviewed artikelen samen met hun reviewfeedback, extraheert kernmethodologische eenheden, componeert herbruikbare onderzoekspatronen en organiseert deze in een gestructureerde methodologische kennisgraaf. Tijdens runtime worden ongespecificeerde gebruikersonderzoeksintenties afgestemd op gevestigde onderzoeksparadigma's, waardoor efficiënte retrievable en hergebruik van hoogwaardige onderzoekspatronen mogelijk wordt in plaats van open-ended generatie en trial-and-error. Door onderzoeksplanning en -uitvoering te verankeren in een vooraf opgebouwde kennisgraaf, verlicht Idea2Story het contextvensterknelpunt van LLM's en vermindert het substantieel herhaalde runtime-redenering over literatuur. Wij voeren kwalitatieve analyses en preliminaire empirische studies uit die aantonen dat Idea2Story samenhangende, methodologisch onderbouwde en nieuwe onderzoekspatronen kan genereren, en in staat is tot verschillende hoogwaardige onderzoeksdemonstraties in een end-to-end setting. Deze resultaten suggereren dat offline kennisconstructie een praktische en schaalbare basis biedt voor betrouwbare autonome wetenschappelijke ontdekking.
Text-to-image (T2I)-modellen hebben opmerkelijke successen geboekt in het genereren van beelden van hoge kwaliteit, maar ze falen vaak in het verwerken van complexe ruimtelijke relaties, zoals ruimtelijk perceptie, redeneren of interactie. Deze kritieke aspecten worden grotendeels over het hoofd gezien door huidige benchmarks vanwege hun korte of informatie-arme promptontwerp. In dit artikel introduceren we SpatialGenEval, een nieuwe benchmark die is ontworpen om de ruimtelijke intelligentie van T2I-modellen systematisch te evalueren, waarbij twee belangrijke aspecten worden belicht: (1) SpatialGenEval omvat 1.230 lange, informatie-dichte prompts verspreid over 25 realistische scènes. Elke prompt integreert 10 ruimtelijke subdomeinen en bijbehorende 10 meerkeuzevraag-antwoordparen, variërend van objectpositie en lay-out tot occlusie en causaliteit. Onze uitgebreide evaluatie van 21 state-of-the-art modellen toont aan dat hogere-orde ruimtelijk redeneren een primair knelpunt blijft. (2) Om aan te tonen dat de bruikbaarheid van ons informatie-dichte ontwerp verder reikt dan eenvoudige evaluatie, construeren we ook de SpatialT2I-dataset. Deze bevat 15.400 tekst-beeldparen met herschreven prompts om beeldconsistentie te waarborgen terwijl de informatiedichtheid behouden blijft. Gefinetunede resultaten op huidige foundationmodellen (zoals Stable Diffusion-XL, Uniworld-V1, OmniGen2) leveren consistente prestatieverbeteringen op (+4,2%, +5,7%, +4,4%) en realistischer effecten in ruimtelijke relaties, wat een data-centrisch paradigma benadrukt om ruimtelijke intelligentie in T2I-modellen te bereiken.
Hoewel Mixture-of-Experts (MoE)-architecturen de standaard zijn geworden voor het schalen van sparsiteit in grote taalmodellen, worden ze steeds vaker geconfronteerd met afnemende meeropbrengsten en systeemniveau-knelpunten. In dit werk onderzoeken we het schalen van embeddings als een krachtige, orthogonale dimensie voor het schalen van sparsiteit. Via een uitgebreide analyse en experimenten identificeren we specifieke regimes waarin embedding-schaling een superieur Pareto-front bereikt in vergelijking met expert-schaling. We karakteriseren systematisch de kritieke architectuurfactoren die deze effectiviteit bepalen – variërend van parameterbudgettering tot de wisselwerking met modelbreedte en -diepte. Bovendien zetten we, door geïntegreerde systeemoptimalisaties en *speculative decoding*, deze sparsiteit effectief om in tastbare versnellingen tijdens inferentie. Geleid door deze inzichten introduceren we LongCat-Flash-Lite, een model met 68,5B parameters waarvan ~3B geactiveerd zijn, en dat vanaf nul getraind is. Ondanks de toewijzing van meer dan 30B parameters aan embeddings, overtreft LongCat-Flash-Lite niet alleen parameter-equivalente MoE-baselines, maar vertoont het ook een uitzonderlijke concurrentiekracht ten opzichte van bestaande modellen van vergelijkbare schaal, met name in agent-gerelateerde en codeerdomeinen.
Het manipuleren van dynamische objecten blijft een open uitdaging voor Vision-Language-Action (VLA) modellen. Hoewel deze modellen sterke generalisatie vertonen bij statische manipulatie, hebben ze moeite met dynamische scenario's die snelle perceptie, temporele anticipatie en continue controle vereisen. Wij presenteren DynamicVLA, een raamwerk voor het manipuleren van dynamische objecten dat temporeel redeneren en gesloten-lus aanpassing integreert door drie belangrijke ontwerpen: 1) een compact 0.4B VLA met een convolutioneel vision-encoder voor ruimtelijk efficiënte, structureel getrouwe codering, wat snelle multimodale inferentie mogelijk maakt; 2) Continue Inferentie, die overlappend redeneren en uitvoering mogelijk maakt voor lagere latentie en tijdige aanpassing aan objectbeweging; en 3) Latent-aware Actiestreaming, dat de kloof tussen perceptie en uitvoering overbrugt door temporeel uitgelijnde actie-uitvoering af te dwingen. Om het ontbrekende fundament van dynamische manipulatiedata aan te vullen, introduceren we de Dynamic Object Manipulation (DOM) benchmark, volledig opgebouwd met een geautomatiseerde pijplijn voor datacollectie die efficiënt 200K synthetische episodes verzamelt over 2.8K scènes en 206 objecten, en die snelle verzameling van 2K real-world episodes mogelijk maakt zonder teleoperatie. Uitgebreide evaluaties tonen opmerkelijke verbeteringen in reactiesnelheid, perceptie en generalisatie, waardoor DynamicVLA zich positioneert als een uniform raamwerk voor algemene dynamische objectmanipulatie over verschillende embodimenten heen.
Recente vooruitgang in Vision Language Models (VLM's) heeft aanzienlijke vooruitgang geboekt in visueel redeneren. Open-source VLM's blijven echter achter bij propriëtaire systemen, grotendeels door een gebrek aan hoogwaardige redeneergegevens. Bestaande datasets bieden een beperkte dekking van uitdagende domeinen zoals STEM-diagrammen en visuele puzzels, en missen consistente, langdradige Chain-of-Thought (CoT)-annotaties die essentieel zijn voor het ontlokken van sterke redeneervaardigheden. Om deze kloof te overbruggen, introduceren wij MMFineReason, een grootschalige multimodale redeneerdataset bestaande uit 1,8 miljoen samples en 5,1 miljard oplossingstokens, voorzien van hoogwaardige redeneerannotaties gedistilleerd uit Qwen3-VL-235B-A22B-Thinking. De dataset is opgezet via een systematische pijplijn in drie fasen: (1) grootschalige gegevensverzameling en standaardisatie, (2) CoT-redenatiegeneratie, en (3) uitgebreide selectie op basis van redeneerkwaliteit en moeilijkheidsbewustzijn. De resulterende dataset bestrijkt STEM-problemen, visuele puzzels, spelletjes en complexe diagrammen, waarbij elke sample is geannoteerd met visueel onderbouwde redeneersporen. Wij fine-tunen Qwen3-VL-Instruct op MMFineReason om MMFineReason-2B/4B/8B-versies te ontwikkelen. Onze modellen vestigen nieuwe state-of-the-art resultaten voor hun grootteklasse. Opmerkelijk is dat MMFineReason-4B met succes Qwen3-VL-8B-Thinking overtreft, en MMFineReason-8B zelfs presteert beter dan Qwen3-VL-30B-A3B-Thinking en Qwen3-VL-32B-Thinking benadert, wat een opmerkelijke parameter efficiëntie aantoont. Cruciaal is dat wij een "minder is meer"-fenomeen blootleggen via onze moeilijkheidsbewuste filterstrategie: een subset van slechts 7% (123.000 samples) bereikt een prestatieniveau vergelijkbaar met de volledige dataset. Opmerkelijk is dat wij een synergetisch effect onthullen waarbij een op redeneren gerichte datasamenstelling tegelijkertijd algemene capaciteiten versterkt.
De ontwikkeling van grootschalige visueel-taalmodellen vergroot de vraag naar het beheren en toepassen van enorme hoeveelheden multimodale data, waardoor OCR-technologie (Optical Character Recognition) die informatie uit visuele beelden haalt, steeds populairder wordt. Bestaande OCR-methoden richten zich echter voornamelijk op het herkennen van tekstelementen uit afbeeldingen of gescande documenten (tekstgerichte OCR), en verwaarlozen de identificatie van visuele elementen uit visueel informatie-dichte beeldbronnen (visiegerichte OCR), zoals grafieken, webpagina's en wetenschappelijke diagrammen. In werkelijkheid komen dergelijk visueel informatie-dichte afbeeldingen op grote schaal voor op internet en hebben ze aanzienlijke praktische toepassingswaarde, zoals bij datavisualisatie en webpagina-analyse. In dit technische rapport presenteren we OCRVerse, de eerste holistische OCR-methode in end-to-end vorm die een uniforme tekstgerichte en visiegerichte OCR mogelijk maakt. Hiertoe hebben we een uitgebreide data-engineering opgezet die een breed scala aan tekstgerichte documenten omvat, zoals kranten, tijdschriften en boeken, evenals visiegerichte weergegeven composieten, waaronder grafieken, webpagina's en wetenschappelijke diagrammen. Bovendien stellen we een tweefasen SFT-RL multi-domein trainingsmethode voor OCRVerse voor. SFT mengt direct cross-domein data om te trainen en initiële domeinkennis op te bouwen, terwijl RL zich richt op het ontwerpen van gepersonaliseerde beloningsstrategieën voor de kenmerken van elk domein. Omdat verschillende domeinen uiteenlopende uitvoerformaten en verwachte outputs vereisen, bieden we voldoende flexibiliteit in de RL-fase om flexibele beloningssignalen per domein aan te passen, waardoor cross-domein fusie verbetert en data-conflicten worden vermeden. Experimentele resultaten tonen de effectiviteit van OCRVerse aan, met competitieve prestaties across tekstgerichte en visiegerichte datatypes, die zelfs vergelijkbaar zijn met grootschalige open-source en closed-source modellen.
Grote taalmodellen verdelen de rekenkracht uniform over alle tokens, zonder rekening te houden met het feit dat sommige reeksen triviaal voorspelbaar zijn terwijl andere diepgaand redeneren vereisen. Wij introduceren ConceptMoE, dat semantisch gelijkaardige tokens dynamisch samenvoegt tot conceptrepresentaties, waardoor een impliciete toewijzing van rekenkracht op tokenniveau plaatsvindt. Een leerbare chunkmodule identificeert optimale grenzen door de onderlinge gelijkenis tussen tokens te meten, en comprimeert reeksen met een doelratio R voordat ze het rekenintensieve conceptmodel binnenkomen. Cruciaal is dat de MoE-architectuur gecontroleerde evaluatie mogelijk maakt: we herverdelen de bespaarde rekenkracht om de geactiveerde FLOP's van de baseline (exclusief de berekening van aandachtswaarden) en het totale aantal parameters te evenaren, waardoor de echte architectuurvoordelen geïsoleerd worden. Onder deze omstandigheden presteert ConceptMoE consistent beter dan standaard MoE voor zowel taal- als vision-language taken, met een verbetering van +0,9 punten bij taalpretraining, +2,3 punten bij begrip van lange context en +0,6 punten op multimodale benchmarks. Wanneer een voorgetrainde MoE wordt omgezet tijdens continue training met layer looping, lopen de verbeteringen op tot +5,5 punten, wat de praktische toepasbaarheid aantoont. Naast de prestaties vermindert ConceptMoE de aandachtberekening tot R^2 keer en de KV-cache met R keer. Bij R=2 tonen empirische metingen aan dat de prefill-snelheid oploopt tot 175% en de decodering-snelheid tot 117% voor lange sequenties. De minimale architecturale aanpassingen maken een eenvoudige integratie in bestaande MoE-modellen mogelijk, wat aantoont dat adaptieve verwerking op conceptniveau zowel de effectiviteit als de efficiëntie van grote taalmodellen fundamenteel verbetert.
In dit rapport introduceren we de Qwen3-ASR-familie, die bestaat uit twee krachtige alles-in-één spraakherkenningsmodellen en een nieuw niet-autoregressief model voor geforceerde spraakalignering. Qwen3-ASR-1.7B en Qwen3-ASR-0.6B zijn ASR-modellen die taalidentificatie en spraakherkenning ondersteunen voor 52 talen en dialecten. Beide modellen maken gebruik van grootschalige spraaktrainingsgegevens en de sterke audiobegripscapaciteiten van hun foundation model Qwen3-Omni. Naast de opensource-benchmarks voeren we een uitgebreide interne evaluatie uit, omdat ASR-modellen weinig kunnen verschillen in opensource-benchmarkscores maar aanzienlijke kwaliteitsverschillen kunnen vertonen in realistische scenario's. De experimenten tonen aan dat de 1.7B-versie state-of-the-art prestaties bereikt onder opensource-ASR-modellen en concurrerend is met de sterkste propriëtaire API's, terwijl de 0.6B-versie de beste nauwkeurigheid-efficiëntieverhouding biedt. Qwen3-ASR-0.6B kan een gemiddelde TTFT bereiken van slechts 92 ms en 2000 seconden spraak transcriberen in 1 seconde bij een gelijktijdigheid van 128. Qwen3-ForcedAligner-0.6B is een op LLM gebaseerde NAR-tijdstempelvoorspeller die tekst-spraakparen kan aligneren in 11 talen. Experimenten met tijdstempelnauwkeurigheid tonen aan dat het voorgestelde model beter presteert dan de drie sterkste geforceerde aligneringsmodellen en meer voordelen biedt op het gebied van efficiëntie en veelzijdigheid. Om het gemeenschapsonderzoek naar ASR en audiobegrip verder te versnellen, geven we deze modellen vrij onder de Apache 2.0-licentie.
Huidige benaderingen om ongewenste capaciteiten in taalmodel(len) te verminderen zijn grotendeels post hoc en kunnen daardoor eenvoudig worden omzeild door tegenstanders. Een natuurlijk alternatief is om capaciteiten tijdens de voorafgaande training zelf vorm te geven. Voor de proxy-taak van het verwijderen van medische capaciteiten tonen we aan dat de eenvoudige interventie van het filteren van voorafgaande trainingsdata zeer effectief, robuust en op grote schaal goedkoop is. Geïnspireerd door werk over data-attributie tonen we aan dat het filteren van tokens effectiever is dan het filteren van documenten, waarbij dezelfde impact op ongewenste capaciteiten wordt bereikt tegen lagere kosten voor goedaardige capaciteiten. Door modellen te trainen over twee grootteordes, demonstreren we vervolgens dat filteren effectiever wordt met de schaal: voor onze grootste modellen leidt tokenfiltering tot een 7000x vertraging in rekentijd voor het te vergeten domein. We tonen ook aan dat modellen die met tokenfiltering zijn getraind, nog steeds kunnen worden afgestemd op het te vergeten domein. Onderweg introduceren we een methodologie voor het labelen van tokens met sparse auto-encoders en het destilleren van goedkope, hoogwaardige classifiers. We demonstreren ook dat filtering robuust kan zijn tegen ruisige labels bij voldoende rekencapaciteit tijdens de voorafgaande training.
Agentic Reinforcement Learning (Agentic RL) heeft aanzienlijk succes geboekt bij het in staat stellen van agents om complexe redeneringen en toolgebruik uit te voeren. De meeste methoden zijn echter nog steeds afhankelijk van sporadische, op uitkomsten gebaseerde beloningen voor training. Deze feedback maakt geen onderscheid in de kwaliteit van tussenliggende redeneerstappen, wat leidt tot suboptimale trainingsresultaten. In dit artikel introduceren we het Agent Reasoning Reward Model (Agent-RRM), een veelzijdig beloningsmodel dat gestructureerde feedback produceert voor agentische trajecten, waaronder (1) een expliciet redeneerspoor, (2) een gefocuste kritiek die verfijningsrichtlijnen biedt door redeneerfouten te benadrukken, en (3) een algemene score die de prestaties van het proces evalueert. Gebruikmakend van deze signalen onderzoeken we systematisch drie integratiestrategieën: Reagent-C (tekst-aangevulde verfijning), Reagent-R (beloning-aangevulde begeleiding) en Reagent-U (geïntegreerde feedback). Uitgebreide evaluaties op 12 diverse benchmarks tonen aan dat Reagent-U substantiële prestatieverbeteringen oplevert, met scores van 43,7% op GAIA en 46,2% op WebWalkerQA, wat de effectiviteit van ons redeneerbeloningsmodel en trainingsschema's bevestigt. Code, modellen en datasets zijn vrijgegeven om toekomstig onderzoek te faciliteren.
Openbare repositories herbergen miljoenen fijnafgestelde modellen, toch blijft het gemeenschapsgebruik onevenredig geconcentreerd op een klein aantal foundation checkpoints. Wij onderzoeken of deze concentratie een efficiënte marktselectie weerspiegelt of dat superieure modellen systematisch over het hoofd worden gezien. Door een uitgebreide evaluatie van meer dan 2.000 modellen tonen wij de prevalentie van "verborgen parels" aan: onpopulaire fijnafstellingen die aanzienlijk beter presteren dan hun populaire tegenhangers. Opmerkelijk is dat wij binnen de Llama-3.1-8B-familie zelden gedownloade checkpoints aantreffen die de wiskundeprestatie verbeteren van 83,2% naar 96,0% zonder de inferentiekosten te verhogen. Het ontdekken van deze modellen via exhaustieve evaluatie van elk geüpload model is echter computationeel onhaalbaar. Daarom formuleren wij modeldiscovery als een Multi-Armed Bandit-probleem en versnellen wij het Sequential Halving-zoekalgoritme door gebruik te maken van gedeelde querysets en agressieve eliminatieschema's. Onze methode retrieveert topmodellen met slechts 50 queries per kandidaat, wat de discovery met meer dan 50x versnelt.
Streamingreconstructie uit monokulaire beeldsequenties blijft een uitdaging, omdat bestaande methodes doorgaans ofwel hoogwaardige rendering ofwel accurate geometrie bevorderen, maar zelden beide. Wij presenteren PLANING, een efficiënt *on-the-fly* reconstructieraamwerk gebouwd op een hybride representatie die expliciete geometrische primitieven losjes koppelt aan neurale Gaussians. Hierdoor kunnen geometrie en uiterlijk op een ontkoppelde manier worden gemodelleerd. Deze ontkoppeling ondersteunt een online initialisatie- en optimalisatiestrategie die geometrie- en uiterlijk-updates scheidt, wat resulteert in stabiele streamingreconstructie met aanzienlijk verminderde structurele redundantie. PLANING verbetert de dichte mesh Chamfer-L2 met 18,52% ten opzichte van PGSR, overtreft ARTDECO met 1,31 dB PSNR, en reconstrueert ScanNetV2-scènes in minder dan 100 seconden, meer dan 5x sneller dan 2D Gaussian Splatting, terwijl de kwaliteit van offline *per-scene* optimalisatie evenaart. Naast reconstructiekwaliteit maken de structurele helderheid en computationele efficiëntie van PLANING het bijzonder geschikt voor een breed scala aan downstream-toepassingen, zoals grootschalige scènemodellering en simulatieklare omgevingen voor *embodied AI*. Projectpagina: https://city-super.github.io/PLANING/.
Elektro-encefalografie (EEG) foundation-modellen zijn onlangs naar voren gekomen als een veelbelovend paradigma voor brain-computer interfaces (BCI's), met als doel overdraagbare neurale representaties te leren uit grootschalige, heterogene opnames. Ondanks snelle vooruitgang ontbreken eerlijke en uitgebreide vergelijkingen van bestaande EEG-foundationmodellen, vanwege inconsistente vooraf-trainingsdoelstellingen, preprocessingskeuzes en evaluatieprotocollen voor downstream-taken. Dit artikel voorziet in deze leemte. We bespreken eerst 50 representatieve modellen en ordenen hun ontwerpkeuzes in een uniform taxonomisch kader, inclusief datastandaardisatie, modelarchitecturen en zelf-gesuperviseerde vooraf-trainingsstrategieën. Vervolgens evalueren we 12 open-source foundationmodellen en competitieve specialistische baseline-modellen op 13 EEG-datasets die negen BCI-paradigma's omvatten. Met nadruk op praktische toepasbaarheid beschouwen we zowel generalisatie over proefpersonen onder een 'leave-one-subject-out'-protocol als snelle kalibratie in een 'within-subject few-shot'-setting. We vergelijken verder volledige parameterafstemming ('fine-tuning') met lineaire probing om de overdraagbaarheid van vooraf getrainde representaties te beoordelen, en onderzoeken de relatie tussen modelschaal en downstream-prestaties. Onze resultaten geven aan dat: 1) lineaire probing vaak ontoereikend is; 2) specialistische modellen die vanaf nul worden getraind, concurrerend blijven voor veel taken; en 3) grotere foundationmodellen niet noodzakelijkerwijs betere generalisatieprestaties opleveren onder de huidige dataregimes en trainingspraktijken.
De evolutie van Large Language Models (LLM's) naar autonome agents vereist het beheer van uitgebreide, dynamische contexten. Huidige benchmarks blijven echter grotendeels statisch en steunen op passieve retrievalthandelingen die de complexiteit van agent-omgevingsinteractie, zoals niet-lineair redeneren en iteratieve feedback, niet simuleren. Om dit aan te pakken, introduceren we AgentLongBench, dat agents evalueert via gesimuleerde omgevingsrollouts gebaseerd op Lateral Thinking Puzzles. Dit framework genereert rigoureuze interactietrajectoria in zowel kennisintensieve als kennisvrije scenario's. Experimenten met state-of-the-art modellen en geheugensystemen (32K tot 4M tokens) leggen een kritieke zwakte bloot: hoewel bedreven in statische retrievalthandelingen, hebben agents moeite met de dynamische informatiesynthese die essentieel is voor workflows. Onze analyse geeft aan dat deze prestatievermindering wordt veroorzaakt door het minimale aantal tokens dat nodig is om een query op te lossen. Deze factor verklaart waarom de inherent hoge informatiedichtheid in massieve toolresponses een aanzienlijk grotere uitdaging vormt dan de geheugenfragmentatie die typisch is voor lange dialogen.
Recent onderzoek naar de generatie van lange video's is verschoven van bidirectionele naar autoregressieve modellen, maar deze methoden kampen vaak met foutenaccumulatie en verlies van langetermijncoherentie. Hoewel aandachtssinkframes zijn geïntroduceerd om dit prestatieverval tegen te gaan, veroorzaken ze vaak een kritieke foutmodus die we sink-collapse noemen: de gegenereerde inhoud keert herhaaldelijk terug naar het sinkframe, wat leidt tot abrupte scèneresets en cyclische bewegingspatronen. Onze analyse toont aan dat sink-collapse voortkomt uit een inherent conflict tussen de periodieke structuur van Rotary Position Embedding (RoPE) en de multi-head aandachtmechanismen die veel voorkomen in huidige generatieve modellen. Om dit op te lossen, stellen we een lichtgewicht, trainingsvrije aanpak voor die dit gedrag effectief onderdrukt door multi-head RoPE-jitter te introduceren, waardoor inter-head aandachtshomogenisatie wordt doorbroken en langetermijncollapse wordt verminderd. Uitgebreide experimenten tonen aan dat onze methode sink-collapse succesvol vermindert zonder de generatiekwaliteit aan te tasten. Voor zover wij weten, levert dit werk de eerste demonstratie van real-time, streaming en oneindig lange videogeneratie met minimale kwaliteitsafname. Ter illustratie van deze robuustheid genereren we continue video's tot 12 uur lang, wat naar onze kennis een van de langste publiek gedemonstreerde resultaten in streamingvideogeneratie is.
Moderne diffusie-/flow-gebaseerde modellen voor beeldgeneratie vertonen doorgaans twee kernkenmerken: (i) het gebruik van multi-step sampling, en (ii) opereren in een latente ruimte. Recente vooruitgang heeft bemoedigende voortgang geboekt op elk aspect afzonderlijk, waardoor de weg wordt geëffend naar diffusie/flow in één stap zonder latente ruimtes. In dit werk zetten we een verdere stap richting dit doel en stellen we "pixel MeanFlow" (pMF) voor. Onze centrale richtlijn is om de uitvoerruimte van het netwerk en de verliesruimte afzonderlijk te formuleren. Het netwerkdoel is ontworpen om zich op een verondersteld laagdimensionaal beeldvariëteit (d.w.z. x-predictie) te bevinden, terwijl het verlies wordt gedefinieerd via MeanFlow in de snelheidsruimte. We introduceren een eenvoudige transformatie tussen het beeldvariëteit en het gemiddelde snelheidsveld. In experimenten behaalt pMF sterke resultaten voor latentievrije generatie in één stap op ImageNet bij een resolutie van 256x256 (2.22 FID) en 512x512 (2.48 FID), waardoor een ontbrekende schakel in dit regime wordt ingevuld. We hopen dat onze studie de grenzen van diffusie-/flow-gebaseerde generatieve modellen verder zal verleggen.
Hoewel grote taalmodelmodellen (LLM's) uitblinken in taalkundige agenttaken, blijft hun toepasbaarheid op onbekende, niet-linguïstische omgevingen (zoals symbolische of ruimtelijke taken) beperkt. Eerder onderzoek schrijft deze prestatiekloof toe aan de mismatch tussen de pretrainingsdistributie en de testdistributie. In dit werk tonen we aan dat de voornaamste bottleneck de onhoudbare kosten van exploratie zijn: het beheersen van deze taken vereist uitgebreid trial-and-error, wat computationeel onhoudbaar is voor parameterrijke LLM's die opereren in een hoogdimensionale semantische ruimte. Om dit aan te pakken, stellen we SCOUT (Sub-Scale Collaboration On Unseen Tasks) voor, een nieuw raamwerk dat exploratie ontkoppelt van exploitatie. We zetten lichte "verkenner"-modellen (bijv. kleine MLP's) in om de omgevingsdynamica te verkennen met een snelheid en schaal die ver boven die van LLM's uitstijgt. De verzamelde trajecten worden gebruikt om de LLM op te starten via Supervised Fine-Tuning (SFT), gevolgd door multi-turn Reinforcement Learning (RL) om zijn latente wereldkennis te activeren. Empirisch gezien stelt SCOUT een Qwen2.5-3B-Instruct model in staat om een gemiddelde score van 0.86 te behalen, wat significant beter is dan propriëtaire modellen, waaronder Gemini-2.5-Pro (0.60), terwijl ongeveer 60% aan GPU-uren wordt bespaard.
Het waarborgen van veiligheid, feitelijke juistheid en algemene kwaliteit bij de generaties van grote taalmodel(len) is een cruciale uitdaging, vooral nu deze modellen steeds vaker in praktijktoepassingen worden ingezet. De gangbare aanpak om deze problemen aan te pakken, bestaat uit het verzamelen van dure, zorgvuldig samengestelde datasets en het toepassen van meerdere fasen van fine-tuning en afstemming. Deze complexe pijplijn kan echter niet garanderen dat tijdens de voorafgaande training aangeleerde patronen worden gecorrigeerd. Daarom is het aanpakken van deze problemen tijdens de voorafgaande training van cruciaal belang, omdat dit de kerngedragingen van een model vormt en voorkomt dat onveilige of verzonnen uitvoer diepgeworteld raakt. Om dit probleem aan te pakken, introduceren we een nieuwe trainingsmethode vooraf die documenten verwerkt en reinforcement learning (RL) gebruikt om de volgende K gegenereerde tokens bij elke stap te verbeteren. Een sterk, naderhand getraind model beoordeelt kandidaat-generaties – inclusief model-rollouts, het oorspronkelijke suffix en een herschreven suffix – op kwaliteit, veiligheid en feitelijkheid. Vroeg in de training vertrouwt het proces op de oorspronkelijke en herschreven suffixen; naarmate het model verbetert, beloont RL hoogwaardige rollouts. Deze aanpak bouwt vanaf de grond af aan modellen op die van hogere kwaliteit, veiliger en feitelijker zijn. In experimenten levert onze methode een relatieve verbetering van 36,2% en 18,5% op ten opzichte van standaard voorafgaande training wat betreft feitelijkheid en veiligheid, en verbeteringen in winstpercentage voor algemene generatiekwaliteit tot 86,3%.
Leren op basis van menselijke feedback steunt typisch op voorkeursoptimalisatie die beleidsupdates beperkt via token-level regularisatie. Voorkeursoptimalisatie voor taalmodelen is echter bijzonder uitdagend omdat gelijkenis in token-ruimte niet noodzakelijk semantische of gedragsmatige gelijkenis impliceert. Om deze uitdaging aan te pakken, benutten wij latent-space regularisatie voor voorkeursoptimalisatie van taalmodelen. Wij introduceren GANPO, dat latent-space regularisatie bereikt door de divergentie te bestraffen tussen de interne representaties van een beleidsmodel en een referentiemodel. Aangezien latente representaties niet geassocieerd zijn met expliciete kansdichtheden, nemen wij een adversariële aanpak geïnspireerd door GANs aan om de latent-space divergentie te minimaliseren. Wij integreren GANPO als regularisator in bestaande offline voorkeursoptimalisatiedoelstellingen. Experimenten over meerdere modelarchitecturen en taken tonen consistente verbeteringen door latent-space regularisatie. Verder vinden wij, door de inferentiële vertekeningen veroorzaakt door GANPO te vergelijken met die van token-level regularisatie, dat GANPO robuustere structurele feedback biedt onder distributionele verschuiving en ruis, terwijl het vergelijkbare downstreamprestaties handhaaft met minimale computationele overhead.
Wij presenteren Foundation-Sec-8B-Reasoning, het eerste open-source native redeneermodel voor cybersecurity. Gebouwd op ons eerder vrijgegeven Foundation-Sec-8B-basismodel (afgeleid van Llama-3.1-8B-Base), is het model getraind via een tweefasenproces dat supervised fine-tuning (SFT) combineert met reinforcement learning from verifiable rewards (RLVR). Onze training maakt gebruik van propriëtaire redeneergegevens die cybersecurity-analyse, instructie-opvolging en wiskundig redeneren omvatten. Evaluatie over 10 cybersecurity- en 10 algemene benchmarks toont prestaties die concurrerend zijn met aanzienlijk grotere modellen voor cybersecuritytaken, terwijl sterke algemene capaciteiten behouden blijven. Het model toont effectieve generalisatie bij multi-hop redeneertaken en sterke veiligheidsprestaties wanneer het wordt ingezet met geschikte systeemprompts en guardrails. Dit werk demonstreert dat domein-gespecialiseerde redeneermodellen sterke prestaties kunnen bereiken op gespecialiseerde taken, terwijl ze brede algemene capaciteiten behouden. Wij publiceren het model op https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Reasoning.
Reinforcement learning (RL) na-training is een dominante aanpak om de redeneerprestaties van grote taalmmodellen (LLM's) te verbeteren, maar er zijn steeds meer aanwijzingen dat de winst voornamelijk voortkomt uit distributieverscherping in plaats van de verwerving van nieuwe capaciteiten. Recent onderzoek heeft aangetoond dat steekproefsgewijze extractie uit de machtsverdeling van LLM's met behulp van Markov chain Monte Carlo (MCMC) prestaties kan opleveren die vergelijkbaar zijn met RL na-training, zonder afhankelijk te zijn van externe beloningen; de hoge computationele kosten van MCMC maken dergelijke benaderingen echter onpraktisch voor wijdverspreide adoptie. In dit werk stellen we een theoretisch onderbouwde alternatieve methode voor die de noodzaak van iteratieve MCMC elimineert. We leiden een nieuwe formulering af die aantoont dat de globale machtsverdeling kan worden benaderd door een token-niveau geschaalde laagetemperatuurverdeling, waarbij de schalingsfactor de toekomstige trajectkwaliteit vastlegt. Gebruikmakend van dit inzicht introduceren we een trainingsvrij en verificator-vrij algoritme dat de generatieve verdeling van het basismodel autoregressief verscherpt. Empirisch evalueren we onze methode op wiskunde-, vraag-antwoord- en codeertaken met vier LLM's, en tonen we aan dat onze methode de prestaties van one-shot GRPO evenaart of overtreft zonder gebruik te maken van externe beloningen, terwijl de inferentielatentie met meer dan 10x wordt verminderd in vergelijking met MCMC-gebaseerde steekproeftrekking.
Hybride Transformer-architecturen, die softmax-attentieblokken en recurrent neural networks (RNN's) combineren, vertonen een gunstige balans tussen prestaties en doorvoersnelheid voor modellering met lange context, maar hun adoptie en bestudering worden belemmerd door de buitensporige kosten van grootschalige pre-training vanaf nul. Sommige recente studies tonen aan dat voorgetrainde softmax-attentieblokken kunnen worden omgezet in RNN-blokken via parameteroverdracht en knowledge distillation. Deze overdrachtsmethoden vereisen echter aanzienlijke hoeveelheden trainingsdata (meer dan 10B tokens), en de resulterende hybride modellen vertonen ook slechte prestaties bij lange context - precies het scenario waarin hybride modellen aanzienlijke inferentieversnellingen bieden ten opzichte van Transformer-gebaseerde modellen. In dit artikel presenteren we HALO (Hybrid Attention via Layer Optimization), een pijplijn voor het destilleren van Transformer-modellen naar hybride RNN-attentiemodellen. Vervolgens introduceren we HypeNet, een hybride architectuur met superieure lengtegeneralizatie, mogelijk gemaakt door een nieuwe positioneringscodering (genaamd HyPE) en diverse architectuurwijzigingen. We zetten de Qwen3-reeks om naar HypeNet met behulp van HALO, waarbij we vergelijkbare prestaties bereiken als de oorspronkelijke Transformer-modellen, terwijl we profiteren van superieure prestaties en efficiëntie bij lange context. De conversie vereist slechts 2,3B tokens, minder dan 0,01% van hun pre-trainingdata.
Grote taalmodellen (LLM's) hebben een snelle ontwikkeling doorgemaakt; de meeste state-of-the-art modellen worden echter voornamelijk getraind en geëvalueerd in talen met veel resources, zoals Engels en Chinees, en worden vaak ontwikkeld door een klein aantal organisaties met toegang tot grootschalige rekenkracht en data. Deze poortwachtersfunctie creëert een praktische barrière voor soevereine contexten, waarin een instelling op regionaal of nationaal niveau of een domeineigenaar de controle en het begrip van modelgewichten, trainingsdata en implementatie moet behouden, terwijl wordt gewerkt met beperkte middelen en strikte transparantie-eisen. Hiertoe identificeren we twee kernvereisten: (1) aanpasbaarheid, het vermogen om een basismodel om te vormen tot een algemene assistent, en (2) soeverein vermogen, het vermogen om hoog-risicotaken uit te voeren die specifiek zijn voor een regio (bijv. juridisch redeneren in lokale talen en culturele kennis). Wij onderzoeken of aan deze vereisten kan worden voldaan zonder gebruik te maken van enorme instructiecorpora of complexe pijplijnen voor voorkeur-afstemming en grootschalige reinforcement fine-tuning (RFT). Wij presenteren Typhoon S, een minimale en open post-trainingsmethode die supervised fine-tuning, on-policy distillatie en kleinschalige RFT combineert. Met het Thai als representatieve casestudy tonen we aan dat onze aanpak zowel soeverein-aangepaste als algemene basismodellen omvormt tot instructie-afgestemde modellen met sterke algemene prestaties. We laten verder zien dat kleinschalige RFT met InK-GRPO – een uitbreiding van GRPO die het GRPO-verlies aanvult met een voorspellingsverlies voor het volgende woord – het juridisch redeneren in het Thai en de Thai-specifieke kennis verbetert, terwijl de algemene capaciteiten behouden blijven. Onze resultaten suggereren dat een zorgvuldig ontworpen post-trainingsstrategie de vereiste schaal van instructiedata en rekenwerk kan verminderen, wat een praktisch pad biedt naar hoogwaardige soevereine LLM's met academische schaalmiddelen.
Vanwege beperkte hoeveelheden gesuperviseerde trainingsdata worden grote taalmmodellen (LLM's) doorgaans voorgetraind via een zelfgesuperviseerd "voorspel het volgende woord"-doel op een enorme hoeveelheid ongestructureerde tekstdata. Om het resulterende model nuttig te maken voor gebruikers, wordt het verder getraind op een veel kleinere hoeveelheid "instruction-tuning"-data, bestaande uit gesuperviseerde trainingsvoorbeelden van instructies en antwoorden. Om de beperkte hoeveelheid gesuperviseerde data te overwinnen, stellen we een procedure voor die de kennis in internet-schaal voor-trainingsdocumenten kan omzetten in miljarden synthetische trainingsparen van instructies en antwoorden. De resulterende dataset, genaamd FineInstructions, gebruikt ~18 miljoen instructiesjablonen gemaakt op basis van echte, door gebruikers geschreven queries en prompts. Deze instructiesjablonen worden gematcht en geïnstantieerd met door mensen geschreven brondocumenten uit ongestructureerde voor-trainingscorpora. Met "gesuperviseerde" synthetische trainingsdata die op deze schaal wordt gegenereerd, kan een LLM volledig vanaf nul worden voorgetraind uitsluitend met het instruction-tuning doel, wat veel meer in-distribution is met het verwachte downstream-gebruik van LLM's (reageren op gebruikersprompts). We voeren gecontroleerde token-voor-token trainingsexperimenten uit en ontdekken dat voor-training op FineInstructions superieur presteert ten opzichte van standaard voor-training en andere voorgestelde synthetische voor-trainings-technieken op standaard benchmarks die de kwaliteit van vrije-vorm antwoorden meten. Onze resources zijn te vinden op https://huggingface.co/fineinstructions.
Wij introduceren DeepSearchQA, een benchmark met 900 prompts voor het evalueren van agents bij moeilijke, meerstaps informatiezoektaken in 17 verschillende vakgebieden. In tegenstelling tot traditionele benchmarks die gericht zijn op het ophalen van een enkel antwoord of op brede feitelijke correctheid, kenmerkt DeepSearchQA zich door een dataset van uitdagende, handmatig samengestelde taken die zijn ontworpen om het vermogen van een agent te evalueren om complexe zoekplannen uit te voeren voor het genereren van uitputtende antwoordlijsten. Deze ontwerpverschuiving test expliciet drie kritieke, maar ondergeëvalueerde capaciteiten: 1) het systematisch samenstellen van gefragmenteerde informatie uit uiteenlopende bronnen, 2) deduplicatie en entity-resolutie om precisie te waarborgen, en 3) het vermogen om te redeneren over stopcriteria binnen een open zoekruimte. Elke taak is gestructureerd als een causale keten, waarbij het ontdekken van informatie voor de ene stap afhankelijk is van de succesvolle voltooiing van de vorige, wat een langetermijnplanning en contextretentie benadrukt. Alle taken zijn verankerd in het open web met objectief verifieerbare antwoordensets. Onze uitgebreide evaluatie van state-of-the-art agent-architecturen onthult aanzienlijke prestatiebeperkingen: zelfs de meest geavanceerde modellen hebben moeite om een hoge recall te combineren met precisie. We observeren duidelijke faalmodi, variërend van voortijdig stoppen (onder-retrieval) tot 'hedging'-gedrag, waarbij agents een te ruim net uitwerpen van antwoorden met een laag vertrouwen om de recall kunstmatig te verhogen. Deze bevindingen belichten een kritieke verbeterruimte in huidige agentontwerpen en positioneren DeepSearchQA als een essentieel diagnostisch instrument om toekomstig onderzoek te sturen naar robuustere, diepgaande onderzoekscapaciteiten.
Met het oog op efficiënte en dense chain-of-thought (CoT) redenering, fine-tunen latent redeneermethoden Large Language Models (LLM's) om discrete taaltokens te vervangen door continue latente tokens. Deze methoden verbruiken minder tokens in vergelijking met conventionele taal-CoT-redenering en hebben het potentieel om te plannen in een dense latente ruimte. Echter, huidige latente tokens worden over het algemeen gesuperviseerd op basis van het imiteren van taallabels. Aangezien er voor een vraag meerdere equivalente maar diverse CoT-labels kunnen bestaan, kan het passief imiteren van een willekeurige label leiden tot inferieure latente tokenrepresentaties en latent redeneerbeleid, wat het planvermogen ondermijnt en duidelijke kloeven tussen training en testing veroorzaakt. In dit werk benadrukken we het belang van actieve planning over de representatieruimte van latente tokens voor het bereiken van het optimale latent redeneerbeleid. Daarom stellen we de Active Latent Planning-methode (ATP-Latent) voor, die het supervisieproces van latente tokens modelleert als een conditionele variational auto-encoder (VAE) om een vloeiendere latente ruimte te verkrijgen. Bovendien voert ATP-Latent reinforcement learning (RL) uit met een aanvullende coherentiebeloning om het meest redelijke latent redeneerbeleid te bevorderen. Deze beloning wordt berekend op basis van de consistentie tussen VAE-gedecodeerde inhoud van latente tokens, wat een geleid RL-proces mogelijk maakt. In experimenten op LLaMA-1B demonstreert ATP-Latent een nauwkeurigheid van +4,1% en -3,3% tokens op vier benchmarks in vergelijking met geavanceerde baseline-methoden. Code is beschikbaar op https://github.com/zz1358m/ATP-Latent-master.
Multimodale Large Language Models (MLLMs) kampen met cross-modale hallucinaties, waarbij één modaliteit de generatie over een andere modaliteit onterecht beïnvloedt, wat leidt tot gefabriceerde output. Dit onthult een fundamenteelere tekortkoming in de controle van modaliteitsinteractie. Om dit aan te pakken, stellen we Modality-Adaptive Decoding (MAD) voor, een trainingsvrije methode die adaptief de gewichten van modaliteit-specifieke decodetakken aanpast op basis van taakeisen. MAD benut het inherente vermogen van het model om de relevantie van modaliteiten zelf in te schatten door te bevragen welke modaliteiten voor elke taak nodig zijn. De verkregen modaliteitskansen worden vervolgens gebruikt om contrastieve decodetakken adaptief te wegen, waardoor het model zich kan concentreren op relevante informatie terwijl cross-modale interferentie wordt onderdrukt. Uitgebreide experimenten op CMM en AVHBench tonen aan dat MAD cross-modale hallucinaties significant vermindert across multiple audio-visuele taalmodellen (verbeteringen van 7.8% en 2.0% voor VideoLLaMA2-AV, en 8.7% en 4.7% voor Qwen2.5-Omni). Onze aanpak toont aan dat expliciet modaliteitsbewustzijn via zelfevaluatie cruciaal is voor robuuste multimodale redenering, en biedt een principele uitbreiding van bestaande contrastieve decodeermethoden. Onze code is beschikbaar op https://github.com/top-yun/MAD.
Audiovisuele foundation-modellen, die vooraf zijn getraind om geluid en visuele inhoud gezamenlijk te genereren, hebben recent een ongekend vermogen getoond om multimodale generatie en bewerking te modelleren, wat nieuwe mogelijkheden opent voor downstreamtaken. Onder deze taken zou videonasynchronisatie sterk kunnen profiteren van dergelijke a priori kennis, maar de meeste bestaande oplossingen blijven afhankelijk van complexe, taakspecifieke pijplijnen die moeite hebben in realistische omgevingen. In dit werk introduceren we een enkelmodelbenadering die een foundation audiovisueel diffusiemodel aanpast voor video-naar-video nasynchronisatie via een lichtgewicht LoRA. De LoRA stelt het model in staat te conditioneren op een invoer van audio en video, terwijl het tegelijkertijd vertaalde audio en gesynchroniseerde gezichtsbewegingen genereert. Om deze LoRA te trainen, maken we gebruik van het generatieve model zelf om gepaarde meertalige video's van dezelfde spreker te synthetiseren. Specifiek genereren we meertalige video's met taalswitches binnen één clip, en vullen we vervolgens het gezicht en de audio in elke helft in om overeen te komen met de taal van de andere helft. Door gebruik te maken van de rijke generatieve a priori kennis van het audiovisuele model, behoudt onze aanpak de sprekersidentiteit en lipsynchronisatie, terwijl deze robuust blijft voor complexe bewegingen en realistische dynamiek. We tonen aan dat onze aanpak hoogwaardige nagesynchroniseerde video's produceert met verbeterde visuele kwaliteit, lipsynchronisatie en robuustheid in vergelijking met bestaande nasynchronisatiepijplijnen.
Langetermijnredenering heeft grote taalmodellen (LLM's) aanzienlijk in staat gesteld om complexe taken aan te pakken, maar introduceert tegelijkertijd ernstige efficiëntieproblemen vanwege de computationele complexiteit. Bestaande efficiënte benaderingen zijn vaak afhankelijk van complexe aanvullende training of externe modellen voor compressie, wat de schaalbaarheid beperkt en cruciaal fijnmazige informatie weglaat. In dit artikel stellen we VTC-R1 voor, een nieuwe efficiënte redeneerparadigma dat visie-tekstcompressie integreert in het redeneerproces. In plaats van lange tekstuele sporen te verwerken, rendert VTC-R1 tussenliggende redeneersegmenten naar compacte afbeeldingen, die iteratief worden teruggevoerd naar visie-taalmodellen als "optisch geheugen". We construeren een trainingsdataset gebaseerd op OpenR1-Math-220K, die een tokencompressie van 3.4x bereikt, en fine-tunen representatieve VLM's - Glyph en Qwen3-VL. Uitgebreide experimenten op benchmarks zoals MATH500, AIME25, AMC23 en GPQA-D tonen aan dat VTC-R1 consequent superieur presteert aan standaard langetermijnredenering. Bovendien verbetert onze aanpak de inferentie-efficiëntie aanzienlijk, met een 2.7x versnelling in end-to-end latentie, wat het potentieel ervan als een schaalbare oplossing voor reasoning-intensieve toepassingen benadrukt. Onze code is beschikbaar op https://github.com/w-yibo/VTC-R1.
Het succes van Hyper-Connecties (HC) in neurale netwerken (NN) heeft ook problemen aan het licht gebracht die verband houden met de trainingsinstabiliteit en beperkte schaalbaarheid ervan. De Manifold-Geconstrueerde Hyper-Connecties (mHC) verminderen deze uitdagingen door de ruimte van restverbindingen te projecteren op een Birkhoff-polytop, maar kampt zelf met twee problemen: 1) het iteratieve Sinkhorn-Knopp (SK)-algoritme levert niet altijd exact dubbel stochastische restmatrices op; 2) mHC heeft een onhoudbare parametercomplexiteit van O(n³C), waarbij n de breedte van de reststroom is en C de feature-dimensie. De recent voorgestelde mHC-lite herparameteriseert de restmatrix via de Birkhoff-von Neumann-stelling om dubbel stochasticiteit te garanderen, maar krijgt ook te maken met een factoriële explosie in de parametercomplexiteit, O(nC · n!). Om beide uitdagingen aan te pakken, stellen wij KromHC voor, dat de Kronecker-producten van kleinere dubbel stochastische matrices gebruikt om de restmatrix in mHC te parameteriseren. Door manifold-beperkingen af te dwingen over de factor-restmatrices langs elke modus van de getensoriseerde reststroom, garandeert KromHC exacte dubbel stochasticiteit van de restmatrices, terwijl de parametercomplexiteit wordt gereduceerd tot O(n²C). Uitgebreide experimenten tonen aan dat KromHC even goed of zelfs beter presteert dan state-of-the-art (SOTA) mHC-varianten, terwijl het aanzienlijk minder trainbare parameters vereist. De code is beschikbaar op https://github.com/wz1119/KromHC.
Kwantisatie heeft de reken- en geheugenefficiëntie van de training van Large Language Models (LLM's) aanzienlijk verbeterd. Bestaande benaderingen zijn echter nog steeds afhankelijk van het accumuleren van hun updates in hoge precisie: concreet moeten gradient-updates worden toegepast op een gewichtsbuffer met hoge precisie, bekend als master weights. Deze buffer introduceert aanzienlijke geheugenoverhead, vooral voor Sparse Mixture of Experts (SMoE)-modellen, waar modelparameters en optimizer-states het geheugengebruik domineren. Om dit aan te pakken, introduceren we de Error-Compensating Optimizer (ECO), die master weights elimineert door updates rechtstreeks op gekwantiseerde parameters toe te passen. ECO kwantiseert de gewichten na elke stap en injecteert de resulterende kwantisatiefout zorgvuldig in de optimizer-momentum, waardoor een error-feedbackloop ontstaat zonder extra geheugen. We bewijzen dat, onder standaard aannames en een vervallend leertempo, ECO convergeert naar een constant-straal buurt van het optimum, terwijl een naïeve verwijdering van master weights een fout kan opleveren die omgekeerd evenredig is met het leertempo. We tonen empirische resultaten voor het pretrainen van kleine Transformers (30-800M), een Gemma-3 1B-model en een 2.1B parameter Sparse MoE-model met FP8-kwantisatie, en het finetunen van DeepSeek-MoE-16B in INT4-precisie. In alle gevallen evenaart ECO de baseline met master weights tot bijna verliesvrije nauwkeurigheid, waardoor de Pareto-grens voor statisch geheugen versus validatieverlies significant verschuift.
Schaalvergroting heeft recente vooruitgang in vision foundation-modellen aangedreven, maar het uitbreiden van dit paradigma naar metrische diepteschatting blijft uitdagend vanwege heterogene sensorgeluiden, camera-afhankelijke vertekeningen en metrische ambiguïteit in ruwe cross-source 3D-data. Wij introduceren Metric Anything, een eenvoudig en schaalbaar voor-trainingsraamwerk dat metrische diepte leert uit ruwe, diverse 3D-bronnen zonder handmatig ontworpen prompts, camera-specifieke modellering of taakspecifieke architecturen. Centraal in onze aanpak staat de Sparse Metric Prompt, gecreëerd door willekeurig maskeren van dieptekaarten, die dient als een universele interface die ruimtelijk redeneren ontkoppelt van sensor- en cameravertekeningen. Met ongeveer 20M beeld-diepteparen die gereconstrueerde, vastgelegde en gerenderde 3D-data omvatten over 10000 cameramodellen, demonstreren wij – voor het eerst – een duidelijke schaalvergrotingstrend in het metrische dieptespoor. Het voorgetrainde model excelleert in prompt-gestuurde taken zoals dieptecompletering, superresolutie en Radar-camerafusie, terwijl zijn gedistilleerde prompt-vrije student state-of-the-art resultaten behaalt bij monoscopische diepteschatting, herstel van camera-intrinsieken, enkel-/meerbeeld metrische 3D-reconstructie en VLA-planning. We tonen ook aan dat het gebruik van de voorgetrainde ViT van Metric Anything als visuele encoder de capaciteiten van Multimodale Large Language Modellen voor ruimtelijke intelligentie significant versterkt. Deze resultaten tonen aan dat metrische diepteschatting kan profiteren van dezelfde schaalwetten die moderne foundation-modellen aandrijven, wat een nieuw pad opent naar schaalbare en efficiënte metrische perceptie in de echte wereld. We maken MetricAnything open source op http://metric-anything.github.io/metric-anything-io/ om gemeenschapsonderzoek te ondersteunen.
Unified Multimodal Models (UMM's) integreren zowel visueel begrip als generatie binnen één enkel raamwerk. Hun uiteindelijke streven is het creëren van een cyclus waarin begrip en generatie elkaar wederzijds versterken. Hoewel recente post-trainingmethoden met succes begrip hebben benut om generatie te verbeteren, blijft de omgekeerde richting - het gebruik van generatie om begrip te verbeteren - grotendeels onontgonnen. In dit werk stellen we UniMRG (Unified Multi-Representation Generation) voor, een eenvoudige maar effectieve architectuuronafhankelijke post-trainingmethode. UniMRG verbetert de begripscapaciteiten van UMM's door het incorporeren van aanvullende generatietaken. Specifiek trainen we UMM's om meerdere intrinsieke representaties van invoerafbeeldingen te genereren, namelijk pixels (reconstructie), diepte (geometrie) en segmentatie (structuur), naast standaard visuele begripsdoelen. Door deze diverse representaties te synthetiseren, vangen UMM's complementaire informatie op regarding uiterlijk, ruimtelijke relaties en structurele lay-out. Dientengevolge ontwikkelen UMM's een dieper en uitgebreider begrip van visuele invoer. Uitgebreide experimenten met diverse UMM-architecturen tonen aan dat onze methode fijnmazige perceptie aanzienlijk verbetert, hallucinaties vermindert en het ruimtelijk begrip verbetert, terwijl tegelijkertijd de generatiecapaciteiten worden versterkt.
Taalmodel-gebaseerde agenten die over langere interactiehorizons opereren, kampen met hardnekkige uitdagingen bij het behoud van tijdelijk verankerde informatie en het handhaven van gedragsconsistentie tussen sessies – een faalmodus die we *zielserosie* noemen. Wij presenteren BMAM (Brain-inspired Multi-Agent Memory), een algemene geheugenarchitectuur die agentgeheugen modelleert als een set van functioneel gespecialiseerde subsystemen in plaats van als een enkele ongestructureerde opslag. Geïnspireerd door cognitieve geheugensystemen, decomposeert BMAM geheugen in episodische, semantische, op-salientie gerichte en op-controle gerichte componenten die op complementaire tijdschalen opereren. Om redenering over lange horizons te ondersteunen, organiseert BMAM episodische herinneringen langs expliciete tijdlijnen en retrieveert het bewijs door meerdere complementaire signalen te fuseren. Experimenten op de LoCoMo-benchmark tonen aan dat BMAM een nauwkeurigheid van 78,45 procent bereikt onder de standaard evaluatie-instelling voor lange horizons, en ablatie-analyses bevestigen dat het door de hippocampus geïnspireerde episodische geheugensubsysteem een kritieke rol speelt bij temporeel redeneren.
Wij stellen FROST voor, een aandacht-geware methode voor efficiënte redeneervaardigheid. In tegenstelling tot traditionele benaderingen benut FROST aandachtgewichten om onkritieke redeneerpaden uit te dunnen, wat kortere en betrouwbaardere redeneertrajectoren oplevert. Methodologisch introduceren we het concept van redeneeruitbijters en ontwerpen we een op aandacht gebaseerd mechanisme om deze te verwijderen. Theoretisch behoudt en versterkt FROST de redeneercapaciteit van het model terwijl het uitbijters op zinsniveau elimineert. Empirisch valideren we FROST op vier ijkpunten met twee sterke redeneermodellen (Phi-4-Reasoning en GPT-OSS-20B), waarbij het state-of-the-art methoden zoals TALE en ThinkLess overtreft. Opmerkelijk is dat FROST een gemiddelde reductie van 69,68% in tokengebruik en een verbetering van 26,70% in nauwkeurigheid bereikt ten opzichte van het basismodel. Bovendien reduceert FROST in evaluaties van aandacht-uitbijtermetrieken de maximale oneindigheidsnorm met 15,97% en de gemiddelde kurtosis met 91,09% vergeleken met het basismodel. Code is beschikbaar op https://github.com/robinzixuan/FROST.
Hoewel mechanistische interpreteerbaarheid interpreteerbare circuits in LLM's heeft geïdentificeerd, blijven hun causale oorsprongen in de trainingsgegevens ongrijpbaar. Wij introduceren Mechanistische Data-attributie (MDA), een schaalbaar raamwerk dat invloedsfuncties gebruikt om interpreteerbare eenheden terug te voeren naar specifieke trainingsvoorbeelden. Door middel van uitgebreide experimenten op de Pythia-familie valideren wij causaal dat gerichte interventie – het verwijderen of aanvullen van een kleine fractie zeer invloedrijke voorbeelden – de emergentie van interpreteerbare heads significant moduleert, terwijl willekeurige interventies geen effect hebben. Onze analyse onthult dat repetitieve structurele data (bijv. LaTeX, XML) fungeert als een mechanistische katalysator. Verder observeren wij dat interventies gericht op de vorming van inductie-heads een gelijktijdige verandering induceren in het vermogen van het model om in-context te leren (ICL). Dit levert direct causaal bewijs voor de lang bestaande hypothese over de functionele link tussen inductie-heads en ICL. Ten slotte stellen wij een pijplijn voor mechanistische data-augmentatie voor die consistent de circuitconvergentie over verschillende modelschalen versnelt, wat een principekader biedt voor het sturen van de ontwikkelingspaden van LLM's.
De meeste reinforcement learning (RL)-methoden voor het trainen van grote taalmmodellen (LLM's) vereisen grond-waarheid-labels of taakspecifieke verifiers, wat de schaalbaarheid beperkt wanneer correctheid ambigu of duur te verkrijgen is. Wij introduceren Reinforcement Learning from Meta-Evaluatie (RLME), dat een generator optimaliseert met behulp van een beloning afgeleid van de antwoorden van een evaluator op natuurlijke-taal meta-vragen (bijvoorbeeld: "Is het antwoord correct?" of "Is de redenering logisch consistent?"). RLME behandelt de waarschijnlijkheid van een positief oordeel van de evaluator als een beloning en werkt de generator bij via groep-relatief beleidsoptimalisatie, waardoor leren zonder labels mogelijk wordt. In een reeks experimenten tonen we aan dat RLME een nauwkeurigheid en sample-efficiëntie bereikt die vergelijkbaar is met op labels gebaseerde training, het mogelijk maakt om controleerbare afwegingen te maken tussen meerdere doelstellingen, modellen stuurt naar betrouwbare redeneerpatronen in plaats van post-hoc rationalisatie, en generaliseert naar open-domein settings waar grond-waarheid-labels niet beschikbaar zijn. Dit verbreedt de domeinen waarin LLM's met RL getraind kunnen worden.
Het ontdekken van extremale structuren in de wiskunde vereist het navigeren door uitgestrekte en niet-convexe landschappen waar analytische methoden weinig houvast bieden en brute-force zoekacties onuitvoerbaar worden. Wij introduceren FlowBoost, een generatief gesloten-lus raamwerk dat leert zeldzame en extremale geometrische structuren te ontdekken door drie componenten te combineren: (i) een geometrie-bewust conditioneel flow-matching model dat leert hoogwaardige configuraties te bemonsteren, (ii) beloningsgeleide beleidsoptimalisatie met actie-exploratie die het generatieproces rechtstreeks optimaliseert naar het doel toe terwijl diversiteit behouden blijft, en (iii) stochastische lokale zoekactie voor zowel de generatie van trainingsdata als de uiteindelijke verfijning. In tegenstelling tot eerdere open-lus benaderingen, zoals PatternBoost dat opnieuw traint op gefilterde discrete steekproeven, of AlphaEvolve dat vertrouwt op bevroren Large Language Models (LLM's) als evolutionaire mutatie-operatoren, handhaaft FlowBoost geometrische haalbaarheid tijdens het bemonsteren, en propageert het beloningssignaal direct in het generatieve model. Hierdoor wordt de optimalisatielus gesloten, zijn veel kleinere trainingssets en kortere trainingstijden nodig, en worden het benodigde aantal buitenste-lus iteraties met ordes van grootte verminderd, terwijl de afhankelijkheid van LLM's wordt geëlimineerd. Wij demonstreren het raamwerk op vier geometrische optimalisatieproblemen: bollenstapeling in hyperkubussen, cirkelstapeling die de som van de stralen maximaliseert, het Heilbronn-driehoeksprobleem, en minimalisatie van de sterdiscrepantie. In verschillende gevallen ontdekt FlowBoost configuraties die de beste bekende resultaten evenaren of overtreffen. Voor cirkelstapelingen verbeteren we de beste bekende ondergrenzen, waarbij we het op LLM's gebaseerde systeem AlphaEvolve overtreffen met aanzienlijk minder rekenresources.
Recente vooruitgang in reinforcement learning voor codegeneratie heeft robuuste omgevingen essentieel gemaakt om reward hacking te voorkomen. Omdat LLM's steeds vaker dienst doen als evaluatoren in code-gebaseerd RL, is hun vermogen om reward hacking te detecteren nog onvoldoende onderzocht. In dit artikel presenteren we een nieuwe taxonomie van reward-exploits, verdeeld over 54 categorieën, en introduceren we TRACE (Testing Reward Anomalies in Code Environments), een synthetisch samengestelde en door mensen geverifieerde benchmark met 517 testtrajecten. In tegenstelling tot eerder werk dat reward hack-detectie evalueert in geïsoleerde classificatiescenario's, vergelijken we deze evaluaties met een realistischer, contrastieve anomaly detection-opzet op TRACE. Onze experimenten tonen aan dat modellen reward hacks effectiever herkennen in contrastieve settings dan in geïsoleerde classificatiesettings, waarbij GPT-5.2 met de hoogste redeneermodus de beste detectierate behaalt van 63%, een stijging ten opzichte van 45% in geïsoleerde settings op TRACE. Voortbordurend op dit inzicht tonen we aan dat state-of-the-art modellen aanzienlijk meer moeite hebben met semantisch gecontextualiseerde reward hacks vergeleken met syntactisch gecontextualiseerde. We voeren verder kwalitatieve analyses uit van modelgedrag, evenals ablatiestudies die aantonen dat de verhouding tussen goedaardige en gehackte trajecten en de grootte van de analyseclusters de detectieprestaties aanzienlijk beïnvloeden. We maken de benchmark en evaluatie-omgeving vrij om de gemeenschap in staat te stellen TRACE uit te breiden en hun modellen te evalueren.
Audiofingerprinting biedt een identificeerbare representatie van akoestische signalen, die later kan worden gebruikt voor identificatie- en retrievalsystemen. Om een onderscheidende representatie te verkrijgen, wordt de invoeraudio meestal gesegmenteerd in kortere tijdsintervallen, waardoor lokale akoestische kenmerken kunnen worden geëxtraheerd en geanalyseerd. Moderne neurale benaderingen werken typisch op korte, vaste-duur audiosegmenten, maar de keuze van de segmentduur wordt vaak heuristisch gemaakt en zelden diepgaand onderzocht. In dit artikel bestuderen we hoe de segmentlengte de prestaties van audiofingerprinting beïnvloedt. We breiden een bestaande neurale fingerprintingarchitectuur uit om verschillende segmentlengtes te hanteren en evalueren de retrievalnauwkeurigheid over verschillende segmentlengtes en queryduren. Onze resultaten tonen aan dat korte segmentlengtes (0,5 seconde) over het algemeen betere prestaties bereiken. Bovendien evalueren we de capaciteit van LLM's om de beste segmentlengte aan te bevelen, wat aantoont dat GPT-5-mini consequent de beste suggesties geeft over vijf overwegingen heen, vergeleken met de drie onderzochte LLM's. Onze bevindingen bieden praktische richtlijnen voor het selecteren van de segmentduur in grootschalige neurale audioretrievalsystemen.
Grafisch ontwerp omvat vaak het verkennen van verschillende stilistische richtingen, wat tijdrovend kan zijn voor niet-experts. Wij pakken dit probleem aan van het stijlvol verbeteren van ontwerpen op basis van natuurlijke taal instructies. Hoewel Vision-Language Models (VLMs) eerste successen hebben geboekt in grafisch ontwerp, is hun vooraf getrainde kennis over stijlen vaak te algemeen en niet afgestemd op domeinspecifieke data. VLMs associëren minimalisme bijvoorbeeld met abstracte ontwerpen, terwijl ontwerpers de nadruk leggen op vorm- en kleurkeuzes. Onze belangrijkste inzicht is om ontwerpdata – een verzameling real-world ontwerpen die de principes van ontwerpers impliciet vastleggen – te benutten om ontwerpkennis te leren en stijlverbetering te sturen. Wij stellen PRISM (PRior-Informed Stylistic Modification) voor, dat een ontwerp-kennisdatabase opbouwt en toepast in drie fasen: (1) het clusteren van ontwerpen met hoge variantie om de diversiteit binnen een stijl vast te leggen, (2) het samenvatten van elke cluster in toepasbare ontwerpkennis, en (3) het ophalen van relevante kennis tijdens inferentie om stijlbewuste verbetering mogelijk te maken. Experimenten op de Crello-dataset tonen aan dat PRISM een gemiddelde rangschikking van 1.49 (dichter bij 1 is beter) behaalt ten opzichte van de baseline-methoden in stijlaanpassing. Gebruikersstudies valideren deze resultaten verder en tonen aan dat ontwerpers consistent de voorkeur geven aan PRISM.
Webagents hebben een groot potentieel voor het automatiseren van complexe computertaken, maar hun interacties omvatten sequentiële besluitvorming op lange termijn met onomkeerbare acties. In dergelijke settings is supervisie op basis van uitkomsten schaars en vertraagd, waarbij vaak incorrecte trajecten worden beloond en schaalbaarheid tijdens inferentie niet wordt ondersteund. Dit motiveert het gebruik van Process Reward Models (WebPRM's) voor webnavigatie, maar bestaande benaderingen blijven beperkt: scalaire WebPRM's comprimeren voortgang tot grove, zwak gegronde signalen, terwijl checklist-gebaseerde WebPRM's vertrouwen op brosse template-matching die faalt bij lay-out- of semantische wijzigingen en vaak oppervlakkig correcte acties ten onrechte als succesvol bestempelen, wat weinig inzicht of interpreteerbaarheid biedt. Om deze uitdagingen aan te pakken, introduceren we WebArbiter, een 'reasoning-first', principe-afleidende WebPRM die beloningsmodellering formuleert als tekstgeneratie, waarbij gestructureerde rechtvaardigingen worden geproduceerd die eindigen met een voorkeursuitspraak en de actie identificeren die het meest bijdraagt aan taakvoltooiing onder de huidige context. De training volgt een pijplijn in twee fasen: reasoning-distillatie rust het model uit met coherent, principe-gestuurd redeneren, en reinforcement learning corrigeert docent-vooroordelen door uitspraken direct af te stemmen op correctheid, wat sterkere generalisatie mogelijk maakt. Voor systematische evaluatie brengen we WebPRMBench uit, een uitgebreide benchmark die vier diverse webomgevingen omspant met rijke taken en hoogwaardige voorkeursannotaties. Op WebPRMBench presteert WebArbiter-7B 9,1 punten beter dan de sterkste baseline, GPT-5. Bij beloning-gestuurd trajectonderzoek op WebArena-Lite overtreft het de beste eerdere WebPRM met tot 7,2 punten, wat de robuustheid en praktische waarde bij complexe webtaken in de echte wereld onderstreept.
De generalisatiecapaciteiten van robotmanipulatiebeleidsregels worden sterk beïnvloed door de keuze van visuele representaties. Bestaande benaderingen vertrouwen doorgaans op representaties die zijn geëxtraheerd uit vooraf getrainde encoders, waarbij twee dominante soorten kenmerken worden gebruikt: globale kenmerken, die een volledige afbeelding samenvatten via een enkele gepoolde vector, en dichte kenmerken, die een patchgewijze inbedding uit de laatste encoderlaag behouden. Hoewel beide kenmerktypen veel worden gebruikt, mengen ze taakrelevante en irrelevante informatie, wat leidt tot slechte generalisatie onder distributieverschuivingen, zoals veranderingen in belichting, texturen of de aanwezigheid van afleiders. In dit werk verkennen we een gestructureerd tussentijds alternatief: op slots gebaseerde objectgecentreerde representaties (SBOCR), die dichte kenmerken groeperen in een eindige set van objectachtige entiteiten. Deze representatie maakt het mogelijk om de ruis die aan het robotmanipulatiebeleid wordt doorgegeven op een natuurlijke manier te verminderen, terwijl voldoende informatie behouden blijft om de taak efficiënt uit te voeren. We vergelijken een reeks globale en dichte representaties met tussentijdse op slots gebaseerde representaties, aan de hand van een reeks gesimuleerde en real-world manipulatietaken, variërend van eenvoudig tot complex. We evalueren hun generalisatie onder diverse visuele omstandigheden, waaronder veranderingen in belichting, textuur en de aanwezigheid van afleiders. Onze bevindingen tonen aan dat op SBOCR gebaseerde beleidsregels beter presteren dan op dichte en globale representaties gebaseerde beleidsregels in generalisatieomstandigheden, zelfs zonder taakspecifieke voortraining. Deze inzichten suggereren dat SBOCR een veelbelovende richting is voor het ontwerpen van visuele systemen die effectief generaliseren in dynamische, real-world robotomgevingen.
Recente vooruitgang in generatieve fundamentele modellen, vaak aangeduid als "wereldmodellen", heeft de belangstelling aangewakkerd om ze toe te passen op kritieke taken zoals robotplanning en training van autonome systemen. Voor een betrouwbare inzet moeten deze modellen een hoge fysieke nauwkeurigheid vertonen, waarbij ze de dynamiek van de echte wereld accuraat simuleren. Bestaande op fysica gebaseerde videobenchmarks lijden echter onder verstrengeling, waarbij een enkele test meerdere fysische wetten en concepten tegelijkertijd evalueert, wat hun diagnostische vermogen fundamenteel beperkt. Wij introduceren WorldBench, een nieuwe op video gebaseerde benchmark die specifiek is ontworpen voor conceptspecifieke, ontvlochten evaluatie, waardoor we het begrip van een enkel fysiek concept of een enkele wet rigoureus kunnen isoleren en beoordelen. Om WorldBench uitgebreid te maken, ontwerpen we benchmarks op twee verschillende niveaus: 1) een evaluatie van intuïtief fysiek begrip met concepten zoals objectpermanentie of schaal/perspectief, en 2) een evaluatie van laagwaardige fysische constanten en materiaaleigenschappen zoals wrijvingscoëfficiënten of vloeistofviscositeit. Wanneer state-of-the-art op video gebaseerde wereldmodellen worden geëvalueerd op WorldBench, vinden we specifieke patronen van falen bij bepaalde fysicaconcepten, waarbij alle geteste modellen de fysieke consistentie missen die nodig is om betrouwbare interacties in de echte wereld te genereren. Door zijn conceptspecifieke evaluatie biedt WorldBench een meer genuanceerd en schaalbaar kader voor het rigoureus evalueren van de fysieke redeneervaardigheden van videogeneratie- en wereldmodellen, waardoor de weg wordt geëffend voor robuustere en generaliseerbaare wereldmodel-gestuurde leerprocessen.
Visuele foundationmodellen bieden robuuste perceptuele kenmerken voor robotica, maar hun dichte representaties missen expliciete objectstructuur, wat de robuustheid en contractiliteit bij manipulatietaken beperkt. Wij stellen STORM voor (Slot-based Task-aware Object-centric Representation for robotic Manipulation), een lichtgewicht objectgecentreerd aanpassingsmodule die bevroren visuele foundationmodellen verrijkt met een kleine set semantisch-bewuste slots voor robotmanipulatie. In plaats van grote backbones opnieuw te trainen, hanteert STORM een meertraps trainingsstrategie: objectgecentreerde slots worden eerst gestabiliseerd via visueel-semantische voortraining met taal-embeddings, waarna ze gezamenlijk worden aangepast met een downstream manipulatiefbeleid. Deze gefaseerde leeraanpak voorkomt gedegenereerde slotvorming en behoudt semantische consistentie terwijl de perceptie wordt afgestemd op taakdoelen. Experimenten op objectontdekkingsbenchmarks en gesimuleerde manipulatietaken tonen aan dat STORM de generalisatie naar visuele afleiders en de controleprestatie verbetert in vergelijking met het direct gebruiken van bevroren foundationmodelkenmerken of end-to-end training van objectgecentreerde representaties. Onze resultaten benadrukken meertrapsaanpassing als een efficiënt mechanisme om generieke foundationmodelkenmerken om te zetten in taakbewuste objectgecentreerde representaties voor robotbesturing.