Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Huidige agentvaardigheden worden met de hand vervaardigd, in één keer gegenereerd of geëvolueerd via losjes gecontroleerde zelfrevisie. Geen van deze benaderingen functioneert als een deep-learning-optimalisator voor de vaardigheid en geen ervan verbetert op betrouwbare wijze ten opzichte van het startpunt onder feedback. Wij stellen dat de vaardigheid in plaats daarvan moet worden getraind als de externe toestand van een bevroren agent, met dezelfde discipline die herhaalbaarheid in gewichtsruimte-optimalisatie garandeert. SkillOpt is, voor zover wij weten, de eerste systematische, beheersbare tekstruimte-optimalisator voor agentvaardigheden: een apart optimalisatiemodel zet gescoorde rollouts om in begrensde toevoeg-/verwijder-/vervangingsbewerkingen op één enkel vaardigheidsdocument, en een bewerking wordt alleen geaccepteerd wanneer deze de validatiescore op een aparte validatieset strikt verbetert. Een tekstueel leercurvebudget, een buffer voor afgewezen bewerkingen en een epochegewijze trage/meta-update maken vaardigheidstraining stabiel, terwijl er bij implementatie nul extra modelaanroepen tijdens de inferentie nodig zijn. Over zes benchmarks, zeven doelmodellen en drie uitvoeringsomgevingen (directe chat, Codex, Claude Code) is SkillOpt de beste of gelijkwaardig op alle 52 geëvalueerde (model, benchmark, omgeving)-cellen en verslaat het elke per-cel concurrent onder menselijke, one-shot-LLM-, Trace2Skill-, TextGrad-, GEPA- en EvoSkill-vaardigheden. Op GPT-5.5 verhoogt het de gemiddelde nauwkeurigheid zonder vaardigheid met +23,5 punten in directe chat, met +24,8 in de Codex-agentische lus en met +19,1 in Claude Code. Overdrachtsexperimenten tonen verder aan dat geoptimaliseerde vaardigheidsartefacten waarde behouden wanneer ze worden verplaatst over modelschalen, tussen Codex- en Claude Code-uitvoeringsomgevingen en naar een nabijgelegen wiskundebenchmark zonder verdere optimalisatie.
Diffusietransformatoren (DiTs) zijn een de facto backbone geworden voor moderne visuele generatie, en vrijwel elke belangrijke ontwerpaspect — tokenisatie, aandacht, conditionering, doelstellingen en latente auto-encoders — is uitgebreid herzien. De reststroom die bepaalt hoe informatie over lagen heen accumuleert, is echter rechtstreeks overgenomen van de oorspronkelijke Transformer. In dit artikel presenteren we een systematische empirische analyse van cross-laag informatie stroom in DiTs, gezamenlijk over diepte en denoising-tijdsstap, en identificeren we drie concrete symptomen van traditionele resterende optelling, namelijk monotone voorwaartse magnitude-inflatie, scherpe achterwaartse gradiëntafname en uitgesproken blokgewijze redundantie. Gemotiveerd door deze diagnose stellen we Diffusion-Adaptive Routing (DAR) voor, een inplugbare restvervanging die leerbare, tijdsstapadaptieve en niet-incrementele aggregatie uitvoert over de geschiedenis van sublaaguitgangen. Bovendien is de voorgestelde DAR compatibel met veel moderne Transformer-verbeteringsmethoden, zoals REPA. Op ImageNet 256×256 verbetert DAR SiT-XL/2 met 2,11 FID (7,56 vs. 9,67) en evenaart het de geconvergeerde kwaliteit van de baseline met 8,75× minder trainingsiteraties. Gestapeld bovenop REPA levert het een 2× trainingsversnelling in de vroege fase, wat suggereert dat cross-laag informatie routing een onderbelichte ontwerpas is in diffusiemodellering, die orthogonal werkt ten opzichte van bestaande representatie-uitlijning doelstellingen. Naast pre-training kan DAR ook worden toegepast tijdens de fijnafstemmingsfase van grootschalige T2I-modellen en behoudt het hoogfrequente details tijdens Distribution Matching Distillation.
We introduceren Lens, een 3,8 miljard parameter T2I-model dat concurrerende prestaties levert, en in verschillende gevallen de nieuwste modellen met meer dan 6 miljard parameters overtreft op diverse benchmarks, terwijl het aanzienlijk minder rekenkracht vereist voor training. Lens heeft bijvoorbeeld slechts ongeveer 19,3% van de trainingsrekenkracht nodig die Z-Image gebruikt. De trainingsefficiëntie van Lens komt voort uit twee belangrijke strategieën naast de compacte modelgrootte. Ten eerste maximaliseren we de informatiedichtheid van gegevens per trainingsbatch door (i) te trainen op Lens-800M, een dataset van 800 miljoen dicht beschreven afbeelding-tekstparen waarvan de bijschriften zijn gegenereerd door GPT-4.1 en gemiddeld ongeveer 109 woorden bevatten, wat rijkere semantische supervisie biedt dan conventionele korte bijschriften, en (ii) elke batch samen te stellen uit afbeeldingen met meerdere resoluties en diverse beeldverhoudingen, waardoor de effectieve visuele dekking van elke optimalisatiestap wordt vergroot. Ten tweede verbeteren we de convergentiesnelheid door zorgvuldige architectuurkeuzes, waaronder het gebruik van een semantische VAE die betere latente representaties biedt en het gebruik van een sterke taalencoder die optimalisatie versnelt terwijl meertalige generalisatie mogelijk wordt gemaakt op basis van alleen Engelstalige trainingsgegevens. Na pre-training passen we RL toe met taxonomiegestuurde prompts (Lens-RL-8K) en gestructureerde beloningsrubrieken om artefacten te onderdrukken en visuele kwaliteit te verbeteren, een redeneermodule met trainingsvrije systeempromptzoekopdracht om gebruikersverzoeken beter af te stemmen op het model, en op distillatie gebaseerde versnelling voor 4-staps inferentie. Door efficiënte training en systematische optimalisatie generaliseert Lens naar willekeurige beeldverhoudingen van 1:2 tot 2:1 en resoluties tot 1440^2, en ondersteunt het prompts in verschillende veelgebruikte talen. Dankzij de compacte grootte genereert Lens een 1024^2 afbeelding in 3,15 seconden op een enkele NVIDIA H100 GPU, terwijl de gedistilleerde turboversie 4-staps generatie uitvoert in 0,84 seconden.
De exponentiële groei van de wereldwijde academische output heeft onderzoekers en AI-agenten geconfronteerd met een ongekende 'informatie-explosie', waarbij gefragmenteerde en ongestructureerde kennisorganisatie diepgaande interdisciplinaire integratie belemmert. Huidige academische zoekinstrumenten zijn voornamelijk afhankelijk van oppervlakkige trefwoordmatching of vectorruimte semantisch zoeken, die de topologische redeneervaardigheden missen die nodig zijn om complexe logische verbanden te navigeren. Agent-gebaseerde diepgaande onderzoekskaders zijn vaak vatbaar voor logische hallucinaties en verbruiken hoge afleidingskosten. Om deze kloof te overbruggen, introduceren we in dit rapport SciAtlas, een grootschalige, multidisciplinaire, heterogene kennisgraaf van academische bronnen, ontworpen als een panoramisch wetenschappelijk evolutienetwerk. Door meer dan 43 miljoen papers uit 26 disciplines, en in totaal 157 miljoen entiteiten en 3 miljard tripletten te integreren, biedt SciAtlas een gestructureerd topologisch cognitief substraat dat disciplinaire barrières afbreekt en AI-agenten van een globaal perspectief voorziet. Verder ontwikkelen we een neuro-symbolisch retrievalalgoritme met drie-pad collaboratieve recall en graaf herrangschikking, waarmee een naadloze overgang wordt gerealiseerd van eenvoudige semantische matching naar deterministische associatieontdekking. We presenteren ook belangrijke toepassingsrichtingen van SciAtlas, waaronder literatuuronderzoek, geautomatiseerde onderzoekstrendsynthese, ideepositionering en academische trajectverkenning, om aan te tonen dat SciAtlas kan dienen als een effectieve 'cognitieve kaart' om de volledige cyclus van geautomatiseerd wetenschappelijk onderzoek te versterken, terwijl de redeneerkosten aanzienlijk worden verlaagd. We hebben de interfaces voor KG-retrieval en diverse stroomafwaartse taken vrijgegeven in onze GitHub-repository.
Verenigde audio-taalmodelering is uitgegroeid tot een prominente trend in moderne spraaksystemen, en belooft de redeneercapaciteiten van grote taalmodellen naar auditieve taken te brengen. Echter, bestaande verenigde fundamenten hebben vaak moeite om de diepgang van gespecialiseerde systemen te evenaren op het gebied van automatische spraakherkenning (ASR), tekst-naar-spraak synthese (TTS) en realtime gesproken interactie. Het overbruggen van deze kloof blijft een open uitdaging. Dit rapport presenteert StepAudio 2.5, een verenigd audio-taalfundamentmodel dat gespecialiseerde systemen evenaart of overtreft op alle drie de capaciteiten. In plaats van deze taken als architectonisch verschillend te beschouwen, gaan we uit van het uitgangspunt dat zodra tekst en audio een multimodale representatieruimte delen, taakspecialisatie een kwestie wordt van operationele regimes: data-constructie, optimalisatiedoelen en decodeerbeperkingen. Geleid door dit inzicht bevorderen we het post-trainingsparadigma van standaard gesuperviseerd leren naar taakgericht Reinforcement Learning from Human Feedback (RLHF), en gebruiken we dit als het primaire mechanisme om complexe optimalisatiedoelen te definiëren. We benutten deze RLHF-gerichte afstemming, samen met gespecialiseerde decodering, om een gedeelde backbone te vormen in drie verschillende operationele modi. Concreet bevordert de ASR-tak de transcriptie-efficiëntie via verifieerbare multi-token decodering; de TTS-tak realiseert controleerbare, expressieve synthese door op voorkeuren gebaseerd RLHF en contextrijke supervisie; en de Realtime-tak realiseert low-latency, persona-consistente dialoog via generatief beloningsmodelleren binnen een RLHF-framework. Op standaard benchmarks behaalt StepAudio 2.5 state-of-the-art resultaten op ASR, TTS en Realtime, wat aantoont dat een enkelvoudig audio-taalfundament met succes de verschillende implementatiedoelen van spraakbegrip, -generatie en live interactie kan internaliseren.
Wij presenteren SWIM (See What I Mean), een nieuwe trainingsstrategie die visuele en taalkundige representaties op elkaar afstemt om fijnmazig objectbegrip mogelijk te maken, uitsluitend op basis van tekstuele prompts. In tegenstelling tot bestaande benaderingen die expliciete visuele prompts vereisen, zoals masks of punten, maakt SWIM alleen tijdens de training gebruik van mask-supervisie om cross-modale aandacht te sturen, waardoor het model tijdens het infereren automatisch kan focussen op het door de gebruiker gespecificeerde object. Onze cross-attentieanalyse van voorgetrainde multimodale grote taalmodellen (MLLMs) onthult een systematische discrepantie: attribuutwoorden produceren scherpe, gelokaliseerde activaties in de visuele modaliteit, terwijl object-nomina diffuse en verspreide patronen vertonen als gevolg van semantische referentiebias en gedistribueerde representaties op hoog niveau. Om deze misalignering aan te pakken, construeren we NL-Refer, een verrijkte dataset, waarin elk objectmask wordt gekoppeld aan een precieze natuurlijke taaluitdrukking. SWIM extraheert multi-laags cross-attentiekaarten van object-nomina en dwingt ruimtelijke consistentie af met ground-truth masks. Experimentele resultaten tonen aan dat SWIM de tekst-visuele afstemming aanzienlijk verbetert en superieure prestaties levert ten opzichte van op visuele prompts gebaseerde methoden op benchmarks voor fijnmazig objectbegrip. De code en data zijn beschikbaar op https://github.com/HumanMLLM/SWIM.
Taalagenten verbeteren steeds vaker door het hergebruiken van vaardigheden – gestructureerde procedurele artefacten die uit eerdere ervaringen zijn gedestilleerd. In het bijzonder zijn domeinspecifieke en modelgegenereerde vaardigheden veelbelovend. Ze bieden snelle aanpassing binnen een domein door domeinspecifieke terugkerende procedures te coderen, en ze schalen verder dan arbeidsintensief handwerk. Echter, terwijl extractiemethoden zich blijven vermenigvuldigen, blijft het begrip beperkt, zonder een uitgebreide studie die de volledige levenscyclus van vaardigheden omvat – ervaringsgeneratie, vaardigheidsextractie en vaardigheidsconsumptie – om te onderzoeken of dergelijke vaardigheden daadwerkelijk werken, wanneer ze werken en wat hun succes of falen bepaalt. Om deze leemte te vullen, bouwen we een utiliteitsgericht evaluatiekader dat systematische experimentele resultaten oplevert voor verschillende extractoren en doelagenten, verspreid over vijf uiteenlopende agentische taakdomeinen. We vinden dat modelgegenereerde vaardigheden gemiddeld genomen voordelig zijn, maar niet-triviale negatieve transfer vertonen, en dat noch extractoren noch doelwitten uniform gedrag vertonen. Een model kan een sterke extractor zijn maar een zwakke consument, of vice versa, waarbij de utiliteit van vaardigheden onafhankelijk is van modelschaal of basistaaksterkte. Om deze patronen te verklaren, analyseren we vervolgens elke levenscyclusfase diepgaand, waarbij we onderzoeken hoe de samenstelling van ervaringen de vaardigheidskwaliteit beïnvloedt, welke eigenschappen nuttige vaardigheden kenmerken en hoe dezelfde vaardigheid wordt overgedragen tussen verschillende consumenten. Ten slotte vertalen we deze bevindingen naar een concrete meta-vaardigheid die de vaardigheidsextractie stuurt naar de kenmerken die aan de daadwerkelijke utiliteit zijn gekoppeld, wat de vaardigheidskwaliteit consistent verbetert over domeinen heen en negatieve transfer aanzienlijk vermindert.
De meeste praktische hoge-resolutie tekst-naar-beeldsystemen, waaronder latente diffusie en autoregressieve modellen, genereren in een compacte latente ruimte, waarna een decoder de gegenereerde latenten terugkaart naar pixels. De latent-naar-pixeldecoder is echter reconstructiegericht, geoptimaliseerd om de encoder te inverteren in plaats van meer details te synthetiseren, en wordt steeds kostbaarder op megapixelschaal. Dit nadeel vraagt om een expressiever en efficiënter decoderingparadigma. Geïnspireerd door recente vooruitgang in schaalbare pixelruimte-diffusie introduceren we PiD, een Pixel-diffusie Decoder die latente decodering herformuleert als conditionele pixel-diffusie, waarbij decodering en opschaling worden verenigd in één generatieve module. Door rechtstreeks in hoge-resolutie pixelruimte te denoïsen, synthetiseert PiD 4× en zelfs 8× opgeschaalde beelden met lage latentie. Voor latente conditionering injecteert een lichte sigma-bewuste adapter ruisgecontamineerde latenten in de pixel-diffusieruggengraat, waardoor PiD gedeeltelijk gedenoïste latenten kan decoderen en het latente diffusieproces vroegtijdig kan beëindigen. Om de efficiëntie verder te verbeteren, destilleren we het model met DMD2, waardoor de inferentie wordt teruggebracht tot slechts 4 stappen. PiD is toepasbaar op zowel conventionele VAE-latenten als semantische latenten (bijv. SigLIP, DINOv2) die worden gebruikt in recente op RAE gebaseerde modellen. PiD decodeert latenten van 512×512 afbeeldingen naar 2048×2048 pixels in minder dan 1 seconde met 13 GB piekgeheugen op een consumenten-RTX 5090, en zo snel als 210 ms op een GB200 GPU, ongeveer 6× sneller dan trapsgewijze diffusie-gebaseerde superresolutiepijplijnen met betere visuele betrouwbaarheid.
Virtuele fotografie vraagt een agent om een voorbereide 3D-scène te betreden zonder vooraf geselecteerde camerapositie of referentiebeeld, een geschikte opname af te leiden uit scène-informatie en een taalintentie, uitvoerbare cameraparameters te kiezen en de uiteindelijke foto te renderen. Recente vooruitgang in visie-taalmodelen maakt dit soort ruimtelijke agent steeds plausibeler, maar de taak legt de nadruk op twee vaardigheden die moeilijk samen te evalueren zijn: complex ruimtelijk 3D-begrip en abstract esthetisch oordeel. Wij introduceren PhotoFlow, een Director-Reviewer-Reflector-agent voor gesloten-lus camerazoeken. De Director bouwt een zachte fotografische blauwdruk en stelt diverse kandidaatcamera's voor; de Reviewer combineert regelcontroles, visuele kritiek en paarsgewijze selectie van de huidige beste; en de Reflector zet mislukkingen om in regiongeheugen, onderdrukking van dode zones en verplaatsing met hoge exploratie. We introduceren tevens VPhotoBench, een benchmark van 47 open-source Blender-scènes en 141 taalgestuurde fotografiemissies, variërend van plaatsing van onderwerpen, relationele compositie tot sfeer/stijl. In uitgesloten experimenten behaalt PhotoFlow de sterkste externe kwaliteitsafstemmingscomposiet en het hoogste succespercentage onder eenmalige voorspelling, enkelketenreflectie, ankerbankselectie en willekeurig zoeken met een renderingsbudget van zes rondes. Voor zover wij weten is dit het eerste werk dat taalgestuurde virtuele fotografie in willekeurige Blender-scènes tot een uitvoerbare agenttaak maakt, en onze resultaten tonen aan dat een LLM-gecentreerde ruimtelijke agent reeds sterke foto's kan produceren in een setting die zowel 3D-redenering als esthetische keuzes uitdaagt.
Ruimtelijk-temporeel redeneren is een kernvaardigheid voor Multimodale Grote Taalmodellen (MLLM's) die in de echte wereld opereren. Het nauwkeurig evalueren ervan is dan ook een essentiële uitdaging geworden. Echter, bestaande benchmarkdatasets voor ruimtelijk-temporeel redeneren zijn voornamelijk gebaseerd op statische beelden of passief samengestelde videogegevens, wat de evaluatie van fijnmazige redeneervaardigheden beperkt. In dit artikel introduceren we VGenST-Bench, een videobenchmark die generatieve modellen gebruikt om actief sterk gecontroleerde en diverse evaluatiescenario's te synthetiseren. Voor de constructie van VGenST-Bench stellen we een multi-agentpijplijn voor, inclusief een menselijke kwaliteitscontrolefase, om de kwaliteit van alle gegenereerde video's en QA-paren te waarborgen. We stellen een uitgebreide 3x2x2-videotaxonomie op, die ruimtelijke schaal, perspectief en scènedynamiek omvat om diverse scenario's te bestrijken. Daarnaast ontwerpen we een hiërarchische takenreeks die laagniveau visuele perceptie ontkoppelt van hoogwaardig ruimtelijk-temporeel redeneren. Door het paradigma te verschuiven van passieve curatie naar actieve synthese, maakt VGenST-Bench een fijnmazige diagnose van ruimtelijk-temporeel begrip in MLLM's mogelijk.
Discrete autoregressieve (AR) tekst-naar-beeld (T2I) modellen koppelen een VQ-tokenizer aan een AR-beleid, en huidige nabehandelingspijplijnen optimaliseren alleen het beleid terwijl de VQ-decoder bevroren blijft. Recent diffusie-T2I-werk, zoals geïllustreerd door REPA-E, heeft aangetoond dat de VAE zelf een belangrijk uitlijningsknelpunt vormt, maar er bestaat geen analoge studie voor discrete AR-modellen. Wij tonen aan dat optimalisatie van alleen het beleid leidt tot Latente Covariaatverschuiving: naarmate het beleid evolueert, wijkt de resulterende tokenverdeling af van de grondwaarheidsverdeling waarop de decoder is getraind, waardoor de beloningsscores verbeteren terwijl de gedecodeerde beeldkwaliteit verslechtert. Om deze mismatch aan te pakken, stellen we RankE voor, het eerste end-to-end nabehandelingsraamwerk voor discrete T2I-generatie. In plaats van het beleid te optimaliseren ten opzichte van een vaste decoder, laat RankE beide componenten co-evolueren door middel van afwisselende optimalisatie: elke module maximaliseert een op rangschikking gebaseerd uitlijningsdoel, terwijl deze wordt geregulariseerd door een stabiliteitsbehoudend anker dat past bij zijn parameterruimte. Deze co-evolutie doorbreekt de getrouwheid-uitlijning afweging die bevroren-decoder benaderingen teistert: op LlamaGen-XL (775M) verbetert standaard RL CLIP maar verslechtert FID, terwijl RankE beide tegelijkertijd verbetert (FID 15,21, CLIP 33,76 op MS-COCO 30K). Consistente verbeteringen op Janus-Pro (1B) bevestigen dat co-evolutie van de decoder beloningsoptimalisatie betrouwbaar omzet in kwaliteitsverbeteringen in de pixelruimte.
Multimodale Grote Taalmodellen hebben visueel redeneren bevorderd, maar een puur tekstuele denkketen blijft een knelpunt voor vragen die een fijnmazige focus of beeldtransformaties vereisen. Het paradigma "denken met afbeeldingen" verkleint deze kloof, maar bestaande benaderingen worden ofwel beperkt door vaste vooraf gedefinieerde gereedschapskisten, of produceren ruisige tussentijdse afbeeldingen via uniforme multimodale methoden. Wij kiezen voor een derde optie: het gebruik van een specifiek beeldbewerkingsmodel en het ontkoppelen ervan van een begripsmodel. Kant-en-klare beeldbewerkers schieten echter tekort als redeneerassistenten vanwege twee complementaire hiaten: een taalkant-hiaat, waarbij bewerkers die zijn getraind als passieve instructievolgers een abstracte vraag niet kunnen vertalen naar een geschikte visuele transformatie, en een generatiekant-hiaat, waarbij de bewerkingscorrectheid afneemt naarmate de redeneerdiepte toeneemt. Geleid door deze analyse introduceren we ETCHR (Editing To Clarify and Harness Reasoning, bewerken om redeneren te verduidelijken en te benutten), een vraag-geconditioneerde, redeneerbewuste beeldbewerker die is ontkoppeld van het stroomafwaartse begripsmodel en is getraind met een tweestapsrecept dat gericht is op de twee hiaten: Redeneerimitatie via begeleide fijnafstemming op bewerkingstrajecten, gevolgd door Redeneerverbetering met VLM-afgeleide beloningen voor bewerkingscorrectheid en stroomafwaartse redeneernauwkeurigheid. Omdat de bewerker is ontkoppeld, kan ETCHR op een trainingsvrije wijze worden ingezet bij verschillende open- en gesloten bron MLLM's. Over vijf taakfamilies (fijnmazige waarneming, diagrambegrip, logisch redeneren, puzzelrestauratie en 3D-begrip) verhoogt ETCHR de gemiddelde Pass@1 van 55,95 naar 60,77 (+4,82) met Qwen3-VL-8B, van 65,08 naar 70,55 (+5,47) met Gemini-3.1-Flash-Lite, en van 76,55 naar 81,16 (+4,61) met het MoE-model met 1T parameters, Kimi K2.5.
Interactieve wereldmodellen voor first-person shooter (FPS) spellen moeten op elk frame hoogfrequente overlappende besturingssignalen oplossen zonder de onaangetaste regio's te verstoren. Bestaande methoden voeren acties globaal in en trainen op enkele titels, wat faalt onder dichte FPS-invoer. Wij observeren dat FPS-acties ruimtelijk selectief zijn: discrete gebeurtenissen zoals vuren of herladen beïnvloeden slechts een gelokaliseerd gebied rond het wapen (de scope), terwijl continue camera- en bewegingssignalen stabiele omgevingen beheersen. Wij stellen SCOPE voor, dat een conditioneringmodule in elk transformatorblok van een voorgetraind videodiffusiemodel plaatst. Het hervormt kenmerken tot per-pixel temporele reeksen zodat elke positie zijn actierespons berekent op basis van lokale visuele inhoud. Dit scheidt effecten binnen de scope van generatie buiten de scope zonder segmentatielabels. We introduceren ook CrossFPS, de eerste multi-game FPS-dataset met frame-uitgelijnde actie-telemetrie. Het omvat 69K clips van 7 titels met 10-DoF controller-signalen, samengesteld om gameplay-bias te verwijderen. Het model leert algemene visueel-naar-actie mappings in plaats van spel-specifieke patronen, waardoor zero-shot overdracht naar ongeziene scènes mogelijk wordt. Experimenten bevestigen sterke actieresponsiviteit, precieze scopescheiding en effectieve cross-game generalisatie.
Bestaande schaalwetten voor grote taalmodellen (Large Language Models, LLM’s), voornamelijk monotone machtswetten, slagen er niet in om opkomende niet-monotone fenomenen zoals catastrofale overtraining en kwantisatie-geïnduceerde degradatie te verklaren, waarbij de prestaties verslechteren ondanks toegenomen rekenkracht. Wij stellen de Shannon-schaalwet voor, een uniform theoretisch kader dat LLM-training modellen als informatietransmissie over een ruisend kanaal, gebaseerd op de Shannon-Hartley-stelling. Door modelparameters aan kanaalbandbreedte en trainings-tokens aan signaalsterkte te koppelen, legt onze formulering expliciet de interactie tussen leersignaal en intrinsieke ruis vast. Dit perspectief onthult een fundamentele Shannon-capaciteit voor LLM’s: het opschalen van modelgrootte of data zonder een voldoende signaal-ruisverhouding (SNR) te handhaven, versterkt onvermijdelijk de ruis, wat leidt tot een overgang van monotone verbetering naar U-vormige prestatievermindering. Wij valideren onze theorie via experimenten met Pythia en OLMo2 onder verstoringen, waaronder Gaussiaanse ruis, kwantisatie en gesuperviseerde finetuning op wiskunde-, QA- en codetaken. De Shannon-schaalwet presteert consistent beter dan klassieke schaalwetten en recente verstoringsbewuste wetten, met sterke R²-scores en een nauwkeurige weergave van verliesbekkens die eerdere benaderingen missen. De wet extrapoleert ook: getraind op Pythia-modellen ≤6.9B met ≤180B tokens, voorspelt hij het ongeziene 12B-model tot 307B tokens met een gepoolde R² van 0,847, terwijl monotone baselines instorten.
Recente vooruitgang in visie-taalmodelen (VLMs) benadrukt lange keten-van-gedachte redeneringen; toch vinden we dat hun prestaties op visuele taken voornamelijk worden beperkt door een gebrek aan visuele perceptie in plaats van redenering zelf. In dit werk bestuderen we systematisch de wisselwerking tussen perceptie en redenering in VLM-natraining door hun capaciteiten op te splitsen in drie afzonderlijke trainingsfasen: visuele perceptie, visueel redeneren en tekstueel redeneren, met gespecialiseerde trainingsdata. We tonen aan dat visuele perceptie (a) gerichte optimalisatie vereist met gespecialiseerde data; (b) dient als een fundamentele steiger die moet worden verstevigd door gefaseerde training voordat visueel redeneren wordt verfijnd; en (c) effectiever wordt geleerd via RL dan via caption-gebaseerde SFT. Onze experimenten met meerdere VLMs tonen aan dat gefaseerde training consistent zowel visuele perceptie als redeneerprestaties verbetert ten opzichte van samengevoegde training. Opmerkelijk is dat modellen getraind met onze aanpak 1,5% hogere redeneernauwkeurigheid behalen met 20,8% kortere redeneertrajecten, wat suggereert dat superieure perceptie de behoefte aan overmatig redeneren vermindert. Verder tonen we aan dat deze op capaciteit gebaseerde fasering een nieuwe curriculumdimensie vertegenwoordigt die orthogonaal is aan traditionele op moeilijkheid gebaseerde curricula, en dat het combineren van beide verdere additieve winsten oplevert. Onze gefaseerd getrainde modellen behalen superieure prestaties onder open-gewicht VLMs, met geavanceerde resultaten op verschillende visuele wiskunde- en perceptietaken (bijv. +5,2% op WeMath en +3,7% op RealWorldQA) in vergelijking met de basisvariant.
Cameragestuurde videogeneratie heeft de afgelopen jaren opmerkelijke vooruitgang geboekt. Bestaande methoden voor video-naar-video herrenderen zijn echter voornamelijk gebaseerd op begeleide finetuning met synthetische datasets. Momenteel is er een extreem tekort aan gesynchroniseerde, multi-view real-world videogegevens. Als gevolg hiervan vertoont het heersende paradigma vaak beperkte generalisatie bij het verwerken van buiten-de-distributie real-world video's, waarbij modellen moeite hebben om nauwkeurig fysieke schalen en cameratrajecten te volgen. Om deze kloof te overbruggen, stellen we Geo-Align voor, het eerste versterkingsleerframework dat specifiek is ontworpen voor cameragestuurd video-herrenderen. Gebaseerd op een voorgetraind model optimaliseren we het model via een schaalbewust perceptueel beloningsmechanisme. Specifiek introduceren we een metrische 3D-schatter om nauwkeurige cameratrajecten uit gegenereerde video's te extraheren, waarbij afwijkingen in rotatie en translatie expliciet worden bestraft. Daarnaast hebben we een zorgvuldig ontworpen datapijplijnstrategie ontwikkeld op basis van real-world conditioneringsvideo's en doelcameratrajecten afkomstig uit synthetische data, waardoor de afhankelijkheid van gepaarde gegevens wordt geëlimineerd. Uitgebreide experimenten tonen aan dat Geo-Align consequent beter presteert dan bestaande begeleide leermethoden, zowel in nauwkeurige camerabeheersing als visuele getrouwheid, wat de effectiviteit van onze methode aangeeft.
Muon is een matrix-bewuste optimizer die Newton-Schulz (NS)-iteraties gebruikt om spectrale gradiëntorthogonalisatie af te dwingen door alle singuliere waarden van de momentummatrix naar 1 te sturen. Hoewel deze uniforme spectrale witmaking de exploratie verbetert en beter presteert dan AdamW bij LLM-pretraining, tonen we aan dat dit tot fundamentele beperkingen kan leiden buiten pretraining in twee regimes: (i) cross-modale visie-taal-actie (VLA)-training, waar inherent laag-rank actiemodulegradiënten versterking van ruisende staartrichtingen veroorzaken, en (ii) reinforcement learning met verifieerbare beloningen (RLVR), waar laag-SNR-gradiënten en de noodzaak om per-hoofdspecialisatie uit eerdere training te behouden, witmaking instabiel maken. Om deze uitdagingen aan te pakken, stellen we Pion voor, een directe vervanging voor Muon die de computationele efficiëntie behoudt terwijl uniforme spectrale witmaking wordt vervangen door een tweetraps Promotie+Suppressiemechanisme, dat we de hoogdoorlaat-NS-iteratie noemen. Dit ontwerp induceert een scherp hoogdoorlaat-spectraaleffect, waarbij dominante singuliere waarden op 1 worden verankerd terwijl ruisende staartcomponenten naar 0 worden onderdrukt, met beheersbare filtersterkte. Om de voorgetrainde per-hoofdheterogeniteit te behouden, ondersteunt Pion ook een per-hoofdmodus die updates onafhankelijk over aandachtshoofden toepast via een eenvoudige hervorming, zonder extra kosten. In VLA-training op LIBERO en LIBERO-Plus presteert Pion consequent beter dan beide basislijnen over l₁-regressie (VLA-Adapter) en flow-matching (VLANeXt)-architecturen, bijvoorbeeld door een succespercentage van 100% te bereiken op LIBERO Object na 1.500 trainingsstappen met VLA-Adapter, versus 97,0% voor Muon en slechts 32,2% voor AdamW. Het voordeel van Pion strekt zich verder uit tot een echte Franka Research 3-robot met een pi_0.5-backbone onder de DROID-opstelling op drie grijp-en-plaatstaken. In RLVR-natraining op Qwen3-1.7B/4B met GRPO en GMPO presteert Pion ook beter dan AdamW op MATH en GSM8K, terwijl Muon naar nul instort.
We introduceren een nieuwe benadering voor getrouwe 3D-scènereconstructie uit multi-view RGB-beelden die reconstructie nauw koppelt aan een sterke generatieve 3D-prior. We beschouwen scènereconstructie als conditionele 3D-generatie over een reeks ruimtelijk gelokaliseerde, overlappende brokken die samen de scène bedekken, waardoor de generatie wordt opgeschaald naar grote scène-uitgestrektheden. Cruciaal is dat we de getrouwheid en volledigheid van state-of-the-art generatieve vormmodellen overnemen — we gebruiken Trellis.2 als voorbeeld — die we generaliseren naar het scèneniveau. Hiertoe stellen we een projectie-gebaseerd conditioneringsmechanisme voor dat geposeerde multi-view beeldkenmerken transformeert naar een coherente 3D-representatie die is uitgelijnd met het generatieve model, onafhankelijk van de volgorde van aanzichten en ruimtelijk verankerd aan de scène, wat resulteert in getrouwe, multi-view consistente gegenereerde geometrie. Dit maakt het mogelijk om de sterke objectniveau-prior van Trellis.2 op te schalen naar multi-view, scène-schaal generatie, wat getrouwe, bewerkbare PBR-mesh-reconstructies van binnenomgevingen oplevert. Hierdoor verkrijgen we getrouwe resultaten die 16% beter presteren dan geavanceerde reconstructiemethoden.
Unified multimodale modellen (UMM's) behalen sterke prestaties in zowel begrip als generatie door een gedeelde latente ruimte te leren, maar vertonen vaak functionele inconsistentie tussen deze twee capaciteiten. Wij observeren dat dit probleem niet voortkomt uit een gebrek aan gedeelde representaties, maar uit de afwezigheid van expliciete afstemming tussen de transformaties die naar en uit de latente ruimte afbeelden. Als gevolg hiervan kunnen generatie en hercodering inconsistente trajecten volgen, wat leidt tot semantische drift bij modaliteitsovergangen. In dit werk stellen we LatentUMM voor, een raamwerk dat een verbeterde gedeelde latente ruimte construeert om deze transformaties expliciet af te stemmen en de cross-modale consistentie te verbeteren. LatentUMM bestaat uit twee fasen. Ten eerste dwingt duale latente afstemming consistentie af op zowel het modaliteits- als het capaciteitsniveau: cross-modale afstemming gebruikt een sterker inbeddingsmodel om gestructureerde cross-modale semantiek op te leggen, terwijl duale capaciteitsafstemming bidirectionele consistentie afdwingt onder generatie en hercodering. Ten tweede verbetert latente dynamiekenstabilisatie de robuustheid via stochastische latente rollouts en preferentieoptimalisatie, waarbij de voorkeur uitgaat naar trajecten die de semantische consistentie beter behouden. Experimenten tonen aan dat LatentUMM de multimodale consistentie consistent verbetert in diverse architecturen. Code is beschikbaar op: https://github.com/AIFrontierLab/TorchUMM/tree/main/src/umm/post_training/LatentUMM.
Visuele geometrie-transformers zijn krachtige architecturen geworden voor multi-view 3D-reconstructie, waarmee meerdere 3D-kenmerken gezamenlijk op een feed-forward manier kunnen worden voorspeld. Hun rekenkosten nemen echter kwadratisch toe met de lengte van de invoerreeks vanwege de globale aandachtslagen in deze modellen. Dit beperkt zowel hun schaalbaarheid als efficiëntie. In dit werk pakken we deze uitdaging aan met een eenvoudige maar algemene strategie: het beperken van het aantal key/value-tokens waarmee elk query-token interactie heeft tijdens globale aandacht. Om effectieve tokenselectie te bereiken, introduceren we een tweetrapsraamwerk. Eerst werkt een interframe-selectiestap op frameniveau om frames te identificeren die behouden moeten blijven. Ten tweede verwijdert een intraframe-selectiestap verdere redundante tokens binnen de geselecteerde frames. Onze analyse benadrukt het voordeel van een diversiteitsgebaseerde strategie voor interframe-selectie, die een brede dekking van de scène waarborgt. Voor intraframe-selectie tonen we aan dat laagbewuste versparsing noodzakelijk is, waarbij het selectieproces wordt gestuurd door de entropie van het globale aandachtspatroon. Onze aanpak biedt een superieure snelheid-nauwkeurigheid afweging in vergelijking met bestaande oplossingen. Uitgebreide experimenten tonen aan dat het visuele geometrie-transformers versnelt met meer dan 85% voor scènes met 500 afbeeldingen, terwijl de basisprestaties behouden blijven of zelfs worden verbeterd. Dit wijst erop dat onze tokenselectiestrategie een cruciale rol kan spelen in toekomstige toepassingen van visuele geometrie-transformers. Onze projectwebsite is beschikbaar op https://zsh2000.github.io/good-token-hunting.github.io.
De snelle proliferatie van Visie-Taalmodellen (VLMs) wordt vaak gepresenteerd als een stap voorwaarts naar uniforme multimodale kennisontdekking, maar berust op een onvoldoende onderzochte aanname: dat huidige VLMs multimodale gegevens getrouw synthetiseren. Wij stellen dat ze dit vaak niet doen, en dat deze kloof een betrouwbaarheidsprobleem weerspiegelt in het dominante paradigma van Visie-Encoder-Projector-LLM. In plaats van gefundeerde kennis uit visuele inputs te halen, vertonen state-of-the-art modellen vaak functionele blindheid, d.w.z. het exploiteren van sterke taalprior om ernstige knelpunten in de visuele representatie te omzeilen. In dit werk betwisten we de conventionele methodologie van multimodale evaluatie, die steunt op data-ablatie of het creëren van nieuwe datasets en daardoor datasetvooroordelen verwart met architecturale incapaciteit. We stellen een informatie-theoretische afwijking voor: het Modaliteit Vertaalprotocol, ontworpen om te kwantificeren wat wij de Kosten van Zien noemen. Door semantische ladingen te vertalen in plaats van te ableren, formuleren we drie nieuwe metrieken -- de Tol (ToS), Vloek (CoS) en Misvatting (FoS) van Zien -- die uitmonden in het Semantische Toereikendheidscriterium (SSC). Verder veronderstellen we een Divergentiewet van Multimodale Schaling: naarmate de onderliggende taalengines schalen naar ongekende redeneervermogens, kan de boete van de visuele kennisknelpunt toenemen in plaats van afnemen. We beargumenteren dat de gemeenschap verder moet kijken dan "multimodale winst" als primair evaluatiedoel. Door het SSC te verheffen van een passieve diagnostische beperking tot een actieve architecturale blauwdruk, bieden we een basis voor het sturen van de volgende generatie AI-systemen naar echte multimodale redenering.
Het trainen van LLM-agenten met een lange horizon met behulp van reinforcement learning is uitdagend omdat schaarse uitkomstrewards wel aangeven of een taak slaagt, maar niet welke tussenliggende acties tot de uitkomst hebben geleid of hoe ze gecorrigeerd moeten worden. Recente methoden verlichten dit probleem door rewards of tekstuele hints te genereren op basis van actie-uitvoer-signalen op beurtniveau, of door feedback-geconditioneerde zelfdistillatie toe te passen. Het genereren van feedback bij elke beurt is echter inefficiënt wanneer veel tussenliggende beurten al succesvol of neutraal zijn, en het toepassen van feedback op een vaste of niet-passende beurt slaagt er vaak niet in om de acties die bijdragen aan het falen te superviseren. Om deze kloof te overbruggen stellen wij HINT-SD voor, een gericht zelfdistillatiekader dat gebruikmaakt van volledige traject-hindsight om faalrelevante acties te selecteren en feedback-geconditioneerde distillatie alleen op gerichte actiesegmenten toepast. Experimenten op BFCL v3 en AppWorld tonen aan dat onze methode de dichte per-beurt feedbackbaseline met tot 18,80 procent verbetert, terwijl de tijd per trainingsstap 2,26 keer lager is, wat suggereert dat het selecteren van waar te distilleren een sleutelfactor is voor zowel effectieve als efficiënte training van agenten met een lange horizon.
Grote taalmodellen (LLM's) hebben indrukwekkende redeneervermogens getoond voor een breed scala aan taken, maar datacontaminatie ondermijnt de objectieve evaluatie van deze capaciteiten. Dit probleem wordt nog verergerd door kwaadwillige modeluitgevers die ontwijkende, of indirecte, contaminatiestrategieën gebruiken, zoals het parafraseren van benchmarkgegevens om bestaande detectiemethoden te omzeilen en de leaderboardprestaties kunstmatig te verhogen. Huidige benaderingen hebben moeite om dergelijke sluipende contaminatie betrouwbaar te detecteren. In dit werk ontdekken we een kritisch fenomeen: de gegenereerde redeneerstappen van een model maskeren actief de onderliggende memorisatie. Geïnspireerd hierdoor stellen we de Zero-CoT Probe (ZCP) voor, een nieuwe zwarte-box-detectiemethode die bewust het volledige Chain-of-Thought (CoT)-proces afbreekt om verborgen snelkoppelingsmappingen bloot te leggen. Om memorisatie verder te isoleren van de intrinsieke probleemoplossende vermogens van het model, vergelijkt ZCP de zero-CoT-prestaties van het model op de oorspronkelijke benchmark met een isomorf verstoorde referentiedataset. Daarnaast introduceren we Contaminatiebetrouwbaarheid, een metriek die zowel de waarschijnlijkheid als de ernst van contaminatie kwantificeert, voorbij eenvoudige binaire classificaties. Uitgebreide experimenten op zowel eerder geïdentificeerde gecontamineerde modellen als speciaal fijngetunede gecontamineerde modellen tonen aan dat ZCP zowel directe als ontwijkende datacontaminatie robuust detecteert. De code voor ZCP is toegankelijk op https://github.com/Yifan-Lan/zero-cot-probe.
Het schalen van rekenkracht tijdens testtijd door iteratief bijwerken van een latente toestand is uitgegroeid tot een krachtig paradigma voor redeneren. Toch blijven de interne mechanismen die deze iteratieve modellen in staat stellen te generaliseren voorbij aangeleerde patronen onduidelijk. We hypothetiseren dat generaliseerbaar redeneren voortkomt uit het leren van taakgeconditioneerde attractoren: latente dynamische systemen waarvan de stabiele vaste punten overeenkomen met geldige oplossingen. We formaliseren dit proces via Evenwichtsredeneraars (EqR), die schaling tijdens testtijd mogelijk maken zonder externe verificateurs of taakspecifieke priori's. EqR schaalt interne dynamiek langs twee assen: diepte, door meer iteraties uit te voeren, en breedte, door stochastische trajecten uit meerdere initialisaties te aggregeren. Empirisch gezien zijn de winsten van testtijd-schaling nauw gekoppeld aan sterkere convergentie naar oplossingsgeoriënteerde attractoren. Dit attractorperspectief stelt neurale netwerken in staat om rekenkracht tijdens testtijd adaptief toe te wijzen op basis van taakmoeilijkheid. Terwijl eenvoudige gevallen binnen 1 tot 5 iteratiestappen convergeren, profiteren moeilijkere gevallen van massieve testtijd-schaling. Door uit te rollen tot het equivalent van 40.000 lagen, verhoogt schaalbare latente redenering de nauwkeurigheid van 2,6% voor feedforward-modellen tot meer dan 99% op Sudoku-Extreme. Deze resultaten suggereren dat aangeleerde attractorlandschappen een nuttige mechanistische lens bieden voor het begrijpen van schaalbaar redeneren in iteratieve latente modellen.
MRI-reconstructie is een inherent slecht gesteld invers probleem, aangezien onvolledige metingen tot veel plausibele oplossingen leiden. Deze ambiguïteit wordt ernstiger bij hoge versnelling, waar continue voorspellers in het pixel-domein de neiging hebben te middelen over haalbare reconstructies en hoogfrequente anatomie te onderdrukken. Wij pakken deze beperking aan door de reconstructie naar een discrete multi-schaal latente ruimte te verplaatsen en deze te formuleren als autoregressieve voorspelling van de volgende versnellingsschaal. Door gebruik te maken van discrete voorkennis die effectief is gebleken in visuele autoregressieve modellering, beperkt onze methode de oplossing tot compacte reeksen codebook-tokens, waardoor scherpe reconstructies mogelijk zijn, zelfs bij extreem schaarse metingen. Deze discrete autoregressieve formulering sluit ook op natuurlijke wijze aan bij moderne post-trainingstechnieken voor grote taalmodellen. Voortbouwend op deze observatie introduceren we on-policy geprivilegieerde informatiedistillatie voor visuele autoregressieve modellering, waarbij een leraar alleen training krijgt met geprivilegieerde context die niet beschikbaar is tijdens inferentie – in ons geval volledig bemonsterde acquisities – en een student begeleidt die getraind is op zijn eigen rollouts, wat leidt tot consistente reconstructiewinsten. Door middel van uitgebreide experimenten op de fastMRI-benchmark tonen we aan dat onze aanpak verbeterde reconstructieprestaties levert bij diverse bemonsteringspatronen onder extreme onderbemonstering. De projectwebsite is https://yilmazkorkmaz1.github.io/discrete-mri-reconstruction-opd/{hier}.