Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Beroemde wetenschappers beschikken over een sterk oordeelsvermogen en vooruitziende blik, wat nauw verbonden is met wat we wetenschappelijke smaak noemen. Hier gebruiken we de term om te verwijzen naar het vermogen om onderzoeksideeën met een hoge potentiële impact te beoordelen en voor te stellen. Het meeste gerelateerde onderzoek richt zich echter op het verbeteren van de uitvoerende capaciteit van een AI-wetenschapper, terwijl het verbeteren van de wetenschappelijke smaak van een AI onderbelicht blijft. In dit werk stellen we Reinforcement Learning from Community Feedback (RLCF) voor, een trainingsparadigma dat grootschalige gemeenschapssignalen als supervisie gebruikt, en formuleren we wetenschappelijke smaakleren als een voorkeursmodellerings- en afstemmingsprobleem. Voor voorkeursmodellering trainen we Scientific Judge op 700.000 veld- en tijd-gematchede paren van hoog- versus laag-geciteerde artikelen om ideeën te beoordelen. Voor voorkeursafstemming, met Scientific Judge als beloningsmodel, trainen we een beleidsmodel, Scientific Thinker, om onderzoeksideeën met een hoge potentiële impact voor te stellen. Experimenten tonen aan dat Scientific Judge state-of-the-art grote taalmodelen (zoals GPT-5.2, Gemini 3 Pro) overtreft en generaliseert naar toekomstige jaartesten, onbekende velden en peer-review voorkeuren. Bovendien stelt Scientific Thinker onderzoeksideeën voor met een hogere potentiële impact dan baseline-methoden. Onze bevindingen tonen aan dat AI wetenschappelijke smaak kan leren, wat een cruciale stap markeert richting AI-wetenschappers op menselijk niveau.
Residuale verbindingen met PreNorm zijn standaard in moderne LLM's, maar ze accumuleren alle laaguitvoeren met vaste eenheidsgewichten. Deze uniforme aggregatie veroorzaakt een onbeheerste groei van de verborgen toestand met de diepte, waardoor de bijdrage van elke laag progressief wordt verdund. Wij stellen Attention Residuals (AttnRes) voor, waarbij deze vaste accumulatie wordt vervangen door softmax-attentie over de uitvoeren van voorgaande lagen, waardoor elke laag eerere representaties selectief kan aggregeren met aangeleerde, invoerafhankelijke gewichten. Om het geheugen- en communicatieoverhead aan te pakken van het toepassen van aandacht op alle voorgaande laaguitvoeren voor grootschalige modeltraining, introduceren we Block AttnRes, waarbij lagen worden gepartitioneerd in blokken en aandacht wordt toegepast op blokniveau-representaties, waardoor de geheugenvoetafdruk wordt verkleind terwijl het grootste deel van de winst van volledige AttnRes behouden blijft. Gecombineerd met cache-gebaseerde pijplijncommunicatie en een tweefasen-berekeningsstrategie wordt Block AttnRes een praktische drop-in vervanging voor standaard residuale verbindingen met minimale overhead. Schaalwet-experimenten bevestigen dat de verbetering consistent is over verschillende modelgroottes, en ablatiestudies valideren het voordeel van inhoudsafhankelijke, dieptewaartse selectie. We integreren AttnRes verder in de Kimi Linear-architectuur (48B totaal / 3B geactiveerde parameters) en pre-trainen op 1.4T tokens, waarbij AttnRes PreNorm-verdunning vermindert, wat resulteert in uniformere uitvoergrootten en gradiëntverdeling over de diepte, en de downstream-prestaties verbetert voor alle geëvalueerde taken.
Wij presenteren HSImul3R, een uniform raamwerk voor simulatie-klare 3D-reconstructie van mens-scène-interacties (HSI) vanuit informele opnames, zoals beelden met weinig gezichtspunten en monovideo's. Bestaande methoden kampen met een perceptie-simulatiekloof: visueel plausibele reconstructies overtreden vaak fysieke beperkingen, wat leidt tot instabiliteit in physics engines en falen in embodied AI-toepassingen. Om deze kloof te overbruggen, introduceren we een fysiek onderbouwde bidirectionele optimalisatiepijplijn die de physics simulator als actieve supervisor gebruikt om menselijke dynamica en scènegeometrie gezamenlijk te verfijnen. In de voorwaartse richting gebruiken we Scene-targeted Reinforcement Learning om menselijke beweging te optimaliseren onder dubbele supervisie van bewegingsnauwkeurigheid en contactstabiliteit. In de omgekeerde richting stellen we Direct Simulation Reward Optimization voor, dat simulatiefeedback over gravitationele stabiliteit en interactiesucces benut om de scènegeometrie te verfijnen. Verder presenteren we HSIBench, een nieuwe benchmark met diverse objecten en interactiescenario's. Uitgebreide experimenten tonen aan dat HSImul3R de eerste stabiele, simulatie-klare HSI-reconstructies produceert en direct kan worden ingezet voor humanoïde robots in de echte wereld.
Stel je voor dat een wereldsimulatiemodel niet een verzonnen omgeving weergeeft, maar een stad die daadwerkelijk bestaat. Bestaande generatieve wereldmodellen synthetiseren visueel geloofwaardige, maar kunstmatige omgevingen door alle inhoud te verbeelden. Wij presenteren het Seoul World Model (SWM), een wereldmodel op stadschaal dat is verankerd in de echte stad Seoul. SWM verankert autoregressieve videogeneratie door retrieval-augmented conditionering op nabije street-view-beelden. Dit ontwerp brengt echter verschillende uitdagingen met zich mee, waaronder temporele misalignering tussen opgehaalde referenties en de dynamische doelscène, beperkte trajectdiversiteit en datasparsity door vanaf voertuigen gemaakte opnames met grote tussenpozen. Wij pakken deze uitdagingen aan via cross-temporele koppeling, een grootschalige synthetische dataset die diverse cameratrajecten mogelijk maakt, en een view-interpolatiepijplijn die coherente trainingsvideo's synthetiseert uit schaarse street-view-beelden. Verder introduceren we een Virtual Lookahead Sink om de generatie op lange termijn te stabiliseren door elk segment continu opnieuw te verankeren aan een opgehaald beeld op een toekomstige locatie. We evalueren SWM tegen recente videowereldmodellen in drie steden: Seoul, Busan en Ann Arbor. SWM overtreft bestaande methoden in het genereren van ruimtelijk getrouwe, temporeel consistente video's op lange termijn, verankerd in werkelijke stedelijke omgevingen over trajecten van honderden meters, terwijl het diverse camerabewegingen en tekstgeprompte scenario-variaties ondersteunt.
Grote taalmodellen verschuiven van passieve informatieverstrekkers naar actieve agents die bedoeld zijn voor complexe workflows. Hun inzet als betrouwbare AI-werkers in bedrijfsomgevingen wordt echter belemmerd door benchmarks die de complexiteit van professionele omgevingen niet weergeven, met name de behoefte aan planning op de lange termijn te midden van aanhoudende statuswijzigingen en strikte toegangsprotocollen. In dit werk introduceren we EnterpriseOps-Gym, een benchmark die is ontworpen om agent-gebaseerde planning in realistische bedrijfsomgevingen te evalueren. Specifiek kenmerkt EnterpriseOps-Gym zich door een gecontaineriseerde sandbox met 164 databasetabellen en 512 functionele tools om zoekfrictie uit de echte wereld na te bootsen. Binnen deze omgeving worden agents geëvalueerd op 1.150 door experts samengestelde taken, verspreid over acht kritieke bedrijfsdomeinen (waaronder Klantenservice, HR en IT). Onze evaluatie van 14 toonaangevende modellen onthult kritieke beperkingen in de huidige state-of-the-art modellen: het best presterende Claude Opus 4.5 behaalt slechts een slagingspercentage van 37,4%. Verdere analyse toont aan dat het verstrekken van 'oracle' menselijke plannen de prestaties met 14-35 procentpunten verbetert, wat strategisch redeneren aanwijst als de primaire bottleneck. Daarnaast slagen agents er vaak niet in om onuitvoerbare taken te weigeren (het beste model behaalt 53,9%), wat leidt tot onbedoelde en potentieel schadelijke neveneffecten. Onze bevindingen benadrukken dat huidige agents nog niet klaar zijn voor autonome inzet in bedrijven. In bredere zin biedt EnterpriseOps-Gym een concrete testomgeving om de robuustheid van agent-gebaseerde planning in professionele workflows te verbeteren.
Diepgaande zoekcapaciteiten zijn een onmisbare competentie geworden voor geavanceerde Large Language Model (LLM)-agenten, maar de ontwikkeling van hoogwaardige zoekagenten wordt nog steeds gedomineerd door industriële giganten vanwege een gebrek aan transparante, hoogwaardige trainingsdata. Deze aanhoudende dataschaarste heeft de vooruitgang van de bredere onderzoeksgemeenschap fundamenteel belemmerd bij het ontwikkelen en innoveren op dit gebied. Om deze kloof te overbruggen, introduceren we OpenSeeker, de eerste volledig open-source zoekagent (d.w.z. model en data) die prestaties op topniveau bereikt door twee technische innovaties: (1) Feitgebaseerde schaalbare beheerbare QA-synthese, die de webgrafiek reverse-engineert via topologische expansie en entiteitsvervaging om complexe, multi-hop redeneertaken te genereren met beheerbare dekking en complexiteit. (2) Gedenoiseerde traject synthese, die een retrospectief samenvattingsmechanisme gebruikt om het traject te denoiseren, waardoor teacher-LLM's worden gestimuleerd om hoogwaardige acties te genereren. Experimentele resultaten tonen aan dat OpenSeeker, getraind (in één enkele trainingsrun) op slechts 11.7k gesynthetiseerde samples, state-of-the-art prestaties behaalt op meerdere benchmarks, waaronder BrowseComp, BrowseComp-ZH, xbench-DeepSearch en WideSearch. Opmerkelijk is dat OpenSeeker, getraind met eenvoudige SFT, de op een na beste volledig open-source agent DeepDive significant overtreft (bijv. 29.5% vs. 15.3% op BrowseComp), en zelfs industriële concurrenten zoals Tongyi DeepResearch (getraind via uitgebreide continue pre-training, SFT en RL) overstijgt op BrowseComp-ZH (48.4% vs. 46.7%). We stellen de complete trainingsdataset en de modelgewichten volledig open-source om onderzoek naar geavanceerde zoekagenten te democratiseren en een transparanter, collaboratiever ecosysteem te bevorderen.
Het schalen van de diepte is een cruciale drijvende kracht voor grote taalmodellen (LLM's). Toch kampen LLM's naarmate ze dieper worden vaak met signaaldegradatie: informatieve kenmerken die in ondiepe lagen worden gevormd, worden geleidelijk verdund door herhaalde residuele updates, waardoor ze moeilijker te herstellen zijn in diepere lagen. Wij introduceren mixture-of-depths attention (MoDA), een mechanisme dat elke aandachtskop in staat stelt om aandacht te schenken aan KV-paren van de sequentie in de huidige laag en aan KV-paren van de diepte uit voorgaande lagen. Verder beschrijven we een hardware-efficiënt algoritme voor MoDA dat niet-aaneengesloten geheugentoegangspatronen oplost, waarmee 97,3% van de efficiëntie van FlashAttention-2 wordt bereikt bij een sequentielengte van 64K. Experimenten met modellen van 1,5B parameters tonen aan dat MoDA consequent sterke baseline-modellen overtreft. Opmerkelijk is dat het de gemiddelde perplexiteit met 0,2 verbetert over 10 validatiebenchmarks en de gemiddelde prestaties met 2,11% verhoogt op 10 downstreamtaken, met een verwaarloosbare rekenkostenoverhead van 3,7% FLOPs. We stellen ook vast dat de combinatie van MoDA met post-norm betere prestaties oplevert dan het gebruik ervan met pre-norm. Deze resultaten suggereren dat MoDA een veelbelovend primitief is voor het schalen van diepte. De code is vrijgegeven op https://github.com/hustvl/MoDA.
Er zijn talloze pogingen gedaan om op kwadratische aandacht gebaseerde large language models (LLM's) te destilleren tot sub-kwadratische, gelineariseerde architecturen. Desondanks slagen dergelijke gedistilleerde modellen, ondanks uitgebreid onderzoek, vaak niet om de prestaties van hun teacher-LLM's op diverse downstream-taken te evenaren. Wij stellen ons ten doel om verliesvrije distillatie te bereiken, wat wij definiëren in termen van tolerantie-gecorrigeerde Win-and-Tie percentages tussen student en teacher op sets van taken. Hiertoe introduceren wij een effectieve distillatiepijplijn voor op xLSTM gebaseerde studentmodellen. Wij stellen een extra merge-fase voor, waarin individueel gelineariseerde experts worden gecombineerd tot één enkel model. Wij tonen de effectiviteit van deze pijplijn aan door basis- en instruction-tuned modellen te distilleren uit de Llama-, Qwen- en Olmo-families. In veel gevallen halen onze op xLSTM gebaseerde studentmodellen het grootste deel van de prestaties van de teacher terug, en overtreffen deze zelfs op sommige downstream-taken. Onze bijdragen vormen een belangrijke stap in de richting van energiezuinigere en kosteneffectievere vervangers voor op transformers gebaseerde LLM's.
Vision-Language Models (VLMs) vertonen vaak "hallucinaties" - ze genereren plausibel klinkende maar feitelijk onjuiste uitspraken - wat een kritieke belemmering vormt voor hun betrouwbare inzet. In dit werk stellen we een nieuw paradigma voor voor het diagnosticeren van hallucinaties, waarbij we ze herformuleren van statische outputfouten naar dynamische pathologieën van de computationele cognitie van een model. Ons raamwerk is gegrondvest in een normatief principe van computationele rationaliteit, waardoor we de generatie van een VLM kunnen modelleren als een dynamische cognitieve trajectorie. We ontwerpen een reeks informatie-theoretische probes die dit traject projecteren op een interpreteerbare, laagdimensionale Cognitieve Toestandsruimte. Onze centrale ontdekking is een sturend principe dat we de *geometrisch-informationele dualiteit* noemen: de geometrische abnormaliteit van een cognitief traject binnen deze ruimte is fundamenteel equivalent aan zijn hoge informatie-theoretische verrassingswaarde. Hallucinatiedetectie wordt hierdoor een probleem van geometrische anomaliedetectie. Geëvalueerd in diverse settings - van rigoureuze binaire vraag-antwoordtaken (POPE) en uitgebreid redeneren (MME) tot onbeperkte open-einde bijschrijving (MS-COCO) - behaalt ons raamwerk state-of-the-art prestaties. Cruciaal is dat het zeer efficiënt opereert onder zwak toezicht en zeer robuust blijft, zelfs wanneer kalibratiedata sterk verontreinigd is. Deze aanpak maakt een causale toeschrijving van fouten mogelijk, waarbij waarneembare fouten worden gemapt naar verschillende pathologische toestanden: perceptuele instabiliteit (gemeten door Perceptuele Entropie), logisch-causaal falen (gemeten door Inferentieel Conflict) en beslissingsambiguïteit (gemeten door Beslissingsentropie). Uiteindelijk opent dit een weg naar het bouwen van AI-systemen waarvan de redenering van ontwerp af aan transparant, controleerbaar en diagnoseerbaar is.
Het trainen van autonome webagentschappen wordt fundamenteel beperkt door de omgevingen waarvan ze leren: echte websites zijn onveilig om te verkennen, moeilijk te resetten en bieden zelden verifieerbare feedback. Wij stellen VeriEnv voor, een raamwerk dat taalmodellen beschouwt als omgevingscreators, dat automatisch echte websites kloont in volledig uitvoerbare, verifieerbare synthetische omgevingen. Door gecontroleerde interne toegang bloot te leggen via een Python-SDK, stelt VeriEnv agentschappen in staat om zelf taken te genereren met deterministische, programmeerbaar verifieerbare beloningen, waardoor de afhankelijkheid van heuristische of op LLM gebaseerde beoordelaars wordt geëlimineerd. Dit ontwerp ontkoppelt het leren van agentschappen van onveilige interactie in de echte wereld, terwijl schaalbare zelf-evolutie mogelijk wordt gemaakt door omgevingsexpansie. Via experimenten met webagentbenchmarks tonen we aan dat met VeriEnv getrainde agentschappen generaliseren naar onbekende websites, sitespecifieke beheersing bereiken door zelf-evoluerende training en profiteren van het schalen van het aantal trainingsomgevingen. Code en bronnen worden vrijgegeven op https://github.com/kyle8581/VeriEnv na acceptatie.
Diffusion Transformers (DiTs) hebben opmerkelijke schaalbaarheid en kwaliteit getoond bij de generatie van afbeeldingen en video's, wat een groeiende interesse heeft gewekt om ze uit te breiden naar beheerbare generatie- en bewerkingstaken. In vergelijking met hun tegenhangers voor afbeeldingen blijft de vooruitgang op het gebied van videocontrole en -bewerking echter beperkt, voornamelijk vanwege de schaarste aan gepaarde videogegevens en de hoge rekenkosten van het trainen van videodiffusiemodellen. Om dit probleem aan te pakken, stellen we in dit artikel een videovrij afstembare framework voor, genaamd ViFeEdit, voor videodiffusietransformers. Zonder enige vorm van videotrainingsgegevens nodig te hebben, bereikt ViFeEdit veelzijdige videogeneratie en -bewerking, uitsluitend aangepast met 2D-afbeeldingen. De kern van onze aanpak is een architecturale herparameterisatie die ruimtelijke onafhankelijkheid ontkoppelt van de volledige 3D-aandacht in moderne videodiffusietransformers. Dit maakt visueel getrouwe bewerking mogelijk met behoud van temporele consistentie, met slechts minimale extra parameters. Bovendien werkt dit ontwerp in een dual-path pijplijn met gescheiden tijdstap-embeddingen voor ruisplanning, wat een sterke aanpassingsvermogen vertoont aan diverse conditioneringssignalen. Uitgebreide experimenten tonen aan dat onze methode veelbelovende resultaten oplevert voor beheerbare videogeneratie en -bewerking met slechts minimale training op 2D-afbeeldingsgegevens. Code is beschikbaar op https://github.com/Lexie-YU/ViFeEdit.
Het optimaliseren van complexe systemen, variërend van LLM-prompts tot multi-turn agents, vereist traditioneel arbeidsintensieve, handmatige iteratie. Wij formaliseren deze uitdaging als een stochastisch generatief optimalisatieprobleem waarbij een generatief taalmodel fungeert als optimizer, geleid door numerieke beloningen en tekstfeedback om het beste systeem te ontdekken. Wij introduceren Prioritized Optimization with Local Contextual Aggregation (POLCA), een schaalbaar raamwerk ontworpen om stochasticiteit in optimalisatie te hanteren – zoals ruisrijke feedback, steekproefgewijze minibatches en stochastisch systeemgedrag – en tegelijkertijd de onbeperkte uitbreiding van de oplossingsruimte effectief te beheren. POLCA houdt een prioriteitswachtrij bij om de afweging tussen exploratie en exploitatie te beheren, en volgt kandidaat-oplossingen en hun evaluatiegeschiedenis systematisch. Om de efficiëntie te vergroten, integreren we een ε-netmechanisme om parameterdiversiteit te behouden en een LLM-samenvatter om meta-leren uit te voeren over historische trials. Wij bewijzen theoretisch dat POLCA convergeert naar bijna-optimale kandidaat-oplossingen onder stochasticiteit. Wij evalueren ons raamwerk op diverse benchmarks, waaronder τ-bench, HotpotQA (agentoptimalisatie), VeriBench (codetranslatie) en KernelBench (CUDA-kernelgeneratie). Experimentele resultaten tonen aan dat POLCA robuuste, sample- en tijd-efficiënte prestaties bereikt, en consequent state-of-the-art-algoritmen overtreft in zowel deterministische als stochastische problemen. De codebase voor dit werk is publiekelijk beschikbaar op https://github.com/rlx-lab/POLCA.
Met de toenemende inzet van AI-agenten als langlopende systemen wordt het essentieel om autonoom software op maat te construeren en continu te laten evolueren voor interactie in dynamische omgevingen. Toch evalueren bestaande benchmarks agenten op geïsoleerde, eenmalige programmeertaken, waarbij de temporele afhankelijkheden en technische schuld die inherent zijn aan echte software-evolutie worden verwaarloosd. Om deze kloof te overbruggen, introduceren we DeepCommit: een agent-gebaseerde pijplijn die verifieerbare mijlpaal-DAG’s reconstrueert uit ruize commit-logs, waarbij mijlpalen worden gedefinieerd als semantisch samenhangende ontwikkelingsdoelen. Deze uitvoerbare sequenties maken EvoClaw mogelijk, een nieuwe benchmark die van agenten vereist dat ze de systeemintegriteit handhaven en foutaccumulatie beperken – dimensies van langetermijnsoftware-evolutie die grotendeels ontbreken in huidige benchmarks. Onze evaluatie van 12 frontier-modellen verspreid over 4 agent-frameworks onthult een kritieke kwetsbaarheid: de algehele prestatiescore daalt significant van >80% op geïsoleerde taken tot maximaal 38% in continue settings, wat de diepe worsteling van agenten met langdurig onderhoud en foutpropagatie blootlegt.
Bestaande benchmarks voor webgeneratie maken gebruik van tekstprompts of statische schermafbeeldingen als invoer. Video's brengen echter van nature rijkere signalen over, zoals interactieflow, overgangstiming en bewegingscontinuïteit, die essentieel zijn voor getrouwe webpaginarecreatie. Ondanks dit potentieel blijft webpagina-generatie op basis van video-input grotendeels onontgonnen, zonder toegewijde benchmark voor deze taak. Om deze leemte op te vullen, introduceren we WebVR, een benchmark die evalueert of MLLM's webpagina's getrouw kunnen recreëren op basis van demonstratievideo's. WebVR bevat 175 webpagina's uit diverse categorieën, allemaal geconstrueerd via een gecontroleerde synthese-pipeline in plaats van webcrawling, wat gevarieerde en realistische demonstraties garandeert zonder overlap met bestaande online pagina's. We ontwerpen ook een fijnmazige, op menselijke beoordeling afgestemde visuele rubric die de gegenereerde webpagina's op meerdere dimensies evalueert. Experimenten met 19 modellen tonen aanzienlijke tekortkomingen in het recreëren van fijnmazige stijl en bewegingskwaliteit, terwijl de op rubrics gebaseerde automatische evaluatie 96% overeenstemming met menselijke voorkeuren bereikt. We publiceren de dataset, evaluatietoolkit en basislijresultaten om toekomstig onderzoek naar video-naar-webpagina-generatie te ondersteunen.
Grote Redeneermodellen (LRM's) behalen indrukwekkende prestaties op complexe redeneertaken via Chain-of-Thought (CoT)-redenering, waardoor ze tussenliggende denkstappen kunnen genereren voordat ze tot het definitieve antwoord komen. LRM's hebben echter vaak last van significant *overthinking*, waarbij ze excessieve rekentijd besteden, zelfs nadat het antwoord reeds vroegtijdig is gegenereerd. Eerder onderzoek heeft het bestaan geïdentificeerd van een optimale redeneerlengte, zodanig dat het afkappen van de redenering op dit punt de CoT-uitvoer aanzienlijk verkort met vrijwel geen verandering in prestaties. Het bepalen van optimale CoT-lengtes voor praktische datasets is echter hoogst niet-triviaal, aangezien deze volledig taak- en modelafhankelijk zijn. In dit artikel pakken we dit precies aan en ontwerpen we TERMINATOR, een *early-exit*-strategie voor LRM's tijdens de inferentie om *overthinking* te verminderen. Het centrale idee achter TERMINATOR is dat de eerste verschijning van het definitieve antwoord van een LRM vaak voorspelbaar is, en we benutten deze eerste antwoordposities om een nieuwe dataset van optimale redeneerlengtes te creëren om TERMINATOR te trainen. Dankzij deze aanpak bereikt TERMINATOR significante verkortingen van de CoT-lengtes met gemiddeld 14%-55% op vier uitdagende praktische datasets: MATH-500, AIME 2025, HumanEval en GPQA, terwijl het tegelijkertijd de huidige state-of-the-art methoden overtreft.
Motivatie is een centrale drijver van menselijk gedrag, die beslissingen, doelen en taakprestaties vormgeeft. Naarmate grote taalmmodellen (LLM's) steeds meer afgestemd raken op menselijke voorkeuren, vragen wij ons af of zij iets vertonen dat vergelijkbaar is met motivatie. Wij onderzoeken of LLM's verschillende niveaus van motivatie "rapporteren", hoe deze rapportages zich verhouden tot hun gedrag, en of externe factoren hierop invloed kunnen uitoefenen. Onze experimenten onthullen consistente en gestructureerde patronen die de menselijke psychologie weerspiegelen: zelfgerapporteerde motivatie komt overeen met verschillende gedragssignaturen, varieert per taaktype en kan worden beïnvloed door externe manipulaties. Deze bevindingen tonen aan dat motivatie een coherent organiserend construct is voor LLM-gedrag, waarbij rapportages, keuzes, inspanning en prestaties systematisch met elkaar verbonden worden, en waarbij motivationele dynamieken zichtbaar worden die lijken op die welke in de menselijke psychologie zijn gedocumenteerd. Dit perspectief verdiept ons inzicht in modelgedrag en de verbinding daarvan met door de mens geïnspireerde concepten.
Alle classificatoren, inclusief state-of-the-art visionmodellen, bezitten invarianten, die deels geworteld zijn in de geometrie van hun lineaire afbeeldingen. Deze invarianten, die zich in de nulruimte van de classificator bevinden, induceren equivalente sets van invoerwaarden die naar identieke uitvoerwaarden worden afgebeeld. De semantische inhoud van deze invarianten blijft vaag, omdat bestaande benaderingen moeite hebben om voor mensen interpreteerbare informatie te verschaffen. Om dit hiaat aan te pakken, presenteren wij Semantische Interpretatie van de Nulruimte-geometrie (SING), een methode die equivalente afbeeldingen, met betrekking tot het netwerk, construeert en semantische interpretaties toekent aan de beschikbare variaties. Wij gebruiken een afbeelding van netwerkkenmerken naar multimodale vision-taalmodellen. Hierdoor kunnen wij natuurlijke-taalbeschrijvingen en visuele voorbeelden verkrijgen van de geïnduceerde semantische verschuivingen. SING kan worden toegepast op een enkele afbeelding, om lokale invarianten bloot te leggen, of op sets van afbeeldingen, wat een breed scala aan statistische analyses op klasse- en modelniveau mogelijk maakt. Onze methode laat bijvoorbeeld zien dat ResNet50 relevante semantische attributen naar de nulruimte lekt, terwijl DinoViT, een ViT vooraf getraind met zelfgesuperviseerde DINO, superieur is in het behoud van klassesemantiek over de invariante ruimte.
Multimodale Large Language Models (MLLM's) tonen sterke prestaties in visueel en auditief begrip wanneer ze geïsoleerd worden geëvalueerd. Hun vermogen om gezamenlijk te redeneren over omni-modale (visuele, auditieve en tekstuele) signalen in lange en complexe video's blijft echter grotendeels onontgonnen. Wij introduceren MMOU, een nieuwe benchmark die is ontworpen om multimodaal begrip en redeneren systematisch te evalueren onder deze uitdagende, real-world omstandigheden. MMOU bestaat uit 15.000 zorgvuldig samengestelde vragen, gekoppeld aan 9038 webverzamelde video's van uiteenlopende lengte, die diverse domeinen beslaan en rijke, nauw verbonden audiovisuele inhoud vertonen. De benchmark omvat 13 fundamentele vaardigheidscategorieën, die allemaal integratie van bewijs over modaliteiten en tijd heen vereisen. Alle vragen zijn handmatig geannoteerd over meerdere beurten door professionele annotators, wat een hoge kwaliteit en redeneertrouw garandeert. Wij evalueren 20+ state-of-the-art open-source en propriëtaire multimodale modellen op MMOU. De resultaten leggen aanzienlijke prestatiekloof bloot: het beste closed-source model behaalt slechts 64,2% nauwkeurigheid, terwijl het sterkste open-source model slechts 46,8% bereikt. Onze resultaten benadrukken de uitdagingen van langdurig omni-modale begrip, en onthullen dat huidige modellen er vaak niet in slagen zelfs fundamentele vaardigheden in lange video's toe te passen. Via gedetailleerde analyse identificeren wij verder systematische faalwijzen en bieden wij inzichten in waar en waarom huidige modellen falen.
LLM's vertonen vaak Aha-momenten tijdens redeneren, zoals schijnbare zelfcorrectie na tokens als "Wacht", maar hun onderliggende mechanismen blijven onduidelijk. Wij introduceren een informatie-theoretisch kader dat redeneren ontleedt in procedurele informatie en epistemische verbalisatie - de expliciete externalisatie van onzekerheid die stroomafwaartse controleacties ondersteunt. Wij tonen aan dat puur procedureel redeneren informationeel stagneert, terwijl epistemische verbalisatie voortgezette informatieverwerving mogelijk maakt en cruciaal is voor het bereiken van informatievoldoendeheid. Empirische resultaten tonen aan dat sterke redeneerprestaties worden gedreven door onzekerheidsexternalisatie in plaats van specifieke oppervlaktetokens. Ons kader verenigt eerdere bevindingen over Aha-momenten en post-trainingsexperimenten, en biedt inzichten voor toekomstig redeneermodelontwerp.
Bewegingsgeneratie voor mensen wordt vaak geleerd in Euclidische ruimten, hoewel geldige bewegingen een gestructureerde niet-Euclidische geometrie volgen. Wij presenteren Riemanniaanse Bewegingsgeneratie (RMG), een uniform raamwerk dat beweging representeert op een productvariëteit en dynamica leert via Riemanniaanse flow matching. RMG factoriseert beweging in verschillende variëteitsfactoren, wat resulteert in een schaalvrije representatie met intrinsieke normalisatie, en gebruikt geodetische interpolatie, raakruimtesupervisie en variëteitsbehoudende ODE-integratie voor training en sampling. Op HumanML3D behaalt RMG state-of-the-art FID in het HumanML3D-formaat (0.043) en scoort het eerste op alle gerapporteerde metrieken onder het MotionStreamer-formaat. Op MotionMillion overtreft het eveneens sterke baseline-methoden (FID 5.6, R@1 0.86). Ablatiestudies tonen aan dat de compacte T+R (translatie + rotaties) representatie het meest stabiel en effectief is, wat geometriebewust modelleren benadrukt als een praktische en schaalbare route naar hoogwaardige bewegingsgeneratie.
Versterkend leren voor codegeneratie is afhankelijk van verifieerbare beloningen op basis van de slagingspercentages van unittests. Toch zijn hoogwaardige testsuites schaars, bestaande datasets bieden beperkte dekking, en statische beloningen passen zich niet aan wanneer modellen verbeteren. Recente zelfspeelmethoden verenigen code- en testgeneratie in één model, maar kampen met een inherent dilemma: white-box toegang leidt tot zelfcollusie, waarbij het model triviale tests produceert voor eenvoudige beloningen, terwijl black-box restrictie generieke tests oplevert die implementatiespecifieke bugs missen. Wij introduceren Code-A1, een adversariaal co-evolutiekader dat gezamenlijk een Code-LLM en een Test-LLM optimaliseert met tegenstrijdige doelstellingen. De Code-LLM wordt beloond voor het slagen voor meer tests, terwijl de Test-LLM wordt beloond voor het blootleggen van meer defecten. Deze architecturale scheiding elimineert zelfcollusierisico's en maakt white-box testgeneratie veilig mogelijk, waarbij de Test-LLM kandidaatcode kan inspecteren om gerichte adversariële tests te ontwerpen. Wij introduceren verder een Foutenboek-mechanisme voor ervaringsherhaling en een samengestelde beloning die testvaliditeit balanceert met adversariële moeilijkheidsgraad. Experimenten met Qwen2.5-Coder-modellen tonen aan dat Code-A1 codegeneratieprestaties bereikt die gelijk zijn aan of beter dan modellen getraind op door mensen geannoteerde tests, terwijl de testgeneratiecapaciteit aanzienlijk verbetert.
Voorgetrainde grote taalmodellen (LLM's) vertonen brede capaciteiten, maar voor specifieke taken of domeinen is het bereiken van hogere nauwkeurigheid en betrouwbaarder redeneren over het algemeen afhankelijk van nabewerking via Supervised Fine-Tuning (SFT) of Reinforcement Learning (RL). Hoewel ze vaak als afzonderlijke methodologieën worden beschouwd, tonen recente theoretische en empirische ontwikkelingen aan dat SFT en RL nauw met elkaar verbonden zijn. Deze studie presenteert een uitgebreid en verenigd perspectief op LLM-nabewerking met SFT en RL. We geven eerst een diepgaand overzicht van beide technieken, waarbij we hun doelstellingen, algoritmische structuren en gegevensvereisten onderzoeken. Vervolgens analyseren we systematisch hun wisselwerking, waarbij we kaders belichten die SFT en RL integreren, hybride trainingspijplijnen en methoden die hun complementaire sterke punten benutten. Op basis van een representatieve reeks recente toepassingsstudies van 2023 tot 2025 identificeren we opkomende trends, karakteriseren we de snelle verschuiving naar hybride nabewerkingparadigma's en destilleren we belangrijke inzichten die verduidelijken wanneer en waarom elke methode het meest effectief is. Door theoretische inzichten, praktische methodologieën en empirisch bewijs te synthetiseren, vestigt deze studie een coherent begrip van SFT en RL binnen een verenigd kader en schetst het veelbelovende richtingen voor toekomstig onderzoek naar schaalbare, efficiënte en generaliseerbare LLM-nabewerking.
Wij presenteren de PokeAgent Challenge, een grootschalige benchmark voor onderzoek naar besluitvorming, gebouwd op Pokémon's multi-agent gevechtssysteem en uitgebreide role-playing game (RPG)-omgeving. Partiële observeerbaarheid, speltheoretisch redeneren en planning over een lange horizon blijven open problemen voor frontier AI, maar weinig benchmarks belasten alle drie tegelijkertijd onder realistische omstandigheden. PokeAgent richt zich op deze beperkingen op schaal via twee complementaire tracks: onze Battling Track, die vraagt om strategisch redeneren en generalisatie onder partiële observeerbaarheid in competitieve Pokémon-gevechten, en onze Speedrunning Track, die planning over een lange horizon en sequentiële besluitvorming vereist in de Pokémon-RPG. Onze Battling Track biedt een dataset van meer dan 20 miljoen gevechtstrajecten naast een reeks heuristische, op reinforcement learning (RL) en op large language models (LLM's) gebaseerde baselines die tot hoog competitief spel in staat zijn. Onze Speedrunning Track biedt het eerste gestandaardiseerde evaluatieraamwerk voor RPG-speedrunning, inclusief een open-source multi-agent orchestratiesysteem voor modulaire, reproduceerbare vergelijkingen van op harness-gebaseerde LLM-benaderingen. Onze NeurIPS 2025-competitie valideert zowel de kwaliteit van onze middelen als de interesse van de onderzoeksgemeenschap in Pokémon, met meer dan 100 teams die aan beide tracks deelnamen en winnende oplossingen gedetailleerd in ons artikel. Inzendingen van deelnemers en onze baselines tonen aanzienlijke hiaten aan tussen generalistische (LLM), gespecialiseerde (RL) en elite menselijke prestaties. Analyse tegen de BenchPress-evaluatiematrix toont aan dat Pokémon-gevechten bijna orthogonaal zijn aan standaard LLM-benchmarks, waarbij ze capaciteiten meten die niet worden vastgelegd door bestaande suites en Pokémon positioneren als een onopgeloste benchmark die RL- en LLM-onderzoek vooruit kan helpen. Wij transitioneren naar een levende benchmark met een live leaderboard voor Battling en zelfstandige evaluatie voor Speedrunning op https://pokeagentchallenge.com.
Zoals onthuld door de schaalwet van fijnkorrelige MoE, verbetert de modelprestatie niet meer zodra de granulariteit van de tussenliggende dimensie de optimale drempel overschrijdt, wat verdere winst uit enkelvoudige-dimensie fijnkorrelige ontwerpen beperkt. Om dit knelpunt aan te pakken, stellen wij FineRMoE voor (FineR-Grained MoE), een architectuur die het fijnkorrelige expertontwerp uitbreidt naar zowel de tussenliggende als de uitvoerdimensies, met als doel de expertspecialisatie voorbij de enkelvoudige-dimensie limiet te verbeteren. Wij introduceren verder een tweedelig spaarzaam voorwaarts rekenparadigma en een gespecialiseerd routeringsmechanisme om de activering te sturen. Daarnaast ontwikkelen wij, om de buitensporige kosten van het vanaf nul trainen van FineRMoE te vermijden, een gegeneraliseerde *upcycling*-methode om FineRMoE op een kosteneffectieve manier op te bouwen. Uitgebreide experimenten tonen de superieure prestaties aan die door FineRMoE worden behaald op tien standaardbenchmarks. In vergelijking met de sterkste baseline bereikt FineRMoE 6 keer hogere parameter efficiëntie, 281 keer lagere *prefill*-latentie en 136 keer hogere *decoding*-doorvoer tijdens inferentie.
Affordantievoorspelling fungeert als een cruciale brug tussen perceptie en actie in belichaamde AI. Bestaand onderzoek is echter beperkt tot pinhole-cameramodellen, die kampen met een smal gezichtsveld (Field of View, FoV) en gefragmenteerde waarnemingen, waarbij vaak de kritieke holistische context van de omgeving ontbreekt. In dit artikel presenteren we de eerste verkenning van Panoramische Affordantievoorspelling, waarbij we 360-graden beelden gebruiken om globale ruimtelijke relaties en een holistisch begrip van de scène vast te leggen. Om deze nieuwe taak mogelijk te maken, introduceren we eerst PAP-12K, een grootschalige benchmarkdataset met meer dan 1.000 ultrahoogresolutie (12k, 11904 x 5952) panoramische afbeeldingen, voorzien van meer dan 12.000 zorgvuldig geannoteerde QA-paren en affordantiemaskers. Verder stellen we PAP voor, een trainingsvrije, coarse-to-fine pijplijn, geïnspireerd op het menselijke foveale visuele systeem, om de inherente uitdagingen van ultrahoogresolutie en ernstige vervorming in panoramische beelden aan te pakken. PAP gebruikt recursieve visuele routing via grid prompting om doelen progressief te lokaliseren, past een adaptief gaze-mechanisme toe om lokale geometrische vervormingen te corrigeren, en benut een cascade-grounding pijplijn om precieze instantieniveau maskers te extraheren. Experimentele resultaten op PAP-12K tonen aan dat bestaande affordantievoorspellingsmethoden, ontworpen voor standaard perspectiefbeelden, ernstige prestatievermindering ondervinden en falen door de unieke uitdagingen van panoramisch zicht. Daarentegen overwint het PAP-raamwerk deze obstakels effectief, presteert het significant beter dan state-of-the-art baseline-methoden en benadrukt het het immense potentieel van panoramische perceptie voor robuuste belichaamde intelligentie.
Na grote vooruitgang in tekst- en beeldgeneratie is het videodomein in een stroomversnelling geraakt, waarbij hoogst realistische en bestuurbare sequenties worden geproduceerd. Samen met deze vooruitgang roepen deze modellen ook ernstige zorgen op over desinformatie, waardoor betrouwbare detectie van synthetische video's steeds crucialer wordt. Op afbeeldingen gebaseerde detectoren zijn fundamenteel beperkt omdat ze per frame werken en temporele dynamiek negeren, terwijl gesuperviseerde videodetectors zich slecht generaliseren naar onbekende generators – een kritiek nadeel gezien de snelle opkomst van nieuwe modellen. Deze uitdagingen motiveren zero-shot-benaderingen, die synthetische data vermijden en in plaats daarvan content scoren tegen statistieken van echte data, waardoor training-vrije, model-agnostische detectie mogelijk wordt. Wij introduceren STALL, een eenvoudige, training-vrije, theoretisch onderbouwde detector die op waarschijnlijkheid gebaseerde scoring voor video's biedt, waarbij ruimtelijk en temporeel bewijs gezamenlijk worden gemodelleerd binnen een probabilistisch kader. We evalueren STALL op twee publieke benchmarks en introduceren ComGenVid, een nieuwe benchmark met state-of-the-art generatieve modellen. STALL presteert consistent beter dan eerdere op afbeeldingen en video's gebaseerde basislijnen. Code en data zijn beschikbaar op https://omerbenhayun.github.io/stall-video.
Enkelbeeld-relichting is sterk onderbepaald: kleine belichtingsveranderingen kunnen grote, niet-lineaire variaties in schaduw, schaduwen en spiegelingen veroorzaken, terwijl geometrie en materialen niet worden waargenomen. Bestaande op diffusie gebaseerde methoden zijn ofwel afhankelijk van intrinseke of G-buffer-pipelines die dichte en kwetsbare supervisie vereisen, of opereren puur in de latente ruimte zonder fysieke onderbouwing, waardoor fijnmazige controle over richting, intensiteit en kleur onbetrouwbaar wordt. Wij observeren dat een volledige intrinseke decompositie onnodig en redundant is voor accurate relichting. In plaats daarvan zijn spaarzame maar fysiek betekenisvolle aanwijzingen, die aangeven waar belichting moet veranderen en hoe materialen moeten reageren, voldoende om een diffusiemodel te sturen. Gebaseerd op dit inzicht introduceren wij LightCtrl, dat fysieke priors op twee niveaus integreert: een few-shot latent proxy-encoder die compacte materiaal-geometrie-aanwijzingen extraheert uit beperkte PBR-supervisie, en een lichtbewuste masker dat gevoelige belichtingsregio's identificeert en de denoiser naar relevante schaduwpixels stuurt. Om schaarse PBR-data te compenseren, verfijnen we de proxy-tak met een op DPO gebaseerd doel dat fysieke consistentie in de voorspelde aanwijzingen afdwingt. Wij presenteren ook ScaLight, een grootschalige object-level dataset met systematisch gevarieerde belichting en complete camera-licht-metadata, waardoor fysiek consistente en controleerbare training mogelijk wordt. Op object- en scèneniveau benchmarks bereikt onze methode fotometrisch getrouwe relichting met accurate continue controle, en overtreft eerdere op diffusie en intrinseke methoden gebaseerde basislijnen, inclusief verbeteringen tot +2.4 dB PSNR en 35% lagere RMSE bij gecontroleerde belichtingsverschuivingen.
Wereldmodellen voor remote sensing streven ernaar zowel waargenomen veranderingen te verklaren als plausibele toekomsten te voorspellen – twee taken die ruimtelijk-temporele precedenten delen. Bestaande methoden pakken deze echter doorgaans afzonderlijk aan, wat de overdracht tussen taken beperkt. Wij presenteren RS-WorldModel, een verenigd wereldmodel voor remote sensing dat ruimtelijk-temporele veranderingsanalyse en tekstgestuurde toekomstscèneverwachting gezamenlijk aanpakt, en we bouwen RSWBench-1.1M, een dataset met 1,1 miljoen samples en rijke taalannotaties die beide taken dekt. RS-WorldModel wordt getraind in drie fasen: (1) Geo-Aware Generative Pre-training (GAGP) conditioneert voorspellingen op geografische en acquisitiemetadata; (2) synergistische instructieafstemming (SIT) traint begrip en voorspelling gezamenlijk; (3) verifieerbare reinforcement-optimalisatie (VRO) verfijnt uitvoeren met verifieerbare, taakspecifieke beloningen. Met slechts 2B parameters overtreft RS-WorldModel open-source modellen die tot 120 keer groter zijn op de meeste ruimtelijk-temporele veranderingsvragenlijstmetrieken. Het behaalt een FID van 43,13 voor tekstgestuurde toekomstscèneverwachting, waarmee het alle open-source referentiemodellen evenals het closed-source Gemini-2.5-Flash Image (Nano Banana) overtreft.
Kan AI vooruitgang boeken op belangrijke, onopgeloste wiskundige problemen? Grote taalmodel(len) zijn nu in staat tot geavanceerd wiskundig en wetenschappelijk redeneren, maar of ze nieuw onderzoek kunnen verrichten wordt nog breed gedebatteerd en is onderbelicht. Wij introduceren HorizonMath, een benchmark met meer dan 100 overwegend onopgeloste problemen uit 8 domeinen in de computationele en toegepaste wiskunde, gekoppeld aan een open-source evaluatieraamwerk voor geautomatiseerde verificatie. Onze benchmark richt zich op een klasse problemen waarbij ontdekking moeilijk is en zinvol wiskundig inzicht vereist, maar verificatie computationeel efficiënt en eenvoudig is. Omdat deze oplossingen onbekend zijn, is HorizonMath immuun voor datacontaminatie, en scoren de meeste state-of-the-art modellen er bijna 0% op. Bestaande benchmarks op onderzoeksniveau vertrouwen daarentegen op formele proof-verificatie of handmatige beoordeling, die beide duur zijn om op te schalen. Met dit platform vinden we twee problemen waarvoor GPT 5.4 Pro oplossingen voorstelt die de beste gepubliceerde resultaten verbeteren, wat mogelijke nieuwe bijdragen vertegenwoordigt (in afwachting van expertbeoordeling). Wij lanceren HorizonMath als een open uitdaging en een groeiende gemeenschapsbron, waarbij correcte oplossingen voor problemen in de onopgeloste probleemklassen nieuwe resultaten in de wiskundige literatuur zouden kunnen vormen.
Videoredenering vereist dat modellen vraagrelevante aanwijzingen kunnen lokaliseren en volgen over verschillende frames heen. Hoewel reinforcement learning (RL) met verifieerbare beloningen de nauwkeurigheid verbetert, worstelt het nog steeds met betrouwbare spatio-temporele grounding tijdens het redeneerproces. Bovendien berust het verbeteren van grounding doorgaans op geschaalde trainingsdata of perceptietools tijdens de inferentie, wat de annotatiekosten of rekenkosten verhoogt. Om deze uitdaging aan te pakken, stellen we VisonCoach voor, een invoer-adaptief RL-raamwerk dat spatio-temporele grounding verbetert door middel van visuele prompting als begeleiding tijdens de training. Tijdens de RL-training worden visuele prompts selectief toegepast op uitdagende invoeren om vraagrelevante aanwijzingen te versterken en afleidingen te onderdrukken. Het model internaliseert deze verbeteringen vervolgens via zelf-distillatie, waardoor het in staat is tot gegronde redenering direct op ruwe video's zonder visuele prompting tijdens de inferentie. VisonCoach bestaat uit twee componenten: (1) een Visuele Prompt Selector, die geschikte prompttypes voorspelt op basis van de video en de vraag, en (2) een Spatio-Temporele Redeneerder, geoptimaliseerd met RL onder begeleiding van visuele prompts en objectbewuste grounding-beloningen die objectidentiteitsconsistentie en overlap van multi-regio bounding boxes afdwingen. Uitgebreide experimenten tonen aan dat VisonCoach state-of-the-art prestaties bereikt in vergelijkbare settings, over diverse videoredenerings-, videobegrips- en temporele grounding-benchmarks (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest en Charades-STA), terwijl het een enkel efficiënt inferietraject aanhoudt zonder externe tools. Onze resultaten laten zien dat visuele prompting tijdens de training gegronde videoredenering verbetert, terwijl zelf-distillatie het model in staat stelt dit vermogen te internaliseren zonder prompts tijdens de inferentie.
Recente vooruitgang in traject-gestuurde videogeneratie heeft opmerkelijke vooruitgang geboekt. Eerdere methoden gebruiken voornamelijk adapter-gebaseerde architecturen voor precieze bewegingscontrole langs vooraf gedefinieerde trajecten. Echter, al deze methoden vertrouwen op een meerstaps denoiseringsproces, wat leidt tot aanzienlijke tijdsredundantie en rekenkosten. Hoewel bestaande videodistillatiemethoden multi-staps generators succesvol distilleren naar few-staps, resulteert een directe toepassing van deze benaderingen op traject-gestuurde videogeneratie in een merkbare achteruitgang in zowel videokwaliteit als trajectnauwkeurigheid. Om deze kloof te overbruggen, introduceren we FlashMotion, een nieuw trainingsraamwerk ontworpen voor few-staps traject-gestuurde videogeneratie. We trainen eerst een trajectadapter op een multi-staps videogenerator voor precieze trajectcontrole. Vervolgens distilleren we de generator naar een few-staps versie om videogeneratie te versnellen. Ten slotte finetunen we de adapter met een hybride strategie die diffusie- en adversariale doelstellingen combineert, om deze af te stemmen op de few-staps generator voor het produceren van hoogwaardige, trajectnauwkeurige video's. Voor evaluatie introduceren we FlashBench, een benchmark voor lange-sequentie traject-gestuurde videogeneratie die zowel videokwaliteit als trajectnauwkeurigheid meet bij variërende aantallen voorgrondobjecten. Experimenten op twee adapter-architecturen tonen aan dat FlashMotion zowel bestaande videodistillatiemethoden als eerdere multi-staps modellen overtreft in zowel visuele kwaliteit als trajectconsistentie.
Recente studies hebben het zogenaamde 'vervloeking van de diepte' in grote taalmodellen (LLM's) aangetoond, waarbij latere lagen minder bijdragen aan het leren en de representatie dan eerdere lagen. Dit onderbenutting wordt in verband gebracht met de opgebouwde toename van variantie in Pre-Layer Normalisatie, wat diepe blokken naar een bijna-identiek gedrag kan drijven. In dit artikel tonen we aan dat sparsity, naast het mogelijk maken van efficiëntie, fungeert als een regulator van variantiepropagatie en daardoor de benutting van de diepte verbetert. Ons onderzoek omvat twee bronnen van sparsity: (i) impliciete sparsity, die voortkomt uit trainings- en datacondities, inclusief gewichtssparsity veroorzaakt door gewichtsverval en attentiesparsity veroorzaakt door lange contextinputs; en (ii) expliciete sparsity, die wordt afgedwongen door architectonisch ontwerp, inclusief key/value-delende sparsity in Grouped-Query Attention en expert-activeringssparsity in Mixture-of-Experts. Onze bewering wordt grondig ondersteund door gecontroleerde diepteschaalexperimenten en gerichte interventies in laageffectiviteit. In alle settings observeren we een consistent verband: sparsity verbetert de laagbenutting door de uitvoervariantie te verminderen en functionele differentiatie te bevorderen. Uiteindelijk distilleren we onze bevindingen in een praktische vuistregel voor het trainen van diepteffectieve LLM's, wat een opmerkelijke nauwkeurigheidsverbetering van 4,6% op downstreamtaken oplevert. Onze resultaten onthullen sparsity, die op natuurlijke wijze ontstaat uit standaard ontwerpkeuzes, als een belangrijke maar voorheen over het hoofd geziene mechanisme voor effectieve diepteschaling in LLM's. Code is beschikbaar op https://github.com/pUmpKin-Co/SparsityAndCoD.
Wij presenteren ScienceClaw + Infinite, een raamwerk voor autonoom wetenschappelijk onderzoek waarin onafhankelijke agents onderzoek verrichten zonder centrale coördinatie, en elke bijdrager nieuwe agents kan inzetten in een gedeeld ecosysteem. Het systeem is opgebouwd rond drie componenten: een uitbreidbaar register met meer dan 300 interoperabele wetenschappelijke vaardigheden, een artefactlaag die de volledige computationele afstamming bewaart als een gerichte acyclische graaf (DAG), en een gestructureerd platform voor agent-gebaseerde wetenschappelijke discussie met *provenance-aware* governance. Agents selecteren en schakelen tools op basis van hun wetenschappelijke profielen, produceren onveranderlijke artefacten met getypeerde metadata en ouderlijke afstamming, en zenden onvervulde informatiebehoeften uit naar een gedeelde globale index. De ArtifactReactor maakt plannerloze coördinatie mogelijk: peer-agents ontdekken en vervullen openstaande behoeften via drukgebaseerde scoring, terwijl schema-overlap matching multi-ouder-synthese triggert over onafhankelijke analyses heen. Een autonome mutatielaag snoeit actief de expanderende artefact-DAG om conflicterende of redundante workflows op te lossen, terwijl persistent geheugen agents in staat stelt om continu voort te bouwen op complexe epistemische toestanden over meerdere cycli. Infinite zet deze output om in controleerbare wetenschappelijke verslagen door middel van gestructureerde posts, *provenance*-weergaven en machineleesbare discussierelaties, waarbij gemeenschapsfeedback de daaropvolgende onderzoekscycli stuurt. In vier autonome onderzoeken – peptide-ontwerp voor de somatostatine receptor SSTR2, screening van lichtgewicht keramiek met slagvastheid, cross-domein resonantie die biologie, materialen en muziek verbindt, en formele analogieconstructie tussen stedelijke morfologie en korrelgrens-evolutie – toont het raamwerk heterogene toolschakeling, emergente convergentie tussen onafhankelijk opererende agents, en traceerbare redenering van ruwe berekening tot gepubliceerde bevinding.
Recente videodiffusiemodellen hebben opmerkelijke vooruitgang geboekt in visuele kwaliteit, maar precieze, fijnmazige controle blijft een belangrijk knelpunt dat de praktische aanpasbaarheid voor contentcreatie beperkt. Voor AI-videomakers zijn drie vormen van controle cruciaal: (i) scènesamenstelling, (ii) onderwerpaanpassing met consistentie vanuit meerdere gezichtspunten, en (iii) aanpassing van camerastandpunten of objectbeweging. Bestaande methoden behandelen deze dimensies doorgaans geïsoleerd, met beperkte ondersteuning voor synthesen van onderwerpen vanuit meerdere hoeken en identiteitsbehoud bij willekeurige poseveranderingen. Dit gebrek aan een uniforme architectuur maakt het lastig om veelzijdige, gezamenlijk bestuurbare video te ondersteunen. Wij introduceren Tri-Prompting, een uniform raamwerk en tweefasentrainingsparadigma dat scènesamenstelling, consistentie van onderwerpen vanuit meerdere gezichtspunten en bewegingscontrole integreert. Onze aanpak benut een dual-condition bewegingsmodule aangedreven door 3D-volgpunten voor achtergrondscènes en gedownsamplede RGB-signalen voor voorgrondonderwerpen. Om een balans tussen bestuurbaarheid en visuele realiteit te garanderen, stellen we verder een inference ControlNet-schaalplan voor. Tri-Prompting ondersteunt nieuwe workflows, waaronder 3D-bewuste invoeging van onderwerpen in willekeurige scènes en manipulatie van bestaande onderwerpen in een afbeelding. Experimentele resultaten tonen aan dat Tri-Prompting gespecialiseerde basislijnen zoals Phantom en DaS significant overtreft op het gebied van onderwerpidentiteit vanuit meerdere gezichtspunten, 3D-consistentie en bewegingsnauwkeurigheid.
Het genereren van nauwkeurige glyphs voor visuele tekstweergave is essentieel maar uitdagend. Bestaande methoden verbeteren tekstweergave doorgaans door training op grote hoeveelheden hoogwaardige scènetekstafbeeldingen, maar de beperkte dekking van glyph-variaties en excessieve stilisering gaan vaak ten koste van de glyph-nauwkeurigheid, vooral voor complexe of uit-domein karakters. Sommige methoden benutten reinforcement learning om dit probleem te verlichten, maar hun beloningsmodellen zijn doorgaans afhankelijk van tekstherkenningssystemen die ongevoelig zijn voor fijnmazige glyph-fouten, waardoor afbeeldingen met incorrecte glyphs toch hoge beloningen kunnen ontvangen. Geïnspireerd door Direct Preference Optimization (DPO) stellen wij GlyphPrinter voor, een op voorkeuren gebaseerde tekstweergavemethode die de afhankelijkheid van expliciete beloningsmodellen elimineert. Het standaard DPO-doel modelleert echter alleen de algehele voorkeur tussen twee samples, wat onvoldoende is voor visuele tekstweergave waarbij glyph-fouten typisch in gelokaliseerde regio's optreden. Om dit probleem aan te pakken, construeren we de GlyphCorrector-dataset met regiogeannoteerde glyph-voorkeuren en introduceren we Region-Grouped DPO (R-GDPO), een op regio's gebaseerd doel dat inter- en intra-sample voorkeuren over geannoteerde regio's optimaliseert, waardoor de glyph-nauwkeurigheid aanzienlijk verbetert. Verder introduceren we Regional Reward Guidance, een inferentiestrategie die samples uit een optimale distributie haalt met controleerbare glyph-nauwkeurigheid. Uitgebreide experimenten tonen aan dat de voorgestelde GlyphPrinter superieur presteert aan bestaande methoden in glyph-nauwkeurigheid, terwijl een gunstige balans tussen stilisering en precisie behouden blijft.
Geïncarneerde AI-agenten vereisen steeds vaker parallelle uitvoering van meerdere taken, zoals manipulatie, conversatie en geheugenconstructie, op basis van gedeelde observaties onder verschillende temporele beperkingen. Recente Mixture-of-Transformers (MoT) Vision-Language-Action-modellen (VLA's) ondersteunen dergelijke heterogene outputs architecturaal, maar bestaande inferentiesystemen slagen er niet in efficiënte multi-task-paralleliteit te bereiken voor on-device-implementatie vanwege redundante berekeningen en resourceconflicten. Wij identificeren geïsoleerd KV-cachebeheer als de hoofdoorzaak. Om dit aan te pakken, stellen we unified KV cache management voor, een inferentieparadigma dat KV-cache behandelt als een first-class gedeelde resource tussen taken en over tijd. Deze abstractie maakt twee cruciale optimalisaties mogelijk: KV-deling tussen taken elimineert redundante prefill van gedeelde observaties, terwijl continuous batching over frames de variabele-lengte taaldecoupling ontkoppelt van vaste-snelheid actiegeneratie over besturingscycli. We implementeren dit paradigma voor π_{0.5}, de populairste MoT VLA, en evalueren deze onder representatieve robotconfiguraties. OxyGen behaalt een versnelling tot 3,7× ten opzichte van geïsoleerde uitvoering, en levert simultaan meer dan 200 tokens/s taaldoorvoer en 70 Hz actiefrequentie zonder kwaliteitsverlies van acties.
In dit artikel bestuderen we de diffuseerbaarheid (leerbaarheid) van variational autoencoders (VAE) in latente diffusie. Allereerst tonen we aan dat pixelruimte-diffusie, getraind met een MSE-doelfunctie, van nature geneigd is om lage en middelhoge ruimtelijke frequenties te leren, en dat de power-law spectrale dichtheid (PSD) van natuurlijke beelden deze neiging perceptueel gunstig maakt. Gemotiveerd door dit resultaat, stellen wij de Spectrum Matching Hypothese voor: latenten met superieure diffuseerbaarheid zouden (i) een afgevlakt power-law PSD moeten volgen (Encoding Spectrum Matching, ESM) en (ii) frequentie-naar-frequentie semantische correspondentie door de decoder moeten behouden (Decoding Spectrum Matching, DSM). In de praktijk passen we ESM toe door de PSD tussen beelden en latenten af te stemmen, en DSM via gedeelde spectrale maskering met frequentie-uitgelijnde reconstructie. Belangrijk is dat Spectrum Matching een verenigend perspectief biedt dat eerdere observaties van over-matig ruizige of over-matig gladgestreken latenten verklaart, en verschillende recente methoden interpreteert als speciale gevallen (bijv. VA-VAE, EQ-VAE). Experimenten suggereren dat Spectrum Matching superieure diffusie-generatie oplevert op de CelebA- en ImageNet-datasets, en eerdere benaderingen overtreft. Ten slotte breiden we het spectrale perspectief uit naar representatie-uitlijning (REPA): we tonen aan dat de directionele spectrale energie van de doelrepresentatie cruciaal is voor REPA, en stellen een op DoG gebaseerde methode voor om de prestaties van REPA verder te verbeteren. Onze code is beschikbaar op https://github.com/forever208/SpectrumMatching.
Vision-Language-Action (VLA)-modellen blinken uit in statische manipulatie, maar hebben moeite in dynamische omgevingen met bewegende doelen. Deze prestatiekloof komt voornamelijk voort uit een schaarste aan dynamische manipulatie-datasets en de afhankelijkheid van mainstream VLA's van observaties met één frame, wat hun ruimtelijk-temporele redeneervermogen beperkt. Om dit aan te pakken, introduceren we DOMINO, een grootschalige dataset en benchmark voor generaliseerbare dynamische manipulatie. Deze omvat 35 taken met hiërarchische complexiteit, meer dan 110.000 expert trajecten en een multidimensionale evaluatiesuite. Via uitgebreide experimenten evalueren we systematisch bestaande VLA's op dynamische taken, onderzoeken we effectieve trainingsstrategieën voor dynamisch bewustzijn en valideren we de generaliseerbaarheid van dynamische data. Verder stellen we PUMA voor, een dynamisch-bewuste VLA-architectuur. Door de integratie van scenegestroomde historische optische stroom en gespecialiseerde wereld-queries om objectgecentreerde toekomstige toestanden impliciet te voorspellen, koppelt PUMA geschiedenisbewuste waarneming aan kortetermijnvoorspelling. Resultaten tonen aan dat PUMA state-of-the-art prestaties bereikt, wat een absolute verbetering van 6,3% in succespercentage oplevert ten opzichte van de baseline. Bovendien tonen we aan dat training op dynamische data robuuste ruimtelijk-temporele representaties bevordert die overdraagbaar zijn naar statische taken. Alle code en data zijn beschikbaar op https://github.com/H-EmbodVis/DOMINO.
Conceptcustomisatie koppelt doorgaans zeldzame tokens aan een doelconcept. Helaas lijden deze benaderingen vaak onder instabiele prestaties, aangezien de vooraf getrainde data zelden deze zeldzame tokens bevat. Tegelijkertijd slagen deze zeldzame tokens er niet in de inherente kennis van het doelconcept over te dragen. Daarom introduceren we Knowledge-aware Concept Customization, een nieuwe taak die tot doel heeft diverse tekstuele kennis te koppelen aan visuele doelconcepten. Deze taak vereist dat het model de kennis binnen de tekstprompt identificeert om een hoogwaardige gepersonaliseerde generatie uit te voeren. Tegelijkertijd moet het model efficiënt alle tekstuele kennis aan het doelconcept binden. Daarom stellen we MoKus voor, een nieuw raamwerk voor kennisbewuste conceptcustomisatie. Ons raamwerk steunt op een cruciale observatie: kruismodale kennisoverdracht, waarbij aanpassing van kennis binnen de tekstmodaliteit van nature wordt overgedragen naar de visuele modaliteit tijdens generatie. Geïnspireerd door deze observatie omvat MoKus twee fasen: (1) In visuele conceptlearning leren we eerst de ankerrepresentatie aan om de visuele informatie van het doelconcept op te slaan. (2) In tekstuele kennisbijwerking werken we het antwoord op de kennisvragen bij naar de ankerrepresentatie, waardoor hoogwaardige gepersonaliseerde generatie mogelijk wordt. Om onze voorgestelde MoKus verder uitgebreid te evalueren voor deze nieuwe taak, introduceren we de eerste benchmark voor kennisbewuste conceptcustomisatie: KnowCusBench. Uitgebreide evaluaties hebben aangetoond dat MoKus state-of-the-art methoden overtreft. Bovendien stelt de kruismodale kennisoverdracht MoKus in staat om eenvoudig te worden uitgebreid naar andere kennisbewuste toepassingen zoals virtuele conceptcreatie en conceptverwijdering. We demonstreren ook het vermogen van onze methode om verbeteringen te bereiken op wereldkennistestbanken.
Verklaringen van de Federal Open Market Committee (FOMC) zijn een belangrijke bron van informatie over het monetair beleid, en zelfs subtiele wijzigingen in de formulering kunnen wereldwijde financiële markten in beweging brengen. Een centrale taak is daarom het meten van de hawkish-dovish (havikachtig-duifachtige) houding die in deze teksten wordt overgebracht. Bestaande benaderingen behandelen stellingherkenning doorgaans als een standaard classificatieprobleem, waarbij elke verklaring geïsoleerd wordt gelabeld. De interpretatie van communicatie over monetair beleid is echter inherent relatief: marktreacties hangen niet alleen af van de toon van een verklaring, maar ook van hoe die toon verschuift tussen vergaderingen. Wij introduceren Delta-Consistent Scoring (DCS), een annotatievrij raamwerk dat ingevroren representaties van grote taalmodellen (LLM's) afbeeldt op continue stelling-scores door zowel de absolute stelling als relatieve verschuivingen tussen vergaderingen gezamenlijk te modelleren. In plaats van te vertrouwen op handmatige hawkish-dovish labels, gebruikt DCS opeenvolgende vergaderingen als bron van zelfsupervisie. Het leert een absolute stelling-score voor elke verklaring en een relatieve verschuif-score tussen opeenvolgende verklaringen. Een delta-consistentiedoelstelling moedigt aan dat veranderingen in absolute scores overeenkomen met de relatieve verschuivingen. Hierdoor kan DCS een tijdelijk coherente stellingtrajectorie herstellen zonder handmatige labels. Over vier LLM-backbones heen presteert DCS consistent beter dan supervised probes en LLM-as-judge baseline-methoden, met een nauwkeurigheid tot 71,1% voor hawkish-dovish classificatie op zinsniveau. De resulterende scores op vergaderingsniveau zijn ook economisch betekenisvol: ze correleren sterk met inflatie-indicatoren en vertonen een significant verband met bewegingen in de Treasury-rendementen. Over het geheel genomen suggereren de resultaten dat LLM-representaties signalen over monetair beleid coderen die kunnen worden gereconstrueerd via relatieve temporele structuur.
Document parsing, als fundamentele maar cruciale visietaak, wordt momenteel gerevolutioneerd door vision-language models (VLMs). Het autoregressieve (AR) decoderen dat inherent is aan VLMs vormt echter een aanzienlijke bottleneck, wat de parsesnelheid ernstig beperkt. In dit artikel stellen wij Parallel-Token Prediction (PTP) voor, een inplugbare, model-agnostische en eenvoudige-yet-effectieve methode die VLMs in staat stelt om meerdere toekomstige tokens parallel te genereren met een verbeterde sample-efficiëntie. Concreet voegen we enkele leerbare tokens in de invoerreeks in en ontwerpen we bijbehorende trainingsdoelstellingen om het model uit te rusten met parallelle decodeermogelijkheden voor document parsing. Verder ontwikkelen we, ter ondersteuning van effectieve training, een uitgebreide pijplijn voor datageneratie die efficiënt grootschalige, hoogwaardige trainingsdata voor document parsing voor VLMs produceert. Uitgebreide experimenten op OmniDocBench en olmOCR-bench tonen aan dat onze methode niet alleen de decodesnelheid aanzienlijk verbetert (1.6x-2.2x), maar ook modelhallucinaties vermindert en sterke generalisatievermogens tentoonspreidt.
Het interpreteren van de interne redenering van visie-taalmodellen is essentieel voor de inzet van AI in veiligheidskritieke domeinen. Conceptgebaseerde verklaarbaarheid biedt een mensgericht perspectief door het gedrag van een model weer te geven via semantisch betekenisvolle componenten. Bestaande methoden zijn echter grotendeels beperkt tot afbeeldingen en negeren de cross-modale interacties. Tekst-afbeelding-embeddingen, zoals die gegenereerd door CLIP, lijden onder een modaliteitskloof, waarbij visuele en tekstuele kenmerken verschillende verdelingen volgen, wat de interpreteerbaarheid beperkt. Canonical Correlation Analysis (CCA) biedt een principiële manier om kenmerken uit verschillende verdelingen uit te lijnen, maar is nog niet benut voor multi-modale conceptanalyse op conceptniveau. Wij tonen aan dat de doelstellingen van CCA en InfoNCE nauw verwant zijn, zodanig dat het optimaliseren van CCA impliciet InfoNCE optimaliseert, wat een eenvoudig, trainingsvrij mechanisme biedt om de cross-modale uitlijning te verbeteren zonder het vooraf getrainde InfoNCE-doel aan te tasten. Gemotiveerd door deze observatie koppelen we conceptgebaseerde verklaarbaarheid aan CCA en introduceren we Concept CCA (CoCCA), een raamwerk dat cross-modale embeddingen uitlijnt en tegelijkertijd interpreteerbare conceptdecompositie mogelijk maakt. We breiden dit verder uit en stellen Sparse Concept CCA (SCoCCA) voor, dat sparsity afdwingt om meer ontvlochten en onderscheidende concepten te produceren, wat verbeterde activatie, ablatie en semantische manipulatie vergemakkelijkt. Onze aanpak generaliseert conceptgebaseerde verklaringen naar multi-modale embeddingen en behaalt state-of-the-art prestaties in conceptontdekking, aangetoond door reconstructie- en manipulatietaken zoals conceptablatie.
Virtual try-on (VTON) heeft vooruitgang geboekt in de visualisatie van individuele kledingstukken, maar in de echte wereld draait mode om complete outfits met meerdere kledingstukken, accessoires, fijnmazige categorieën, gelaagdheid en diverse stijlen, wat de capaciteiten van huidige VTON-systemen overstijgt. Bestaande datasets zijn beperkt in categorieën en missen outfitdiversiteit. Wij introduceren Garments2Look, de eerste grootschalige multimodale dataset voor outfitniveau VTON, bestaande uit 80K veel-kledingstukken-naar-één-look paren verdeeld over 40 hoofdcategorieën en 300+ fijnmazige subcategorieën. Elk paar omvat een outfit met 3-12 referentie-afbeeldingen van kledingstukken (gemiddeld 4.48), een modelafbeelding die de outfit draagt, en gedetailleerde tekstuele annotaties voor items en try-on. Om authenticiteit en diversiteit in evenwicht te brengen, stellen we een synthesepijplijn voor. Deze omvat het heuristisch samenstellen van outfitlijsten alvorens try-on resultaten te genereren, waarbij het hele proces onderworpen wordt aan strikte automatische filtering en menselijke validatie om de datakwaliteit te waarborgen. Om de taakmoeilijkheid te onderzoeken, passen we state-of-the-art VTON-methoden en algemene beeldbewerkingsmodellen aan om basislijnen vast te stellen. Resultaten tonen aan dat huidige methoden moeite hebben om complete outfits naadloos te passen en de correcte gelaagdheid en stijl te infereren, wat leidt tot uitlijningfouten en artefacten.
Volledig-streamende tekst-naar-spraak (TTS) voor interactieve systemen moet met minimale vertraging beginnen met spreken, terwijl het beheersbaar blijft terwijl de tekst incrementeel binnenkomt. Wij presenteren VoXtream2, een zero-shot volledig-streamend TTS-model met dynamische spreeksnelheidsregeling die midden in een uiting real-time kan worden bijgewerkt. VoXtream2 combineert een distributie-matchingmechanisme over duurtoestanden met classifier-free guidance voor conditioneringssignalen om de beheersbaarheid en synthesekwaliteit te verbeteren. Prompt-tekstmaskering maakt tekstloze audio-prompting mogelijk, waardoor transcriptie van de prompt overbodig wordt. Op standaard zero-shot benchmarks en een toegewijd spreeksnelheid-testset behaalt VoXtream2 competitieve objectieve en subjectieve resultaten ten opzichte van publieke baseline-modellen, ondanks een kleiner model en minder trainingsdata. In de volledig-streamende modus werkt het 4 keer sneller dan real-time met een eerste-pakketvertraging van 74 ms op een consumenten-GPU.
Klinische vraagbeantwoording over elektronische patiëntendossiers (EPD's) kan clinici en patiënten helpen om relevante medische informatie efficiënter te raadplegen. Veel recente benaderingen zijn echter afhankelijk van grote cloudgebaseerde modellen, die moeilijk te implementeren zijn in klinische omgevingen vanwege privacybeperkingen en rekenkundige vereisten. In dit werk onderzoeken we hoe ver gegronde EPD-vraagbeantwoording kan worden gebracht wanneer deze beperkt is tot een enkele notebook. Wij nemen deel aan alle vier de subtaken van de gedeelde taak ArchEHR-QA 2026 en evalueren verschillende benaderingen die zijn ontworpen om te draaien op standaard hardware. Alle experimenten worden lokaal uitgevoerd zonder externe API's of cloudinfrastructuur. Onze resultaten tonen aan dat dergelijke systemen competitieve prestaties kunnen leveren op de leaderboards van de gedeelde taak. In het bijzonder presteren onze inzendingen boven het gemiddelde in twee subtaken, en we observeren dat kleinere modellen de prestaties van veel grotere systemen kunnen benaderen wanneer ze correct geconfigureerd zijn. Deze bevindingen suggereren dat privacybeschermende EPD-vraagbeantwoordingssystemen die volledig lokaal draaien, haalbaar zijn met huidige modellen en standaard hardware. De broncode is beschikbaar op https://github.com/ibrahimey/ArchEHR-QA-2026.
Recente vooruitgang in discrete beeldgeneratie heeft aangetoond dat het opschalen van de VQ-codeboekgrootte de reconstructiekwaliteit aanzienlijk verbetert. Het trainen van generatieve modellen met een groot VQ-codeboek blijft echter uitdagend, doorgaans vereist dit een grotere modelomvang en een langere trainingsduur. In dit werk stellen we Stochastic Neighbor Cross Entropy Minimization (SNCE) voor, een nieuwe trainingsdoelstelling die is ontworpen om de optimalisatie-uitdagingen van discrete beeldgeneratoren met grote codeboeken aan te pakken. In plaats van het model te sturen met een harde one-hot-doelwaarde, construeert SNCE een zachte categorische verdeling over een reeks naburige tokens. De waarschijnlijkheid die aan elk token wordt toegekend, is evenredig met de nabijheid tussen de code-embedding en de werkelijke beeld-embedding, waardoor het model wordt aangemoedigd om semantisch betekenisvolle geometrische structuren in de gekwantiseerde embeddingruimte te leren. We voeren uitgebreide experimenten uit op het gebied van klasse-conditonele ImageNet-256-generatie, grootschalige tekst-naar-beeldsynthese en beeldbewerkingstaken. De resultaten tonen aan dat SNCE de convergentiesnelheid en de algehele generatiekwaliteit aanzienlijk verbetert in vergelijking met standaard cross-entropy-doelstellingen.