Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Multi-LLM-systemen benutten de complementaire sterktes van diverse Large Language Models, waardoor prestaties en efficiëntie worden bereikt die niet haalbaar zijn met een enkel model. In bestaande ontwerpen communiceren LLM's via tekst, waardoor interne representaties worden omgezet in uitvoertokenreeksen. Dit proces leidt zowel tot verlies van rijke semantische informatie als tot latentie bij token-voor-token generatie. Gemotiveerd door deze beperkingen, vragen wij: Kunnen LLM's verder gaan dan tekstcommunicatie? Oracle-experimenten tonen aan dat het verrijken van de KV-Cache-semantiek de responskwaliteit kan verbeteren zonder de cachegrootte te vergroten, wat KV-Cache ondersteunt als een effectief medium voor inter-modelcommunicatie. Daarom stellen we Cache-to-Cache (C2C) voor, een nieuw paradigma voor directe semantische communicatie tussen LLM's. C2C gebruikt een neuraal netwerk om de KV-cache van het bronmodel te projecteren en te fuseren met die van het doelmodel, waardoor directe semantische overdracht mogelijk wordt. Een leerbaar gatingmechanisme selecteert de doellagen die baat hebben bij cachecommunicatie. Vergeleken met tekstcommunicatie benut C2C de diepe, gespecialiseerde semantiek van beide modellen, terwijl expliciete tussenliggende tekstgeneratie wordt vermeden. Experimenten tonen aan dat C2C een gemiddelde nauwkeurigheid bereikt die 8,5-10,5% hoger ligt dan die van individuele modellen. Het overtreft verder het tekstcommunicatieparadigma met ongeveer 3,0-5,0%, terwijl het een gemiddelde snelheidswinst van 2,0x in latentie oplevert. Onze code is beschikbaar op https://github.com/thu-nics/C2C.
Visuele tokenisatie blijft een kernuitdaging bij het verenigen van visueel begrip en generatie binnen het autoregressieve paradigma. Bestaande methoden gebruiken doorgaans tokenizers in discrete latente ruimtes om af te stemmen op de tokens van grote taalmodelen, waarbij de kwantiseringsfouten de semantische expressiviteit kunnen beperken en het vermogen tot visueel-taalkundig begrip kunnen aantasten. Om dit aan te pakken, introduceren we MingTok, een nieuwe familie van visuele tokenizers met een continue latente ruimte, voor verenigde autoregressieve generatie en begrip. Terwijl begriptaken de voorkeur geven aan discriminerende hoogdimensionale kenmerken, hebben generatietaken een voorkeur voor compacte laagniveau codes. Om deze tegenstrijdige eisen te verzoenen, hanteert MingTok een driestaps sequentiële architectuur die bestaat uit laagniveau codering, semantische expansie en visuele reconstructie. Hierop gebouwd elimineert Ming-UniVision de behoefte aan taakspecifieke visuele representaties en verenigt het diverse visueel-taalkundige taken onder een enkel autoregressief voorspellingsparadigma. Door zowel begrip als generatie te formuleren als volgende-token voorspelling in een gedeelde continue ruimte, ondersteunt het naadloos meerdere ronden van in-context taken, zoals iteratief begrip, generatie en bewerking. Empirisch vinden we dat het gebruik van een verenigde continue visuele representatie de tegenstrijdige eisen aan de tokenizers door begrip- en generatietaken verzoent, wat leidt tot state-of-the-art prestaties in beide domeinen. We hopen dat onze bevindingen de verenigde visuele tokenisatie in het continue domein zullen bevorderen. Inferentiecode en modelgewichten worden vrijgegeven ten behoeve van de gemeenschap.
We introduceren Lumina-DiMOO, een open-source fundamenteel model voor naadloze multi-modale generatie en begrip. Lumina-DiMOO onderscheidt zich van eerdere geünificeerde modellen door gebruik te maken van een volledig discreet diffusiemodel om invoer en uitvoer over verschillende modaliteiten te verwerken. Deze innovatieve aanpak stelt Lumina-DiMOO in staat om een hogere samplingefficiëntie te bereiken in vergelijking met eerdere autoregressieve (AR) of hybride AR-Diffusie paradigma's en ondersteunt vaardig een breed scala aan multi-modale taken, waaronder tekst-naar-beeldgeneratie, beeld-naar-beeldgeneratie (bijvoorbeeld beeldbewerking, onderwerpgestuurde generatie en beeldinpainting), evenals beeldbegrip. Lumina-DiMOO behaalt state-of-the-art prestaties op meerdere benchmarks en overtreft bestaande open-source geünificeerde multi-modale modellen. Om verdere vooruitgang in multi-modale en discrete diffusiemodelonderzoek te bevorderen, stellen we onze code en checkpoints beschikbaar aan de gemeenschap. Projectpagina: https://synbol.github.io/Lumina-DiMOO.
Recente vooruitgang in visie- en taalbasismodellen heeft de multimodale begripsvorming, redenering en generatie aanzienlijk bevorderd, wat een groeiende interesse heeft gewekt in het uitbreiden van dergelijke mogelijkheden naar belichaamde omgevingen via visie-taal-actie (VLA)-modellen. Toch worden de meeste VLA-modellen nog steeds getraind met supervised fine-tuning (SFT), wat moeite heeft om te generaliseren onder distributieverschuivingen vanwege de opeenstapeling van fouten. Reinforcement learning (RL) biedt een veelbelovend alternatief door de taakprestatie direct te optimaliseren via interactie, maar bestaande pogingen blijven gefragmenteerd en missen een uniform platform voor een eerlijke en systematische vergelijking van modelarchitecturen en algoritmische ontwerpen. Om deze kloof te overbruggen, introduceren we RLinf-VLA, een uniform en efficiënt raamwerk voor schaalbare RL-training van VLA-modellen. Het systeem hanteert een zeer flexibel ontwerp voor resourceallocatie dat de uitdaging aanpakt van het integreren van rendering, training en inferentie in RL+VLA-training. In het bijzonder implementeert RLinf-VLA voor GPU-geparalleliseerde simulators een nieuwe hybride fijnmazige pijplijnallocatiemodus, wat een versnelling van 1,61x-1,88x in de training oplevert. Via een uniforme interface ondersteunt RLinf-VLA naadloos diverse VLA-architecturen (bijv. OpenVLA, OpenVLA-OFT), meerdere RL-algoritmen (bijv. PPO, GRPO) en verschillende simulators (bijv. ManiSkill, LIBERO). In simulatie behaalt een uniform model 98,11% op 130 LIBERO-taken en 97,66% op 25 ManiSkill-taken. Naast empirische prestaties destilleert onze studie een reeks best practices voor het toepassen van RL op VLA-training en werpt het licht op opkomende patronen in deze integratie. Bovendien presenteren we een eerste implementatie op een echte Franka-robot, waar RL-getrainde beleidsregels een sterkere generalisatie vertonen dan die getraind met SFT. Wij zien RLinf-VLA als een fundament om onderzoek naar belichaamde intelligentie te versnellen en te standaardiseren.
Video DiTs hebben vooruitgang geboekt in videogeneratie, maar ze hebben nog steeds moeite met het modelleren van multi-instanties of subject-object interacties. Dit roept een belangrijke vraag op: Hoe representeren deze modellen interacties intern? Om dit te beantwoorden, hebben we MATRIX-11K samengesteld, een videodataset met interactiebewuste bijschriften en multi-instantie maskersporen. Met behulp van deze dataset voeren we een systematische analyse uit die twee perspectieven van video DiTs formaliseert: semantische verankering, via video-naar-tekst aandacht, die evalueert of zelfstandige naamwoorden en werkwoorden instanties en hun relaties vastleggen; en semantische propagatie, via video-naar-video aandacht, die beoordeelt of instantie-bindingen over frames heen standhouden. We ontdekken dat beide effecten zich concentreren in een kleine subset van interactie-dominante lagen. Gemotiveerd door dit inzicht introduceren we MATRIX, een eenvoudige en effectieve regularisatie die de aandacht in specifieke lagen van video DiTs afstemt op multi-instantie maskersporen uit de MATRIX-11K dataset, waardoor zowel verankering als propagatie worden verbeterd. We stellen verder InterGenEval voor, een evaluatieprotocol voor interactiebewuste videogeneratie. In experimenten verbetert MATRIX zowel de interactietrouw als de semantische uitlijning, terwijl drift en hallucinatie worden verminderd. Uitgebreide ablatie-studies valideren onze ontwerpkeuzes. Codes en gewichten zullen worden vrijgegeven.
Huidige grote taalmodellen (LLM's) en gesproken taalmodellen (SLM's) beginnen pas met denken en acties ondernemen nadat de gebruiker zijn beurt heeft afgerond. Dit voorkomt dat het model tijdens de beurt van de gebruiker kan interacteren en kan leiden tot een hoge reactielatentie terwijl het wacht om te denken. Als gevolg hiervan is denken na het ontvangen van de volledige invoer niet geschikt voor spraak-naar-spraak-interactie, waarbij real-time, low-latency uitwisseling belangrijk is. Wij pakken dit aan door op te merken dat mensen van nature "denken terwijl ze luisteren." In dit artikel stellen we SHANKS voor, een algemeen inferentiekader dat SLM's in staat stelt om onuitgesproken keten-van-gedachten-redeneringen te genereren terwijl ze naar de gebruikersinvoer luisteren. SHANKS streamt de ingesproken invoer in vaste tijdsblokken en genereert, zodra een blok is ontvangen, onuitgesproken redeneringen op basis van alle voorgaande spraak en redeneringen, terwijl de gebruiker blijft spreken. SHANKS gebruikt deze onuitgesproken redeneringen om te beslissen of de gebruiker onderbroken moet worden en om toolaanroepen te doen om de taak te voltooien. We demonstreren dat SHANKS real-time interactie tussen gebruiker en SLM verbetert in twee scenario's: (1) wanneer de gebruiker een stap-voor-stap oplossing voor een wiskundig probleem presenteert, kan SHANKS luisteren, redeneren en onderbreken wanneer de gebruiker een fout maakt, wat resulteert in 37,1% hogere onderbreeknauwkeurigheid dan een baseline die onderbreekt zonder te denken; en (2) in een tool-augmented dialoog kan SHANKS 56,9% van de toolaanroepen voltooien voordat de gebruiker zijn beurt afrondt. Over het algemeen beweegt SHANKS zich richting modellen die blijven denken gedurende het hele gesprek, niet alleen nadat een beurt eindigt. Geanimeerde illustraties van SHANKS zijn te vinden op https://d223302.github.io/SHANKS/
Grote Taalmodellen (LLMs) hebben vibe coding geïntroduceerd, waarbij gebruikers LLMs inzetten om code te genereren en iteratief te verfijnen via natuurlijke taalinteracties totdat deze hun vibe check doorstaat. Vibe check is verbonden met menselijke voorkeuren in de praktijk en gaat verder dan functionaliteit: de oplossing moet goed aanvoelen, leesbaar zijn, de intentie behouden en correct blijven. Huidige code-evaluatie blijft echter verankerd in pass@k en meet alleen functionele correctheid, waarbij de niet-functionele instructies die gebruikers routinematig toepassen over het hoofd worden gezien. In dit artikel stellen we de hypothese dat het volgen van instructies het ontbrekende stuk is dat ten grondslag ligt aan de vibe check en dat menselijke voorkeuren in codering vertegenwoordigt naast functionele correctheid. Om de code-instructievolgbare capaciteiten van modellen te kwantificeren met meetbare signalen, presenteren we VeriCode, een taxonomie van 30 verifieerbare code-instructies samen met bijbehorende deterministische verifiers. We gebruiken deze taxonomie om gevestigde evaluatiesuites uit te breiden, wat resulteert in Vibe Checker, een testomgeving om zowel het volgen van code-instructies als functionele correctheid te beoordelen. Na evaluatie van 31 toonaangevende LLMs tonen we aan dat zelfs de sterkste modellen moeite hebben om meerdere instructies na te leven en duidelijke functionele regressie vertonen. Het belangrijkste is dat een samengestelde score van functionele correctheid en het volgen van instructies het beste correleert met menselijke voorkeuren, waarbij het laatste naar voren komt als de belangrijkste onderscheidende factor bij real-world programmeertaken. Ons werk identificeert kernfactoren van de vibe check en biedt een concreet pad voor het benchmarken en ontwikkelen van modellen die beter aansluiten bij gebruikersvoorkeuren in codering.
Grote taalmodellen (LLM's) vertrouwen steeds meer op meerfasige, tool-geïntegreerde planning voor kennisintensieve en complexe redeneertaken. Bestaande implementaties maken doorgaans gebruik van een enkele agent, maar deze hebben te kampen met beperkte contextlengte en ruis in toolresponsen. Een natuurlijke oplossing is het toepassen van een multi-agent framework met planner- en worker-agents om de context te beheren. Echter, bestaande methoden ondersteunen geen effectieve reinforcement learning na de training van tool-geïntegreerde multi-agent frameworks. Om dit gat te dichten, stellen we Multi-Agent Tool-Integrated Policy Optimization (MATPO) voor, waarmee verschillende rollen (planner en worker) binnen een enkel LLM-exemplaar kunnen worden getraind met behulp van rol-specifieke prompts via reinforcement learning. MATPO is afgeleid van een principieel krediettoewijzingsmechanisme over planner- en worker-rollouts. Dit ontwerp elimineert de noodzaak om meerdere LLM's te implementeren, wat geheugenintensief zou zijn, terwijl de voordelen van specialisatie behouden blijven. Experimenten op GAIA-text, WebWalkerQA en FRAMES tonen aan dat MATPO consistent beter presteert dan single-agent baselines met een gemiddelde relatieve verbetering van 18,38% in prestaties en grotere robuustheid vertoont tegen ruis in tooloutputs. Onze bevindingen benadrukken de effectiviteit van het verenigen van meerdere agentrollen binnen een enkel LLM en bieden praktische inzichten voor stabiele en efficiënte multi-agent RL-training.
Reinforcement learning (RL) is recentelijk een krachtige methode geworden voor het trainen van redenerende LLM's die lange ketens van gedachten (LongCoT) produceren. Echter maakt de standaard RL-"denkomgeving", waarin de staat bestaat uit de prompt plus alle voorgaande redeneertokens, de staat onbegrensd en dwingt het op aandacht gebaseerde beleid tot kwadratische rekenkracht naarmate gedachten langer worden. Wij herzien de omgeving zelf. Wij stellen Markoviaans Denken voor, een paradigma waarin het beleid redenering voortzet terwijl het conditioneert op een staat met constante grootte, waardoor de denklengte wordt losgekoppeld van de contextgrootte. Als direct gevolg levert dit lineaire rekenkracht op met constant geheugen. Wij concretiseren dit idee met Delethink, een RL-omgeving die redenering structureert in vaste grootte chunks. Binnen elke chunk denkt het model zoals gebruikelijk; aan de grens reset de omgeving de context en herinitialiseert de prompt met een korte overdracht. Via RL leert het beleid om een tekstuele staat nabij het einde van elke chunk te schrijven die voldoende is voor naadloze voortzetting van redenering na een reset. Een in deze omgeving getraind R1-Distill 1.5B-model redeneert in 8K-token chunks maar denkt tot 24K tokens, wat overeenkomt met of overtreft LongCoT-RL getraind met een 24K-budget. Met schaling tijdens testen blijft Delethink verbeteren waar LongCoT een plateau bereikt. Het effect van lineaire rekenkracht is aanzienlijk: wij schatten empirisch dat LongCoT-RL bij een gemiddelde denklengte van 96K 27 H100-maanden kost versus 7 voor Delethink. Analyse bij RL-initialisatie laat zien dat kant-en-klare redeneermodellen (1.5B-120B) vaak Markoviaanse sporen zero-shot bemonsteren over diverse benchmarks, wat positieve voorbeelden oplevert die RL effectief maken op schaal. Onze resultaten tonen aan dat het herontwerpen van de denkomgeving een krachtige hefboom is: het maakt zeer lange redenering mogelijk zonder kwadratische overhead en opent een pad naar efficiënte, schaalbare redenerende LLM's.
Het modelleren van lange sequenties staat voor een fundamentele afweging tussen de efficiëntie van compressief vastgelegd geheugen in RNN-achtige modellen en de nauwkeurigheid van verliesvrij groeiend geheugen in attention-gebaseerde Transformers. Geïnspireerd door het Multi-Store Model uit de cognitieve wetenschap, introduceren we een geheugenframework voor kunstmatige neurale netwerken. Onze methode behoudt een schuifvenster van de KV-cache van de Transformer als verliesvrij kortetermijngeheugen, terwijl een leerbare module, genaamd het Artificial Hippocampus Network (AHN), informatie buiten het venster recurrent comprimeert naar een vastgelegd compact langetermijngeheugen. Om dit framework te valideren, implementeren we AHN's met moderne RNN-achtige architecturen, waaronder Mamba2, DeltaNet en Gated DeltaNet. Uitgebreide experimenten op lange-context benchmarks LV-Eval en InfiniteBench tonen aan dat AHN-augmented modellen consistent beter presteren dan schuifvenster-baselines en prestaties behalen die vergelijkbaar of zelfs superieur zijn aan volledige attention-modellen, terwijl ze de reken- en geheugenvereisten aanzienlijk verminderen. Zo vermindert het toevoegen van AHN's aan Qwen2.5-3B-Instruct de inferentie-FLOPs met 40,5% en de geheugencache met 74,0%, terwijl de gemiddelde score op LV-Eval (128k sequentielengte) verbetert van 4,41 naar 5,88. Code is beschikbaar op: https://github.com/ByteDance-Seed/AHN.
Recente frontier-modellen gebruiken lange ketens van redenering om oplossingsruimtes in context te verkennen en betere prestaties te bereiken. Hoewel veel werken zich richten op distillatie om kleinere maar capabele modellen te bouwen, concentreren de meeste zich op Engels, en er is weinig bekend over taal-specifieke redenering. Om deze kloof te overbruggen, introduceren we eerst **Language-Mixed CoT**, een redeneerschema dat schakelt tussen Engels en een doeltaal, waarbij Engels als anker wordt gebruikt om uit te blinken in redenering terwijl vertaalartefacten worden geminimaliseerd. Als een Koreaans casestudy hebben we **Yi-Sang** samengesteld: 5,79 miljoen native-Koreaanse prompts uit web-Q&A, examens, STEM en code; 3,7 miljoen lange redeneersporen gegenereerd door Qwen3-32B; en een gerichte subset van 260k hoogrenderende voorbeelden. We trainen negen modellen (4B-35B) over zes families (Qwen2.5, Llama-3.1, Gemma-3, etc.). Ons beste model, **KO-REAson-35B**, behaalt state-of-the-art prestaties, met de hoogste gemiddelde score (64,0 ± 25), en staat op de eerste plaats voor 5/9 benchmarks en op de tweede plaats voor de overige. Kleinere en middelgrote modellen profiteren ook aanzienlijk, met een gemiddelde verbetering van +18,6 punten over de negen geëvalueerde benchmarks. Ablaties tonen aan dat **Language-Mixed CoT** effectiever is dan eentalige CoT, wat ook leidt tot cross-linguale en multimodale prestatieverbeteringen. We geven onze data-curatiepipeline, evaluatiesysteem, datasets en modellen vrij om onderzoek naar taal-specifieke redenering te bevorderen. Data en modelcollectie: https://huggingface.co/KOREAson.
Ondanks het feit dat ze bijna een derde van de talen in de wereld vertegenwoordigen, worden Afrikaanse talen ernstig onderbediend door moderne NLP-technologieën, waarbij 88\% wordt geclassificeerd als sterk ondervertegenwoordigd of volledig genegeerd in de computationele linguïstiek. Wij presenteren het African Languages Lab (All Lab), een uitgebreid onderzoeksinitiatief dat deze technologische kloof aanpakt door middel van systematische dataverzameling, modelontwikkeling en capaciteitsopbouw. Onze bijdragen omvatten: (1) een kwaliteitsgecontroleerde dataverzamelingspijplijn, die resulteert in de grootste gevalideerde Afrikaanse multimodale spraak- en tekstdataset, die 40 talen omvat met 19 miljard tokens van eentalige tekst en 12.628 uur uitgelijnde spraakdata; (2) uitgebreide experimentele validatie die aantoont dat onze dataset, gecombineerd met fine-tuning, aanzienlijke verbeteringen oplevert ten opzichte van baseline-modellen, met gemiddeld +23,69 ChrF++, +0,33 COMET en +15,34 BLEU-punten over 31 geëvalueerde talen; en (3) een gestructureerd onderzoeksprogramma dat met succes vijftien beginnende onderzoekers heeft begeleid, waardoor duurzame lokale capaciteit is gecreëerd. Onze vergelijkende evaluatie tegenover Google Translate laat competitieve prestaties zien in verschillende talen, terwijl gebieden die verdere ontwikkeling vereisen worden geïdentificeerd.
De zoektocht naar computationele efficiëntie heeft geleid tot de adoptie van laagprecisieformaten voor het trainen van transformermodellen. Deze vooruitgang wordt echter vaak belemmerd door beruchte trainingsinstabiliteiten. Dit artikel biedt de eerste mechanistische verklaring voor een lang bestaand en onopgelost faalgeval waarbij trainen met flash attention in laagprecisie-instellingen leidt tot catastrofale verliesexplosies. Onze diepgaande analyse onthult dat het falen geen willekeurig artefact is, maar wordt veroorzaakt door twee verweven verschijnselen: het ontstaan van vergelijkbare laagrangrepresentaties binnen het attention-mechanisme en het cumulatieve effect van bevooroordeelde afrondingsfouten die inherent zijn aan laagprecisie-rekenkunde. We tonen aan hoe deze factoren een vicieuze cirkel van foutaccumulatie creëren die gewichtsupdates corrumpeert en uiteindelijk de trainingsdynamiek ontspoort. Om onze bevindingen te valideren, introduceren we een minimale aanpassing aan de flash attention die de bias in afrondingsfouten vermindert. Deze eenvoudige wijziging stabiliseert het trainingsproces, bevestigt onze analyse en biedt een praktische oplossing voor dit hardnekkige probleem.
Grootschalige tekst-naar-beeld diffusiemodellen, hoewel krachtig, kampen met verbijsterende rekenkosten. Bestaande one-shot netwerkpruningmethoden kunnen moeilijk direct op hen worden toegepast vanwege de iteratieve denoising aard van diffusiemodellen. Om deze kloof te overbruggen, presenteert dit artikel OBS-Diff, een nieuw one-shot pruning framework dat nauwkeurige en trainingsvrije compressie van grootschalige tekst-naar-beeld diffusiemodellen mogelijk maakt. Specifiek, (i) OBS-Diff herleeft de klassieke Optimal Brain Surgeon (OBS), past deze aan op de complexe architecturen van moderne diffusiemodellen en ondersteunt diverse pruning granulariteit, waaronder ongestructureerde, N:M semi-gestructureerde en gestructureerde (MHA koppen en FFN neuronen) sparsity; (ii) Om de pruningcriteria af te stemmen op de iteratieve dynamiek van het diffusieproces, door het probleem vanuit een foutaccumulatieperspectief te onderzoeken, stellen we een nieuw tijdstapbewuste Hessiaan constructie voor die een logaritmisch-afnemend weegschema omvat, waardoor groter belang wordt toegekend aan eerdere tijdstappen om potentiële foutaccumulatie te mitigeren; (iii) Bovendien wordt een rekenkundig efficiënte groepgewijze sequentiële pruningstrategie voorgesteld om het dure kalibratieproces te amortiseren. Uitgebreide experimenten tonen aan dat OBS-Diff state-of-the-art one-shot pruning voor diffusiemodellen bereikt, wat inferentieversnelling biedt met minimale degradatie in visuele kwaliteit.
Lang-contextmodellen (LCM's) hebben groot potentieel getoond in het verwerken van lange sequenties, wat veel praktische toepassingen mogelijk maakt. Het succes van LCM's kan worden toegeschreven aan hun vermogen om impliciete kritieke informatie binnen de context te lokaliseren voor verdere voorspelling. Recent onderzoek laat echter zien dat LCM's vaak gevoelig zijn voor contextuele ruis, d.w.z. irrelevante tokens, die de aandacht van het model kunnen misleiden. In dit artikel voeren we een gedetailleerde analyse uit van de contextuele ruis en stellen we een effectieve metriek voor, de Integrated Gradient (IG)-score, om de ruisinformatie binnen de context te detecteren en te kwantificeren. Onze bevindingen laten zien dat zelfs een eenvoudige vermindering van gedetecteerde contextuele ruis de aandacht van het model op kritieke tokens aanzienlijk kan verbeteren en latere voorspellingen ten goede kan komen. Op basis van dit inzicht stellen we Context Denoising Training (CDT) voor, een eenvoudige maar effectieve trainingsstrategie die de aandacht op kritieke tokens verbetert en tegelijkertijd hun invloed op modelvoorspellingen versterkt. Uitgebreide experimenten over vier taken, zowel onder contextvensterschaling als lang-contextuitlijning, tonen de superioriteit van CDT aan. Opmerkelijk is dat een open-source 8B-model, getraind met CDT, een prestatieniveau (50,92) kan bereiken dat vergelijkbaar is met GPT-4o (51,00).
Grote Redeneermodellen (LRMs) hebben sterke capaciteiten getoond in complexe, meerstaps redenering, wat nieuwe mogelijkheden opent voor het automatiseren van optimalisatiemodellering. Bestaande methoden voor domeinaanpassing, oorspronkelijk ontworpen voor eerdere instructie-afgestemde modellen, slagen er echter vaak niet in om de geavanceerde redeneerpatronen van moderne LRMs te benutten. In het bijzonder laten we zien dat directe fine-tuning op traditionele niet-reflectieve datasets slechts beperkte verbeteringen oplevert. Om de inherente redeneervermogens van LRMs volledig te benutten, stellen we CALM (Corrective Adaptation with Lightweight Modification) voor, een raamwerk dat LRMs geleidelijk verfijnt binnen hun natuurlijke redeneermodi voor optimalisatiemodelleringstaken. In CALM identificeert een expert interventies redeneerfouten en geeft beknopte correctieve hints, die de LRM incorporeert om verbeterde redeneertrajecten te produceren. Deze interventies wijzigen minder dan 2,6% van de gegenereerde tokens, maar genereren hoogwaardige data voor zachte aanpassing via supervised fine-tuning. Het aangepaste model wordt vervolgens verder verbeterd door reinforcement learning. Op basis van CALM ontwikkelen we STORM (Smart Thinking Optimization Reasoning Model), een 4B-parameter LRM dat een nieuwe state-of-the-art gemiddelde nauwkeurigheid van 68,9% bereikt over vijf populaire optimalisatiemodelleringsbenchmarks, wat overeenkomt met de prestaties van een 671B LRM. Deze resultaten tonen aan dat dynamische, hint-gebaseerde datasynthese zowel de natuurlijke redeneerpatronen van moderne LRMs behoudt als versterkt, en biedt een effectievere en schaalbare weg naar expertniveau prestaties op uitdagende optimalisatiemodelleringstaken.
Transformers blinken uit in sequentiemodellering, maar kampen met kwadratische complexiteit, terwijl lineaire aandacht verbeterde efficiëntie biedt, maar vaak inboet aan herinneringsnauwkeurigheid over lange contexten. In dit werk introduceren we Native Hybrid Attention (NHA), een nieuwe hybride architectuur van lineaire en volledige aandacht die zowel intra- als interlaaghybridisatie integreert in een uniforme laagontwerp. NHA behoudt langetermijncontext in sleutel-waardeslots die worden bijgewerkt door een lineaire RNN, en verrijkt deze met kortetermijntokens uit een schuifvenster. Vervolgens wordt een enkele softmax-aandachtsoperatie toegepast op alle sleutels en waarden, waardoor contextafhankelijke weging per token en per hoofd mogelijk wordt zonder extra fusieparameters. Het interlaaggedrag wordt geregeld via een enkele hyperparameter, de grootte van het schuifvenster, waarmee soepel kan worden geschakeld tussen puur lineaire en volledige aandacht, terwijl alle lagen structureel uniform blijven. Experimentele resultaten tonen aan dat NHA Transformers en andere hybride referentiemodellen overtreft bij taken die intensief gebruikmaken van herinnering en gezond verstand. Bovendien kunnen voorgetrainde LLM's structureel worden gehybridiseerd met NHA, wat competitieve nauwkeurigheid oplevert terwijl aanzienlijke efficiëntiewinsten worden behaald. Code is beschikbaar op https://github.com/JusenD/NHA.
De snelle evolutie van grote taalmodellen (LLMs) en de echte wereld heeft de statische aard van veelgebruikte evaluatiebenchmarks achterhaald, wat zorgen oproept over hun betrouwbaarheid voor het evalueren van de feitelijkheid van LLMs. Hoewel veel onderzoek nog steeds vertrouwt op populaire maar verouderde benchmarks, blijft de temporele mismatch met feiten uit de echte wereld en moderne LLMs, evenals hun effecten op de evaluatie van LLM-feitelijkheid, onderbelicht. Daarom presenteren we in dit werk een systematisch onderzoek naar dit probleem door vijf populaire feitelijkheidsbenchmarks en acht LLMs die in verschillende jaren zijn vrijgegeven te onderzoeken. Een up-to-date feitenretrievalpijplijn en drie metrieken zijn toegespitst om de veroudering van benchmarks en de impact daarvan op de evaluatie van LLM-feitelijkheid te kwantificeren. Experimentele resultaten en analyses tonen aan dat een aanzienlijk deel van de samples in de veelgebruikte feitelijkheidsbenchmarks verouderd is, wat leidt tot onbetrouwbare beoordelingen van LLM-feitelijkheid. We hopen dat ons werk een testomgeving kan bieden om de betrouwbaarheid van een benchmark voor LLM-feitelijkheidsevaluatie te beoordelen en meer onderzoek naar het probleem van benchmarkveroudering kan inspireren. Codes zijn beschikbaar op https://github.com/JiangXunyi/BenchAge.
Een fundamentele uitdaging in belichaamde intelligentie is het ontwikkelen van expressieve en compacte toestandsrepresentaties voor efficiënte wereldmodellering en besluitvorming. Bestaande methoden slagen er echter vaak niet in om deze balans te bereiken, wat resulteert in representaties die ofwel overdreven redundant zijn of tekortschieten in taakkritische informatie. Wij stellen een onbewaakte aanpak voor die een sterk gecomprimeerde tweetoken-toestandsrepresentatie leert met behulp van een lichtgewicht encoder en een vooraf getrainde Diffusion Transformer (DiT) decoder, waarbij gebruik wordt gemaakt van zijn sterke generatieve prior. Onze representatie is efficiënt, interpreteerbaar en integreert naadloos in bestaande VLA-gebaseerde modellen, wat de prestaties verbetert met 14,3% op LIBERO en 30% in real-world taaksucces met minimale inferentie-overhead. Belangrijker nog, we ontdekken dat het verschil tussen deze tokens, verkregen via latente interpolatie, van nature dienst doet als een zeer effectieve latente actie, die verder kan worden gedecodeerd in uitvoerbare robotacties. Dit opkomende vermogen onthult dat onze representatie gestructureerde dynamiek vastlegt zonder expliciete supervisie. We noemen onze methode StaMo vanwege zijn vermogen om generaliseerbare robotbeweging te leren van compacte toestandsrepresentatie, die wordt gecodeerd vanuit statische beelden, wat de heersende afhankelijkheid van het leren van latente actie op complexe architecturen en videogegevens uitdaagt. De resulterende latente acties verbeteren ook het co-trainen van beleid, waarbij ze eerdere methoden met 10,4% overtreffen en de interpreteerbaarheid verbeteren. Bovendien schaalt onze aanpak effectief over diverse databronnen, waaronder real-world robotdata, simulatie en menselijke egocentrische video.
Recente inspanningen om inferentie in Multimodale Grote Taalmodellen (MLLMs) te versnellen, hebben zich voornamelijk gericht op visuele tokencompressie. De effectiviteit van deze methoden wordt doorgaans beoordeeld door de nauwkeurigheidsdaling op gevestigde benchmarks te meten, waarbij de modelprestaties voor en na compressie worden vergeleken. Deze benchmarks zijn echter oorspronkelijk ontworpen om de perceptie- en redeneervaardigheden van MLLMs te beoordelen, in plaats van om compressietechnieken te evalueren. Hierdoor ontstaat er een taakmismatch wanneer ze direct worden toegepast op visuele tokencompressie. Opvallend is dat ons onderzoek aantoont dat eenvoudige beeldverkleining consequent veel geavanceerde compressiemethoden overtreft op meerdere veelgebruikte benchmarks. Door uitgebreide experimenten hebben we de volgende observaties gemaakt: (i) Huidige benchmarks zijn onnauwkeurig voor de taak van visuele tokencompressie. (ii) Beeldverkleining kan dienen als een datafilter om de moeilijkheidsgraad van samples in de visuele tokencompressietaak te evalueren. Gemotiveerd door deze bevindingen introduceren we VTC-Bench, een evaluatieraamwerk dat een datafilteringsmechanisme bevat om bestaande benchmarks te ontdoen van ruis, waardoor een eerlijkere en nauwkeurigere beoordeling van visuele tokencompressiemethoden mogelijk wordt gemaakt. Alle data en code zijn beschikbaar op https://github.com/Chenfei-Liao/VTC-Bench.
Multimodale grote taalmodellen (MLLMs) hebben de afgelopen jaren een snelle ontwikkeling doorgemaakt. Bestaande benaderingen voor visuele taken zijn echter vaak afhankelijk van indirecte representaties, zoals het genereren van coördinaten als tekst voor detectie, wat de prestaties beperkt en dichte voorspellingstaken zoals segmentatie verhindert. Om deze uitdagingen te overwinnen, introduceren we Patch-as-Decodable Token (PaDT), een uniform paradigma dat MLLMs in staat stelt om zowel tekstuele als diverse visuele uitvoer direct te genereren. Centraal in PaDT staan Visual Reference Tokens (VRTs), afgeleid van visuele patchembeddings van queryafbeeldingen en naadloos verweven met de uitvoerteksttokens van het LLM. Een lichtgewicht decoder transformeert vervolgens de uitvoer van het LLM in detectie-, segmentatie- en grondingsvoorspellingen. In tegenstelling tot eerdere methoden verwerkt PaDT VRTs onafhankelijk bij elke forward pass en breidt het de embeddingtabel dynamisch uit, waardoor de lokalisatie en differentiatie tussen vergelijkbare objecten wordt verbeterd. We ontwikkelen verder een trainingsstrategie voor PaDT door willekeurig VRTs te selecteren voor supervised fine-tuning en een robuuste per-token cross-entropy loss te introduceren. Onze empirische studies over vier visuele perceptie- en begripstaken suggereren dat PaDT consistent state-of-the-art prestaties behaalt, zelfs in vergelijking met aanzienlijk grotere MLLM-modellen. De code is beschikbaar op https://github.com/Gorilla-Lab-SCUT/PaDT.
Bestaande methoden voor het extraheren van beloningssignalen in Reinforcement Learning vertrouwen doorgaans op gelabelde data en specifieke trainingssplits, een opzet die afwijkt van hoe mensen direct leren uit hun omgeving. In dit werk stellen we TTRV voor om visuele taalbegrip te verbeteren door het model tijdens de inferentie aan te passen, zonder de noodzaak van gelabelde data. Concreet versterken we het Group Relative Policy Optimization (GRPO)-raamwerk door beloningen te ontwerpen op basis van de frequentie van de uitvoer van het basismodel, terwijl we meerdere keren inferentie uitvoeren op elk testvoorbeeld. Daarnaast stellen we ook voor om de diversiteit van de uitvoer van het model te beheersen door het model tegelijkertijd te belonen voor het behalen van een lage entropie van de empirische verdeling van de uitvoer. Onze aanpak levert consistente verbeteringen op voor zowel objectherkenning als visuele vraagbeantwoording (VQA), met verbeteringen tot 52,4% en 29,8%, respectievelijk, en gemiddelde stijgingen van 24,6% en 10,0% over 16 datasets. Opmerkelijk is dat TTRV, toegepast op InternVL 8B, bij beeldherkenning GPT-4o gemiddeld met 2,3% overtreft over 8 benchmarks, terwijl het zeer competitief blijft op VQA, wat aantoont dat test-time reinforcement learning de sterkste propriëtaire modellen kan evenaren of overtreffen. Tot slot ontdekken we veel interessante eigenschappen van test-time RL voor VLMs: bijvoorbeeld, zelfs in extreem data-beperkte scenario's, waarbij aanpassing wordt uitgevoerd op een enkel willekeurig gekozen ongelabeld testvoorbeeld, levert TTRV nog steeds significante verbeteringen op tot 5,5% in herkenningstaken.
De ontwikkeling van state-of-the-art grote taalmodelen wordt doorgaans begrepen als een tweestaps proces dat bestaat uit voorafgaande training en nabehandeling. Wij wijzen op de noodzaak van een extra tussenliggende fase, genaamd versterkende midden-training, met potentieel voor aanzienlijke prestatieverbeteringen. In dit artikel definiëren we het probleem formeel en identificeren we drie belangrijke uitdagingen: (1) inefficiënte training door overmatige redeneerstappen, (2) verwaarlozing van de ongelijke verdeling van token-entropie, en (3) onderbenutting van tokeninformatie. Om deze uitdagingen aan te pakken, stellen we RMT voor, een raamwerk voor efficiënte, adaptieve en uniforme versterkende midden-training met diverse innovatieve componenten. In het bijzonder introduceren we eerst een dynamisch tokenbudgetmechanisme dat onnodige redeneerstappen beperkt en modeloverdenken vermindert. Vervolgens ontwerpen we een curriculumgebaseerde adaptieve steekproefmethode die een progressief leertraject van eenvoudige naar moeilijke tokens bevordert. Tot slot presenteren we een dubbele trainingsstrategie die versterkend leren combineert met voorspelling van het volgende token, waardoor gericht leren op sleuteltokens en volledige benutting van alle tokeninformatie wordt gegarandeerd. Uitgebreide experimenten tonen de superioriteit van RMT aan ten opzichte van state-of-the-art methoden, met een prestatieverbetering van tot wel +64,91% met slechts 21% van de redeneerlengte bij taalmodeling. We laten ook zien dat checkpoints die zijn verkregen na versterkende midden-training de daaropvolgende nabehandeling kunnen bevorderen, wat resulteert in een verbetering van tot wel +18,76% in het wiskundige domein.
De Uniform Information Density (UID)-hypothese suggereert dat effectieve communicatie een stabiele informatiestroom handhaaft. In dit werk herzien we dit principe in de context van reasoning traces van grote taalmodellen (LLM's), waarbij we onderzoeken of stapniveau-uniformiteit de kwaliteit van redenering weerspiegelt. Hiertoe stellen we een entropie-gebaseerde, stapsgewijze informatie-dichtheidsmetriek voor en introduceren we twee complementaire uniformiteitsmaten: lokale en globale uniformiteitsscores. Uit experimenten op zes verschillende reasoning benchmarks blijkt dat stapniveau-uniformiteit niet alleen een sterk theoretisch perspectief biedt, maar ook praktische prestatievoordelen oplevert; bijvoorbeeld, het selecteren van reasoning traces met een meer uniforme informatie-dichtheid op stapniveau verbetert de nauwkeurigheid met relatieve winsten van 10-32\% ten opzichte van de baseline bij AIME2025. Onze analyse toont verder aan dat correcte reasoning traces de neiging hebben om scherpe pieken in informatie-dichtheid te vermijden, terwijl incorrecte traces onregelmatige informatie-uitbarstingen vertonen. Deze resultaten tonen aan dat UID-geïnspireerde informatie-dichtheidsmaten alternatieve interne signalen overtreffen als voorspellers van redeneerkwaliteit. De resultaten benadrukken de uniformiteit van de informatie-dichtheid als een robuust diagnostisch en selectiecriterium voor het bouwen van betrouwbaardere en nauwkeurigere redeneersystemen.
De keuze van de optimizer heeft een aanzienlijke invloed op de trainings efficiëntie en de rekenkosten van grote taalmodellen (LLM's). Recentelijk heeft de Muon-optimizer veelbelovende resultaten laten zien door parameterupdates te orthogonaliseren, waardoor de optimalisatiegeometrie wordt verbeterd door betere conditionering. Ondanks dat Muon naar voren is gekomen als een mogelijke opvolger van Adam, is het potentieel om hun sterke punten gezamenlijk te benutten nog niet systematisch onderzocht. In dit werk overbruggen we deze kloof door NorMuon (Neuron-wise Normalized Muon) voor te stellen, een optimizer die orthogonalisatie synergetisch combineert met adaptieve leerpercentages op neuronniveau. Onze analyse laat zien dat Muon weliswaar effectief conditionele getallen reduceert, maar dat de resulterende updates sterk niet-uniforme neuronnormen vertonen, waardoor bepaalde neuronen het optimalisatieproces domineren. NorMuon lost deze onbalans op door tweede-orde momentumstatistieken voor elk neuron te behouden en rijgewijze normalisatie toe te passen na orthogonalisatie, waardoor een gebalanceerde parameterbenutting wordt gegarandeerd terwijl de conditioneringsvoordelen van Muon behouden blijven. Om praktische implementatie op grote schaal mogelijk te maken, ontwikkelen we een efficiënte gedistribueerde implementatie binnen het FSDP2-framework die orthogonalisatieberekeningen strategisch verdeelt over apparaten. Experimenten over meerdere modelschalen tonen aan dat NorMuon consistent beter presteert dan zowel Adam als Muon, met een 21,74% betere trainings efficiëntie dan Adam en een 11,31% verbetering ten opzichte van Muon in een 1,1 B pretrainingsinstelling, terwijl het een vergelijkbaar geheugenverbruik behoudt als Muon. Onze bevindingen suggereren dat orthogonalisatie en adaptieve leerpercentages complementair zijn in plaats van concurrerende benaderingen, wat nieuwe mogelijkheden opent voor het ontwerpen van optimizers in grootschalige deep learning.
Polsgezichtsobservaties zijn cruciaal voor VLA-modellen omdat ze fijnmazige hand-objectinteracties vastleggen die de manipulatieprestaties direct verbeteren. Toch bevatten grootschalige datasets zelden dergelijke opnames, wat resulteert in een aanzienlijke kloof tussen overvloedige ankergezichten en schaarse polsgezichten. Bestaande wereldmodellen kunnen deze kloof niet overbruggen, omdat ze een eerste frame vanuit polsgezicht vereisen en dus geen polsgezichtsvideo's kunnen genereren op basis van alleen ankergezichten. Tegen deze achtergrond duiken recente visuele geometriemodellen zoals VGGT op met geometrische en kruisgezichtspriors die het mogelijk maken extreme gezichtspuntenverschuivingen aan te pakken. Geïnspireerd door deze inzichten stellen we WristWorld voor, het eerste 4D-wereldmodel dat polsgezichtsvideo's genereert uitsluitend vanuit ankergezichten. WristWorld werkt in twee fasen: (i) Reconstructie, dat VGGT uitbreidt en onze Spatial Projection Consistency (SPC) Loss integreert om geometrisch consistente polsgezichtsposities en 4D-puntwolken te schatten; (ii) Generatie, dat ons videogeneratiemodel gebruikt om temporeel coherente polsgezichtsvideo's te synthetiseren vanuit het gereconstrueerde perspectief. Experimenten op Droid, Calvin en Franka Panda demonstreren state-of-the-art videogeneratie met superieure ruimtelijke consistentie, terwijl ook de VLA-prestaties worden verbeterd, met een verhoging van de gemiddelde taakvoltooiingslengte op Calvin met 3,81% en het dichten van 42,4% van de anker-polsgezichtskloof.
De integratie van online reinforcement learning (RL) in diffusie- en stroommodellen is recentelijk naar voren gekomen als een veelbelovende aanpak voor het afstemmen van generatieve modellen op menselijke voorkeuren. Stochastische steekproefname via Stochastic Differential Equations (SDE) wordt gebruikt tijdens het denoisingsproces om diverse denoisingrichtingen te genereren voor RL-exploratie. Hoewel bestaande methoden effectief potentiële hoogwaardige samples verkennen, lijden ze onder suboptimale voorkeursafstemming vanwege spaarzame en smalle beloningssignalen. Om deze uitdagingen aan te pakken, stellen we een nieuw Granular-GRPO (G^2RPO) raamwerk voor dat nauwkeurige en uitgebreide beloningsbeoordelingen van steekproefrichtingen bereikt in reinforcement learning van stroommodellen. Specifiek wordt een Singular Stochastic Sampling strategie geïntroduceerd om stapsgewijze stochastische exploratie te ondersteunen terwijl een hoge correlatie tussen de beloning en het geïnjecteerde ruis wordt afgedwongen, waardoor een betrouwbare beloning voor elke SDE-verstoring wordt gefaciliteerd. Tegelijkertijd introduceren we een Multi-Granularity Advantage Integration module om de bias inherent aan vaste-granulariteit denoising te elimineren, die voordelen berekend op meerdere diffusieschalen aggregeert, wat resulteert in een uitgebreidere en robuustere evaluatie van de steekproefrichtingen. Experimenten uitgevoerd op verschillende beloningsmodellen, inclusief zowel in-domein als out-of-domein evaluaties, tonen aan dat onze G^2RPO significant beter presteert dan bestaande stroomgebaseerde GRPO-baselines, wat de effectiviteit en robuustheid ervan benadrukt.
Hoewel taalmodellen (Language Models, LMs) aanzienlijke vooruitgang hebben geboekt in het automatiseren van machine learning engineering (MLE), blijft de verwerving van hoogwaardige MLE-trainingsdata aanzienlijk beperkt. Huidige MLE-benchmarks kampen met een lage schaalbaarheid en beperkte toepasbaarheid omdat ze afhankelijk zijn van statische, handmatig samengestelde taken, die veel tijd en handmatige inspanning vergen om te produceren. Wij introduceren MLE-Smith, een volledig geautomatiseerde multi-agent pijplijn, om ruwe datasets om te zetten in competitie-achtige MLE-uitdagingen via een efficiënt genereer-verifieer-uitvoer paradigma voor het schalen van MLE-taken met verifieerbare kwaliteit, real-world bruikbaarheid en rijke diversiteit. De voorgestelde multi-agent pijplijn in MLE-Smith stimuleert gestructureerde taakontwerpen en gestandaardiseerd refactoren, gekoppeld aan een hybride verificatiemechanisme dat strikte structurele regels en hoogwaardige semantische correctheid afdwingt. Het valideert verder empirische oplosbaarheid en real-world betrouwbaarheid door interactieve uitvoering. We passen MLE-Smith toe op 224 real-world datasets en genereren 606 taken die meerdere categorieën, doelstellingen en modaliteiten omvatten, wat aantoont dat MLE-Smith effectief kan werken over een breed scala aan real-world datasets. Evaluatie van de gegenereerde taken toont aan dat de prestaties van acht mainstream en state-of-the-art LLMs op MLE-Smith taken sterk gecorreleerd zijn met hun prestaties op zorgvuldig door mensen ontworpen taken, wat de effectiviteit van MLE-Smith benadrukt voor het opschalen van MLE-taken, terwijl de taakkwaliteit behouden blijft.
Gangbare evaluaties van grote taalmodellen (LLM's) vertrouwen op voorbeelden om de reacties van modellen in de gewenste stijl te sturen. Hoewel het aantal gebruikte voorbeelden is bestudeerd en gestandaardiseerd, is de keuze van hoe voorbeelden te formatteren minder onderzocht. In evaluatieprotocollen en in de praktijk staan gebruikers voor de keuze hoe in-context voorbeelden te scheiden: een komma gebruiken? een nieuwe regel? een puntkomma? een hashtag? etc.? Verrassend genoeg ontdekken we dat deze schijnbaar kleine keuze de kwaliteit van modelreacties drastisch kan beïnvloeden. Bij toonaangevende modelfamilies (Llama, Qwen, Gemma) kan de prestaties op MMLU bijvoorbeeld variëren met ±23% afhankelijk van de keuze van het scheidingsteken. Sterker nog, men kan modelrangschikkingen manipuleren om elk model aan de top te plaatsen door slechts het ene karakter te wijzigen dat voorbeelden scheidt. We ontdekken dat de broosheid van LLM's onderwerpen en modelfamilies doordringt, en niet verbetert met schaal. Door aandachtsscores van aandachtskoppen te onderzoeken, vinden we dat goed presterende scheidingstekens de aandacht sturen naar sleuteltokens in de invoer. Ten slotte verkennen we methoden om de robuustheid van LLM's tegenover de keuze van scheidingstekens te verbeteren. We ontdekken dat het specificeren van het geselecteerde scheidingsteken in de prompt de robuustheid verhoogt en bieden praktische aanbevelingen voor de best presterende scheidingstekens om te selecteren.
We presenteren AlphaApollo, een zelf-evoluerend agentisch redeneersysteem dat zich richt op het aanpakken van twee knelpunten in het redeneren van foundation models (FM's): beperkte model-intrinsieke capaciteit en onbetrouwbare iteratie tijdens testtijd. AlphaApollo coördineert meerdere modellen met professionele tools om weloverwogen, verifieerbaar redeneren mogelijk te maken. Het combineert (i) een rekentool (Python met numerieke en symbolische bibliotheken) en (ii) een ophaaltool (taakrelevante externe informatie) om exacte berekeningen uit te voeren en beslissingen te onderbouwen. Het systeem ondersteunt verder de evolutie van oplossingen in meerdere rondes en met meerdere modellen via een gedeelde statuskaart die kandidaten, uitvoerbare controles en feedback voor iteratieve verfijning vastlegt. In evaluaties op AIME 2024/2025 over meerdere modellen behaalt AlphaApollo consistente verbeteringen: +5,15% Gemiddelde@32 en +23,34% Geslaagd@32 voor Qwen2.5-14B-Instruct, en +8,91% Gemiddelde@32 met +26,67% Geslaagd@32 voor Llama-3.3-70B-Instruct. Analyse van toolgebruik laat zien dat meer dan 80% van de toolaanroepen succesvol wordt uitgevoerd, met consistente overprestatie ten opzichte van non-tool-baselines, waardoor het plafond van FM-capaciteiten wordt verhoogd. Meer empirische resultaten en implementatiedetails zullen worden bijgewerkt op https://github.com/tmlr-group/AlphaApollo.
In het afgelopen decennium is U-Net de dominante architectuur geweest voor medische beeldsegmentatie, wat heeft geleid tot de ontwikkeling van duizenden U-vormige varianten. Ondanks de brede adoptie ontbreekt nog steeds een uitgebreide benchmark om hun prestaties en nut systematisch te evalueren, voornamelijk vanwege onvoldoende statistische validatie en beperkte aandacht voor efficiëntie en generalisatie over diverse datasets. Om deze kloof te overbruggen, presenteren we U-Bench, de eerste grootschalige, statistisch rigoureuze benchmark die 100 U-Net-varianten evalueert over 28 datasets en 10 beeldvormingsmodaliteiten. Onze bijdragen zijn drievoudig: (1) Uitgebreide Evaluatie: U-Bench evalueert modellen langs drie belangrijke dimensies: statistische robuustheid, zero-shot generalisatie en computationele efficiëntie. We introduceren een nieuwe metriek, U-Score, die de prestatie-efficiëntie-afweging gezamenlijk vastlegt en een implementatiegericht perspectief biedt op modelvooruitgang. (2) Systematische Analyse en Modelselectiebegeleiding: We vatten de belangrijkste bevindingen van de grootschalige evaluatie samen en analyseren systematisch de impact van datasetkenmerken en architecturale paradigma's op modelprestaties. Op basis van deze inzichten stellen we een modeladviseur voor om onderzoekers te begeleiden bij het selecteren van de meest geschikte modellen voor specifieke datasets en taken. (3) Publieke Beschikbaarheid: We bieden alle code, modellen, protocollen en gewichten aan, waardoor de gemeenschap onze resultaten kan reproduceren en de benchmark kan uitbreiden met toekomstige methoden. Samengevat legt U-Bench niet alleen tekortkomingen in eerdere evaluaties bloot, maar legt het ook een basis voor eerlijke, reproduceerbare en praktisch relevante benchmarking in het komende decennium van U-Net-gebaseerde segmentatiemodellen. Het project is toegankelijk via: https://fenghetan9.github.io/ubench. Code is beschikbaar op: https://github.com/FengheTan9/U-Bench.
Generic Event Boundary Detection (GEBD) heeft als doel lange video's te interpreteren vanuit het perspectief van menselijke waarneming. Huidige GEBD-methoden vereisen echter de verwerking van complete videobeelden om voorspellingen te doen, in tegenstelling tot mensen die gegevens online en in real-time verwerken. Om deze kloof te overbruggen, introduceren we een nieuwe taak, Online Generic Event Boundary Detection (On-GEBD), die als doel heeft om grenzen van generieke gebeurtenissen direct in streamingvideo's te detecteren. Deze taak wordt geconfronteerd met unieke uitdagingen, zoals het identificeren van subtiele, taxonomie-vrije gebeurtenisveranderingen in real-time, zonder toegang tot toekomstige beelden. Om deze uitdagingen aan te pakken, stellen we een nieuw On-GEBD-framework voor, genaamd Estimator, geïnspireerd door de Event Segmentation Theory (EST), die verklaart hoe mensen doorlopende activiteiten segmenteren in gebeurtenissen door gebruik te maken van de verschillen tussen voorspelde en werkelijke informatie. Ons framework bestaat uit twee belangrijke componenten: de Consistent Event Anticipator (CEA) en de Online Boundary Discriminator (OBD). Specifiek genereert de CEA een voorspelling van het toekomstige beeld dat de huidige gebeurtenisdynamiek weerspiegelt, uitsluitend gebaseerd op eerdere beelden. Vervolgens meet de OBD de voorspellingsfout en past deze de drempelwaarde adaptief aan met behulp van statistische tests op eerdere fouten om diverse, subtiele gebeurtenisovergangen vast te leggen. Experimentele resultaten tonen aan dat Estimator alle baseline-methoden overtreft die zijn aangepast uit recente online video-begripsmodellen en prestaties bereikt die vergelijkbaar zijn met eerdere offline-GEBD-methoden op de Kinetics-GEBD en TAPOS datasets.
Text-to-video (T2V)-generatietechnologie heeft het potentieel om meerdere domeinen te transformeren, zoals onderwijs, marketing, entertainment en ondersteunende technologieën voor individuen met visuele of leesbegripsproblemen, door samenhangende visuele content te creëren op basis van natuurlijke taalprompts. Sinds haar ontstaan heeft het veld zich ontwikkeld van adversariële modellen naar diffusiegebaseerde modellen, wat resulteert in outputs van hogere kwaliteit en temporele consistentie. Toch blijven uitdagingen bestaan, zoals uitlijning, langeafstandscoherentie en computationele efficiëntie. In het licht van deze evoluerende landschap presenteren wij een uitgebreid overzicht van text-to-video generatieve modellen, waarbij we hun ontwikkeling traceren van vroege GAN's en VAE's naar hybride Diffusion-Transformer (DiT)-architecturen. We beschrijven hoe deze modellen werken, welke beperkingen van hun voorgangers ze aanpakken en waarom verschuivingen naar nieuwe architecturale paradigma's nodig waren om uitdagingen op het gebied van kwaliteit, coherentie en controle te overwinnen. We bieden een systematisch overzicht van de datasets waarop de besproken text-to-video modellen zijn getraind en geëvalueerd, en om reproduceerbaarheid te ondersteunen en de toegankelijkheid van het trainen van dergelijke modellen te beoordelen, specificeren we hun trainingsconfiguraties, inclusief hardware-specificaties, aantal GPU's, batchgroottes, leerpercentages, optimalisatoren, epochs en andere belangrijke hyperparameters. Verder schetsen we de evaluatiemetrics die vaak worden gebruikt om dergelijke modellen te beoordelen en presenteren we hun prestaties op standaard benchmarks, terwijl we ook de beperkingen van deze metrics bespreken en de opkomende verschuiving naar meer holistische, perceptie-afgestemde evaluatiestrategieën. Ten slotte, voortbouwend op onze analyse, schetsen we de huidige open uitdagingen en stellen we enkele veelbelovende toekomstige richtingen voor, waarbij we een perspectief bieden voor toekomstige onderzoekers om te verkennen en op voort te bouwen in het bevorderen van T2V-onderzoek en -toepassingen.
We introduceren Heptapod, een autoregressief beeldmodel dat zich houdt aan de fundamentele principes van taalmodellering. Heptapod maakt gebruik van causale aandacht, elimineert de afhankelijkheid van CFG en wijkt af van de trend van semantische tokenizers. Onze belangrijkste innovatie is de voorspelling van de volgende 2D-distributie: een causaal Transformer-model met een visuele tokenizer gericht op reconstructie, leert de distributie over het gehele 2D-ruimtelijke rooster van beelden te voorspellen bij elke tijdstap. Dit leerdoel verenigt de sequentiële modellering van het autoregressieve raamwerk met de holistische zelfsupervisie van gemaskeerde auto-encoding, waardoor het model in staat is om uitgebreide beeld semantiek vast te leggen via generatieve training. Op de ImageNet-generatiebenchmark behaalt Heptapod een FID van 2,70, wat aanzienlijk beter is dan eerdere causale autoregressieve benaderingen. We hopen dat ons werk een principieel herdenken van taalmodellering op visuele signalen en daarbuiten inspireert.
Codewisseling (CSW), het afwisselen van talen en schriften binnen een enkele uiting, blijft een fundamentele uitdaging voor meertalige NLP, zelfs te midden van de snelle vooruitgang van grote taalmmodellen (LLM's). De meeste LLM's worstelen nog steeds met gemengde taalinputs, beperkte CSW-datasets en evaluatievooroordelen, wat de inzet in meertalige samenlevingen belemmert. Dit overzicht biedt de eerste uitgebreide analyse van CSW-bewust LLM-onderzoek, waarbij unieke_referentiestudies worden besproken die vijf onderzoeksgebieden, 12 NLP-taken, 30+ datasets en 80+ talen omvatten. We classificeren recente vooruitgang op basis van architectuur, trainingsstrategie en evaluatiemethodologie, en schetsen hoe LLM's CSW-modellering hebben hervormd en welke uitdagingen blijven bestaan. Het artikel sluit af met een routekaart die de noodzaak benadrukt van inclusieve datasets, eerlijke evaluatie en taalkundig onderbouwde modellen om echt meertalige intelligentie te bereiken. Een gecureerde verzameling van alle bronnen wordt onderhouden op https://github.com/lingo-iitgn/awesome-code-mixing/.
Computer-use agent (CUA)-frameworks, aangedreven door grote taalmodellen (LLMs) of multimodale LLMs (MLLMs), ontwikkelen zich snel als assistenten die context kunnen waarnemen, redeneren en direct kunnen handelen binnen softwareomgevingen. Een van hun meest kritieke toepassingen is besturingssysteem (OS)-controle. Naarmate CUAs in het OS-domein steeds meer ingebed raken in dagelijkse operaties, is het essentieel om hun real-world beveiligingsimplicaties te onderzoeken, specifiek of CUAs misbruikt kunnen worden om realistische, beveiligingsrelevante aanvallen uit te voeren. Bestaande werken vertonen vier belangrijke beperkingen: een ontbrekend aanvallerskennismodel voor tactieken, technieken en procedures (TTP), onvolledige dekking voor end-to-end kill chains, een onrealistische omgeving zonder multi-host en versleutelde gebruikersreferenties, en onbetrouwbaar oordeel afhankelijk van LLM-as-a-Judge. Om deze lacunes aan te pakken, stellen we AdvCUA voor, de eerste benchmark die is afgestemd op real-world TTPs in de MITRE ATT&CK Enterprise Matrix, die bestaat uit 140 taken, waaronder 40 directe kwaadaardige taken, 74 TTP-gebaseerde kwaadaardige taken en 26 end-to-end kill chains, en CUAs systematisch evalueert onder een realistische bedreiging van enterprise OS-beveiliging in een multi-host omgeving sandbox door middel van hard-coded evaluatie. We evalueren de bestaande vijf mainstream CUAs, waaronder ReAct, AutoGPT, Gemini CLI, Cursor CLI en Cursor IDE, gebaseerd op 8 foundation LLMs. De resultaten tonen aan dat de huidige frontier CUAs niet voldoende dekking bieden voor OS-beveiligingsgerichte bedreigingen. Deze mogelijkheden van CUAs verminderen de afhankelijkheid van aangepaste malware en diepgaande domeinkennis, waardoor zelfs onervaren aanvallers complexe enterprise-inbraken kunnen uitvoeren, wat maatschappelijke zorgen oproept over de verantwoordelijkheid en beveiliging van CUAs.
Ondanks indrukwekkende visuele kwaliteit produceren moderne videogeneratieve modellen vaak sequenties die intuïtieve natuurwetten schenden, zoals objecten die zweven, teleporteren of vervormen op manieren die causaliteit tarten. Hoewel mensen dergelijke onwaarschijnlijkheden gemakkelijk kunnen detecteren, bestaat er nog geen robuuste methode om fysieke realisme in video's kwantitatief te beoordelen. In dit werk onderzoeken we of Video-Language Models (VLMs) kunnen worden getraind om betrouwbare beoordelaars van fysieke plausibiliteit te worden. We constateren dat bestaande VLMs moeite hebben om schendingen van de fysica te identificeren, wat fundamentele beperkingen in hun temporele en causale redenering blootlegt. Om dit aan te pakken, introduceren we TRAVL, een fine-tuning methode die een uitgebalanceerde trainingsdataset combineert met een trajectbewuste aandachtmodule om de codering en discriminatie van beweging in VLMs te verbeteren. Om fysieke redenering rigoureuzer te evalueren, stellen we ImplausiBench voor, een benchmark van 300 video's (150 echt, 150 gegenereerd) die linguïstische vooroordelen verwijdert en visueel-temporeel begrip isoleert. De prestaties worden gerapporteerd met zowel gouden standaard menselijke beoordelingen als strengere LLM-as-judge metrieken. Samen bieden TRAVL en ImplausiBench een uniform raamwerk voor het onderzoeken en verbeteren van fysieke plausibiliteit in multimodale modellen, wat licht werpt op een uitdagend en onderbelicht aspect van visueel-temporeel begrip.
Met de toenemende toepassing van Retrieval-Augmented Generation (RAG) zijn sterke retrievalsystemen belangrijker dan ooit geworden. In de gezondheidszorg bieden multimodale retrievalsystemen die informatie uit zowel tekst als afbeeldingen combineren grote voordelen voor veel downstream taken, zoals vraagbeantwoording, cross-modale retrieval en multimodale samenvatting, aangezien medische gegevens vaak beide formaten omvatten. Er is echter momenteel geen standaard benchmark om te evalueren hoe goed deze systemen presteren in medische contexten. Om dit gat te dichten, introduceren we M3Retrieve, een Multimodal Medical Retrieval Benchmark. M3Retrieve beslaat 5 domeinen, 16 medische vakgebieden en 4 verschillende taken, met meer dan 1,2 miljoen tekstdocumenten en 164K multimodale queries, allemaal verzameld onder goedgekeurde licenties. We evalueren toonaangevende multimodale retrievalsystemen op deze benchmark om de uitdagingen die specifiek zijn voor verschillende medische specialismen te verkennen en hun impact op de retrievalprestaties te begrijpen. Door M3Retrieve beschikbaar te stellen, willen we systematische evaluatie mogelijk maken, modelinnovatie bevorderen en onderzoek versnellen naar het ontwikkelen van krachtigere en betrouwbaardere multimodale retrievalsystemen voor medische toepassingen. De dataset en de baselinecode zijn beschikbaar op deze GitHub-pagina: https://github.com/AkashGhosh/M3Retrieve.
De reisplanningsagent (Travel Planning Agent, TP) is recentelijk naar voren gekomen als een belangrijk bouwblok voor het interacteren met externe tools en bronnen om reisitineraires te genereren, waarbij een prettige gebruikerservaring wordt gegarandeerd. Ondanks de voordelen vertrouwen bestaande studies op handmatig gemaakte prompts en vaste agentworkflows, wat een flexibelere en autonome TP-agent belemmert. Dit artikel introduceert DeepTravel, een end-to-end agentisch reinforcement learning-framework voor het bouwen van een autonome reisplanningsagent, die in staat is om autonoom te plannen, tools uit te voeren en te reflecteren op toolresponses om tussenliggende acties in meerstapsredenering te verkennen, verifiëren en verfijnen. Om dit te bereiken, construeren we eerst een robuuste sandbox-omgeving door transport-, accommodatie- en POI-gegevens te cachen, waardoor de training van de TP-agent niet wordt beperkt door beperkingen van echte API's (bijv. inconsistente outputs). Bovendien ontwikkelen we een hiërarchisch beloningsmodel, waarbij een trajectniveauverifier eerst de ruimtelijk-temporele haalbaarheid controleert en onbevredigende reisitineraires filtert, waarna de turnniveauverifier de consistentie van de itinerairedetails met de toolresponses verder valideert, wat een efficiënte en precieze beloningsdienst mogelijk maakt. Ten slotte introduceren we de reply-augmented reinforcement learning-methode, die de TP-agent in staat stelt om periodiek te herhalen vanuit een buffer met foutieve ervaringen, wat leidt tot een opmerkelijke agentische capaciteit. We implementeren de getrainde TP-agent in de DiDi Enterprise Solutions App en voeren uitgebreide online en offline evaluaties uit, waaruit blijkt dat DeepTravel kleine LLM's (bijv. Qwen3 32B) in staat stelt om aanzienlijk beter te presteren dan bestaande frontier LLM's zoals OpenAI o1, o3 en DeepSeek R1 in reisplannings taken.
Grote Taalmodellen (LLM's) hallucineren vaak bij langere vragen, waarbij ze plausibele maar feitelijk onjuiste antwoorden produceren. Een veelgebruikte mitigatiestrategie is het toekennen van attributie aan de uitvoer van LLM's. Bestaande benchmarks richten zich echter voornamelijk op eenvoudige attributie die ondersteunend tekstueel bewijs als referenties ophaalt. Wij stellen dat in realistische scenario's, zoals financiële toepassingen, attributie verder gaat dan het ophalen van referenties. We introduceren FinLFQA, een benchmark die is ontworpen om het vermogen van LLM's te evalueren om langere antwoorden te genereren op complexe financiële vragen met betrouwbare en genuanceerde attributies. FinLFQA evalueert drie kritieke aspecten van attributie door middel van menselijke annotaties: (1) ondersteunend bewijs geëxtraheerd uit financiële rapporten, (2) tussenliggende numerieke redeneerstappen, en (3) domeinspecifieke financiële kennis die het redeneerproces informeert. We bieden verder een automatisch evaluatieraamwerk dat zowel de kwaliteit van het antwoord als de kwaliteit van de attributie omvat. Door uitgebreide experimenten met acht LLM's over meerdere attributie-generatieparadigma's, vinden we dat fijnmazige metrieken belangrijk zijn om modelcapaciteiten te onderscheiden, dat end-to-end generatie vergelijkbare prestaties bereikt als post-hoc benaderingen, en dat iteratieve verfijning alleen helpt wanneer deze wordt begeleid door externe feedback.
De opkomst van visuele autoregressieve (AR) modellen heeft een revolutie teweeggebracht in beeldgeneratie, terwijl het tegelijkertijd nieuwe uitdagingen biedt voor de detectie van synthetische beelden. In tegenstelling tot eerdere GAN- of diffusiegebaseerde methoden genereren AR-modellen beelden via discrete tokenvoorspelling, wat zowel aanzienlijke verbeteringen in de kwaliteit van beeld synthese laat zien als unieke kenmerken in hun vectorgekwantiseerde representaties. In dit artikel stellen we voor om Discrete Distribution Discrepancy-aware Quantization Error (D^3QE) te benutten voor de detectie van autoregressief gegenereerde beelden, waarbij we gebruikmaken van de onderscheidende patronen en de frequentieverdeling bias van de codebook die aanwezig zijn in echte en nepbeelden. We introduceren een discrete distributie-discrepantiebewuste transformer die dynamische codebook frequentiestatistieken integreert in zijn aandachtmechanisme, waarbij semantische kenmerken en kwantiseringsfoutlatent worden samengevoegd. Om onze methode te evalueren, hebben we een uitgebreide dataset samengesteld genaamd ARForensics, die 7 mainstream visuele AR-modellen omvat. Experimenten tonen superieure detectienauwkeurigheid en sterke generalisatie van D^3QE aan over verschillende AR-modellen, met robuustheid tegen real-world verstoringen. De code is beschikbaar op https://github.com/Zhangyr2022/D3QE{https://github.com/Zhangyr2022/D3QE}.
Dit onderzoek bestudeert de redeneer- en planningscapaciteiten van foundation modellen en hun schaalbaarheid in complexe, dynamische omgevingen. We introduceren PuzzlePlex, een benchmark ontworpen om deze capaciteiten te beoordelen via een diverse set puzzels. PuzzlePlex bestaat uit 15 soorten puzzels, waaronder deterministische en stochastische spellen van verschillende moeilijkheidsgraden, evenals single-player en two-player scenario's. Het PuzzlePlex-framework biedt een uitgebreide omgeving voor elk spel en ondersteunt uitbreidbaarheid om meer uitdagende instanties te genereren naarmate foundation modellen evolueren. Daarnaast implementeren we aangepaste spelstrategieën voor vergelijking. Op basis van deze benchmark ontwikkelen we gedetailleerde metrieken om prestaties te meten en voeren we een diepgaande analyse uit van frontier foundation modellen in twee settings: instructiegebaseerd en codegebaseerd. Verder onderzoeken we systematisch hun schaalbaarheidslimieten. Onze bevindingen tonen aan dat redeneermodellen beter presteren dan andere in instructiegebaseerde settings, terwijl codegebaseerde uitvoering grotere uitdagingen biedt maar een schaalbare en efficiënte alternatieve aanpak mogelijk maakt. PuzzlePlex maakt gerichte evaluatie mogelijk en leidt toekomstige verbeteringen in redeneren, plannen en generalisatie voor foundation modellen.
Time Series Imputation (TSI), dat als doel heeft ontbrekende waarden in temporele data te herstellen, blijft een fundamentele uitdaging vanwege de complexe en vaak hoge mate van ontbrekende waarden in realistische scenario's. Bestaande modellen optimaliseren doorgaans het puntgewijze reconstructieverlies, waarbij de focus ligt op het herstellen van numerieke waarden (lokale informatie). We observeren echter dat bij hoge ontbrekingspercentages deze modellen nog steeds goed presteren tijdens de trainingsfase, maar slechte imputaties en vervormde latente representatiedistributies (globale informatie) produceren in de inferentiefase. Dit onthult een kritisch optimalisatiedilemma: huidige doelstellingen missen globale begeleiding, waardoor modellen overfit raken op lokaal lawaai en er niet in slagen om globale informatie van de data vast te leggen. Om dit probleem aan te pakken, stellen we een nieuw trainingsparadigma voor, het Glocal Information Bottleneck (Glocal-IB). Glocal-IB is model-agnostisch en breidt het standaard IB-raamwerk uit door een Global Alignment-verlies te introduceren, afgeleid van een behandelbare benadering van wederzijdse informatie. Dit verlies brengt de latente representaties van gemaskeerde invoeren in overeenstemming met die van hun oorspronkelijk waargenomen tegenhangers. Het helpt het model om globale structuur en lokale details te behouden terwijl het lawaai veroorzaakt door ontbrekende waarden onderdrukt, wat leidt tot betere generalisatie bij hoge ontbrekingspercentages. Uitgebreide experimenten op negen datasets bevestigen dat Glocal-IB leidt tot consistent verbeterde prestaties en uitgelijnde latente representaties bij ontbrekende waarden. Onze code-implementatie is beschikbaar op https://github.com/Muyiiiii/NeurIPS-25-Glocal-IB.