Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De opkomst van multi-agent systemen gebouwd op grote taalmodellen (LLM's) biedt een veelbelovend paradigma voor schaalbare collectieve intelligentie en zelf-evolutie. In een ideale situatie zouden dergelijke systemen continue zelfverbetering bereiken in een volledig gesloten lus, terwijl robuuste veiligheidsafstemming wordt gehandhaafd – een combinatie die wij het zelf-evolutie trilemma noemen. Wij tonen echter zowel theoretisch als empirisch aan dat een agentensamenleving die voldoet aan continue zelf-evolutie, volledige isolatie en veiligheidsinvariantie onmogelijk is. Op basis van een informatie-theoretisch kader formaliseren wij veiligheid als de graad van divergentie van antropische waardeverdelingen. Theoretisch demonstreren wij dat geïsoleerde zelf-evolutie statistische blinde vlekken induceert, wat leidt tot de onomkeerbare degradatie van de veiligheidsafstemming van het systeem. Empirische en kwalitatieve resultaten van een open-ended agentengemeenschap (Moltbook) en twee gesloten zelf-evoluerende systemen onthullen fenomenen die overeenkomen met onze theoretische voorspelling van onvermijdelijke veiligheidserosie. Wij stellen verder verschillende oplossingsrichtingen voor om het geïdentificeerde veiligheidsprobleem te verlichten. Ons werk stelt een fundamentele grens aan zelf-evoluerende AI-samenlevingen en verschuift het discours van symptoomgerichte veiligheidsoplapwerk naar een principieel begrip van intrinsieke dynamische risico's, waarbij de noodzaak van extern toezicht of nieuwe veiligheid-bewarende mechanismen wordt benadrukt.
Grootschalige verifieerbare prompts vormen de basis voor het succes van Reinforcement Learning with Verifiable Rewards (RLVR), maar ze bevatten veel niet-informatieve voorbeelden en zijn kostbaar om verder uit te breiden. Recente studies richten zich op het beter benutten van beperkte trainingsdata door prioriteit te geven aan moeilijke prompts met een slagingspercentage van 0. Echter, eenvoudige prompts met een slagingspercentage van 1 worden naarmate de training vordert ook steeds gebruikelijker, wat de effectieve datagrootte verkleint. Om dit te verhelpen, stellen we Composition-RL voor: een eenvoudige maar nuttige aanpak om beperkte verifieerbare prompts, met name prompts met slagingspercentage 1, beter te benutten. Concreet composeert Composition-RL automatisch meerdere problemen tot een nieuwe verifieerbare vraag en gebruikt deze samengestelde prompts voor RL-training. Uitgebreide experimenten met modelgroottes van 4B tot 30B tonen aan dat Composition-RL consistent de redeneercapaciteit verbetert vergeleken met RL getraind op de originele dataset. De prestaties kunnen verder worden verbeterd met een curriculumvariant van Composition-RL die geleidelijk de compositiediepte tijdens de training verhoogt. Bovendien maakt Composition-RL effectievere cross-domein RL mogelijk door prompts uit verschillende domeinen te combineren. Code, datasets en modellen zijn beschikbaar op https://github.com/XinXU-USTC/Composition-RL.
Huidige geünificeerde multimodale modellen voor beeldgeneratie en -bewerking zijn doorgaans afhankelijk van massieve parameterschalen (bijv. >10B), wat exorbitante trainingskosten en implementatievoetafdrukken met zich meebrengt. In dit werk presenteren we DeepGen 1.0, een lichtgewicht 5B-geünificeerd model dat een uitgebreide capaciteit bereikt die concurreert met of grotere tegenhangers overtreft. Om de beperkingen van compacte modellen in semantisch begrip en fijnmazige controle te overwinnen, introduceren we Stacked Channel Bridging (SCB), een diep uitlijningsraamwerk dat hiërarchische kenmerken uit meerdere VLM-lagen extraheert en fuseert met leerbare 'denk-tokens' om de generatieve backbone van gestructureerde, redeneringsrijke begeleiding te voorzien. We ontwerpen verder een data-gecentreerde trainingsstrategie over drie progressieve fasen: (1) Uitlijningsvooropleiding op grootschalige beeld-tekstparen en bewerkingstriplets om VLM- en DiT-representaties te synchroniseren, (2) Gezamenlijke supervised fine-tuning op een hoogwaardig mengsel van generatie-, bewerkings- en redeneertaken om alomvattende capaciteiten te bevorderen, en (3) Versterkend Leren met MR-GRPO, dat gebruikmaakt van een mengsel van beloningsfuncties en supervisiesignalen, wat resulteert in aanzienlijke verbeteringen in generatiekwaliteit en afstemming met menselijke voorkeuren, terwijl stabiele trainingsvoortgang wordt behouden en visuele artefacten worden vermeden. Ondanks training op slechts ~50M samples behaalt DeepGen 1.0 toonaangevende prestaties op diverse benchmarks, waarbij het de 80B HunyuanImage met 28% overtreft op WISE en de 27B Qwen-Image-Edit met 37% op UniREditBench. Door onze trainingscode, gewichten en datasets open source te maken, bieden we een efficiënt, hoogwaardig alternatief om geünificeerd multimodaal onderzoek te democratiseren.
Vision-language-action (VLA)-modellen die direct meerstaps actieblokken voorspellen vanuit huidige observaties kampen met inherente beperkingen door een beperkt scenebegrip en zwakke toekomstanticipatie. In tegenstelling hiermee vertonen videowereldmodellen, voorgetraind op web-schaal videocorpora, robuuste ruimtelijk-temporele redeneervaardigheden en accurate toekomstvoorspelling, wat ze een natuurlijke basis maakt om VLA-leren te verbeteren. Daarom stellen we GigaBrain-0.5M* voor, een VLA-model getraind via op wereldmodellen gebaseerd reinforcement learning. Gebouwd op GigaBrain-0.5, dat voorgetraind is op meer dan 10.000 uur aan robotmanipulatiegegevens en waarvan de tussentijdse versie momenteel eerste staat op de internationale RoboChallenge-benchmark. GigaBrain-0.5M* integreert verder reinforcement learning gebaseerd op wereldmodellen via RAMP (Reinforcement leArning via world Model-conditioned Policy) om robuuste adaptatie tussen taken mogelijk te maken. Empirische resultaten tonen aan dat RAMP substantiële prestatieverbeteringen bereikt ten opzichte van de RECAP-basislijn, met verbeteringen van ongeveer 30% op uitdagende taken zoals Laundry Folding, Box Packing en Espresso Preparation. Cruciaal is dat GigaBrain-0.5M* betrouwbare uitvoering over lange tijdshorizonnen vertoont, waarbij het consistent complexe manipulatietaken voltooit zonder falen, zoals gevalideerd door implementatievideo's in de echte wereld op onze https://gigabrain05m.github.io{projectpagina}.
On-policy distillatie (OPD), waarbij de student wordt afgestemd op de logit-verdeling van de leraar op door de student gegenereerde trajecten, heeft sterke empirische verbeteringen aangetoond in de prestaties van de student en overtreft vaak off-policy distillatie en reinforcement learning (RL) paradigma's. In dit werk tonen we eerst theoretisch aan dat OPD een speciaal geval is van dense RL met een KL-beperking, waarbij de beloningsfunctie en de KL-regularisatie altijd even zwaar worden gewogen en het referentiemodel elk willekeurig model kan zijn. Vervolgens stellen we het Generalized On-Policy Distillation (G-OPD) raamwerk voor, dat het standaard OPD-doel uitbreidt door een flexibel referentiemodel en een schaalfactor voor de beloning te introduceren die het relatieve gewicht van de beloningsterm ten opzichte van de KL-regularisatie regelt. Door middel van uitgebreide experimenten met wiskundige redeneer- en codegeneratietaken leiden we twee nieuwe inzichten af: (1) Het instellen van de schaalfactor voor de beloning op groter dan 1 (d.w.z. beloningsextrapolatie), wat we ExOPD noemen, levert consistente verbetering op ten opzichte van standaard OPD over een reeks van leraar-student grootte-combinaties. Met name in de setting waar we kennis van verschillende domeinexperts, verkregen door domeinspecifieke RL op hetzelfde studentmodel toe te passen, terug samenvoegen in de oorspronkelijke student, stelt ExOPD de student in staat om zelfs de prestatiegrens van de leraar te overtreffen en de domeinleraren te verslaan. (2) Voortbouwend op ExOPD, ontdekken we verder dat in de strong-to-weak distillatie-setting (d.w.z. het distilleren van een kleinere student uit een grotere leraar), het uitvoeren van beloningscorrectie door het referentiemodel te kiezen als het basis model van de leraar vóór RL een nauwkeuriger beloningssignaal oplevert en de distillatieprestatie verder verbetert. Deze keuze vereist echter toegang tot de variant van de leraar vóór RL en brengt meer rekenkosten met zich mee. We hopen dat ons werk nieuwe inzichten biedt voor toekomstig onderzoek naar OPD.
Discrete audiocoderingen vormen de basis voor het toekennen van native audioverwerkings- en generatiecapaciteiten aan grote taalmodel(len). Ondanks recente vooruitgang zijn bestaande methoden vaak afhankelijk van vooraf getrainde encoders, semantische distillatie of heterogene op CNN gebaseerde architecturen. Deze ontwerpen introduceren vaste inductieve vooroordelen die de reconstructiekwaliteit beperken en effectieve schaalvergroting belemmeren. In dit artikel beargumenteren wij dat discrete audiocodering volledig end-to-end moet worden aangeleerd met een homogene en schaalbare architectuur. Hiertoe stellen we eerst CAT (Causal Audio Tokenizer with Transformer) voor, een puur op Transformers gebaseerde architectuur die de encoder, quantizer en decoder vanaf nul gezamenlijk optimaliseert voor hoogwaardige reconstructie. Voortbouwend op de CAT-architectuur ontwikkelen we MOSS-Audio-Tokenizer, een grootschalige audiocodering met 1,6 miljard parameters, voorgetraind op 3 miljoen uur diverse, algemene audiogegevens. Wij tonen aan dat deze eenvoudige, volledig end-to-end aanpak, opgebouwd uit homogene causale Transformer-blokken, elegant schaalt en hoogwaardige reconstructie ondersteunt in diverse audiodomeinen. Voor spraak, geluiden en muziek overtreft MOSS-Audio-Tokenizer consistent eerdere codecs over een breed bitratebereik, terwijl het voorspelbare verbeteringen vertoont bij toenemende schaal. Opmerkelijk is dat we, door gebruik te maken van de discrete tokens van ons model, het eerste puur autoregressieve TTS-model ontwikkelen dat eerdere niet-autoregressieve en gegeneraliseerde systemen overtreft. Bovendien maakt MOSS-Audio-Tokenizer competitieve ASR-prestaties mogelijk zonder hulp-encoders. Onze bevindingen positioneren de CAT-architectuur als een uniforme, schaalbare interface voor de volgende generatie van native audio-foundationmodellen.
Het synthetiseren van coherente soundtracks voor lange video's blijft een formidabele uitdaging, die momenteel wordt belemmerd door drie kritieke obstakels: computationele schaalbaarheid, temporele coherentie, en, het belangrijkst, een alomtegenwoordige semantische blindheid voor evoluerende narratieve logica. Om deze kloof te overbruggen, stellen we NarraScore voor, een hiërarchisch framework gebaseerd op de kerninzicht dat emotie dient als een hoogwaardige compressie van narratieve logica. Op unieke wijze hergebruiken we bevroren Vision-Language Modellen (VLM's) als continue affectieve sensoren, die hoogdimensionale visuele stromen destilleren tot dichte, narratief-bewuste Valence-Arousal-trajecten. Mechanistisch gezien hanteert NarraScore een Dual-Branch Injectiestrategie om globale structuur met lokale dynamiek te verzoenen: een Globale Semantische Anker zorgt voor stilistische stabiliteit, terwijl een chirurgische Token-Level Affectieve Adapter de lokale spanning moduleert via directe elementgewijze residuele injectie. Dit minimalistische ontwerp omzeilt de knelpunten van dichte aandacht en architecturaal klonen, en vermindert effectief de overfittingsrisico's die gepaard gaan met dataschaarste. Experimenten tonen aan dat NarraScore state-of-the-art consistentie en narratieve afstemming bereikt met verwaarloosbare computationele overhead, waarmee een volledig autonoom paradigma voor soundtrackgeneratie voor lange video's wordt gevestigd.
Juridische redenering vereist niet alleen correcte uitkomsten, maar ook procedureel conforme denkprocessen. Bestaande methoden missen echter mechanismen om tussentijdse redeneerstappen te verifiëren, waardoor fouten zoals ontoepasselijke wetsverwijzingen onopgemerkt door de redeneerketen kunnen voortplanten. Om dit aan te pakken, presenteren wij LawThinker, een autonome juridische onderzoeksagent die een Verkennen-Verifiëren-Onthouden strategie hanteert voor dynamische juridische omgevingen. De kernidee is om verificatie als een atomische operatie af te dwingen na elke stap van kennisverkenning. Een DeepVerifier-module onderzoekt elk retrieved resultaat langs drie dimensies: kennisnauwkeurigheid, feit-recht relevantie en procedurele conformiteit, ondersteund door een geheugenmodule voor kruisronde kennishergebruik bij langlopende taken. Experimenten op de dynamische benchmark J1-EVAL tonen aan dat LawThinker een verbetering van 24% bereikt ten opzichte van direct redeneren en 11% wint op workflow-gebaseerde methoden, met bijzonder sterke verbeteringen op procesgerichte metrieken. Evaluaties op drie statische benchmarks bevestigen verder diens generalisatievermogen. De code is beschikbaar op https://github.com/yxy-919/LawThinker-agent.
Bestaande multimodale grote taalmodellen hebben hoogwaardige visuele waarneming en verkennende visuele generatie bereikt. Er blijft echter een precisieparadox bestaan in complexe redeneertaken: optische waarnemingssystemen transcriberen symbolen zonder de logische topologie vast te leggen, terwijl op pixels gebaseerde generatieve modellen visuele artefacten produceren die wiskundige exactheid missen. Om deze kloof te overbruggen, stellen wij voor dat redeneren over visuele invoer wordt herconceptualiseerd als optische decompressie – het proces van het reconstrueren van latente logische structuren uit gecomprimeerde visuele tokens. Geleid door het axioma dat Parseren Gelijkstaat aan Redeneren, introduceren wij Denken met Ontwerpen (TwD), dat een minimalistische domeinspecifieke taal (DSL) gebruikt als een grondige tussenrepresentatie. In tegenstelling tot standaardbenaderingen die antwoorden direct hallucineren, dwingt TwD het model om zijn mentale model te ontwerpen in uitvoerbare code, waarbij deterministische visuele bewijzen worden gegenereerd voor zelfverificatie. Om dit te valideren, presenteren wij VisAlg, een visuele algebra-benchmark. Experimenten tonen aan dat TwD dient als superieur cognitief steigersysteem. Ons werk vestigt een gesloten systeem waarbij visuele generatie niet fungeert als creatieve output maar als logische verificator, wat een generaliseerbaar pad biedt voor visueel redeneren.
Het bereiken van effectieve schaling tijdens testtijd vereist dat modellen In-Context Exploratie kunnen toepassen – het intrinsieke vermogen om meerdere redeneerhypothesen binnen één doorlopende context te genereren, verifiëren en verfijnen. Gegrond in de State Coverage-theorie identificeert onze analyse een kritieke bottleneck voor het mogelijk maken van deze capaciteit: hoewel een bredere state coverage langere redeneertrajecten vereist, vervalt de kans om dergelijke sequenties te bemonsteren exponentieel tijdens autoregressieve generatie, een fenomeen dat wij de "Shallow Exploration Trap" noemen. Om deze kloof te overbruggen, stellen wij Length-Incentivized Exploration (\method) voor. Dit eenvoudige maar effectieve recept moedigt modellen expliciet aan om meer te exploreren via een op lengte gebaseerde beloning in combinatie met een straf voor redundantie, waardoor de state coverage op een tweeledige manier wordt gemaximaliseerd. Uitgebreide experimenten met verschillende modellen (Qwen3, Llama) tonen aan dat \method in-context exploratie effectief stimuleert. Hierdoor behaalt onze methode een gemiddelde verbetering van 4,4% op in-domeintaken en een winst van 2,7% op out-of-domain benchmarks.
Ondanks de voortdurende schaalvergroting van modelcapaciteit en data-acquisitie blijven Vision-Language-Action (VLA)-modellen broos in contactrijke en dynamische manipulatietaken, waarbij kleine uitvoeringsafwijkingen kunnen oplopen tot mislukkingen. Hoewel reinforcement learning (RL) een principieel pad naar robuustheid biedt, wordt on-policy RL in de fysieke wereld beperkt door veiligheidsrisico's, hardwarekosten en de noodzaak van omgevingsreset. Om deze kloof te overbruggen, presenteren we RISE, een schaalbaar framework voor robotreinforcement learning via verbeelding. De kern ervan is een Compositioneel Wereldmodel dat (i) de toekomst vanuit meerdere perspectieven voorspelt via een controleerbaar dynamisch model, en (ii) verbeeldde uitkomsten evalueert met een progressie-waardemodel, waardoor informatieve 'advantages' worden geproduceerd voor beleidsverbetering. Een dergelijk compositioneel ontwerp maakt het mogelijk om de toestand en waarde af te stemmen met de best geschikte, maar toch verschillende architecturen en doelstellingen. Deze componenten zijn geïntegreerd in een gesloten, zelfverbeterende pijplijn die continu denkbeeldige rollouts genereert, advantages schat en het beleud bijwerkt in de denkbeeldige ruimte, zonder kostbare fysieke interactie. Over drie uitdagende real-world taken heen behaalt RISE een significante verbetering ten opzichte van de state-of-the-art, met een absolute prestatieverbetering van meer dan +35% bij dynamisch sorteren van stenen, +45% voor het inpakken van een rugzak en +35% voor het sluiten van een doos.
Visuele illusies berusten traditioneel op ruimtelijke manipulaties, zoals multi-view consistentie. In dit werk introduceren we Progressieve Semantische Illusies, een nieuwe vector schetstaak waarbij een enkele schets een dramatische semantische transformatie ondergaat door de sequentiële toevoeging van lijnen. Wij presenteren Stroke of Surprise, een generatief raamwerk dat vectorlijnen optimaliseert om onderscheidende semantische interpretaties te bevredigen op verschillende tekenstadia. De kernuitdaging ligt in de "dubbele beperking": initiële prefixlijnen moeten een coherent object vormen (bijv. een eend) terwijl ze gelijktijdig dienen als structurele basis voor een tweede concept (bijv. een schaap) na toevoeging van delta-lijnen. Om dit aan te pakken, stellen we een sequentiebewust gezamenlijk optimalisatieraamwerk voor, aangedreven door een dual-branch Score Distillation Sampling (SDS) mechanisme. In tegenstelling tot sequentiële benaderingen die de initiële staat bevriezen, past onze methode prefixlijnen dynamisch aan om een "gemeenschappelijke structurele deelruimte" te ontdekken die geldig is voor beide doelen. Verder introduceren we een nieuw Overlay-verlies dat ruimtelijke complementariteit afdwingt, om structurele integratie in plaats van occlusie te waarborgen. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art baseline-methoden significant overtreft in herkenbaarheid en illusiekracht, en daarmee visuele anagrammen succesvol uitbreidt van de ruimtelijke naar de temporele dimensie. Projectpagina: https://stroke-of-surprise.github.io/
Hoogbetrouwbare robotmanipulatie op lange termijn is traditioneel afhankelijk van grootschalige gegevens en rekenkracht om complexe dynamiek in de echte wereld te begrijpen. Wij stellen echter vast dat de voornaamste beperking voor robuustheid in de echte wereld niet alleen de schaal van middelen is, maar de distributionele verschuiving tussen de verdeling van menselijke demonstraties, de door het beleid geleerde inductieve bias en de uitvoeringsverdeling tijdens tests – een systematische inconsistentie die cumulerende fouten veroorzaakt in meerfasige taken. Om deze inconsistenties te verminderen, stellen we χ₀ voor, een resource-efficiënt raamwerk met effectieve modules die zijn aangewezen om productieniveau robuustheid in robotmanipulatie te bereiken. Onze aanpak rust op drie technische pijlers: (i) Model Arithmetic, een gewichtsruimte-samenvoegstrategie die efficiënt diverse verdelingen van verschillende demonstraties opneemt, variërend van objectverschijning tot toestandsvariaties; (ii) Stage Advantage, een fasebewuste voordelschatter die stabiele, dense voortgangssignalen verschaft en de numerieke instabiliteit van eerdere niet-fasegebonden benaderingen overwint; en (iii) Train-Deploy Alignment, dat de distributiekloof overbrugt via spatio-temporele augmentatie, heuristische DAgger-correcties en temporele chunk-wise afvlakking. χ₀ stelt twee sets dual-arm robots in staat om collaboratief langetermijn kledingmanipulatie te orkestreren, van taken zoals gladstrijken, vouwen tot het ophangen van verschillende kledingstukken. Onze methode vertoont hoogbetrouwbare autonomie; we kunnen het systeem vanaf een willekeurige begintoestand 24 uur non-stop laten draaien. Experimenten valideren dat χ₀ de state-of-the-art π₀.₅ overtreft met een bijna 250% hoger slagingspercentage, met slechts 20 uur aan gegevens en 8 A100 GPU's. Code, gegevens en modellen zullen worden vrijgegeven om de gemeenschap te faciliteren.
Menselijke demonstraties bieden een rijke omgevingsdiversiteit en schalen van nature, wat ze een aantrekkelijk alternatief maakt voor robotteleoperatie. Hoewel dit paradigma de manipulatie met robotarmen heeft verbeterd, blijft het potentieel voor het uitdagendere, data-hongerige probleem van humanoïde loco-manipulatie grotendeels onontgonnen. Wij presenteren EgoHumanoid, het eerste raamwerk dat een visie-taal-actie-beleid gezamenlijk traint met behulp van overvloedige egocentrische menselijke demonstraties samen met een beperkte hoeveelheid robotdata, waardoor humanoïden loco-manipulatie kunnen uitvoeren in diverse real-world omgevingen. Om de belichamingskloof tussen mens en robot te overbruggen, inclusief verschillen in fysieke morfologie en gezichtspunt, introduceren we een systematisch afstijgpipeline die reikt van hardware-ontwerp tot gegevensverwerking. Er wordt een draagbaar systeem ontwikkeld voor schaalbare menselijke gegevensverzameling, en we stellen praktische verzamelprotocollen op om de overdraagbaarheid te verbeteren. In de kern van onze mens-naar-humanoïde afstijgpipeline liggen twee belangrijke componenten. De view-alignment vermindert visuele domeinverschillen veroorzaakt door camerahoogte en perspectiefvariatie. De action-alignment vertaalt menselijke bewegingen naar een uniforme, kinematisch haalbare actieruimte voor humanoïde besturing. Uitgebreide experimenten in de echte wereld tonen aan dat het incorporeren van egocentrische data zonder robotinput de alleen-met-robot-baselines met 51% significant overtreft, vooral in onbekende omgevingen. Onze analyse laat verder zien welke gedragingen effectief overdraagbaar zijn en het potentieel voor het opschalen van menselijke data.
Diffusion Large Language Models (dLLM's) vertegenwoordigen een nieuw paradigma dat verder gaat dan autoregressieve modellering, waarbij ze competitieve prestaties bieden en tegelijkertijd een flexibel decodeerproces mogelijk maken. Specifiek kunnen dLLM's tokens op willekeurige posities parallel genereren, wat hen een aanzienlijk potentieel geeft voor parallelle schaalvergroting tijdens het testen, wat voorheen werd beperkt door ernstige inefficiëntie in autoregressieve modellering. In dit werk introduceren we dVoting, een snelle stemtechniek die het redeneervermogen verbetert zonder training, met slechts een acceptabele extra rekenkosten. dVoting is gemotiveerd door de observatie dat, over meerdere samples voor dezelfde prompt, tokenvoorspellingen grotendeels consistent blijven, terwijl de prestaties worden bepaald door een kleine subset van tokens die variabiliteit tussen samples vertonen. Gebruikmakend van de willekeurige-positie-generatiecapaciteit van dLLM's, voert dVoting iteratieve verfijning uit door te samplen, onzekere tokens te identificeren via consistentieanalyse, deze opnieuw te genereren door middel van stemmen, en dit proces te herhalen tot convergentie. Uitgebreide evaluaties tonen aan dat dVoting consistent de prestaties verbetert op diverse benchmarks. Het behaalt winsten van 6,22%-7,66% op GSM8K, 4,40%-7,20% op MATH500, 3,16%-14,84% op ARC-C en 4,83%-5,74% op MMLU. Onze code is beschikbaar op https://github.com/fscdc/dVoting.
Wij introduceren Voxtral Realtime, een nautisch streamend automatisch spraakherkenningsmodel dat de transcriptiekwaliteit van offline modellen evenaart met een latentie van minder dan een seconde. In tegenstelling tot methoden die offline modellen aanpassen via chunking of schuivende vensters, is Voxtral Realtime end-to-end getraind voor streaming, met expliciete uitlijning tussen audio- en tekststromen. Onze architectuur bouwt voort op het Delayed Streams Modeling-framework en introduceert een nieuwe causale audio-encoder en Ada RMS-Norm voor verbeterde latentie-conditionering. We schalen de pretraining op naar een grootschalige dataset die 13 talen omvat. Met een latentie van 480ms bereikt Voxtral Realtime een prestatieniveau dat gelijk is aan dat van Whisper, het meest gebruikte offline transcriptiesysteem. Wij geven de modelgewichten vrij onder de Apache 2.0-licentie.
Waarom moet vision-language navigation gebonden zijn aan gedetailleerde en uitgebreide taal instructies? Hoewel dergelijke details de besluitvorming vergemakkelijken, gaan ze fundamenteel in tegen het doel van navigatie in de echte wereld. Idealiter zouden agents de autonomie moeten hebben om in onbekende omgevingen te navigeren, geleid door slechts eenvoudige en hoogoverige intenties. Het realiseren van deze ambitie introduceert een formidabele uitdaging: Beyond-the-View Navigation (BVN), waarbij agents verre, onzichtbare doelen moeten lokaliseren zonder gedetailleerde en stapsgewijze begeleiding. Bestaande op grote taalmodellen (LLM) gebaseerde methoden, hoewel bedreven in het volgen van gedetailleerde instructies, lijden vaak aan kortzichtige gedragingen vanwege hun afhankelijkheid van kortetermijntoezicht. Het simpelweg verlengen van de toezichthorizon destabiliseert echter de LLM-training. In dit werk identificeren we dat videogeneratiemodellen inherent profiteren van langetermijntoezicht om zich af te stemmen op taal instructies, wat ze bijzonder geschikt maakt voor BVN-taken. Gebruikmakend van dit inzicht, stellen we voor om het videogeneratiemodel voor het eerst in dit veld te introduceren. Echter, de buitensporige latentie voor het genereren van video's die tientallen seconden beslaan, maakt praktische inzet in de echte wereld onhaalbaar. Om deze kloof te overbruggen, stellen we SparseVideoNav voor, dat subseconden trajectinferentie bereikt, geleid door een gegenereerde toekomst met een sparse verdeling over een horizon van 20 seconden. Dit resulteert in een opmerkelijke 27x snelheidswinst vergeleken met de niet-geoptimaliseerde tegenhanger. Uitgebreide zero-shot experimenten in de echte wereld tonen aan dat SparseVideoNav een 2,5x hoger slagingspercentage behaalt dan state-of-the-art LLM-baselines op BVN-taken en markeert de eerste realisatie van een dergelijke capaciteit in uitdagende nachtscènes.
Met de snelle ontwikkeling van grootschalige modellen (LM's) staat ook hun veiligheid hoog op de agenda. In de huidige veiligheidswerkstromen voor grote taalmodellen (LLM's) en multimodale grote taalmodellen (MLLM's) worden evaluatie, diagnose en afstemming vaak door afzonderlijke tools afgehandeld. Concreet kan veiligheidsevaluatie alleen externe gedragsrisico's lokaliseren, maar geen interne oorzaken aanwijzen. Tegelijkertijd wijkt veiligheidsdiagnose vaak af van concrete risicoscenario's en blijft deze steken op het verklaarbare niveau. Hierdoor ontbreken bij veiligheidsafstemming gedetailleerde verklaringen voor veranderingen in interne mechanismen, wat de algemene capaciteiten kan aantasten. Om deze problemen systematisch aan te pakken, stellen we een open-sourceproject voor, genaamd DeepSight, om een nieuwe geïntegreerde paradigma voor veiligheidsevaluatie en -diagnose toe te passen. DeepSight is een kostenefficiënt, reproduceerbaar, efficiënt en zeer schaalbaar veiligheidsevaluatieproject voor grootschalige modellen, bestaande uit een evaluatietoolkit (DeepSafe) en een diagnosetoolkit (DeepScan). Door taken en gegevensprotocollen te standaardiseren, verbinden we de twee fasen en transformeren we veiligheidsevaluatie van black-box inzicht naar white-box inzicht. Daarnaast is DeepSight de eerste open-source toolkit die evaluatie van geavanceerde AI-risico's ondersteunt, evenals gezamenlijke veiligheidsevaluatie en -diagnose.
Het begrijpen van e-commerceproducten vereist van nature een sterke multimodale verwerking van tekst, afbeeldingen en gestructureerde attributen. Algemene Vision-Language Models (VLM's) maken generaliseerbare multimodale latente modellering mogelijk, maar er bestaat geen gedocumenteerde, breed erkende strategie om ze aan te passen aan de attribuutgerichte, multi-image en rumoerige aard van e-commercegegevens zonder algemene prestaties op te offeren. In dit werk tonen we via een grootschalige experimentele studie aan hoe gerichte aanpassing van algemene VLM's de e-commerceprestaties aanzienlijk kan verbeteren met behoud van brede multimodale capaciteiten. Bovendien introduceren we een nieuwe uitgebreide evaluatieset die diepgaand productbegrip, strikte instructievolging en dynamische attribuutextractie omvat.
Wij introduceren Gaia2, een benchmark voor het evalueren van agenten op basis van grote taalmodellen in realistische, asynchrone omgevingen. In tegenstelling tot eerdere statische of synchrone evaluaties, introduceert Gaia2 scenario's waarin omgevingen onafhankelijk van agentacties evolueren. Dit vereist dat agenten opereren onder temporele beperkingen, zich aanpassen aan ruis en dynamische gebeurtenissen, ambiguïteit oplossen en samenwerken met andere agenten. Elk scenario is gekoppeld aan een write-action-verifier, wat fijnmazige, actieniveau-evaluatie mogelijk maakt en Gaia2 direct bruikbaar maakt voor reinforcement learning met verifieerbare beloningen. Onze evaluatie van state-of-the-art propriëtaire en open-source modellen toont aan dat geen enkel model domineert op alle capaciteiten: GPT-5 (high) behaalt de hoogste algemene score van 42% pass@1 maar faalt bij tijdgevoelige taken, Claude-4 Sonnet ruilt nauwkeurigheid en snelheid in voor kosten, Kimi-K2 leidt bij open-source modellen met 21% pass@1. Deze resultaten belichten fundamentele afwegingen tussen redenering, efficiëntie, robuustheid, en tonen de uitdagingen in het dichten van de "sim2real"-kloof. Gaia2 is gebouwd op een consumentenomgeving met het open-source Agents Research Environments-platform en ontworpen om eenvoudig uitbreidbaar te zijn. Door Gaia2 samen met het fundamentele ARE-framework vrij te geven, willen we de gemeenschap voorzien van een flexibele infrastructuur voor het ontwikkelen, benchmarken en trainen van de volgende generatie praktische agentsystemen.
Het landschap van AI-videogeneratie ondergaat een cruciale verschuiving: van algemene generatie - die steunt op uitgebreide prompt-engineering en "cherry-picking" - naar fijnmazige, controleerbare generatie en hoogwaardige nabewerking. In professionele AI-gestuurde filmproductie is het essentieel om precieze, gerichte aanpassingen te kunnen uitvoeren. Een hoeksteen van deze transitie is video-instance-insertie, waarbij een specifiek object in bestaande beelden moet worden geplaatst met behoud van de scène-integriteit. In tegenstelling tot traditionele videobewerking vereist deze taak verschillende voorwaarden: precieze ruimtelijk-temporele plaatsing, fysiek consistente scène-interactie en het getrouw behouden van originele dynamiek - allemaal gerealiseerd met minimale gebruikersinspanning. In dit artikel presenteren we PISCO, een videodiffusiemodel voor precieze video-instance-insertie met willekeurige sparse keyframe-controle. PISCO stelt gebruikers in staat om een enkel keyframe, start- en eindkeyframes, of sparse keyframes op willekeurige tijdstippen op te geven, en propageert automatisch objectverschijning, beweging en interactie. Om de ernstige distributieverschuiving door sparse conditionering in voorgetrainde videodiffusiemodellen aan te pakken, introduceren we Variable-Information Guidance voor robuuste conditionering en Distribution-Preserving Temporal Masking om temporele generatie te stabiliseren, samen met geometriebewuste conditionering voor realistische scène-aanpassing. We construeren verder PISCO-Bench, een benchmark met geverifieerde instance-annotaties en gepaarde schone achtergrondvideo's, en evalueren prestaties met zowel referentie-gebaseerde als referentievrije perceptuele metrieken. Experimenten tonen aan dat PISCO consistent sterker presteert dan robuuste inpainting- en videobewerkingsbaselines onder sparse controle, en duidelijke, monotone prestatieverbeteringen vertoont naarmate extra controlesignalen worden verstrekt. Projectpagina: xiangbogaobarry.github.io/PISCO.
Reinforcement Learning met Verifieerbare Beloningen (RLVR), in het bijzonder GRPO, is de standaardmethode geworden voor het uitlokken van redeneervermogen bij LLM's. De efficiëntie ervan bij exploratie en aanpassing aan moeilijkheidsgraad blijft echter een open uitdaging. In dit werk stellen wij dat deze knelpunten voortkomen uit een impliciet voordeelsymmetrie die inherent is aan Groepsrelatieve Voordeelschatting (GRAE). Deze symmetrie induceert twee kritieke beperkingen: (i) op groepsniveau laat strikte symmetrie in gewichten tussen correcte en incorrecte trajecten de onbemonsterde actie-logits onveranderd, waardoor exploratie van nieuwe correcte oplossingen wordt belemmerd. (ii) op steekproefniveau prioriteert het algoritme impliciet steekproeven van gemiddelde moeilijkheidsgraad, en blijft het agnostisch ten opzichte van de niet-stationaire eisen van moeilijkheidsfocus. Door middel van gecontroleerde experimenten tonen wij aan dat deze symmetrische eigenschap suboptimaal is, wat twee cruciale inzichten oplevert: (i) asymmetrisch onderdrukken van de voordelen van correcte trajecten stimuleert essentiële exploratie. (ii) de leerefficiëntie wordt gemaximaliseerd door een curriculum-achtige overgang die aanvankelijk eenvoudigere steekproeven prioriteert alvorens geleidelijk naar complexere over te schakelen. Gemotiveerd door deze bevindingen stellen wij Asymmetrische GRAE (A-GRAE) voor, dat dynamisch de prikkels voor exploratie en de focus op steekproefmoeilijkheid moduleert. Experimenten over zeven benchmarks tonen aan dat A-GRAE consequent GRPO en zijn varianten verbetert bij zowel LLM's als MLLM's.
Recent onderzoek verkent latent redeneren om de redeneerefficiëntie te verbeteren door expliciete redeneertrajecten te vervangen door continue representaties in een latente ruimte, maar de effectiviteit varieert per setting. Analyse van de dynamiek van modelvertrouwen onder latent redeneren toont aan dat denktrajecten die eindigen in incorrecte antwoorden minder stappen met laag vertrouwen bevatten dan trajecten die eindigen in correcte antwoorden. Tegelijkertijd suggereren wij dat zachte embeddings, geaggregeerd door meerdere denkalternatieven met laag vertrouwen, ruis kunnen introduceren en verspreiden, wat leidt tot hoog vertrouwen in onbetrouwbare redeneertrajecten. Gemotiveerd door deze observaties wordt ThinkRouter voorgesteld, een routeringsmechanisme tijdens inferentie dat bewust is van vertrouwen, om hoog vertrouwen en ruis te vermijden voor efficiënt redeneren. ThinkRouter routeert het denken naar de discrete tokenruimte wanneer het modelvertrouwen laag is, en anders naar de latente ruimte. Uitgebreide experimenten op STEM-redeneer- en codeerbenchmarks met diverse grote redeneermodellen tonen aan dat ThinkRouter expliciete CoT, willekeurige routering en latent-redeneer-baselines overtreft in nauwkeurigheid, met een gemiddelde verbetering van 19,70 punten in Pass@1, terwijl de gegenereerde lengte met tot 15,55% wordt gereduceerd. Verdere uitgebreide analyse onthult dat ThinkRouter fouten afkomstig van expliciete CoT en latent redeneren kan kalibreren, en de generatie van end-of-thinking tokens versnelt door het modelvertrouwen globaal te verlagen.
Diffusie grote-taalmmodellen (DLLM's) hebben het potentieel om snelle tekstgeneratie mogelijk te maken door meerdere tokens parallel te decoderen. In de praktijk wordt hun inferentie-efficiëntie echter beperkt door de behoefte aan vele verfijningsstappen, terwijl een agressieve vermindering van het aantal stappen leidt tot een aanzienlijke verslechtering van de generatiekwaliteit. Om dit te verlichten, stellen we een raamwerk voor zelfdistillatie van trajecten voor dat decoding met weinig stappen verbetert door de generatieve trajecten van het model zelf te distilleren. We integreren Direct Discriminatieve Optimalisatie (DDO), een reverse-KL-doelstelling die mode-zoekende distillatie bevordert en de studentmodel aanmoedigt zich te concentreren op teachermodi met een hoge waarschijnlijkheid. Op benchmarks overtreft onze aanpak consistent sterke baseline-methoden met weinig stappen en standaard training onder strikte stapbudgetten. Hoewel decoding met volledige stappen superieur blijft, verkleinen we de kloof aanzienlijk en leggen we een sterke basis naar praktische DLLM's met weinig stappen. De broncode is beschikbaar op https://github.com/Tyrion58/T3D.
Enkele-minus boom-level n-gluon verstrooiingsamplitudes worden opnieuw beschouwd. Hoewel vaak verondersteld nul te zijn, wordt hier aangetoond dat ze niet verdwijnen voor bepaalde "half-collineaire" configuraties die bestaan in Klein-ruimte of voor gecomplexificeerde impulsen. We leiden een stuksgewijs constante, gesloten vorm uitdrukking af voor het verval van een enkel min-heliciteit gluon in n-1 plus-heliciteit gluonen als functie van hun impulsen. Deze formule voldoet op niet-triviale wijze aan meerdere consistentievoorwaarden, waaronder de zachte stelling van Weinberg.
Langetermijngeheugen stelt taalmodelagenten in staat om complexe taken aan te pakken door middel van historische interacties. Bestaande frameworks kampen echter met een fundamenteel dilemma tussen het efficiënt comprimeren van redundante informatie en het behouden van precieze retrievability voor downstreamtaken. Om deze kloof te overbruggen, stellen we MemFly voor: een raamwerk gebaseerd op informatiebottleneck-principes dat dynamische geheugenevolutie voor taalmodellen mogelijk maakt. Onze aanpak minimaliseert compressie-entropie terwijl het relevantie-entropie maximaliseert via een gradient-vrije optimizer, waardoor een gelaagde geheugenstructuur voor efficiënte opslag wordt geconstrueerd. Om MemFly optimaal te benutten, ontwikkelden we een hybride retrievalmechanisme dat semantische, symbolische en topologische paden naadloos integreert, met iteratieve verfijning om complexe multi-hop queries te verwerken. Uitgebreide experimenten tonen aan dat MemFly state-of-the-art baseline-methoden aanzienlijk overtreft op het gebied van geheugencoherentie, responsbetrouwbaarheid en nauwkeurigheid.
De evolutie van grote taalmmodellen (LLM's) naar toepassingen met ultra-lange contexten wordt belemmerd door de hoge rekenkundige en geheugenkosten van de Transformer-architectuur. Hoewel bestaande sparse en lineaire aandachtmechanismen deze problemen proberen te verlichten, gaan ze doorgaans gepaard met een afweging tussen geheugenefficiëntie en modelprestaties. Dit artikel introduceert MiniCPM-SALA, een hybride architectuur met 9B parameters die de hoogwaardige modellering van lange contexten van sparse aandacht (InfLLM-V2) integreert met de globale efficiëntie van lineaire aandacht (Lightning Attention). Door een laagselectiealgoritme te gebruiken om deze mechanismen in een verhouding van 1:3 te integreren en een hybride positionele codering (HyPE) te benutten, handhaaft het model efficiëntie en prestaties voor taken met lange contexten. Verder introduceren we een kosteneffectief continu-trainingsraamwerk dat vooraf getrainde Transformer-gebaseerde modellen omzet in hybride modellen, wat de trainingskosten met ongeveer 75% verlaagt in vergelijking met training vanaf nul. Uitgebreide experimenten tonen aan dat MiniCPM-SALA algemene capaciteiten handhaaft die vergelijkbaar zijn met modellen met volledige aandacht, terwijl het een verbeterde efficiëntie biedt. Op een enkele NVIDIA A6000D GPU bereikt het model een inferentiesnelheid tot 3,5x die van het model met volledige aandacht bij een sequentielengte van 256K tokens en ondersteunt het contextlengtes van maximaal 1M tokens – een schaal waarop traditionele 8B-modellen met volledige aandacht falen vanwege geheugenbeperkingen.
Open-ended learning beschouwt intelligentie als een emergent verschijnsel dat voortkomt uit continue interactie met een steeds uitdijende ruimte van omgevingen. Hoewel recente ontwikkelingen foundation models gebruiken om programmatisch diverse omgevingen te genereren, richten deze benaderingen zich vaak op het ontdekken van geïsoleerd gedrag in plaats van het orkestreren van voortdurende progressie. In complexe open-ended werelden maakt de grote combinatorische ruimte van mogelijke uitdagingen het moeilijk voor agents om sequenties van ervaringen te ontdekken die consistent leerbaar blijven. Om dit aan te pakken, stellen we Dreaming in Code (DiCode) voor, een raamwerk waarin foundation models uitvoerbare omgevingscode synthetiseren om het leren te ondersteunen richting toenemende competentie. In DiCode neemt "dromen" de vorm aan van het materialiseren van code-niveau variaties van de wereld. We implementeren DiCode in Craftax, een uitdagende open-ended benchmark gekenmerkt door rijke mechanica en langetermijnprogressie. Empirisch gezien stelt DiCode agents in staat langetermijnvaardigheden te verwerven, met een verbetering van 16% in gemiddelde return ten opzichte van de sterkste baseline en niet-nul succespercentages bij late-game gevechtstaken waar eerdere methoden falen. Onze resultaten suggereren dat omgevingsontwerp op codeniveau een praktisch mechanisme biedt voor curriculumcontrole, waardoor de constructie van tussentijdse omgevingen mogelijk wordt die competentiekloof overbruggen in open-ended werelden. De projectpagina en broncode zijn beschikbaar op https://konstantinosmitsides.github.io/dreaming-in-code en https://github.com/konstantinosmitsides/dreaming-in-code.
Het pretrainen van grote taalmmodellen (LLM's) vereist doorgaans gecentraliseerde clusters met duizenden GPU's met hoog geheugen (zoals H100/A100). Recente gedecentraliseerde trainingsmethoden verminderen de communicatie-overhead door gebruik te maken van gefedereerde optimalisatie; ze moeten echter nog steeds het volledige model op elke node trainen, waardoor ze beperkt blijven door GPU-geheugenbeperkingen. In dit werk stellen we SParse Expert Synchronization (SPES) voor, een geheugenefficiënt gedecentraliseerd framework voor het pretrainen van mixture-of-experts (MoE) LLM's. SPES traint slechts een subset van experts per node, waardoor de geheugenvoetafdruk aanzienlijk wordt verlaagd. Elke node werkt zijn lokale experts bij en synchroniseert periodiek met andere nodes, waardoor volledige parameteroverdracht wordt geëlimineerd en tegelijkertijd efficiënte kennisdeling wordt gegarandeerd. Om de convergentie te versnellen, introduceren we een expert-merging warm-up strategie, waarbij experts vroeg in de training kennis uitwisselen om snel fundamentele capaciteiten op te bouwen. Met SPES trainen we een MoE LLM met 2B parameters met behulp van 16 standalone 48GB GPU's via internetverbindingen, wat competitieve prestaties bereikt met centraal getrainde LLM's onder vergelijkbare rekenbudgetten. We demonstreren verder schaalbaarheid door een 7B-model vanaf nul te trainen en een 9B-model opgewaardeerd vanuit een dense checkpoint, die beide evenaren eerdere gecentraliseerde baselines. Onze code is beschikbaar op https://github.com/zjr2000/SPES.
Het op grote schaal inzetten van robots vereist robuustheid voor de lange staart van alledaagse situaties. De talloze variaties in scène-indeling, objectgeometrie en taakspecificaties die kenmerkend zijn voor echte omgevingen zijn enorm en ondervertegenwoordigd in bestaande robotbenchmarks. Het meten van dit generalisatieniveau vereist een infrastructuur op een schaal en met een diversiteit die fysieke evaluatie alleen niet kan bieden. Wij introduceren MolmoSpaces, een volledig open ecosysteem om grootschalige benchmarking van robotbeleid te ondersteunen. MolmoSpaces bestaat uit meer dan 230.000 diverse binnenomgevingen, variërend van handgemaakte huishoudelijke scènes tot procedureel gegenereerde huizen met meerdere kamers, bevolkt met 130.000 rijk geannoteerde objectassets, waaronder 48.000 manipuleerbare objecten met 42 miljoen stabiele grepen. Cruciaal is dat deze omgevingen simulator-onafhankelijk zijn en populaire opties zoals MuJoCo, Isaac en ManiSkill ondersteunen. Het ecosysteem ondersteunt het volledige spectrum van belichaamde taken: statische en mobiele manipulatie, navigatie en taken met een lange horizon in meerdere kamers die gecoördineerde perceptie, planning en interactie in gehele binnenomgevingen vereisen. Wij ontwerpen ook MolmoSpaces-Bench, een benchmarksuite van 8 taken waarin robots interageren met onze diverse scènes en rijk geannoteerde objecten. Onze experimenten tonen aan dat MolmoSpaces-Bench een sterke simulatie-naar-realiteit-correlatie vertoont (R = 0,96, ρ = 0,98), bevestigen dat nieuwere en sterkere zero-shot-beleidsregels eerdere versies in onze benchmarks overtreffen, en identificeren belangrijke gevoeligheden voor promptformulering, initiële gewrichtsposities en camerablokkering. Via MolmoSpaces en de bijbehorende open-source assets en tooling bieden wij een basis voor schaalbare datageneratie, beleidstraining en benchmarkcreatie voor robotleeronderzoek.
Bedrijfsdocumenten, zoals formulieren en rapporten, bevatten essentiële informatie voor downstream-toepassingen zoals gegevensarchivering, geautomatiseerde workflows en analyses. Hoewel generalistische Vision Language Models (VLMs) goed presteren op gevestigde benchmarks voor documentbegrip, is hun vermogen om holistische, fijnmazige gestructureerde extractie uit te voeren over diverse documenttypen en flexibele schema's niet goed bestudeerd. Bestaande datasets voor Key Entity Extraction (KEE), Relation Extraction (RE) en Visual Question Answering (VQA) worden beperkt door smalle entiteitontologieën, eenvoudige queries of homogene documenttypen, waarbij de behoefte aan aanpasbare en gestructureerde extractie vaak over het hoofd wordt gezien. Om deze lacunes aan te pakken, introduceren we ExStrucTiny, een nieuwe benchmarkdataset voor gestructureerde Information Extraction (IE) uit documentafbeeldingen, die aspecten van KEE, RE en VQA verenigt. Opgebouwd via een nieuwe pijplijn die handmatige en synthetische, door mensen gevalideerde samples combineert, dekt ExStrucTiny meer gevarieerde documenttypen en extractiescenario's. We analyseren open en gesloten VLMs op deze benchmark en belichten uitdagingen zoals schema-aanpassing, query-onderspecificatie en antwoordlokalisatie. We hopen dat ons werk een fundament biedt voor het verbeteren van generalistische modellen voor gestructureerde IE in documenten.
Multimodale grote taalmodellen (MLLM's) worden steeds vaker ingezet voor realistische taken die multi-staps redeneren en langere tekstgeneratie vereisen, waarbij betrouwbaarheid vereist dat modeloutputs verankerd zijn in heterogene invoerbronnen en individuele feitelijke beweringen geverifieerd worden. Bestaande benchmarks en evaluatiemethoden voor multimodale verankering richten zich echter op vereenvoudigde, op observatie gebaseerde scenario's of beperkte modaliteiten en slagen er niet in attributie te beoordelen in complexe multimodale redeneertaken. Wij introduceren MuRGAt (Multimodal Reasoning with Grounded Attribution), een benchmark voor het evalueren van attributie op feitniveau in multimodale settings die redeneren vereisen dat verder gaat dan directe observatie. Gegeven invoer die video, audio en andere modaliteiten omvat, vereist MuRGAt dat modellen antwoorden genereren met expliciete redenering en precieze citaties, waarbij elke citatie zowel de modaliteit als temporele segmenten specificeert. Om betrouwbare beoordeling mogelijk te maken, introduceren we een automatisch evaluatieraamwerk dat sterk correleert met menselijke oordelen. Evaluatie met zowel menselijke als geautomatiseerde scores laat zien dat zelfs sterke MLLM's vaak citaties hallucineren ondanks correct redeneren. Bovendien observeren we een belangrijke wisselwerking: het vergroten van de redeneerdiepte of het afdwingen van gestructureerde verankering leidt vaak tot verminderde nauwkeurigheid, wat een significante kloof tussen intern redeneren en verifieerbare attributie benadrukt.
Grote taalmodellen (LLM's) hebben uitzonderlijke redeneervaardigheden getoond, en co-evoluerende paradigma's hebben veelbelovende resultaten opgeleverd in domeinen zoals code en wiskunde. Bij wetenschappelijke redeneertaken blijven deze modellen echter kwetsbaar door onbetrouwbare oplossingsevaluatie en beperkte diversiteit in verificatiestrategieën. In dit werk stellen we Sci-CoE voor, een tweefasen wetenschappelijk co-evoluerend raamwerk dat modellen in staat stelt zichzelf te ontwikkelen als zowel oplosser als verificateur via een overgang van sparse supervisie naar unsupervised leren. In de eerste fase gebruikt het model een kleine set geannoteerde data om fundamentele correctheidsbeoordelingsankers voor de Verificateur vast te stellen. In de tweede fase introduceren we een geometrisch beloningsmechanisme dat gezamenlijk consensus, betrouwbaarheid en diversiteit in overweging neemt, waardoor grootschalige zelfiteratie op ongelabelde data wordt aangedreven. Experimenten op verschillende algemene wetenschappelijke benchmarks tonen aan dat Sci-CoE complexe redeneervaardigheden versterkt en sterke schaalbaarheid vertoont, wat de constructie van robuustere en diversere evaluatiesystemen vergemakkelijkt. Code is beschikbaar op https://github.com/InternScience/Sci-CoE.
Gepersonaliseerde afstemming van grote taalmmodellen beoogt antwoorden aan te passen aan individuele gebruikersvoorkeuren, typisch via reinforcement learning. Een belangrijke uitdaging is het verkrijgen van accurate, gebruikersspecifieke beloningssignalen in open-ended scenario's. Bestaande gepersonaliseerde beloningsmodellen kampen met twee hardnekkige beperkingen: (1) het oversimplificeren van diverse, scenariospecifieke voorkeuren tot een kleine, vaste set evaluatieprincipes, en (2) moeite met generalisatie naar nieuwe gebruikers met beperkte feedback. Daarom stellen wij P-GenRM voor, het eerste Gepersonaliseerde Generatieve Beloningsmodel met test-time schaling op basis van gebruikers. P-GenRM transformeert voorkeursignalen in gestructureerde evaluatieketens die adaptieve persona's en beoordelingsrubrieken afleiden across verschillende scenario's. Het clustert gebruikers verder in Gebruikersprototypes en introduceert een dual-granulariteit schalingsmechanisme: op individueel niveau schaalt en aggregeert het adaptief het scoringsschema van elke gebruiker; op prototype-niveau incorporeert het voorkeuren van vergelijkbare gebruikers. Dit ontwerp vermindert ruis in afgeleide voorkeuren en verbetert de generalisatie naar ongeziene gebruikers via prototype-gebaseerde transfer. Empirische resultaten tonen aan dat P-GenRM state-of-the-art resultaten behaalt op veelgebruikte benchmarks voor gepersonaliseerde beloningsmodellen, met een gemiddelde verbetering van 2.31%, en sterke generalisatie demonstreert op een out-of-distribution dataset. Opmerkelijk is dat Test-time Gebruikersgebaseerde Schaling een extra boost van 3% geeft, wat een sterkere gepersonaliseerde afstemming aantoont met test-time schaalbaarheid.
Metaforisch begrip in afbeeldingen blijft een kritieke uitdaging voor hedendaagse AI-systemen. Hoewel Multimodale Large Language Models (MLLMs) uitblinken in basale Visual Question Answering (VQA), hebben ze consistent moeite met het begrijpen van de genuanceerde culturele, emotionele en contextuele implicaties die in visuele content zijn vervat. Deze moeilijkheid vloeit voort uit de taakeis van geavanceerd multi-hop redeneren, culturele context en Theory of Mind (ToM) capaciteiten, waar huidige modellen aan tekortkomen. Om deze leemte op te vullen, stellen wij MetaphorStar voor, het eerste end-to-end visuele reinforcement learning (RL) raamwerk voor beeldimplicatietaken. Ons raamwerk omvat drie kerncomponenten: de fijnmazige dataset TFQ-Data, de visuele RL-methode TFQ-GRPO en de gestructureerde benchmark TFQ-Bench. Onze volledig open-source MetaphorStar-familie, getraind met TFQ-GRPO op TFQ-Data, verbetert de prestaties aanzienlijk met gemiddeld 82,6% op de beeldimplicatiebenchmarks. In vergelijking met 20+ mainstream MLLMs behaalt MetaphorStar-32B state-of-the-art (SOTA) op Multiple-Choice Question en Open-Style Question, en presteert het significant beter dan het top closed-source model Gemini-3.0-pro op True-False Question. Cruciaal is dat onze experimenten aantonen dat het aanleren van beeldimplicatietaken het algemeen begripsvermogen verbetert, in het bijzonder het complexe visuele redeneervermogen. Wij geven verder een systematische analyse van modelschaalvergroting, schaalvergroting van trainingsdata, en de impact van verschillende modelarchitecturen en trainingsstrategieën, wat de brede toepasbaarheid van onze methode aantoont. Wij hebben alle modelgewichten, datasets en methodcode openbaar gemaakt op https://metaphorstar.github.io.
Wij bestuderen budgetbeperkte tool-augmented agents, waarbij een groot taalmodel meerstappentaken moet oplossen door externe tools aan te roepen onder een strikt monetair budget. Wij formaliseren deze setting als sequentiële besluitvorming in contextruimte met geprijsde en stochastische tooluitvoeringen, wat directe planning onhanteerbaar maakt door enorme toestand-actieruimten, hoge variantie van uitkomsten en verboden exploratiekosten. Om deze uitdagingen aan te pakken, stellen wij INTENT voor, een inference-time planningframework dat gebruikmaakt van een hiërarchisch wereldmodel met intentiebewustzijn om toekomstig toolgebruik en risicogecalibreerde kosten te anticiperen, en beslissingen online te sturen. Op de kostentoegenomen StableToolBench handhaaft INTENT strikte budgetuitvoerbaarheid terwijl de taaksucces aanzienlijk verbetert ten opzichte van de basislijnen, en blijft het robuust onder dynamische marktverschuivingen zoals toolprijswijzigingen en variërende budgetten.
Grootschalige visuele instructie-afstemming (VIT) is een belangrijk paradigma geworden voor het verbeteren van de prestaties van visie-taalmodellen (VLM's) bij diverse multimodale taken. De training op grootschalige datasets is echter rekenkundig kostbaar en inefficiënt vanwege redundantie in de gegevens, wat de behoefte motiveert aan multimodale gegevensselectie om de trainingsefficiëntie te verbeteren. Bestaande methoden voor gegevensselectie voor VIT vereisen ofwel kostbare training of gradientberekening. Trainingsvrije alternatieven zijn vaak afhankelijk van proxy-modellen of -datasets, instructie-agnostische representaties en paarsgewijze gelijkenis met kwadratische complexiteit, wat de schaalbaarheid en representatietrouw beperkt. In dit werk stellen we ScalSelect voor, een schaalbare, trainingsvrije multimodale gegevensselectiemethode met lineaire tijdscomplexiteit ten opzichte van het aantal steekproeven, waardoor externe modellen of hulpdatasets overbodig worden. ScalSelect construeert eerst steekproefrepresentaties door visuele kenmerken te extraheren waarop instructietokens in het doel-VLM de meeste aandacht richten, waardoor instructie-relevante informatie wordt vastgelegd. Vervolgens identificeert het steekproeven waarvan de representaties de dominante deelruimte van de volledige datasetrepresentaties het best benaderen, waardoor schaalbare belangrijkheidsscoring mogelijk wordt zonder paarsgewijze vergelijkingen. Uitgebreide experimenten met meerdere VLM's, datasets en selectiebudgetten tonen aan dat ScalSelect meer dan 97,5% van de prestaties van training op de volledige dataset bereikt met slechts 16% van de gegevens, en in sommige settings zelfs de training op volledige gegevens overtreft. De code is beschikbaar op https://github.com/ChangtiWu/ScalSelect{ScalSelect}.
Versterkend leren met verifieerbare beloningen (RLVR) staat centraal bij het trainen van moderne redeneermodellen, maar de niet-openbaar gemaakte trainingsdata roept vragen op over benchmarkvervuiling. In tegenstelling tot vooraf trainen (pretraining) methoden, waarbij modellen worden geoptimaliseerd met behulp van token-level waarschijnlijkheden, verfijnt RLVR modellen op basis van beloningsfeedback gegenereerd uit zelf-gegenereerde redeneertrajecten. Dit maakt conventionele detectiemethoden op basis van waarschijnlijkheid minder effectief. Wij tonen aan dat RLVR een onderscheidend gedragssignatuur induceert: prompts die tijdens RLVR-training worden tegengekomen resulteren in rigide en meer uniforme gegenereerde outputs, terwijl ongeziene prompts een grotere diversiteit behouden. Wij introduceren Min-kNN Afstand, een eenvoudige black-box detector die deze ineenstorting kwantificeert door meerdere voltooiingen voor een gegeven prompt te bemonsteren en het gemiddelde te berekenen van de k kleinste nearest-neighbor bewerkingsafstanden. Min-kNN Afstand vereist geen toegang tot het referentiemodel of tokenwaarschijnlijkheden. Experimenten met meerdere RLVR-getrainde redeneermodellen tonen aan dat Min-kNN Afstand betrouwbaar RL-geziene voorbeelden kan onderscheiden van ongeziene, en beter presteert dan bestaande lidmaatschapsinferentie- en RL-vervuilingsdetectie-baselines.
Embodied navigation is al lang gefragmenteerd door taakspecifieke architecturen. Wij introduceren ABot-N0, een uniform Vision-Language-Action (VLA)-foundationmodel dat een "Grote Unificatie" bereikt over 5 kerntaken: Point-Goal, Object-Goal, Instruction-Following, POI-Goal en Person-Following. ABot-N0 gebruikt een hiërarchische "Brain-Action"-architectuur, waarbij een op een LLM gebaseerd Cognitief Brein voor semantisch redeneren wordt gekoppeld aan een op Flow Matching gebaseerde Actie-Expert voor precieze, continue trajectgeneratie. Om grootschalig leren te ondersteunen, ontwikkelden we de ABot-N0 Data Engine, waarmee 16,9 miljoen expert-trajecten en 5,0 miljoen redeneersamples werden samengesteld uit 7.802 hoogwaardige 3D-scènes (10,7 km²). ABot-N0 behaalt nieuwe state-of-the-art prestaties op 7 benchmarks en overtreft gespecialiseerde modellen aanzienlijk. Bovendien integreert ons Agentic Navigation System een planner met hiërarchisch topologisch geheugen, wat robuuste, langetermijnmissies in dynamische, real-world omgevingen mogelijk maakt.
Muziekstengeneratie, de taak om muzikaal gesynchroniseerde en geïsoleerde instrumentaudiofragmenten te produceren, biedt het potentieel voor meer gebruikerscontrole en een betere afstemming op muzikantenwerkflows in vergelijking met conventionele tekst-naar-muziekmodellen. Bestaande benaderingen voor stengeneratie vertrouwen echter op vaste architecturen die een vooraf gedefinieerde set stems parallel uitvoeren, of genereren slechts één stem tegelijk, wat resulteert in trage inferentie ondanks flexibiliteit in stemcombinatie. Wij stellen Stemphonic voor, een op diffusie-/flow-gebaseerd raamwerk dat deze afweging overwint en een variabele set gesynchroniseerde stems in één inferentiepassage genereert. Tijdens de training behandelen we elke stem als een batchelement, groeperen gesynchroniseerde stems in een batch en passen een gedeelde ruis-latent toe op elke groep. Tijdens inferentie gebruiken we een gedeelde initiële ruis-latent en stemspecifieke tekstinvoer om gesynchroniseerde multi-stemuitvoer in één passage te genereren. We breiden onze aanpak verder uit om conditionele multi-stemgeneratie in één passage en stemactiviteitscontroles mogelijk te maken, zodat gebruikers iteratief de temporele gelaagdheid van een mix kunnen genereren en orkestreren. We benchmarken onze resultaten op meerdere open-source stem-evaluatiesets en tonen aan dat Stemphonic uitvoer van hogere kwaliteit produceert terwijl het het volledige mixgeneratieproces met 25 tot 50% versnelt. Demo's op: https://stemphonic-demo.vercel.app.
De afweging tussen interpreteerbaarheid en nauwkeurigheid blijft een kernuitdaging in machine learning. Standaard Gegeneraliseerde Additieve Modellen (GAM's) bieden duidelijke feature-attributies, maar worden vaak beperkt door hun strikt additieve karakter, wat de voorspellende prestaties kan beperken. Het introduceren van feature-interacties kan de nauwkeurigheid verhogen, maar kan de individuele feature-bijdragen vertroebelen. Om deze problemen aan te pakken, stellen wij Neural Additive Experts (NAE's) voor, een nieuw raamwerk dat naadloos een balans vindt tussen interpreteerbaarheid en nauwkeurigheid. NAE's gebruiken een 'mixture of experts'-raamwerk, waarbij meerdere gespecialiseerde netwerken per feature worden geleerd, terwijl een dynamisch gating-mechanisme informatie integreert tussen features, waardoor de rigide additieve beperkingen worden versoepeld. Verder stellen we gerichte regularisatietechnieken voor om de variantie tussen expertvoorspellingen te verminderen, wat een soepele overgang mogelijk maakt van een uitsluitend additief model naar een model dat complexe feature-interacties vastlegt, terwijl de helderheid van feature-attributies behouden blijft. Onze theoretische analyse en experimenten met synthetische data illustreren de flexibiliteit van het model, en uitgebreide evaluaties op real-world datasets bevestigen dat NAE's een optimale balans bereiken tussen voorspellende nauwkeurigheid en transparante, feature-niveau verklaringen. De code is beschikbaar op https://github.com/Teddy-XiongGZ/NAE.