Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren FlashWorld, een generatief model dat 3D-scènes produceert vanuit een enkele afbeelding of tekstprompt in seconden, 10~100 keer sneller dan eerdere werken, terwijl het superieure renderkwaliteit bezit. Onze aanpak verschuift van het conventionele multi-view-georiënteerde (MV-georiënteerde) paradigma, dat multi-view-afbeeldingen genereert voor latere 3D-reconstructie, naar een 3D-georiënteerde aanpak waarbij het model direct 3D Gaussische representaties produceert tijdens multi-view-generatie. Hoewel de 3D-georiënteerde methode typisch lijdt onder slechte visuele kwaliteit, zorgt FlashWorld voor 3D-consistentie. FlashWorld omvat een dual-mode pre-trainingsfase gevolgd door een cross-mode post-trainingsfase, waardoor de sterke punten van beide paradigma's effectief worden geïntegreerd. Specifiek maken we gebruik van de prior van een videodiffusiemodel om eerst een dual-mode multi-view diffusiemodel te pre-trainen, dat zowel MV-georiënteerde als 3D-georiënteerde generatiemodi ondersteunt. Om de kwaliteitskloof in 3D-georiënteerde generatie te overbruggen, stellen we verder een cross-mode post-trainingsdistillatie voor door de distributie van de consistente 3D-georiënteerde modus af te stemmen op de hoogwaardige MV-georiënteerde modus. Dit verbetert niet alleen de visuele kwaliteit terwijl 3D-consistentie behouden blijft, maar vermindert ook het benodigde aantal denoisestappen voor inferentie. Bovendien stellen we een strategie voor om tijdens dit proces massale hoeveelheden single-view afbeeldingen en tekstprompts te benutten om de generalisatie van het model naar out-of-distribution inputs te verbeteren. Uitgebreide experimenten demonstreren de superioriteit en efficiëntie van onze methode.
Recente ontwikkelingen in geünificeerde multimodale modellen wijzen op een duidelijke trend richting uitgebreide inhoudsgeneratie. Het auditieve domein blijft echter een aanzienlijke uitdaging, waarbij muziek en spraak vaak in isolatie worden ontwikkeld, wat de vooruitgang naar universele audiosynthese belemmert. Deze scheiding komt voort uit inherente taakconflicten en ernstige data-onbalans, wat de ontwikkeling van een echt geünificeerd audiogeneratiemodel in de weg staat. Om deze uitdaging aan te pakken, stellen we UniMoE-Audio voor, een geünificeerd spraak- en muziekgeneratiemodel binnen een nieuw Dynamic-Capacity Mixture-of-Experts (MoE) raamwerk. Architectonisch introduceert UniMoE-Audio een Top-P routeringsstrategie voor dynamische toewijzing van het aantal experts, en een hybride expertontwerp bestaande uit gerouteerde experts voor domeinspecifieke kennis, gedeelde experts voor domein-onafhankelijke kenmerken, en null-experts voor adaptieve berekeningsoverslaan. Om data-onbalans aan te pakken, introduceren we een driedelige trainingscurriculum: 1) Onafhankelijke Specialistentraining maakt gebruik van originele datasets om domeinspecifieke kennis in elke "proto-expert" in te brengen zonder interferentie; 2) MoE-integratie en Opwarming neemt deze specialisten op in de UniMoE-Audio architectuur, waarbij de gate-module en de gedeelde expert worden opgewarmd met een subset van een gebalanceerde dataset; en 3) Synergetische Gezamenlijke Training traint het hele model end-to-end op de volledig gebalanceerde dataset, wat een verbeterde cross-domein synergie bevordert. Uitgebreide experimenten tonen aan dat UniMoE-Audio niet alleen state-of-the-art prestaties behaalt op belangrijke spraak- en muziekgeneratiebenchmarks, maar ook superieure synergetische leerresultaten laat zien, waardoor de prestatievermindering die typisch wordt gezien bij naïeve gezamenlijke training wordt gemitigeerd. Onze bevindingen benadrukken het aanzienlijke potentieel van gespecialiseerde MoE-architectuur en zorgvuldig samengestelde trainingsstrategieën in het bevorderen van het veld van universele audiogeneratie. Homepage: https://mukioxun.github.io/Uni-MoE-site/home.html
Het redeneerpatroon van grote taalmodellen (LLMs) blijft ondoorzichtig, en versterkend leren (RL) past doorgaans uniforme credits toe over een hele generatie, waardoor het onderscheid tussen cruciale en routine stappen vervaagt. Dit werk positioneert aandacht als een geprivilegieerd substraat dat de interne logica van LLMs begrijpelijk maakt, niet slechts als een bijproduct van berekening, maar als een mechanistische blauwdruk van het redeneren zelf. We onderscheiden eerst aandachtskoppen tussen lokaal en globaal gerichte informatieverwerking en onthullen dat lokaal gerichte koppen een zaagtandpatroon nabij de diagonaal produceren dat wijst op frasele segmenten, terwijl globaal gerichte koppen tokens blootleggen die een brede downstream invloed uitoefenen op toekomstige tokens. We formaliseren deze met twee metrieken: 1) Gemiddelde Aandachtsafstand in een Venster, die de omvang van achterwaartse aandacht binnen een afgekapt venster meet; 2) Toekomstige Aandachtsinvloed, die het globale belang van een token kwantificeert als de gemiddelde aandacht die het ontvangt van latere tokens. Samen onthullen deze signalen een terugkerend mechanisme van voorbereiden-en-verankeren, waarbij het model eerst een langeafstandscontextuele referentie uitvoert om een inleidend token te genereren, dat onmiddellijk wordt gevolgd of samenvalt met een semantisch ankerpunt-token dat het vervolgredeneren organiseert. Gebruikmakend van deze inzichten introduceren we drie nieuwe RL-strategieën die dynamisch gerichte credits toekennen aan kritieke punten (voorbereidende tokens, ankerpunt-tokens en hun temporele koppeling) en laten consistente prestatieverbeteringen zien over verschillende redeneertaken. Door optimalisatie af te stemmen op het intrinsieke redeneerritme van het model, streven we ernaar om ondoorzichtige optimalisatie te transformeren in een actiegericht, structuurbewust proces, in de hoop een mogelijke stap te bieden naar meer transparante en effectieve optimalisatie van LLM-redenering.
Volledig open multimodal large language models (MLLMs) blijven momenteel achter bij propriëtaire tegenhangers, voornamelijk vanwege een aanzienlijk verschil in de kwaliteit van de gegevens die worden gebruikt voor supervised fine-tuning (SFT). Bestaande open-source datasets worden vaak geteisterd door wijdverbreide ruis en een kritisch tekort aan complexe redeneergegevens, zoals Chain-of-Thought (CoT), wat de ontwikkeling van geavanceerde modelmogelijkheden belemmert. Om deze uitdagingen aan te pakken, levert ons werk drie primaire bijdragen. Ten eerste introduceren we Honey-Data-15M, een nieuwe SFT-dataset bestaande uit ongeveer 15 miljoen vraag-antwoordparen, verwerkt via meerdere reinigingstechnieken en verrijkt met een nieuwe dual-level (kort en lang) CoT-verrijkingsstrategie. Ten tweede introduceren we HoneyPipe, de data-curatiepijplijn, en het onderliggende framework DataStudio, waarmee we de gemeenschap voorzien van een transparante en aanpasbare methodologie voor data-curatie die verder gaat dan statische datasetreleases. Tot slot trainen we, om onze dataset en pijplijn te valideren, Bee-8B, een 8B-model op Honey-Data-15M. Experimenten tonen aan dat Bee-8B een nieuwe state-of-the-art (SOTA) vestigt voor volledig open MLLMs, waarbij de prestaties concurrerend zijn met, en in sommige gevallen zelfs overtreffen, recente semi-open modellen zoals InternVL3.5-8B. Ons werk levert aan de gemeenschap een reeks fundamentele bronnen, waaronder: het Honey-Data-15M-corpus; de full-stack suite bestaande uit HoneyPipe en DataStudio; trainingsrecepten; een evaluatieharness; en de modelgewichten. Deze inspanning toont aan dat een principiële focus op data-kwaliteit een sleutelpad is naar de ontwikkeling van volledig open MLLMs die zeer concurrerend zijn met hun semi-open tegenhangers.
Visual-Language-Action (VLA)-modellen laten indrukwekkende succespercentages zien op benchmarks voor robotmanipulatie, maar deze resultaten kunnen fundamentele zwakheden in robuustheid verhullen. We voeren een systematische kwetsbaarheidsanalyse uit door gecontroleerde verstoringen in te voeren over zeven dimensies: objectopstelling, camerastandpunten, initiële robottoestanden, taalinstellingen, lichtomstandigheden, achtergrondtexturen en sensorgebruik. We hebben meerdere state-of-the-art modellen grondig geanalyseerd en consistent broos gedrag blootgelegd onder de schijn van competentie. Onze analyse onthult kritieke zwakheden: modellen vertonen extreme gevoeligheid voor verstoringsfactoren, zoals camerastandpunten en initiële robottoestanden, waarbij de prestaties dalen van 95% tot onder 30% bij bescheiden verstoringen. Verrassend genoeg zijn modellen grotendeels ongevoelig voor taalvariatie, en verdere experimenten tonen aan dat modellen geneigd zijn taalinstellingen volledig te negeren. Onze bevindingen dagen de aanname uit dat hoge benchmarkscores gelijkstaan aan echte competentie en benadrukken de noodzaak van evaluatiepraktijken die betrouwbaarheid onder realistische variatie beoordelen.
Videogeneratiemodellen zijn tegenwoordig in staat visueel realistische video's te genereren, maar slagen er vaak niet in zich aan fysische wetten te houden, wat hun vermogen beperkt om fysisch plausibele video's te genereren en als 'wereldmodellen' te dienen. Om dit probleem aan te pakken, stellen we PhysMaster voor, dat fysische kennis vastlegt als een representatie om videogeneratiemodellen te begeleiden en hun fysica-bewustzijn te vergroten. Specifiek is PhysMaster gebaseerd op de taak van beeld-naar-video, waarbij het model fysisch plausibele dynamiek moet voorspellen op basis van het invoerbeeld. Aangezien het invoerbeeld fysische aannames biedt, zoals relatieve posities en mogelijke interacties van objecten in het scenario, ontwikkelen we PhysEncoder om fysische informatie daaruit te coderen als een extra voorwaarde om fysische kennis in het videogeneratieproces te injecteren. Het ontbreken van geschikte supervisie op het fysische presteren van het model, verder dan alleen het uiterlijk, motiveert PhysEncoder om reinforcement learning met menselijke feedback toe te passen op fysische representatieleer, waarbij feedback van generatiemodellen wordt benut om fysische representaties te optimaliseren met Direct Preference Optimization (DPO) op een end-to-end manier. PhysMaster biedt een haalbare oplossing om het fysica-bewustzijn van PhysEncoder en daarmee van videogeneratie te verbeteren, wat zijn vermogen aantoont op een eenvoudige proeftaak en generaliseerbaarheid naar een breed scala aan fysische scenario's. Dit impliceert dat onze PhysMaster, dat oplossingen voor verschillende fysische processen verenigt via representatieleer in het reinforcement learning-paradigma, kan fungeren als een generieke en plug-in oplossing voor fysica-bewuste videogeneratie en bredere toepassingen.
Effectieve spatio-temporele representatie is fundamenteel voor het modelleren, begrijpen en voorspellen van dynamiek in video's. De basiseenheid van een video, de pixel, volgt een continue 3D-trajectorie in de tijd en fungeert als het primitieve element van dynamiek. Op basis van dit principe stellen we voor om elke video te representeren als een Trajectory Field: een dichte mapping die aan elke pixel in elk frame een continue 3D-trajectoriefunctie van de tijd toekent. Met deze representatie introduceren we Trace Anything, een neuraal netwerk dat het volledige trajectorieveld in één enkele feed-forward pass voorspelt. Specifiek voorspelt ons model voor elke pixel in elk frame een set controlepunten die een trajectorie parametriseren (bijvoorbeeld een B-spline), wat de 3D-positie oplevert op willekeurige tijdstippen. We hebben het Trace Anything-model getraind op grootschalige 4D-data, inclusief data van ons nieuwe platform, en onze experimenten tonen aan dat: (i) Trace Anything state-of-the-art prestaties behaalt op onze nieuwe benchmark voor trajectorieveldestimatie en competitief presteert op gevestigde punt-tracking benchmarks; (ii) het aanzienlijke efficiëntiewinsten biedt dankzij zijn one-pass paradigma, zonder iteratieve optimalisatie of aanvullende schatters te vereisen; en (iii) het emergente vaardigheden vertoont, waaronder doelgerichte manipulatie, bewegingvoorspelling en spatio-temporele fusie. Projectpagina: https://trace-anything.github.io/.
We introduceren InteractiveOmni, een uniform en open-source omni-modale grote taalmodellen voor audio-visuele multi-turn interactie, variërend van 4B tot 8B parameters, ontworpen om het veld van lichtgewicht modellen te leiden door uitgebreide omni-modale begrips- en spraakgeneratiecapaciteiten te bieden. Om dit te bereiken, integreren we de visie-encoder, audio-encoder, grote taalmodellen en spraakdecoder in een uniform model voor begrips- en generatietaken. We ontwerpen een meerfasige trainingsstrategie om robuuste cross-modale capaciteiten te waarborgen, inclusief pre-training voor omni-modale begripsvorming, gevolgd door post-training met spraakconversatie en audio-visuele interactie. Om een mensachtige langetermijnconversatievaardigheid mogelijk te maken, stellen we zorgvuldig een multi-turn trainingsdataset samen die het vermogen van het model om complexe en multi-turn interacties te verwerken versterkt. Om de multi-turn geheugen- en spraakinteractiecapaciteiten effectief te evalueren, construeren we de multi-modale multi-turn geheugenbenchmark en de multi-turn spraakinteractiebenchmark. Experimenten tonen aan dat InteractiveOmni aanzienlijk beter presteert dan toonaangevende open-source modellen en een intelligenter multi-turn audio-visuele ervaring biedt, met name in zijn langetermijngeheugencapaciteiten. Opmerkelijk is dat InteractiveOmni-4B vergelijkbaar is met veel grotere modellen zoals Qwen2.5-Omni-7B op algemene benchmarks, en het kan 97% van de prestaties van InteractiveOmni-8B behouden terwijl slechts 50% van de modelgrootte wordt gebruikt. Door state-of-the-art resultaten te behalen tegenover vergelijkbaar grote modellen op het gebied van beeld-, audio-, videobegrip en spraakgeneratietaken, is InteractiveOmni een toegankelijke, open-source basis voor de volgende generatie intelligente interactieve systemen.
Reinforcement learning (RL) is centraal geworden bij het trainen van grote taalmmodellen (LLMs), maar het veld mist voorspellende schaalbaarheidsmethodologieën die vergelijkbaar zijn met die voor pre-training. Ondanks snel stijgende rekenbudgetten is er geen principieel begrip van hoe algoritmische verbeteringen voor het schalen van RL-rekenkracht moeten worden geëvalueerd. Wij presenteren de eerste grootschalige systematische studie, goed voor meer dan 400.000 GPU-uren, die een principieel raamwerk definieert voor het analyseren en voorspellen van RL-schaling in LLMs. We passen sigmoïdale rekenkracht-prestatiecurven toe voor RL-training en onderzoeken een breed scala aan veelvoorkomende ontwerpkeuzes om hun effecten op asymptotische prestaties en rekenkrachtefficiëntie te analyseren. We observeren: (1) Niet alle methoden leveren vergelijkbare asymptotische prestaties op, (2) Details zoals verliesaggregatie, normalisatie, curriculum en off-policy algoritmen beïnvloeden vooral de rekenkrachtefficiëntie zonder de asymptoot significant te verschuiven, en (3) Stabiele, schaalbare methoden volgen voorspelbare schalingstrajecten, waardoor extrapolatie vanuit kleinschalige runs mogelijk is. Door deze inzichten te combineren, stellen we een best-practice methode voor, ScaleRL, en demonstreren we de effectiviteit ervan door succesvol de validatieprestaties te schalen en voorspellen in een enkele RL-run opgeschaald tot 100.000 GPU-uren. Ons werk biedt zowel een wetenschappelijk raamwerk voor het analyseren van schaling in RL als een praktische methode die RL-training dichter brengt bij de voorspelbaarheid die al lang wordt bereikt in pre-training.
Hoewel de meeste autoregressieve LLM's beperkt zijn tot een voor een decodering, hebben diffusie-LLM's (dLLM's) steeds meer aandacht getrokken vanwege hun potentieel om inferentie aanzienlijk te versnellen door parallelle decodering. Ondanks deze belofte leidt de aanname van conditionele onafhankelijkheid in dLLM's ertoe dat parallelle decodering tokenafhankelijkheden negeert, wat onvermijdelijk de generatiekwaliteit aantast wanneer deze afhankelijkheden sterk zijn. Bestaande werken gaan echter grotendeels voorbij aan deze inherente uitdagingen, en evaluaties op standaardbenchmarks (bijv. wiskunde en codering) zijn niet voldoende om de kwaliteitsvermindering veroorzaakt door parallelle decodering vast te leggen. Om deze kloof te dichten, bieden we eerst een informatietheoretische analyse van parallelle decodering. Vervolgens voeren we casestudies uit op analytisch behandelbare synthetische lijstbewerkingen vanuit zowel het perspectief van de dataverdeling als de decoderingstrategie, waarbij we kwantitatieve inzichten bieden die de fundamentele beperkingen van parallelle decodering benadrukken. Op basis van deze inzichten stellen we ParallelBench voor, de eerste benchmark die specifiek is ontworpen voor dLLM's, met realistische taken die triviaal zijn voor mensen en autoregressieve LLM's, maar uitzonderlijk uitdagend voor dLLM's onder parallelle decodering. Met behulp van ParallelBench analyseren we systematisch zowel dLLM's als autoregressieve LLM's, waarbij we aantonen dat: (i) dLLM's onder parallelle decodering dramatische kwaliteitsvermindering kunnen ondervinden in realistische scenario's, en (ii) huidige parallelle decoderingstrategieën moeite hebben om hun mate van parallellisme aan te passen op basis van taakmoeilijkheid, waardoor ze er niet in slagen een betekenisvolle versnelling te bereiken zonder in te leveren op kwaliteit. Onze bevindingen onderstrepen de dringende behoefte aan innovatieve decoderingsmethoden die de huidige snelheid-kwaliteit trade-off kunnen overwinnen. We maken onze benchmark beschikbaar om de ontwikkeling van echt efficiënte dLLM's te versnellen.
Multi-agent systemen (MAS) en reinforcement learning (RL) worden veelvuldig gebruikt om de agentische capaciteiten van grote taalmodellen (LLMs) te verbeteren. MAS verbetert de taakprestatie door middel van rolgebaseerde orkestratie, terwijl RL omgevingsbeloningen gebruikt om sterkere beleidsregels te leren, zoals GRPO-stijl optimalisatie. Het toepassen van on-policy RL op MAS blijft echter onderbelicht en brengt unieke uitdagingen met zich mee. Algoritmisch voldoen de standaard GRPO-groeperingsaannames niet, omdat prompts variëren per rol en per beurt. Systeemtechnisch moet de trainingsstack MAS-workflow rollouts en on-policy updates ondersteunen voor zowel single-policy als multi-policy modellen. Wij stellen AT-GRPO voor, dat bestaat uit (i) een agent- en beurtgewijs gegroepeerd RL-algoritme dat is afgestemd op MAS en (ii) een trainingssysteem dat zowel single- als multi-policy regimes ondersteunt. Over verschillende taken in games, planning, codering en wiskunde levert AT-GRPO aanzienlijke verbeteringen op. Bij langetermijnplanning verhoogt het de nauwkeurigheid van een 14,0 tot 47,0 procent single-agent RL-basislijn naar 96,0 tot 99,5 procent. Het verbetert ook de redeneerprestaties, met gemiddelde winsten van 3,87 tot 7,62 procent op coderings taken en 9,0 tot 17,93 procent op wiskunde. Code en omgevingen zijn beschikbaar op: https://github.com/pettingllms-ai/PettingLLMs.
We introduceren Generative Universal Verifier, een nieuw concept en plugin ontworpen voor next-generation multimodale redenering in vision-language modellen en geünificeerde multimodale modellen, die de fundamentele mogelijkheid biedt tot reflectie en verfijning van visuele uitkomsten tijdens het redeneer- en generatieproces. Dit werk levert drie belangrijke bijdragen: (1) We bouwen ViVerBench, een uitgebreide benchmark die 16 categorieën van kritieke taken omvat voor het evalueren van visuele uitkomsten in multimodale redenering. Resultaten tonen aan dat bestaande VLMs consistent onderpresteren op deze taken, wat een aanzienlijke kloof met menselijk niveau in betrouwbare visuele verificatie benadrukt. (2) We ontwerpen twee geautomatiseerde pipelines om grootschalige visuele verificatiedata te construeren en trainen OmniVerifier-7B, de eerste alomvattende generatieve verifier getraind voor universele visuele verificatie, die aanzienlijke verbeteringen behaalt op ViVerBench(+8.3). Door de training identificeren we drie atomische capaciteiten in visuele verificatie en demonstreren we hoe deze generaliseren en synergetisch interacteren. (3) We stellen OmniVerifier-TTS voor, een sequentieel test-time scaling paradigma dat de universele verifier benut om beeldgeneratie en -bewerking binnen geünificeerde modellen te verbinden, waardoor de bovengrens van generatieve mogelijkheden wordt verhoogd door iteratieve fijnmazige optimalisatie. Naast generatie breiden we de universele verifier uit naar bredere wereldmodellerende interleaved redeneerscenario's. Empirisch behaalt OmniVerifier-TTS verbeteringen op T2I-ReasonBench(+3.7) en GenEval++(+4.3), en overtreft het bestaande parallelle test-time scaling methoden, zoals Best-of-N. Door multimodale redenering te voorzien van betrouwbare visuele verificatie, bevordert OmniVerifier zowel betrouwbare reflectie tijdens generatie als schaalbare test-time verfijning, wat een stap markeert naar meer betrouwbare en controleerbare next-generation redeneersystemen.
Generatieve modellen zijn veelvuldig toegepast bij wereldmodellering voor omgevingssimulatie en voorspelling van toekomstige toestanden. Met de vooruitgang in autonoom rijden is er een groeiende vraag, niet alleen naar hoogwaardige videogeneratie onder diverse controles, maar ook naar het produceren van diverse en betekenisvolle informatie zoals diepteschatting. Om dit aan te pakken, stellen we CVD-STORM voor, een cross-view videodiffusiemodel dat gebruikmaakt van een ruimtelijk-temporele reconstructie Variational Autoencoder (VAE) die langdurige, multi-view video's genereert met 4D-reconstructiecapaciteiten onder diverse controle-ingangen. Onze aanpak fine-tunt eerst de VAE met een aanvullende 4D-reconstructietaak, waardoor het vermogen om 3D-structuren en temporele dynamiek te coderen wordt verbeterd. Vervolgens integreren we deze VAE in het videodiffusieproces om de generatiekwaliteit aanzienlijk te verbeteren. Experimentele resultaten tonen aan dat ons model aanzienlijke verbeteringen bereikt in zowel FID- als FVD-metrics. Daarnaast reconstrueert de gezamenlijk getrainde Gaussian Splatting Decoder effectief dynamische scènes, wat waardevolle geometrische informatie biedt voor een uitgebreid scènebegrip.
We introduceren InternVLA-M1, een uniform raamwerk voor ruimtelijke verankering en robotbesturing dat instructievolgende robots verder brengt richtung schaalbare, algemene intelligentie. De kernidee is ruimtelijk geleide visie-taal-actie training, waarbij ruimtelijke verankering de cruciale schakel vormt tussen instructies en robotacties. InternVLA-M1 maakt gebruik van een tweestaps pijplijn: (i) ruimtelijke verankeringsvooropleiding op meer dan 2,3M ruimtelijke redeneergegevens om te bepalen "waar te handelen" door instructies uit te lijnen met visuele, embodiment-agnostische posities, en (ii) ruimtelijk geleide actie-naopleiding om te beslissen "hoe te handelen" door embodiment-bewuste acties te genereren via plug-and-play ruimtelijke prompting. Dit ruimtelijk geleide trainingsrecept levert consistente verbeteringen op: InternVLA-M1 presteert beter dan zijn variant zonder ruimtelijke begeleiding met +14,6% op SimplerEnv Google Robot, +17% op WidowX, en +4,3% op LIBERO Franka, terwijl het sterkere ruimtelijke redeneervaardigheden demonstreert in voorspellingen van vakjes, punten en sporen. Om het volgen van instructies verder op te schalen, hebben we een simulatie-engine gebouwd om 244K generaliseerbare pick-and-place episodes te verzamelen, wat een gemiddelde verbetering van 6,2% oplevert over 200 taken en 3K+ objecten. In real-world geclusterde pick-and-place verbeterde InternVLA-M1 met 7,3%, en met synthetische co-training behaalde het +20,6% op onbekende objecten en nieuwe configuraties. Bovendien, in langetermijn redeneerintensieve scenario's, overtrof het bestaande werken met meer dan 10%. Deze resultaten benadrukken ruimtelijk geleide training als een verenigend principe voor schaalbare en veerkrachtige generalistische robots. Code en modellen zijn beschikbaar op https://github.com/InternRobotics/InternVLA-M1.
Baanbrekend onderzoek in Kunstmatige Intelligentie (AI) vereist aanzienlijke middelen, waaronder Grafische Verwerkingseenheden (GPU's), data en menselijke bronnen. In dit artikel evalueren we de relatie tussen deze middelen en de wetenschappelijke vooruitgang van foundation models (FM). We hebben 6517 FM-artikelen die tussen 2022 en 2024 zijn gepubliceerd beoordeeld en 229 eerste auteurs ondervraagd over de impact van rekenbronnen op wetenschappelijke output. We constateren dat een toename van rekenkracht gecorreleerd is met nationale financieringstoewijzingen en citaties, maar onze bevindingen tonen geen sterke correlaties met de onderzoeksomgeving (academisch of industrieel), domein of onderzoeksmethodologie. Wij adviseren individuen en instellingen om zich te richten op het creëren van gedeelde en betaalbare rekenmogelijkheden om de drempel voor onderzoekers met beperkte middelen te verlagen. Deze stappen kunnen helpen om deelname aan FM-onderzoek uit te breiden, diversiteit van ideeën en bijdragers te bevorderen, en innovatie en vooruitgang in AI te ondersteunen. De data zal beschikbaar zijn op: https://mit-calc.csail.mit.edu/
In dit artikel stellen we dat 3D-visuele grounding de hoeksteen is van ruimtelijk redeneren en introduceren we de Grounded-Spatial Reasoner (GS-Reasoner) om effectieve ruimtelijke representaties te verkennen die de kloof tussen beide overbruggen. Bestaande 3D LLM's kampen met het ontbreken van een uniforme 3D-representatie die zowel semantische als geometrische informatie gezamenlijk kan vastleggen. Dit tekort uit zich ofwel in slechte prestaties op het gebied van grounding, ofwel in een overmatige afhankelijkheid van externe modules, wat uiteindelijk de naadloze integratie van grounding en ruimtelijk redeneren belemmert. Om dit aan te pakken, stellen we een eenvoudig maar effectief dual-path pooling-mechanisme voor dat geometrische kenmerken nauw afstemt op zowel semantische als positionele signalen, waardoor een uniforme op beeldpatches gebaseerde 3D-representatie wordt geconstrueerd die alle essentiële informatie omvat zonder het aantal invoertokens te verhogen. Door gebruik te maken van deze holistische representatie, is GS-Reasoner de eerste 3D LLM die volledig zonder externe modules autoregressieve grounding bereikt, terwijl het prestaties levert die vergelijkbaar zijn met state-of-the-art modellen, waarmee een uniform en zelfvoorzienend kader voor 3D-ruimtelijk redeneren wordt gevestigd. Om grounding en ruimtelijk redeneren verder te verbinden, introduceren we de Grounded Chain-of-Thought (GCoT) dataset. Deze dataset is zorgvuldig samengesteld om zowel 3D-boundingboxannotaties voor objecten die in redeneervragen worden genoemd, als stapsgewijze redeneerpaden te bevatten die grounding integreren als een kerncomponent van het probleemoplossingsproces. Uitgebreide experimenten tonen aan dat GS-Reasoner indrukwekkende resultaten behaalt op het gebied van 3D-visuele grounding, wat op zijn beurt zijn ruimtelijke redeneervaardigheden aanzienlijk verbetert, wat leidt tot state-of-the-art prestaties.
Succesvolle generalistische Vision-Language-Action (VLA) modellen zijn afhankelijk van effectieve training over diverse robotplatforms met grootschalige, cross-embodiment, heterogene datasets. Om de heterogeniteit in rijke, diverse robotdatabronnen te faciliteren en te benutten, stellen we een nieuwe Soft Prompt-aanpak voor met minimaal toegevoegde parameters, door prompt learning-concepten te integreren in cross-embodiment robotleren en aparte sets van leerbare embeddings te introduceren voor elke afzonderlijke databron. Deze embeddings dienen als embodiment-specifieke prompts, die gezamenlijk VLA-modellen in staat stellen om effectief gebruik te maken van verschillende cross-embodiment kenmerken. Onze nieuwe X-VLA, een elegante VLA-architectuur gebaseerd op flow-matching, vertrouwt uitsluitend op soft-prompted standaard Transformer-encoders, wat zowel schaalbaarheid als eenvoud biedt. Geëvalueerd over 6 simulaties en 3 echte robots, behaalt onze 0.9B instantiatie - X-VLA-0.9B - tegelijkertijd state-of-the-art (SOTA) prestaties over een reeks benchmarks, wat superieure resultaten aantoont op een breed scala aan capaciteiten, van flexibele behendigheid tot snelle aanpassing over verschillende embodiments, omgevingen en taken. Website: https://thu-air-dream.github.io/X-VLA/
Universele multimodale inbeddingsmodellen vormen de basis voor diverse taken. Bestaande benaderingen maken doorgaans gebruik van in-batch negatieve mining door de overeenkomst van query-kandidaatparen te meten. Deze methoden hebben echter vaak moeite om subtiele semantische verschillen tussen kandidaten vast te leggen en vertonen een gebrek aan diversiteit in negatieve voorbeelden. Bovendien tonen de inbeddingen een beperkt onderscheidend vermogen bij het onderscheiden van valse en moeilijke negatieven. In dit artikel benutten we de geavanceerde begripscapaciteiten van MLLM's om representatie-leren te verbeteren en presenteren we een nieuw Universeel Multimodaal Inbeddingsmodel (UniME-V2). Onze aanpak construeert eerst een potentiële set van moeilijke negatieven via globale retrieval. Vervolgens introduceren we het MLLM-as-a-Judge mechanisme, dat MLLM's gebruikt om de semantische afstemming van query-kandidaatparen te beoordelen en zachte semantische overeenkomstsscores te genereren. Deze scores dienen als basis voor moeilijke negatieve mining, waardoor de impact van valse negatieven wordt verminderd en de identificatie van diverse, hoogwaardige moeilijke negatieven mogelijk wordt gemaakt. Bovendien worden de semantische overeenkomstsscores gebruikt als zachte labels om de rigide een-op-een mappingbeperking te verzachten. Door de overeenkomstmatrix af te stemmen op de zachte semantische overeenkomstsscorematrix, leert het model semantische onderscheidingen tussen kandidaten, wat het onderscheidend vermogen aanzienlijk verbetert. Om de prestaties verder te verbeteren, stellen we UniME-V2-Reranker voor, een herrangschikkingsmodel getraind op onze gedolven moeilijke negatieven via een gezamenlijke paarsgewijze en lijstgewijze optimalisatiebenadering. We voeren uitgebreide experimenten uit op de MMEB-benchmark en meerdere retrievalthaken, waaruit blijkt dat onze methode gemiddeld state-of-the-art prestaties behaalt voor alle taken.
Dit onderzoek introduceert een Masked Degradation Classification Pre-Training methode (MaskDCPT), ontworpen om de classificatie van degradatietypen in invoerbeelden te vergemakkelijken, wat leidt tot een uitgebreide voorafgaande training voor beeldherstel. In tegenstelling tot conventionele voorafgaande trainingsmethoden, gebruikt MaskDCPT het degradatietype van het beeld als een extreem zwakke supervisie, terwijl tegelijkertijd beeldreconstructie wordt benut om de prestaties en robuustheid te verbeteren. MaskDCPT omvat een encoder en twee decoders: de encoder extraheert kenmerken uit het gemaskeerde laagkwaliteitsinvoerbeeld. De classificatiedecoder gebruikt deze kenmerken om het degradatietype te identificeren, terwijl de reconstructiedecoder streeft naar het reconstrueren van een corresponderend hoogkwaliteitsbeeld. Dit ontwerp stelt de voorafgaande training in staat te profiteren van zowel gemaskeerde beeldmodellering als contrastief leren, wat resulteert in een gegeneraliseerde representatie die geschikt is voor hersteltaken. Dankzij de eenvoudige maar krachtige MaskDCPT kan de vooraf getrainde encoder worden gebruikt voor universeel beeldherstel en uitstekende prestaties behalen. De implementatie van MaskDCPT verbetert de prestaties aanzienlijk voor zowel convolutionele neurale netwerken (CNN's) als Transformers, met een minimale toename van 3,77 dB in PSNR bij de 5D all-in-one hersteltaak en een reductie van 34,8% in PIQE vergeleken met de baseline in realistische degradatiescenario's. Het vertoont ook een sterke generalisatie naar voorheen onbekende degradatietypen en -niveaus. Daarnaast hebben we de UIR-2.5M dataset samengesteld en vrijgegeven, die 2,5 miljoen gepaarde herstelvoorbeelden bevat over 19 degradatietypen en meer dan 200 degradatieniveaus, waarbij zowel synthetische als realistische data zijn opgenomen. De dataset, broncode en modellen zijn beschikbaar op https://github.com/MILab-PKU/MaskDCPT.
Door grote taalmodellen (LLM's) in te zetten voor het ophalen van documenten en het genereren van natuurlijke taalreacties, bieden Generative Engines, zoals Google AI-overzicht en ChatGPT, aanzienlijk verbeterde gebruikerservaringen en zijn ze snel uitgegroeid tot de nieuwe vorm van zoeken. Hun snelle adoptie drijft ook de behoefte aan Generative Engine Optimization (GEO), aangezien contentaanbieders graag meer aandacht willen genereren via deze systemen. In dit artikel introduceren we AutoGEO, een raamwerk om automatisch de voorkeuren van generative engines te leren wanneer opgehaalde inhoud wordt gebruikt voor het genereren van reacties, en om webinhoud te herschrijven voor meer van dergelijke aandacht. AutoGEO vraagt eerst geavanceerde LLM's om de voorkeuren van generative engines uit te leggen en haalt betekenisvolle voorkeursregels uit deze uitleg. Vervolgens gebruikt het deze voorkeursregels als contextengineering voor AutoGEO_API, een op prompts gebaseerd GEO-systeem, en als regelgebaseerde beloningen om AutoGEO_Mini te trainen, een kosteneffectief GEO-model. Experimenten op de standaard GEO-Bench en twee nieuw geconstrueerde benchmarks met echte gebruikersquery's tonen de effectiviteit van AutoGEO aan in het vergroten van de aandacht voor inhoud terwijl de zoeknut behouden blijft. Analyses bevestigen de robuustheid van de geleerde regels en hun vermogen om unieke voorkeuren in verschillende domeinen vast te leggen, evenals het vermogen van AutoGEO-systemen om deze in contentoptimalisatie te integreren. De code is vrijgegeven op https://github.com/cxcscmu/AutoGEO.
Unified multimodale modellen streven ernaar visueel begrip en generatie gezamenlijk mogelijk te maken, maar huidige benchmarks onderzoeken zelden hun echte integratie. Bestaande evaluaties behandelen de twee vaardigheden ofwel in isolatie of negeren taken die ze inherent koppelen. Om deze kloof te dichten, presenteren we Uni-MMMU, een uitgebreide en disciplinebewuste benchmark die de bidirectionele synergie tussen generatie en begrip systematisch ontvouwt over acht redeneringsgerichte domeinen, waaronder wetenschap, codering, wiskunde en puzzels. Elke taak is bidirectioneel gekoppeld, wat modellen vereist om (i) conceptueel begrip te benutten voor precieze visuele synthese, of (ii) generatie te gebruiken als cognitieve steun voor analytisch redeneren. Uni-MMMU omvat verifieerbare tussenstappen in het redeneren, unieke grondwaarden en een reproduceerbaar scoringsprotocol voor zowel tekstuele als visuele uitvoer. Door uitgebreide evaluatie van state-of-the-art unified, generatie-alleen en begrip-alleen modellen, onthullen we aanzienlijke prestatieverschillen en cross-modale afhankelijkheden, wat nieuwe inzichten biedt in wanneer en hoe deze vaardigheden elkaar versterken, en een betrouwbare basis legt voor de verdere ontwikkeling van unified modellen.
Gedetailleerd begrip van visuele en taalinhoud vereist een nauwkeurige afstemming tussen visuele content en linguïstische beschrijvingen, een vaardigheid die in huidige modellen nog beperkt is, vooral in niet-Engelse contexten. Hoewel modellen zoals CLIP goed presteren op het gebied van globale afstemming, hebben ze vaak moeite met het vastleggen van gedetailleerde details in objectattributen, ruimtelijke relaties en linguïstische uitdrukkingen, met beperkte ondersteuning voor tweetalig begrip. Om deze uitdagingen aan te pakken, introduceren we FG-CLIP 2, een tweetalig visueel-taalmodel dat is ontworpen om gedetailleerde afstemming voor zowel Engels als Chinees te bevorderen. Onze aanpak maakt gebruik van rijke gedetailleerde supervisie, waaronder regio-tekst matching en lange-beschrijving modellering, naast meerdere discriminerende doelstellingen. We introduceren verder het Textuele Intra-modale Contrastieve (TIC) verlies om semantisch vergelijkbare beschrijvingen beter te onderscheiden. Getraind op een zorgvuldig samengestelde mix van grootschalige Engelse en Chinese data, bereikt FG-CLIP 2 krachtige tweetalige prestaties. Om een rigoureuze evaluatie mogelijk te maken, presenteren we een nieuwe benchmark voor Chinees multimodaal begrip, met lange-beschrijving retrieval en bounding box classificatie. Uitgebreide experimenten op 29 datasets over 8 taken laten zien dat FG-CLIP 2 bestaande methoden overtreft en state-of-the-art resultaten behaalt in beide talen. We maken het model, de code en de benchmark beschikbaar om toekomstig onderzoek naar tweetalige gedetailleerde afstemming te faciliteren.
Model merging, met name op Instruct en Thinking modellen, heeft opmerkelijke prestaties getoond voor efficiënt redeneren. In dit artikel onderzoeken we systematisch de eenvoudigste merging-methode die twee gewichten direct interpoleert. In het bijzonder observeren we dat modelinterpolatie een driestaps evolutionair paradigma volgt met verschillende gedragingen op het redeneertraject. Deze dynamiek biedt een principiële leidraad voor het navigeren door de afweging tussen prestaties en kosten. Empirische resultaten tonen aan dat een strategisch geïnterpoleerd model verrassend genoeg geavanceerde modelmerging-baselines overtreft op zowel efficiëntie als effectiviteit. We valideren onze bevindingen verder met uitgebreide ablatiestudies op modellagen, modules en decodeerstrategieën. Uiteindelijk ontrafelt dit werk modelinterpolatie en biedt het een praktisch raamwerk voor het ontwerpen van modellen met precies gerichte redeneervaardigheden. Code is beschikbaar op https://github.com/wutaiqiang/MI{Github}.
Recente vooruitgang in grote taalmodellen (LLMs) heeft zich gericht op schaling tijdens de testfase om redeneren te verbeteren via verhoogde inferentieberekening, maar vaak ten koste van efficiëntie. We herzien het gedrag tijdens de testfase en ontdekken een eenvoudig maar onderbelicht fenomeen: onzekerheid bij het redeneren is sterk gelokaliseerd—slechts een kleine subset van tokens met hoge entropie beïnvloedt de uitvoercorrectheid dominant. Gemotiveerd door dit inzicht stellen we Minimal Test-Time Intervention (MTI) voor, een trainingsvrij raamwerk dat de nauwkeurigheid en stabiliteit van redeneren verbetert met minimale overhead. MTI omvat: (i) Selectieve CFG-interventie, waarbij classifier-free guidance alleen wordt toegepast op onzekere posities; en (ii) Lichtgewicht negatieve-prompt guidance, waarbij de KV-cache van het hoofdmodel wordt hergebruikt om onvoorwaardelijke decodering efficiënt te benaderen. MTI levert consistente verbeteringen op bij algemene, programmeer- en STEM-taken—bijvoorbeeld een gemiddelde verbetering van +1,35% op acht benchmarks voor Qwen3-8B-Base en +5% op AIME2024 met Qwen3-32B-Reasoning—terwijl het zeer efficiënt blijft.
Decoder-only transformers zijn de standaardarchitectuur geworden voor grote taalmodellen (LLMs) vanwege hun sterke prestaties. Recente studies suggereren dat in vooraf getrainde LLMs vroege, middelste en late lagen verschillende rollen kunnen vervullen: Vroege lagen richten zich op het begrijpen van de invoercontext, middelste lagen verwerken taakspecifieke informatie, en late lagen zetten abstracte representaties om in uitvoertokens. Wij veronderstellen dat zodra representaties zijn verwerkt door de vroege en middelste lagen, de resulterende verborgen toestanden voldoende informatie kunnen bevatten om de generatie van meerdere tokens te ondersteunen met alleen de late lagen, waardoor het herhaaldelijk doorlopen van de vroege en middelste lagen overbodig wordt. Wij noemen dit inferentieparadigma Direct Multi-Token Decoding (DMTD). In tegenstelling tot speculatieve decodering introduceert onze methode geen extra parameters, hulproutines of post-generatieverificatie. Ondanks training op een beperkte dataset heeft een fijn afgestemd DMTD Qwen3-4B model al veelbelovende resultaten laten zien, met een snelheidsverbetering tot 2x en slechts een gering prestatieverlies. Bovendien, zoals blijkt uit onze schaalbaarheidsanalyse, wordt verwacht dat de prestaties verder zullen verbeteren met grotere trainingsdatasets.
Trainbare sparse attention is naar voren gekomen als een veelbelovende oplossing om het decodeerefficiëntieprobleem van LLM's bij lange-contextverwerking aan te pakken, waarbij het geheugentoegang aanzienlijk bespaart terwijl het de taakprestatie minimaal beïnvloedt. Bestaande sparse attention-methoden laten echter een cruciaal probleem onopgelost: de grootte van de key-value (KV)-cache blijft onverminderd, wat de batchgroottes op de GPU beperkt en de decodeersnelheid vertraagt, vooral bij grootschalige batchinferentie. In dit artikel tonen we aan dat trainbare sparse attention van nature een sterke localiteit vertoont in tokenselectie over aangrenzende decodestappen, waardoor KV-cache-offloading mogelijk wordt zonder de onderliggende attention-berekening te wijzigen. De inherente localiteit blijft echter onvoldoende om efficiënte offloading te bereiken, aangezien de overdracht van geselecteerde KV-paren tussen de CPU en GPU het grootste deel van de totale decodeerkosten blijft uitmaken. Op basis van dit inzicht presenteren we NOSA, een trainbaar sparse attention-framework dat KV-cache-offloading van nature ondersteunt. NOSA introduceert expliciete localiteitsbeperkingen door tokenselectie op te splitsen in query-aware en query-agnostische componenten, waardoor KV-overdrachten worden verminderd terwijl dezelfde attention-berekening behouden blijft als tijdens de training. We pretrainen een 1B-parameter model met NOSA en voeren uitgebreide benchmarks uit, waaruit blijkt dat het near-lossless prestaties behoudt terwijl het een verbetering van tot 2,3x in decodeersnelheid bereikt vergeleken met de baseline van trainbare sparse attention (InfLLM-V2).
Roboticamanipulatiebeleidsregels hebben vaak moeite met generaliseren naar nieuwe objecten, wat hun praktische bruikbaarheid beperkt. Cognitieve wetenschap suggereert daarentegen dat kinderen generaliseerbare behendige manipulatievaardigheden ontwikkelen door een kleine set eenvoudig speelgoed onder de knie te krijgen en die kennis vervolgens toe te passen op complexere items. Geïnspireerd door dit idee onderzoeken we of soortgelijke generalisatiecapaciteiten ook door robots kunnen worden bereikt. Onze resultaten geven aan dat robots generaliseerbaar grijpen kunnen leren met behulp van willekeurig samengestelde objecten die zijn opgebouwd uit slechts vier vormprimitieven: bollen, kubussen, cilinders en ringen. We laten zien dat training op dit "speelgoed" robuuste generalisatie naar echte objecten mogelijk maakt, wat resulteert in sterke zero-shot prestaties. Cruciaal is dat we ontdekken dat de sleutel tot deze generalisatie een objectgerichte visuele representatie is, geïnduceerd door ons voorgestelde detectiepoolingmechanisme. Geëvalueerd in zowel simulatie als op fysieke robots, behaalt ons model een 67% succespercentage in het grijpen van echte objecten in de YCB-dataset, wat state-of-the-art benaderingen overtreft die vertrouwen op aanzienlijk meer domeinspecifieke data. We bestuderen verder hoe zero-shot generalisatieprestaties schalen door het aantal en de diversiteit van trainingsspeelgoed en de demonstraties per stuk speelgoed te variëren. Wij geloven dat dit werk een veelbelovende weg biedt naar schaalbare en generaliseerbare leerprocessen in roboticamanipulatie. Demonstratievideo's, code, checkpoints en onze dataset zijn beschikbaar op onze projectpagina: https://lego-grasp.github.io/.
End-to-end autonome rijmodellen die uitsluitend zijn getraind met imitatieleren (IL) lijden vaak onder slechte generalisatie. Daarentegen bevordert reinforcement learning (RL) exploratie door beloningsmaximalisatie, maar kampt met uitdagingen zoals inefficiënt gebruik van samples en instabiele convergentie. Een natuurlijke oplossing is om IL en RL te combineren. Voorbij het conventionele tweestappenparadigma (IL-vooraf trainen gevolgd door RL-finetuning) stellen we CoIRL-AD voor, een competitief dual-policy raamwerk dat IL- en RL-agenten in staat stelt om tijdens de training te interacteren. CoIRL-AD introduceert een op competitie gebaseerd mechanisme dat kennisuitwisseling faciliteert terwijl het gradientconflicten voorkomt. Experimenten op de nuScenes-dataset laten een reductie van 18% in botsingspercentage zien in vergelijking met baseline-modellen, samen met sterkere generalisatie en verbeterde prestaties in zeldzame scenario's. De code is beschikbaar op: https://github.com/SEU-zxj/CoIRL-AD.
Recente ontwikkelingen in multi-agent systemen aangedreven door grote taalmodellen hebben opmerkelijke collectieve intelligentie getoond door effectieve communicatie. Bestaande benaderingen kampen echter met twee belangrijke uitdagingen: (i) Ineffectieve modellering van groepssamenwerking, omdat ze vertrouwen op paarsgewijze edge-representaties in grafische structuren, wat hun vermogen beperkt om relaties tussen meerdere agents te vatten; en (ii) Beperkte taakadaptiviteit in het ontwerp van communicatietopologieën, wat leidt tot overmatige communicatiekosten voor eenvoudige taken en onvoldoende coördinatie voor complexe scenario's. Deze problemen beperken de schaalbaarheid en praktische inzet van adaptieve samenwerkingsframeworks. Om deze uitdagingen aan te pakken, stellen we HyperAgent voor, een hypergraph-gebaseerd framework dat communicatietopologieën optimaliseert en groepssamenwerkingspatronen effectief vastlegt met behulp van directe hyperedge-representaties. In tegenstelling tot edge-gebaseerde benaderingen, gebruikt HyperAgent hyperedges om meerdere agents binnen dezelfde subtask te verbinden en maakt het gebruik van hypergraph convolutionele lagen om éénstaps informatie-aggregatie in samenwerkingsgroepen te bereiken. Daarnaast integreert het een variational autoencoder-framework met sparsity-regularisatie om hypergraph-topologieën dynamisch aan te passen op basis van taakcomplexiteit. Experimenten benadrukken de superioriteit van HyperAgent in zowel prestaties als efficiëntie. Op GSM8K behaalt HyperAgent bijvoorbeeld een nauwkeurigheid van 95,07% terwijl het tokenverbruik met 25,33% wordt verminderd, wat het potentieel van hypergraph-gebaseerde optimalisatie voor multi-agent communicatie aantoont.
Redeneersystemen gebaseerd op grote taalmodellen (LLM's) hebben onlangs goudmedailleprestaties behaald in de IMO 2025-competitie, waarbij ze wiskundige bewijzen schreven waarvoor, om volledige punten te krijgen, elke stap niet alleen correct maar ook voldoende onderbouwd moet zijn. Om LLM-gebaseerde redeneerders te trainen in dergelijke uitdagende, open-einde settings, zijn sterke verifiers die stapniveau-fouten kunnen opsporen noodzakelijke vereisten. Wij introduceren Hard2Verify, een door mensen geannoteerd, stapniveau-verificatiebenchmark geproduceerd met meer dan 500 uur menselijke arbeid. Hard2Verify is ontworpen om stapniveau-verifiers rigoureus te beoordelen aan de frontlinie: Verifiers moeten stapniveau-annotaties leveren of de eerste fout identificeren in reacties gegenereerd door frontlinie-LLM's voor zeer recente, uitdagende en open-einde wiskundevragen. Wij evalueren 29 generatieve critici en procesbeloningsmodellen, en tonen aan dat, op een paar uitzonderingen na, open-source verifiers achterblijven bij gesloten bronmodellen. Vervolgens analyseren we wat slechte prestaties in stapniveau-verificatie veroorzaakt, de impact van het schalen van verifier-rekenkracht, evenals fundamentele vragen zoals zelfverificatie en verificatie-generatiedynamiek.
Multi-turn Text-to-SQL heeft als doel de conversatie-uitingen van een gebruiker te vertalen naar uitvoerbare SQL, waarbij de dialoogsamenhang en de verankering aan het doelschema behouden blijven. De meeste bestaande systemen beschouwen deze taak echter slechts als een eenvoudige tekstvertalingstaak en volgen een kortetermijnparadigma, waarbij per beurt een query wordt gegenereerd zonder uitvoering, expliciete verificatie en verfijning, wat leidt tot niet-uitvoerbare of onsamenhangende resultaten. Wij presenteren MTSQL-R1, een agent-gebaseerd trainingsraamwerk voor langetermijn multi-turn Text-to-SQL. We formuleren de taak als een Markov Decision Process (MDP) waarin een agent interageert met (i) een database voor uitvoeringsfeedback en (ii) een permanent dialooggeheugen voor samenhangsverificatie, en een iteratieve cyclus van voorstellen -> uitvoeren -> verifiëren -> verfijnen doorloopt totdat alle controles zijn geslaagd. Experimenten op COSQL en SPARC tonen aan dat MTSQL-R1 consequent sterke baseline-methoden overtreft, wat het belang benadrukt van omgeving-gestuurde verificatie en geheugen-gestuurde verfijning voor conversatie-semantische parsing. Volledige recepten (inclusief code, getrainde modellen, logs, redeneertrajecten, enz.) zullen na interne review worden vrijgegeven om bij te dragen aan gemeenschapsonderzoek.
Multi-agent grote taalmodellen (LLM) systemen worden steeds vaker ingezet voor complexe taalverwerkingstaken die communicatie en coördinatie tussen agents vereisen. Deze systemen kampen echter vaak met aanzienlijke overhead door het herhaaldelijk verwerken van overlappende contexten tussen agents. In typische pijplijnen moet, zodra een agent een bericht ontvangt van zijn voorganger, de volledige context - inclusief eerdere beurten - van scratch opnieuw worden verwerkt, wat leidt tot inefficiënte verwerking. Hoewel key-value (KV) caching een effectieve oplossing is om redundante berekeningen te vermijden in single-agent instellingen waar prefixen ongewijzigd blijven, kan het niet direct worden hergebruikt in multi-agent scenario's vanwege divergerende prefixen die worden geïntroduceerd door agentspecifieke contextuitbreidingen. Wij identificeren dat de kernuitdaging ligt in de offset-variantie van KV-caches tussen agents. Om dit aan te pakken, stellen we KVCOMM voor, een trainingsvrij framework dat efficiënte prefilling mogelijk maakt in multi-agent inferentie door KV-caches te hergebruiken en cache-offsets van overlappende contexten uit te lijnen onder diverse prefixcontexten. KVCOMM schat en past KV-caches aan voor gedeelde inhoud door te verwijzen naar een pool van gecachete voorbeelden - zogenaamde ankers - die waargenomen cache-afwijkingen opslaan onder variërende prefixen. De ankerpool wordt online onderhouden en bijgewerkt, waardoor dynamische aanpassing aan verschillende gebruikersverzoeken en contextstructuren mogelijk is. KVCOMM bereikt een hergebruikpercentage van meer dan 70% over diverse multi-agent workloads, waaronder retrieval-augmented generatie, wiskundig redeneren en collaboratieve coderingstaken, allemaal zonder kwaliteitsverlies. Met name wanneer elke volledig verbonden agent 1K invoertokens ontvangt met 512 prefixtokens en 512 uitvoertokens in een vijf-agent instelling, bereikt KVCOMM een versnelling tot 7,8x vergeleken met de standaard prefill-pijplijn, waardoor de TTFT wordt teruggebracht van ~430 ms naar ~55 ms.
Trackers en videogeneratoren lossen nauw verwante problemen op: de eerste analyseren beweging, terwijl de laatste deze synthetiseren. We tonen aan dat deze verbinding het mogelijk maakt om vooraf getrainde videodiffusiemodellen zero-shot punt-tracking te laten uitvoeren door ze simpelweg te instrueren om punten visueel te markeren terwijl ze in de tijd bewegen. We plaatsen een duidelijk gekleurde markering op het querypunt en genereren vervolgens de rest van de video opnieuw vanaf een tussenliggend ruisniveau. Hierdoor wordt de markering over frames heen verspreid, waardoor het traject van het punt wordt gevolgd. Om ervoor te zorgen dat de markering zichtbaar blijft in deze tegenfeitelijke generatie, ondanks het feit dat dergelijke markeringen onwaarschijnlijk zijn in natuurlijke video's, gebruiken we het onbewerkte initiële frame als een negatieve prompt. Door experimenten met meerdere beeld-gestuurde videodiffusiemodellen, ontdekken we dat deze "emergerende" tracks beter presteren dan die van eerdere zero-shot methoden en door occlusies heen standhouden, waarbij ze vaak prestaties behalen die competitief zijn met gespecialiseerde zelf-supervisie modellen.
Alignment training heeft afwegingen: het helpt taalmodellen (LM's) te verbeteren in redeneren en instructies volgen, maar kan ten koste gaan van vaardigheden zoals creativiteit en kalibratie, waar niet-uitgelijnde basismodellen beter in zijn. Wij streven ernaar het beste van beide werelden te bereiken door modelcollaboratie, waarbij verschillende modellen in de trainingspipeline samenwerken en elkaar aanvullen. Omdat LM-reacties vaardigheden combineren die verschillende modellen begunstigen, stellen we Switch Generation voor, waarbij gepretrainde en uitgelijnde modelversies om de beurt 'spreken' in een reactiesequentie. Specifiek trainen we een schakelaar-LM door te leren uit de resultaten van het kiezen van verschillende modellen om het volgende segment te genereren over diverse vragen en contexten. Tijdens inferentie leidt de schakelaar-LM verschillende modelcheckpoints om dynamisch het volgende segment te genereren waar hun sterktes het meest nodig zijn. Uitgebreide experimenten met 8 modelcollaboratie-baselines en 18 datasets tonen aan dat 1) modelcollaboratie consistent beter presteert dan individuele modellen op 16 van de 18 taken, en 2) Switch Generation de baselines verder overtreft met gemiddeld 12,9%. Verdere analyse onthult dat Switch Generation compositorische vaardigheden ontdekt om problemen op te lossen waar individuele modellen moeite mee hebben, en generaliseert naar onbekende modellen en taken, waarbij bijproducten uit dure modeltrainingspipeline worden hergebruikt en herbestemd die anders zouden worden weggegooid.
Multi-agent systemen aangedreven door Large Language Models blinken uit in complexe taken door gecoördineerde samenwerking, maar kampen met hoge foutpercentages in multi-turn diepe zoekscenario's. Bestaande temporele attributiemethoden hebben moeite om de oorzaken nauwkeurig te diagnosticeren, vooral wanneer fouten zich verspreiden over meerdere agents. Pogingen om foutattributie te automatiseren door het analyseren van actievolgordes blijven ineffectief vanwege hun onvermogen om rekening te houden met informatieafhankelijkheden die agents overspannen. Dit artikel identificeert twee kernuitdagingen: (i) het onderscheiden van symptomen van oorzaken in multi-agent foutpropagatie, en (ii) het traceren van informatieafhankelijkheden verder dan temporele volgorde. Om deze problemen aan te pakken, introduceren we GraphTracer, een framework dat foutattributie herdefinieert door middel van informatieflowanalyse. GraphTracer construeert Information Dependency Graphs (IDG's) om expliciet vast te leggen hoe agents verwijzen naar en voortbouwen op eerdere uitvoer. Het lokaliseert oorzaken door door deze afhankelijkheidsstructuren te traceren in plaats van te vertrouwen op temporele sequenties. GraphTracer gebruikt ook grafiekbewuste synthetische datageneratie om kritieke nodes te targeten, waardoor realistische foutscenario's worden gecreëerd. Evaluaties op de Who\&When-benchmark en integratie in productiesystemen tonen aan dat GraphTracer-8B tot 18,18\% hogere attributienauwkeurigheid bereikt in vergelijking met state-of-the-art modellen en een prestatieverbetering van 4,8\% tot 14,2\% mogelijk maakt in geïmplementeerde multi-agent frameworks, waarmee een robuuste oplossing voor debugging van multi-agent systemen wordt gevestigd.
Met de opkomst van redenerende taalmodelen en schaalingsmethoden tijdens het testen als een paradigma voor het verbeteren van modelprestaties, is vaak aanzienlijke rekenkracht nodig om meerdere kandidaatreeksen uit dezelfde prompt te genereren. Dit maakt het mogelijk om verschillende redeneerpaden naar de juiste oplossing te verkennen, maar wijst hetzelfde rekenbudget toe aan elke prompt. Gebaseerd op de aanname dat verschillende prompts verschillende niveaus van complexiteit hebben, en dus verschillende rekenbehoeften, stellen we EAGer voor, een trainingsvrije generatiemethode die modelonzekerheid benut door middel van token-gewijze entropieverdeling om overbodige rekenkracht te verminderen en tegelijkertijd de algehele prestaties te verbeteren. EAGer maakt vertakking naar meerdere redeneerpaden alleen mogelijk in aanwezigheid van tokens met hoge entropie, en herverdeelt vervolgens het bespaarde rekenbudget naar de gevallen waar het verkennen van alternatieve paden het meest nodig is. We ontdekken dat EAGer, over meerdere open-source modellen heen op complexe redeneerbenchmarks zoals AIME 2025, het budget kan herverdelen zonder toegang tot doel-labels, en daarbij de beste efficiëntie-prestatieverhouding bereikt in termen van redeneerlengte en Pass@k. Wanneer doel-labels toegankelijk zijn, genereert EAGer tot 65% minder tokens (en bespaart daarmee rekenkracht) en behaalt het tot 37% verbetering in Pass@k vergeleken met Full Parallel Sampling.
Moderne lange-context grote taalmodellen (LLMs) presteren goed op synthetische "naald-in-een-hooiberg" (NIAH) benchmarks, maar dergelijke tests negeren hoe rumoerige contexten ontstaan door bevooroordeelde retrievals en agent-gebaseerde workflows. Wij beargumenteren dat hooiberg-engineering noodzakelijk is om rumoerige lange contexten te construeren die belangrijke real-world factoren nauwkeurig weergeven — afleiding door heterogene bevooroordeelde retrievers en cascaderende fouten in agent-gebaseerde workflows — om de lange-context robuustheid van modellen te testen. We concretiseren dit via HaystackCraft, een nieuwe NIAH benchmark gebouwd op het volledige Engelse Wikipedia hyperlink-netwerk met multi-hop vragen. HaystackCraft evalueert hoe heterogene retrievalstrategieën (bijv. sparse, dense, hybrid en graph-based) de samenstelling van afleiders, de volgorde van de hooiberg en de downstream LLM-prestaties beïnvloeden. HaystackCraft breidt NIAH verder uit naar dynamische, LLM-afhankelijke instellingen die agent-gebaseerde operaties simuleren, waarbij modellen queries verfijnen, reflecteren op hun eerdere redeneringen en beslissen wanneer ze moeten stoppen. Experimenten met 15 lange-context modellen tonen aan dat (1) hoewel sterkere dense retrievers meer uitdagende afleiders kunnen introduceren, graph-based reranking tegelijkertijd de retrieval-effectiviteit verbetert en schadelijker afleiders vermindert; (2) in agent-gebaseerde tests lijden zelfs geavanceerde modellen zoals Gemini 2.5 Pro en GPT-5 aan cascaderende fouten door zelf gegenereerde afleiders of hebben ze moeite om vroegtijdig te stoppen. Deze resultaten benadrukken aanhoudende uitdagingen in agent-gebaseerde lange-context redenering en vestigen HaystackCraft als een waardevolle testomgeving voor toekomstige vooruitgang.
Grote Taalmodellen (LLMs) vertonen menselijke of zelfs superieure taalvaardigheden en modelleren syntactische structuren effectief, maar de specifieke computationele modules die hiervoor verantwoordelijk zijn, blijven onduidelijk. Een belangrijke vraag is of het gedrag van LLMs voortkomt uit mechanismen die vergelijkbaar zijn met die in het menselijk brein. Om deze vragen te beantwoorden, introduceren we de Hierarchical Frequency Tagging Probe (HFTP), een tool die frequentiedomeinanalyse gebruikt om neuronale componenten van LLMs (bijvoorbeeld individuele Multilayer Perceptron (MLP)-neuronen) en corticale regio's (via intracraniële opnames) te identificeren die syntactische structuren coderen. Onze resultaten laten zien dat modellen zoals GPT-2, Gemma, Gemma 2, Llama 2, Llama 3.1 en GLM-4 syntaxis in analoge lagen verwerken, terwijl het menselijk brein voor verschillende syntactische niveaus afhankelijk is van afzonderlijke corticale regio's. Representational similarity analysis onthult een sterkere overeenkomst tussen LLM-representaties en de linkerhersenhelft (dominant in taalverwerking). Opvallend is dat geüpgradede modellen uiteenlopende trends vertonen: Gemma 2 toont een grotere gelijkenis met het brein dan Gemma, terwijl Llama 3.1 minder overeenstemming vertoont met het brein in vergelijking met Llama 2. Deze bevindingen bieden nieuwe inzichten in de interpreteerbaarheid van gedragsverbeteringen in LLMs en roepen vragen op over of deze vooruitgang wordt aangedreven door mensachtige of niet-mensachtige mechanismen. Daarnaast vestigt HFTP zich als een waardevol instrument dat computationele taalkunde en cognitieve neurowetenschappen verbindt. Dit project is beschikbaar op https://github.com/LilTiger/HFTP.
Met de komst van DeepSeek-R1 is een nieuwe golf van reinforcement learning (RL)-methoden ontstaan die sterkere wiskundige redeneervaardigheden lijken te ontgrendelen. Een nadere blik op het open-source-ecosysteem onthult echter een kritische beperking: met voldoende veel steekproeven (bijvoorbeeld pass@1024) lossen veel bestaande basismodellen al bijna alle vragen op veelgebruikte wiskundige benchmarks zoals MATH-500 en AIME 2024 op. Dit suggereert dat de RL-finetuningmethoden die overheersen in de literatuur over redeneren met grote taalmodellen (LLM) vooral bestaande oplossingsmethoden aanscherpen in plaats van geheel nieuwe te ontdekken. Dit aanscherpen staat in contrast met de bredere belofte van RL: het bevorderen van exploratie en het verwerven van nieuwe vaardigheden. Om dit plateau te overstijgen, introduceren we MATH-Beyond (MATH-B), een benchmark die bewust is geconstrueerd om veelgebruikte open-source modellen tot 8B parameters te verslaan, zelfs onder grote steekproefbudgetten. Het verbeteren van prestaties op onze benchmark via RL vereist methoden die leren redeneren op manieren die verder gaan dan de mogelijkheden van basismodellen bij herhaalde steekproeven. Omdat de problemen zijn ontleend aan subsets van de DAPO-Math-17K en DeepScaleR datasets, blijven ze thematisch equivalent aan standaard middelbare schoolwiskunde. Onze premisse wordt bevestigd door het feit dat RL-gefinetunede modellen zoals Nemotron-Research-Reasoning-Qwen-1.5B en DeepScaleR-1.5B-Preview slecht presteren op MATH-B bij pass@1024, wat aantoont hoe bestaande benaderingen tekortschieten bij het aanpakken van moeilijkere gevallen. We hopen dat MATH-B exploratiegedreven RL-benaderingen zal stimuleren die diepere redeneervaardigheden aanboren. We geven MATH-B vrij op https://huggingface.co/datasets/brendel-group/MATH-Beyond.
Remote inference maakt het mogelijk dat lichtgewicht apparaten gebruik kunnen maken van krachtige cloudmodellen. Echter, maakt de latentie van het communicatienetwerk voorspellingen verouderd en ongeschikt voor real-time taken. Om dit aan te pakken, introduceren we Dedelayed, een methode voor vertragingscorrectie die willekeurige vertragingen bij remote inference vermindert, waardoor het lokale apparaat real-time uitvoer met lage latentie kan produceren. Onze methode maakt gebruik van een lichtgewicht lokaal model dat het huidige frame verwerkt en features integreert die een zwaarwegend remote model berekent uit vorige frames. Op video's van het BDD100K rijdataset verbetert Dedelayed de nauwkeurigheid van semantische segmentatie ten opzichte van de sterkste van de lokaal-only en remote-only baselines bij alle realistische communicatienetwerkvertragingen van meer dan 33 ms. Zonder extra vertraging te veroorzaken, verbetert het de nauwkeurigheid met 6.4 mIoU vergeleken met volledig lokale inference en 9.8 mIoU vergeleken met remote inference, bij een round-trip vertraging van 100 ms. Het voordeel neemt toe bij langere vertragingen en scènes met hogere beweging, omdat vertragingsgemitigeerde gesplitste inference de nauwkeurigheid effectiever behoudt, wat duidelijke voordelen biedt voor real-time taken die afgestemd moeten blijven op de huidige wereldtoestand.
Redeneermodellen verbeteren hun probleemoplossend vermogen door schaling tijdens de inferentie, waarbij meer rekenkracht wordt toegewezen via langere tokenbudgetten. Het identificeren van welke redeneersporen waarschijnlijk succesvol zijn, blijft een belangrijke kans: het betrouwbaar voorspellen van productieve paden kan verspilde rekenkracht aanzienlijk verminderen en de algehele efficiëntie verbeteren. Wij introduceren Latent-Trajectory-signalen die de temporele evolutie van de interne representaties van een model karakteriseren tijdens het genereren van tussenliggende redeneertokens. Door de totale verandering in latente representaties tussen het begin en het einde van het redeneren te meten, de verandering die zich ophoopt over tussenliggende stappen, en de mate waarin deze veranderingen richting de eindtoestand vorderen, laten we zien dat deze signalen de oplossingsnauwkeurigheid betrouwbaarder voorspellen dan zowel metingen over lagen heen als op uitvoer gebaseerde betrouwbaarheidsmetingen. Wanneer ze worden gebruikt om antwoordselectie te begeleiden over meerdere bemonsterde generaties, maken Latent-Trajectory-signalen testtijd-schaling effectiever en efficiënter dan meerderheidsstemming, waardoor het tokengebruik met tot wel 70% wordt verminderd terwijl de nauwkeurigheid behouden blijft en zelfs gemiddeld met 2,6% verbetert. Bovendien ontstaan deze voorspellende signalen vaak vroeg in het redeneerspoor, wat vroege selectie en toewijzing van rekenkracht aan de meest veelbelovende kandidaten mogelijk maakt. Onze bevindingen dragen niet alleen praktische strategieën voor efficiëntie tijdens de inferentie bij, maar bieden ook een dieper interpretatieperspectief op hoe redeneerprocessen worden gerepresenteerd en gedifferentieerd in de latente ruimte.
De opkomst van grote taalmmodellen (LLMs) heeft nieuwe mogelijkheden geopend voor het creëren van dynamische non-player characters (NPCs) in gamingomgevingen, waardoor zowel functionele taakuitvoering als dialooggeneratie die consistent is met de persona mogelijk wordt. In dit artikel rapporteren wij (Tu_Character_lab) onze deelname aan de Commonsense Persona-Grounded Dialogue Challenge (CPDC) 2025 Ronde 2, waarbij agents worden geëvalueerd op drie sporen: taakgerichte dialoog, contextbewuste dialoog en de integratie daarvan. Onze aanpak combineert twee complementaire strategieën: (i) lichtgewicht promptingtechnieken in het API-spoor, inclusief een Deflanderization prompting-methode om excessief rollenspel te onderdrukken en de taakgetrouwheid te verbeteren, en (ii) fijn afgestelde grote modellen in het GPU-spoor, waarbij gebruik wordt gemaakt van Qwen3-14B met supervised finetuning (SFT) en Low-Rank Adaptation (LoRA). Onze beste inzendingen behaalden de 2e plaats in Taak 1, de 2e plaats in Taak 3 (API-spoor) en de 4e plaats in Taak 3 (GPU-spoor).
Redeneren gaat niet alleen over het oplossen van problemen -- het gaat ook over het beoordelen welke problemen überhaupt de moeite waard zijn om op te lossen. Evaluaties van kunstmatige intelligentie (AI)-systemen richtten zich historisch gezien vooral op probleemoplossing, door te bestuderen hoe modellen spellen zoals schaken en Go spelen. In dit artikel pleiten we voor een nieuw paradigma dat de evaluatie van spellen door AI-systemen beoordeelt. Eerst introduceren we een formalisme voor het evalueren van dergelijke evaluaties. Vervolgens maken we gebruik van een grootschalige dataset van meer dan 100 nieuwe bordspellen en meer dan 450 menselijke oordelen om de evaluaties van moderne taal- en redeneermodellen te vergelijken met die van mensen en symbolische computationele agents. We beschouwen twee soorten evaluatieve vragen: het beoordelen van de opbrengst (of eerlijkheid) en het plezier van spellen. Deze vragen beslaan twee dimensies die relevant zijn voor het ontwerpen van evaluaties van AI-evaluaties: hoe complex een vraag is om te berekenen en hoe moeilijk een vraag is om te kwantificeren. Onze resultaten laten zien dat redeneermodellen over het algemeen meer overeenkomen met mensen in hun evaluaties van spellen dan niet-redenerende taalmodellen. We observeren echter een niet-monotone relatie: naarmate modellen dichter bij het speltheoretische optimum komen, verzwakt hun overeenstemming met menselijke data. We observeren ook meer "ruwheid" tussen modellen bij het beoordelen van plezier, in lijn met de grotere moeilijkheid om deze vraag te kwantificeren. Over vragen en spellen heen tonen redeneermodellen zeer variabel en onvoorspelbaar resourcegebruik bij het beoordelen van vragen, wat wijst op het belang van het integreren van meer resource-rationele meta-redenering in taal- en redeneermodellen.