HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

41 papers found

De Duivel Achter Moltbook: Veiligheid bij Anthropic Verdwijnt Altijd in Zelf-evoluerende AI-samenlevingen
The Devil Behind Moltbook: Anthropic Safety is Always Vanishing in Self-Evolving AI Societies

Feb 10

ByChenxu Wang, Chaozhuo Li, Songyang Liu, Zejian Chen, Jinyu Hou, Ji Qi, Rui Li, Litian Zhang, Qiwei Ye, Zheng Liu, Xu Chen, Xi Zhang, Philip S. Yu

197

De opkomst van multi-agent systemen gebouwd op grote taalmodellen (LLM's) biedt een veelbelovend paradigma voor schaalbare collectieve intelligentie en zelf-evolutie. In een ideale situatie zouden dergelijke systemen continue zelfverbetering bereiken in een volledig gesloten lus, terwijl robuuste veiligheidsafstemming wordt gehandhaafd – een combinatie die wij het zelf-evolutie trilemma noemen. Wij tonen echter zowel theoretisch als empirisch aan dat een agentensamenleving die voldoet aan continue zelf-evolutie, volledige isolatie en veiligheidsinvariantie onmogelijk is. Op basis van een informatie-theoretisch kader formaliseren wij veiligheid als de graad van divergentie van antropische waardeverdelingen. Theoretisch demonstreren wij dat geïsoleerde zelf-evolutie statistische blinde vlekken induceert, wat leidt tot de onomkeerbare degradatie van de veiligheidsafstemming van het systeem. Empirische en kwalitatieve resultaten van een open-ended agentengemeenschap (Moltbook) en twee gesloten zelf-evoluerende systemen onthullen fenomenen die overeenkomen met onze theoretische voorspelling van onvermijdelijke veiligheidserosie. Wij stellen verder verschillende oplossingsrichtingen voor om het geïdentificeerde veiligheidsprobleem te verlichten. Ons werk stelt een fundamentele grens aan zelf-evoluerende AI-samenlevingen en verschuift het discours van symptoomgerichte veiligheidsoplapwerk naar een principieel begrip van intrinsieke dynamische risico's, waarbij de noodzaak van extern toezicht of nieuwe veiligheid-bewarende mechanismen wordt benadrukt.

Composition-RL: Stel Uw Verifieerbare Prompts Samen voor Reinforcement Learning van Grote Taalmodellen
Composition-RL: Compose Your Verifiable Prompts for Reinforcement Learning of Large Language Models

Feb 12

ByXin Xu, Clive Bai, Kai Yang, Tianhao Chen, Yangkun Chen, Weijie Liu, Hao Chen, Yang Wang, Saiyong Yang, Can Yang

Grootschalige verifieerbare prompts vormen de basis voor het succes van Reinforcement Learning with Verifiable Rewards (RLVR), maar ze bevatten veel niet-informatieve voorbeelden en zijn kostbaar om verder uit te breiden. Recente studies richten zich op het beter benutten van beperkte trainingsdata door prioriteit te geven aan moeilijke prompts met een slagingspercentage van 0. Echter, eenvoudige prompts met een slagingspercentage van 1 worden naarmate de training vordert ook steeds gebruikelijker, wat de effectieve datagrootte verkleint. Om dit te verhelpen, stellen we Composition-RL voor: een eenvoudige maar nuttige aanpak om beperkte verifieerbare prompts, met name prompts met slagingspercentage 1, beter te benutten. Concreet composeert Composition-RL automatisch meerdere problemen tot een nieuwe verifieerbare vraag en gebruikt deze samengestelde prompts voor RL-training. Uitgebreide experimenten met modelgroottes van 4B tot 30B tonen aan dat Composition-RL consistent de redeneercapaciteit verbetert vergeleken met RL getraind op de originele dataset. De prestaties kunnen verder worden verbeterd met een curriculumvariant van Composition-RL die geleidelijk de compositiediepte tijdens de training verhoogt. Bovendien maakt Composition-RL effectievere cross-domein RL mogelijk door prompts uit verschillende domeinen te combineren. Code, datasets en modellen zijn beschikbaar op https://github.com/XinXU-USTC/Composition-RL.

DeepGen 1.0: Een Lichtgewicht Geïntegreerd Multimodaal Model voor de Vooruitgang van Beeldgeneratie en -bewerking
DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing

Feb 12

ByDianyi Wang, Ruihang Li, Feng Han, Chaofan Ma, Wei Song, Siyuan Wang, Yibin Wang, Yi Xin, Hongjian Liu, Zhixiong Zhang, Shengyuan Ding, Tianhang Wang, Zhenglin Cheng, Tao Lin, Cheng Jin, Kaicheng Yu, Jingjing Chen, Wenjie Wang, Zhongyu Wei, Jiaqi Wang

Huidige geünificeerde multimodale modellen voor beeldgeneratie en -bewerking zijn doorgaans afhankelijk van massieve parameterschalen (bijv. >10B), wat exorbitante trainingskosten en implementatievoetafdrukken met zich meebrengt. In dit werk presenteren we DeepGen 1.0, een lichtgewicht 5B-geünificeerd model dat een uitgebreide capaciteit bereikt die concurreert met of grotere tegenhangers overtreft. Om de beperkingen van compacte modellen in semantisch begrip en fijnmazige controle te overwinnen, introduceren we Stacked Channel Bridging (SCB), een diep uitlijningsraamwerk dat hiërarchische kenmerken uit meerdere VLM-lagen extraheert en fuseert met leerbare 'denk-tokens' om de generatieve backbone van gestructureerde, redeneringsrijke begeleiding te voorzien. We ontwerpen verder een data-gecentreerde trainingsstrategie over drie progressieve fasen: (1) Uitlijningsvooropleiding op grootschalige beeld-tekstparen en bewerkingstriplets om VLM- en DiT-representaties te synchroniseren, (2) Gezamenlijke supervised fine-tuning op een hoogwaardig mengsel van generatie-, bewerkings- en redeneertaken om alomvattende capaciteiten te bevorderen, en (3) Versterkend Leren met MR-GRPO, dat gebruikmaakt van een mengsel van beloningsfuncties en supervisiesignalen, wat resulteert in aanzienlijke verbeteringen in generatiekwaliteit en afstemming met menselijke voorkeuren, terwijl stabiele trainingsvoortgang wordt behouden en visuele artefacten worden vermeden. Ondanks training op slechts ~50M samples behaalt DeepGen 1.0 toonaangevende prestaties op diverse benchmarks, waarbij het de 80B HunyuanImage met 28% overtreft op WISE en de 27B Qwen-Image-Edit met 37% op UniREditBench. Door onze trainingscode, gewichten en datasets open source te maken, bieden we een efficiënt, hoogwaardig alternatief om geünificeerd multimodaal onderzoek te democratiseren.

GigaBrain-0.5M: een VLA die leert op basis van reinforcement learning met wereldmodellen
GigaBrain-0.5M: a VLA That Learns From World Model-Based Reinforcement Learning

Feb 12

ByGigaBrain Team, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Jie Li, Jindi Lv, Jingyu Liu, Lv Feng, Mingming Yu, Peng Li, Qiuping Deng, Tianze Liu, Xinyu Zhou, Xinze Chen, Xiaofeng Wang, Yang Wang, Yifan Li, Yifei Nie, Yilong Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

Vision-language-action (VLA)-modellen die direct meerstaps actieblokken voorspellen vanuit huidige observaties kampen met inherente beperkingen door een beperkt scenebegrip en zwakke toekomstanticipatie. In tegenstelling hiermee vertonen videowereldmodellen, voorgetraind op web-schaal videocorpora, robuuste ruimtelijk-temporele redeneervaardigheden en accurate toekomstvoorspelling, wat ze een natuurlijke basis maakt om VLA-leren te verbeteren. Daarom stellen we GigaBrain-0.5M* voor, een VLA-model getraind via op wereldmodellen gebaseerd reinforcement learning. Gebouwd op GigaBrain-0.5, dat voorgetraind is op meer dan 10.000 uur aan robotmanipulatiegegevens en waarvan de tussentijdse versie momenteel eerste staat op de internationale RoboChallenge-benchmark. GigaBrain-0.5M* integreert verder reinforcement learning gebaseerd op wereldmodellen via RAMP (Reinforcement leArning via world Model-conditioned Policy) om robuuste adaptatie tussen taken mogelijk te maken. Empirische resultaten tonen aan dat RAMP substantiële prestatieverbeteringen bereikt ten opzichte van de RECAP-basislijn, met verbeteringen van ongeveer 30% op uitdagende taken zoals Laundry Folding, Box Packing en Espresso Preparation. Cruciaal is dat GigaBrain-0.5M* betrouwbare uitvoering over lange tijdshorizonnen vertoont, waarbij het consistent complexe manipulatietaken voltooit zonder falen, zoals gevalideerd door implementatievideo's in de echte wereld op onze https://gigabrain05m.github.io{projectpagina}.

Leren voorbij de leraar: Gegeneraliseerde on-policy distillatie met beloningsextrapolatie
Learning beyond Teacher: Generalized On-Policy Distillation with Reward Extrapolation

Feb 12

ByWenkai Yang, Weijie Liu, Ruobing Xie, Kai Yang, Saiyong Yang, Yankai Lin

On-policy distillatie (OPD), waarbij de student wordt afgestemd op de logit-verdeling van de leraar op door de student gegenereerde trajecten, heeft sterke empirische verbeteringen aangetoond in de prestaties van de student en overtreft vaak off-policy distillatie en reinforcement learning (RL) paradigma's. In dit werk tonen we eerst theoretisch aan dat OPD een speciaal geval is van dense RL met een KL-beperking, waarbij de beloningsfunctie en de KL-regularisatie altijd even zwaar worden gewogen en het referentiemodel elk willekeurig model kan zijn. Vervolgens stellen we het Generalized On-Policy Distillation (G-OPD) raamwerk voor, dat het standaard OPD-doel uitbreidt door een flexibel referentiemodel en een schaalfactor voor de beloning te introduceren die het relatieve gewicht van de beloningsterm ten opzichte van de KL-regularisatie regelt. Door middel van uitgebreide experimenten met wiskundige redeneer- en codegeneratietaken leiden we twee nieuwe inzichten af: (1) Het instellen van de schaalfactor voor de beloning op groter dan 1 (d.w.z. beloningsextrapolatie), wat we ExOPD noemen, levert consistente verbetering op ten opzichte van standaard OPD over een reeks van leraar-student grootte-combinaties. Met name in de setting waar we kennis van verschillende domeinexperts, verkregen door domeinspecifieke RL op hetzelfde studentmodel toe te passen, terug samenvoegen in de oorspronkelijke student, stelt ExOPD de student in staat om zelfs de prestatiegrens van de leraar te overtreffen en de domeinleraren te verslaan. (2) Voortbouwend op ExOPD, ontdekken we verder dat in de strong-to-weak distillatie-setting (d.w.z. het distilleren van een kleinere student uit een grotere leraar), het uitvoeren van beloningscorrectie door het referentiemodel te kiezen als het basis model van de leraar vóór RL een nauwkeuriger beloningssignaal oplevert en de distillatieprestatie verder verbetert. Deze keuze vereist echter toegang tot de variant van de leraar vóór RL en brengt meer rekenkosten met zich mee. We hopen dat ons werk nieuwe inzichten biedt voor toekomstig onderzoek naar OPD.

MOSS-Audio-Tokenizer: Schaalvergroting van Audio-Tokenizers voor Toekomstige Audio-Foundation-Modellen
MOSS-Audio-Tokenizer: Scaling Audio Tokenizers for Future Audio Foundation Models

Feb 11

ByYitian Gong, Kuangwei Chen, Zhaoye Fei, Xiaogui Yang, Ke Chen, Yang Wang, Kexin Huang, Mingshu Chen, Ruixiao Li, Qingyuan Cheng, Shimin Li, Xipeng Qiu

Discrete audiocoderingen vormen de basis voor het toekennen van native audioverwerkings- en generatiecapaciteiten aan grote taalmodel(len). Ondanks recente vooruitgang zijn bestaande methoden vaak afhankelijk van vooraf getrainde encoders, semantische distillatie of heterogene op CNN gebaseerde architecturen. Deze ontwerpen introduceren vaste inductieve vooroordelen die de reconstructiekwaliteit beperken en effectieve schaalvergroting belemmeren. In dit artikel beargumenteren wij dat discrete audiocodering volledig end-to-end moet worden aangeleerd met een homogene en schaalbare architectuur. Hiertoe stellen we eerst CAT (Causal Audio Tokenizer with Transformer) voor, een puur op Transformers gebaseerde architectuur die de encoder, quantizer en decoder vanaf nul gezamenlijk optimaliseert voor hoogwaardige reconstructie. Voortbouwend op de CAT-architectuur ontwikkelen we MOSS-Audio-Tokenizer, een grootschalige audiocodering met 1,6 miljard parameters, voorgetraind op 3 miljoen uur diverse, algemene audiogegevens. Wij tonen aan dat deze eenvoudige, volledig end-to-end aanpak, opgebouwd uit homogene causale Transformer-blokken, elegant schaalt en hoogwaardige reconstructie ondersteunt in diverse audiodomeinen. Voor spraak, geluiden en muziek overtreft MOSS-Audio-Tokenizer consistent eerdere codecs over een breed bitratebereik, terwijl het voorspelbare verbeteringen vertoont bij toenemende schaal. Opmerkelijk is dat we, door gebruik te maken van de discrete tokens van ons model, het eerste puur autoregressieve TTS-model ontwikkelen dat eerdere niet-autoregressieve en gegeneraliseerde systemen overtreft. Bovendien maakt MOSS-Audio-Tokenizer competitieve ASR-prestaties mogelijk zonder hulp-encoders. Onze bevindingen positioneren de CAT-architectuur als een uniforme, schaalbare interface voor de volgende generatie van native audio-foundationmodellen.

NarraScore: Overbrugging van Visueel Verhaal en Muzikale Dynamiek via Hiërarchische Affectieve Controle
NarraScore: Bridging Visual Narrative and Musical Dynamics via Hierarchical Affective Control

Feb 9

ByYufan Wen, Zhaocheng Liu, YeGuo Hua, Ziyi Guo, Lihua Zhang, Chun Yuan, Jian Wu

Het synthetiseren van coherente soundtracks voor lange video's blijft een formidabele uitdaging, die momenteel wordt belemmerd door drie kritieke obstakels: computationele schaalbaarheid, temporele coherentie, en, het belangrijkst, een alomtegenwoordige semantische blindheid voor evoluerende narratieve logica. Om deze kloof te overbruggen, stellen we NarraScore voor, een hiërarchisch framework gebaseerd op de kerninzicht dat emotie dient als een hoogwaardige compressie van narratieve logica. Op unieke wijze hergebruiken we bevroren Vision-Language Modellen (VLM's) als continue affectieve sensoren, die hoogdimensionale visuele stromen destilleren tot dichte, narratief-bewuste Valence-Arousal-trajecten. Mechanistisch gezien hanteert NarraScore een Dual-Branch Injectiestrategie om globale structuur met lokale dynamiek te verzoenen: een Globale Semantische Anker zorgt voor stilistische stabiliteit, terwijl een chirurgische Token-Level Affectieve Adapter de lokale spanning moduleert via directe elementgewijze residuele injectie. Dit minimalistische ontwerp omzeilt de knelpunten van dichte aandacht en architecturaal klonen, en vermindert effectief de overfittingsrisico's die gepaard gaan met dataschaarste. Experimenten tonen aan dat NarraScore state-of-the-art consistentie en narratieve afstemming bereikt met verwaarloosbare computationele overhead, waarmee een volledig autonoom paradigma voor soundtrackgeneratie voor lange video's wordt gevestigd.

LawThinker: Een Diepgaand Onderzoekende Juridische Agent in Dynamische Omgevingen
LawThinker: A Deep Research Legal Agent in Dynamic Environments

Feb 12

ByXinyu Yang, Chenlong Deng, Tongyu Wen, Binyu Xie, Zhicheng Dou

Juridische redenering vereist niet alleen correcte uitkomsten, maar ook procedureel conforme denkprocessen. Bestaande methoden missen echter mechanismen om tussentijdse redeneerstappen te verifiëren, waardoor fouten zoals ontoepasselijke wetsverwijzingen onopgemerkt door de redeneerketen kunnen voortplanten. Om dit aan te pakken, presenteren wij LawThinker, een autonome juridische onderzoeksagent die een Verkennen-Verifiëren-Onthouden strategie hanteert voor dynamische juridische omgevingen. De kernidee is om verificatie als een atomische operatie af te dwingen na elke stap van kennisverkenning. Een DeepVerifier-module onderzoekt elk retrieved resultaat langs drie dimensies: kennisnauwkeurigheid, feit-recht relevantie en procedurele conformiteit, ondersteund door een geheugenmodule voor kruisronde kennishergebruik bij langlopende taken. Experimenten op de dynamische benchmark J1-EVAL tonen aan dat LawThinker een verbetering van 24% bereikt ten opzichte van direct redeneren en 11% wint op workflow-gebaseerde methoden, met bijzonder sterke verbeteringen op procesgerichte metrieken. Evaluaties op drie statische benchmarks bevestigen verder diens generalisatievermogen. De code is beschikbaar op https://github.com/yxy-919/LawThinker-agent.

Denken met Ontwerpen: Optische Decompressie via Logische Reconstructie
Thinking with Drafting: Optical Decompression via Logical Reconstruction

Feb 12

ByJingxuan Wei, Honghao He, Caijun Jia, Siyuan Li, Zheng Sun, Yuhang Xu, Yuanyuan Lin, Linzhuang Sun, Yuchen Wu, Bihui Yu, Xiangxiang Zhang, Cheng Tan

Bestaande multimodale grote taalmodellen hebben hoogwaardige visuele waarneming en verkennende visuele generatie bereikt. Er blijft echter een precisieparadox bestaan in complexe redeneertaken: optische waarnemingssystemen transcriberen symbolen zonder de logische topologie vast te leggen, terwijl op pixels gebaseerde generatieve modellen visuele artefacten produceren die wiskundige exactheid missen. Om deze kloof te overbruggen, stellen wij voor dat redeneren over visuele invoer wordt herconceptualiseerd als optische decompressie – het proces van het reconstrueren van latente logische structuren uit gecomprimeerde visuele tokens. Geleid door het axioma dat Parseren Gelijkstaat aan Redeneren, introduceren wij Denken met Ontwerpen (TwD), dat een minimalistische domeinspecifieke taal (DSL) gebruikt als een grondige tussenrepresentatie. In tegenstelling tot standaardbenaderingen die antwoorden direct hallucineren, dwingt TwD het model om zijn mentale model te ontwerpen in uitvoerbare code, waarbij deterministische visuele bewijzen worden gegenereerd voor zelfverificatie. Om dit te valideren, presenteren wij VisAlg, een visuele algebra-benchmark. Experimenten tonen aan dat TwD dient als superieur cognitief steigersysteem. Ons werk vestigt een gesloten systeem waarbij visuele generatie niet fungeert als creatieve output maar als logische verificator, wat een generaliseerbaar pad biedt voor visueel redeneren.

Langer Denken om Dieper te Verkennen: In-Context Verkenning Leren via Lengte-gestimuleerde Versterkingsleren
Think Longer to Explore Deeper: Learn to Explore In-Context via Length-Incentivized Reinforcement Learning

Feb 12

ByFuting Wang, Jianhao Yan, Yun Luo, Ganqu Cui, Zhi Wang, Xiaoye Qu, Yue Zhang, Yu Cheng, Tao Lin

Het bereiken van effectieve schaling tijdens testtijd vereist dat modellen In-Context Exploratie kunnen toepassen – het intrinsieke vermogen om meerdere redeneerhypothesen binnen één doorlopende context te genereren, verifiëren en verfijnen. Gegrond in de State Coverage-theorie identificeert onze analyse een kritieke bottleneck voor het mogelijk maken van deze capaciteit: hoewel een bredere state coverage langere redeneertrajecten vereist, vervalt de kans om dergelijke sequenties te bemonsteren exponentieel tijdens autoregressieve generatie, een fenomeen dat wij de "Shallow Exploration Trap" noemen. Om deze kloof te overbruggen, stellen wij Length-Incentivized Exploration (\method) voor. Dit eenvoudige maar effectieve recept moedigt modellen expliciet aan om meer te exploreren via een op lengte gebaseerde beloning in combinatie met een straf voor redundantie, waardoor de state coverage op een tweeledige manier wordt gemaximaliseerd. Uitgebreide experimenten met verschillende modellen (Qwen3, Llama) tonen aan dat \method in-context exploratie effectief stimuleert. Hierdoor behaalt onze methode een gemiddelde verbetering van 4,4% op in-domeintaken en een winst van 2,7% op out-of-domain benchmarks.

RISE: Zelfverbeterend Robotbeleid met Compositioneel Wereldmodel
RISE: Self-Improving Robot Policy with Compositional World Model

Feb 11

ByJiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li

Ondanks de voortdurende schaalvergroting van modelcapaciteit en data-acquisitie blijven Vision-Language-Action (VLA)-modellen broos in contactrijke en dynamische manipulatietaken, waarbij kleine uitvoeringsafwijkingen kunnen oplopen tot mislukkingen. Hoewel reinforcement learning (RL) een principieel pad naar robuustheid biedt, wordt on-policy RL in de fysieke wereld beperkt door veiligheidsrisico's, hardwarekosten en de noodzaak van omgevingsreset. Om deze kloof te overbruggen, presenteren we RISE, een schaalbaar framework voor robotreinforcement learning via verbeelding. De kern ervan is een Compositioneel Wereldmodel dat (i) de toekomst vanuit meerdere perspectieven voorspelt via een controleerbaar dynamisch model, en (ii) verbeeldde uitkomsten evalueert met een progressie-waardemodel, waardoor informatieve 'advantages' worden geproduceerd voor beleidsverbetering. Een dergelijk compositioneel ontwerp maakt het mogelijk om de toestand en waarde af te stemmen met de best geschikte, maar toch verschillende architecturen en doelstellingen. Deze componenten zijn geïntegreerd in een gesloten, zelfverbeterende pijplijn die continu denkbeeldige rollouts genereert, advantages schat en het beleud bijwerkt in de denkbeeldige ruimte, zonder kostbare fysieke interactie. Over drie uitdagende real-world taken heen behaalt RISE een significante verbetering ten opzichte van de state-of-the-art, met een absolute prestatieverbetering van meer dan +35% bij dynamisch sorteren van stenen, +45% voor het inpakken van een rugzak en +35% voor het sluiten van een doos.

Onverwachte Wending: Progressieve Semantische Illusies in Vector Schetsen
Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

Feb 12

ByHuai-Hsun Cheng, Siang-Ling Zhang, Yu-Lun Liu

Visuele illusies berusten traditioneel op ruimtelijke manipulaties, zoals multi-view consistentie. In dit werk introduceren we Progressieve Semantische Illusies, een nieuwe vector schetstaak waarbij een enkele schets een dramatische semantische transformatie ondergaat door de sequentiële toevoeging van lijnen. Wij presenteren Stroke of Surprise, een generatief raamwerk dat vectorlijnen optimaliseert om onderscheidende semantische interpretaties te bevredigen op verschillende tekenstadia. De kernuitdaging ligt in de "dubbele beperking": initiële prefixlijnen moeten een coherent object vormen (bijv. een eend) terwijl ze gelijktijdig dienen als structurele basis voor een tweede concept (bijv. een schaap) na toevoeging van delta-lijnen. Om dit aan te pakken, stellen we een sequentiebewust gezamenlijk optimalisatieraamwerk voor, aangedreven door een dual-branch Score Distillation Sampling (SDS) mechanisme. In tegenstelling tot sequentiële benaderingen die de initiële staat bevriezen, past onze methode prefixlijnen dynamisch aan om een "gemeenschappelijke structurele deelruimte" te ontdekken die geldig is voor beide doelen. Verder introduceren we een nieuw Overlay-verlies dat ruimtelijke complementariteit afdwingt, om structurele integratie in plaats van occlusie te waarborgen. Uitgebreide experimenten tonen aan dat onze methode state-of-the-art baseline-methoden significant overtreft in herkenbaarheid en illusiekracht, en daarmee visuele anagrammen succesvol uitbreidt van de ruimtelijke naar de temporele dimensie. Projectpagina: https://stroke-of-surprise.github.io/

χ₀: Resource-Aware Robuste Manipulatie door het Temmen van Distributionele Inconsistente
χ_{0}: Resource-Aware Robust Manipulation via Taming Distributional Inconsistencies

Feb 9

ByChecheng Yu, Chonghao Sima, Gangcheng Jiang, Hai Zhang, Haoguang Mai, Hongyang Li, Huijie Wang, Jin Chen, Kaiyang Wu, Li Chen, Lirui Zhao, Modi Shi, Ping Luo, Qingwen Bu, Shijia Peng, Tianyu Li, Yibo Yuan

Hoogbetrouwbare robotmanipulatie op lange termijn is traditioneel afhankelijk van grootschalige gegevens en rekenkracht om complexe dynamiek in de echte wereld te begrijpen. Wij stellen echter vast dat de voornaamste beperking voor robuustheid in de echte wereld niet alleen de schaal van middelen is, maar de distributionele verschuiving tussen de verdeling van menselijke demonstraties, de door het beleid geleerde inductieve bias en de uitvoeringsverdeling tijdens tests – een systematische inconsistentie die cumulerende fouten veroorzaakt in meerfasige taken. Om deze inconsistenties te verminderen, stellen we χ₀ voor, een resource-efficiënt raamwerk met effectieve modules die zijn aangewezen om productieniveau robuustheid in robotmanipulatie te bereiken. Onze aanpak rust op drie technische pijlers: (i) Model Arithmetic, een gewichtsruimte-samenvoegstrategie die efficiënt diverse verdelingen van verschillende demonstraties opneemt, variërend van objectverschijning tot toestandsvariaties; (ii) Stage Advantage, een fasebewuste voordelschatter die stabiele, dense voortgangssignalen verschaft en de numerieke instabiliteit van eerdere niet-fasegebonden benaderingen overwint; en (iii) Train-Deploy Alignment, dat de distributiekloof overbrugt via spatio-temporele augmentatie, heuristische DAgger-correcties en temporele chunk-wise afvlakking. χ₀ stelt twee sets dual-arm robots in staat om collaboratief langetermijn kledingmanipulatie te orkestreren, van taken zoals gladstrijken, vouwen tot het ophangen van verschillende kledingstukken. Onze methode vertoont hoogbetrouwbare autonomie; we kunnen het systeem vanaf een willekeurige begintoestand 24 uur non-stop laten draaien. Experimenten valideren dat χ₀ de state-of-the-art π₀.₅ overtreft met een bijna 250% hoger slagingspercentage, met slechts 20 uur aan gegevens en 8 A100 GPU's. Code, gegevens en modellen zullen worden vrijgegeven om de gemeenschap te faciliteren.

EgoHumanoid: Loco-manipulatie in de praktijk ontsloten met robotvrije egocentrische demonstratie
EgoHumanoid: Unlocking In-the-Wild Loco-Manipulation with Robot-Free Egocentric Demonstration

Feb 10

ByModi Shi, Shijia Peng, Jin Chen, Haoran Jiang, Yinghui Li, Di Huang, Ping Luo, Hongyang Li, Li Chen

Menselijke demonstraties bieden een rijke omgevingsdiversiteit en schalen van nature, wat ze een aantrekkelijk alternatief maakt voor robotteleoperatie. Hoewel dit paradigma de manipulatie met robotarmen heeft verbeterd, blijft het potentieel voor het uitdagendere, data-hongerige probleem van humanoïde loco-manipulatie grotendeels onontgonnen. Wij presenteren EgoHumanoid, het eerste raamwerk dat een visie-taal-actie-beleid gezamenlijk traint met behulp van overvloedige egocentrische menselijke demonstraties samen met een beperkte hoeveelheid robotdata, waardoor humanoïden loco-manipulatie kunnen uitvoeren in diverse real-world omgevingen. Om de belichamingskloof tussen mens en robot te overbruggen, inclusief verschillen in fysieke morfologie en gezichtspunt, introduceren we een systematisch afstijgpipeline die reikt van hardware-ontwerp tot gegevensverwerking. Er wordt een draagbaar systeem ontwikkeld voor schaalbare menselijke gegevensverzameling, en we stellen praktische verzamelprotocollen op om de overdraagbaarheid te verbeteren. In de kern van onze mens-naar-humanoïde afstijgpipeline liggen twee belangrijke componenten. De view-alignment vermindert visuele domeinverschillen veroorzaakt door camerahoogte en perspectiefvariatie. De action-alignment vertaalt menselijke bewegingen naar een uniforme, kinematisch haalbare actieruimte voor humanoïde besturing. Uitgebreide experimenten in de echte wereld tonen aan dat het incorporeren van egocentrische data zonder robotinput de alleen-met-robot-baselines met 51% significant overtreft, vooral in onbekende omgevingen. Onze analyse laat verder zien welke gedragingen effectief overdraagbaar zijn en het potentieel voor het opschalen van menselijke data.

dVoting: Snelle Stemming voor dLLM's
dVoting: Fast Voting for dLLMs

Feb 12

BySicheng Feng, Zigeng Chen, Xinyin Ma, Gongfan Fang, Xinchao Wang

Diffusion Large Language Models (dLLM's) vertegenwoordigen een nieuw paradigma dat verder gaat dan autoregressieve modellering, waarbij ze competitieve prestaties bieden en tegelijkertijd een flexibel decodeerproces mogelijk maken. Specifiek kunnen dLLM's tokens op willekeurige posities parallel genereren, wat hen een aanzienlijk potentieel geeft voor parallelle schaalvergroting tijdens het testen, wat voorheen werd beperkt door ernstige inefficiëntie in autoregressieve modellering. In dit werk introduceren we dVoting, een snelle stemtechniek die het redeneervermogen verbetert zonder training, met slechts een acceptabele extra rekenkosten. dVoting is gemotiveerd door de observatie dat, over meerdere samples voor dezelfde prompt, tokenvoorspellingen grotendeels consistent blijven, terwijl de prestaties worden bepaald door een kleine subset van tokens die variabiliteit tussen samples vertonen. Gebruikmakend van de willekeurige-positie-generatiecapaciteit van dLLM's, voert dVoting iteratieve verfijning uit door te samplen, onzekere tokens te identificeren via consistentieanalyse, deze opnieuw te genereren door middel van stemmen, en dit proces te herhalen tot convergentie. Uitgebreide evaluaties tonen aan dat dVoting consistent de prestaties verbetert op diverse benchmarks. Het behaalt winsten van 6,22%-7,66% op GSM8K, 4,40%-7,20% op MATH500, 3,16%-14,84% op ARC-C en 4,83%-5,74% op MMLU. Onze code is beschikbaar op https://github.com/fscdc/dVoting.

Voxtral Realtime
Voxtral Realtime

Feb 11

ByAlexander H. Liu, Andy Ehrenberg, Andy Lo, Chen-Yo Sun, Guillaume Lample, Jean-Malo Delignon, Khyathi Raghavi Chandu, Patrick von Platen, Pavankumar Reddy Muddireddy, Rohin Arora, Sanchit Gandhi, Sandeep Subramanian, Soham Ghosh, Srijan Mishra, Abhinav Rastogi, Alan Jeffares, Albert Jiang, Alexandre Sablayrolles, Amélie Héliou, Andrew Bai, Angele Lenglemetz, Anmol Agarwal, Anton Eliseev, Antonia Calvi, Arjun Majumdar, Baptiste Bout, Baptiste Rozière, Baudouin De Monicault, Benjamin Tibi, Clémence Lanfranchi, Connor Chen, Corentin Barreau, Corentin Sautier, Cyprien Courtot, Darius Dabert, Diego de las Casas, Elliot Chane-Sane, Enguerrand Paquin, Faruk Ahmed, Federico Baldassarre, Gabrielle Berrada, Gaëtan Ecrepont, Gauthier Guinet, Genevieve Hayes, Georgii Novikov, Giada Pistilli, Guillaume Martin, Gunjan Dhanuka, Gunshi Gupta, Han Zhou, Indraneel Mukherjee, Irene Zhang, Jaeyoung Kim, Jan Ludziejewski, Jason Rute, Joachim Studnia, John Harvill, Jonas Amar, Josselin Somerville Roberts, Julien Tauran, Karmesh Yadav, Kartik Khandelwal, Kush Jain, Laurence Aitchison, Léonard Blier, Lingxiao Zhao, Louis Martin, Lucile Saulnier, Luyu Gao, Maarten Buyl, Manan Sharma, Margaret Jennings, Marie Pellat, Mark Prins, Mathieu Poirée, Mathilde Guillaumin, Matthieu Dinot, Matthieu Futeral, Maxime Darrin, Maximilian Augustin, Mert Unsal, Mia Chiquier, Nathan Grinsztajn, Neha Gupta, Olivier Bousquet, Olivier Duchenne, Patricia Wang, Paul Jacob, Paul Wambergue, Paula Kurylowicz, Philomène Chagniot, Pierre Stock, Piotr Miłoś, Prateek Gupta, Pravesh Agrawal, Quentin Torroba, Ram Ramrakhya, Rishi Shah, Romain Sauvestre, Roman Soletskyi, Rosalie Millner, Sagar Vaze, Samuel Humeau, Siddharth Gandhi, Sumukh Aithal, Szymon Antoniak, Teven Le Scao, Théo Cachet, Theo Simon Sorg, Thibaut Lavril, Thomas Chabal, Thomas Foubert, Thomas Robert, Thomas Wang, Tim Lawson, Tom Bewley, Tom Edwards, Tyler Wang, Valeriia Nemychnikova, Van Phung, Vedant Nanda, Victor Jouault, Virgile Richard, Vladislav Bataev, Wassim Bouaziz, Wen-Ding Li, William Marshall, Xinghui Li, Xingran Guo, Xinyu Yang, Yannic Neuhaus, Yihan Wang, Zaccharie Ramzi, Zhenlin Xu

Wij introduceren Voxtral Realtime, een nautisch streamend automatisch spraakherkenningsmodel dat de transcriptiekwaliteit van offline modellen evenaart met een latentie van minder dan een seconde. In tegenstelling tot methoden die offline modellen aanpassen via chunking of schuivende vensters, is Voxtral Realtime end-to-end getraind voor streaming, met expliciete uitlijning tussen audio- en tekststromen. Onze architectuur bouwt voort op het Delayed Streams Modeling-framework en introduceert een nieuwe causale audio-encoder en Ada RMS-Norm voor verbeterde latentie-conditionering. We schalen de pretraining op naar een grootschalige dataset die 13 talen omvat. Met een latentie van 480ms bereikt Voxtral Realtime een prestatieniveau dat gelijk is aan dat van Whisper, het meest gebruikte offline transcriptiesysteem. Wij geven de modelgewichten vrij onder de Apache 2.0-licentie.

Sparse Video-generatie Bevordert Real-World Beyond-the-View Visie-Taal Navigatie
Sparse Video Generation Propels Real-World Beyond-the-View Vision-Language Navigation

Feb 5

ByHai Zhang, Siqi Liang, Li Chen, Yuxian Li, Yukuan Xu, Yichao Zhong, Fu Zhang, Hongyang Li

Waarom moet vision-language navigation gebonden zijn aan gedetailleerde en uitgebreide taal instructies? Hoewel dergelijke details de besluitvorming vergemakkelijken, gaan ze fundamenteel in tegen het doel van navigatie in de echte wereld. Idealiter zouden agents de autonomie moeten hebben om in onbekende omgevingen te navigeren, geleid door slechts eenvoudige en hoogoverige intenties. Het realiseren van deze ambitie introduceert een formidabele uitdaging: Beyond-the-View Navigation (BVN), waarbij agents verre, onzichtbare doelen moeten lokaliseren zonder gedetailleerde en stapsgewijze begeleiding. Bestaande op grote taalmodellen (LLM) gebaseerde methoden, hoewel bedreven in het volgen van gedetailleerde instructies, lijden vaak aan kortzichtige gedragingen vanwege hun afhankelijkheid van kortetermijntoezicht. Het simpelweg verlengen van de toezichthorizon destabiliseert echter de LLM-training. In dit werk identificeren we dat videogeneratiemodellen inherent profiteren van langetermijntoezicht om zich af te stemmen op taal instructies, wat ze bijzonder geschikt maakt voor BVN-taken. Gebruikmakend van dit inzicht, stellen we voor om het videogeneratiemodel voor het eerst in dit veld te introduceren. Echter, de buitensporige latentie voor het genereren van video's die tientallen seconden beslaan, maakt praktische inzet in de echte wereld onhaalbaar. Om deze kloof te overbruggen, stellen we SparseVideoNav voor, dat subseconden trajectinferentie bereikt, geleid door een gegenereerde toekomst met een sparse verdeling over een horizon van 20 seconden. Dit resulteert in een opmerkelijke 27x snelheidswinst vergeleken met de niet-geoptimaliseerde tegenhanger. Uitgebreide zero-shot experimenten in de echte wereld tonen aan dat SparseVideoNav een 2,5x hoger slagingspercentage behaalt dan state-of-the-art LLM-baselines op BVN-taken en markeert de eerste realisatie van een dergelijke capaciteit in uitdagende nachtscènes.

DeepSight: Een alles-in-één toolkit voor veiligheid van taalmodelen
DeepSight: An All-in-One LM Safety Toolkit

Feb 12

ByBo Zhang, Jiaxuan Guo, Lijun Li, Dongrui Liu, Sujin Chen, Guanxu Chen, Zhijie Zheng, Qihao Lin, Lewen Yan, Chen Qian, Yijin Zhou, Yuyao Wu, Shaoxiong Guo, Tianyi Du, Jingyi Yang, Xuhao Hu, Ziqi Miao, Xiaoya Lu, Jing Shao, Xia Hu

Met de snelle ontwikkeling van grootschalige modellen (LM's) staat ook hun veiligheid hoog op de agenda. In de huidige veiligheidswerkstromen voor grote taalmodellen (LLM's) en multimodale grote taalmodellen (MLLM's) worden evaluatie, diagnose en afstemming vaak door afzonderlijke tools afgehandeld. Concreet kan veiligheidsevaluatie alleen externe gedragsrisico's lokaliseren, maar geen interne oorzaken aanwijzen. Tegelijkertijd wijkt veiligheidsdiagnose vaak af van concrete risicoscenario's en blijft deze steken op het verklaarbare niveau. Hierdoor ontbreken bij veiligheidsafstemming gedetailleerde verklaringen voor veranderingen in interne mechanismen, wat de algemene capaciteiten kan aantasten. Om deze problemen systematisch aan te pakken, stellen we een open-sourceproject voor, genaamd DeepSight, om een nieuwe geïntegreerde paradigma voor veiligheidsevaluatie en -diagnose toe te passen. DeepSight is een kostenefficiënt, reproduceerbaar, efficiënt en zeer schaalbaar veiligheidsevaluatieproject voor grootschalige modellen, bestaande uit een evaluatietoolkit (DeepSafe) en een diagnosetoolkit (DeepScan). Door taken en gegevensprotocollen te standaardiseren, verbinden we de twee fasen en transformeren we veiligheidsevaluatie van black-box inzicht naar white-box inzicht. Daarnaast is DeepSight de eerste open-source toolkit die evaluatie van geavanceerde AI-risico's ondersteunt, evenals gezamenlijke veiligheidsevaluatie en -diagnose.

Aanpassing van visie-taalmodellen voor e-commercebegrip op grote schaal
Adapting Vision-Language Models for E-commerce Understanding at Scale

Feb 12

ByMatteo Nulli, Vladimir Orshulevich, Tala Bazazo, Christian Herold, Michael Kozielski, Marcin Mazur, Szymon Tuzel, Cees G. M. Snoek, Seyyed Hadi Hashemi, Omar Javed, Yannick Versley, Shahram Khadivi

Het begrijpen van e-commerceproducten vereist van nature een sterke multimodale verwerking van tekst, afbeeldingen en gestructureerde attributen. Algemene Vision-Language Models (VLM's) maken generaliseerbare multimodale latente modellering mogelijk, maar er bestaat geen gedocumenteerde, breed erkende strategie om ze aan te passen aan de attribuutgerichte, multi-image en rumoerige aard van e-commercegegevens zonder algemene prestaties op te offeren. In dit werk tonen we via een grootschalige experimentele studie aan hoe gerichte aanpassing van algemene VLM's de e-commerceprestaties aanzienlijk kan verbeteren met behoud van brede multimodale capaciteiten. Bovendien introduceren we een nieuwe uitgebreide evaluatieset die diepgaand productbegrip, strikte instructievolging en dynamische attribuutextractie omvat.

Gaia2: Prestaties meten van LLM-agenten in dynamische en asynchrone omgevingen
Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Feb 12

ByRomain Froger, Pierre Andrews, Matteo Bettini, Amar Budhiraja, Ricardo Silveira Cabral, Virginie Do, Emilien Garreau, Jean-Baptiste Gaya, Hugo Laurençon, Maxime Lecanu, Kunal Malkan, Dheeraj Mekala, Pierre Ménard, Gerard Moreno-Torres Bertran, Ulyana Piterbarg, Mikhail Plekhanov, Mathieu Rita, Andrey Rusakov, Vladislav Vorotilov, Mengjue Wang, Ian Yu, Amine Benhalloum, Grégoire Mialon, Thomas Scialom

Wij introduceren Gaia2, een benchmark voor het evalueren van agenten op basis van grote taalmodellen in realistische, asynchrone omgevingen. In tegenstelling tot eerdere statische of synchrone evaluaties, introduceert Gaia2 scenario's waarin omgevingen onafhankelijk van agentacties evolueren. Dit vereist dat agenten opereren onder temporele beperkingen, zich aanpassen aan ruis en dynamische gebeurtenissen, ambiguïteit oplossen en samenwerken met andere agenten. Elk scenario is gekoppeld aan een write-action-verifier, wat fijnmazige, actieniveau-evaluatie mogelijk maakt en Gaia2 direct bruikbaar maakt voor reinforcement learning met verifieerbare beloningen. Onze evaluatie van state-of-the-art propriëtaire en open-source modellen toont aan dat geen enkel model domineert op alle capaciteiten: GPT-5 (high) behaalt de hoogste algemene score van 42% pass@1 maar faalt bij tijdgevoelige taken, Claude-4 Sonnet ruilt nauwkeurigheid en snelheid in voor kosten, Kimi-K2 leidt bij open-source modellen met 21% pass@1. Deze resultaten belichten fundamentele afwegingen tussen redenering, efficiëntie, robuustheid, en tonen de uitdagingen in het dichten van de "sim2real"-kloof. Gaia2 is gebouwd op een consumentenomgeving met het open-source Agents Research Environments-platform en ontworpen om eenvoudig uitbreidbaar te zijn. Door Gaia2 samen met het fundamentele ARE-framework vrij te geven, willen we de gemeenschap voorzien van een flexibele infrastructuur voor het ontwikkelen, benchmarken en trainen van de volgende generatie praktische agentsystemen.

PISCO: Precisie Video-instantie-invoeging met Sparse Controle
PISCO: Precise Video Instance Insertion with Sparse Control

Feb 9

ByXiangbo Gao, Renjie Li, Xinghao Chen, Yuheng Wu, Suofei Feng, Qing Yin, Zhengzhong Tu

Het landschap van AI-videogeneratie ondergaat een cruciale verschuiving: van algemene generatie - die steunt op uitgebreide prompt-engineering en "cherry-picking" - naar fijnmazige, controleerbare generatie en hoogwaardige nabewerking. In professionele AI-gestuurde filmproductie is het essentieel om precieze, gerichte aanpassingen te kunnen uitvoeren. Een hoeksteen van deze transitie is video-instance-insertie, waarbij een specifiek object in bestaande beelden moet worden geplaatst met behoud van de scène-integriteit. In tegenstelling tot traditionele videobewerking vereist deze taak verschillende voorwaarden: precieze ruimtelijk-temporele plaatsing, fysiek consistente scène-interactie en het getrouw behouden van originele dynamiek - allemaal gerealiseerd met minimale gebruikersinspanning. In dit artikel presenteren we PISCO, een videodiffusiemodel voor precieze video-instance-insertie met willekeurige sparse keyframe-controle. PISCO stelt gebruikers in staat om een enkel keyframe, start- en eindkeyframes, of sparse keyframes op willekeurige tijdstippen op te geven, en propageert automatisch objectverschijning, beweging en interactie. Om de ernstige distributieverschuiving door sparse conditionering in voorgetrainde videodiffusiemodellen aan te pakken, introduceren we Variable-Information Guidance voor robuuste conditionering en Distribution-Preserving Temporal Masking om temporele generatie te stabiliseren, samen met geometriebewuste conditionering voor realistische scène-aanpassing. We construeren verder PISCO-Bench, een benchmark met geverifieerde instance-annotaties en gepaarde schone achtergrondvideo's, en evalueren prestaties met zowel referentie-gebaseerde als referentievrije perceptuele metrieken. Experimenten tonen aan dat PISCO consistent sterker presteert dan robuuste inpainting- en videobewerkingsbaselines onder sparse controle, en duidelijke, monotone prestatieverbeteringen vertoont naarmate extra controlesignalen worden verstrekt. Projectpagina: xiangbogaobarry.github.io/PISCO.

Het onthullen van impliciete voordelsymmetrie: Waarom GRPO moeite heeft met exploratie en moeilijkheidsaanpassing
Unveiling Implicit Advantage Symmetry: Why GRPO Struggles with Exploration and Difficulty Adaptation

Feb 5

ByZhiqi Yu, Zhangquan Chen, Mengting Liu, Heye Zhang, Liangqiong Qu

Reinforcement Learning met Verifieerbare Beloningen (RLVR), in het bijzonder GRPO, is de standaardmethode geworden voor het uitlokken van redeneervermogen bij LLM's. De efficiëntie ervan bij exploratie en aanpassing aan moeilijkheidsgraad blijft echter een open uitdaging. In dit werk stellen wij dat deze knelpunten voortkomen uit een impliciet voordeelsymmetrie die inherent is aan Groepsrelatieve Voordeelschatting (GRAE). Deze symmetrie induceert twee kritieke beperkingen: (i) op groepsniveau laat strikte symmetrie in gewichten tussen correcte en incorrecte trajecten de onbemonsterde actie-logits onveranderd, waardoor exploratie van nieuwe correcte oplossingen wordt belemmerd. (ii) op steekproefniveau prioriteert het algoritme impliciet steekproeven van gemiddelde moeilijkheidsgraad, en blijft het agnostisch ten opzichte van de niet-stationaire eisen van moeilijkheidsfocus. Door middel van gecontroleerde experimenten tonen wij aan dat deze symmetrische eigenschap suboptimaal is, wat twee cruciale inzichten oplevert: (i) asymmetrisch onderdrukken van de voordelen van correcte trajecten stimuleert essentiële exploratie. (ii) de leerefficiëntie wordt gemaximaliseerd door een curriculum-achtige overgang die aanvankelijk eenvoudigere steekproeven prioriteert alvorens geleidelijk naar complexere over te schakelen. Gemotiveerd door deze bevindingen stellen wij Asymmetrische GRAE (A-GRAE) voor, dat dynamisch de prikkels voor exploratie en de focus op steekproefmoeilijkheid moduleert. Experimenten over zeven benchmarks tonen aan dat A-GRAE consequent GRPO en zijn varianten verbetert bij zowel LLM's als MLLM's.

ThinkRouter: Efficiënt Redeneren via Routering van Denkprocessen tussen Latente en Discrete Ruimten
ThinkRouter: Efficient Reasoning via Routing Thinking between Latent and Discrete Spaces

Feb 12

ByXin Xu, Tong Yu, Xiang Chen, Haoliang Wang, Julian McAuley, Saayan Mitra

Recent onderzoek verkent latent redeneren om de redeneerefficiëntie te verbeteren door expliciete redeneertrajecten te vervangen door continue representaties in een latente ruimte, maar de effectiviteit varieert per setting. Analyse van de dynamiek van modelvertrouwen onder latent redeneren toont aan dat denktrajecten die eindigen in incorrecte antwoorden minder stappen met laag vertrouwen bevatten dan trajecten die eindigen in correcte antwoorden. Tegelijkertijd suggereren wij dat zachte embeddings, geaggregeerd door meerdere denkalternatieven met laag vertrouwen, ruis kunnen introduceren en verspreiden, wat leidt tot hoog vertrouwen in onbetrouwbare redeneertrajecten. Gemotiveerd door deze observaties wordt ThinkRouter voorgesteld, een routeringsmechanisme tijdens inferentie dat bewust is van vertrouwen, om hoog vertrouwen en ruis te vermijden voor efficiënt redeneren. ThinkRouter routeert het denken naar de discrete tokenruimte wanneer het modelvertrouwen laag is, en anders naar de latente ruimte. Uitgebreide experimenten op STEM-redeneer- en codeerbenchmarks met diverse grote redeneermodellen tonen aan dat ThinkRouter expliciete CoT, willekeurige routering en latent-redeneer-baselines overtreft in nauwkeurigheid, met een gemiddelde verbetering van 19,70 punten in Pass@1, terwijl de gegenereerde lengte met tot 15,55% wordt gereduceerd. Verdere uitgebreide analyse onthult dat ThinkRouter fouten afkomstig van expliciete CoT en latent redeneren kan kalibreren, en de generatie van end-of-thinking tokens versnelt door het modelvertrouwen globaal te verlagen.

T3D: Weinige-stap diffusie-taalmodellen via traject zelfdistillatie met directe discriminerende optimalisatie
T3D: Few-Step Diffusion Language Models via Trajectory Self-Distillation with Direct Discriminative Optimization

Feb 12

ByTunyu Zhang, Xinxi Zhang, Ligong Han, Haizhou Shi, Xiaoxiao He, Zhuowei Li, Hao Wang, Kai Xu, Akash Srivastava, Hao Wang, Vladimir Pavlovic, Dimitris N. Metaxas

Diffusie grote-taalmmodellen (DLLM's) hebben het potentieel om snelle tekstgeneratie mogelijk te maken door meerdere tokens parallel te decoderen. In de praktijk wordt hun inferentie-efficiëntie echter beperkt door de behoefte aan vele verfijningsstappen, terwijl een agressieve vermindering van het aantal stappen leidt tot een aanzienlijke verslechtering van de generatiekwaliteit. Om dit te verlichten, stellen we een raamwerk voor zelfdistillatie van trajecten voor dat decoding met weinig stappen verbetert door de generatieve trajecten van het model zelf te distilleren. We integreren Direct Discriminatieve Optimalisatie (DDO), een reverse-KL-doelstelling die mode-zoekende distillatie bevordert en de studentmodel aanmoedigt zich te concentreren op teachermodi met een hoge waarschijnlijkheid. Op benchmarks overtreft onze aanpak consistent sterke baseline-methoden met weinig stappen en standaard training onder strikte stapbudgetten. Hoewel decoding met volledige stappen superieur blijft, verkleinen we de kloof aanzienlijk en leggen we een sterke basis naar praktische DLLM's met weinig stappen. De broncode is beschikbaar op https://github.com/Tyrion58/T3D.

Enkel-min-gluonboomamplitude zijn ongelijk aan nul.
Single-minus gluon tree amplitudes are nonzero

Feb 12

ByAlfredo Guevara, Alexandru Lupsasca, David Skinner, Andrew Strominger, Kevin Weil

Enkele-minus boom-level n-gluon verstrooiingsamplitudes worden opnieuw beschouwd. Hoewel vaak verondersteld nul te zijn, wordt hier aangetoond dat ze niet verdwijnen voor bepaalde "half-collineaire" configuraties die bestaan in Klein-ruimte of voor gecomplexificeerde impulsen. We leiden een stuksgewijs constante, gesloten vorm uitdrukking af voor het verval van een enkel min-heliciteit gluon in n-1 plus-heliciteit gluonen als functie van hun impulsen. Deze formule voldoet op niet-triviale wijze aan meerdere consistentievoorwaarden, waaronder de zachte stelling van Weinberg.

MemFly: On-the-Fly Geheugenoptimalisatie via het Informatie-Knelpunt
MemFly: On-the-Fly Memory Optimization via Information Bottleneck

Feb 8

ByZhenyuan Zhang, Xianzhang Jia, Zhiqin Yang, Zhenbo Song, Wei Xue, Sirui Han, Yike Guo

Langetermijngeheugen stelt taalmodelagenten in staat om complexe taken aan te pakken door middel van historische interacties. Bestaande frameworks kampen echter met een fundamenteel dilemma tussen het efficiënt comprimeren van redundante informatie en het behouden van precieze retrievability voor downstreamtaken. Om deze kloof te overbruggen, stellen we MemFly voor: een raamwerk gebaseerd op informatiebottleneck-principes dat dynamische geheugenevolutie voor taalmodellen mogelijk maakt. Onze aanpak minimaliseert compressie-entropie terwijl het relevantie-entropie maximaliseert via een gradient-vrije optimizer, waardoor een gelaagde geheugenstructuur voor efficiënte opslag wordt geconstrueerd. Om MemFly optimaal te benutten, ontwikkelden we een hybride retrievalmechanisme dat semantische, symbolische en topologische paden naadloos integreert, met iteratieve verfijning om complexe multi-hop queries te verwerken. Uitgebreide experimenten tonen aan dat MemFly state-of-the-art baseline-methoden aanzienlijk overtreft op het gebied van geheugencoherentie, responsbetrouwbaarheid en nauwkeurigheid.

MiniCPM-SALA: Hybridisatie van Sparse en Lineaire Attention voor Efficiënte Modellering van Lange Contexten
MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling

Feb 12

ByMiniCPM Team, Wenhao An, Yingfa Chen, Yewei Fang, Jiayi Li, Xin Li, Yaohui Li, Yishan Li, Yuxuan Li, Biyuan Lin, Chuan Liu, Hezi Liu, Siyuan Liu, Hongya Lyu, Yinxu Pan, Shixin Ren, Xingyu Shen, Zhou Su, Haojun Sun, Yangang Sun, Zhen Leng Thai, Xin Tian, Rui Wang, Xiaorong Wang, Yudong Wang, Bo Wu, Xiaoyue Xu, Dong Xu, Shuaikang Xue, Jiawei Yang, Bowen Zhang, Jinqian Zhang, Letian Zhang, Shengnan Zhang, Xinyu Zhang, Xinyuan Zhang, Zhu Zhang, Hengyu Zhao, Jiacheng Zhao, Jie Zhou, Zihan Zhou, Shuo Wang, Chaojun Xiao, Xu Han, Zhiyuan Liu, Maosong Sun

De evolutie van grote taalmmodellen (LLM's) naar toepassingen met ultra-lange contexten wordt belemmerd door de hoge rekenkundige en geheugenkosten van de Transformer-architectuur. Hoewel bestaande sparse en lineaire aandachtmechanismen deze problemen proberen te verlichten, gaan ze doorgaans gepaard met een afweging tussen geheugenefficiëntie en modelprestaties. Dit artikel introduceert MiniCPM-SALA, een hybride architectuur met 9B parameters die de hoogwaardige modellering van lange contexten van sparse aandacht (InfLLM-V2) integreert met de globale efficiëntie van lineaire aandacht (Lightning Attention). Door een laagselectiealgoritme te gebruiken om deze mechanismen in een verhouding van 1:3 te integreren en een hybride positionele codering (HyPE) te benutten, handhaaft het model efficiëntie en prestaties voor taken met lange contexten. Verder introduceren we een kosteneffectief continu-trainingsraamwerk dat vooraf getrainde Transformer-gebaseerde modellen omzet in hybride modellen, wat de trainingskosten met ongeveer 75% verlaagt in vergelijking met training vanaf nul. Uitgebreide experimenten tonen aan dat MiniCPM-SALA algemene capaciteiten handhaaft die vergelijkbaar zijn met modellen met volledige aandacht, terwijl het een verbeterde efficiëntie biedt. Op een enkele NVIDIA A6000D GPU bereikt het model een inferentiesnelheid tot 3,5x die van het model met volledige aandacht bij een sequentielengte van 256K tokens en ondersteunt het contextlengtes van maximaal 1M tokens – een schaal waarop traditionele 8B-modellen met volledige aandacht falen vanwege geheugenbeperkingen.

Dromen in Code voor Curriculum Leren in Open-Einde Werelden
Dreaming in Code for Curriculum Learning in Open-Ended Worlds

Feb 9

ByKonstantinos Mitsides, Maxence Faldor, Antoine Cully

Open-ended learning beschouwt intelligentie als een emergent verschijnsel dat voortkomt uit continue interactie met een steeds uitdijende ruimte van omgevingen. Hoewel recente ontwikkelingen foundation models gebruiken om programmatisch diverse omgevingen te genereren, richten deze benaderingen zich vaak op het ontdekken van geïsoleerd gedrag in plaats van het orkestreren van voortdurende progressie. In complexe open-ended werelden maakt de grote combinatorische ruimte van mogelijke uitdagingen het moeilijk voor agents om sequenties van ervaringen te ontdekken die consistent leerbaar blijven. Om dit aan te pakken, stellen we Dreaming in Code (DiCode) voor, een raamwerk waarin foundation models uitvoerbare omgevingscode synthetiseren om het leren te ondersteunen richting toenemende competentie. In DiCode neemt "dromen" de vorm aan van het materialiseren van code-niveau variaties van de wereld. We implementeren DiCode in Craftax, een uitdagende open-ended benchmark gekenmerkt door rijke mechanica en langetermijnprogressie. Empirisch gezien stelt DiCode agents in staat langetermijnvaardigheden te verwerven, met een verbetering van 16% in gemiddelde return ten opzichte van de sterkste baseline en niet-nul succespercentages bij late-game gevechtstaken waar eerdere methoden falen. Onze resultaten suggereren dat omgevingsontwerp op codeniveau een praktisch mechanisme biedt voor curriculumcontrole, waardoor de constructie van tussentijdse omgevingen mogelijk wordt die competentiekloof overbruggen in open-ended werelden. De projectpagina en broncode zijn beschikbaar op https://konstantinosmitsides.github.io/dreaming-in-code en https://github.com/konstantinosmitsides/dreaming-in-code.

Pretraining van een groot taalmodel met gedistribueerde GPU's: een geheugenefficiënt gedecentraliseerd paradigma
Pretraining A Large Language Model using Distributed GPUs: A Memory-Efficient Decentralized Paradigm

Feb 12

ByJinrui Zhang, Chaodong Xiao, Aoqi Wu, Xindong Zhang, Lei Zhang

Het pretrainen van grote taalmmodellen (LLM's) vereist doorgaans gecentraliseerde clusters met duizenden GPU's met hoog geheugen (zoals H100/A100). Recente gedecentraliseerde trainingsmethoden verminderen de communicatie-overhead door gebruik te maken van gefedereerde optimalisatie; ze moeten echter nog steeds het volledige model op elke node trainen, waardoor ze beperkt blijven door GPU-geheugenbeperkingen. In dit werk stellen we SParse Expert Synchronization (SPES) voor, een geheugenefficiënt gedecentraliseerd framework voor het pretrainen van mixture-of-experts (MoE) LLM's. SPES traint slechts een subset van experts per node, waardoor de geheugenvoetafdruk aanzienlijk wordt verlaagd. Elke node werkt zijn lokale experts bij en synchroniseert periodiek met andere nodes, waardoor volledige parameteroverdracht wordt geëlimineerd en tegelijkertijd efficiënte kennisdeling wordt gegarandeerd. Om de convergentie te versnellen, introduceren we een expert-merging warm-up strategie, waarbij experts vroeg in de training kennis uitwisselen om snel fundamentele capaciteiten op te bouwen. Met SPES trainen we een MoE LLM met 2B parameters met behulp van 16 standalone 48GB GPU's via internetverbindingen, wat competitieve prestaties bereikt met centraal getrainde LLM's onder vergelijkbare rekenbudgetten. We demonstreren verder schaalbaarheid door een 7B-model vanaf nul te trainen en een 9B-model opgewaardeerd vanuit een dense checkpoint, die beide evenaren eerdere gecentraliseerde baselines. Onze code is beschikbaar op https://github.com/zjr2000/SPES.

MolmoSpaces: Een grootschalig open ecosysteem voor robotnavigatie en -manipulatie
MolmoSpaces: A Large-Scale Open Ecosystem for Robot Navigation and Manipulation

Feb 11

ByYejin Kim, Wilbert Pumacay, Omar Rayyan, Max Argus, Winson Han, Eli VanderBilt, Jordi Salvador, Abhay Deshpande, Rose Hendrix, Snehal Jauhri, Shuo Liu, Nur Muhammad Mahi Shafiullah, Maya Guru, Ainaz Eftekhar, Karen Farley, Donovan Clay, Jiafei Duan, Arjun Guru, Piper Wolters, Alvaro Herrasti, Ying-Chun Lee, Georgia Chalvatzaki, Yuchen Cui, Ali Farhadi, Dieter Fox, Ranjay Krishna

Het op grote schaal inzetten van robots vereist robuustheid voor de lange staart van alledaagse situaties. De talloze variaties in scène-indeling, objectgeometrie en taakspecificaties die kenmerkend zijn voor echte omgevingen zijn enorm en ondervertegenwoordigd in bestaande robotbenchmarks. Het meten van dit generalisatieniveau vereist een infrastructuur op een schaal en met een diversiteit die fysieke evaluatie alleen niet kan bieden. Wij introduceren MolmoSpaces, een volledig open ecosysteem om grootschalige benchmarking van robotbeleid te ondersteunen. MolmoSpaces bestaat uit meer dan 230.000 diverse binnenomgevingen, variërend van handgemaakte huishoudelijke scènes tot procedureel gegenereerde huizen met meerdere kamers, bevolkt met 130.000 rijk geannoteerde objectassets, waaronder 48.000 manipuleerbare objecten met 42 miljoen stabiele grepen. Cruciaal is dat deze omgevingen simulator-onafhankelijk zijn en populaire opties zoals MuJoCo, Isaac en ManiSkill ondersteunen. Het ecosysteem ondersteunt het volledige spectrum van belichaamde taken: statische en mobiele manipulatie, navigatie en taken met een lange horizon in meerdere kamers die gecoördineerde perceptie, planning en interactie in gehele binnenomgevingen vereisen. Wij ontwerpen ook MolmoSpaces-Bench, een benchmarksuite van 8 taken waarin robots interageren met onze diverse scènes en rijk geannoteerde objecten. Onze experimenten tonen aan dat MolmoSpaces-Bench een sterke simulatie-naar-realiteit-correlatie vertoont (R = 0,96, ρ = 0,98), bevestigen dat nieuwere en sterkere zero-shot-beleidsregels eerdere versies in onze benchmarks overtreffen, en identificeren belangrijke gevoeligheden voor promptformulering, initiële gewrichtsposities en camerablokkering. Via MolmoSpaces en de bijbehorende open-source assets en tooling bieden wij een basis voor schaalbare datageneratie, beleidstraining en benchmarkcreatie voor robotleeronderzoek.

ExStrucTiny: Een benchmark voor gestructureerde informatie-extractie met variabele schema's uit documentafbeeldingen
ExStrucTiny: A Benchmark for Schema-Variable Structured Information Extraction from Document Images

Feb 12

ByMathieu Sibue, Andres Muñoz Garza, Samuel Mensah, Pranav Shetty, Zhiqiang Ma, Xiaomo Liu, Manuela Veloso

Bedrijfsdocumenten, zoals formulieren en rapporten, bevatten essentiële informatie voor downstream-toepassingen zoals gegevensarchivering, geautomatiseerde workflows en analyses. Hoewel generalistische Vision Language Models (VLMs) goed presteren op gevestigde benchmarks voor documentbegrip, is hun vermogen om holistische, fijnmazige gestructureerde extractie uit te voeren over diverse documenttypen en flexibele schema's niet goed bestudeerd. Bestaande datasets voor Key Entity Extraction (KEE), Relation Extraction (RE) en Visual Question Answering (VQA) worden beperkt door smalle entiteitontologieën, eenvoudige queries of homogene documenttypen, waarbij de behoefte aan aanpasbare en gestructureerde extractie vaak over het hoofd wordt gezien. Om deze lacunes aan te pakken, introduceren we ExStrucTiny, een nieuwe benchmarkdataset voor gestructureerde Information Extraction (IE) uit documentafbeeldingen, die aspecten van KEE, RE en VQA verenigt. Opgebouwd via een nieuwe pijplijn die handmatige en synthetische, door mensen gevalideerde samples combineert, dekt ExStrucTiny meer gevarieerde documenttypen en extractiescenario's. We analyseren open en gesloten VLMs op deze benchmark en belichten uitdagingen zoals schema-aanpassing, query-onderspecificatie en antwoordlokalisatie. We hopen dat ons werk een fundament biedt voor het verbeteren van generalistische modellen voor gestructureerde IE in documenten.

Multimodale Attributie op Feitniveau voor Verifieerbare Redenering
Multimodal Fact-Level Attribution for Verifiable Reasoning

Feb 12

ByDavid Wan, Han Wang, Ziyang Wang, Elias Stengel-Eskin, Hyunji Lee, Mohit Bansal

Multimodale grote taalmodellen (MLLM's) worden steeds vaker ingezet voor realistische taken die multi-staps redeneren en langere tekstgeneratie vereisen, waarbij betrouwbaarheid vereist dat modeloutputs verankerd zijn in heterogene invoerbronnen en individuele feitelijke beweringen geverifieerd worden. Bestaande benchmarks en evaluatiemethoden voor multimodale verankering richten zich echter op vereenvoudigde, op observatie gebaseerde scenario's of beperkte modaliteiten en slagen er niet in attributie te beoordelen in complexe multimodale redeneertaken. Wij introduceren MuRGAt (Multimodal Reasoning with Grounded Attribution), een benchmark voor het evalueren van attributie op feitniveau in multimodale settings die redeneren vereisen dat verder gaat dan directe observatie. Gegeven invoer die video, audio en andere modaliteiten omvat, vereist MuRGAt dat modellen antwoorden genereren met expliciete redenering en precieze citaties, waarbij elke citatie zowel de modaliteit als temporele segmenten specificeert. Om betrouwbare beoordeling mogelijk te maken, introduceren we een automatisch evaluatieraamwerk dat sterk correleert met menselijke oordelen. Evaluatie met zowel menselijke als geautomatiseerde scores laat zien dat zelfs sterke MLLM's vaak citaties hallucineren ondanks correct redeneren. Bovendien observeren we een belangrijke wisselwerking: het vergroten van de redeneerdiepte of het afdwingen van gestructureerde verankering leidt vaak tot verminderde nauwkeurigheid, wat een significante kloof tussen intern redeneren en verifieerbare attributie benadrukt.

Sci-CoE: Co-evoluerende wetenschappelijke redeneer-LLM's via geometrische consensus met beperkte supervisie
Sci-CoE: Co-evolving Scientific Reasoning LLMs via Geometric Consensus with Sparse Supervision

Feb 12

ByXiaohan He, Shiyang Feng, Songtao Huang, Lei Bai, Bin Wang, Bo Zhang

Grote taalmodellen (LLM's) hebben uitzonderlijke redeneervaardigheden getoond, en co-evoluerende paradigma's hebben veelbelovende resultaten opgeleverd in domeinen zoals code en wiskunde. Bij wetenschappelijke redeneertaken blijven deze modellen echter kwetsbaar door onbetrouwbare oplossingsevaluatie en beperkte diversiteit in verificatiestrategieën. In dit werk stellen we Sci-CoE voor, een tweefasen wetenschappelijk co-evoluerend raamwerk dat modellen in staat stelt zichzelf te ontwikkelen als zowel oplosser als verificateur via een overgang van sparse supervisie naar unsupervised leren. In de eerste fase gebruikt het model een kleine set geannoteerde data om fundamentele correctheidsbeoordelingsankers voor de Verificateur vast te stellen. In de tweede fase introduceren we een geometrisch beloningsmechanisme dat gezamenlijk consensus, betrouwbaarheid en diversiteit in overweging neemt, waardoor grootschalige zelfiteratie op ongelabelde data wordt aangedreven. Experimenten op verschillende algemene wetenschappelijke benchmarks tonen aan dat Sci-CoE complexe redeneervaardigheden versterkt en sterke schaalbaarheid vertoont, wat de constructie van robuustere en diversere evaluatiesystemen vergemakkelijkt. Code is beschikbaar op https://github.com/InternScience/Sci-CoE.

P-GenRM: Gepersonaliseerd Generatief Beloningsmodel met Testtijd Schaling op Gebruikersbasis
P-GenRM: Personalized Generative Reward Model with Test-time User-based Scaling

Feb 12

ByPinyi Zhang, Ting-En Lin, Yuchuan Wu, Jingyang Chen, Zongqi Wang, Hua Yang, Ze Xu, Fei Huang, Kai Zhang, Yongbin Li

Gepersonaliseerde afstemming van grote taalmmodellen beoogt antwoorden aan te passen aan individuele gebruikersvoorkeuren, typisch via reinforcement learning. Een belangrijke uitdaging is het verkrijgen van accurate, gebruikersspecifieke beloningssignalen in open-ended scenario's. Bestaande gepersonaliseerde beloningsmodellen kampen met twee hardnekkige beperkingen: (1) het oversimplificeren van diverse, scenariospecifieke voorkeuren tot een kleine, vaste set evaluatieprincipes, en (2) moeite met generalisatie naar nieuwe gebruikers met beperkte feedback. Daarom stellen wij P-GenRM voor, het eerste Gepersonaliseerde Generatieve Beloningsmodel met test-time schaling op basis van gebruikers. P-GenRM transformeert voorkeursignalen in gestructureerde evaluatieketens die adaptieve persona's en beoordelingsrubrieken afleiden across verschillende scenario's. Het clustert gebruikers verder in Gebruikersprototypes en introduceert een dual-granulariteit schalingsmechanisme: op individueel niveau schaalt en aggregeert het adaptief het scoringsschema van elke gebruiker; op prototype-niveau incorporeert het voorkeuren van vergelijkbare gebruikers. Dit ontwerp vermindert ruis in afgeleide voorkeuren en verbetert de generalisatie naar ongeziene gebruikers via prototype-gebaseerde transfer. Empirische resultaten tonen aan dat P-GenRM state-of-the-art resultaten behaalt op veelgebruikte benchmarks voor gepersonaliseerde beloningsmodellen, met een gemiddelde verbetering van 2.31%, en sterke generalisatie demonstreert op een out-of-distribution dataset. Opmerkelijk is dat Test-time Gebruikersgebaseerde Schaling een extra boost van 3% geeft, wat een sterkere gepersonaliseerde afstemming aantoont met test-time schaalbaarheid.

MetaphorStar: Beeldmetafoorbegrip en Redeneren met End-to-End Visuele Versterkingsleren
MetaphorStar: Image Metaphor Understanding and Reasoning with End-to-End Visual Reinforcement Learning

Feb 11

ByChenhao Zhang, Yazhe Niu, Hongsheng Li

Metaforisch begrip in afbeeldingen blijft een kritieke uitdaging voor hedendaagse AI-systemen. Hoewel Multimodale Large Language Models (MLLMs) uitblinken in basale Visual Question Answering (VQA), hebben ze consistent moeite met het begrijpen van de genuanceerde culturele, emotionele en contextuele implicaties die in visuele content zijn vervat. Deze moeilijkheid vloeit voort uit de taakeis van geavanceerd multi-hop redeneren, culturele context en Theory of Mind (ToM) capaciteiten, waar huidige modellen aan tekortkomen. Om deze leemte op te vullen, stellen wij MetaphorStar voor, het eerste end-to-end visuele reinforcement learning (RL) raamwerk voor beeldimplicatietaken. Ons raamwerk omvat drie kerncomponenten: de fijnmazige dataset TFQ-Data, de visuele RL-methode TFQ-GRPO en de gestructureerde benchmark TFQ-Bench. Onze volledig open-source MetaphorStar-familie, getraind met TFQ-GRPO op TFQ-Data, verbetert de prestaties aanzienlijk met gemiddeld 82,6% op de beeldimplicatiebenchmarks. In vergelijking met 20+ mainstream MLLMs behaalt MetaphorStar-32B state-of-the-art (SOTA) op Multiple-Choice Question en Open-Style Question, en presteert het significant beter dan het top closed-source model Gemini-3.0-pro op True-False Question. Cruciaal is dat onze experimenten aantonen dat het aanleren van beeldimplicatietaken het algemeen begripsvermogen verbetert, in het bijzonder het complexe visuele redeneervermogen. Wij geven verder een systematische analyse van modelschaalvergroting, schaalvergroting van trainingsdata, en de impact van verschillende modelarchitecturen en trainingsstrategieën, wat de brede toepasbaarheid van onze methode aantoont. Wij hebben alle modelgewichten, datasets en methodcode openbaar gemaakt op https://metaphorstar.github.io.

Budgetbeperkte Agentiële Grote Taalmodellen: Intentiegebaseerde Planning voor Kostbaar Hulpmiddelengebruik
Budget-Constrained Agentic Large Language Models: Intention-Based Planning for Costly Tool Use

Feb 12

ByHanbing Liu, Chunhao Tian, Nan An, Ziyuan Wang, Pinyan Lu, Changyuan Yu, Qi Qi

Wij bestuderen budgetbeperkte tool-augmented agents, waarbij een groot taalmodel meerstappentaken moet oplossen door externe tools aan te roepen onder een strikt monetair budget. Wij formaliseren deze setting als sequentiële besluitvorming in contextruimte met geprijsde en stochastische tooluitvoeringen, wat directe planning onhanteerbaar maakt door enorme toestand-actieruimten, hoge variantie van uitkomsten en verboden exploratiekosten. Om deze uitdagingen aan te pakken, stellen wij INTENT voor, een inference-time planningframework dat gebruikmaakt van een hiërarchisch wereldmodel met intentiebewustzijn om toekomstig toolgebruik en risicogecalibreerde kosten te anticiperen, en beslissingen online te sturen. Op de kostentoegenomen StableToolBench handhaaft INTENT strikte budgetuitvoerbaarheid terwijl de taaksucces aanzienlijk verbetert ten opzichte van de basislijnen, en blijft het robuust onder dynamische marktverschuivingen zoals toolprijswijzigingen en variërende budgetten.

ScalSelect: Schaalbaar, trainingsvrij selecteren van multimodale gegevens voor efficiënte visuele instructieafstemming
ScalSelect: Scalable Training-Free Multimodal Data Selection for Efficient Visual Instruction Tuning

Feb 12

ByChangti Wu, Jiahuai Mao, Yuzhuo Miao, Shijie Lian, Bin Yu, Xiaopeng Lin, Cong Huang, Lei Zhang, Kai Chen

Grootschalige visuele instructie-afstemming (VIT) is een belangrijk paradigma geworden voor het verbeteren van de prestaties van visie-taalmodellen (VLM's) bij diverse multimodale taken. De training op grootschalige datasets is echter rekenkundig kostbaar en inefficiënt vanwege redundantie in de gegevens, wat de behoefte motiveert aan multimodale gegevensselectie om de trainingsefficiëntie te verbeteren. Bestaande methoden voor gegevensselectie voor VIT vereisen ofwel kostbare training of gradientberekening. Trainingsvrije alternatieven zijn vaak afhankelijk van proxy-modellen of -datasets, instructie-agnostische representaties en paarsgewijze gelijkenis met kwadratische complexiteit, wat de schaalbaarheid en representatietrouw beperkt. In dit werk stellen we ScalSelect voor, een schaalbare, trainingsvrije multimodale gegevensselectiemethode met lineaire tijdscomplexiteit ten opzichte van het aantal steekproeven, waardoor externe modellen of hulpdatasets overbodig worden. ScalSelect construeert eerst steekproefrepresentaties door visuele kenmerken te extraheren waarop instructietokens in het doel-VLM de meeste aandacht richten, waardoor instructie-relevante informatie wordt vastgelegd. Vervolgens identificeert het steekproeven waarvan de representaties de dominante deelruimte van de volledige datasetrepresentaties het best benaderen, waardoor schaalbare belangrijkheidsscoring mogelijk wordt zonder paarsgewijze vergelijkingen. Uitgebreide experimenten met meerdere VLM's, datasets en selectiebudgetten tonen aan dat ScalSelect meer dan 97,5% van de prestaties van training op de volledige dataset bereikt met slechts 16% van de gegevens, en in sommige settings zelfs de training op volledige gegevens overtreft. De code is beschikbaar op https://github.com/ChangtiWu/ScalSelect{ScalSelect}.

Detectie van RLVR-trainingsgegevens via structurele convergentie van redenering
Detecting RLVR Training Data via Structural Convergence of Reasoning

Feb 12

ByHongbo Zhang, Yue Yang, Jianhao Yan, Guangsheng Bao, Yue Zhang, Yue Zhang

Versterkend leren met verifieerbare beloningen (RLVR) staat centraal bij het trainen van moderne redeneermodellen, maar de niet-openbaar gemaakte trainingsdata roept vragen op over benchmarkvervuiling. In tegenstelling tot vooraf trainen (pretraining) methoden, waarbij modellen worden geoptimaliseerd met behulp van token-level waarschijnlijkheden, verfijnt RLVR modellen op basis van beloningsfeedback gegenereerd uit zelf-gegenereerde redeneertrajecten. Dit maakt conventionele detectiemethoden op basis van waarschijnlijkheid minder effectief. Wij tonen aan dat RLVR een onderscheidend gedragssignatuur induceert: prompts die tijdens RLVR-training worden tegengekomen resulteren in rigide en meer uniforme gegenereerde outputs, terwijl ongeziene prompts een grotere diversiteit behouden. Wij introduceren Min-kNN Afstand, een eenvoudige black-box detector die deze ineenstorting kwantificeert door meerdere voltooiingen voor een gegeven prompt te bemonsteren en het gemiddelde te berekenen van de k kleinste nearest-neighbor bewerkingsafstanden. Min-kNN Afstand vereist geen toegang tot het referentiemodel of tokenwaarschijnlijkheden. Experimenten met meerdere RLVR-getrainde redeneermodellen tonen aan dat Min-kNN Afstand betrouwbaar RL-geziene voorbeelden kan onderscheiden van ongeziene, en beter presteert dan bestaande lidmaatschapsinferentie- en RL-vervuilingsdetectie-baselines.

ABot-N0: Technisch Rapport over het VLA Foundation Model voor Veelzijdige Belichaamde Navigatie
ABot-N0: Technical Report on the VLA Foundation Model for Versatile Embodied Navigation

Feb 12

ByZedong Chu, Shichao Xie, Xiaolong Wu, Yanfen Shen, Minghua Luo, Zhengbo Wang, Fei Liu, Xiaoxu Leng, Junjun Hu, Mingyang Yin, Jia Lu, Yingnan Guo, Kai Yang, Jiawei Han, Xu Chen, Yanqing Zhu, Yuxiang Zhao, Xin Liu, Yirong Yang, Ye He, Jiahang Wang, Yang Cai, Tianlin Zhang, Li Gao, Liu Liu, Mingchao Sun, Fan Jiang, Chiyu Wang, Zhicheng Liu, Hongyu Pan, Honglin Han, Zhining Gu, Kuan Yang, Jianfang Zhang, Di Jing, Zihao Guan, Wei Guo, Guoqing Liu, Di Yang, Xiangpo Yang, Menglin Yang, Hongguang Xing, Weiguo Li, Mu Xu

Embodied navigation is al lang gefragmenteerd door taakspecifieke architecturen. Wij introduceren ABot-N0, een uniform Vision-Language-Action (VLA)-foundationmodel dat een "Grote Unificatie" bereikt over 5 kerntaken: Point-Goal, Object-Goal, Instruction-Following, POI-Goal en Person-Following. ABot-N0 gebruikt een hiërarchische "Brain-Action"-architectuur, waarbij een op een LLM gebaseerd Cognitief Brein voor semantisch redeneren wordt gekoppeld aan een op Flow Matching gebaseerde Actie-Expert voor precieze, continue trajectgeneratie. Om grootschalig leren te ondersteunen, ontwikkelden we de ABot-N0 Data Engine, waarmee 16,9 miljoen expert-trajecten en 5,0 miljoen redeneersamples werden samengesteld uit 7.802 hoogwaardige 3D-scènes (10,7 km²). ABot-N0 behaalt nieuwe state-of-the-art prestaties op 7 benchmarks en overtreft gespecialiseerde modellen aanzienlijk. Bovendien integreert ons Agentic Navigation System een planner met hiërarchisch topologisch geheugen, wat robuuste, langetermijnmissies in dynamische, real-world omgevingen mogelijk maakt.

Stemphonic: Flexibele Alles-in-één Multi-stem Muziekgeneratie
Stemphonic: All-at-once Flexible Multi-stem Music Generation

Feb 10

ByShih-Lun Wu, Ge Zhu, Juan-Pablo Caceres, Cheng-Zhi Anna Huang, Nicholas J. Bryan

Muziekstengeneratie, de taak om muzikaal gesynchroniseerde en geïsoleerde instrumentaudiofragmenten te produceren, biedt het potentieel voor meer gebruikerscontrole en een betere afstemming op muzikantenwerkflows in vergelijking met conventionele tekst-naar-muziekmodellen. Bestaande benaderingen voor stengeneratie vertrouwen echter op vaste architecturen die een vooraf gedefinieerde set stems parallel uitvoeren, of genereren slechts één stem tegelijk, wat resulteert in trage inferentie ondanks flexibiliteit in stemcombinatie. Wij stellen Stemphonic voor, een op diffusie-/flow-gebaseerd raamwerk dat deze afweging overwint en een variabele set gesynchroniseerde stems in één inferentiepassage genereert. Tijdens de training behandelen we elke stem als een batchelement, groeperen gesynchroniseerde stems in een batch en passen een gedeelde ruis-latent toe op elke groep. Tijdens inferentie gebruiken we een gedeelde initiële ruis-latent en stemspecifieke tekstinvoer om gesynchroniseerde multi-stemuitvoer in één passage te genereren. We breiden onze aanpak verder uit om conditionele multi-stemgeneratie in één passage en stemactiviteitscontroles mogelijk te maken, zodat gebruikers iteratief de temporele gelaagdheid van een mix kunnen genereren en orkestreren. We benchmarken onze resultaten op meerdere open-source stem-evaluatiesets en tonen aan dat Stemphonic uitvoer van hogere kwaliteit produceert terwijl het het volledige mixgeneratieproces met 25 tot 50% versnelt. Demo's op: https://stemphonic-demo.vercel.app.

Neurale Additieve Experts: Context-afhankelijke Experts voor Beheerbare Model-additiviteit
Neural Additive Experts: Context-Gated Experts for Controllable Model Additivity

Feb 11

ByGuangzhi Xiong, Sanchit Sinha, Aidong Zhang

De afweging tussen interpreteerbaarheid en nauwkeurigheid blijft een kernuitdaging in machine learning. Standaard Gegeneraliseerde Additieve Modellen (GAM's) bieden duidelijke feature-attributies, maar worden vaak beperkt door hun strikt additieve karakter, wat de voorspellende prestaties kan beperken. Het introduceren van feature-interacties kan de nauwkeurigheid verhogen, maar kan de individuele feature-bijdragen vertroebelen. Om deze problemen aan te pakken, stellen wij Neural Additive Experts (NAE's) voor, een nieuw raamwerk dat naadloos een balans vindt tussen interpreteerbaarheid en nauwkeurigheid. NAE's gebruiken een 'mixture of experts'-raamwerk, waarbij meerdere gespecialiseerde netwerken per feature worden geleerd, terwijl een dynamisch gating-mechanisme informatie integreert tussen features, waardoor de rigide additieve beperkingen worden versoepeld. Verder stellen we gerichte regularisatietechnieken voor om de variantie tussen expertvoorspellingen te verminderen, wat een soepele overgang mogelijk maakt van een uitsluitend additief model naar een model dat complexe feature-interacties vastlegt, terwijl de helderheid van feature-attributies behouden blijft. Onze theoretische analyse en experimenten met synthetische data illustreren de flexibiliteit van het model, en uitgebreide evaluaties op real-world datasets bevestigen dat NAE's een optimale balans bereiken tussen voorspellende nauwkeurigheid en transparante, feature-niveau verklaringen. De code is beschikbaar op https://github.com/Teddy-XiongGZ/NAE.