HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

33 papers found

Efficiënt redeneren met gebalanceerd denken
Efficient Reasoning with Balanced Thinking

Mar 12

ByYulin Li, Tengyao Tu, Li Ding, Junjie Wang, Huiling Zhen, Yixin Chen, Yong Li, Zhuotao Tian

127

Grote Redeneermodellen (LRM's) hebben opmerkelijke redeneervermogens getoond, maar lijden vaak aan overdenken, waarbij ze overbodige computationele stappen besteden aan eenvoudige problemen, of aan onderdenken, waarbij ze onvoldoende redeneerpaden verkennen ondanks hun inherente capaciteiten. Deze problemen leiden tot inefficiënties en potentiële onnauwkeurigheden, wat de praktische inzet in resourcebeperkte omgevingen beperkt. Bestaande methoden om overdenken tegen te gaan, zoals het onderdrukken van reflectieve trefwoorden of het aanpassen van de redeneerlengte, kunnen onbedoeld onderdenken veroorzaken en daarmee de nauwkeurigheid aantasten. Daarom stellen we ReBalance voor, een trainingsvrij raamwerk dat efficiënt redeneren met gebalanceerd denken bereikt. ReBalance benut vertrouwen als een continue indicator van redeneerdynamiek, waarbij overdenken wordt geïdentificeerd door hoge variantie in vertrouwen en onderdenken via consistente overmoedigheid. Door verborgen toestanden van een kleinschalige dataset aggregeren tot prototypen van redeneermodi, berekenen we een stuurvector om de redeneertrajecten van LRM's te begeleiden. Een dynamische controlefunctie moduleert de sterkte en richting van deze vector op basis van realtime vertrouwen, waarbij redundantie wordt gesnoeid tijdens overdenken en exploratie wordt bevorderd tijdens onderdenken. Uitgebreide experimenten uitgevoerd op vier modellen variërend van 0,5B tot 32B parameters, en over negen benchmarks in wiskundig redeneren, algemene vraagbeantwoording en codeertaken, tonen aan dat ReBalance effectief outputredundantie vermindert en tegelijkertijd de nauwkeurigheid verbetert. Het biedt zo een algemene, trainingsvrije en plug-and-play strategie voor efficiënte en robuuste inzet van LRM's. Code is beschikbaar op https://github.com/yu-lin-li/ReBalance.

MetaClaw: Gewoon Praten -- Een Agent Die Meta-Leeert en Evolueert in de Praktijk
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Mar 17

ByPeng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao

110

Grootschalige taalmodel (LLM) agenten worden steeds vaker ingezet voor complexe taken, maar ingezette agenten blijven vaak statisch en passen zich niet aan aan evoluerende gebruikersbehoeften. Dit creëert een spanning tussen de noodzaak van continue dienstverlening en de behoefte om capaciteiten bij te werken om verschuivende taakverdelingen bij te houden. Op platformen zoals OpenClaw, die uiteenlopende workloads verwerken via 20+ kanalen, slaan bestaande methodes ofwel ruwe trajectgegevens op zonder kennis te destilleren, houden ze statische vaardigheidsbibliotheken aan, of vereisen ze verstorende downtime voor hertraining. Wij presenteren MetaClaw, een continu meta-leerframework dat gezamenlijk een basis-LLM-beleid en een bibliotheek met herbruikbare gedragsvaardigheden ontwikkelt. MetaClaw hanteert twee complementaire mechanismen. Vaardigheidsgedreven snelle aanpassing analyseert fouttrajecten via een LLM-evolver om nieuwe vaardigheden te synthetiseren, wat onmiddellijke verbetering met zero downtime mogelijk maakt. Opportunistische beleidsoptimalisatie voert op gradieten gebaseerde updates uit via cloud-LoRA-finetuning en Reinforcement Learning met een Process Reward Model (RL-PRM). Dit wordt geactiveerd tijdens gebruikersinactieve vensters door de Opportunistic Meta-Learning Scheduler (OMLS), die systeeminactiviteit en kalendergegevens bewaakt. Deze mechanismen versterken elkaar: een verfijnd beleid genereert betere trajecten voor vaardigheidssynthese, terwijl rijkere vaardigheden data van hogere kwaliteit opleveren voor beleidsoptimalisatie. Om datacontaminatie te voorkomen, scheidt een versiebeheermechanisme ondersteunings- en querygegevens. Gebouwd op een proxy-gebaseerde architectuur, schaalt MetaClaw naar productiegroote LLM's zonder lokale GPU's. Experimenten op MetaClaw-Bench en AutoResearchClaw tonen aan dat vaardigheidsgedreven aanpassing de nauwkeurigheid relatief met tot 32% verbetert. De volledige pijplijn verhoogt de Kimi-K2.5 nauwkeurigheid van 21,4% naar 40,6% en verhoogt de composiete robuustheid met 18,3%. Code is beschikbaar op https://github.com/aiming-lab/MetaClaw.

Video-CoE: Versterking van Video-gebeurtenisvoorspelling via Keten van Gebeurtenissen
Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Mar 16

ByQile Su, Jing Tang, Rui Chen, Lei Sun, Xiangxiang Chu

Ondanks vooruitgang in de toepassing van MLLM's voor diverse videotaken, blijft video-eventvoorspelling (VEP) relatief onderbelicht. VEP vereist dat het model fijnmazige temporele modellering van video's uitvoert en logische relaties legt tussen video's en toekomstige gebeurtenissen, waar huidige MLLM's nog steeds moeite mee hebben. In dit werk presenteren we eerst een uitgebreide evaluatie van toonaangevende MLLM's voor de VEP-taak, waarbij de redenen achter hun onnauwkeurige voorspellingen worden blootgelegd, waaronder een gebrek aan logisch redeneervermogen voor het voorspellen van toekomstige gebeurtenissen en onvoldoende benutting van visuele informatie. Om deze uitdagingen aan te pakken, stellen we het Chain of Events (CoE)-paradigma voor, waarbij temporele gebeurtenisketens worden geconstrueerd om MLLM's impliciet te dwingen zich te concentreren op de visuele inhoud en de logische verbanden tussen video's en toekomstige gebeurtenissen, waardoor het redeneervermogen van het model wordt gestimuleerd met meerdere trainingsprotocollen. Experimentele resultaten op publieke benchmarks tonen aan dat onze methode zowel toonaangevende open-source als commerciële MLLM's overtreft en een nieuwe state-of-the-art vestigt voor de VEP-taak. Code en modellen zullen binnenkort worden vrijgegeven.

MosaicMem: Hybride Ruimtelijk Geheugen voor Beheerbare Videowereldmodellen
MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Mar 17

ByWei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg

Videodiffusiemodellen evolueren van korte, plausibele fragmenten naar wereldsimulatoren die consistent moeten blijven onder camerabeweging, herbezoeken en interventie. Toch blijft ruimtelijk geheugen een belangrijke bottleneck: expliciete 3D-structuren kunnen reprojectiegebaseerde consistentie verbeteren, maar hebben moeite met bewegende objecten, terwijl impliciet geheugen vaak onnauwkeurige camerabeweging produceert zelfs bij correcte poses. Wij stellen Mosaic Memory (MosaicMem) voor, een hybride ruimtelijk geheugen dat patches optilt naar 3D voor betrouwbare lokalisatie en gerichte retrieval, terwijl het de native conditionering van het model benut om prompt-volgende generatie te behouden. MosaicMem composeert ruimtelijk uitgelijnde patches in de bevraagde weergave via een patch-en-compose-interface, waarbij wordt bewaard wat moet voortduren en het model kan inpaintten wat moet evolueren. Met PRoPE-cameraconditionering en twee nieuwe geheugenuitlijningsmethoden tonen experimenten verbeterde pose-naleving vergeleken met impliciet geheugen en sterkere dynamische modellering dan expliciete baselines. MosaicMem maakt verder minutenlange navigatie, geheugengebaseerde scene-editing en autoregressieve rollout mogelijk.

Uitlijning maakt taalmodelen normatief, niet descriptief
Alignment Makes Language Models Normative, Not Descriptive

Mar 17

ByEilam Shapira, Moshe Tennenholtz, Roi Reichart

Post-training alignment optimaliseert taalmodellen om af te stemmen op menselijke voorkeursignalen, maar dit doel is niet gelijkwaardig aan het modelleren van waargenomen menselijk gedrag. Wij vergelijken 120 basis- en gealigneerde modelparen op basis van meer dan 10.000 echte menselijke beslissingen in meerdere ronden van strategische spellen – onderhandelen, overtuigen, onderhandeling en herhaalde matrixspellen. In deze settings overtreffen de basismodellen hun gealigneerde tegenhangers in het voorspellen van menselijke keuzes met een verhouding van bijna 10:1, robuust over modelfamilies, promptformuleringen en spelconfiguraties heen. Dit patroon keert zich echter om in settings waar menselijk gedrag eerder geneigd is normatieve voorspellingen te volgen: gealigneerde modellen domineren bij eenmalige tekstboekspellen in alle 12 geteste types en bij niet-strategische loterijkeuzes – en zelfs binnen de meerronde spellen zelf, in ronde één, voordat de interactiegeschiedenis zich ontwikkelt. Dit grensvoorwaardepatroon suggereert dat alignment een normatieve bias induceert: het verbetert de voorspelling wanneer menselijk gedrag relatief goed wordt vastgelegd door normatieve oplossingen, maar schaadt de voorspelling in meerronde strategische settings, waar gedrag wordt gevormd door descriptieve dynamieken zoals wederkerigheid, vergelding en geschiedenisafhankelijke aanpassing. Deze resultaten onthullen een fundamentele afweging tussen het optimaliseren van modellen voor menselijk gebruik en het gebruiken ervan als benaderingen van menselijk gedrag.

Complementaire Versterkingsleren
Complementary Reinforcement Learning

Mar 18

ByDilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng

Versterkend Leren (VL) is naar voren gekomen als een krachtig paradigma voor het trainen van op grote taalmodel-gebaseerde agenten, maar wordt nog steeds beperkt door een lage steekproefefficiëntie. Dit komt niet alleen door spaarzame uitkomstfeedback, maar ook door het onvermogen van de agent om eerdere ervaringen over verschillende episodes heen te benutten. Hoewel het verrijken van agenten met historische ervaring een veelbelovend middel biedt, lijden bestaande benaderingen onder een kritieke zwakte: de ervaring die uit de geschiedenis wordt gedistilleerd, wordt ofwel statisch opgeslagen, of slaagt er niet in om mee te evolueren met de verbeterende actor. Dit veroorzaakt een progressieve afwijzing tussen de ervaring en de evoluerende capaciteit van de actor, waardoor het nut ervan in de loop van de training afneemt. Geïnspireerd door complementaire leer systemen in de neurowetenschappen, presenteren wij Complementair VL om een naadloze co-evolutie van een ervaringsextractor en een beleidsactor binnen de VL-optimalisatielus te bereiken. Specifiek wordt de actor geoptimaliseerd via spaarzame op uitkomsten gebaseerde beloningen, terwijl de ervaringsextractor wordt geoptimaliseerd op basis van of zijn gedistilleerde ervaringen aantoonbaar bijdragen aan het succes van de actor. Hierdoor evolueert zijn ervaringsbeheerstrategie gelijk op met de groeiende capaciteiten van de actor. Empirisch presteert Complementair VL beter dan op uitkomsten gebaseerde, agentische VL-basislijnen die niet van ervaring leren, met een prestatieverbetering van 10% in scenario's met één taak en het vertoont robuuste schaalbaarheid in multi-task omgevingen. Deze resultaten vestigen Complementair VL als een paradigma voor efficiënte, op ervaring gebaseerde agenttraining.

Wanneer AI de oorlogsmist doorkruist.
When AI Navigates the Fog of War

Mar 17

ByMing Li, Xirui Li, Tianyi Zhou

Kan AI redeneren over een oorlog voordat het verloop ervan historisch duidelijk wordt? Het analyseren van deze capaciteit is moeilijk omdat retrospectieve geopolitieke voorspelling sterk wordt verstoord door lekkage in de trainingsdata. Wij pakken deze uitdaging aan door middel van een temporeel verankerde casestudy van de vroege fasen van het Midden-Oosten conflict van 2026, dat zich ontvouwde na de afsluitdatum van de trainingsdata van huidige frontier-modellen. We construeren 11 kritieke temporele knooppunten, 42 knooppuntspecifieke verifieerbare vragen en 5 algemene verkennende vragen, waarbij modellen alleen moeten redeneren op basis van informatie die op elk moment publiekelijk beschikbaar zou zijn geweest. Dit ontwerp vermindert de zorgen over lekkage van trainingsdata aanzienlijk, creëert een setting die bijzonder geschikt is voor het bestuderen van hoe modellen een zich ontvouwende crisis analyseren onder de 'war fog', en biedt, voor zover wij weten, de eerste temporeel verankerde analyse van LLM-redenering in een lopend geopolitiek conflict. Onze analyse onthult drie hoofdbevindingen. Ten eerste tonen huidige state-of-the-art grote taalmodelen vaak een opvallende mate van strategisch realisme, waarbij ze verder redeneren dan oppervlakkige retoriek naar diepere structurele prikkels. Ten tweede is deze capaciteit ongelijk verdeeld over domeinen: modellen zijn betrouwbaarder in economisch en logistiek gestructureerde settings dan in politiek dubbelzinnige omgevingen met meerdere actoren. Tot slot evolueren modelnarratieven in de tijd, waarbij ze verschuiven van vroege verwachtingen van snelle insluiting naar meer systemische verklaringen van regionale ingraven en uitputtingsgerichte de-escalatie. Aangezien het conflict op het moment van schrijven nog gaande is, kan dit werk dienen als een archiveringsmomentopname van modelredenering tijdens een zich ontvouwend geopolitiek crisis, waardoor toekomstige studies mogelijk worden zonder de hindsight bias van retrospectieve analyse.

GigaWorld-Policy: Een Efficiënt Actie-Gecentreerd Wereld-Actie-Model
GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Mar 18

ByAngen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

World-Action Models (WAM's) die zijn geïnitialiseerd vanuit vooraf getrainde videogeneratie-backbones hebben een opmerkelijk potentieel getoond voor het leren van robotbeleid. Bestaande benaderingen kampen echter met twee kritieke knelpunten die de prestaties en implementatie belemmeren. Ten eerste brengt het gezamenlijk redeneren over toekomstige visuele dynamiek en bijbehorende acties aanzienlijke inferentie-overhead met zich mee. Ten tweede zorgt gezamenlijke modellering vaak voor een verstrengeling van visuele en bewegingsrepresentaties, waardoor de nauwkeurigheid van bewegingsvoorspelling sterk afhankelijk wordt van de kwaliteit van toekomstige videovoorspellingen. Om deze problemen aan te pakken, introduceren we GigaWorld-Policy, een actiegecentreerd WAM dat 2D pixel-actie-dynamiek leert, terwijl het efficiënte actiedecodering mogelijk maakt, met optionele videogeneratie. Specifiek formuleren we beleidstraining in twee gekoppelde componenten: het model voorspelt toekomstige actiesequenties conditioneel op de huidige observatie, en genereert tegelijkertijd toekomstige video's conditioneel op de voorspelde acties en dezelfde observatie. Het beleid wordt gesuperviseerd door zowel actievoorspelling als videogeneratie, wat rijkere leersignalen biedt en fysiek plausibele acties aanmoedigt door visueel-dynamische beperkingen. Met een causaal ontwerp dat voorkomt dat toekomstige videotokens de actietokens beïnvloeden, is expliciete toekomstige videogeneratie optioneel tijdens de inferentiefase, wat snellere actievoorspelling mogelijk maakt tijdens de implementatie. Om dit paradigma te ondersteunen, hebben we een diverse, grootschalige robotdataset samengesteld om een actiegecentreerd videogeneratiemodel voor te trainen, dat vervolgens wordt aangepast als de backbone voor het leren van robotbeleid. Experimentele resultaten op echte robotplatforms tonen aan dat GigaWorld-Policy 9x sneller loopt dan de toonaangevende WAM-baseline, Motus, terwijl het de taaksuccespercentages met 7% verbetert. Bovendien verbetert GigaWorld-Policy de prestaties met 95% op RoboTwin 2.0 in vergelijking met pi-0.5.

LoST: Niveau van Semantische Tokenisatie voor 3D-vormen
LoST: Level of Semantics Tokenization for 3D Shapes

Mar 18

ByNiladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen

Tokenisatie is een fundamentele techniek in de generatieve modellering van verschillende modaliteiten. Met name speelt het een cruciale rol in autoregressieve (AR) modellen, die recentelijk naar voren zijn gekomen als een aantrekkelijke optie voor 3D-generatie. De optimale tokenisatie van 3D-vormen blijft echter een open vraag. State-of-the-art (SOTA) methodes steunen voornamelijk op geometrische level-of-detail (LoD) hiërarchieën, die oorspronkelijk zijn ontworpen voor rendering en compressie. Deze ruimtelijke hiërarchieën zijn vaak token-inefficiënt en missen semantische samenhang voor AR-modellering. Wij stellen Level-of-Semantics Tokenisatie (LoST) voor, waarbij tokens worden geordend op semantische salientie, zodanig dat vroege prefixen decoderen naar complete, plausibele vormen die de voornaamste semantiek bezitten, terwijl latere tokens instancespecifieke geometrische en semantische details verfijnen. Om LoST te trainen, introduceren wij Relational Inter-Distance Alignment (RIDA), een nieuwe 3D semantische aligneringsfunctie die de relationele structuur van de latente ruimte van de 3D-vorm uitlijnt met die van de semantische DINO-featureruimte. Experimenten tonen aan dat LoST SOTA-reconstructie bereikt, en eerdere op LoD gebaseerde 3D-vorm-tokeniseerders met grote marges overtreft op zowel geometrische als semantische reconstructiemetrieken. Bovendien bereikt LoST efficiënte, hoogkwalitatieve AR 3D-generatie en maakt het downstreamtaken zoals semantisch zoeken mogelijk, terwijl het slechts 0.1%-10% van de tokens gebruikt die eerdere AR-modellen nodig hadden.

Kijk voor je handelt: Verbetering van visuele basisrepresentaties voor visie-taal-actie-modellen
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Mar 16

ByYulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

Vision-Language-Action (VLA)-modellen zijn recent naar voren gekomen als een veelbelovend paradigma voor robotmanipulatie, waarbij betrouwbare actievoorspelling kritiek afhangt van het nauwkeurig interpreteren en integreren van visuele waarnemingen, gekoppeld aan taalinstellingen. Hoewel recente werken de visuele capaciteiten van VLA-modellen hebben proberen te verbeteren, behandelen de meeste benaderingen de LLM-backbone als een black box, wat beperkt inzicht biedt in hoe visuele informatie wordt verankerd in actiegeneratie. Daarom voeren we een systematische analyse uit van meerdere VLA-modellen binnen verschillende actiegeneratieparadigma's en observeren we dat de gevoeligheid voor visuele tokens geleidelijk afneemt in diepere lagen tijdens actiegeneratie. Gemotiveerd door deze observatie stellen we DeepVision-VLA voor, gebouwd op een Vision-Language Mixture-of-Transformers (VL-MoT)-raamwerk. Dit raamwerk maakt gedeelde aandacht mogelijk tussen het visuele foundation-model en de VLA-backbone, waarbij multilevel visuele kenmerken van de visie-expert worden geïnjecteerd in diepere lagen van de VLA-backbone om visuele representaties te versterken voor precieze en complexe manipulatie. Daarnaast introduceren we Action-Guided Visual Pruning (AGVP), dat aandacht uit ondiepe lagen benut om irrelevante visuele tokens te verwijderen terwijl taakrelevante behouden blijven, waardoor kritieke visuele aanwijzingen voor manipulatie worden versterkt met minimale rekenkosten. DeepVision-VLA overtreft eerdere state-of-the-art-methodes met respectievelijk 9,0% en 7,5% op gesimuleerde en real-world taken, en biedt nieuwe inzichten voor het ontwerp van visueel verbeterde VLA-modellen.

BenchPreS: Een benchmark voor contextbewuste gepersonaliseerde voorkeursselectiviteit van persistent-geheugen-LLM's
BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Mar 17

BySangyeon Yoon, Sunkyoung Kim, Hyesoo Hong, Wonje Jeung, Yongil Kim, Wooseok Seo, Heuiyeen Yeen, Albert No

Grootschalige taalmodellen (LLM's) slaan gebruikersvoorkeuren steeds vaker op in een permanent geheugen om personalisatie tussen interacties door te ondersteunen. In communicatieomgevingen met derden, die worden beheerst door sociale en institutionele normen, kan het echter ongepast zijn om sommige gebruikersvoorkeuren toe te passen. Wij introduceren BenchPreS, een benchmark die evalueert of op geheugen gebaseerde gebruikersvoorkeuren op gepaste wijze worden toegepast of onderdrukt in verschillende communicatiecontexten. Met behulp van twee complementaire metrieken, de Misapplicatiefrequentie (MF) en de Gepaste-Toepassingsfrequentie (GTF), constateren wij dat zelfs toonaangevende LLM's moeite hebben om voorkeuren contextgevoelig toe te passen. Modellen met een sterkere neiging om voorkeuren te volgen, vertonen hogere percentages van overmatige toepassing, en noch redeneervermogen noch op prompts gebaseerde tegenmaatregelen lossen dit probleem volledig op. Deze resultaten suggereren dat huidige LLM's gepersonaliseerde voorkeuren behandelen als globaal afdwingbare regels in plaats van als contextafhankelijke normatieve signalen.

Tijdelijke Winst, Ruimtelijke Kosten: Een Herziening van Video-Finetuning in Multimodale Grote Taalmodellen
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Mar 18

ByLinghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu

Multimodale grote taalmodellen (MLLM's) worden doorgaans in meerdere fasen getraind, waarbij op video gebaseerde supervised fine-tuning (Video-SFT) een cruciale stap vormt voor het verbeteren van visueel begrip. Desalniettemin is het effect ervan op de fijnmazige evolutie van visuele capaciteiten, met name de balans tussen ruimtelijk en temporeel begrip, nog steeds slecht begrepen. In dit artikel bestuderen we systematisch hoe Video-SFT visuele capaciteiten in MLLM's hervormt. Over verschillende architecturen, parameterschalen en frame-samplinginstellingen observeren we een consistent patroon: Video-SFT verbetert betrouwbaar de videoprestaties, maar levert vaak beperkte winst of zelfs degradatie op bij statische beeldbenchmarks. We tonen verder aan dat deze wisselwerking nauw verbonden is met het temporele budget: het verhogen van het aantal bemonsterde frames verbetert over het algemeen de videoprestaties, maar verbetert niet betrouwbaar de prestaties op statische beelden. Gemotiveerd door deze bevinding bestuderen we een instructiebewuste Hybrid-Frame-strategie die adaptief het aantal frames toewijst en de beeld-video-wisselwerking gedeeltelijk mitigeert. Onze resultaten geven aan dat Video-SFT geen gratis lunch is voor MLLM's, en dat het behouden van ruimtelijk begrip een centrale uitdaging blijft bij gezamenlijke beeld-video-training.

ESPIRE: Een Diagnostische Benchmark voor Lichaamsgebonden Ruimtelijk Redeneren van Vision-Language Modellen
ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Mar 13

ByYanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng

Een recente trend bij vision-language modellen (VLM's) is het verbeteren van hun ruimtelijk cognitief vermogen voor embodied domeinen. Ondanks vooruitgang zijn bestaande evaluaties beperkt, zowel in paradigma als in dekking, wat een snelle, iteratieve modelontwikkeling belemmert. Om deze beperkingen aan te pakken, stellen we ESPIRE voor, een diagnostische benchmark voor embodied ruimtelijk redeneren. ESPIRE biedt een gesimuleerde wereld die VLM's fysiek verankert en evalueert op ruimtelijk-redeneergerichte robottaken, waardoor de kloof tussen evaluatie en inzet in de echte wereld wordt verkleind. Om VLM's aan te passen aan robottaken, ontleden we elke taak in lokalisatie en uitvoering, en formuleren we beide als generatieve problemen. Dit staat in schril contrast met overheersende discriminerende evaluaties (bijvoorbeeld via visuele vraag-antwoordtaken) die afleiders gebruiken en uitvoering negeren. Deze ontleding maakt verder een fijnmazige analyse mogelijk, verdergaand dan passief ruimtelijk redeneren naar redeneren om te handelen. We ontwerpen ESPIRE systematisch, zowel op instructieniveau als op omgevingsniveau, om een brede dekking van ruimtelijke redeneerscenario's te garanderen. We gebruiken ESPIRE om een reeks vooruitstrevende VLM's te diagnosticeren en bieden een diepgaande analyse van hun ruimtelijke redeneergedrag.

V-JEPA 2.1: Het Ontsluiten van Dichte Kenmerken in Zelfgesuperviseerd Leren met Video
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

Mar 15

ByLorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes

Wij presenteren V-JEPA 2.1, een familie van zelf-gesuperviseerde modellen die dichte, hoogwaardige visuele representaties leren voor zowel afbeeldingen als video's, met behoud van een sterk globaal scènebegrip. De aanpak combineert vier belangrijke componenten. Ten eerste gebruikt een dicht voorspellend verlies een op maskering gebaseerd doel waarbij zowel zichtbare als gemaskeerde tokens bijdragen aan het trainingssignaal, wat expliciete ruimtelijke en temporele verankering stimuleert. Ten tweede past diepe zelf-supervisie het zelf-gesuperviseerde doel hiërarchisch toe over meerdere tussenliggende encoderlagen om de representatiekwaliteit te verbeteren. Ten derde maken multimodale tokenizers uniforme training over afbeeldingen en video's mogelijk. Tot slot profiteert het model van effectieve schaalvergroting in zowel modelcapaciteit als trainingsdata. Gezamenlijk produceren deze ontwerpkeuzes representaties die ruimtelijk gestructureerd, semantisch coherent en temporeel consistent zijn. Empirisch behaalt V-JEPA 2.1 state-of-the-art prestaties op verschillende uitdagende benchmarks, waaronder 7.71 mAP op Ego4D voor kortetermijnverwachting van objectinteracties en 40.8 Recall@5 op EPIC-KITCHENS voor verwachting van hoogwaardige acties, evenals een verbetering van 20 punten in het grijpsuccespercentage bij echte robots ten opzichte van V-JEPA-2 AC. Het model toont ook sterke prestaties in robotnavigatie (5.687 ATE op TartanDrive), diepteschatting (0.307 RMSE op NYUv2 met een lineaire probe) en globale herkenning (77.7 op Something-Something-V2). Deze resultaten tonen aan dat V-JEPA 2.1 de state-of-the-art aanzienlijk vooruithelpt in dicht visueel begrip en wereldmodellering.

Stereo Wereldmodel: Camera-Gestuurde Stereoscopische Videogeneratie
Stereo World Model: Camera-Guided Stereo Video Generation

Mar 18

ByYang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi

Wij presenteren StereoWorld, een camerageconditioneerd stereo-wereldmodel dat zowel beeldweergave als binoculaire geometrie gezamenlijk aanleert voor end-to-end stereovideogeneratie. In tegenstelling tot monocular RGB- of RGBD-benaderingen opereert StereoWorld uitsluitend binnen de RGB-modaliteit, terwijl het tegelijkertijd geometrie direct vanuit dispariteit verankert. Om efficiënt consistente stereogeneratie te bereiken, introduceert onze aanpak twee belangrijke ontwerpen: (1) een verenigde camera-frame RoPE die latentetokens uitbreidt met camerabewuste rotatiepositiecodering, waardoor relatieve, viewpoint- en tijdconsistente conditionering mogelijk wordt terwijl voorgetrainde videopriors behouden blijven via een stabiele aandachtinitialisatie; en (2) een stereobewuste aandachtdecompositie die volledige 4D-aandacht factoriseert in 3D intra-view aandacht plus horizontale rij-aandacht, waarbij epipolaire prior wordt benut om dispariteit-uitgelijnde correspondenties vast te leggen met aanzienlijk minder rekenkracht. Op benchmarks verbetert StereoWorld stereoconsistentie, dispariteitsnauwkeurigheid en camerabewegingsgetrouwheid ten opzichte van sterke monocular-then-convert pijplijnen, met meer dan 3x snellere generatie en een extra 5% verbetering in viewpointconsistentie. Naast benchmarks maakt StereoWorld end-to-end binoculair VR-rendering mogelijk zonder diepteschatting of inpaintin, verbetert het embodied policy learning door metrieke diepteverankering, en is het compatibel met lange-video-distillatie voor uitgebreide interactieve stereosynthese.

AdaMem: Adaptief, gebruikersgericht geheugen voor dialoogagenten met lange-termijnhorizon
AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

Mar 17

ByShannan Yan, Jingchen Ni, Leqi Zheng, Jiajun Zhang, Peixi Wu, Dacheng Yin, Jing Lyu, Chun Yuan, Fengyun Rao

Grote-taalmodel (LLM) agenten vertrouwen steeds meer op extern geheugen om langdurige interactie, gepersonaliseerde ondersteuning en meerstaps redeneren te ondersteunen. Bestaande geheugensystemen kampen echter nog steeds met drie kernuitdagingen: ze steunen vaak te zwaar op semantische gelijkenis, wat cruciale bewijzen voor gebruikersgerichte interpretatie kan missen; ze slaan gerelateerde ervaringen vaak op als geïsoleerde fragmenten, wat de temporele en causale samenhang verzwakt; en ze gebruiken typisch statische geheugengranulariteiten die zich niet goed aanpassen aan de eisen van verschillende vragen. Wij stellen AdaMem voor, een adaptief, gebruikersgericht geheugenkader voor langdurige dialoogagenten. AdaMem organiseert dialooggeschiedenis in werk-, episodisch-, persona- en grafiekgeheugen, waardoor het systeem recente context, gestructureerde langetermijnervaringen, stabiele gebruikerskenmerken en relatiebewuste verbindingen binnen een uniform kader kan behouden. Tijdens inferentie lost AdaMem eerst de doeldeelnemer op, bouwt vervolgens een vraag-gestuurde ophaalroute die semantische retrievel combineert met relatiebewuste grafiekuitbreiding alleen wanneer nodig, en produceert ten slotte het antwoord via een rollengespecialiseerde pijplijn voor bewijssynthese en antwoordgeneratie. We evalueren AdaMem op de LoCoMo- en PERSONAMEM-benchmarks voor langetermijnredenering en gebruikersmodellering. Experimentele resultaten tonen aan dat AdaMem state-of-the-art prestaties behaalt op beide benchmarks. De code wordt vrijgegeven na acceptatie.

Conservatief Offline Robotbeleid Leren via Posterior-Transitie Herweging
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Mar 17

ByWanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu

Offline post-training past een vooraf getrainde robotpolicy aan op een doeldataset door middel van supervised regressie op opgenomen acties. In de praktijk zijn robotdatasets heterogeen: ze mengen verschillende embodimenten, cameraopstellingen en demonstraties van uiteenlopende kwaliteit, waardoor veel trajecten herstelgedrag, inconsistente operatorvaardigheden of zwak informatieve supervisie weerspiegelen. Uniforme post-training kent gelijke waarde toe aan alle samples en kan daardoor middelen over conflicterende of laag-toegekende data. Wij stellen Posterior-Transition Reweighting (PTR) voor, een beloningsvrije en conservatieve post-trainingsmethode die bepaalt hoeveel invloed elke trainingssample zou moeten hebben op de supervised update. Voor elke sample codeert PTR het waargenomen post-actie-gevolg als een latent doel, voegt het toe aan een kandidaatpool van niet-overeenkomende doelen, en gebruikt een aparte transitionscorer om een softmax-identificatieposterior over de doelindices te schatten. De posterior-to-uniform-ratio definieert de PTR-score, die wordt omgezet in een geknipt-en-gemengd gewicht en wordt toegepast op het originele actiedoel via genormaliseerde gewogen regressie. Deze constructie vereist geen behandelbare policylikelihood en is compatibel met zowel diffusie- als flow-matching actiekoppen. In plaats van uniform alle opgenomen supervisie te vertrouwen, herverdeelt PTR de waarde volgens de mate waarin het post-actie-gevolg van elke sample toerekenbaar is onder de huidige representatie, wat conservatieve offline aanpassing aan heterogene robotdata verbetert.

Efficiënte Verkenning op Grote Schaal
Efficient Exploration at Scale

Mar 18

BySeyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy

Wij ontwikkelen een online-leeralgoritme dat de data-efficiëntie van reinforcement learning from human feedback (RLHF) aanzienlijk verbetert. Ons algoritme werkt belonings- en taalmodelle incrementeel bij na ontvangst van keuzedata. Het beloningsmodel wordt op de keuzedata afgestemd, terwijl het taalmodel wordt bijgewerkt via een variant van REINFORCE, waarbij versterkingssignalen door het beloningsmodel worden geleverd. Verscheidene kenmerken maken de efficiëntiewinst mogelijk: een kleine positieve prikkel die aan elk versterkingssignaal wordt toegevoegd, een epistemisch neuraal netwerk dat de onzekerheid van de beloning modelleert, en informatie-gestuurd exploreren. Met Gemma large language models (LLM's) evenaart ons algoritme de prestaties van offline RLHF, getraind op 200.000 labels, met minder dan 20.000 labels, wat een meer dan 10-voudige winst in data-efficiëntie vertegenwoordigt. Extrapolerend uit onze resultaten verwachten wij dat ons algoritme, getraind op 1 miljoen labels, evenaart wat offline RLHF bereikt met 1 miljard labels. Dit vertegenwoordigt een 1.000-voudige winst. Voor zover ons bekend zijn dit de eerste resultaten die aantonen dat zulke grote verbeteringen mogelijk zijn.

Unified Spatiotemporele Tokenbeoordeling voor Efficiënte Video-VLM's
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Mar 18

ByJianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee

Token pruning is essentieel voor het verbeteren van de computationele efficiëntie van vision-language modellen (VLMs), met name voor videogebaseerde taken waarbij temporele redundantie veel voorkomt. Eerdere benaderingen snoeien tokens doorgaans (1) uitsluitend binnen de vision transformer (ViT) voor unimodale perceptietaken zoals actieherkenning en objectsegmentatie, zonder aanpassing aan downstream vision-language taken; of (2) alleen binnen het LLM terwijl de ViT-output intact blijft, wat vaak complexe, op tekst geconditioneerde tokenselectiemechanismen vereist. In dit artikel introduceren we Spatio-Temporele Token Scoring (STTS), een eenvoudige en lichtgewicht module die vision tokens snoeit in zowel de ViT als het LLM zonder tekstconditionering of tokensamenvoeging, en volledig compatibel is met end-to-end training. Door te leren hoe temporeel moet worden gescoord via een auxiliary loss en ruimtelijk via LLM downstream gradients, ondersteund door ons efficiënte packing-algoritme, snoeit STTS 50% van de vision tokens in de gehele architectuur, wat resulteert in een efficiëntieverbetering van 62% tijdens zowel training als inference met slechts een prestatieverlies van 0,7% gemiddeld over 13 korte en lange video QA-taken. De efficiëntiewinst neemt toe bij meer bemonsterde frames per video. Toepassing van test-time scaling voor lange-video QA levert verder prestatieverbeteringen op van 0,5-1% vergeleken met de baseline. Over het geheel genomen vertegenwoordigt STTS een nieuwe, eenvoudige maar effectieve techniek voor uniforme, architectuurbrede vision token pruning.

Expertdrempelroutering voor Autoregressieve Taalmodellering met Dynamische Rekenallocatie en Load Balancing
Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Mar 12

ByHanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun

Token-choice Mixture-of-Experts (TC-MoE) routeert elk token naar een vast aantal experts, wat de dynamische toewijzing van rekenkracht beperkt en aanvullende verliezen vereist om de belastingbalans te behouden. Wij stellen Expert Threshold (ET)-routering voor, waarbij elke expert een exponentieel voortschrijdend gemiddelde (EMA) drempelwaarde handhaaft, geschat op basis van de globale tokenverdeling. Tijdens zowel training als inferentie wordt elk token onafhankelijk naar een expert gerouteerd als zijn score de drempelwaarde van de expert overschrijdt. Dit maakt dynamische toewijzing van rekenkracht mogelijk en bereikt een belastingbalans zonder aanvullende verliezen. Dit volledig causale mechanisme elimineert de afhankelijkheid van andere tokens in de batch, waardoor het bijzonder geschikt is voor autoregressieve taalmodellering. In pre-trainingsexperimenten die oplopen tot 2,4B parameters op FineWeb-Edu, behaalt ET een 0,067 lagere kruis-entropieverlies dan TC-MoE, wat overeenkomt met het bereiken van dezelfde prestaties met 1,6 keer minder tokens.

RAMP: Reinforcement Adaptieve Gemengde Precisie-kwantisering voor Efficiënte On-Device LLM-inferentie
RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Mar 18

ByArpit Singh Gautam, Saurabh Jha

Post-training kwantificatie is essentieel voor het implementeren van grote taalmodellen (LLM's) op hardware met beperkte middelen, maar state-of-the-art methoden leggen uniforme bitbreedtes op over alle lagen heen, wat suboptimale nauwkeurigheid-efficiëntie-afwegingen oplevert. Wij presenteren RAMP (Reinforcement Adaptive Mixed Precision), een off-policy Soft Actor Critic-framework dat per laag bitbreedte-toewijzingen leert om de perplexiteit onder een globaal bitbudget te minimaliseren. Het beleid is gebaseerd op een 11-dimensionale inbedding van activatiewaarden-statistieken, gewichtseigenschappen en structurele beschrijvers, wat zero-shot-transfer tussen modelfamilies en -schalen mogelijk maakt. Om stabiele kwantificatie onder de 4 bit mogelijk te maken, introduceren wij Scale Folding, een preconditioneringstechniek die uitbijters in activatiewaarden naar de gewichten migreert via per-kanaal-schaling en compensatie van normalisatielagen. Een op kwaliteit geprioriteerde beloning met asymmetrische straffen en budget-'cliffs' zorgt voor snelle convergentie. Op Llama 2 7B bereikt RAMP een perplexiteit van 5,54 bij 3,68 GB (3,65 effectieve bits), wat beter presteert dan uniforme 4-bit AWQ (5,60 bij 3,90 GB) en GPTQ met 6% in grootte en 1% tot 3% in kwaliteit. Cruciaal is dat een beleid dat alleen op Llama 2 7B is getraind, zich zero-shot generaliseert naar Llama 2 13B en Mistral 7B, en vaak modelspecifieke training overtreft, wat de hypothese ondersteunt dat kwantificatiegevoeligheid primair architecturaal is. De HALO-pijplijn exporteert toewijzingen naar GGUF-formaat voor kernel-vrije inferentie op CPU's, GPU's en edge-apparaten, waarbij 99,5% van de FP16 common sense-redeneerprestaties behouden blijft.

LaDe: Uniforme Generatie en Ontleding van Gelaagde Grafische Media
LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Mar 18

ByVlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu

Met het genereren van medialagen kan de creatie van volledig bewerkbare, gelaagde ontwerpdocumenten zoals posters, flyers en logo's, uitsluitend met natuurlijke taalprompts. Bestaande methodes beperken de output ofwel tot een vast aantal lagen, of vereisen dat elke laag alleen ruimtelijk aaneengesloten regio's bevat, waardoor het aantal lagen lineair toeneemt met de ontwerpcomplexiteit. Wij stellen LaDe (Layered Media Design) voor, een latent diffussieraamwerk dat een flexibel aantal semantisch betekenisvolle lagen genereert. LaDe combineert drie componenten: een op een grote taalmodel gebaseerde prompt-uitbreider die een korte gebruikersintentie omzet in gestructureerde per-laag beschrijvingen die de generatie sturen, een Latent Diffusion Transformer met een 4D RoPE positionele coderingsmechanisme die gezamenlijk het volledige media-ontwerp en zijn samenstellende RGBA-lagen genereert, en een RGBA VAE die elke laag decodeert met volledige ondersteuning voor alfacanalen. Door conditionering op laagmonsters tijdens de training ondersteunt ons uniforme raamwerk drie taken: tekst-naar-beeldgeneratie, tekst-naar-lagen media-ontwerp generatie, en media-ontwerp decompositie. Wij vergelijken LaDe met Qwen-Image-Layered op tekst-naar-lagen en beeld-naar-lagen taken op de Crello testset. LaDe presteert beter dan Qwen-Image-Layered in tekst-naar-lagen generatie door een verbeterde uitlijning tussen tekst en lagen, zoals gevalideerd door twee VLM-als-rechter evaluatoren (GPT-4o mini en Qwen3-VL).

Efficiënte trainingsvrije multi-tokenvoorspelling via embeddingruimte-verkenning
Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Mar 18

ByRaghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott

Grote taalmodellen (LLM's) vertonen latente capaciteiten voor het voorspellen van meerdere tokens (MTP), ondanks dat ze uitsluitend zijn getraind voor het genereren van het volgende token. Wij stellen een eenvoudige, trainingsvrije MTP-aanpak voor die een LLM onderzoekt met behulp van dynamisch gegenereerde maskertokens afkomstig uit zijn embeddingruimte. Dit maakt parallelle voorspelling van toekomstige tokens mogelijk zonder aanpassing van de modelgewichten of afhankelijkheid van hulp-draftmodellen. Onze methode construeert een speculatieve tokenboom door top-K-kandidaten te bemonsteren uit de logits van maskertokens en past een lichtgewicht pruningstrategie toe om waarschijnlijke vervolgen te behouden. Tijdens het decoderen worden kandidaatvoorspellingen parallel geverifieerd, wat resulteert in verliesvrije generatie terwijl het aantal modelaanroepen aanzienlijk wordt verminderd en de tokendoorvoer verbetert. Op benchmarks overtreft onze op probing gebaseerde MTP-methode consistente trainingsvrije basismethoden, waarbij de acceptatielengte met ongeveer 12% toeneemt op LLaMA3 en met 8-12% op Qwen3, en doorvoerwinsten tot 15-19% worden behaald. Ten slotte bieden we theoretische inzichten en empirisch bewijs dat aantoont dat decoder-lagen mask-tokenrepresentaties van nature uitlijnen met volgende-token-toestanden, waardoor nauwkeurige meerstapsvoorspelling mogelijk is zonder hertraining of hulpmodellen.

ACE-LoRA: Graf-Attentieve Contextverbetering voor Parameter-Efficiënte Adaptatie van Medische Vision-Language Modellen
ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Mar 17

ByM. Arda Aydın, Melih B. Yilmaz, Aykut Koç, Tolga Çukur

Het succes van CLIP-achtige vision-language modellen (VLM's) op natuurlijke afbeeldingen heeft medische tegenhangers geïnspireerd, maar bestaande benaderingen vallen grotendeels in twee uitersten: gespecialiseerde modellen getraind op data van één domein, die domeinspecifieke details vastleggen maar slecht generaliseren, en generalistische medische VLM's getraind op multidomein data, die brede semantiek behouden maar fijnmazige diagnostische aanwijzingen verdunnen. Het overbruggen van deze specialisatie-generalistiek afweging blijft een uitdaging. Om dit probleem aan te pakken, stellen we ACE-LoRA voor, een parameter-efficiënt adaptatieraamwerk voor generalistische medische VLM's dat robuuste zero-shot generalisatie behoudt. ACE-LoRA integreert Low-Rank Adaptation (LoRA) modules in bevroren beeld-tekst encoders en introduceert een Attention-gebaseerde Context Enhancement Hypergraph Neural Network (ACE-HGNN) module die hogere-orde contextuele interacties vastlegt verder dan paarsgewijze gelijkenis om globale representaties te verrijken met gelokaliseerde diagnostische aanwijzingen. Dit lost een belangrijke beperking op van eerdere Parameter-Efficient Fine-Tuning (PEFT) methoden die fijnmazige details over het hoofd zien. Om de cross-modale alignering verder te verbeteren, formuleren we een label-gestuurd InfoNCE-verlies om effectief fout-negatieven te onderdrukken tussen semantisch verwante beeld-tekst paren. Ondat het slechts 0.95M trainbare parameters toevoegt, presteert ACE-LoRA consistent beter dan state-of-the-art medische VLM's en PEFT-baselines op zero-shot classificatie-, segmentatie- en detectiebenchmarks die meerdere domeinen bestrijken. Onze code is beschikbaar op https://github.com/icon-lab/ACE-LoRA.

Van Beginner tot Expert: Efficiënte Vaardigheidsverwerving via Distribution Contractieve RL Afstemming
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

Mar 10

ByZhanyi Sun, Shuran Song

Wij introduceren Distribution Contractive Reinforcement Learning (DICE-RL), een raamwerk dat reinforcement learning (RL) gebruikt als een "distributie-contractie"-operator om voorgetrainde generatieve robotbeleidsregels te verfijnen. DICE-RL transformeert een voorgetraind gedragsprior in een hoogpresterend "pro"-beleid door gedrag met een hoge slagingskans te versterken op basis van online feedback. Wij trainen eerst een op diffusie of flows gebaseerd beleid voor brede gedragsdekking, en verfijnen het vervolgens met een stabiel, sample-efficiënt residueel off-policy RL-raamwerk dat selectieve gedragsregularisatie combineert met waardegestuurde actieselectie. Uitgebreide experimenten en analyses tonen aan dat DICE-RL de prestaties betrouwbaar verbetert met sterke stabiliteit en sample-efficiëntie. Het maakt de beheersing mogelijk van complexe manipulatievaardigheden met een lange tijdshorizon, rechtstreeks vanuit hoogdimensionale pixelinputs, zowel in simulatie als op een echte robot. Projectwebsite: https://zhanyisun.github.io/dice.rl.2026/.

VideoAtlas: Navigeren door lange video's met logaritmische rekenkracht
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mar 18

ByMohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan

Het uitbreiden van taalmodellen naar video introduceert twee uitdagingen: representatie, waarbij bestaande methoden steunen op lossy benaderingen, en lange-context, waarbij op bijschriften of agenten gebaseerde pijplijnen video samenvatten tot tekst en visuele nauwkeurigheid verliezen. Om dit te overwinnen, introduceren we VideoAtlas, een taakonafhankelijke omgeving om video weer te geven als een hiërarchisch grid dat tegelijkertijd verliesvrij, navigeerbaar, schaalbaar, en vrij van bijschriften en preprocessing is. Een overzicht van de video is direct beschikbaar, en elke regio kan recursief worden ingezoomd, waarbij dezelfde visuele representatie uniform wordt gebruikt voor de video, tussentijdse onderzoeken en het geheugen van de agent, waardoor verliesrijke tekstconversie end-to-end wordt geëlimineerd. Deze hiërarchische structuur zorgt ervoor dat de toegangsdiepte slechts logaritmisch toeneemt met de videolengte. Voor lange-context boden Recursive Language Models (RLM's) recent een krachtige oplossing voor lange tekst, maar uitbreiding naar het visuele domein vereist een gestructureerde omgeving om in te recursen, wat VideoAtlas biedt. VideoAtlas als een Markov Decision Process ontgrendelt Video-RLM: een parallel Master-Worker-architectuur waarin een Master het globale onderzoek coördineert terwijl Workers gelijktijdig in toegewezen regio's boren om verliesvrij visueel bewijs te accumuleren. We demonstreren drie belangrijke bevindingen: (1)~logaritmische rekengroei met videoduur, verder versterkt door een 30-60% multimodale cache-treffratio voortkomend uit structureel hergebruik van het grid. (2)~omgevingsbudtering, waarbij het begrenzen van de maximale onderzoeksdiepte een principiële rekennauwkeurigheid-hyperparameter biedt. (3)~emergent adaptieve rekenallocatie die meeschaalt met vraaggranulariteit. Bij het schalen van 1-uur naar 10-uur benchmarks blijft Video-RLM de meest duur-robuuste methode met minimale nauwkeurigheidsafname, wat aantoont dat gestructureerde omgevingsnavigatie een haalbaar en schaalbaar paradigma is voor videobegrip.

FINER: MLLM's Hallucineren bij Fijnmazige Negatieve Vragen
FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Mar 18

ByRui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz

Multimodale grote taalmodellen (MLLM's) kampen met hallucinaties, vooral bij gedetailleerde (fine-grained) vragen, een uitdaging die onderbelicht blijft in bestaande benchmarks die zich richten op grove, beeldgerelateerde vragen. Wij introduceren FIne-grained NEgative queRies (FINER), samen met twee benchmarks: FINER-CompreCap en FINER-DOCCI. Met FINER analyseren we hallucinaties in vier settings: multi-object, multi-attribute, multi-relation en "what"-vragen. Onze benchmarks tonen aan dat MLLM's hallucineren wanneer gedetailleerde mismatches samenvallen met daadwerkelijk aanwezige elementen in de afbeelding. Om dit aan te pakken, stellen we FINER-Tuning voor, waarbij we Direct Preference Optimization (DPO) toepassen op door FINER geïnspireerde data. Het finetunen van vier toonaangevende MLLM's met FINER-Tuning levert verbeteringen tot 24,2% (InternVL3.5-14B) op tegen hallucinaties volgens onze benchmarks, terwijl tegelijkertijd de prestaties op acht bestaande hallucinatietests verbeteren en de algemene multimodale capaciteiten across zes benchmarks worden versterkt. Code, benchmark en modellen zijn beschikbaar op https://explainableml.github.io/finer-project/.

HeBA: Heterogene Knelpunt-Adapters voor Robuuste Visie-Taalmodellen
HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Mar 17

ByMd Jahidul Islam

Het aanpassen van grootschalige Vision-Language Models (VLM's) zoals CLIP aan downstreamtaken lijdt vaak onder een "one-size-fits-all" architecturale aanpak, waarbij visuele en tekstuele tokens uniform worden verwerkt door brede, generieke adapters. Wij beargumenteren dat deze homogeniteit de onderscheidende structurele aard van de modaliteiten negeert – spatiale localiteit in beelden versus semantische dichtheid in tekst. Om dit aan te pakken, stellen wij HeBA (Heterogeneous Bottleneck Adapter) voor, een uniform architecturaal raamwerk dat modaliteit-specifieke structurele inductieve biases introduceert. HeBA wijkt af van conventionele ontwerpen door drie belangrijke architecturale innovaties: (1) Heterogeniteit: Het verwerkt visuele tokens via 2D depthwise-separable convoluties om spatiale correlaties te behouden, terwijl het tekstuele tokens onderscheidend verwerkt via dense lineaire projecties om semantische relaties vast te leggen; (2) Bottleneck Regularisatie: In tegenstelling tot standaard uitdijende adapters, hanteert HeBA een compressie-bottleneck (D -> D/4) die het model expliciet forceert compacte, robuuste features te leren en fungeert als een structurele regularisator; en (3) Actieve Gradient Initialisatie: Wij dagen het restrictieve zero-initialisatie paradigma uit door een Kaiming-initialisatiestrategie te gebruiken die voldoende initiële gradientstroom verzekert om convergentie te versnellen zonder de voorgetrainde kennis van de bevroren backbone aan te tasten. Uitgebreide experimenten tonen aan dat HeBA's architecturaal gespecialiseerde ontwerp superieure stabiliteit en nauwkeurigheid bereikt, en een nieuwe state-of-the-art vestigt op 11 few-shot benchmarks. Code is beschikbaar op https://github.com/Jahid12012021/VLM-HeBA.

AI-wetenschapper via schaalvergroting van synthetische taken
AI Scientist via Synthetic Task Scaling

Mar 17

ByZiyang Cai, Harkirat Behl

Met de opkomst van AI-agenten is automatische wetenschappelijke ontdekking een haalbaar doel geworden. Veel recente werken bouwen agent-systemen die machinaal leren-onderzoek kunnen uitvoeren, maar bieden geen principiële manier om dergelijke agenten te trainen – en huidige LLM's genereren vaak plausibel ogende maar inefficiënte ideeën. Om vooruitgang te boeken in het trainen van agenten die kunnen leren door te doen, presenteren we een nieuwe pijplijn voor het genereren van synthetische omgevingen, gericht op machine learning-agenten. Onze pijplijn synthetiseert automatisch machine learning-uitdagingen die compatibel zijn met het SWE-agentframework, waarbij onderwerpselectie, datasetvoorstel en codegeneratie worden afgedekt. De resulterende synthetische taken zijn 1) gegrond in echte machine learning-datasets, omdat de voorgestelde datasets worden geverifieerd tegen de Huggingface-API, en 2) gecontroleerd op hogere kwaliteit met een zelf-debuglus. Om de effectiviteit van onze synthetische taken te valideren, pakken we MLGym aan, een benchmark voor machine learning-taken. Uit de synthetische taken nemen we trajecten van een leraarmodel (GPT-5), en gebruiken deze trajecten om een studentmodel (Qwen3-4B en Qwen3-8B) te trainen. De studentmodellen getraind met onze synthetische taken behalen verbeterde prestaties op MLGym, waarbij de AUP-metriek met 9% stijgt voor Qwen3-4B en met 12% voor Qwen3-8B.

AdapterTune: Nul-geïnitialiseerde Laag-Rang Adapters voor Bevroren Vision Transformers
AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Mar 16

BySalim Khazem

Frozen-backbone transfer met Vision Transformers kampt met twee onderbelichte problemen: optimalisatie-instabiliteit wanneer adapters op eenvoudige wijze in een vaste feature-extractor worden geplaatst, en het ontbreken van principiële richtlijnen voor het instellen van de adaptercapaciteit. Wij introduceren AdapterTune, dat elk transformerblok uitbreidt met een residuale low-rank bottleneck waarvan de up-projectie nul-geïnitialiseerd is. Dit garandeert dat het aangepaste netwerk exact start bij de voorgetrainde functie en elimineert representatiedrift in vroege trainingsepochs. Analytisch gezien formaliseren we de adapterrang als een capaciteitsbudget voor het benaderen van downstream-taakverschuivingen in de feature-ruimte. De resulterende excess-risk decompositie voorspelt monotone maar afnemende nauwkeurigheidswinst bij toenemende rang, een "elleboog"-gedrag dat we bevestigen via gecontroleerde experimenten. We evalueren op 9 datasets en 3 backbone-schalen met multi-seed rapportage. Op een kernset van 5 datasets verbetert AdapterTune de top-1 nauwkeurigheid ten opzichte van head-only transfer met gemiddeld +14,9 procentpunt, terwijl slechts 0,92% van de parameters van volledige fine-tuning getraind wordt, en presteert het beter dan volledige fine-tuning bij 10 van de 15 dataset-backbone combinaties. Over de volledige benchmark heen verbetert AdapterTune de prestaties ten opzichte van head-only transfer bij elke geteste dataset-backbone combinatie. Ablatiestudies naar rang, plaatsing en initialisatie isoleren elke ontwerpkeuze. De code is beschikbaar op: https://github.com/salimkhazem/adaptertune

Coherente Mens-Scène Reconstructie uit Multi-Persoon Multi-View Video in één Enkele Passage
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Mar 13

BySangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park

Recente vooruitgang in 3D-foundationmodellen heeft geleid tot een groeiende interesse in het reconstrueren van mensen en hun omgeving. De meeste bestaande benaderingen richten zich echter op monocular invoer, en het uitbreiden daarvan naar multi-view instellingen vereist extra overheadmodules of voorbewerkte data. Daartoe presenteren wij CHROMM, een uniform raamwerk dat gezamenlijk camera's, scène-puntenwolken en humane meshes schat uit multi-persoon multi-view video's, zonder afhankelijk te zijn van externe modules of preprocessing. We integreren sterke geometrische en humane priors van Pi3X en Multi-HMR in een enkele trainbare neurale netwerkarchitectuur, en introduceren een schaalaanpassingsmodule om de schaaldiscrepantie tussen mensen en de scène op te lossen. We introduceren ook een multi-view fusiestrategie om per-view schattingen samen te voegen tot een enkele representatie tijdens de testfase. Ten slotte stellen we een geometriegebaseerde multi-persoon associatiemethode voor, die robuuster is dan op uiterlijk gebaseerde benaderingen. Experimenten op EMDB, RICH, EgoHumans en EgoExo4D tonen aan dat CHROMM competitieve prestaties levert in globale humane beweging en multi-view houdingsschatting, terwijl het meer dan 8x sneller draait dan eerdere op optimalisatie gebaseerde multi-view benaderingen. Projectpagina: https://nstar1125.github.io/chromm.

PRISM: Retentie en Interactie Ontrafelen Tijdens Middenfase Training
PRISM: Demystifying Retention and Interaction in Mid-Training

Mar 17

ByBharat Runwal, Ashish Agrawal, Anurag Roy, Rameswar Panda

Wij presenteren PRISM, een uitgebreide empirische studie naar ontwerpkeuzes tijdens de middenfase van training voor grote taalmodellen. Via gecontroleerde experimenten met zeven basismodellen uit vier families (Granite, LLaMA, Mistral, Nemotron-H), twee architectuurtypen (dichte Transformer en attention-Mamba hybride) en schalen van 3B tot 24B parameters, tonen we aan dat training in de middenfase op ongeveer 27B hoogwaardige tokens consistente winsten oplevert van +15 tot +40 punten op wiskunde, +5 tot +12 punten op code en +6 tot +13 punten op wetenschappelijke benchmarks, terwijl de algemene prestaties behouden blijven. De volledige PRISM-naar-RL pijplijn verbetert het macro-gemiddelde over zes redeneerbenchmarks van minder dan 12 naar 29-42 (een 3-4x verbetering), terwijl RL direct toegepast op de meeste basismodellen aanzienlijk minder effectief blijft, met AIME-scores nabij nul. Datasamenstelling is het belangrijkst tijdens de middenfase, niet RL: het opnemen van wetenschappelijke data tijdens de middenfase ontgrendelt +17 tot +28 punten GPQA-Diamond winst tijdens RL, terwijl het aanpassen van de RL-mix minder dan 2 punten verschil oplevert. Mechanistisch gezien herstructureert training in de middenfase meer dan 90% van de modelgewichten dicht, terwijl RL slechts spaarzame, vooraf geladen verfijningen aanbrengt aan ongeveer 5% van de parameters. Representatieanalyse (CKA) bevestigt dat RL consequent de representatiegeometrie van de middenfase behoudt (meer dan 0,998 CKA) across architecturen. Cruciaal is dat RL identieke gewichtsveranderingen toepast ongeacht het startpunt, maar alleen slaagt op modellen die de middenfase hebben doorlopen, consistent met de hypothese dat middenfase-training het model in een configuratie plaatst van waaruit RL effectief prestaties kan verbeteren. Onze resultaten tonen aan dat retentiebewuste training in de middenfase zeer effectief is voor betrouwbare redeneerverbetering en bieden praktische richtlijnen voor het ontwerpen van robuuste middenfase-trainingspijplijnen.

Fanar-Sadiq: Een multi-agentarchitectuur voor gegronde islamitische vraag-antwoordsystemen
Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Mar 9

ByUmmar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam

Grote taalmodellen (LLM's) kunnen vragen over religieuze kennis vloeiend beantwoorden, maar ze hallucineren vaak en schrijven bronnen verkeerd toe. Dit is vooral problematisch in islamitische contexten, waar gebruikers een onderbouwing verwachten in canonieke teksten (Koran en Hadith) en jurisprudentiële (fiqh) nuance. Retrieval-augmented generation (RAG) vermindert enkele van deze beperkingen door de tekstgeneratie te verankeren in externe bronnen. Een enkele "retrieve-then-generate"-pijplijn is echter beperkt in het omgaan met de diversiteit van islamitische vragen. Gebruikers kunnen vragen om letterlijke schriftcitaten, fatwa-achtige begeleiding met bronverwijzingen, of regelgebonden berekeningen zoals zakat en erfenis die strikte rekenkundige en juridische invarianten vereisen. In dit werk presenteren we een tweetalige (Arabisch/Engels) multi-agent islamitische assistent, genaamd Fanar-Sadiq, een kernonderdeel van het Fanar AI-platform. Fanar-Sadiq leidt islamitische vragen door naar gespecialiseerde modules binnen een agent-gebaseerde, tool-gebruikende architectuur. Het systeem ondersteunt intent-aware routing, retrieval-onderbouwde fiqh-antwoorden met deterministische normalisatie van citaten en verificatietrajecten, exacte versopzoekingen met citatenvalidatie, en deterministische rekenmodules voor soennitische zakat en erfenis met madhhab-gevoelige vertakking. We evalueren het complete end-to-end systeem op openbare islamitische QA-testen en tonen effectiviteit en efficiëntie aan. Ons systeem is momenteel openbaar en gratis toegankelijk via een API en een webapplicatie, en werd in minder dan een jaar ongeveer 1,9 miljoen keer geraadpleegd.