HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

24 papers found

SkillNet: AI-vaardigheden creëren, evalueren en verbinden
SkillNet: Create, Evaluate, and Connect AI Skills

Feb 26

ByYuan Liang, Ruobin Zhong, Haoming Xu, Chen Jiang, Yi Zhong, Runnan Fang, Jia-Chen Gu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Xin Xu, Tongtong Wu, Kun Wang, Yang Liu, Zhen Bi, Jungang Lou, Yuchen Eleanor Jiang, Hangcheng Zhu, Gang Yu, Haiwen Hong, Longtao Huang, Hui Xue, Chenxi Wang, Yijun Wang, Zifei Shan, Xi Chen, Zhaopeng Tu, Feiyu Xiong, Xin Xie, Peng Zhang, Zhengke Gui, Lei Liang, Jun Zhou, Chiyu Wu, Jin Shang, Yu Gong, Junyu Lin, Changliang Xu, Hongjie Deng, Wen Zhang, Keyan Ding, Qiang Zhang, Fei Huang, Ningyu Zhang, Jeff Z. Pan, Guilin Qi, Haofen Wang, Huajun Chen

Huidige AI-agenten kunnen flexibel tools inzetten en complexe taken uitvoeren, maar hun lange-termijnontwikkeling wordt belemmerd door het ontbreken van systematische accumulatie en overdracht van vaardigheden. Zonder een uniform mechanisme voor vaardigheidsconsolidatie moeten agenten vaak "het wiel opnieuw uitvinden", waarbij ze oplossingen in geïsoleerde contexten herontdekken zonder gebruik te maken van eerdere strategieën. Om deze beperking te overwinnen, introduceren wij SkillNet: een open infrastructuur ontworpen voor het grootschalig creëren, evalueren en organiseren van AI-vaardigheden. SkillNet structureert vaardigheden binnen een uniforme ontologie die ondersteuning biedt voor het creëren van vaardigheden uit heterogene bronnen, het leggen van rijke relationele verbindingen en het uitvoeren van multidimensionale evaluatie op het gebied van Veiligheid, Volledigheid, Uitvoerbaarheid, Onderhoudbaarheid en Kostbewustzijn. Onze infrastructuur integreert een repository met meer dan 200.000 vaardigheden, een interactief platform en een veelzijdige Python-toolkit. Experimentele evaluaties op ALFWorld, WebShop en ScienceWorld tonen aan dat SkillNet de prestaties van agenten aanzienlijk verbetert, met een gemiddelde beloningstoename van 40% en een reductie van uitvoeringsstappen met 30% over meerdere backbone-modellen. Door vaardigheden te formaliseren als evoluerende, samenstelbare middelen, biedt SkillNet een robuuste basis voor agenten om van tijdelijke ervaring naar duurzame beheersing te groeien.

MOOSE-Star: Toegankelijke Training voor Wetenschappelijke Ontdekkingen Door de Complexiteitsbarrière te Doorbreken
MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Mar 4

ByZonglin Yang, Lidong Bing

Hoewel grote taalmodellen (LLM's) potentie tonen voor wetenschappelijke ontdekking, richt bestaand onderzoek zich op inferentie of feedback-gestuurde training, waardoor de directe modellering van het generatieve redeneerproces, P(hypothese|achtergrond) (P(h|b)), onontgonnen blijft. Wij tonen aan dat het direct trainen van P(h|b) wiskundig onhanteerbaar is vanwege de combinatorische complexiteit (O(N^k)) die inherent is aan het ophalen en samenstellen van inspiraties uit een uitgebreide kennisbank. Om deze barrière te doorbreken, introduceren we MOOSE-Star, een uniform raamwerk dat hanteerbare training en schaalbare inferentie mogelijk maakt. In het beste geval reduceert MOOSE-Star de complexiteit van exponentieel naar logaritmisch (O(log N)) door (1) training op ontbonden deeltaken afgeleid van de probabilistische vergelijking van ontdekking, (2) inzet van motivatie-gestuurd hiërarchisch zoeken om logaritmisch ophalen mogelijk te maken en irrelevante deelruimtes uit te sluiten, en (3) gebruikmaking van begrensde compositie voor robuustheid tegen ruis bij het ophalen. Om dit te faciliteren, publiceren we TOMATO-Star, een dataset van 108.717 ontbonden artikelen (38.400 GPU-uren) voor training. Verder tonen we aan dat, hoewel brute-force steekproefname een "complexiteitsmuur" raakt, MOOSE-Star continue schaalvergroting tijdens testtijd vertoont.

DARE: Het Afstemmen van LLM-Agenten op het R-statistieksysteem via Distributiebewuste Retrieval
DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Mar 5

ByMaojun Sun, Yue Wu, Yifei Xie, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang

Large Language Model (LLM)-agenten kunnen data-science-workflows automatiseren, maar veel rigoureuze statistische methoden die in R zijn geïmplementeerd, blijven onderbenut omdat LLM's moeite hebben met statistische kennis en toolretrieval. Bestaande retrieval-augmented benaderingen richten zich op function-level semantiek en negeren dataverdeling, wat suboptimale matches oplevert. Wij stellen DARE (Distribution-Aware Retrieval Embedding) voor, een lichtgewicht, plug-and-play retrievalmodel dat informatie over dataverdeling integreert in functierepresentaties voor R-package-retrieval. Onze belangrijkste bijdragen zijn: (i) RPKB, een samengestelde R Package Knowledge Base afgeleid van 8.191 hoogwaardige CRAN-packages; (ii) DARE, een embeddingmodel dat distributionele kenmerken fuseert met functiemetadata om de retrievalrelevantie te verbeteren; en (iii) RCodingAgent, een R-georiënteerde LLM-agent voor betrouwbare R-codegeneratie en een reeks statistische analysetaken voor de systematische evaluatie van LLM-agenten in realistische analytische scenario's. Empirisch behaalt DARE een NDCG@10 van 93,47%, wat state-of-the-art open-source-embeddingmodellen voor packageretrieval met tot 17% overtreft, terwijl aanzienlijk minder parameters worden gebruikt. Integratie van DARE in RCodingAgent levert aanzienlijke winst op bij downstream-analysetaken. Dit werk helpt de kloof tussen LLM-automatisering en het volwassen R-statistische ecosysteem te verkleinen.

AgentVista: Evaluatie van Multimodale Agents in Ultra-Uitdagende Realistische Visuele Scenario's
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Feb 26

ByZhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He

Multimodale agenten in de praktijk lossen meerstaps werkstromen op die zijn gegrond in visueel bewijs. Zo kan een agent een apparaat diagnosticeren door een bedradingsfoto te koppelen aan een schema en de reparatie te valideren met online documentatie, of een reis plannen door een openbaarvervoerkaart te interpreteren en dienstregelingen te controleren binnen routebeperkingen. Bestaande multimodale benchmarks evalueren echter voornamelijk enkelvoudige visuele redeneertaken of specifieke vaardigheden in het gebruik van tools, en vangen niet volledig de realiteitsgetrouwheid, visuele subtiliteit en langetermijn toolgebruik die praktische agenten vereisen. Wij introduceren AgentVista, een benchmark voor generalistische multimodale agenten die 25 subdomeinen bestrijkt binnen 7 categorieën, waarbij realistische en detailrijke visuele scenario's worden gekoppeld aan natuurlijk hybride toolgebruik. Taken vereisen langetermijn toolinteracties over modaliteiten heen, waaronder zoeken op het web, beeldzoekopdrachten, paginanavigatie en code-gebaseerde operaties voor zowel beeldverwerking als algemeen programmeren. Een uitgebreide evaluatie van state-of-the-art modellen toont aanzienlijke tekortkomingen in hun vermogen om langetermijn multimodaal toolgebruik uit te voeren. Zelfs het beste model in onze evaluatie, Gemini-3-Pro met tools, behaalt slechts 27,3% algemene nauwkeurigheid, en complexe gevallen kunnen meer dan 25 toolaanroepen vereisen. Wij verwachten dat AgentVista de ontwikkeling zal versnellen van krachtigere en betrouwbaardere multimodale agenten voor realistische en ultiem uitdagende probleemoplossing.

RoboPocket: Verbeter Robotbeleid Onmiddellijk met Je Telefoon
RoboPocket: Improve Robot Policies Instantly with Your Phone

Mar 5

ByJunjie Fang, Wendi Chen, Han Xue, Fangyuan Zhou, Tian Le, Yi Wang, Yuting Zhang, Jun Lv, Chuan Wen, Cewu Lu

De schaalbaarheid van imitatieleren wordt fundamenteel beperkt door de efficiëntie van gegevensverzameling. Hoewel handheld-interfaces zijn ontstaan als een schaalbare oplossing voor gegevensverwerving 'in het wild', opereren deze voornamelijk op een open-loop-manier: operators verzamelen blindelings demonstraties zonder de zwakke punten van het onderliggende beleid te kennen, wat leidt tot inefficiënte dekking van kritieke toestandsverdelingen. Daarentegen pakken interactieve methoden zoals DAgger covariaatverschuiving effectief aan, maar zijn afhankelijk van fysieke robotuitvoering, wat kostbaar en moeilijk op te schalen is. Om deze afweging te verzoenen, introduceren we RoboPocket, een draagbaar systeem dat Robot-Vrije Directe Beleidsiteratie mogelijk maakt met behulp van enkele consumentensmartphones. De kerninnovatie is een Remote Inference-framework dat de door het beleid voorspelde traject visualiseert via Augmented Reality (AR) Visual Foresight. Deze meeslepende feedback stelt verzamelaars in staat proactief mogelijke fouten te identificeren en de gegevensverzameling te richten op de zwakke regio's van het beleid, zonder een fysieke robot nodig te hebben. Bovendien implementeren we een asynchrone Online Finetuning-pijplijn die het beleid continu bijwerkt met binnenkomende gegevens, waardoor de leerloop effectief in minuten wordt gesloten. Uitgebreide experimenten tonen aan dat RoboPocket voldoet aan de schaalwetten voor gegevens en de gegevensefficiëntie verdubbelt in vergelijking met offline schaalstrategieën, waardoor hun lang bestaande efficiëntieknelpunt wordt overwonnen. Bovendien verhoogt onze directe iteratielus ook de steekproefefficiëntie met tot 2x in gedistribueerde omgevingen met een klein aantal interactieve correcties per persoon. Projectpagina en video's: https://robo-pocket.github.io.

HiFi-Inpaint: Op weg naar hoogfideliteit, referentiegebaseerde inpainting voor het genereren van detailbehoudende mens-productafbeeldingen
HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Mar 2

ByYichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng

Mens-productafbeeldingen, die de integratie van mensen en producten tonen, spelen een cruciale rol in reclame, e-commerce en digitale marketing. De grootste uitdaging bij het genereren van dergelijke afbeeldingen ligt in het waarborgen van hoogwaardig behoud van productdetails. Binnen bestaande paradigma's biedt referentiegebaseerde inpainting een gerichte oplossing door gebruik te maken van productreferentieafbeeldingen om het inpainting-proces te sturen. Er blijven echter beperkingen bestaan op drie belangrijke gebieden: het gebrek aan diverse grootschalige trainingsdata, de moeite die huidige modellen hebben om zich te richten op het behoud van productdetails, en de onmogelijkheid van grove supervisie om precieze sturing te bereiken. Om deze problemen aan te pakken, stellen wij HiFi-Inpaint voor, een nieuw referentiegebaseerd inpainting-raamwerk met hoge betrouwbaarheid, speciaal ontworpen voor het genereren van mens-productafbeeldingen. HiFi-Inpaint introduceert Shared Enhancement Attention (SEA) om fijnmazige productkenmerken te verfijnen en Detail-Aware Loss (DAL) om precieze pixel-level supervisie af te dwingen met behulp van hoogfrequente kaarten. Daarnaast hebben wij een nieuwe dataset, HP-Image-40K, samengesteld met monsters die zijn gecureerd uit zelf gesynthetiseerde data en verwerkt met automatische filtering. Experimentele resultaten tonen aan dat HiFi-Inpaint state-of-the-art prestaties bereikt en detailbewarende mens-productafbeeldingen levert.

Grootschalige multimodale modellen als algemene in-contextclassificatoren
Large Multimodal Models as General In-Context Classifiers

Feb 26

ByMarco Garosi, Matteo Farina, Alessandro Conti, Massimiliano Mancini, Elisa Ricci

Welk multimodaal model moeten we gebruiken voor classificatie? Eerdere studies suggereren dat het antwoord ligt bij CLIP-achtige contrastieve Vision-Language Models (VLM's), vanwege hun opmerkelijke prestaties in zero-shot classificatie. Daarentegen zijn Large Multimodal Models (LMM's) geschikter voor complexe taken. In dit werk beargumenteren wij dat dit antwoord een belangrijke capaciteit van LMM's over het hoofd ziet: in-context leren. We benchmarken state-of-the-art LMM's op diverse datasets voor closed-world classificatie en ontdekken dat, hoewel hun zero-shot prestaties lager zijn dan die van CLIP, LMM's met een paar in-context voorbeelden de prestaties kunnen evenaren of zelfs overtreffen van contrastieve VLM's met cache-gebaseerde adapters, hun "in-context" equivalent. We breiden deze analyse uit naar de open-world setting, waar de generatieve aard van LMM's hen geschikter maakt voor de taak. In dit uitdagende scenario hebben LMM's moeite wanneer ze worden voorzien van imperfecte contextinformatie. Om dit probleem aan te pakken, stellen we CIRCLE voor, een eenvoudige traininingsvrije methode die pseudo-labels toekent aan in-context voorbeelden en deze iteratief verfijnt met de beschikbare context zelf. Door middel van uitgebreide experimenten tonen we aan dat CIRCLE een robuuste baseline vestigt voor open-world classificatie, waarbij VLM-tegenhangers worden overtroffen en het potentieel van LMM's wordt benadrukt om te dienen als uniforme classificatoren en een flexibel alternatief voor gespecialiseerde modellen.

MASQuant: Modaliteitsbewust Afvloeiende Kwantisatie voor Multimodale Grote Taalmodellen
MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Mar 5

ByLulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao

Post-trainingkwantisatie (PTQ) met computationele invariantie voor Large Language Models (LLM's) heeft opmerkelijke vooruitgang geboekt, maar de toepassing ervan op Multimodale Large Language Models (MLLM's) vormt aanzienlijke uitdagingen. In dit artikel analyseren we SmoothQuant als casestudy en identificeren we twee kritieke problemen: Afvlakkingsmisalignering en Cross-modale Computationele Invariantie. Om deze problemen aan te pakken, stellen we Modality-Aware Smoothing Quantization (MASQuant) voor, een nieuw raamwerk dat introduceert: (1) Modality-Aware Smoothing (MAS), welke gescheiden, modalitiespecifieke afvlakkingsfactoren leert om Afvlakkingsmisalignering te voorkomen, en (2) Cross-modale Compensatie (CMC), welke Cross-modale Computationele Invariantie aanpakt door SVD-whitening te gebruiken om multimodale activatieverschillen om te zetten in low-rank vormen, waardoor uniforme kwantisatie over modaliteiten heen mogelijk wordt. MASQuant toont stabiele kwantisatieprestaties bij zowel dual-modale als tri-modale MLLM's. Experimentele resultaten tonen aan dat MASQuant concurrerend is binnen de state-of-the-art PTQ-algoritmen. Broncode: https://github.com/alibaba/EfficientAI.

Interactieve Benchmarks
Interactive Benchmarks

Mar 5

ByBaoqing Yue, Zihan Zhu, Yifan Zhang, Jichen Feng, Hufei Yang, Mengdi Wang

Standaardbenchmarks zijn steeds onbetrouwbaarder geworden door verzadiging, subjectiviteit en slechte generalisatie. Wij beargumenteren dat het evalueren van het vermogen van modellen om actief informatie te verwerven essentieel is om de intelligentie van modellen te beoordelen. Wij introduceren Interactieve Benchmarks, een uniform evaluatieparadigma dat het redeneervermogen van modellen beoordeelt in een interactief proces onder budgetbeperkingen. Wij concretiseren dit raamwerk in twee settings: Interactieve Bewijzen, waarbij modellen met een rechter interacteren om objectieve waarheden of antwoorden in logica en wiskunde af te leiden; en Interactieve Spellen, waarbij modellen strategisch redeneren om langetermijnnut te maximaliseren. Onze resultaten tonen aan dat interactieve benchmarks een robuuste en betrouwbare beoordeling van modelintelligentie bieden, en onthullen dat er nog aanzienlijke verbeteringsruimte is in interactieve scenario's. Projectpagina: https://github.com/interactivebench/interactivebench

SageBwd: Een Trainbare Low-bit Attention
SageBwd: A Trainable Low-bit Attention

Mar 2

ByJintao Zhang, Marco Chen, Haoxu Wang, Kai Jiang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu

Low-bit aandacht, zoals SageAttention, is naar voren gekomen als een effectieve benadering voor het versnellen van modelinferentie, maar de toepasbaarheid ervan op training blijft slecht begrepen. In eerder werk introduceerden we SageBwd, een trainbare INT8-aandacht die zes van de zeven aandachtmatrixvermenigvuldigingen kwantiseert terwijl de fine-tuningprestaties behouden blijven. SageBwd vertoonde echter een hardnekkige prestatiekloof met full-precision aandacht (FPA) tijdens voorafgaande training. In dit werk onderzoeken we waarom deze kloof optreedt en tonen we aan dat SageBwd gelijkwaardig presteert aan full-precision aandacht tijdens de voorafgaande training. Door experimenten en theoretische analyse komen we tot enkele belangrijke inzichten en conclusies: (i) QK-norm is noodzakelijk voor stabiele training bij een groot aantal tokens per stap, (ii) kwantiseringsfouten ontstaan voornamelijk vanuit de scoregradiënt dS in de backward-pass, (iii) het verminderen van tokens per stap stelt SageBwd in staat om de FPA-prestaties in voorafgaande training evenaren, en (iv) K-smoothing blijft essentieel voor trainstabiliteit, terwijl Q-smoothing beperkt voordeel biedt tijdens voorafgaande training.

DreamWorld: Verenigde Wereldmodellering in Videogeneratie
DreamWorld: Unified World Modeling in Video Generation

Feb 28

ByBoming Tan, Xiangdong Zhang, Ning Liao, Yuqing Zhang, Shaofeng Zhang, Xue Yang, Qi Fan, Yanyong Zhang

Ondanks indrukwekkende vooruitgang in videogeneratie blijven bestaande modellen beperkt tot oppervlakkige geloofwaardigheid, zonder een coherent en uniform begrip van de wereld. Bestaande methoden integreren doorgaans slechts één vorm van wereldgerelateerde kennis of vertrouwen op rigide aligneringsstrategieën om aanvullende kennis in te brengen. Het aligneren van enkele wereldkennis is echter onvoldoende om een wereldmodel te vormen dat gezamenlijke modellering van meerdere heterogene dimensies vereist (bijvoorbeeld fysiek gezond verstand, 3D- en temporele consistentie). Om deze beperking aan te pakken, introduceren we DreamWorld, een uniform kader dat complementaire wereldkennis integreert in videogeneratoren via een Joint World Modeling Paradigm, waarbij gezamenlijk videopixels en kenmerken van foundationmodellen worden voorspeld om temporele dynamiek, ruimtelijke geometrie en semantische consistentie vast te leggen. Een naïeve optimalisatie van deze heterogene doelstellingen kan echter leiden tot visuele instabiliteit en temporele flikkering. Om dit probleem te verlichten, stellen we Consistent Constraint Annealing (CCA) voor om wereldniveau-beperkingen tijdens de training geleidelijk te reguleren, en Multi-Source Inner-Guidance om geleerde wereldprioriteiten tijdens inferentie af te dwingen. Uitgebreide evaluaties tonen aan dat DreamWorld de wereldconsistentie verbetert en Wan2.1 met 2.26 punten overtreft op VBench. Code wordt openbaar gemaakt op https://github.com/ABU121111/DreamWorld.

Timer-S1: Een op een miljard schaal gebaseerd tijdreeksfundamentmodel met seriële schaalvergroting
Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Mar 5

ByYong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long

Wij introduceren Timer-S1, een krachtig Mixture-of-Experts (MoE) tijdreeks-foundationmodel met 8,3 miljard totale parameters, 0,75 miljard geactiveerde parameters per token en een contextlengte van 11,5K. Om de schaalbaarheidsbeperking in bestaande voorgetrainde tijdreeks-foundationmodellen te overwinnen, passen wij *Serial Scaling* toe in drie dimensies: modelarchitectuur, dataset en trainingspijplijn. Timer-S1 integreert sparse TimeMoE-blokken en generieke TimeSTP-blokken voor *Serial-Token Prediction* (STP), een generieke trainingsdoelstelling die aansluit bij het seriële karakter van prognoses. Het voorgestelde paradigma introduceert seriële berekeningen om voorspellingen op lange termijn te verbeteren, terwijl kostelijke *rolling-style inference* en uitgesproken foutaccumulatie in de standaard *next-token prediction* worden vermeden. Strevend naar een hoogwaardige en onbevooroordeelde trainingsdataset, hebben wij TimeBench samengesteld, een corpus met één biljoen tijdspunten, en zorgvuldige data-augmentatie toegepast om voorspellingsbias te mitigeren. Verder introduceren wij een *post-training*-fase, inclusief voortgezette voorpretraining en *long-context extension*, om de prestaties op korte termijn en met lange context te verbeteren. Geëvalueerd op het grootschalige GIFT-Eval leaderboard, bereikt Timer-S1 state-of-the-art prognoseprestaties en behaalt het de beste MASE- en CRPS-scores als voorgetraind model. Timer-S1 zal worden vrijgegeven om verder onderzoek te vergemakkelijken.

RealWonder: Real-Time Fysieke Actie-Gestuurde Videogeneratie
RealWonder: Real-Time Physical Action-Conditioned Video Generation

Mar 5

ByWei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu

Huidige videogeneratiemodellen kunnen fysieke gevolgen van 3D-handelingen zoals krachten en robotmanipulaties niet simuleren, omdat ze een structureel begrip ontberen van hoe handelingen 3D-scènes beïnvloeden. Wij presenteren RealWonder, het eerste real-time systeem voor actiegeconditioneerde videogeneratie vanuit een enkele afbeelding. Onze belangrijkste inzicht is het gebruik van fysicasimulatie als een tussenliggende brug: in plaats van continue handelingen direct te coderen, vertalen we deze via fysicasimulatie naar visuele representaties (optische stroom en RGB) die videomodellen kunnen verwerken. RealWonder integreert drie componenten: 3D-reconstructie vanuit enkele afbeeldingen, fysicasimulatie en een gedistilleerde videogenerator die slechts 4 diffusiestappen vereist. Ons systeem behaalt 13.2 FPS bij 480x832 resolutie, wat interactieve exploratie mogelijk maakt van krachten, robotacties en camerabesturing op rigide objecten, vervormbare lichamen, vloeistoffen en korrelmaterialen. Wij voorzien dat RealWonder nieuwe mogelijkheden opent om videomodellen toe te passen in immersieve ervaringen, AR/VR en robotleren. Onze code en modelgewichten zijn openbaar beschikbaar op onze projectwebsite: https://liuwei283.github.io/RealWonder/

UltraDexGrasp: Leren van universeel behendig grijpen voor bimanuele robots met synthetische data
UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

Mar 5

BySizhe Yang, Yiman Xie, Zhixuan Liang, Yang Tian, Jia Zeng, Dahua Lin, Jiangmiao Pang

Grijpen is een fundamentele vaardigheid voor robots om te interageren met de fysieke wereld. Mensen, uitgerust met twee handen, selecteren autonoom geschikte grijpstrategieën op basis van de vorm, grootte en het gewicht van objecten, wat robuust grijpen en daaropvolgende manipulatie mogelijk maakt. In tegenstelling hiermee blijft het huidige robotgrijpen beperkt, vooral in multi-strategie omgevingen. Hoewel aanzienlijke inspanningen zijn gericht op grijpen met parallelle grijpers en enkele handen, blijft behendig grijpen voor bimanuele robots onderbelicht, waarbij data een primaire bottleneck vormt. Het realiseren van fysisch plausibele en geometrisch conformerende grepen die externe krachten en momenten kunnen weerstaan, vormt aanzienlijke uitdagingen. Om deze problemen aan te pakken, introduceren we UltraDexGrasp, een raamwerk voor universeel behendig grijpen met bimanuele robots. De voorgestelde data-generatiepijplijn integreert op optimalisatie gebaseerde grijpsynthese met op planning gebaseerde demonstratiegeneratie, wat hoogwaardige en diverse trajecten oplevert voor meerdere grijpstrategieën. Met dit raamwerk stellen we UltraDexGrasp-20M samen, een grootschalige, multi-strategie grijpdataset bestaande uit 20 miljoen frames over 1.000 objecten. Gebaseerd op UltraDexGrasp-20M ontwikkelen we verder een eenvoudig maar effectief grijpbeleid dat puntenwolken als invoer neemt, scènekenmerken aggregeert via unidirectionele aandacht en besturingscommando's voorspelt. Uitsluitend getraind op synthetische data bereikt het beleid een robuuste zero-shot sim-to-real transfer en slaagt het consistent op nieuwe objecten met uiteenlopende vormen, maten en gewichten, met een gemiddeld slagingspercentage van 81,2% in real-world universeel behendig grijpen. Om toekomstig onderzoek naar grijpen met bimanuele robots te faciliteren, open-sourcen we de data-generatiepijplijn op https://github.com/InternRobotics/UltraDexGrasp.

Locality-Attenderende Vision Transformer
Locality-Attending Vision Transformer

Mar 5

BySina Hajimiri, Farzad Beizaee, Fereshteh Shakeri, Christian Desrosiers, Ismail Ben Ayed, Jose Dolz

Vision transformers hebben opmerkelijke successen geboekt bij classificatie door gebruik te maken van globale zelf-attentie om afhankelijkheden over lange afstand vast te leggen. Ditzelfde mechanisme kan echter de fijnmazige ruimtelijke details verhullen die cruciaal zijn voor taken zoals segmentatie. In dit werk streven we ernaar de segmentatieprestaties van vision transformers te verbeteren na standaard training op beeldniveau voor classificatie. Concreet presenteren we een eenvoudige maar effectieve toevoeging die de prestaties bij segmentatietaken verbetert, terwijl de herkenningscapaciteiten op beeldniveau van vision transformers behouden blijven. In onze aanpak moduleren we de zelf-attentie met een leerbare Gaussiaanse kernel die de aandacht richt op naburige patches. We verfijnen verder de patch-representaties om betere embeddings op patchposities te leren. Deze aanpassingen moedigen tokens aan zich te concentreren op de lokale omgeving en zorgen voor betekenisvolle representaties op ruimtelijke posities, waarbij het vermogen van het model om globale informatie te integreren behouden blijft. Experimenten tonen de effectiviteit van onze aanpassingen aan, bewezen door aanzienlijke segmentatiewinst op drie benchmarks (bijvoorbeeld meer dan 6% en 4% op ADE20K voor ViT Tiny en Base), zonder de trainingsprocedure aan te passen of classificatieprestaties op te offeren. De code is beschikbaar op https://github.com/sinahmr/LocAtViT/.

On-Policy Zelfdestillatie voor Redeneercompressie
On-Policy Self-Distillation for Reasoning Compression

Mar 5

ByHejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

Redeneermodellen denken hardop, maar veel van wat ze zeggen is ruis. Wij introduceren OPSDC (On-Policy Self-Distillation for Reasoning Compression), een methode die modellen leert beknopter te redeneren door hun eigen beknopte gedrag terug te distilleren in zichzelf. De hele aanpak komt neer op één idee: conditioneer hetzelfde model met een "wees beknopt" instructie om teacher-logits te verkrijgen, en minimaliseer de reverse KL-divergentie per token op de student's eigen rollouts. Geen grond-waarheid-antwoorden, geen tokenbudgetten, geen moeilijkheidsschattingen. Alleen zelfdistillatie. Toch verhult deze eenvoud een verrassende verfijning: OPSDC comprimeert eenvoudige problemen automatisch agressief, terwijl de benodigde beraadslaging voor moeilijke problemen behouden blijft. Op Qwen3-8B en Qwen3-14B bereiken we een tokenreductie van 57-59% op MATH-500 terwijl de nauwkeurigheid met 9-16 procentpunten absoluut verbetert. Op AIME 2024 wint het 14B-model 10 punten met een compressie van 41%. Het geheim? Veel van wat redeneermodellen produceren is niet alleen redundant – het is actief schadelijk, omdat fouten worden versterkt met elke onnodige token.

KARL: Kennisagenten via Versterkingsleren
KARL: Knowledge Agents via Reinforcement Learning

Mar 5

ByJonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

Wij presenteren een systeem voor het trainen van zoekagenten voor bedrijven via reinforcement learning dat state-of-the-art prestaties behaalt op een diverse reeks moeilijk te verifiëren agent-gebaseerde zoektaken. Ons werk levert vier kernbijdragen. Ten eerste introduceren we KARLBench, een evaluatiesuite met meerdere capaciteiten die zes verschillende zoekregimes omvat, waaronder constraint-gestuurd zoeken naar entiteiten, cross-document rapportensynthese, tabelgebaseerd numeriek redeneren, uitgebreide entiteitenretrieval, procedureel redeneren over technische documentatie en feitenaggregatie over interne bedrijfsnotities. Ten tweede tonen we aan dat modellen getraind over heterogene zoekgedragingen aanzienlijk beter generaliseren dan modellen geoptimaliseerd voor een enkele benchmark. Ten derde ontwikkelen we een agent-gebaseerd synthesepipeline dat langetermijnredenering en toolgebruik inzet om diverse, gegronde en hoogwaardige trainingsdata te genereren, met iteratieve bootstrapping vanuit steeds capabelere modellen. Ten vierde stellen we een nieuwe post-training paradigma voor gebaseerd op iteratieve large-batch off-policy RL dat sample-efficiënt is, robuust tegen train-inference engine discrepanties, en zich natuurlijk uitstrekt tot multi-task training met out-of-distribution generalisatie. Vergeleken met Claude 4.6 en GPT 5.2 is KARL Pareto-optimaal op KARLBench voor kosten-kwaliteit en latentie-kwaliteit afwegingen, inclusief taken die out-of-distribution waren tijdens de training. Met voldoende rekenkracht tijdens testen overstijgt het de sterkste gesloten modellen. Deze resultaten tonen aan dat op maat gemaakte synthetische data in combinatie met multi-task reinforcement learning kostenefficiënte en hoogpresterende kennisagenten mogelijk maakt voor gegrond redeneren.

Naar een multimodale levenslange begripsvorming: een dataset en een agent-gebaseerde basislijn
Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Mar 5

ByGuo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu

Hoewel datasets voor videobegrip zijn opgeschaald naar opnames van urenlange duur, bestaan deze doorgaans uit dicht opeengepakte clips die verschillen van het natuurlijke, ongescripte dagelijkse leven. Om deze kloof te overbruggen, introduceren we MM-Lifelong, een dataset ontworpen voor Multimodale Levenslange Begripsvorming. De dataset omvat 181,1 uur aan beeldmateriaal, gestructureerd op Dag-, Week- en Maandschaal om verschillende temporele dichtheden vast te leggen. Uitgebreide evaluaties onthullen twee kritieke faalmodi in huidige paradigma's: end-to-end MLLM's lijden onder een Werkgeheugenflessenhals door contextverzadiging, terwijl representatieve agent-gebaseerde benchmarks te maken krijgen met Globale Localisatie-instorting bij het navigeren door schaarse, maandlange tijdlijnen. Om dit aan te pakken, stellen we de Recursieve Multimodale Agent (ReMA) voor, die dynamisch geheugenbeheer gebruikt om iteratief een recursieve geloofstoestand bij te werken, en daarmee aanzienlijk beter presteert dan bestaande methoden. Ten slotte stellen we datasplitsingen vast die zijn ontworpen om temporele en domeinvooroordelen te isoleren, waarmee een rigoureuze basis wordt gelegd voor toekomstig onderzoek naar supervised learning en out-of-distribution generalisatie.

Mozi: Bestuurde Autonomie voor LLM-agenten in Geneesmiddelenontdekking
Mozi: Governed Autonomy for Drug Discovery LLM Agents

Mar 4

ByHe Cao, Siyu Liu, Fan Zhang, Zijing Liu, Hao Li, Bin Feng, Shengyuan Bai, Leqing Chen, Kai Xie, Yu Li

Tool-augmented large language model (LLM)-agenten beloven wetenschappelijke redenering te verenigen met computationele kracht, maar hun inzet in hoogrisicodomeinen zoals geneesmiddelenontdekking wordt gehinderd door twee kritieke barrières: ongebreideld toolgebruik en onbetrouwbaarheid over lange tijdshorizonnen. In farmaceutische pijplijnen met zware afhankelijkheden vervallen autonome agenten vaak in onreproduceerbare trajecten, waarbij hallucinaties in vroege fasen zich vermenigvuldigend vertalen in downstream fouten. Om dit te overwinnen, presenteren we Mozi, een dual-layer architectuur die de flexibiliteit van generatieve AI verbindt met de deterministische nauwkeurigheid van computationele biologie. Laag A (Control Plane) vestigt een beheerde supervisor-workerhiërarchie die rolgebaseerde toolisolatie afdwingt, uitvoering beperkt tot afgebakende actieruimten en reflectie-gebaseerd herplannen aanstuurt. Laag B (Workflow Plane) operationaliseert canonieke geneesmiddelenontdekkingsfasen – van Targetidentificatie tot Leadoptimalisatie – als stateful, composeerbare vaardigheidsgrafen. Deze laag integreert strikte datacontracten en strategische human-in-the-loop (HITL)-checkpoints om de wetenschappelijke validiteit bij beslissingsgrenzen met hoge onzekerheid te waarborgen. Op basis van het ontwerpprincipe "vrije-vorm redenering voor veilige taken, gestructureerde uitvoering voor pijplijnen met lange tijdshorizonnen" biedt Mozi ingebouwde robuustheidsmechanismen en traceerbare audibility om foutaccumulatie volledig te mitigeren. We evalueren Mozi op PharmaBench, een samengestelde benchmark voor biomedische agenten, en tonen superieure orkestratienauwkeurigheid aan ten opzichte van bestaande baseline-methoden. Verder demonstreren we via end-to-end therapeutische casestudies Mozi's vermogen om enorme chemische ruimten te navigeren, stringente toxiciteitsfilters af te dwingen en zeer competitieve in silico-kandidaten te genereren, waardoor de LLM effectief transformeert van een kwetsbare gesprekspartner naar een betrouwbare, beheerde mede-wetenschapper.

Latente Deeltjes Wereldmodellen: Zelf-gesuperviseerde Object-gecentreerde Stochastische Dynamiekmodellering
Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

Mar 4

ByTal Daniel, Carl Qi, Dan Haramati, Amir Zadeh, Chuan Li, Aviv Tamar, Deepak Pathak, David Held

Wij introduceren het Latent Particle World Model (LPWM), een zelf-gesuperviseerd object-gecentreerd wereldmodel dat is opgeschaald voor real-world multi-object datasets en toepasbaar is in besluitvorming. LPWM ontdekt autonoom keypoints, begrenzingskaders en objectmaskers rechtstreeks uit videogegevens, waardoor het rijke scène-decomposities kan leren zonder supervisie. Onze architectuur wordt end-to-end uitsluitend getraind met video's en ondersteunt flexibele conditionering op acties, taal en beelddoelen. LPWM modelleert stochastische deeltjesdynamica via een nieuwe latente actiemodule en behaalt state-of-the-art resultaten op diverse real-world en synthetische datasets. Naast stochastische videomodellering is LPWM direct toepasbaar op besluitvorming, inclusief doel-geconditioneerd imitatieleren, zoals wij in het artikel demonstreren. Code, data, voorgetrainde modellen en video-rollouts zijn beschikbaar op: https://taldatech.github.io/lpwm-web

Distributie-geconditioneerd Transport
Distribution-Conditioned Transport

Mar 5

ByNic Fishman, Gokul Gowri, Paolo L. B. Fischer, Marinka Zitnik, Omar Abudayyeh, Jonathan Gootenberg

Het leren van een transportmodel dat een brondistributie afbeeldt op een doeldistributie is een standaardprobleem in machinaal leren, maar wetenschappelijke toepassingen vereisen in toenemende mate modellen die kunnen generaliseren naar brondistributies en doeldistributies die niet zijn gezien tijdens de training. Wij introduceren distributie-geconditioneerd transport (DCT), een raamwerk dat transportafbeeldingen conditioneert op geleerde inbeddingen van brondistributies en doeldistributies, wat generalisatie naar onzichtbare distributieparen mogelijk maakt. DCT maakt ook semi-gesuperviseerd leren mogelijk voor distributievoorspellingsproblemen: omdat het leert van willekeurige distributieparen, kan het distributies die slechts onder één conditie zijn waargenomen benutten om transportvoorspellingen te verbeteren. DCT is agnostisch voor het onderliggende transportmechanisme en ondersteunt modellen variërend van flow matching tot modellen gebaseerd op distributiedivergenties (bijv. Wasserstein, MMD). Wij demonstreren de praktische prestatievoordelen van DCT op synthetische benchmarks en vier toepassingen in de biologie: overdracht van batcheffecten in single-cell genomica, perturbatievoorspelling uit massacyto-metriedata, het leren van klonale transcriptionele dynamiek in hematopoëse, en het modelleren van T-celreceptorsequentie-evolutie.

Afgekapte stapgewijze bemonstering met procesbeloningen voor retrieval-augmented redenering
Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Feb 26

ByChris Samarinas, Haw-Shiuan Chang, Hamed Zamani

Het trainen van grote taalmodellen om te redeneren met zoekmachines via reinforcement learning wordt belemmerd door een fundamenteel credit assignment-probleem: bestaande methoden zoals Search-R1 bieden slechts een schaarse uitkomstbeloning na een volledige multi-stap traject, waardoor het onmogelijk is om succes of falen toe te schrijven aan individuele redeneer- en retrievalbeslissingen. Procesbeloningsmethoden zoals StepSearch verlichten dit door supervision op stapniveau in te voeren, maar steunen op heuristische beloningen zoals TF-IDF-overlap met gouden documenten, en nemen nog steeds k complete trajecten per voorbeeld, waardoor de variantie van de gradiënt hoog blijft. Wij stellen SLATE voor, een raamwerk gebaseerd op twee complementaire ideeën: (1) afgekapte steekproeven op stapniveau, die k trajecten genereren die een gemeenschappelijk voorvoegsel delen en alleen verschillen bij de volgende stap, en (2) dichte LLM-als-rechter beloningen, die heuristische scoring vervangen door een capabele LLM-evaluator die de kwaliteit van elke redeneerstap, zoekopdracht en antwoord beoordeelt, wat rijkere en betrouwbaardere supervision biedt. Wij bewijzen theoretisch dat onder dezelfde dichte beloningsstructuur, afgekapte steekproeven de variantie van advantage-schattingen met een factor T verminderen in vergelijking met steekproeven van volledige trajecten voor T-staps trajecten, wat resulteert in policy gradients met een lagere variantie en een beter gericht bereik. Experimenten op zeven QA-benchmarks bevestigen dat SLATE consistent beter presteert dan zowel baseline-methoden met schaarse beloning als procesbeloning, met de grootste winst op moeilijkere multi-hop taken en bij kleinere modellen.

STMI: Segmentatie-Gestuurde Tokenmodulatie met Cross-Modale Hypergraafinteractie voor Multi-Modale Objectherkenning
STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

Feb 28

ByXingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang

Multi-modale objectherkenning (Re-identification, ReID) heeft als doel complementaire informatie uit verschillende modaliteiten te benutten om specifieke objecten op te sporen. Bestaande methoden vertrouwen echter vaak op rigide tokenfiltering of eenvoudige fusiestrategieën, wat kan leiden tot verlies van onderscheidende kenmerken en toegenomen achtergrondinterferentie. Om deze problemen aan te pakken, stellen wij STMI voor, een nieuw multi-modale leerraamwerk bestaande uit drie kerncomponenten: (1) de Segmentatie-Gestuurde Kenmerkaanpassing (SFM)-module benut door SAM gegenereerde maskers om voorstellingen van de voorgrond te versterken en achtergrondruis te onderdrukken via leerbare aandachtmodulatie; (2) de Semantische Tokenherallocatie (STR)-module gebruikt leerbare querytokens en een adaptief herallocatiemechanisme om compacte en informatieve voorstellingen te extraheren zonder tokens te verwijderen; (3) de Cross-modale Hypergraafinteractie (CHI)-module construeert een uniforme hypergraaf over modaliteiten heen om semantische relaties van hogere orde vast te leggen. Uitgebreide experimenten op publieke benchmarks (RGBNT201, RGBNT100 en MSVR310) tonen de effectiviteit en robuustheid van ons voorgestelde STMI-raamwerk in multi-modale ReID-scenario's aan.

Lichtgewicht visueel redeneren voor sociaal bewuste robots
Lightweight Visual Reasoning for Socially-Aware Robots

Mar 4

ByAlessio Galatolo, Ronald Cumbal, Alexandros Rouchitsas, Katie Winkle, Didem Gürdür Broo, Ginevra Castellano

Robots die opereren in gedeelde menselijke omgevingen moeten niet alleen navigeren, interacteren en hun omgeving detecteren, maar ook dynamisch en vaak onvoorspelbaar menselijk gedrag interpreteren en erop reageren. Hoewel recente vooruitgang veelbelovend is in het verbeteren van robotperceptie en het opvolgen van instructies met Vision-Language Models (VLMs), blijven ze beperkt in het adresseren van de complexiteit van multimodale mens-robotinteracties (HRI). Gemotiveerd door deze uitdaging introduceren we een lichtgewicht taal-naar-visie feedbackmodule die de lus sluit tussen een LLM en de vision-encoder in VLMs. De module projecteert verborgen toestanden van beeld-tokens via een gegated Multi-Layer Perceptron (MLP) terug naar de encoder-input, wat een tweede passage activeert die de scène opnieuw interpreteerd binnen de tekstcontext. We evalueren deze aanpak op drie robotica-gerichte taken: navigatie in een gesimuleerde omgeving (Habitat), sequentiële scènebeschrijving (Mementos-Robotics) en herkenning van menselijke intenties (onze HRI-dataset). Resultaten tonen aan dat onze methode Qwen 2.5 (7B) verbetert met 3.3% (minder afgelegde afstand), +0.057 beschrijvingsscore en +2.93% nauwkeurigheid, met minder dan 3% extra parameters; Gemma 3 (4B) en LLaVA OV 1.5 (4B) tonen gemengde navigatieresultaten maar behalen winsten van +0.111,+0.055 en +10.81%,+4.79% op de laatste twee taken. Code is beschikbaar op https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics