HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

32 papers found

Generatieve Modellen Begrijpen Ruimte: Het Ontketenen van Impliciete 3D-Priors voor Scènebegrip
Generation Models Know Space: Unleashing Implicit 3D Priors for Scene Understanding

Mar 19

ByXianjin Wu, Dingkang Liang, Tianrui Feng, Kui Xia, Yumeng Zhang, Xiaofan Li, Xiao Tan, Xiang Bai

Hoewel multimodale grote taalmodellen indrukwekkende semantische capaciteiten vertonen, lijden ze vaak aan ruimtelijke blindheid en hebben ze moeite met fijnmazige geometrische redenering en fysieke dynamiek. Bestaande oplossingen zijn typisch afhankelijk van expliciete 3D-modaliteiten of complexe geometrische ondersteuningsstructuren, die worden beperkt door dataschaarste en generalisatie-uitdagingen. In dit werk stellen we een paradigmaverschuiving voor door gebruik te maken van het impliciete ruimtelijke voorafgaande inzicht in grootschalige videogeneratiemodellen. Wij veronderstellen dat deze modellen, om temporeel samenhangende video's te synthetiseren, inherent robuuste 3D-structurele voorafgaande kennis en fysieke wetten leren. Wij introduceren VEGA-3D (Video Extracted Generative Awareness), een plug-and-play raamwerk dat een vooraf getraind videodiffusiemodel hergebruikt als een Latente Wereldsimulator. Door spatiotemporele kenmerken te extraheren uit tussenliggende ruisniveaus en deze te integreren met semantische representaties via een token-level adaptief gegateerd fusiemechanisme, verrijken we MLLM's met dichte geometrische aanwijzingen zonder expliciete 3D-supervisie. Uitgebreide experimenten op het gebied van 3D-scènebegrip, ruimtelijk redeneren en belichaamde manipulatiebenchmarks tonen aan dat onze methode state-of-the-art-baselines overtreft, wat valideert dat generatieve voorafgaande kennis een schaalbare basis biedt voor het begrijpen van de fysieke wereld. Code is openbaar beschikbaar op https://github.com/H-EmbodVis/VEGA-3D.

SAMA: Gefactoriseerd Semantisch Ankeren en Bewegingsuitlijning voor Instructiegestuurd Videobewerken
SAMA: Factorized Semantic Anchoring and Motion Alignment for Instruction-Guided Video Editing

Mar 19

ByXinyao Zhang, Wenkai Dong, Yuxin Song, Bo Fang, Qi Zhang, Jing Wang, Fan Chen, Hui Zhang, Haocheng Feng, Yu Lu, Hang Zhou, Chun Yuan, Jingdong Wang

Huidige instructiegestuurde videobewerkingsmodellen hebben moeite om precieze semantische aanpassingen te combineren met getrouwe bewegingsoverdracht. Hoewel bestaande methoden expliciete externe prioriteiten injecteren (zoals VLM-features of structurele condities) om deze problemen te verlichten, belemmert deze afhankelijkheid de robuustheid en generalisatie van het model ernstig. Om deze beperking te overwinnen, presenteren wij SAMA (gefactoriseerd Semantisch Ankeren en Bewegingsuitlijning), een raamwerk dat videobewerking opsplitst in semantisch ankeren en bewegingsmodellering. Ten eerste introduceren wij Semantisch Ankeren, dat een betrouwbaar visueel anker creëert door gezamenlijk semantische tokens en videolatents te voorspellen op verspreide ankerframes, wat puur instructiebewuste structurele planning mogelijk maakt. Ten tweede leert Bewegingsuitlijning dezelfde backbone vooraf aan op bewegingsgerichte videorestoratietaken (kubus-inpainting, snelheidsverstoring en buis-shuffle), waardoor het model temporele dynamiek direct uit ruwe video's internaliseert. SAMA wordt geoptimaliseerd met een tweefasenpijplijn: een gefactoriseerde vooropleidingsfase die inherente semantisch-bewegingsrepresentaties leert zonder gekoppelde video-instructiebewerkingsdata, gevolgd door supervised fine-tuning op gekoppelde bewerkingsdata. Opmerkelijk genoeg levert de gefactoriseerde vooropleiding al een sterke zero-shot videobewerkingscapaciteit op, wat de voorgestelde factorisatie valideert. SAMA behaalt state-of-the-art prestaties onder open-source modellen en is concurrerend met toonaangevende commerciële systemen (zoals Kling-Omni). Code, modellen en datasets zullen worden vrijgegeven.

3DreamBooth: Hoogfideliteit 3D Model voor Onderwerpgestuurde Videogeneratie
3DreamBooth: High-Fidelity 3D Subject-Driven Video Generation Model

Mar 19

ByHyun-kyu Ko, Jihyeon Park, Younghyun Kim, Dongheok Park, Eunbyung Park

Het creëren van dynamische, view-consistente video's van gepersonaliseerde onderwerpen is zeer gewild voor een breed scala aan opkomende toepassingen, waaronder immersieve VR/AR, virtuele productie en e-commerce van de volgende generatie. Ondanks de snelle vooruitgang in onderwerpgedreven videogeneratie, behandelen bestaande methoden onderwerpen echter overwegend als 2D-entiteiten, waarbij de focus ligt op het overdragen van identiteit via visuele kenmerken vanuit één gezichtspunt of tekstuele prompts. Omdat onderwerpen in de echte wereld inherent 3D zijn, legt de toepassing van deze 2D-gerichte benaderingen op 3D-objectcustomizatie een fundamentele beperking bloot: ze missen de uitgebreide ruimtelijke priors die nodig zijn om de 3D-geometrie te reconstrueren. Bij het synthetiseren van nieuwe gezichtspunten zijn ze daarom aangewezen op het genereren van plausibele maar willekeurige details voor onzichtbare gebieden, in plaats van de ware 3D-identiteit te behouden. Het bereiken van echte 3D-bewuste customizatie blijft een uitdaging vanwege de schaarste aan multi-view videodatasets. Hoewel men zou kunnen proberen modellen af te stemmen op beperkte videosequenties, leidt dit vaak tot temporele overfitting. Om deze problemen op te lossen, introduceren we een nieuw framework voor 3D-bewuste videocustomizatie, bestaande uit 3DreamBooth en 3Dapter. 3DreamBooth ontkoppelt ruimtelijke geometrie van temporele beweging via een 1-frame optimalisatieparadigma. Door updates te beperken tot ruimtelijke representaties, wordt een robuuste 3D-prior effectief in het model gebakken zonder uitgebreide training op basis van video. Om fijnmazige texturen te verbeteren en convergentie te versnellen, integreren we 3Dapter, een visuele conditioneringmodule. Na pre-training met één gezichtspunt ondergaat 3Dapter multi-view gezamenlijke optimalisatie met de hoofdgeneratietak via een asymmetrische conditioneringstrategie. Dit ontwerp stelt de module in staat om te fungeren als een dynamische selectieve router, die viewspecifieke geometrische aanwijzingen opvraagt vanuit een minimale referentieset. Projectpagina: https://ko-lani.github.io/3DreamBooth/

FASTER: Een nieuwe kijk op real-time flow VLAs
FASTER: Rethinking Real-Time Flow VLAs

Mar 19

ByYuxiang Lu, Zhe Liu, Xianzhe Fan, Zhenya Yang, Jinghua Hou, Junyi Li, Kaixin Ding, Hengshuang Zhao

Real-time uitvoering is cruciaal voor de inzet van Vision-Language-Action (VLA)-modellen in de fysieke wereld. Bestaande asynchrone inferentiemethoden optimaliseren voornamelijk de vloeiendheid van trajecten, maar verwaarlozen de kritieke latentie bij het reageren op veranderingen in de omgeving. Door het begrip 'reactie' in actie-chunking-beleid opnieuw te bezien, presenteert dit artikel een systematische analyse van de factoren die de reactietijd bepalen. Wij tonen aan dat de reactietijd een uniforme verdeling volgt die gezamenlijk wordt bepaald door de 'Time to First Action' (TTFA) en de uitvoeringshorizon. Bovendien laten wij zien dat de standaardpraktijk van het toepassen van een constant schema in flow-gebaseerde VLA's inefficiënt kan zijn en het systeem dwingt om alle samplingstappen te voltooien voordat enige beweging kan beginnen, wat de bottleneck vormt in de reactielatentie. Om dit probleem te overwinnen, stellen wij Fast Action Sampling for ImmediaTE Reaction (FASTER) voor. Door een Horizon-Aware Schedule in te voeren, geeft FASTER adaptief prioriteit aan kortetermijnacties tijdens flow-sampling, waardoor het ontruisen van de onmiddellijke reactie vertienvoudigd wordt (bijv. in π_{0.5} en X-VLA) tot een enkele stap, terwijl de kwaliteit van het traject op lange termijn behouden blijft. In combinatie met een streaming client-serverpijplijn vermindert FASTER de effectieve reactielatentie op echte robots aanzienlijk, vooral bij inzet op consumenten-GPU's. Experimenten in de echte wereld, waaronder een hoogdynamische tafeltennistaak, bewijzen dat FASTER een ongekende real-time responsiviteit mogelijk maakt voor generalistische beleidsregels, waardoor snelle generatie van nauwkeurige en vloeiende trajecten mogelijk wordt.

Nemotron-Cascade 2: Post-Training van LLM's met Cascade RL en Multi-Domein On-Policy Distillatie
Nemotron-Cascade 2: Post-Training LLMs with Cascade RL and Multi-Domain On-Policy Distillation

Mar 19

ByZhuolin Yang, Zihan Liu, Yang Chen, Wenliang Dai, Boxin Wang, Sheng-Chieh Lin, Chankyu Lee, Yangyi Chen, Dongfu Jiang, Jiafan He, Renjie Pi, Grace Lam, Nayeon Lee, Alexander Bukharin, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

Wij introduceren Nemotron-Cascade 2, een open 30B MoE-model met 3B geactiveerde parameters dat een eersteklas redeneervermogen en sterke agent-capaciteiten biedt. Ondanks zijn compacte formaat benadert zijn prestaties op het gebied van wiskundig en programmeerredeneren die van frontier open-modellen. Het is het tweede open-weight LLM, na DeepSeekV3.2-Speciale-671B-A37B, dat een goudenmedaille-prestatie behaalt in de Internationale Wiskunde Olympiade (IMO) van 2025, de Internationale Olympiade in Informatica (IOI) en de ICPC World Finals, wat een opmerkelijk hoge intelligentiedichtheid aantoont met 20x minder parameters. In tegenstelling tot Nemotron-Cascade 1 zijn de belangrijkste technische verbeteringen als volgt. Na SFT op een zorgvuldig samengestelde dataset breiden we Cascade RL aanzienlijk uit om een veel breder spectrum aan redeneer- en agent-domeinen te bestrijken. Verder introduceren we multi-domein on-policy distillatie vanuit de sterkste intermediare leraarmodellen voor elk domein gedurende het gehele Cascade RL-proces, waardoor we benchmark-regressies efficiënt kunnen herstellen en sterke prestatieverbeteringen onderweg kunnen behouden. Wij publiceren de verzameling modelcheckpoints en trainingsdata.

Memento-Skills: Laat Agents Agents Ontwerpen
Memento-Skills: Let Agents Design Agents

Mar 19

ByHuichi Zhou, Siyuan Guo, Anjie Liu, Zhongwei Yu, Ziqin Gong, Bowen Zhao, Zhixun Chen, Menglong Zhang, Yihang Chen, Jinsong Li, Runyu Yang, Qiangbin Liu, Xinlei Yu, Jianmin Zhou, Na Wang, Chunyang Sun, Jun Wang

Wij introduceren Memento-Skills, een generalistisch, continu leerbaar LLM-agentensysteem dat functioneert als een agent-ontwerpende agent: het construeert, past aan en verbetert autonoom taakspecifieke agenten op basis van ervaring. Het systeem is gebouwd op een op geheugen gebaseerd reinforcement learning-raamwerk met stateful prompts, waarbij herbruikbare skills (opgeslagen als gestructureerde markdown-bestanden) dienen als persistent, evoluerend geheugen. Deze skills coderen zowel gedrag als context, waardoor de agent kennis kan meenemen tussen interacties. Uitgaande van eenvoudige elementaire skills (zoals zoeken op het web en terminaloperaties), verbetert de agent zich continu via het Read-Write Reflective Learning-mechanisme geïntroduceerd in Memento~2~wang2025memento2. In de leesfase selecteert een gedragstrainable skill router de meest relevante skill op basis van de huidige stateful prompt; in de schrijffase werkt de agent zijn skillbibliotheek bij en breidt deze uit op basis van nieuwe ervaring. Dit gesloten ontwerp maakt continu leren mogelijk zonder de LLM-parameters bij te werken, aangezien alle aanpassing wordt gerealiseerd door de evolutie van geëxternaliseerde skills en prompts. In tegenstelling tot eerdere benaderingen die afhankelijk zijn van door mensen ontworpen agenten, stelt Memento-Skills een generalistische agent in staat end-to-end agenten te ontwerpen voor nieuwe taken. Door iteratieve skillgeneratie en -verfijning verbetert het systeem zijn eigen capaciteiten progressief. Experimenten op de General AI Assistants-benchmark en Humanity's Last Exam tonen aanhoudende verbeteringen aan, met respectievelijk 26,2% en 116,2% relatieve verbetering in algehele nauwkeurigheid. Code is beschikbaar op https://github.com/Memento-Teams/Memento-Skills.

Overbrugging van Semantische en Kinematische Condities met een Op Diffusie Gebaseerde Discrete Bewegingstokenizer
Bridging Semantic and Kinematic Conditions with Diffusion-based Discrete Motion Tokenizer

Mar 19

ByChenyang Gu, Mingyuan Zhang, Haozhe Xie, Zhongang Cai, Lei Yang, Ziwei Liu

Eerdere methoden voor het genereren van beweging volgden grotendeels twee paradigma's: continue diffusiemodellen die uitblinken in kinematische controle, en discrete token-gebaseerde generatoren die effectief zijn voor semantische conditionering. Om hun sterke punten te combineren, stellen we een driedelig framework voor dat bestaat uit conditioneringsextractie (Perceptie), generatie van discrete tokens (Planning) en diffusiegebaseerde bewegingssynthese (Controle). Centraal in dit framework staat MoTok, een diffusiegebaseerde discrete bewegingstokenizer die semantische abstractie ontkoppelt van fijnmazige reconstructie door het herstel van beweging over te laten aan een diffusiedecoder. Hierdoor zijn compacte tokens met één laag mogelijk, terwijl de bewegingskwaliteit behouden blijft. Voor kinematische condities sturen grove beperkingen de token-generatie tijdens de planning, terwijl fijnmazige beperkingen worden afgedwongen tijdens de controle via diffusiegebaseerde optimalisatie. Dit ontwerp voorkomt dat kinematische details de semantische token-planning verstoren. Op HumanML3D verbetert onze methode de bestuurbaarheid en kwaliteit aanzienlijk ten opzichte van MaskControl, terwijl slechts een zesde van de tokens wordt gebruikt. De trajectfout daalt van 0,72 cm naar 0,08 cm en de FID van 0,083 naar 0,029. In tegenstelling tot eerdere methoden die verslechteren onder sterkere kinematische beperkingen, verbetert onze methode de kwaliteit, met een daling van de FID van 0,033 naar 0,014.

MonoArt: Progressieve Structurele Redenering voor Monoculaire Gearticuleerde 3D-reconstructie
MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

Mar 19

ByHaitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu

Het reconstrueren van gearticuleerde 3D-objecten uit een enkele afbeelding vereist het gezamenlijk afleiden van de objectgeometrie, deelstructuur en bewegingsparameters op basis van beperkte visuele informatie. Een belangrijke moeilijkheid schuilt in de verstrengeling tussen bewegingsaanwijzingen en objectstructuur, wat directe regressie van articulatie instabiel maakt. Bestaande methoden pakken deze uitdaging aan via multi-view supervisie, op retrieval gebaseerde assemblage, of de generatie van hulpvideo's, waarbij vaak schaalbaarheid of efficiëntie wordt opgeofferd. Wij presenteren MonoArt, een uniform raamwerk gebaseerd op progressieve structurele redenering. In plaats van articulatie rechtstreeks uit beeldkenmerken te voorspellen, transformeert MonoArt visuele waarnemingen progressief in canonieke geometrie, gestructureerde deelrepresentaties en bewegingbewuste embeddingen binnen een enkele architectuur. Dit gestructureerde redeneerproces maakt stabiele en interpreteerbare articulatie-inferentie mogelijk zonder externe bewegingssjablonen of meerstappenpijplijnen. Uitgebreide experimenten op PartNet-Mobility tonen aan dat MonoArt state-of-the-art prestaties bereikt op zowel reconstructienauwkeurigheid als inferentiesnelheid. Het raamwerk generaliseert verder naar robotmanipulatie en de reconstructie van gearticuleerde scènes.

Kubische Discrete Diffusie: Discrete Visuele Generatie op Hoogdimensionale Representatietokens
Cubic Discrete Diffusion: Discrete Visual Generation on High-Dimensional Representation Tokens

Mar 19

ByYuqing Wang, Chuofan Ma, Zhijie Lin, Yao Teng, Lijun Yu, Shuai Wang, Jiaming Han, Jiashi Feng, Yi Jiang, Xihui Liu

Visuele generatie met discrete tokens heeft aanzienlijke aandacht gekregen, omdat het een uniform voorspelingsparadigma voor tokens mogelijk maakt dat gedeeld wordt met taalmodellen, wat naadloze multimodale architecturen belooft. Huidige methoden voor discrete generatie blijven echter beperkt tot tokens in een latente ruimte met lage dimensionaliteit (typisch 8-32 dimensies), waarbij de semantische rijkdom die essentieel is voor begrip wordt opgeofferd. Hoogdimensionale voorgetrainde representaties (768-1024 dimensies) deze kloof zouden kunnen overbruggen, maar hun discrete generatie vormt fundamentele uitdagingen. In dit artikel presenteren we Cubic Discrete Diffusion (CubiD), het eerste discrete generatiemodel voor hoogdimensionale representaties. CubiD voert fijnmazige masking uit over de gehele hoogdimensionale discrete representatie – elke dimensie op elke positie kan worden gemaskeerd en voorspeld op basis van gedeeltelijke observaties. Hierdoor kan het model rijke correlaties leren, zowel binnen als tussen ruimtelijke posities, waarbij het aantal generatiestappen vaststaat op T, onafhankelijk van de feature-dimensionaliteit, waarbij T ll hwd. Op ImageNet-256 behaalt CubiD state-of-the-art discrete generatie met een sterke schaalbaarheid van 900M tot 3,7B parameters. Cruciaal is dat we valideren dat deze gediscretiseerde tokens de oorspronkelijke representatiecapaciteiten behouden, wat aantoont dat dezelfde discrete tokens effectief kunnen dienen voor zowel begrips- als generatietaken. We hopen dat dit werk toekomstig onderzoek naar verenigde multimodale architecturen zal inspireren. Code is beschikbaar op: https://github.com/YuqingWang1029/CubiD.

LVOmniBench: Baanbrekende evaluatie van lang audiovisueel begrip voor omnimodale LLM's
LVOmniBench: Pioneering Long Audio-Video Understanding Evaluation for Omnimodal LLMs

Mar 19

ByKeda Tao, Yuhua Zheng, Jia Xu, Wenjie Du, Kele Shao, Hesong Wang, Xueyi Chen, Xin Jin, Junhan Zhu, Bohan Yu, Weiqiang Wang, Jian Liu, Can Qin, Yulun Zhang, Ming-Hsuan Yang, Huan Wang

Recente ontwikkelingen in omnimodale grote taalmodellen (OmniLLM's) hebben het begrip van audio- en videobestanden aanzienlijk verbeterd. Huidige evaluaties richten zich echter voornamelijk op korte audio- en videofragmenten van 10 seconden tot 5 minuten, waardoor ze niet voldoen aan de eisen van praktijktoepassingen, waar video's doorgaans tientallen minuten duren. Om dit kritieke hiaat te adresseren, introduceren we LVOmniBench, een nieuwe benchmark die specifiek is ontworpen voor de kruismodale begripsvorming van lange audio- en videoformats. Deze dataset omvat hoogwaardige video's afkomstig van open platformen, die rijke audiovisuele dynamiek vertonen. Via rigoureuze handmatige selectie en annotatie bestaat LVOmniBench uit 275 video's met een duur van 10 tot 90 minuten en 1.014 vraag-antwoordparen (QA-paren). LVOmniBench heeft tot doel de capaciteiten van OmniLLM's grondig te evalueren op domeinen zoals langetermijngeheugen, temporele lokalisatie, fijnmazig begrip en multimodale perceptie. Onze uitgebreide evaluatie toont aan dat huidige OmniLLM's aanzienlijke uitdagingen ondervinden bij het verwerken van uitgebreide audiovisuele invoer. Open-source modellen behalen over het algemeen nauwkeurigheden onder de 35%, terwijl de Gemini 3 Pro een pieknauwkeurigheid van ongeveer 65% bereikt. Wij verwachten dat deze dataset, samen met onze empirische bevindingen, verder onderzoek en de ontwikkeling van geavanceerde modellen zal stimuleren die in staat zijn complexe kruismodale begripsproblemen in lange audiovisuele contexten op te lossen.

F2LLM-v2: Inclusieve, Prestatiegerichte en Efficiënte Embeddings voor een Meertalige Wereld
F2LLM-v2: Inclusive, Performant, and Efficient Embeddings for a Multilingual World

Mar 19

ByZiyin Zhang, Zihan Liao, Hang Yu, Peng Di, Rui Wang

Wij presenteren F2LLM-v2, een nieuwe familie van algemeen inzetbare, meertalige embeddingmodellen in 8 verschillende groottes, variërend van 80M tot 14B parameters. Getraind op een nieuw samengestelde dataset van 60 miljoen publiek beschikbare, hoogwaardige datapunten, ondersteunt F2LLM-v2 meer dan 200 talen, met bijzondere aandacht voor eerder onderbedeelde midden- en laag-resourcetalen. Door een tweefasig trainingsproces op basis van LLM's te integreren met matroesjka-learning, modelpruning en kennisdistillatie, presenteren we modellen die aanzienlijk efficiënter zijn dan eerdere LLM-gebaseerde embeddingmodellen, terwijl ze competitieve prestaties behouden. Uitgebreide evaluaties bevestigen dat F2LLM-v2-14B de eerste plaats inneemt op 11 MTEB-benchmarks, terwijl de kleinere modellen in de familie eveneens een nieuwe staat-van-de-kunst vestigen voor toepassingen met beperkte resources. Om onderzoek naar open-source-embeddingmodellen te bevorderen, maken wij alle modellen, data, code en tussentijdse checkpoints openbaar.

ReactMotion: Het Genereren van Reactieve Luisteraar Bewegingen vanuit Spraak van de Spreker
ReactMotion: Generating Reactive Listener Motions from Speaker Utterance

Mar 16

ByCheng Luo, Bizhu Wu, Bing Li, Jianfeng Ren, Ruibin Bai, Rong Qu, Linlin Shen, Bernard Ghanem

In dit artikel introduceren we een nieuwe taak: het genereren van reactieve luisteraarbewegingen op basis van sprekeruitspraken. Het doel is om realistische lichaamsbewegingen van de luisteraar te genereren die passend reageren op de uitspraak van een spreker. Het modelleren van dergelijke non-verbale luisteraargedragingen blijft echter onderbelicht en uitdagend vanwege de inherent niet-deterministische aard van menselijke reacties. Om deze taak te vergemakkelijken, presenteren we ReactMotionNet, een grootschalige dataset waarin sprekeruitspraken worden gekoppeld aan meerdere kandidaat-bewegingen van luisteraars, geannoteerd met verschillende gradaties van geschiktheid. Dit datasetontwerp vangt expliciet de één-op-veel-relatie van luisteraargedrag op en biedt meer supervisie dan een enkele grondwaarheid-beweging. Voortbordurend op dit datasetontwerp ontwikkelen we voorkeursgerichte evaluatieprotocollen die zijn toegesneden om de reactieve geschiktheid te beoordelen, waarbij conventionele bewegingsmetrieken die focussen op input-bewegingsalignering tekortschieten. We stellen verder ReactMotion voor, een verenigd generatief framework dat tekst, audio, emotie en beweging gezamenlijk modelleert en wordt getraind met op voorkeuren gebaseerde doelen om zowel passende als diverse luisteraarsreacties aan te moedigen. Uitgebreide experimenten tonen aan dat ReactMotion retrieval-baselines en gecascadeerde, op LLM gebaseerde pijplijnen overtreft, en natuurlijkere, diversere en geschiktere luisteraarsbewegingen genereert.

AndroTMem: Van interactietrajecten naar verankerd geheugen in GUI-agents voor lange-termijntaken
AndroTMem: From Interaction Trajectories to Anchored Memory in Long-Horizon GUI Agents

Mar 19

ByYibo Shi, Jungang Li, Linghao Zhang, Zihao Dongfang, Biao Wu, Sicheng Tao, Yibo Yan, Chenxi Qin, Weiting Liu, Zhixin Lin, Hanqian Li, Yu Huang, Song Dai, Yonghua Hei, Yue Ding, Xiang Li, Shikang Wang, Chengdong Xu, Jingqi Liu, Xueying Ma, Zhiwen Zheng, Xiaofei Zhang, Bincheng Wang, Nichen Yang, Jie Wu, Lihua Tian, Chen Li, Xuming Hu

Langetermijn-GUI-agenten zijn een cruciale stap naar praktijkimplementatie, maar effectief interactiegeheugen binnen heersende paradigma's blijft onderbelicht. Het volledig herhalen van interactiesequenties is redundant en versterkt ruis, terwijl samenvattingen vaak afhankelijkheidskritieke informatie en traceerbaarheid wissen. Wij presenteren AndroTMem, een diagnostisch raamwerk voor verankerd geheugen in langetermijn Android-GUI-agenten. De kernbenchmark, AndroTMem-Bench, omvat 1.069 taken met 34.473 interactiestappen (gem. 32,1 per taak, max. 65). Wij evalueren agenten met TCR (Task Complete Rate), gericht op taken waarvan voltooiing het meenemen van kritieke tussentijdse toestanden vereist; AndroTMem-Bench is ontworpen om sterke stap-voor-stap causale afhankelijkheden af te dwingen, waardoor schaarse maar essentiële tussentijdse toestanden beslissend zijn voor downstream-acties en interactiegeheugen centraal staat in de evaluatie. Bij zowel open- als closed-source GUI-agenten observeren we een consistent patroon: naarmate interactiesequenties langer worden, worden prestatieverliezen vooral gedreven door geheugenfouten binnen taken, niet door geïsoleerde perceptiefouten of lokale actiefouten. Geleid door deze diagnose stellen we Anchored State Memory (ASM) voor, dat interactiesequenties representeert als een compacte set causaal verbonden tussentijdse toestandsankers om subdoelgerichte retrievel en attributiebewuste besluitvorming mogelijk te maken. Over diverse settingen en 12 geëvalueerde GUI-agenten presteert ASM consistent beter dan volledige sequentiereplay en op samenvattingen gebaseerde baseline-methoden, met TCR-verbeteringen van 5%-30,16% en AMS-verbeteringen van 4,93%-24,66%, wat aantoont dat verankerd, gestructureerd geheugen het interactiegeheugenknelpunt in langetermijn-GUI-taken effectief verlicht. De code, benchmark en gerelateerde bronnen zijn openbaar beschikbaar op [https://github.com/CVC2233/AndroTMem](https://github.com/CVC2233/AndroTMem).

Cognitieve Mismatch in Multimodale Grote Taalmodellen voor het Begrip van Discrete Symbolen
Cognitive Mismatch in Multimodal Large Language Models for Discrete Symbol Understanding

Mar 19

ByYinghui Li, Jiayi Kuang, Peng Xing, Daixian Liu, Junnan Dong, Shu-Yu Guo, Yangning Li, Qingyu Zhou, Wenhao Jiang, Hai-Tao Zheng, Ying Shen, Liang Lin, Philip S. Yu

Hoewel Multimodale Grote Taalmodellen (MLLMs) opmerkelijke successen hebben geboekt in het interpreteren van natuurlijke taferelen, blijft hun vermogen om discrete symbolen – de fundamentele bouwstenen van de menselijke cognitie – te verwerken een cruciale open vraag. In tegenstelling tot continue visuele gegevens vereisen symbolen zoals wiskundige formules, chemische structuren en linguïstische karakters een precieze, diepere interpretatie. Dit artikel introduceert een uitgebreide benchmark om te evalueren hoe top-MLLMs deze "discrete semantische ruimten" navigeren binnen vijf domeinen: taal, cultuur, wiskunde, natuurkunde en scheikunde. Ons onderzoek legt een contra-intuïtief fenomeen bloot: modellen falen vaak in basale symboolherkenning, maar slagen wel in complexe redeneertaken, wat suggereert dat ze vertrouwen op linguïstische waarschijnlijkheid in plaats van op echt visueel perceptievermogen. Door deze "cognitieve mismatch" bloot te leggen, belichten we een significante kloof in de huidige AI-capaciteiten: de moeite om de symbolische talen die ten grondslag liggen aan wetenschappelijke ontdekkingen en abstract denken, werkelijk waar te nemen en te begrijpen. Dit werk biedt een routekaart voor de ontwikkeling van meer rigoureuze, op de mens afgestemde intelligente systemen.

VTC-Bench: Evaluatie van Agentische Multimodale Modellen via Compositionele Visuele Toolketen
VTC-Bench: Evaluating Agentic Multimodal Models via Compositional Visual Tool Chaining

Mar 16

ByXuanyu Zhu, Yuhao Dong, Rundong Wang, Yang Shi, Zhipeng Wu, Yinlun Peng, YiFan Zhang, Yihang Lou, Yuanxing Zhang, Ziwei Liu, Yan Bai, Yuan Zhou

Recente ontwikkelingen breiden Multimodale Large Language Models (MLLM's) uit voorbij standaard visuele vraag-antwoordtaken naar het gebruik van externe tools voor geavanceerde visuele taken. Ondanks deze vooruitgang blijven het nauwkeurig uitvoeren en effectief combineren van diverse tools voor complexe taken een hardnekkig knelpunt. Beperkt door schaarse tool-sets en eenvoudige tool-gebruikstrajecten, slagen bestaande benchmarks er niet in om complexe en diverse toolinteracties vast te leggen, en schieten ze tekort in het evalueren van modelprestaties onder praktische, real-world omstandigheden. Om deze kloof te overbruggen, introduceren we VisualToolChain-Bench (VTC-Bench), een uitgebreide benchmark ontworpen om de tool-gebruiksvaardigheid van MLLM's te evalueren. Om aan te sluiten bij realistische computer vision-pipelines, bevat ons framework 32 diverse visuele operaties gebaseerd op OpenCV. Deze rijke tool-set maakt uitgebreide combinaties mogelijk, waardoor VTC-Bench multi-toolcompositie en de uitvoering van langetermijn-, meerstappenplannen rigoureus kan beoordelen. Voor een nauwkeurige evaluatie bieden we 680 geselecteerde problemen, gestructureerd volgens een cognitieve hiërarchie van negen categorieën, elk met grond-waarheid-uitvoeringstrajecten. Uitgebreide experimenten met 19 toonaangevende MLLM's onthullen kritieke beperkingen in de huidige visuele agent-capaciteiten van modellen. Specifiek hebben modellen moeite om zich aan te passen aan diverse tool-sets en te generaliseren naar onbekende operaties, waarbij het leidende model Gemini-3.0-Pro slechts 51% behaalt op onze benchmark. Bovendien blijft multi-toolcompositie een hardnekkige uitdaging. Bij complexe taken slagen modellen er niet in om efficiënte uitvoeringsplannen te formuleren; ze vertrouwen zwaar op een kleine, suboptimale subset van bekende functies in plaats van de optimale tools te selecteren. Door deze fundamentele uitdagingen te identificeren, legt VTC-Bench een rigoureuze basislijn om de ontwikkeling van meer gegeneraliseerde visuele agent-modellen te sturen.

EffectErase: Gezamenlijke verwijdering en invoeging van video-objecten voor hoogwaardig wissen van effecten
EffectErase: Joint Video Object Removal and Insertion for High-Quality Effect Erasing

Mar 19

ByYang Fu, Yike Zheng, Ziyun Dai, Henghui Ding

Het verwijderen van objecten uit video's heeft als doel dynamische doelobjecten en hun visuele effecten, zoals vervorming, schaduwen en reflecties, te elimineren, terwijl naadloze achtergronden worden hersteld. Recente op diffusie gebaseerde methoden voor video-inpainting en objectverwijdering kunnen de objecten wel verwijderen, maar hebben vaak moeite om deze effecten uit te wissen en samenhangende achtergronden te synthetiseren. Naast methodologische beperkingen wordt de vooruitgang verder belemmerd door het ontbreken van een uitgebreide dataset die gemeenschappelijke objecteffecten in verschillende omgevingen systematisch vastlegt voor training en evaluatie. Om dit aan te pakken, introduceren we VOR (Video Object Removal), een grootschalige dataset die diverse gepaarde video's biedt. Elke paar bestaat uit een video waarin het doelobject met zijn effecten aanwezig is, en een tegenhanger waarin het object en de effecten afwezig zijn, met bijbehorende objectmaskers. VOR bevat 60.000 hoogwaardige videoparen uit opgenomen en synthetische bronnen, bestrijkt vijf type effecten, en omvat een breed scala aan objectcategorieën evenals complexe, dynamische multi-objectscènes. Op basis van VOR stellen we EffectErase voor, een effectbewuste methode voor het verwijderen van objecten uit video's, die het invoegen van video-objecten behandelt als de inverse hulptaak binnen een wederkerig leerprogramma. Het model omvat taakbewuste regioguidance die het leren richt op beïnvloede gebieden en flexibele taakwisseling mogelijk maakt. Vervolgens een consistentiedoelstelling voor invoegen-verwijderen die complementair gedrag en gedeelde lokalisatie van effectgebieden en structurele aanwijzingen bevordert. Getraind op VOR behaalt EffectErase superieure prestaties in uitgebreide experimenten en levert hoogwaardige uitwissing van video-objecteffecten in diverse scenario's.

SimulU: Trainingsvrije strategie voor langdurige simultane spraak-naar-spraakvertaling
SimulU: Training-free Policy for Long-form Simultaneous Speech-to-Speech Translation

Mar 11

ByAmirbek Djanibekov, Luisa Bentivogli, Matteo Negri, Sara Papi

Simultane spraak-naar-spraakvertaling (SimulS2S) is essentieel voor realtime meertalige communicatie en wordt steeds vaker geïntegreerd in vergader- en streamingplatforms. Desondanks blijft SimulS2S onderbelicht in onderzoek, waarbij huidige oplossingen vaak steunen op resource-intensieve trainingsprocedures en werken op korte, vooraf gesegmenteerde uitingen, wat generalisatie naar continue spraak verhindert. Om deze kloof te overbruggen, stellen wij SimulU voor, het eerste trainingsvrije beleid voor lange-vorm SimulS2S. SimulU hanteert geschiedenisbeheer- en spraakuitvoerselectiestrategieën die cross-attentie in voorgetrainde end-to-end-modellen benutten om zowel invoergeschiedenis als uitvoergeneratie te reguleren. Evaluaties op MuST-C in 8 talen tonen aan dat SimulU een betere of vergelijkbare kwaliteit-latentiebalans bereikt ten opzichte van sterke gecascadeerde modellen. Door de behoefte aan ad-hoc training te elimineren, biedt SimulU een veelbelovend pad naar end-to-end SimulS2S in realistische, lange-vorm scenario's.

Gekleurde Kaders: Hoe Vraagformulering Vision-Language-Modellen Verblindt
Tinted Frames: Question Framing Blinds Vision-Language Models

Mar 19

ByWan-Cyuan Fan, Jiayun Luo, Declan Kutscher, Leonid Sigal, Ritwik Gupta

Vision-Language Models (VLMs) blijken blind te zijn; ze benutten hun visuele invoer vaak onvoldoende, zelfs bij taken die visueel redeneren vereisen. In dit werk tonen we aan dat VLMs selectief blind zijn. Ze moduleren de hoeveelheid aandacht die aan visuele invoer wordt besteed op basis van linguïstische formulering, zelfs wanneer alternatieve formuleringen een identiek visueel redeneren vereisen. Door visuele aandacht als meetinstrument te gebruiken, kwantificeren we hoe formulering zowel de hoeveelheid als de verdeling van de aandacht over de afbeelding verandert. Beperkende formuleringen, zoals meerkeuzevragen en ja/nee-vragen, leiden tot aanzienlijk minder aandacht voor de beeldcontext in vergelijking met open-einde vragen, verminderen de focus op taakrelevante regio's en verleggen de aandacht naar niet-informatieve tokens. We tonen verder aan dat deze verkeerde aandachtstoewijzing de voornaamste oorzaak is van verminderde nauwkeurigheid en inconsistentie tussen verschillende formuleringen. Voortbouwend op dit mechanistische inzicht introduceren we een lichtgewicht prompt-tuning methode met leerbare tokens die de robuuste, visueel verankerde aandachtspatronen stimuleert die worden waargenomen in open-einde settings, wat de visuele verankering verbetert en de prestaties over verschillende formuleringen heen verbetert.

Loc3R-VLM: Taalgebaseerde Lokalisatie en 3D-redenering met Vision-Language-modellen
Loc3R-VLM: Language-based Localization and 3D Reasoning with Vision-Language Models

Mar 18

ByKevin Qu, Haozhe Qi, Mihai Dusmanu, Mahdi Rad, Rui Wang, Marc Pollefeys

Multimodale Large Language Models (MLLM's) hebben indrukwekkende vooruitgang geboekt in het verbinden van visie en taal, maar ze worstelen nog steeds met ruimtelijk begrip en gezichtspuntbewust redeneren. Recente inspanningen zijn erop gericht de invoerrepresentaties aan te vullen met geometrische aanwijzingen in plaats van modellen expliciet te leren redeneren in 3D-ruimte. Wij introduceren Loc3R-VLM, een raamwerk dat 2D Vision-Language Models uitrust met geavanceerde 3D-begripcapaciteiten op basis van monocular video-invoer. Geïnspireerd door de menselijke ruimtelijke cognitie, steunt Loc3R-VLM op twee gezamenlijke doelstellingen: globale lay-outreconstructie om een holistische representatie van de scènestructuur op te bouwen, en expliciete situatiemodellering om het egocentrische perspectief te verankeren. Deze doelstellingen bieden directe ruimtelijke supervisie die zowel perceptie als taal verankert in een 3D-context. Om geometrische consistentie en metrieke-schaaluitlijning te waarborgen, maken we gebruik van lichtgewicht camera-pose-priors die zijn geëxtraheerd uit een vooraf getraind 3D-foundationmodel. Loc3R-VLM behaalt state-of-the-art prestaties in op taal gebaseerde lokalisatie en overtreft bestaande 2D- en videogebaseerde benaderingen op gesitueerde en algemene 3D-vraag-antwoordbenchmarks, wat aantoont dat ons ruimtelijk supervisieraamwerk een sterk 3D-begrip mogelijk maakt. Projectpagina: https://kevinqu7.github.io/loc3r-vlm

MOSS-TTS Technisch Rapport
MOSS-TTS Technical Report

Mar 18

ByYitian Gong, Botian Jiang, Yiwei Zhao, Yucheng Yuan, Kuangwei Chen, Yaozhou Jiang, Cheng Chang, Dong Hong, Mingshu Chen, Ruixiao Li, Yiyang Zhang, Yang Gao, Hanfu Chen, Ke Chen, Songlin Wang, Xiaogui Yang, Yuqian Zhang, Kexin Huang, ZhengYuan Lin, Kang Yu, Ziqi Chen, Jin Wang, Zhaoye Fei, Qinyuan Cheng, Shimin Li, Xipeng Qiu

Dit technisch rapport presenteert MOSS-TTS, een foundation-model voor spraakgeneratie dat is gebouwd op een schaalbare methodologie: discrete audiokens, autoregressieve modellering en grootschalige voorafgaande training. Gebaseerd op MOSS-Audio-Tokenizer, een causale Transformer-tokenizer die 24 kHz-audio comprimeert naar 12,5 fps met variabele bitrate RVQ en verenigde semantisch-akoestische representaties, lanceren we twee complementaire generatoren: MOSS-TTS, dat de nadruk legt op structurele eenvoud, schaalbaarheid en inzet voor lange context/controle, en MOSS-TTS-Local-Transformer, dat een frame-lokaal autoregressief module introduceert voor hogere modellerings-efficiëntie, sterkere sprekersbehoud en een kortere tijd tot de eerste audio. In multilinguale en open-domein settings ondersteunt MOSS-TTS zero-shot stemcloning, token-level duurcontrole, foneem-/pinyin-level uitspraakcontrole, vloeiende code-switching en stabiele lange-vorm generatie. Dit rapport vat het ontwerp, de trainingsmethodologie en de empirische kenmerken van de vrijgegeven modellen samen.

Matroesjka Gaussische Splatting
Matryoshka Gaussian Splatting

Mar 19

ByZhilin Guo, Boqiao Zhang, Hakan Aktas, Kyle Fogarty, Jeffrey Hu, Nursena Koprucu Aslan, Wenzhao Li, Canberk Baykal, Albert Miao, Josef Bengtson, Chenliang Zhou, Weihao Xia, Cristina Nader Vasconcelos. Cengiz Oztireli

De mogelijkheid om scènes met instelbare nauwkeurigheid weer te geven vanuit een enkel model, bekend als level of detail (LoD), is cruciaal voor de praktische inzet van 3D Gaussian Splatting (3DGS). Bestaande discrete LoD-methoden bieden slechts een beperkte set werkpunten, terwijl gelijktijdige continue LoD-benaderingen soepelere schaling mogelijk maken maar vaak te lijden hebben onder merkbare kwaliteitsvermindering op volle capaciteit, waardoor LoD een kostbaar ontwerpbesluit wordt. Wij introduceren Matryoshka Gaussian Splatting (MGS), een trainingsraamwerk dat continue LoD mogelijk maakt voor standaard 3DGS-pipelines zonder in te leveren op de weergavekwaliteit op volle capaciteit. MGS leert een enkele geordende set Gauss-functies, zodanig dat het renderen van elk voorvoegsel – de eerste *k* splats – een coherente reconstructie oplevert waarvan de nauwkeurigheid soepel verbetert met een toenemend budget. Onze kernidee is stochastische budgettraining: elke iteratie samplet een willekeurig splat-budget en optimaliseert zowel het bijbehorende voorvoegsel als de volledige set. Deze strategie vereist slechts twee voorwaartse passes en introduceert geen architecturale aanpassingen. Experimenten over vier benchmarks en zes basislijnen tonen aan dat MGS de prestatie op volle capaciteit van zijn backbone evenaart, terwijl het een continue snelheid-kwaliteit afweging mogelijk maakt vanuit een enkel model. Uitgebreide ablatiestudies naar ordeningsstrategieën, trainingsdoelstellingen en modelcapaciteit valideren de ontwerpen verder.

ProRL Agent: Rollout-als-een-Service voor RL-training van Multi-Turn LLM-agents
ProRL Agent: Rollout-as-a-Service for RL Training of Multi-Turn LLM Agents

Mar 19

ByHao Zhang, Mingjie Liu, Shaokun Zhang, Songyang Han, Jian Hu, Zhenghui Jin, Yuchi Zhang, Shizhe Diao, Ximing Lu, Binfeng Xu, Zhiding Yu, Jan Kautz, Yi Dong

Multi-turn LLM-agents worden steeds belangrijker voor het oplossen van complexe, interactieve taken, en reinforcement learning (RL) is een cruciale component voor het verbeteren van hun gedrag op lange termijn. RL-training vereist echter het genereren van een groot aantal gesandboxte rollout-trajecten, en bestaande infrastructuren koppelen de orchestratie van rollouts vaak aan de trainingslus, wat systemen moeilijk migreerbaar en onderhoudbaar maakt. In lijn met de filosofie van rollout-as-a-service presenteren we **ProRL Agent**, een schaalbare infrastructuur die de volledige agent-rollout levenscyclus aanbiedt via een API-service. ProRL Agent biedt ook gestandaardiseerde en uitbreidbare sandbox-omgevingen die diverse agenttaken ondersteunen in rootless HPC-omgevingen. We valideren ProRL Agent via RL-training op taken voor software-engineering, wiskunde, STEM en programmeren. ProRL Agent is open-source en geïntegreerd als onderdeel van NVIDIA NeMo Gym.

MHPO: Gemoduleerd Gevaarbewust Beleidsoptimalisatie voor Stabiele Versterkingsleren
MHPO: Modulated Hazard-aware Policy Optimization for Stable Reinforcement Learning

Mar 14

ByHongjun Wang, Wei Liu, Weibo Gu, Xing Sun, Kai Han

Het reguleren van de belangrijkheidsratio is cruciaal voor de trainstabiliteit van op Group Relative Policy Optimization (GRPO) gebaseerde raamwerken. Heersende ratio-controlemethoden, zoals hard clipping, kampen echter met niet-differentieerbare grenzen en gebieden met verdwijnende gradiënten, waardoor ze de gradientgetrouwheid niet kunnen waarborgen. Bovendien ontbreekt bij deze methoden een gevaarbewust mechanisme om extreme deviaties adaptief te onderdrukken, waardoor het optimalisatieproces kwetsbaar blijft voor abrupte beleidswijzigingen. Om deze uitdagingen aan te pakken, stellen we Modulated Hazard-aware Policy Optimization (MHPO) voor, een nieuw raamwerk ontworpen voor robuuste en stabiele reinforcement learning. De voorgestelde MHPO introduceert een Log-Fidelity Modulator (LFM) om onbegrensde belangrijkheidsratio's af te beelden naar een begrensd, differentieerbaar domein. Dit mechanisme voorkomt effectief dat uitschieters met hoge variantie het verlieslandschap destabiliseren, terwijl tegelijkertijd globale gradientstabiliteit wordt gegarandeerd. Complementair hieraan integreert een Decoupled Hazard Penalty (DHP) cumulatieve hazardfuncties uit de overlevingsanalyse om positieve en negatieve beleidswijzigingen onafhankelijk te reguleren. Door het optimalisatielandschap te vormen met gevaarbewuste straftermen bereikt de voorgestelde MHPO een fijnmazige regulering van asymmetrische beleidswijzigingen. Het verzacht simultaan modusinstorting door overmatige expansie en voorkomt beleidserosie door catastrofale contractie binnen een gestabiliseerde vertrouwensregio. Uitgebreide evaluaties op diverse redeneerbenchmarks voor zowel tekstgebaseerde als vision-language taken tonen aan dat MHPO consistent beter presteert dan bestaande methoden, waarbij het superieure prestaties bereikt en tegelijkertijd de trainstabiliteit aanzienlijk verbetert.

OSM-gebaseerde domeinaanpassing voor remote sensing VLMs
OSM-based Domain Adaptation for Remote Sensing VLMs

Mar 12

ByStefan Maria Ailuro, Mario Markov, Mohammad Mahdi, Delyan Boychev, Luc Van Gool, Danda Pani Paudel

Vision-Language Models (VLMs) die zijn aangepast voor remote sensing zijn sterk afhankelijk van domeinspecifieke beeld-tekstsupervisie. Toch zijn hoogwaardige annotaties voor satelliet- en luchtfoto's schaars en duur om te produceren. Gangbare pseudo-labeling-pipelines overbruggen deze kloof door kennis te distilleren uit grote frontier-modellen, maar deze afhankelijkheid van grote 'teachers' is kostbaar, beperkt de schaalbaarheid en plafonneert de haalbare prestaties bij het plafond van het teacher-model. Wij stellen OSMDA voor: een zelfstandig domeinaanpassingskader dat deze afhankelijkheid opheft. Onze belangrijkste inzicht is dat een capabel basis-VLM kan dienen als zijn eigen annotatie-engine: door luchtfoto's te combineren met gerenderde OpenStreetMap (OSM)-tegels, benutten we de optische tekenherkenning en grafiekbegrip van het model om bijschriften te genereren die zijn verrijkt met de uitgebreide aanvullende metadata van OSM. Het model wordt vervolgens gefinetuned op de resulterende corpus met uitsluitend satellietbeelden, wat OSMDA-VLM oplevert, een domeinaangepaste VLM die geen handmatige labeling en geen sterker extern model vereist. We voeren uitgebreide evaluaties uit over 10 benchmarks voor beeld-tekst-naar-teksttaken en vergelijken deze met 9 competitieve baselines. Wanneer gelijkelijk gemengd met echte data, behaalt onze methode state-of-the-art resultaten, terwijl de trainingskosten aanzienlijk lager zijn dan bij teacher-afhankelijke alternatieven. Deze resultaten suggereren dat, gegeven een sterk foundation-model, afstemming op door crowdsourcing verkregen geografische data een praktische en schaalbare weg is naar domeinaanpassing voor remote sensing. De dataset en modelgewichten zullen openbaar worden gemaakt.

Redeneren over wiskundige objecten: on-policy beloningsmodellering en aggregatie tijdens testtijd
Reasoning over mathematical objects: on-policy reward modeling and test time aggregation

Mar 19

ByPranjal Aggarwal, Marjan Ghazvininejad, Seungone Kim, Ilia Kulikov, Jack Lanchantin, Xian Li, Tianjian Li, Bo Liu, Graham Neubig, Anaelia Ovalle, Swarnadeep Saha, Sainbayar Sukhbaatar, Sean Welleck, Jason Weston, Chenxi Whitehouse, Adina Williams, Jing Xu, Ping Yu, Weizhe Yuan, Jingyu Zhang, Wenting Zhao

Het nauwkeurig kunnen afleiden van wiskundige objecten is een kernvereiste voor downstream STEM-toepassingen, waaronder wiskunde, natuurkunde en scheikunde, waarbij redenering moet uitmonden in formeel gestructureerde uitdrukkingen. Toch baseren huidige evaluaties van wiskundig en wetenschappelijk redeneervermogen van taalmodelen zich sterk op vereenvoudigde antwoordformaten zoals numerieke waarden of meerkeuzeopties vanwege het gemak van geautomatiseerde beoordeling. In dit artikel leveren wij drie bijdragen ter verbetering van het redeneren over wiskundige objecten: (i) wij bouwen en publiceren trainingsdata en benchmarks voor het afleiden van wiskundige objecten, de Principia-suite; (ii) wij bieden trainingsrecepten met sterke LLM-beoordelaars en verifiers, waarbij wij aantonen dat on-policy training van beoordelaars de prestaties verbetert; (iii) wij tonen aan hoe on-policy training ook kan worden gebruikt om rekencapaciteit tijdens testtijd op te schalen via aggregatie. Wij constateren dat sterke taalmodelen zoals Qwen3-235B en o3 moeite hebben met Principia, terwijl onze trainingsrecepten significante verbeteringen kunnen brengen op verschillende LLM-backbones, tegelijkertijd de resultaten op bestaande numerieke en MCQA-taken verbeteren, wat de kruisformaatgeneralistatie van redeneervaardigheden aantoont.

Prompt-Vrije Universele Regio-Voorstelnetsel
Prompt-Free Universal Region Proposal Network

Mar 18

ByQihong Tang, Changhan Liu, Shaofeng Zhang, Wenbin Li, Qi Fan, Yang Gao

Het identificeren van potentiële objecten is cruciaal voor objectherkenning en -analyse in diverse computervisie-toepassingen. Bestaande methoden lokaliseren potentiële objecten doorgaans door te vertrouwen op voorbeeldafbeeldingen, vooraf gedefinieerde categorieën of tekstuele beschrijvingen. Hun afhankelijkheid van beeld- en tekstprompts beperkt echter vaak de flexibiliteit en past zich moeilijk aan in realistische scenario's. In dit artikel introduceren we een nieuw Prompt-Free Universal Region Proposal Network (PF-RPN), dat potentiële objecten identificeert zonder afhankelijk te zijn van externe prompts. Ten eerste voert de Sparse Image-Aware Adapter (SIA)-module een initiële lokalisatie van potentiële objecten uit met behulp van een leerbare query-embedding die dynamisch wordt bijgewerkt met visuele kenmerken. Vervolgens identificeert de Cascade Self-Prompt (CSP)-module de overige potentiële objecten door gebruik te maken van de zelf-geprompte leerbare embedding, waarbij op autonome wijze informatieve visuele kenmerken worden geaggregeerd in een cascadestructuur. Totstand faciliteert de Centerness-Guided Query Selection (CG-QS)-module de selectie van hoogwaardige query-embeddings met behulp van een centerness-scoringnetwerk. Onze methode kan worden geoptimaliseerd met beperkte data (bijvoorbeeld 5% van MS COCO-data) en direct worden toegepast op diverse toepassingsdomeinen voor objectdetectie zonder fine-tuning, zoals onderwaterobjectdetectie, detectie van industriële defecten en objectdetectie in remote sensing-beelden. Experimentele resultaten op 19 datasets valideren de effectiviteit van onze methode. Code is beschikbaar op https://github.com/tangqh03/PF-RPN.

VID-AD: Een dataset voor logische anomaliedetectie op beeldniveau onder visueel geïnduceerde afleiding
VID-AD: A Dataset for Image-Level Logical Anomaly Detection under Vision-Induced Distraction

Mar 14

ByHiroto Nakata, Yawen Zou, Shunsuke Sakai, Shun Maeda, Chunzhi Gu, Yijin Wei, Shangce Gao, Chao Zhang

Logische anomaliedetectie in industriële inspectie blijft een uitdaging door variaties in visuele verschijning (bijvoorbeeld achtergrondrommel, belichtingsverschillen en onscherpte), die visiegerichte detectoren vaak afleiden van het identificeren van regeloverschrijdingen. Bestaande benchmarks bieden echter zelden gecontroleerde omstandigheden waarin logische staten constant zijn terwijl dergelijke storende factoren variëren. Om deze leemte op te vullen, introduceren we VID-AD, een dataset voor logische anomaliedetectie onder visueel geïnduceerde afleiding. Deze omvat 10 productiescenario's en vijf opnamecondities, in totaal 50 éénklassetaken en 10.395 afbeeldingen. Elk scenario wordt gedefinieerd door twee logische beperkingen geselecteerd uit hoeveelheid, lengte, type, plaatsing en relatie, waarbij anomalieën zowel enkelvoudige als gecombineerde overtredingen omvatten. Wij stellen verder een op taal gebaseerd anomaliedetectiekader voor dat uitsluitend vertrouwt op tekstbeschrijvingen gegenereerd uit normale afbeeldingen. Door contrastief leren met positieve teksten en op tegenstrijdigheid gebaseerde negatieve teksten gesynthetiseerd uit deze beschrijvingen, leert onze methode embeddings aan die logische attributen vastleggen in plaats van laagwaardige kenmerken. Uitgebreide experimenten tonen consistente verbeteringen ten opzichte van basislijnen in alle geëvalueerde settings. De dataset is beschikbaar op: https://github.com/nkthiroto/VID-AD.

Wat Beheerst Werkelijk Temporeel Redeneren in Grote Taalmodellen: Tokenisatie of Representatie van Tijd?
What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?

Mar 19

ByGagan Bhatia, Ahmad Muhammad Isa, Maxime Peyrard, Wei Zhao

Wij presenteren MultiTempBench, een meertalige temporele redeneerbenchmark die drie taken omvat: datumrekening, tijdzoneconversie en temporele relatie-extractie in vijf talen (Engels, Duits, Chinees, Arabisch en Hausa) en meerdere kalenderconventies (Gregoriaans, Hidjri en Chinese Maankalender). MultiTempBench bevat 15.000 voorbeelden, opgebouwd door 750 gecureerde Engelse vragen te vertalen en elk uit te breiden naar gecontroleerde datumnotatie-varianten. Wij evalueren 20 LLM's en introduceren de meertalige Date Fragmentation Ratio (mDFR), gekalibreerd met humane ernstbeoordelingen, samen met geometrische-probinganalyses van interne temporele representaties. Wij constateren dat de tokenisatiekwaliteit van temporele artefacten een resource-afhankelijk knelpunt is: in talen met weinig bronnen en zeldzamere kalenderformaten verstoort fragmentatie de scheiding tussen Jaar/Maand/Dag en stort de nauwkeurigheid in, terwijl settings met veel bronnen vaak robuust zijn tegen cijferniveau-splitsing. Naast tokenisatie toont crossed mixed-effects regression aan dat temporele lineariteit de sterkste voorspeller is voor temporeel redeneren in talen met veel bronnen, terwijl fragmentatie de sterkere voorspeller is in talen met weinig bronnen. Code is beschikbaar op: https://github.com/gagan3012/mtb

PARSA-Bench: Een Uitgebreide Benchmark voor Perzische Audio-Taalmodellen
PARSA-Bench: A Comprehensive Persian Audio-Language Model Benchmark

Mar 15

ByMohammad Javad Ranjbar Kalahroodi, Mohammad Amini, Parmis Bathayan, Heshaam Faili, Azadeh Shakery

Het Perzisch stelt unieke uitdagingen voor audiobegrip door zijn klassieke poëzie, traditionele muziek en alomtegenwoordige code-switching - geen van alle vastgelegd in bestaande benchmarks. Wij introduceren PARSA-Bench (Persian Audio Reasoning and Speech Assessment Benchmark), de eerste benchmark voor het evalueren van grote audio-taalmodellen op de Perzische taal en cultuur, bestaande uit 16 taken en meer dan 8.000 samples op het gebied van spraakbegrip, paralinguïstische analyse en cultureel audiobegrip. Tien taken worden nieuw geïntroduceerd, waaronder poëziemeter- en stijldetectie, begrip van traditionele Perzische muziek en detectie van code-switching. Tekstuele basislijnen presteren consistent beter dan audio-equivalenten, wat suggereert dat modellen mogelijk geen audio-specifieke informatie benutten buiten wat transcriptie alleen biedt. Cultureel verankerde taken onthullen een kwalitatief ander foutpatroon: alle modellen presteren bijna op kansniveau voor vazn-detectie, ongeacht hun schaal, wat suggereert dat prosodische perceptie buiten het bereik van huidige modellen blijft. De dataset is openbaar beschikbaar op https://huggingface.co/datasets/MohammadJRanjbar/PARSA-Bench.

COT-FM: Cluster-gewijs Optimale Transport Stroom Matching
COT-FM: Cluster-wise Optimal Transport Flow Matching

Mar 11

ByChiensheng Chiang, Kuan-Hsun Tu, Jia-Wei Liao, Cheng-Fu Chou, Tsung-Wei Ke

Wij introduceren COT-FM, een algemeen raamwerk dat de waarschijnlijkheidspad in Flow Matching (FM) hervormt om snellere en betrouwbaardere generatie te bereiken. FM-modellen produceren vaak gebogen trajecten als gevolg van willekeurige of batchgewijze koppelingen, wat de discretisatiefout vergroot en de samplekwaliteit vermindert. COT-FM lost dit op door doelsamples te clusteren en aan elk cluster een toegewijde brondistributie toe te wijzen, verkregen door voorgetrainde FM-modellen om te keren. Deze verdeel-en-heersstrategie resulteert in nauwkeuriger lokaal transport en aanzienlijk rechtere vectorvelden, allemaal zonder de modelarchitectuur te wijzigen. Als een plug-and-play aanpak versnelt COT-FM consistent de sampling en verbetert het de generatiekwaliteit op 2D-datasets, beeldgeneratiebenchmarks en robotmanipulatietaken.

DreamPartGen: Semantisch Gegronde Deel-niveau 3D-generatie via Collaboratieve Latente Denoisering
DreamPartGen: Semantically Grounded Part-Level 3D Generation via Collaborative Latent Denoising

Mar 19

ByTianjiao Yu, Xinzhuo Li, Muntasir Wahed, Jerry Xiong, Yifan Shen, Ying Shen, Ismini Lourentzou

Het begrijpen en genereren van 3D-objecten als samenstellingen van betekenisvolle onderdelen is fundamenteel voor menselijke waarneming en redenering. De meeste tekst-naar-3D-methoden negeren echter de semantische en functionele structuur van onderdelen. Hoewel recente deelbewuste benaderingen decompositie introduceren, blijven ze grotendeels geometrisch gericht, ontbreekt het hen aan semantische verankering en slagen ze er niet in te modelleren hoe onderdelen aansluiten bij tekstuele beschrijvingen of hun onderlinge relaties. Wij stellen DreamPartGen voor, een raamwerk voor semantisch verankerde, deelbewuste tekst-naar-3D-generatie. DreamPartGen introduceert Duplex Deel Latenten (DPL's) die gezamenlijk de geometrie en het uiterlijk van elk onderdeel modelleren, en Relationele Semantische Latenten (RSL's) die onderlinge afhankelijkheden tussen onderdelen vastleggen, afgeleid uit taal. Een gesynchroniseerd co-denoisingsproces handhaaft wederzijdse geometrische en semantische consistentie, wat een coherente, interpreteerbare en tekstuitgelijnde 3D-synthese mogelijk maakt. Op meerdere benchmarks levert DreamPartGen state-of-the-art prestaties op het gebied van geometrische nauwkeurigheid en tekst-vorm-uitlijning.

Het dichten van de gaten: Het beperken van beloningsmanipulatie bij reinforcement learning voor meertalige vertaling
Mending the Holes: Mitigating Reward Hacking in Reinforcement Learning for Multilingual Translation

Mar 13

ByYifeng Liu, Siqi Ouyang, Yatish Hosmane Revanasiddappa, Lei Li

Groottaalmodellen (LLM's) hebben een opmerkelijke capaciteit getoond voor machinaal vertalen bij taalparen met veel bronnen, maar hun prestaties bij vertalingen met weinig bronnen blijven achter. Bestaande methoden na de training zijn sterk afhankelijk van hoogwaardige parallelle data, die vaak schaars of niet beschikbaar zijn voor talen met weinig bronnen. In dit artikel introduceren we WALAR, een reinforcementtrainingsmethode die alleen monolinguale tekst gebruikt om de vertaalcapaciteiten van LLM's voor een groot aantal talen met weinig bronnen te verbeteren, terwijl hun prestaties voor talen met veel bronnen behouden blijven. Onze belangrijkste inzicht is gebaseerd op de observatie van faalmodi (of "gaten") in bestaande bron-gebaseerde meertalige kwaliteitsschatingsmodellen (QE). Reinforcement learning (RL) met deze QE-modellen heeft de neiging om dergelijke gaten te versterken, wat resulteert in zwakkere meertalige LLM's. Wij ontwikkelen technieken, waaronder woordalignering en taalalignering, om dergelijke gaten in WALAR's beloning voor RL-training te mitigeren. We hebben continu een LLM getraind die vertaling voor 101 talen ondersteunt met behulp van WALAR. De experimenten tonen aan dat ons nieuwe model LLaMAX, een van de sterkste open-source meertalige LLM's, met een grote marge overtreft op 1400 taalrichtingen van de Flores-101 dataset.