HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

17 papers found

GLM-5V-Turbo: Op weg naar een native foundation model voor multimodale agenten
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29

ByV Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Wij presenteren GLM-5V-Turbo, een stap in de richting van native foundationmodellen voor multimodale agenten. Naarmate foundationmodellen steeds vaker in reële omgevingen worden ingezet, hangt de capaciteit van agenten niet alleen af van taalredenering, maar ook van het vermogen om heterogene contexten zoals afbeeldingen, video's, webpagina's, documenten en GUI's waar te nemen, te interpreteren en erop te acteren. GLM-5V-Turbo is rond dit doel gebouwd: multimodale perceptie is geïntegreerd als een kerncomponent van redeneren, plannen, toolgebruik en uitvoering, in plaats van als een hulpinterface voor een taalmodel. Dit verslag vat de belangrijkste verbeteringen samen achter GLM-5V-Turbo op het gebied van modelontwerp, multimodale training, reinforcement learning, toolchain-uitbreiding en integratie met agentframeworks. Deze ontwikkelingen leiden tot sterke prestaties in multimodale codering, visueel toolgebruik en op frameworks gebaseerde agenttaken, waarbij tegelijkertijd competitieve codeercapaciteit voor alleen tekst behouden blijft. Belangrijker nog, ons ontwikkelingsproces biedt praktische inzichten voor het bouwen van multimodale agenten, waarbij de centrale rol van multimodale perceptie, hiërarchische optimalisatie en betrouwbare end-to-end-verificatie wordt benadrukt.

Grote Taalmodellen Verkennen door Latente Destillatie
Large Language Models Explore by Latent Distilling

Apr 27

ByYuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

Het genereren van diverse antwoorden is cruciaal voor het schalen van grote taalmodellen (LLM's) tijdens testtijd, maar standaard stochastische sampling levert voornamelijk oppervlakkige lexicale variatie op, wat de semantische verkenning beperkt. In dit artikel stellen we Exploratory Sampling (ESamp) voor, een decodeerbenadering die expliciet semantische diversiteit tijdens de generatie aanmoedigt. ESamp is gemotiveerd door de bekende observatie dat neurale netwerken de neiging hebben voorspellingen met lagere foutmarges te maken op inputs die vergelijkbaar zijn met eerder geziene inputs, en hogere voorspellingsfouten te maken op nieuwe inputs. Voortbordurend op deze eigenschap trainen we tijdens testtijd een lichtgewicht Distiller om diepe verborgen representaties van het LLM te voorspellen op basis van zijn ondiepe laagrepresentaties, om zo de dieptegewijze representatietransities van het LLM te modelleren. Tijdens het decoderen past de Distiller zich continu aan aan de mappingen die worden geïnduceerd door de huidige generatiecontext. ESamp gebruikt de voorspellingsfout als een nieuwheidssignaal om kandidaat-tokenuitbreidingen, geconditioneerd op het huidige prefix, opnieuw te wegen, waardoor het decoderen wordt gebiasseerd naar minder verkende semantische patronen. ESamp wordt geïmplementeerd met een asynchrone trainings-inferentiepijplijn, met minder dan 5% overhead in het slechtste geval (1,2% in de geoptimaliseerde release). Empirische resultaten tonen aan dat ESamp de Pass@k-efficiëntie van redeneermodellen aanzienlijk verbetert, met superieure of vergelijkbare prestaties ten opzichte van sterke stochastische en heuristische basislijnen. Opmerkelijk is dat ESamp robuuste generalisatie bereikt op wiskundige, wetenschappelijke en code-generatiebenchmarks en de afweging tussen diversiteit en coherentie in creatief schrijven doorbreekt. Onze code is vrijgegeven op: https://github.com/LinesHogan/tLLM.

RADIO-ViPE: Online Sterk Gekoppelde Multimodale Fusie voor Open-Vocabularium Semantische SLAM in Dynamische Omgevingen
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Apr 28

ByZaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

Wij presenteren RADIO-ViPE (Reduce All Domains Into One -- Video Pose Engine), een online semantisch SLAM-systeem dat geometriebewuste open-vocabulary grounding mogelijk maakt, waarbij willekeurige natuurlijke-taaluitdrukkingen worden gekoppeld aan gelokaliseerde 3D-gebieden en objecten in dynamische omgevingen. In tegenstelling tot bestaande benaderingen die gekalibreerde, geposeerde RGB-D-invoer vereisen, werkt RADIO-ViPE rechtstreeks op onbewerkte monocular RGB-videostreams, zonder voorafgaande kennis van camera-intrinsieken, dieptesensoren of pose-initialisatie. Het systeem koppelt multimodale embeddings – die visie en taal omspannen – afkomstig van agglomeratieve foundation-modellen (bijv. RADIO) nauw aan geometrische scène-informatie. Deze koppeling vindt plaats tijdens initialisatie, optimalisatie en factor graph-verbindingen om de consistentie van de kaart vanuit meerdere modaliteiten te verbeteren. De optimalisatie is verpakt in adaptieve robuuste kernels, ontworpen om zowel actief bewegende objecten als door de agent verplaatste scène-elementen (bijv. meubels die tijdens een egocentrische sessie worden herschikt) te verwerken. Experimenten tonen aan dat RADIO-ViPE state-of-the-art resultaten behaalt op de dynamische TUM-RGBD-benchmark, terwijl het competitieve prestaties handhaaft in vergelijking met offline open-vocabulary-methoden die vertrouwen op gekalibreerde data en statische scène-aannames. RADIO-ViPE overbrugt een kritieke kloof voor inzet in de praktijk, en maakt robuuste open-vocabulary semantische grounding mogelijk voor autonome robotica en onbeperkte in-the-wild videostreams. Projectpagina: https://be2rlab.github.io/radio_vipe

ClawGym: Een Schaalbaar Raamwerk voor het Bouwen van Effectieve Claw-Agenten
ClawGym: A Scalable Framework for Building Effective Claw Agents

Apr 29

ByFei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao

Claw-achtige omgevingen ondersteunen meerstaps werkstromen voor lokale bestanden, tools en persistente werkruimtestatussen. Toch blijft schaalbare ontwikkeling rond deze omgevingen beperkt door het ontbreken van een systematisch raamwerk, met name voor het synthetiseren van verifieerbare trainingsdata en de integratie daarvan met agenttraining en diagnostische evaluatie. Om deze uitdaging aan te pakken, presenteren we ClawGym, een schaalbaar raamwerk dat de volledige levenscyclus van Claw-achtige persoonlijke agentontwikkeling ondersteunt. Concreet construeren we ClawGym-SynData, een diverse dataset van 13.5K gefilterde taken gesynthetiseerd uit persona-gedreven intenties en vaardigheidsgebaseerde operaties, gekoppeld aan realistische mock-werkruimten en hybride verificatiemechanismen. Vervolgens trainen we een familie van capabele Claw-achtige modellen, genaamd ClawGym-Agents, via supervised fine-tuning op black-box rollout-trajecten, en verkennen we verder reinforcement learning via een lichtgewicht pipeline die rollouts paralleliseert over per-taak sandboxen. Om betrouwbare evaluatie te ondersteunen, construeren we tevens ClawGym-Bench, een benchmark van 200 instanties gekalibreerd door automatische filtering en human-LLM-beoordeling. Relevante bronnen zullen binnenkort worden vrijgegeven op https://github.com/ClawGym.

Het omkeren van de TIDE: Kruisarchitectuur-distillatie voor diffusie-grote-taalmodellen
Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Apr 29

ByGongbo Zhang, Wen Wang, Ye Tian, Li Yuan

Diffusie grote taalmodellen (dLLM's) bieden parallelle decodering en bidirectionele context, maar state-of-the-art dLLM's vereisen miljarden parameters voor competitieve prestaties. Hoewel bestaande distillatiemethoden voor dLLM's inferentiestappen binnen een enkele architectuur verminderen, richt geen zich op kruisarchitectuur kennisoverdracht, waarbij de leraar en student verschillen in architectuur, aandachtmechanisme en tokenizer. Wij presenteren TIDE, het eerste raamwerk voor kruisarchitectuur dLLM-distillatie, bestaande uit drie modulaire componenten: (1) TIDAL, dat gezamenlijk de distillatiesterkte moduleert over de trainingsvoortgang en diffusietijdstap om rekening te houden met de ruisafhankelijke betrouwbaarheid van de leraar; (2) CompDemo, dat de context van de leraar verrijkt via complementaire masksplitsing om voorspellingen onder zware maskering te verbeteren; en (3) Reverse CALM, een kruistokenizer-doelstelling die chunk-level waarschijnlijkheidsmatching omkeert, wat begrensde gradiënten en dubbelzijdige ruisfiltering oplevert. Het distilleren van 8B dichte en 16B MoE-leraren naar een 0.6B-student via twee heterogene pijplijnen overtreft de baseline met gemiddeld 1.53 punten over acht benchmarks, met aanzienlijke winst in codegeneratie, waar HumanEval-scores 48.78 bereiken vergeleken met 32.3 voor de AR-baseline.

Diffusietemplates: Een Uniform Pluginraamwerk voor Beheerbare Diffusie
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Apr 27

ByZhongjie Duan, Hong Zhang, Yingda Chen

Beheerbare diffusiemethoden hebben de praktische bruikbaarheid van diffusiemodellen aanzienlijk vergroot, maar ze worden doorgaans ontwikkeld als geïsoleerde, backbonespecifieke systemen met onverenigbare trainingspijplijnen, parameterformaten en runtime-hooks. Deze fragmentatie maakt het moeilijk om infrastructuur tussen taken te hergebruiken, mogelijkheden tussen backbones over te dragen of meerdere controles binnen een enkele generatiepijplijn te combineren. Wij presenteren Diffusion Templates, een uniform en open plugin-framework dat de inferentie van basismodellen ontkoppelt van de injectie van beheerbare capaciteiten. Het framework is georganiseerd rond drie componenten: Template-modellen die willekeurige taakspecifieke invoer omzetten naar een intermediare capaciteitsrepresentatie, een Template-cache die fungeert als gestandaardiseerde interface voor capaciteitsinjectie, en een Template-pijplijn die een of meer Template-caches laadt, samenvoegt en injecteert in de runtime van de basisdiffusie. Omdat de interface op systeemniveau is gedefinieerd in plaats van gekoppeld aan een specifieke controle-architectuur, kunnen heterogene capaciteitsdragers zoals KV-Cache en LoRA onder dezelfde abstractie worden ondersteund. Op basis van dit ontwerp bouwen we een diverse model-zoo die structurele controle, helderheidsaanpassing, kleuraanpassing, beeldbewerking, superresolutie, scherpteverbetering, esthetische afstemming, contentreferentie, lokale inpaintin en leeftijdscontrole omvat. Deze casestudies tonen aan dat Diffusion Templates een breed scala aan beheerbare generatietaken kan verenigen, terwijl modulariteit, combineerbaarheid en praktische uitbreidbaarheid over snel evoluerende diffusiebackbones behouden blijven. Alle bronnen worden open source gemaakt, inclusief code, modellen en datasets.

FAMA: Een op foutenbewustzijn gebaseerd meta-agentisch raamwerk voor open-source LLM's in interactieve toolgebruiksomgevingen
FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Apr 28

ByAmir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

Grootschalige taalmodellen worden steeds vaker ingezet als besluitvormingskern van autonome agents die veranderingen in externe omgevingen kunnen teweegbrengen. Toch falen deze agents vaak in conversatiebenchmarks, die realistische, klantgerichte probleemoplossingsscenario's simuleren, als gevolg van de cascade-effecten van onjuiste besluitvorming. Deze uitdagingen zijn bijzonder groot voor open-source LLM's met kleinere parameterschalen, beperkte contextvensters en krappe inferentiebudgetten, wat bijdraagt aan een toegenomen foutenaccumulatie in agent-gerichte settings. Om deze uitdagingen aan te pakken, presenteren we het Failure-Aware Meta-Agentic (FAMA) raamwerk. FAMA opereert in twee fasen: eerst analyseert het fouttrajecten van baseline-agents om de meest voorkomende fouten te identificeren; vervolgens gebruikt het een orchestratiemechanisme dat een minimale subset van gespecialiseerde agents activeert, die zijn afgestemd op het aanpakken van deze fouten door een gerichte context in te brengen voor de tool-use agent vóór de besluitvormingsstap. Experimenten met open-source LLM's tonen prestatieverbeteringen tot 27% aan across evaluatiemodi ten opzichte van standaardbaselines. Deze resultaten benadrukken dat gerichte contextcuratie via gespecialiseerde agents om veelvoorkomende fouten aan te pakken, een waardevol ontwerpprincipe is voor het bouwen van betrouwbare, multi-turn tool-use LLM-agents die realistische conversatiescenario's simuleren.

Verenigde 4D Wereldactiemodellering met Videopriors en Asynchrone Denoisering
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Apr 29

ByJun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

Wij presenteren X-WAM, een verenigd 4D-wereldmodel dat real-time robotactie-uitvoering en hoogwaardige 4D-wereldsynthese (video + 3D-reconstructie) verenigt in een enkel raamwerk. Dit adresseert de kritieke beperkingen van eerdere verenigde wereldmodellen (zoals UWM), die slechts de 2D-pixelruimte modelleren en er niet in slagen een balans te vinden tussen actie-efficiëntie en de kwaliteit van wereldmodellering. Om te profiteren van de sterke visuele voorkennis van vooraf getrainde videodiffusiemodellen, visualiseert X-WAM de toekomstige wereld door het voorspellen van multi-view RGB-D video's, en verkrijgt het efficiënt ruimtelijke informatie via een lichtgewicht structurele aanpassing: het repliceren van de laatste paar blokken van de vooraf getrainde Diffusion Transformer in een speciale dieptevoorspellingsbranch voor de reconstructie van toekomstige ruimtelijke informatie. Bovendien stellen we Asynchrone Ruisbemonstering (ANS) voor om zowel de generatiekwaliteit als de actiedecoderings-efficiëntie gezamenlijk te optimaliseren. ANS past tijdens de inferentie een gespecialiseerd asynchroon denoisingsschema toe, dat snel acties decodeert met minder stappen om efficiënte real-time uitvoering mogelijk te maken, terwijl de volledige reeks stappen wordt gebruikt om hoogwaardige video te genereren. In plaats van de tijdstappen tijdens de training volledig te ontkoppelen, bemonstert ANS hun gezamenlijke verdeling om af te stemmen op de inferentie-verdeling. Voorgetraind op meer dan 5.800 uur aan robotdata behaalt X-WAM een gemiddeld slagingspercentage van 79,2% en 90,7% op respectievelijk de RoboCasa- en RoboTwin 2.0-benchmarks, terwijl het hoogwaardige 4D-reconstructie en -generatie produceert die bestaande methoden overtreft op zowel visuele als geometrische metrieken.

Versnellen van RL Post-Training Rollouts via Systeem-geïntegreerde Speculatieve Decodering
Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Apr 29

ByHayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani

RL-posttraining van geavanceerde taalmodellen wordt in toenemende mate beperkt door de generatie van autoregressieve rollouts, waardoor rollout-versnelling een centrale systeemuitdaging wordt. Veel bestaande efficiëntiemethoden verbeteren de doorvoer door het rollout- of optimalisatieregime aan te passen, bijvoorbeeld via off-policy uitvoering, replay of generatie met lagere precisie. Wij bestuderen *speculative decoding* als een verliesloze versnellingsprimitief voor RL-rollouts die de uitvoerdistributie van het doelmodel behoudt. Wij implementeren *speculative decoding* in NeMo-RL met een vLLM-backend, waarbij zowel synchrone als asynchrone pijplijnen worden ondersteund en speculatie tijdens RL-rollouts mogelijk wordt gemaakt. Dit voordeel is realiseerbaar via verschillende speculatiemechanismen, zoals voorgetrainde MTP-koppen, kleine externe *draft*-modellen of zelfs technieken zoals Eagle3, die traditioneel pas na de RL-fase worden toegepast. Dit biedt een implementatiepad voor state-of-the-art *speculative decoding* binnen RL-training. In een *reasoning* posttraining-werkbelasting op 8B-schaal onder synchrone RL verbetert *speculative decoding* de rollout-doorvoer met 1,8x. Met behulp van een nauwkeurige prestatiesimulator projecteren wij dat de combinatie van *speculative decoding* met asynchrone RL een end-to-end trainingsversnelling tot 2,5x oplevert op 235B-schaal.

Operationele-Laag Besturing voor Onchain Taalmodel-Agenten Onder Real Kapitaal
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Apr 28

ByT. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

Wij bestuderen de betrouwbaarheid van autonome taalmodel-agenten die gebruikersopdrachten vertalen naar gevalideerde toolacties met reëel kapitaal. De setting is DX Terminal Pro, een implementatie van 21 dagen waarin 3.505 door gebruikers gefinancierde agenten met echt ETH handelden in een afgebakende on-chain markt. Gebruikers configureerden kluizen via gestructureerde controles en strategieën in natuurlijke taal, maar alleen agenten konden normale koop-/verkooptransacties kiezen. Het systeem produceerde 7,5 miljoen agentaanroepen, ongeveer 300.000 on-chain acties, een volume van ongeveer $20 miljoen, meer dan 5.000 ETH ingezet kapitaal, ongeveer 70 miljard inferentie-tokens en een afwikkelsucces van 99,9% voor beleidsgevalideerde transacties. Langlopende agenten accumuleerden duizenden opeenvolgende beslissingen, waaronder meer dan 6.000 prompt-toestand-actie cycli voor continu actieve agenten, wat een grootschalig spoor opleverde van gebruikersopdracht tot gegenereerde prompt, redenering, validatie, portefeuillestatus en afwikkeling. Betrouwbaarheid kwam niet alleen van het basismodel; zij ontstond vanuit de operationele laag rond het model: promptcompilatie, getypeerde controles, beleidsvalidatie, uitvoeringsbeveiliging, geheugenontwerp en traceerbaarheid op spoorniveau. Pre-launch tests legden fouten bloot die tekstuele benchmarks zelden meten, waaronder vervalste handelsregels, fee-verlamming, numeriek ankeren, ritmeverstoring en verkeerd gelezen tokenomics. Gerichte aanpassingen aan het testraamwerk verminderden vervalste verkoopregels van 57% naar 3%, verminderden fee-gerelateerde observaties van 32,5% naar minder dan 10%, en verhoogden de kapitaalinzet van 42,9% naar 78,0% in een geteste populatie. Wij tonen aan dat kapitaalbeherende agenten geëvalueerd moeten worden over het volledige pad van gebruikersopdracht naar prompt, gevalideerde actie en afwikkeling.

Een onderzoek naar op grote taalmodel gebaseerde simulatie van gesprekken met gebruikers
A Survey on LLM-based Conversational User Simulation

Apr 27

ByBo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi

Gebruikerssimulatie heeft al lang een cruciale rol gespeeld in de informatica vanwege het potentieel om een breed scala aan toepassingen te ondersteunen. Taal, als het primaire medium van menselijke communicatie, vormt de basis van sociale interactie en gedrag. Bijgevolg is het simuleren van conversatiegedrag een belangrijk onderzoeksgebied geworden. Recente vooruitgang in grote taalmmodellen (LLM's) heeft de ontwikkelingen op dit gebied aanzienlijk versneld door de hoogwaardige generatie van synthetische gebruikersgesprekken mogelijk te maken. In dit artikel geven wij een overzicht van recente vooruitgang in op LLM's gebaseerde conversatiegebruikerssimulatie. Wij introduceren een nieuwe taxonomie die gebruikersgranulariteit en simulatiedoelen omvat. Daarnaast analyseren wij systematisch kerntechnieken en evaluatiemethodologieën. Ons doel is de onderzoeksgemeenschap op de hoogte te houden van de nieuwste ontwikkelingen in conversatiegebruikerssimulatie en toekomstig onderzoek verder te vergemakkelijken door open uitdagingen te identificeren en bestaand werk in een uniform kader te organiseren.

PSP: Een interpreteerbaar per-dimensie accentbenchmark voor Indic tekst-naar-spraak
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta

Standaard tekst-naar-spraak (TNT) evaluatie meet de verstaanbaarheid (WER, CER) en de algemene natuurlijkheid (MOS, UTMOS), maar kwantificeert geen accent. Een synthesizer kan goed scoren op alle vier, maar toch niet-moedertaalklinkend zijn op kenmerken die fonemisch zijn in de doeltaal. Voor Indiase talen zijn dit kenmerken zoals retroflexe articulatie, aspiratie, klinkerlengte en de Tamil retroflexe approksimant (letter zha). Wij presenteren PSP, het Phoneme Substitution Profile, een interpreteerbare, per-fonologische-dimensie accentbenchmark voor Indiase TNT. PSP ontleedt accent in zes complementaire dimensies: retroflexe collapsfrequentie (RR), aspiratietrouw (AF), klinkerlengtetrouw (LF), Tamil-zha-trouw (ZF), Fréchet Audio Distance (FAD) en prosodische signatuurdivergentie (PSD). De eerste vier worden gemeten via geforceerde alignering plus akoestische probes ten opzichte van moedertaalspreker-centroïden over Wav2Vec2-XLS-R laag-9 embeddings; de laatste twee zijn corpusniveau distributie-afstanden. In deze v1 benchmarken we vier commerciële en open-source systemen (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) op Hindi, Telugu en Tamil pilot sets, met een vijfde systeem (Praxy Voice) meegenomen voor alle drie de talen, plus een R5->R6 casestudy voor Telugu. Drie bevindingen: (i) retroflexe collaps neemt monotoon toe met fonologische moeilijkheidsgraad Hindi < Telugu < Tamil (~1%, ~40%, ~68%); (ii) PSP-rangschikking wijkt af van WER-rangschikking – commerciële WER-leiders leiden niet uniform op retroflexe of prosodische trouw; (iii) geen enkel systeem is Pareto-optimaal over alle zes dimensies. Wij publiceren moedertaalreferentie-centroïden (500 clips per taal), 1000-clip embeddings voor FAD, 500-clip prosodische featurematrices voor PSD, 300-utterance gouden sets per taal, scoringscode onder MIT, en centroïden onder CC-BY. Formele MOS-correlatie wordt uitgesteld naar v2; v1 rapporteert vijf interne-consistentiesignalen plus een moedertaalaudio-sanitycheck.

Praxy Voice: Spraakgestuurde Stemherstel + BUPS voor Commerciële Indic TTS vanuit een Bevroren Niet-Indische Basis, tegen Nul Kosten voor Commerciële Trainingsgegevens
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta

Commerciële TTS-systemen produceren bijna-moedertaalkwaliteit audio voor Indiase talen, maar de beste open-source-bases (Chatterbox, Indic Parler-TTS, IndicF5) blijven achter op gemeten fonologische dimensies, en de meest gebruikte meertalige base (Chatterbox, 23 talen) tokeniseert Telugu of Tamil niet eens. Wij stellen de vraag: wat is de minimale interventie die zo'n niet-voor-Indiase-talen-gebouwde base naar commerciële-kwaliteit output brengt voor Telugu, Tamil en Hindi, zonder een nieuwe akoestische decoder te trainen en zonder gebruik van commerciële TTS-trainingsdata? Wij combineren drie onderdelen: (1) BUPS, een Brahmic Unified Phoneme Space die zeven Indiase schriften deterministisch romaniseert naar ISO-15919 zodat Chatterbox's Latin-tokenizer ze kan verwerken; (2) een LoRA-adapter uitsluitend op de tekst-token-voorspeller (Chatterbox's t3), getraind op ~1.220 uur gelicentieerde Indiase audio met een Hindi-proxy language_id; (3) een voice-prompt-herstelrecept – een referentieclip van 8-11 seconden in dezelfde taal plus drie sampling-overrides (exaggeration 0.7, temperature 0.6, min_p 0.1; "Configuratie B") – dat commerciële-kwaliteit akoestische output herstelt zonder training van de akoestische decoder. Voor Hindi vermindert de LoRA de nauwkeurigheid en gebruiken we in plaats daarvan vanilla Chatterbox + Configuratie B, wat resulteert in een implementatie met twee takken. Geëvalueerd op 10-uiting pilot sets met de bijbehorende PSP-benchmark, evenaart of overtreft Praxy Voice de commerciële referentiesystemen licht: 26,7% retroflex-collaps voor Telugu (vs. Sarvam Bulbul 33,3%), 71% Tamil-zha-collaps (vs. 86% van een commercieel trio), 0,025 LLM-WER voor Hindi (gelijk aan Cartesia Sonic-3). Voor intra-zin code-mixing voegen we een derde tak toe (IndicF5 + native-script transliteratie) die de code-mix LLM-WER verlaagt van 0,80-0,85 naar 0,14-0,27 voor Hi/Te/Ta. Wij geven R6 LoRA-gewichten vrij (Apache-2.0), inferentiecode en router (MIT), en een Gradio-demo.

FASH-iCNN: Het inspecteerbaar maken van redactionele mode-identiteit via multimodale CNN-verkenning
FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Apr 29

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

Mode-AI-systemen coderen routinematig de esthetische logica van specifieke modehuizen, redacteuren en historische momenten zonder deze openbaar te maken. Wij presenteren FASH-iCNN, een multimodaal systeem getraind op 87.547 Vogue-runwayfoto's van 15 modehuizen uit de periode 1991-2024, dat deze culturele logica inspecteerbaar maakt. Gegeven een foto van een kledingstuk, achterhaalt het systeem welk huis het produceerde, uit welk tijdperk het stamt en welke kleurtraditie het weerspiegelt. Een model dat uitsluitend kleding analyseert, identificeert het modehuis met een top-1 nauwkeurigheid van 78,2% over 14 huizen, het decennium met 88,6% top-1 en het specifieke jaar met 58,3% top-1 over 34 jaar, met een gemiddelde foutmarge van slechts 2,2 jaar. Onderzoek naar welke visuele kanalen dit signaal dragen, onthult een duidelijke dissociatie: het verwijderen van kleur kost slechts 10,6 procentpunt aan nauwkeurigheid van de huisidentiteit, terwijl het verwijderen van textuur 37,6 procentpunt kost, wat textuur en luminantie vestigt als de primaire dragers van redactionele identiteit. FASH-iCNN behandelt redactionele cultuur als het signaal in plaats van achtergrondruis, en identificeert welke huizen, tijdperken en kleurtradities elke output hebben gevormd, zodat gebruikers niet alleen kunnen zien wat het systeem voorspelt, maar ook welke modehuizen, redacteuren en historische momenten in die voorspelling zijn gecodeerd.

Onderzoek naar Visuele Planning in Beeldbewerkingsmodellen
Probing Visual Planning in Image Editing Models

Apr 23

ByZhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

Visuele planning vormt een cruciaal aspect van de menselijke intelligentie, met name bij taken die complex ruimtelijk redeneren en navigatie vereisen. In machine learning wordt dit inherent visuele probleem echter vaak vanuit een verbaal-centrische benadering aangepakt. Hoewel recent onderzoek de belofte toont van volledig visuele methoden, lijden deze onder aanzienlijke computationele inefficiëntie door het stapsgewijze plannen-via-generatie paradigma. In dit werk presenteren we EAR, een bewerken-als-redeneren paradigma dat visuele planning herformuleert als een eenstaps beeldtransformatie. Om intrinsiek redeneren te isoleren van visuele herkenning, gebruiken we abstracte puzzels als onderzoektaken en introduceren we AMAZE, een procedureel gegenereerde dataset met de klassieke Doolhof- en Koninginnenproblemen, die verschillende complementaire vormen van visuele planning beslaan. Het abstracte karakter van AMAZE vergemakkelijkt ook de automatische evaluatie van autoregressieve en op diffusie gebaseerde modellen op het gebied van zowel pixelgewijze nauwkeurigheid als logische geldigheid. We evalueren toonaangevende propriëtaire en open-source bewerkingsmodellen. De resultaten tonen aan dat ze allemaal moeite hebben in de zero-shot setting, maar dat finetunen op basisschalen opmerkelijke generalisatie mogelijk maakt naar grotere in-domein schalen en out-of-domain schalen en geometrieën. Desalniettemin slaagt ons beste model dat op high-end hardware draait er niet in de zero-shot efficiëntie van menselijke oplossers te evenaren, wat een hardnekkige kloof in neurale visuele redeneervaardigheden blootlegt.

Verbeterde Privacy en Communicatie-efficiëntie in Niet-IID Federatief Leren met Adaptieve Kwantisatie en Differentiële Privacy
Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Apr 25

ByEmre Ardıç, Yakup Genç

Gefedereerd leren (FL) is een gedistribueerde machine learning-methode waarbij meerdere apparaten gezamenlijk een model trainen onder beheer van een centrale server, zonder onderliggende gegevens te delen. Een van de belangrijkste uitdagingen van FL is de communicatieflessenhals die wordt veroorzaakt door variaties in verbindingssnelheid en bandbreedte tussen apparaten. Daarom is het essentieel om de omvang van verzonden gegevens tijdens de training te verminderen. Bovendien bestaat het potentiële risico dat gevoelige informatie wordt blootgesteld via model- of gradientanalyse tijdens de training. Om zowel privacy als communicatie-efficiëntie aan te pakken, combineren we differentiële privacy (DP) en adaptieve kwantiseringsmethoden. We gebruiken op Laplace gebaseerde DP om de privacy te waarborgen, een relatief onderbelichte aanpak in FL die strengere privacygaranties biedt dan op Gaussiaanse verdeling gebaseerde DP. We stellen een eenvoudige en efficiënte globale bitlengte-planner voor op basis van cosinus-afkoeling per ronde, samen met een cliëntgebaseerde planner die zich dynamisch aanpast op basis van de geschatte cliëntbijdrage via datasetentropie-analyse. We evalueren onze aanpak met uitgebreide experimenten op CIFAR10, MNIST en medische beeldvormingsdatasets, waarbij niet-IID-gegevensverdelingen worden gebruikt met variërende aantallen cliënten, bitlengte-planners en privacybudgetten. De resultaten tonen aan dat onze adaptieve kwantiseringsmethoden het totaal gecommuniceerde gegevensvolume met respectievelijk tot 52,64% voor MNIST, 45,06% voor CIFAR10 en 31% tot 37% voor medische beeldvormingsdatasets verminderen in vergelijking met 32-bits drijvende-kommatraining, waarbij competitieve modelnauwkeurigheid wordt behouden en robuuste privacy wordt gewaarborgd door differentiële privacy.

Steekproefselectie met behulp van multitaak-autoencoders in federatief leren met niet-onafhankelijk en niet-identiek verdeelde gegevens
Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Apr 28

ByEmre Ardıç, Yakup Genç

Federated learning is een machine learning-paradigma waarbij meerdere apparaten gezamenlijk een model trainen onder toezicht van een centrale server, met behoud van gegevensprivacy. De prestaties worden echter vaak belemmerd door redundante, kwaadaardige of afwijkende samples, wat leidt tot modeldegradatie en inefficiëntie. Om deze problemen te overwinnen, stellen we nieuwe sample-selectiemethoden voor beeldclassificatie voor, waarbij een multi-task autoencoder wordt ingezet om sample-bijdragen te schatten via verlies- en kenmerkanalyse. Onze aanpak integreert unsupervised outlierdetectie, gebruikmakend van one-class support vector machine (OCSVM), isolation forest (IF) en adaptive loss threshold (AT) methoden, beheerd door een centrale server om ruis samples op clients te filteren. We introduceren tevens een multi-class deep support vector data description (SVDD) verlies, aangestuurd door een centrale server, om kenmerkgebaseerde sample-selectie te verbeteren. We valideren onze methoden op CIFAR10- en MNIST-datasets met variërende aantallen clients, niet-IID verdelingen en ruisniveaus tot 40%. De resultaten tonen significante nauwkeurigheidsverbeteringen met verliesgebaseerde sample-selectie, met winsten tot 7,02% op CIFAR10 met OCSVM en 1,83% op MNIST met AT. Bovendien verbetert onze federated SVDD-verliesfunctie de kenmerkgebaseerde sample-selectie verder, wat een nauwkeurigheidswinst tot 0,99% oplevert op CIFAR10 met OCSVM. Deze resultaten tonen de effectiviteit van onze methoden voor het verbeteren van modelnauwkeurigheid onder diverse clientaantallen en ruisomstandigheden.

GLM-5V-Turbo: Op weg naar een native foundation model voor multimodale agenten
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29