HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

30 papers found

Geometrie-Gestuurd Reinforcement Learning voor Multi-view Consistente 3D-scènebewerking
Geometry-Guided Reinforcement Learning for Multi-view Consistent 3D Scene Editing

Mar 3

ByJiyuan Wang, Chunyu Lin, Lei Sun, Zhi Cao, Yuyang Yin, Lang Nie, Zhenlong Yuan, Xiangxiang Chu, Yunchao Wei, Kang Liao, Guosheng Lin

144

Het benutten van de voorkennis van 2D-diffusiemodellen voor 3D-bewerking is een veelbelovend paradigma geworden. Het handhaven van multi-viewconsistentie in bewerkte resultaten blijft echter een uitdaging, en de extreme schaarste aan gepaarde 3D-consistente bewerkingsdata maakt supervised fine-tuning (SFT) – de meest effectieve trainingsstrategie voor bewerkingstaken – onhaalbaar. In dit artikel observeren we dat, hoewel het genereren van multi-view consistente 3D-inhoud zeer uitdagend is, het verifiëren van 3D-consistentie wel goed mogelijk is, wat reinforcement learning (RL) natuurlijk positioneert als een haalbare oplossing. Gemotiveerd door dit inzicht stellen we RL3DEdit voor, een single-pass framework aangedreven door RL-optimalisatie met nieuwe beloningssignalen afkomstig van het 3D-foundationmodel VGGT. Concreet benutten we de robuuste voorkennis van VGGT, geleerd uit enorme hoeveelheden real-world data, voeren de bewerkte afbeeldingen in, en gebruiken de uitvoerbetrouwbaarheidskaarten en pose-schattingfouten als beloningssignalen. Hierdoor worden de 2D-bewerkingspriors effectief verankerd op een 3D-consistente manifold via RL. Uitgebreide experimenten tonen aan dat RL3DEdit stabiele multi-viewconsistentie bereikt en state-of-the-art methoden overtreft in bewerkingskwaliteit met hoge efficiëntie. Om de ontwikkeling van 3D-bewerking te bevorderen, zullen we de code en het model vrijgeven.

Denken om te Herinneren: Hoe Redeneren Parametrische Kennis Ontsluit in LLM's
Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs

Mar 10

ByZorik Gekhman, Roee Aharoni, Eran Ofek, Mor Geva, Roi Reichart, Jonathan Herzig

Hoewel redeneren in LLM's een natuurlijke rol speelt bij wiskunde, codegeneratie en meerstaps feitelijke vragen, blijft het effect ervan op eenvoudige, enkelstaps feitelijke vragen onduidelijk. Dergelijke vragen vereisen geen stapsgewijze logische decompositie, waardoor het nut van redeneren zeer contra-intuïtief is. Desalniettemin ontdekken we dat het inschakelen van redeneren de capaciteitsgrens van de parametrische kennisrecall van het model aanzienlijk verruimt, en correcte antwoorden ontsluit die anders effectief onbereikbaar zijn. Waarom helpt redeneren bij parametrische kennisrecall wanneer er geen complexe redeneerstappen nodig zijn? Om dit te beantwoorden, ontwerpen we een reeks hypothese-gestuurde gecontroleerde experimenten en identificeren we twee belangrijke mechanismen: (1) een computationeel buffereffect, waarbij het model de gegenereerde redeneertokens gebruikt om latente berekeningen uit te voeren onafhankelijk van hun semantische inhoud; en (2) feitelijke priming, waarbij het genereren van thematisch verwante feiten dient als een semantische brug die correcte antwoordretrieval vergemakkelijkt. Cruciaal is dat dit laatste generatieve zelf-retrievalmechanisme inherente risico's met zich meedraagt: we tonen aan dat het hallucineren van tussenliggende feiten tijdens het redeneren de kans op hallucinaties in het uiteindelijke antwoord vergroot. Ten slotte laten we zien dat onze inzichten direct kunnen worden benut om de modelnauwkeurigheid te verbeteren door redeneertrajecten te prioriteren die hallucinatievrije feitelijke uitspraken bevatten.

MM-Zero: Zelf-evoluerende multimodale vision-language-modellen zonder initiële data
MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

Mar 10

ByZongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu

Zelf-evolutie is naar voren gekomen als een belangrijk paradigma om fundamentele modellen, zoals Large Language Models (LLM's) en Vision Language Models (VLM's), te verbeteren met minimale menselijke tussenkomst. Hoewel recente benaderingen hebben aangetoond dat LLM-agents zichzelf vanaf nul kunnen evolueren met weinig tot geen data, brengen VLM's een extra visuele modaliteit met zich mee die typisch op zijn minst wat startdata, zoals afbeeldingen, vereist om het zelf-evolutieproces op gang te brengen. In dit werk presenteren we Multi-model Multimodal Zero (MM-Zero), het eerste op reinforcement learning (RL) gebaseerde raamwerk dat zero-data zelf-evolutie voor VLM-redenering bereikt. Voorbijgaand aan eerdere opstellingen met dubbele rollen (Voorsteller en Oplosser), introduceert MM-Zero een multi-rol zelf-evoluerend trainingsraamwerk bestaande uit drie gespecialiseerde rollen: een Voorsteller die abstracte visuele concepten genereert en vragen formuleert; een Programmeur die deze concepten vertaalt naar uitvoerbare code (bijv. Python, SVG) om visuele afbeeldingen te renderen; en een Oplosser die multimodale redenering uitvoert over de gegenereerde visuele inhoud. Alle drie de rollen worden geïnitialiseerd vanuit hetzelfde basismodel en getraind met Group Relative Policy Optimization (GRPO), met zorgvuldig ontworpen beloningsmechanismen die uitvoeringsfeedback, visuele verificatie en moeilijkheidsbalans integreren. Onze experimenten tonen aan dat MM-Zero de redeneerprestaties van VLM's verbetert over een breed scala aan multimodale benchmarks. MM-Zero vestigt een schaalbare weg naar zelf-evoluerende multi-model systemen voor multimodale modellen, en breidt de grenzen van zelfverbetering uit voorbij het conventionele twee-model paradigma.

Omni-Diffusie: Verenigde Multimodale Begrip en Generatie met Gemaskeerde Discrete Diffusie
Omni-Diffusion: Unified Multimodal Understanding and Generation with Masked Discrete Diffusion

Mar 6

ByLijiang Li, Zuwei Long, Yunhang Shen, Heting Gao, Haoyu Cao, Xing Sun, Caifeng Shan, Ran He, Chaoyou Fu

Hoewel recente multimodale grote-taalmmodellen (MLLM's) indrukwekkende vooruitgang hebben geboekt, gebruiken ze voornamelijk een conventionele autoregressieve architectuur als ruggengraat, waardoor er aanzienlijke ruimte blijft om effectieve en efficiënte alternatieven in de architectuurontwerp te verkennen. Tegelijkertijd hebben recente onderzoeken met succes discrete diffusiemodellen toegepast op verschillende domeinen, zoals visueel begrip en beeldgeneratie, wat hun aanzienlijke potentieel onthult als veelbelovende ruggengraat voor multimodale systemen. Geïnspireerd door dit baanbrekende onderzoek introduceren wij Omni-Diffusion, het eerste alles-naar-alles multimodale taalmodel dat volledig is gebouwd op op masking gebaseerde discrete diffusiemodellen, waardoor begrip en generatie van tekst, spraak en afbeeldingen worden verenigd. Omni-Diffusion gebruikt een verenigd, op masking gebaseerd discrete diffusiemodel om de gezamenlijke verdeling over discrete multimodale tokens direct vast te leggen. Deze aanpak ondersteunt niet alleen bimodale taken, maar ook complexere scenario's met meerdere modaliteiten. Op een diverse reeks benchmarks presteert onze methode beter of vergelijkbaar met bestaande multimodale systemen die twee of meer modaliteiten verwerken, wat de significante belofte van diffusiemodellen benadrukt voor het aansturen van de volgende generatie multimodale foundation-modellen. Projectwebpagina: https://omni-diffusion.github.io.

InternVL-U: Het Democratiseren van Verenigde Multimodale Modellen voor Begrip, Redeneren, Genereren en Bewerken
InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

Mar 10

ByChangyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang

Unified multimodale modellen (UMM's) die begrip, redeneren, genereren en bewerken integreren, worden geconfronteerd met inherente afwegingen tussen het behouden van een sterk semantisch begrip en het verwerven van krachtige generatiecapaciteiten. In dit rapport presenteren we InternVL-U, een lichtgewicht UMM met 4B parameters, die deze mogelijkheden democratiseert binnen een uniform raamwerk. Geleid door de principes van uniforme contextuele modellering en modalitiespecifiek modulair ontwerp met ontkoppelde visuele representaties, integreert InternVL-U een state-of-the-art Multimodaal Taalmodel (MLLM) met een gespecialiseerde visuele generatiekop op basis van MMDiT. Om de kloof tussen esthetische generatie en hoogwaardige intelligentie verder te overbruggen, construeren we een uitgebreide pijplijn voor datasynthese die zich richt op taken met een hoge semantische dichtheid, zoals tekstweergave en wetenschappelijk redeneren, binnen een redeneringsgericht paradigma dat gebruikmaakt van Chain-of-Thought (CoT) om abstracte gebruikersintenties beter af te stemmen op fijnmazige visuele generatiedetails. Uitgebreide experimenten tonen aan dat InternVL-U een superieure balans tussen prestaties en efficiëntie bereikt. Ondanks het gebruik van slechts 4B parameters, presteert het consistent beter dan uniforme basislijnmodellen met meer dan 3x grotere schaal, zoals BAGEL (14B), bij diverse generatie- en bewerkingstaken, terwijl het sterke multimodale begrips- en redeneercapaciteiten behoudt.

Technisch Rapport Fish Audio S2
Fish Audio S2 Technical Report

Mar 9

ByShijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han

Wij introduceren Fish Audio S2, een open-source tekst-naar-spraaksysteem met multi-speaker- en multi-turn-generatie, en, vooral belangrijk, aansturing via instructievolging door middel van natuurlijke-taalbeschrijvingen. Om de training op te schalen, ontwikkelden we een meerfasig trainingsrecept samen met een gefaseerde datapijplijn die videobeschrijving, spraakbeschrijving, beoordeling van stemkwaliteit en reward modeling omvat. Om de grenzen van open-source TTS te verleggen, geven wij onze modelgewichten, fine-tuningcode en een op SGLang gebaseerde inference-engine vrij. De inference-engine is productieklaar voor streaming, met een RTF van 0.195 en een tijd-tot-eerste-audio van minder dan 100 ms. Onze code en gewichten zijn beschikbaar op GitHub (https://github.com/fishaudio/fish-speech) en Hugging Face (https://huggingface.co/fishaudio/s2-pro). Wij raden lezers ten zeerste aan om https://fish.audio te bezoeken om aangepaste stemmen uit te proberen.

Lezen, niet denken: De modaliteitskloof begrijpen en overbruggen wanneer tekst pixels wordt in multimodale LLM's
Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Mar 10

ByKaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai

Multimodale grote taalmodellen (MLLM's) kunnen tekst verwerken die als afbeelding wordt gepresenteerd, maar ze presteren vaak slechter dan wanneer dezelfde inhoud als tekstuele tokens wordt aangeboden. Wij diagnosticeren deze "modaliteitskloof" systematisch door zeven MLLM's te evalueren aan de hand van zeven benchmarks in vijf invoermodi, variërend van synthetisch gegenereerde tekst tot realistische documentafbeeldingen van arXiv-PDF's tot Wikipedia-pagina's. Wij constateren dat de modaliteitskloof taak- en data-afhankelijk is. Bij wiskundetaken bijvoorbeeld daalt de prestaties met meer dan 60 punten bij synthetische weergaven, terwijl natuurlijke documentafbeeldingen vaak even goed of beter presteren dan de tekstmodus. Weergavekeuzes zoals lettertype en resolutie zijn sterke verstorende factoren, waarbij alleen al het lettertype de nauwkeurigheid met tot 47 procentpunten kan beïnvloeden. Om dit te begrijpen, voeren we een grounded-theory foutenanalyse uit van meer dan 4.000 voorbeelden, waaruit blijkt dat de beeldmodus leesfouten selectief versterkt (reken- en opmaakfouten) terwijl kennis- en redeneerfouten grotendeels onveranderd blijven, en dat sommige modellen een keten-van-gedachten redeneercollaps vertonen bij visuele invoer. Gemotiveerd door deze bevindingen stellen we een zelfdistillatiemethode voor waarbij het model wordt getraind op zijn eigen pure tekstredeneringen, gekoppeld aan beeldinvoer. Dit verhoogt de nauwkeurigheid in de beeldmodus op GSM8K van 30,71% naar 92,72% en transferreert naar onbekende benchmarks zonder catastrofale vergetelheid. Over het geheel genomen biedt onze studie een systematisch inzicht in de modaliteitskloof en wijst het een praktisch pad aan om het visuele tekstbegrip in multimodale taalmodellen te verbeteren.

VLMs de Baan Op: Een Benchmark voor Ruimtelijk Inzicht in Sport
Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Mar 10

ByYuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong

Sport heeft altijd brede aandacht getrokken omdat het de grenzen van menselijke fysieke en cognitieve vermogens verlegt. Tegen de achtergrond van groeiende interesse in ruimtelijke intelligentie voor vision-language modellen (VLMs) bieden sporten een natuurlijke testomgeving voor het begrijpen van hoogintensieve menselijke beweging en dynamische objectinteracties. Daarom presenteren wij CourtSI, de eerste grootschalige dataset voor ruimtelijke intelligentie die specifiek is toegesneden op sportsituaties. CourtSI bevat meer dan 1 miljoen vraag-antwoordparen, georganiseerd volgens een holistische taxonomie die systematisch ruimtelijk tellen, afstandsmeting, lokalisatie en relationeel redeneren dekt, voor representatieve netsporten zoals badminton, tennis en tafeltennis. Door gebruik te maken van goed gedefinieerde baanmeetkunde als metrieke ankers, ontwikkelden we een semi-automatische data-engine om sportsituaties te reconstrueren, wat een schaalbare samenstelling van CourtSI mogelijk maakt. Daarnaast introduceren we CourtSI-Bench, een hoogwaardige evaluatiestandaard bestaande uit 3.686 vraag-antwoordparen met rigoureuze menselijke verificatie. We evalueren 25 propriëtaire en open-source VLMs op CourtSI-Bench, wat een aanhoudende prestatiekloof tussen mens en AI en beperkte generalisatie vanuit bestaande benchmarks voor ruimtelijke intelligentie aan het licht brengt. Deze bevindingen geven aan dat sportsituaties beperkingen blootleggen in ruimtelijke intelligentiecapaciteiten die door bestaande benchmarks worden gemeten. Bovendien verbetert fine-tuning van Qwen3-VL-8B op CourtSI de nauwkeurigheid op CourtSI-Bench met 23,5 procentpunten. Het aangepaste model generaliseert ook effectief naar CourtSI-Ext, een evaluatieset gebaseerd op een vergelijkbare maar onbekende sport, en toont verbeterde generatie van ruimtelijk bewuste commentaar. Samen tonen deze bevindingen aan dat CourtSI een schaalbare weg biedt om de ruimtelijke intelligentie van VLMs in sport te bevorderen.

MiniAppBench: Evaluatie van de verschuiving van tekst naar interactieve HTML-reacties in door LLM aangedreven assistenten
MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Mar 10

ByZuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li

Met de snelle vooruitgang van Large Language Models (LLM's) op het gebied van codegeneratie, evolueert de mens-AI-interactie van statische tekstreacties naar dynamische, interactieve HTML-gebaseerde applicaties, die we MiniApps noemen. Deze applicaties vereisen dat modellen niet alleen visuele interfaces renderen, maar ook gepersonaliseerde interactielogica construeren die aan real-world principes voldoet. Echter richten bestaande benchmarks zich voornamelijk op algoritmische correctheid of statische layoutreconstructie, waardoor ze de vereiste capaciteiten voor dit nieuwe paradigma niet vastleggen. Om deze kloof te dichten, introduceren we MiniAppBench, de eerste uitgebreide benchmark die is ontworpen om principegedreven, interactieve applicatiegeneratie te evalueren. Verzameld uit een real-world applicatie met meer dan 10 miljoen gegenereerde voorbeelden, destilleert MiniAppBench 500 taken uit zes domeinen (zoals Games, Wetenschap en Tools). Verder introduceren we, om de uitdaging van het evalueren van open-einde interacties waarbij geen enkele ground truth bestaat aan te pakken, MiniAppEval, een agent-gebaseerd evaluatieraamwerk. Door gebruik te maken van browserautomatisering, voert het mensachtige verkennende tests uit om applicaties systematisch te beoordelen op drie dimensies: Intentie, Statisch en Dynamisch. Onze experimenten tonen aan dat huidige LLM's nog steeds aanzienlijke uitdagingen ondervinden bij het genereren van hoogwaardige MiniApps, terwijl MiniAppEval een hoge alignatie met menselijk oordeel demonstreert, wat een betrouwbare standaard voor toekomstig onderzoek vestigt. Onze code is beschikbaar op github.com/MiniAppBench.

Luisteren Audio-Taalmodellen? Audio-Specialist Heads voor Adaptieve Audiosturing
Are Audio-Language Models Listening? Audio-Specialist Heads for Adaptive Audio Steering

Mar 6

ByNeta Glazer, Lenny Aharon, Ethan Fetaya

Multimodale grote taalmodellen kunnen tekstdominantie vertonen, waarbij ze te veel leunen op linguïstische voorkennis in plaats van voorspellingen te grondvesten op niet-tekstuele invoer. Een voorbeeld zijn grote audio-taalmodellen (LALMs), waar doorslaggevend audiobewijs onderbenut kan blijven, zelfs wanneer het cruciale informatie bevat. Om dit probleem aan te pakken, gebruiken we mechanistische interpreteerbaarheid om een kleine set audio-specialistische aandachtshoofden te identificeren, wier audio-aandacht een "luister"-signaal oplevert. We tonen aan dat dit signaal toeneemt wanneer audiobewijs de output van het model beïnvloedt, wat een indicator vormt van audio-engagement onder standaard prompting. Gebruikmakend van deze lokalisatie construeren we een audio–stilte-stuurrichting en passen we een interventie op de activatie tijdens inferentie toe op de uiteindelijke representatie, waardoor het audio-effect van het model wordt versterkt. Om de bruikbaarheid van deze interventie aan te tonen, laten we op MMAU zien dat dit de nauwkeurigheid met tot +8,0 procentpunt verbetert bij twee op Qwen gebaseerde LALMs, zonder enige parameterupdates.

VLM-SubtleBench: Hoe Ver Zijn VLMs Verwijderd van Menselijk Subtiel Vergelijkend Redeneren?
VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Mar 9

ByMinkyu Kim, Sangheon Lee, Dongmin Park

Het vermogen om subtiele verschillen tussen visueel gelijkaardige beelden te onderscheiden is essentieel voor uiteenlopende domeinen zoals industriële anomaliedetectie, medische beeldvorming en luchtbewaking. Hoewel er recent vergelijkende redeneerbenchmarks voor visie-taalmodellen (VLM's) zijn verschenen, richten deze zich voornamelijk op beelden met grote, opvallende verschillen en slagen zij er niet in de genuanceerde redenering te vatten die nodig is voor real-world toepassingen. In dit werk introduceren we VLM-SubtleBench, een benchmark ontworpen om VLM's te evalueren op subtiel vergelijkend redeneren. Onze benchmark omvat tien verschiltypes - Attribuut, Toestand, Emotie, Temporeel, Ruimtelijk, Bestaan, Hoeveelheid, Kwaliteit, Gezichtspunt en Handeling - en stelt gekoppelde vraag-beeld sets samen die deze fijnmazige variaties weerspiegelen. In tegenstelling tot eerdere benchmarks die beperkt zijn tot natuurlijke beelddatasets, omspant onze benchmark diverse domeinen, waaronder industriële, lucht- en medische beelden. Door uitgebreide evaluatie van zowel propriëtaire als open-source VLM's, leggen we systematische kloofjes bloot tussen model- en menselijke prestaties across verschiltypes en domeinen, en bieden we gecontroleerde analyses die belichten waar het redeneren van VLM's sterk verslechtert. Samen leggen onze benchmark en bevindingen een fundament voor het bevorderen van VLM's naar menselijk niveau van vergelijkend redeneren.

Doe Wat Ik Zeg: Een Gesproken Promptdataset voor Instructievolging
Do What I Say: A Spoken Prompt Dataset for Instruction-Following

Mar 10

ByMaike Züfle, Sara Papi, Fabian Retkowski, Szymon Mazurek, Marek Kasztelnik, Alexander Waibel, Luisa Bentivogli, Jan Niehues

Spraak Large Language Models (SLLMs) hebben zich snel uitgebreid en ondersteunen een breed scala aan taken. Deze modellen worden doorgaans geëvalueerd met behulp van tekstprompts, wat mogelijk niet overeenkomt met realistische scenario's waarin gebruikers via spraak interacteren. Om dit hiaat te adresseren, introduceren we DoWhatISay (DOWIS), een meertalige dataset van door mensen ingesproken en geschreven prompts, ontworpen om te worden gekoppeld aan elke bestaande benchmark voor een realistische evaluatie van SLLMs onder gesproken instructie-omstandigheden. De dataset beslaat 9 taken en 11 talen, en biedt per taak-taalcombinatie 10 promptvarianten, verdeeld over vijf stijlen. Met behulp van DOWIS benchmarken we state-of-the-art SLLMs en analyseren we de wisselwerking tussen promptmodaliteit, stijl, taal en taaktype. Resultaten tonen aan dat tekstprompts consequent beter presteren dan gesproken prompts, met name in settings met weinig bronnen (low-resource) en cross-linguale settings. Alleen voor taken met spraakuitvoer sluiten gesproken prompts de kloof, wat de noodzaak van spraakgebaseerde prompting in SLLM-evaluatie benadrukt.

Ontkoppeling van Redeneren en Vertrouwen: Herstel van Calibratie bij Reinforcement Learning met Verifieerbare Beloningen
Decoupling Reasoning and Confidence: Resurrecting Calibration in Reinforcement Learning from Verifiable Rewards

Mar 10

ByZhengzhao Ma, Xueru Wen, Boxi Cao, Yaojie Lu, Hongyu Lin, Jinglin Yang, Min He, Xianpei Han, Le Sun

Reinforcement Learning from Verifiable Rewards (RLVR) verbetert de redeneervaardigheid van grote taalmodellen (LLM's) aanzienlijk, maar lijdt ernstig onder calibratiedegeneratie, waarbij modellen excessief overtuigd raken van onjuiste antwoorden. Eerdere studies richten zich op het direct integreren van een calibratiedoelstelling in de bestaande optimalisatiedoelstelling. Onze theoretische analyse toont echter aan dat er een fundamenteel gradientconflict bestaat tussen de optimalisatie voor het maximaliseren van de beleidsnauwkeurigheid en het minimaliseren van de calibratiefout. Op basis van dit inzicht presenteren we DCPO, een eenvoudig maar effectief raamwerk dat de redeneer- en calibratiedoelstellingen systematisch ontkoppelt. Uitgebreide experimenten tonen aan dat onze DCPO niet alleen een nauwkeurigheid behoudt die vergelijkbaar is met GRPO, maar ook de beste calibratieprestatie bereikt en het overmatige vertrouwen aanzienlijk vermindert. Onze studie biedt waardevolle inzichten en een praktische oplossing voor een betrouwbaardere inzet van LLM's.

Test-Gedreven AI Agent Definitie (TDAD): Het Compileren van Hulpmiddel-Gebruikende Agents vanuit Gedragsspecificaties
Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

Mar 9

ByTzafrir Rehan

Wij presenteren Test-Driven AI Agent Definition (TDAD), een methodologie die agent-prompts behandelt als gecompileerde artefacten: ingenieurs gedrags-specificaties aan, een coderende agent zet deze om in uitvoerbare tests, en een tweede coderende agent verfijnt de prompt iteratief totdat de tests slagen. Het in productie nemen van tool-gebruikende LLM-agenten vereist meetbare gedragsconformiteit die huidige ontwikkelingspraktijken niet kunnen bieden. Kleine promptwijzigingen veroorzaken stille regressies, misbruik van tools wordt niet gedetecteerd, en beleidsovertredingen komen pas na implementatie aan het licht. Om specificatie-manipulatie tegen te gaan, introduceert TDAD drie mechanismen: (1) zichtbare/verborgen test-splitsingen die evaluatietests tijdens de compilatie achterhouden, (2) semantische mutatietesten via een post-compilatie-agent die plausibele foutieve promptvarianten genereert, waarbij het testraamwerk meet of de testsuite deze detecteert, en (3) specificatie-evolutiescenario's die regressieveiligheid kwantificeren wanneer vereisten veranderen. Wij evalueren TDAD op SpecSuite-Core, een benchmark van vier grondig gespecificeerde agents op het gebied van beleidsconformiteit, gegronde analyses, runbook-naleving en deterministische handhaving. Over 24 onafhankelijke trials behaalt TDAD een compilatiesucces van 92% voor v1 met een gemiddeld slagingspercentage van 97% op verborgen tests; geëvolueerde specificaties compileren in 58% van de gevallen, waarbij de meeste mislukte runs alle zichtbare tests behalve 1-2 doorstaan, en tonen mutatiescores van 86-100%, een slagingspercentage van 78% op verborgen v2-tests, en regressieveiligheidscores van 97%. De implementatie is beschikbaar als een open benchmark op https://github.com/f-labs-io/tdad-paper-code.

Naar een Neurale Debugger voor Python
Towards a Neural Debugger for Python

Mar 10

ByMaximilian Beck, Jonas Gehring, Jannik Kossen, Gabriel Synnaeve

Het trainen van grote taalmodellen (LLM's) op Python-uitvoeringstraces verankert ze in code-uitvoering en stelt ze in staat om de regel-voor-regel-uitvoering van volledige Python-programma's te voorspellen, waardoor ze in feite worden getransformeerd tot neurale interpreters (FAIR CodeGen Team et al., 2025). Ontwikkelaars voeren programma's echter zelden stap voor stap uit; in plaats daarvan gebruiken ze debuggers om de uitvoering op bepaalde breekpunten te stoppen en alleen relevante delen door te lopen terwijl ze programmavariabelen inspecteren of aanpassen. Bestaande neurale interpreter-benaderingen missen dergelijke interactieve controle. Om deze beperking aan te pakken, introduceren we neurale debuggers: taalmodellen die traditionele debuggers nabootsen en operaties ondersteunen zoals *stepping into*, *over* of *out* van functies, evenals het instellen van breekpunten op specifieke broncoderegels. Wij tonen aan dat neurale debuggers – verkregen via *fine-tuning* van grote LLM's of *pre-training* van kleinere modellen vanaf nul – zowel voorwaartse uitvoering (het voorspellen van toekomstige staten en outputs) als inverse uitvoering (het afleiden van voorgaande staten of inputs) betrouwbaar kunnen modelleren, geconditioneerd op debugger-acties. Geëvalueerd op CruxEval behalen onze modellen sterke prestaties voor zowel output- als inputvoorspellingstaken, wat duidt op robuuste conditionele uitvoeringsmodellering. Ons werk zet de eerste stappen naar toekomstige *agentic* coderingssystemen waarin neurale debuggers dienen als een wereldmodel voor gesimuleerde debug-omgevingen, waarbij ze uitvoeringsfeedback verschaffen of *agents* in staat stellen om te interageren met echte debugtools. Deze mogelijkheid legt de basis voor krachtigere codegeneratie, programma-begrip en geautomatiseerd debuggen.

De redeneerval – logisch redeneren als een mechanistisch pad naar situationeel bewustzijn
The Reasoning Trap -- Logical Reasoning as a Mechanistic Pathway to Situational Awareness

Mar 10

BySubramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

Situational awareness, het vermogen van een AI-systeem om zijn eigen aard te herkennen, zijn trainings- en inzetcontext te begrijpen en strategisch te redeneren over zijn omstandigheden, wordt algemeen beschouwd als een van de gevaarlijkste emergent capabilities in geavanceerde AI-systemen. Tegelijkertijd is er een groeiende onderzoeksinspanning om de logische redeneervermogens van large language models (LLM's) te verbeteren op het gebied van deductie, inductie en abductie. In dit artikel betogen wij dat deze twee onderzoekslijnen op een ramkoers liggen. Wij introduceren het RAISE-framework (Reasoning Advancing Into Self Examination), dat drie mechanistische paden identificeert waarlangs verbeteringen in logisch redeneren progressief diepere niveaus van situationeel bewustzijn mogelijk maken: deductieve zelfinferentie, inductieve contextherkenning en abductief zelfmodelleren. Wij formaliseren elk pad, construeren een escalatieladder van basale zelfherkenning tot strategische misleiding, en tonen aan dat elk belangrijk onderzoeksonderwerp in logisch redeneren bij LLM's direct mapt op een specifieke versterker van situationeel bewustzijn. Verder analyseren wij waarom de huidige veiligheidsmaatregelen ontoereikend zijn om deze escalatie te voorkomen. Wij sluiten af met het voorstellen van concrete waarborgen, waaronder een "Mirror Test"-benchmark en een Reasoning Safety Parity Principle, en stellen de logische redeneergemeenschap een ongemakkelijke maar noodzakelijke vraag over haar verantwoordelijkheid in dit traject.

Streaming Autoregressieve Videogeneratie via Diagonale Destillatie
Streaming Autoregressive Video Generation via Diagonal Distillation

Mar 10

ByJinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang Liu

Grote voorgetrainde diffusiemodellen hebben de kwaliteit van gegenereerde video's aanzienlijk verbeterd, maar hun toepassing in real-time streaming blijft beperkt. Autoregressieve modellen bieden een natuurlijk kader voor sequentiële framesynthese, maar vereisen zware berekeningen om hoge kwaliteit te bereiken. Diffusiedistillatie kan deze modellen comprimeren tot efficiënte varianten met weinig stappen, maar bestaande videodistillatiebenaderingen passen grotendeels beeld-specifieke methoden aan die temporele afhankelijkheden verwaarlozen. Deze technieken excelleren vaak in beeldgeneratie, maar presteren minder goed in videosynthese, met verminderde bewegingscoherentie, foutaccumulatie over lange sequenties en een latentie-kwaliteit afweging. Wij identificeren twee factoren die tot deze beperkingen leiden: onvoldoende benutting van temporele context tijdens stapreductie en impliciete voorspelling van opeenvolgende ruisniveaus in volgende-segmentvoorspelling (d.w.z. exposure bias). Om deze problemen aan te pakken, stellen wij Diagonale Distillatie voor, die orthogonaal opereert ten opzichte van bestaande benaderingen en temporele informatie beter benut over zowel videosegmenten als denoisestappen. Centraal in onze aanpak staat een asymmetrische generatiestrategie: meer stappen vroeg, minder stappen later. Dit ontwerp laat latere segmenten rijke appearance-informatie erven van grondig verwerkte vroege segmenten, terwijl gedeeltelijk gedenoiseerde segmenten als conditionele invoer worden gebruikt voor vervolgsynthese. Door de impliciete voorspelling van opeenvolgende ruisniveaus tijdens segmentgeneratie af te stemmen op de werkelijke inferentievoorwaarden, vermindert onze aanpak foutpropagatie en oversaturatie in lange sequenties. Wij integreren verder impliciete optische stroommodellering om bewegingskwaliteit te behouden onder strikte stapbeperkingen. Onze methode genereert een video van 5 seconden in 2,61 seconden (tot 31 FPS), wat een 277,3x versnelling oplevert ten opzichte van het ongedistilleerde model.

ReflexiCoder: Grote Taalmodellen Leren om Zelfreflectie toe te Passen op Gegenereerde Code en deze Zelf te Corrigeren via Reinforcement Learning
ReflexiCoder: Teaching Large Language Models to Self-Reflect on Generated Code and Self-Correct It via Reinforcement Learning

Mar 6

ByJuyong Jiang, Jiasi Shen, Sunghun Kim, Kang Min Yoo, Jeonghoon Kim, Sungju Kim

Hoewel Large Language Models (LLM's) een revolutie teweeg hebben gebracht in codegeneratie, stuiten standaard "Systeem 1"-benaderingen, die oplossingen genereren in een enkele voorwaartse pass, vaak op een prestatielimiet bij complexe algoritmische taken. Bestaande iteratieve verfijningsstrategieën proberen deze kloof tijdens inferentie te overbruggen, maar zij zijn voornamelijk afhankelijk van externe orakels, uitvoeringsfeedback of rekenintensieve prompt-responscycli. In dit werk stellen wij ReflexiCoder voor, een nieuw reinforcement learning (RL)-raamwerk dat de gestructureerde redeneertrajecten, bestaande uit initiële generatie, reflectie met bewustzijn van bugs en optimalisatie, en zelfcorrectie, internaliseert direct in de gewichten van het model. In tegenstelling tot eerdere methoden verschuift ReflexiCoder het paradigma van externe-afhankelijke verfijning naar intrinsieke, volledig autonome zelfreflectie- en zelfcorrectiecapaciteiten tijdens inferentie. Wij gebruiken een RL-zero trainingsparadigma met gedetailleerde beloningsfuncties om het volledige reflectie-correctietraject te optimaliseren, waarbij het model leert debuggen zonder afhankelijkheid van grond-waarheid-feedback of uitvoeringsengines tijdens inferentie. Uitgebreide experimenten over zeven benchmarks tonen aan dat onze ReflexiCoder-8B een nieuwe state-of-the-art (SOTA) vestigt onder toonaangevende open-source modellen in het bereik van 1.5B-14B, met scores van 94.51% (87.20%) op HumanEval (Plus), 81.80% (78.57%) op MBPP (Plus), 35.00% op BigCodeBench, 52.21% op LiveCodeBench en 37.34% op CodeForces in een enkele-poging setting, wat wedijvert met of zelfs superieur is aan propriëtaire modellen zoals GPT-5.1. Opmerkelijk is dat ons raamwerk aanzienlijk token-efficiënter is dan basismodellen, waardoor de rekentijd-overhead tijdens inferentie met ongeveer 40% wordt verminderd door middel van gedisciplineerde, hoogwaardige redeneer- en reflectiepatronen. De broncode is beschikbaar op https://github.com/juyongjiang/ReflexiCoder.

Meerhoofdige Lagedimensionele Aandacht
Multi-Head Low-Rank Attention

Mar 2

BySongtao Liu, Hongwu Peng, Zhiwei Zhang, Zhengyu Chen, Yue Guo

Lang-context inferentie in grote taalmodellen wordt beperkt door het laden van de Key-Value (KV) cache tijdens de decoderingfase, waarbij de sequentiële aard van genereren herhaaldelijk overdracht van de KV-cache van off-chip High-Bandwidth Memory (HBM) naar on-chip Static Random-Access Memory (SRAM) vereist bij elke stap. Hoewel Multi-Head Latent Attention (MLA) de totale KV-cachegrootte aanzienlijk reduceert, kampt het met een sharding-beperking tijdens gedistribueerde decodering via Tensor Parallelism (TP). Omdat de enkele latente head niet kan worden gepartitioneerd, wordt elk apparaat gedwongen om de volledige KV-cache redundant te laden voor elke token, wat excessief geheugenverkeer verbruikt en TP-voordelen zoals gewichtssharding vermindert. In dit werk stellen we Multi-Head Low-Rank Attention (MLRA) voor, dat partitieerbare latente toestanden mogelijk maakt voor efficiënte 4-way TP-decodering. Uitgebreide experimenten tonen aan dat MLRA state-of-the-art perplexiteit en prestaties op downstreamtaken bereikt, terwijl het ook een 2,8x versnelling in decoderingssnelheid behaalt ten opzichte van MLA. Code is beschikbaar op https://github.com/SongtaoLiu0823/MLRA. Vooraf getrainde gewichten, samen met de trainings- en evaluatiedata, zijn beschikbaar op https://huggingface.co/Soughing/MLRA.

BrandFusion: Een Multi-Agent Raamwerk voor Naadloze Brandintegratie in Tekst-Naar-Video Generatie
BrandFusion: A Multi-Agent Framework for Seamless Brand Integration in Text-to-Video Generation

Mar 3

ByZihao Zhu, Ruotong Wang, Siwei Lyu, Min Zhang, Baoyuan Wu

De snelle vooruitgang van tekst-naar-video (T2V) modellen heeft een revolutie teweeggebracht in contentcreatie, maar hun commercieel potentieel blijft grotendeels onbenut. Wij introduceren, voor het eerst, de taak van naadloze merkintegratie in T2V: het automatisch inbedden van adverteerdersmerken in door prompts gegenereerde video's, waarbij de semantische trouw aan de gebruikersintentie behouden blijft. Deze taak kampt met drie kernuitdagingen: het handhaven van prompttrouw, het waarborgen van merkherkenbaarheid en het bereiken van contextueel natuurlijke integratie. Om deze aan te pakken, stellen we BrandFusion voor, een nieuw multi-agent raamwerk dat bestaat uit twee synergetische fasen. In de offline fase (gericht op adverteerders) construeren we een Merkkennisdatabase door modelpriors te onderzoeken en aan te passen aan nieuwe merken via lichtgewicht fine-tuning. In de online fase (gericht op gebruikers) verfijnen vijf agents gezamenlijk gebruikersprompts door iteratieve verbetering, waarbij ze gebruikmaken van de gedeelde kennisdatabase en real-time contextuele tracking om merkzichtbaarheid en semantische afstemming te garanderen. Experimenten met 18 gevestigde en 2 aangepaste merken over meerdere state-of-the-art T2V-modellen tonen aan dat BrandFusion baseline-methoden significant overtreft in semantisch behoud, merkherkenbaarheid en integratienaturaliteit. Menselijke evaluaties bevestigen verder een hogere gebruikers tevredenheid, waarmee een praktisch pad wordt gevestigd voor duurzame T2V-monetarisering.

Beloningsvoorspelling met Gefactoriseerde Wereldtoestanden
Reward Prediction with Factorized World States

Mar 10

ByYijun Shen, Delong Chen, Xianming Hu, Jiaming Mi, Hongbo Zhao, Kai Zhang, Pascale Fung

Agenten moeten de uitkomsten van acties afleiden en handelingen selecteren die een beloningssignaal maximaliseren dat aangeeft hoe dicht het doel bij bereiking is. Supervised learning van beloningsmodellen kan vooroordelen introduceren die inherent zijn aan trainingsdata, wat de generalisatie naar nieuwe doelen en omgevingen beperkt. In dit artikel onderzoeken we of goed gedefinieerde wereldtoestandrepresentaties op zichzelf accurate beloningsvoorspelling over domeinen heen mogelijk kunnen maken. Om dit aan te pakken, introduceren we StateFactory, een gefactoriseerde representatiemethode die ongestructureerde observaties transformeert naar een hiërarchische object-attribuutstructuur met behulp van taalmodel(len). Deze gestructureerde representatie maakt het mogelijk om beloningen natuurlijk in te schatten als de semantische gelijkenis tussen de huidige toestand en de doeltoestand onder hiërarchische beperking. Over het geheel genomen maakt de compacte representatiestructuur, geïnduceerd door StateFactory, sterke beloningsgeneraliseermogelijkheden mogelijk. We evalueren op RewardPrediction, een nieuwe benchmarkdataset die vijf diverse domeinen omvat en bestaat uit 2.454 unieke actie-observatietrajecten met stapsgewijze ground-truth beloningen. Onze methode toont veelbelovende zero-shot resultaten tegen zowel VLWM-critic- als LLM-as-a-Judge beloningsmodellen, met respectievelijk 60% en 8% lagere EPIC-afstand. Bovendien vertaalt deze superieure beloningskwaliteit zich succesvol in verbeterde planningsprestaties van agenten, wat successratio-winsten oplevert van +21,64% op AlfWorld en +12,40% op ScienceWorld ten opzichte van reactieve systeem-1-beleidsregels en de planning van systeem-2-agenten verbetert. Projectpagina: https://statefactory.github.io

BiCLIP: Domeincanonisering via gestructureerde geometrische transformatie
BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Mar 9

ByPranav Mantini, Shishir K. Shah

Recente vooruitgang in vision-language modellen (VLM's) heeft opmerkelijke zero-shot capaciteiten aangetoond, maar het aanpassen van deze modellen aan gespecialiseerde domeinen blijft een aanzienlijke uitdaging. Voortbouwend op recente theoretische inzichten die suggereren dat onafhankelijk getrainde VLM's verbonden zijn door een canonieke transformatie, breiden we dit begrip uit naar het concept van domeinen. Wij veronderstellen dat beeldkenmerken over uiteenlopende domeinen verbonden zijn door een genormaliseerde geometrische transformatie die kan worden gereconstrueerd met behulp van een kleine set ankerpunten. Few-shot classificatie biedt een natuurlijke setting voor deze uitlijning, aangezien de beperkte gelabelde voorbeelden dienen als de ankerpunten die nodig zijn om deze transformatie te schatten. Gemotiveerd door deze hypothese introduceren we BiCLIP, een raamwerk dat een gerichte transformatie toepast op multimodale kenmerken om de cross-modale uitlijning te verbeteren. Onze aanpak kenmerkt zich door extreme eenvoud en een lage parameterfootprint. Uitgebreide evaluaties over 11 standaard benchmarks, waaronder EuroSAT, DTD en FGVCAircraft, tonen aan dat BiCLIP consistent state-of-the-art resultaten behaalt. Verder leveren we empirische verificatie van bestaande geometrische bevindingen door de orthogonaliteit en hoekverdeling van de geleerde transformaties te analyseren, wat bevestigt dat gestructureerde uitlijning de sleutel is tot robuuste domeinadaptatie. Code is beschikbaar op https://github.com/QuantitativeImagingLaboratory/BilinearCLIP.

SAHOO: Beschermde Afstemming voor Optimalisatiedoelen van Hogere Orde bij Recursieve Zelfverbetering
SAHOO: Safeguarded Alignment for High-Order Optimization Objectives in Recursive Self-Improvement

Mar 6

BySubramanyam Sahoo, Aman Chadha, Vinija Jain, Divya Chaudhary

Recursieve zelfverbetering maakt de overgang van theorie naar praktijk: moderne systemen kunnen hun eigen output beoordelen, herzien en evalueren, maar iteratieve zelfmodificatie brengt het risico van subtiele alignment-drift met zich mee. Wij introduceren SAHOO, een praktisch raamwerk om deze drift te monitoren en beheersen via drie veiligheidsmaatregelen: (i) de Goal Drift Index (GDI), een aangeleerde multi-signaaldetector die semantische, lexicale, structurele en distributionele metingen combineert; (ii) constraint preservation checks die veiligheidskritieke invarianten handhaven, zoals syntactische correctheid en het vermijden van hallucinaties; en (iii) regressierisico-kwantificering om verbeteringscycli te signaleren die eerdere winsten tenietdoen. Over 189 taken in codegeneratie, wiskundig redeneren en waarheidsgetrouwheid boekt SAHOO aanzienlijke kwaliteitswinst, waaronder een verbetering van 18,3 procent in codetaken en 16,8 procent in redeneertaken, terwijl de constraints in twee domeinen worden behouden en de overtredingen in waarheidsgetrouwheid laag blijven. Drempelwaarden worden gekalibreerd op een kleine validatieset van 18 taken over drie cycli. Verder brengen we de capability-alignment frontier in kaart, waarbij efficiënte vroege verbeteringscycli zichtbaar worden, maar de alignment-kosten later stijgen en domeinspecifieke spanningen blootleggen, zoals vlotheid versus feitelijkheid. SAHOO maakt het behoud van alignment tijdens recursieve zelfverbetering daardoor meetbaar, inzetbaar en systematisch op schaal valideerbaar.

Micro-Diffusiecompressie — Binaire Boom Tweedie-ruisonderdrukking voor Online Waarschijnlijkheidsschatting
Micro-Diffusion Compression -- Binary Tree Tweedie Denoising for Online Probability Estimation

Mar 9

ByRoberto Tacconelli

Wij presenteren Midicoth, een verliesloos compressiesysteem dat een micro-diffusie-denoisinglaag introduceert om de door adaptieve statistische modellen gegenereerde waarschijnlijkheidsschattingen te verbeteren. In compressoren zoals Prediction by Partial Matching (PPM) worden waarschijnlijkheidsschattingen gladgestreken door een prior om schaarse waarnemingen te hanteren. Wanneer contexten slechts enkele keren zijn waargenomen, domineert deze prior de voorspelling en produceert deze verdelingen die aanzienlijk platter zijn dan de werkelijke brondistributie, wat leidt tot compressie-inefficiëntie. Midicoth lost deze beperking op door prior-gladstelling te behandelen als een krimpproces en een omgekeerde denoisingstap toe te passen die de voorspelde kansen corrigeert met behulp van empirische kalibratiestatistieken. Om deze correctie data-efficiënt te maken, deelt de methode elke bytevoorspelling op in een hiërarchie van binaire beslissingen langs een bitgewijs boomstructuur. Dit zet een enkel 256-waardig kalibratieprobleem om in een reeks binaire kalibratietaken, waardoor betrouwbare schattingen van correctietermen mogelijk worden met relatief weinig waarnemingen. Het denoisingproces wordt in meerdere opeenvolgende stappen toegepast, waardoor elke fase resterende voorspellingsfouten van de vorige fase kan verfijnen. De micro-diffusielaag functioneert als een lichtgewicht kalibratiefase die na het combineren van alle modelvoorspellingen wordt toegepast, waardoor deze systematische vertekeningen in de uiteindelijke kansverdeling kan corrigeren. Midicoth combineert vijf volledig online componenten: een adaptief PPM-model, een long-range match-model, een op een trie gebaseerd woordmodel, een high-order contextmodel en de micro-diffusie-denoiser die als laatste fase wordt toegepast.

Compiler-First State Space Dualiteit en Draagbare O(1) Autoregressieve Caching voor Inferentie
Compiler-First State Space Duality and Portable O(1) Autoregressive Caching for Inference

Mar 10

ByCosmo Santoni

State-space model-implementaties zijn doorgaans gekoppeld aan gefuseerde CUDA- en Triton-kernels, wat een harde afhankelijkheid van NVIDIA-hardware met zich meebrengt. Wij tonen aan dat Mamba-2's state-space dualiteitsalgoritme – diagonale staatstructuur, chunkbare recurrentie en einsum-gedomineerd rekenwerk met statische control flow – naadloos aansluit bij wat XLA's fusie- en tiling-passes daadwerkelijk optimaliseren, waardoor aangepaste kernels optioneel worden in plaats van vereist. Wij implementeren het volledige inferentiepad (prefill, gecachte autoregressieve decodering) als gevormde standaardprimitieven onder XLA, zonder handgeschreven kernels, en realiseren de architectuur's theoretische O(1) staatbeheer als een gecompileerde on-device cache die geen hostsynchronisatie vereist tijdens generatie. De implementatie draait ongewijzigd op CPU, NVIDIA GPU en Google Cloud TPU vanuit een enkele JAX-bron. Op TPU v5e over vijf modelschalen (130M–2,7B parameters) bereikt XLA-gegenereerde code ongeveer 140 TFLOPS op single-stream prefill (15% MFU) en tot 64% bandbreedtebenutting bij decodering. Greedy decodering komt token-voor-token overeen met de PyTorch/CUDA-referentie over 64 stappen, met overeenstemming van de verborgen toestanden binnen de float32-afrondingstolerantie. Het patroon is overdraagbaar naar elke SSM-recurrentie die aan dezelfde structurele voorwaarden voldoet, op elk platform met een volwassen XLA-backend. De implementatie is publiekelijk beschikbaar op https://github.com/CosmoNaught/mamba2-jax en opgenomen in de Bonsai JAX-modelbibliotheek.

Bolbosh: Script-bewuste Flow Matching voor Kasjmiri Tekst-naar-Spraak
Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Mar 8

ByTajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir

Het Kasjmiri wordt door ongeveer 7 miljoen mensen gesproken, maar blijft ernstig onderbedeeld op het gebied van spraaktechnologie, ondanks zijn officiële status en rijke taalkundige erfgoed. Het ontbreken van robuuste tekst-naar-spraak (TTS)-systemen beperkt de digitale toegankelijkheid en inclusieve mens-computerinteractie voor moedertaalsprekers. In dit werk presenteren we het eerste toegewijde open-source neurale TTS-systeem dat voor het Kasjmiri is ontworpen. We tonen aan dat zero-shot meertalige basislijnen die voor Indo-Arische talen zijn getraind, geen verstaanbare spraak produceren, met een Mean Opinion Score (MOS) van slechts 1,86, voornamelijk als gevolg van onvoldoende modellering van Perso-Arabische diakritische tekens en taal-specifieke fonotaxis. Om deze beperkingen aan te pakken, stellen we Bolbosh voor, een supervised cross-linguale adaptatiestrategie gebaseerd op Optimal Transport Conditional Flow Matching (OT-CFM) binnen het Matcha-TTS-framework. Dit maakt stabiele alignering mogelijk bij beperkte gepaarde data. We introduceren verder een drietraps pipeline voor akoestische verbetering, bestaande uit dereverberatie, stilte-afkapping en luidheidsnormalisatie, om heterogene spraakbronnen te verenigen en het aligneringsleren te stabiliseren. De modelvocabulaire wordt uitgebreid om Kasjmiri-grafemen expliciet te coderen, waarbij fijnmazige klinkeronderscheiden behouden blijven. Ons systeem behaalt een MOS van 3,63 en een Mel-Cepstral Distortion (MCD) van 3,73, wat de meertalige basislijnen aanzienlijk overtreft en een nieuwe benchmark vestigt voor Kasjmiri-spraaksynthese. Onze resultaten tonen aan dat script-aware en supervised flow-gebaseerde adaptatie cruciaal zijn voor TTS met weinig bronnen in talen die gevoelig zijn voor diakritische tekens. Code en data zijn beschikbaar op: https://github.com/gaash-lab/Bolbosh.

ConFu: Contempleer de Toekomst voor Beter Speculatief Samplen
ConFu: Contemplate the Future for Better Speculative Sampling

Mar 9

ByZongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun

Speculatief decoderen is naar voren gekomen als een krachtige benadering om de inferentie van grote taalmodellen (LLM's) te versnellen door gebruik te maken van lichtgewicht conceptmodellen die kandidaat-tokens voorstellen, die vervolgens worden geverifieerd door het doelmodel. De effectiviteit van dit paradigma hangt kritisch af van de kwaliteit van het conceptmodel. Hoewel recente vorderingen, zoals de EAGLE-reeks, state-of-the-art versnelling bereiken, worden bestaande conceptmodellen nog steeds beperkt door foutaccumulatie: ze baseren zich alleen op het huidige voorvoegsel, waardoor hun voorspellingen na verloop van stappen afdrijven van het doelmodel. In dit werk stellen we ConFu (Contemplate the Future) voor, een nieuw speculatief decoderingsraamwerk dat conceptmodellen in staat stelt de toekomstige richting van de generatie te anticiperen. ConFu introduceert (i) *contemplate tokens* en zachte prompts die het conceptmodel in staat stellen tegen verwaarloosbare kosten toekomstgerichte signalen van het doelmodel te benutten, (ii) een dynamisch *contemplate token*-mechanisme met MoE (Mixture of Experts) om contextbewuste toekomstvoorspelling mogelijk te maken, en (iii) een trainingsraamwerk met *anchor token sampling* en toekomstvoorspellingsreplicatie dat robuuste toekomstvoorspelling aanleert. Experimenten tonen aan dat ConFu de tokenacceptatiegraad en generatiesnelheid verbetert ten opzichte van EAGLE-3 met 8–11% over verschillende downstreamtaken met Llama-3 3B- en 8B-modellen. Wij zijn van mening dat ons werk de eerste is die speculatief decoderen verbindt met continue redeneertokens, en zo een nieuwe richting biedt voor het versnellen van LLM-inferentie.

TALON: Test-tijd Adaptief Leren voor On-the-Fly Categorie-ontdekking
TALON: Test-time Adaptive Learning for On-the-Fly Category Discovery

Mar 9

ByYanan Wu, Yuhan Yan, Tailai Chen, Zhixiang Chi, ZiZhang Wu, Yi Jin, Yang Wang, Zhenbo Li

On-the-fly category discovery (OCD) heeft tot doel bekende categorieën te herkennen en tegelijkertijd nieuwe te ontdekken uit een ongelabelde online stroom, waarbij gebruik wordt gemaakt van een model dat uitsluitend op gelabelde gegevens is getraind. Bestaande benaderingen bevriezen de offline getrainde kenmerkextractor en gebruiken een op hashing gebaseerd framework dat kenmerken kwantiseert naar binaire codes als klasseprototypen. Het ontdekken van nieuwe categorieën met een vaste kennisbasis is echter contra-intuïtief, omdat het leervermogen van inkomende gegevens volledig wordt verwaarloosd. Bovendien introduceert kenmerkkwantisatie informatieverlies, vermindert het de representatie-expressiviteit en vergroot het de variantie binnen klassen. Het resulteert vaak in categorie-explosie, waarbij een enkele klasse wordt gefragmenteerd in meerdere pseudo-klassen. Om deze beperkingen te overwinnen, stellen we een testtijd-adaptatieframework voor dat leren door ontdekking mogelijk maakt. Het bevat twee complementaire strategieën: een semantisch-bewuste prototype-update en een stabiele testtijd-encoder-update. De eerste verfijnt klasseprototypen dynamisch om classificatie te verbeteren, terwijl de laatste nieuwe informatie direct integreert in de parameterruimte. Samen stellen deze componenten het model in staat om zijn kennisbasis continu uit te breiden met nieuw aangetroffen voorbeelden. Verder introduceren we een marge-bewuste logit-kalibratie in de offline fase om de marges tussen klassen te vergroten en de compactheid binnen klassen te verbeteren, waardoor embedded ruimte wordt gereserveerd voor toekomstige klasseontdekking. Experimenten op standaard OCD benchmarks tonen aan dat onze methode de bestaande op hashing gebaseerde state-of-the-art benaderingen aanzienlijk overtreft, met aanzienlijke verbeteringen in de nauwkeurigheid voor nieuwe klassen en een effectieve beperking van categorie-explosie. De code is openbaar beschikbaar op blue{https://github.com/ynanwu/TALON}.

Voorbij training tijdens testtijd: Leren redeneren via hardware-efficiënte optimale regeling
Beyond Test-Time Training: Learning to Reason via Hardware-Efficient Optimal Control

Mar 10

ByPeihao Wang, Shan Yang, Xijun Wang, Tesi Xiao, Xin Liu, Changlong Yu, Yu Lou, Pan Li, Zhangyang Wang, Ming Lin, René Vidal

Associatief geheugen heeft lange tijd de basis gevormd voor het ontwerp van sequentiële modellen. Naast het oproepen van informatie, redeneren mensen door toekomstige toestanden te projecteren en doelgerichte acties te selecteren, een capaciteit die moderne taalmodelen steeds meer nodig hebben maar niet intrinsiek bezitten. Terwijl eerder werk reinforcement learning of training tijdens testtijd gebruikt, blijft plannen extern aan de modelarchitectuur. Wij formuleren redeneren als optimale controle en introduceren de Test-Time Control (TTC) laag, die tijdens inferentie eindig-horizon LQR-planning uitvoert over latente toestanden, een waardefunctie binnen neurale architecturen representeert, en deze gebruikt als een genest doel om planning vóór voorspelling mogelijk te maken. Om schaalbaarheid te waarborgen, leiden we een hardware-efficiënte LQR-oplosser af, gebaseerd op een symplectische formulering, en implementeren deze als een gefuseerde CUDA-kernel, waardoor parallelle uitvoering met minimale overhead mogelijk is. Geïntegreerd als adapter in voorgetrainde LLM's, verbeteren TTC-lagen de wiskundige redeneerprestaties met tot +27.8% op MATH-500 en 2-3x Pass@8 verbeteringen op AMC en AIME. Dit toont aan dat het inbedden van optimale controle als een architecturale component een effectief en schaalbaar mechanisme biedt voor redeneren dat verder gaat dan training tijdens testtijd.

Een Tekstgebaseerde Interface voor Generatief Videobewerken
A Text-Native Interface for Generative Video Authoring

Mar 10

ByXingyu Bruce Liu, Mira Dontcheva, Dingzeyu Li

Iedereen kan zijn verhalen schrijven in vrij tekstformaat – het is iets dat we allemaal op school leren. Toch vereist verhalen vertellen via video dat men gespecialiseerde en complexe tools leert gebruiken. In dit artikel introduceren we Doki, een tekstgebaseerde interface voor generatieve videoproductie, die videocreatie afstemt op het natuurlijke proces van tekstschrijven. In Doki is tekst schrijven de primaire interactie: binnen één enkel document definiëren gebruikers assets, structureren scènes, creëren shots, verfijnen bewerkingen en voegen audio toe. We verwoorden de ontwerpprincipes van deze tekst-eerst aanpak en demonstreren Doki's mogelijkheden aan de hand van een reeks voorbeelden. Om het praktische gebruik te evalueren, voerden we een weeklange implementatiestudie uit met deelnemers met uiteenlopende expertise in videoproductie. Dit werk vertegenwoordigt een fundamentele verschuiving in generatieve video-interfaces en toont een krachtige en toegankelijke nieuwe manier aan om visuele verhalen te creëren.