HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

22 papers found

dLLM: Eenvoudige diffusie-taalmodellering
dLLM: Simple Diffusion Language Modeling

Feb 26

ByZhanhui Zhou, Lingjie Chen, Hanghang Tong, Dawn Song

116

Hoewel diffusietaalmodellen (DLM's) zich snel ontwikkelen, convergeren veel recente modellen naar een reeks gedeelde componenten. Deze componenten zijn echter verspreid over ad-hoc onderzoekscodebases of missen transparante implementaties, waardoor ze moeilijk te reproduceren of uit te breiden zijn. Naarmate het veld versnelt, is er een duidelijke behoefte aan een uniform raamwerk dat deze gemeenschappelijke componenten standaardiseert, terwijl het flexibel genoeg blijft om nieuwe methoden en architecturen te ondersteunen. Om deze leemte aan te pakken, introduceren we dLLM, een open-source raamwerk dat de kerncomponenten van diffusietaalmodellering – training, inferentie en evaluatie – verenigt en ze eenvoudig aanpasbaar maakt voor nieuwe ontwerpen. Met dLLM kunnen gebruikers open-source grote DLM's zoals LLaDA en Dream reproduceren, finetunen, implementeren en evalueren via een gestandaardiseerde pijplijn. Het raamwerk biedt ook minimale, reproduceerbare recepten om kleine DLM's vanaf nul te bouwen met toegankelijke rekenkracht, inclusief het omzetten van elke BERT-stijl encoder of autoregressief taalmodel in een DLM. We geven ook de checkpoints van deze kleine DLM's vrij om DLM's toegankelijker te maken en toekomstig onderzoek te versnellen.

CUDA Agent: Grootschalige Agent-gebaseerde RL voor het Genereren van Hoogpresterende CUDA-kernels
CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation

Feb 27

ByWeinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu, Hao Zhou

GPU-kerneloptimalisatie is fundamenteel voor modern deep learning, maar blijft een zeer gespecialiseerde taak die diepgaande hardware-expertise vereist. Hoewel grote taalmodellen (LLM's) sterke prestaties leveren in algemene programmering, kunnen ze niet concurreren met op compilers gebaseerde systemen zoals torch.compile voor CUDA-kernelgeneratie. Bestaande benaderingen voor CUDA-codegeneratie vertrouwen ofwel op trainingsvrije verfijning of fine-tunen modellen binnen vaste, multi-turn uitvoerings-feedbacklussen, maar beide paradigma's verbeteren fundamenteel niet het intrinsieke CUDA-optimalisatievermogen van het model, wat resulteert in beperkte prestatieverbeteringen. Wij presenteren CUDA Agent, een grootschalig reinforcement learning-systeem met agenten dat CUDA-kernelexpertise ontwikkelt via drie componenten: een schaalbare pijplijn voor datasynthese, een met vaardigheden versterkte CUDA-ontwikkelomgeving met geautomatiseerde verificatie en profiling om betrouwbare beloningssignalen te bieden, en reinforcement learning-algoritmische technieken die stabiele training mogelijk maken. CUDA Agent behaalt state-of-the-art resultaten op KernelBench, met een respectievelijk 100%, 100% en 92% hogere snelheid dan torch.compile op de KernelBench Level-1, Level-2 en Level-3 splits, en presteert ongeveer 40% beter dan de sterkste propriëtaire modellen zoals Claude Opus 4.5 en Gemini 3 Pro in de moeilijkste Level-3 setting.

Verbetering van Ruimtelijk Begrip in Beeldgeneratie via Beloningsmodellering
Enhancing Spatial Understanding in Image Generation via Reward Modeling

Feb 27

ByZhenyu Tang, Chaoran Feng, Yufan Deng, Jie Wu, Xiaojie Li, Rui Wang, Yunpeng Chen, Daquan Zhou

Recente vooruitgang in tekst-naar-beeldgeneratie heeft de visuele kwaliteit en creativiteit sterk verbeterd, maar heeft ook hogere eisen gesteld aan de complexiteit van prompts – met name bij het coderen van ingewikkelde ruimtelijke relaties. In dergelijke gevallen zijn vaak meerdere generatiepogingen nodig om bevredigende resultaten te bereiken. Om deze uitdaging aan te pakken, introduceren we een nieuwe methode die het ruimtelijk begrip van huidige beeldgeneratiemodellen versterkt. We construeren eerst de SpatialReward-Dataset met meer dan 80k voorkeursparen. Op basis van deze dataset bouwen we SpatialScore, een beloningsmodel dat is ontworpen om de nauwkeurigheid van ruimtelijke relaties in tekst-naar-beeldgeneratie te evalueren, waarbij het prestaties bereikt die zelfs superieur zijn aan toonaangevende propriëtaire modellen bij ruimtelijke evaluatie. We tonen verder aan dat dit beloningsmodel effectief online reinforcement learning mogelijk maakt voor complexe ruimtelijke generatie. Uitgebreide experimenten op meerdere benchmarks tonen aan dat ons gespecialiseerde beloningsmodel aanzienlijke en consistente verbeteringen oplevert in het ruimtelijk begrip voor beeldgeneratie.

Hersteld in Vertaling: Efficiënte Pijplijn voor Geautomatiseerde Vertaling van Benchmarks en Datasets
Recovered in Translation: Efficient Pipeline for Automated Translation of Benchmarks and Datasets

Feb 25

ByHanna Yukhymenko, Anton Alexandrov, Martin Vechev

De betrouwbaarheid van de evaluatie van meertalige Large Language Models (LLM's) wordt momenteel aangetast door de inconsistente kwaliteit van vertaalde benchmarks. Bestaande bronnen hebben vaak last van semantische verschuiving en contextverlies, wat kan leiden tot misleidende prestatiemetingen. In dit werk presenteren we een volledig geautomatiseerd raamwerk dat ontworpen is om deze problemen aan te pakken door schaalbare, hoogwaardige vertaling van datasets en benchmarks mogelijk te maken. We tonen aan dat het aanpassen van rekenstrategieën tijdens het testen, specifiek Universal Self-Improvement (USI) en onze voorgestelde multi-round ranking-methode, T-RANK, aanzienlijk hogere kwaliteit van de uitvoer mogelijk maakt in vergelijking met traditionele pipelines. Ons raamwerk zorgt ervoor dat benchmarks hun oorspronkelijke taakstructuur en linguïstische nuances behouden tijdens lokalisatie. We passen deze aanpak toe om populaire benchmarks en datasets te vertalen in acht Oost- en Zuid-Europese talen (Oekraïens, Bulgaars, Slowaaks, Roemeens, Litouws, Ests, Turks, Grieks). Evaluaties met zowel referentiegebaseerde metrieken als LLM-as-a-judge laten zien dat onze vertalingen superieur zijn aan bestaande bronnen, wat resulteert in een nauwkeurigere beoordeling van downstream-modellen. We maken zowel het raamwerk als de verbeterde benchmarks vrij om robuuste en reproduceerbare meertalige AI-ontwikkeling te faciliteren.

Moduszoeken ontmoet gemiddeldezoeken voor snelle generatie van lange video's
Mode Seeking meets Mean Seeking for Fast Long Video Generation

Feb 27

ByShengqu Cai, Weili Nie, Chao Liu, Julius Berner, Lvmin Zhang, Nanye Ma, Hansheng Chen, Maneesh Agrawala, Leonidas Guibas, Gordon Wetzstein, Arash Vahdat

Het schalen van videogeneratie van seconden naar minuten stuit op een kritieke beperking: hoewel data voor korte video's overvloedig aanwezig is en van hoge kwaliteit, is coherente data voor lange video's schaars en beperkt tot specifieke domeinen. Om dit aan te pakken, stellen we een trainingsparadigma voor waarin Mode Seeking en Mean Seeking samenkomen, waarbij lokale nauwkeurigheid wordt losgekoppeld van langetermijncoherentie op basis van een uniforme representatie via een Decoupled Diffusion Transformer. Onze aanpak gebruikt een globale Flow Matching-head die via supervised learning op lange video's wordt getraind om de narratieve structuur vast te leggen, terwijl gelijktijdig een lokale Distribution Matching-head wordt ingezet die verschuivende vensters uitlijnt met een bevroren leraarmodel voor korte video's via een mode-seeking reverse-KL-divergentie. Deze strategie maakt de synthese van video's op minuutschaal mogelijk, waarbij langetermijncoherentie en bewegingen worden geleerd uit beperkte lange video's via supervised flow matching, terwijl lokale realisme wordt overgenomen door elk verschuivend venster van de student uit te lijnen met een bevroren leraarmodel voor korte video's, wat resulteert in een snelle generator voor lange video's met weinig stappen. Evaluaties tonen aan dat onze methode de kloof tussen kwaliteit en tijdsduur effectief verkleint door gezamenlijk de lokale scherpte, beweging en consistentie op lange termijn te verbeteren. Projectwebsite: https://primecai.github.io/mmm/.

LK-verliezen: Directe Acceptatiegraadoptimalisatie voor Speculatief Decoderen
LK Losses: Direct Acceptance Rate Optimization for Speculative Decoding

Feb 27

ByAlexander Samarin, Sergei Krutikov, Anton Shevtsov, Sergei Skvortsov, Filipp Fisin, Alexander Golubev

Speculatieve decodering versnelt de inferentie van autoregressieve grote taalmmodellen (LLM's) door een lichtgewicht draft-model te gebruiken om kandidaat-tokens voor te stellen, die vervolgens parallel worden geverifieerd door het doelmodel. De snelheidswinst wordt in belangrijke mate bepaald door de acceptatiegraad, maar standaardtraining minimaliseert de Kullback-Leibler-divergentie (KL) als een proxy-doelstelling. Hoewel KL-divergentie en acceptatiegraad hetzelfde globale optimum delen, convergeren kleine draft-modellen, met hun beperkte capaciteit, typisch naar suboptimale oplossingen waarbij het minimaliseren van de KL-divergentie niet garandeert dat de acceptatiegraad wordt gemaximaliseerd. Om dit probleem aan te pakken, stellen wij LK-verliesfuncties voor, speciale trainingsdoelstellingen die rechtstreeks op de acceptatiegraad zijn gericht. Uitgebreide experimenten met vier draft-architecturen en zes doelmodellen, variërend van 8B tot 685B parameters, tonen consistente verbeteringen in acceptatiemetrics voor alle configuraties in vergelijking met de standaard KL-gebaseerde training. Wij evalueren onze aanpak voor algemene, programmeer- en wiskundedomeinen en rapporteren winsten tot 8-10% in gemiddelde acceptatielengte. LK-verliesfuncties zijn eenvoudig te implementeren, introduceren geen computationele overhead en kunnen direct worden geïntegreerd in elk bestaand speculator-trainingsframework, waardoor ze een overtuigend alternatief vormen voor de bestaande draft-trainingsdoelstellingen.

CiteAudit: Je citeerde het, maar las je het ook? Een benchmark voor het verifiëren van wetenschappelijke referenties in het tijdperk van grote taalmodel
CiteAudit: You Cited It, But Did You Read It? A Benchmark for Verifying Scientific References in the LLM Era

Feb 26

ByZhengqing Yuan, Kaiwen Shi, Zheyuan Zhang, Lichao Sun, Nitesh V. Chawla, Yanfang Ye

Wetenschappelijk onderzoek steunt op accurate citaties voor toeschrijving en integriteit, maar grote taalmodelen (LLM's) introduceren een nieuw risico: vervalste referenties die plausibel lijken maar niet corresponderen met bestaande publicaties. Dergelijke gehallucineerde citaties zijn reeds waargenomen in ingediende en geaccepteerde artikelen bij toonaangevende machine learning-conferenties, wat kwetsbaarheden in de peer review blootlegt. Tegelijkertijd maken snel groeiende referentielijsten handmatige verificatie onpraktisch, en bestaande geautomatiseerde tools blijven fragiel tegenover inconsistente en heterogene citatieformaten en missen gestandaardiseerde evaluatie. Wij presenteren de eerste uitgebreide benchmark en detectiemethodiek voor gehallucineerde citaties in wetenschappelijke publicaties. Onze multi-agent-verificatiepijplijn verdeelt citatiecontrole in claimextractie, bewijsretrieval, passage-matching, redenering en gekalibreerd oordeel om te beoordelen of een geciteerde bron haar bewering daadwerkelijk ondersteunt. We construeren een grootschalige, door mensen gevalideerde dataset across domeinen en definiëren uniforme metrieken voor citatietrouw en bewijsalignment. Experimenten met state-of-the-art LLM's onthullen substantiële citatiefouten en tonen aan dat onze methodiek significant beter presteert dan eerdere methoden in zowel nauwkeurigheid als interpreteerbaarheid. Dit werk biedt de eerste schaalbare infrastructuur voor het auditen van citaties in het LLM-tijdperk en praktische tools om de betrouwbaarheid van wetenschappelijke referenties te verbeteren.

Compositionele generalisatie vereist lineaire, orthogonale representaties in vision-embeddingmodellen
Compositional Generalization Requires Linear, Orthogonal Representations in Vision Embedding Models

Feb 27

ByArnas Uselis, Andrea Dittadi, Seong Joon Oh

Compositionele generalisatie, het vermogen om bekende onderdelen in nieuwe contexten te herkennen, is een bepalende eigenschap van intelligente systemen. Hoewel moderne modellen worden getraind op enorme datasets, bestrijken deze slechts een fractie van de combinatorische ruimte van mogelijke invoer, wat de vraag oproept welke structuur representaties moeten hebben om generalisatie naar onbekende combinaties te ondersteunen. We formaliseren drie vereisten voor compositionele generalisatie onder standaardtraining (deelbaarheid, overdraagbaarheid, stabiliteit) en tonen aan dat deze noodzakelijke geometrische beperkingen opleggen: representaties moeten lineair ontbonden kunnen worden in per-concept componenten, en deze componenten moeten orthogonaal zijn tussen concepten. Dit verschaft een theoretische onderbouwing voor de Lineaire Representatiehypothese: de lineaire structuur die veelvuldig wordt waargenomen in neurale representaties is een noodzakelijk gevolg van compositionele generalisatie. We leiden verder dimensiegrenzen af die het aantal combineerbare concepten koppelen aan de embedded-geometrie. Empirisch evalueren we deze voorspellingen in moderne visiemodellen (CLIP, SigLIP, DINO) en vinden dat representaties een gedeeltelijke lineaire factorisatie vertonen met laag-rang, bijna-orthogonale per-concept factoren, en dat de mate van deze structuur correleert met compositionele generalisatie op onbekende combinaties. Naarmate modellen blijven schalen, voorspellen deze voorwaarden de representatiegeometrie waarop ze kunnen convergeren. Code is beschikbaar op https://github.com/oshapio/necessary-compositionality.

Hoe Maak Je Een Onvergetelijke Foto? Gebruikers Voorzien van Toepasbare Feedback
How to Take a Memorable Picture? Empowering Users with Actionable Feedback

Feb 25

ByFrancesco Laiti, Davide Talon, Jacopo Staiano, Elisa Ricci

Beeldherinnerbaarheid, oftewel de waarschijnlijkheid dat een beeld wordt onthouden, is traditioneel in de computer vision bestudeerd als een passieve voorspeltaak, waarbij modellen een scalaire score regresseren, of met generatieve methoden die de visuele input aanpassen om de kans te vergroten dat de afbeelding wordt onthouden. Geen van deze paradigma's ondersteunt echter gebruikers op het moment van opname, wanneer de cruciale vraag is hoe de herinnerbaarheid van een foto kan worden verbeterd. Wij introduceren de taak van Herinnerbaarheidsfeedback (MemFeed), waarbij een geautomatiseerd model bruikbare, door mensen interpreteerbare richtlijnen moet geven aan gebruikers met als doel de toekomstige herinnering van een beeld te verbeteren. Wij presenteren ook MemCoach, de eerste methode die is ontworpen om concrete suggesties in natuurlijke taal te geven voor het verbeteren van de herinnerbaarheid (bijv. "benadruk de gezichtsuitdrukking", "breng het onderwerp meer naar voren"). Onze methode, gebaseerd op Multimodale Large Language Models (MLLM's), is trainingsvrij en gebruikt een teacher-student-stuurstrategie, waarbij de interne activaties van het model worden afgestemd op meer memorabele patronen die zijn geleerd van een teacher-model dat voortschrijdt langs minst tot meest memorabele voorbeelden. Om systematische evaluatie van deze nieuwe taak mogelijk te maken, introduceren we verder MemBench, een nieuwe benchmark met sequentieel uitgelijnde fotosessies met geannoteerde herinnerbaarheidsscores. Onze experimenten, waarbij meerdere MLLM's worden overwogen, tonen de effectiviteit van MemCoach aan en laten een consistent verbeterde prestaties zien ten opzichte van verschillende zero-shot modellen. De resultaten geven aan dat herinnerbaarheid niet alleen voorspeld kan worden, maar ook aangeleerd en geïnstrueerd kan worden, waardoor de focus verschuift van louter voorspelling naar bruikbare feedback voor menselijke makers.

InfoNCE induceert een Gaussische verdeling
InfoNCE Induces Gaussian Distribution

Feb 27

ByRoy Betser, Eyal Gofer, Meir Yossef Levi, Guy Gilboa

Contrastief leren is een hoeksteen geworden van modern representation learning, waardoor training met enorme hoeveelheden ongelabelde data mogelijk wordt voor zowel taakspecifieke als algemene (foundation) modellen. Een prototypisch verlies bij contrastieve training is InfoNCE en zijn varianten. In dit werk tonen we aan dat het InfoNCE-doel een Gaussische structuur induceert in representaties die voortkomen uit contrastieve training. We leggen dit resultaat vast in twee complementaire regimes. Ten eerste tonen we aan dat onder bepaalde aannames van alignering en concentratie, projecties van de hoogdimensionale representatie asymptotisch een multivariate Gaussische verdeling benaderen. Vervolgens tonen we aan, onder minder strikte aannames, dat het toevoegen van een kleine asymptotisch verdwijnende regularisatieterm die een lage feature-norm en hoge feature-entropie bevordert, tot vergelijkbare asymptotische resultaten leidt. We ondersteunen onze analyse met experimenten op synthetische en CIFAR-10 datasets over meerdere encoder-architecturen en -groottes, waarbij consistente Gaussische gedrag wordt aangetoond. Dit perspectief biedt een principekundige verklaring voor de algemeen waargenomen Gaussianiteit in contrastieve representaties. Het resulterende Gaussische model maakt een principekundige analytische behandeling van geleerde representaties mogelijk en wordt verwacht een breed scala aan toepassingen in contrastief leren te ondersteunen.

Ref-Adv: Verkenning van visueel redeneren met MLLM's in verwijzende-expressietaken
Ref-Adv: Exploring MLLM Visual Reasoning in Referring Expression Tasks

Feb 27

ByQihua Dong, Kuo Yang, Lin Ju, Handong Zhao, Yitian Zhang, Yizhou Wang, Huimin Zeng, Jianglin Lu, Yun Fu

Referentie-uitdrukkingbegrip (REC) verbindt taal met visuele waarneming op regioniveau. Standaardbenchmarks (RefCOCO, RefCOCO+, RefCOCOg) hebben een snelle vooruitgang geboekt met multimodale LLM's, maar blijven zwakke tests van visueel redeneren en gronding: (i) veel uitdrukkingen zijn zeer kort, waardoor er weinig redeneervraag is; (ii) afbeeldingen bevatten vaak weinig afleidende elementen, waardoor het doelwit gemakkelijk te vinden is; en (iii) overbodige beschrijvers maken kortsluitoplossingen mogelijk die echt tekstbegrip en visueel redeneren omzeilen. Wij introduceren Ref-Adv, een moderne REC-benchmark die kortsluitingen onderdrukt door linguïstisch niet-triviale uitdrukkingen te koppelen aan alleen de informatie die nodig is om het doelwit uniek te identificeren. De dataset bevat refererende uitdrukkingen bij echte afbeeldingen, samengesteld met lastige afleidende elementen en geannoteerd met redeneeraspecten zoals ontkenning. Wij voeren uitgebreide ablatiestudies uit (woordvolgordeverstoringen en toereikendheid van beschrijververwijdering) om aan te tonen dat het oplossen van Ref-Adv redeneren vereist dat verder gaat dan eenvoudige signalen, en wij evalueren een brede reeks hedendaagse multimodale LLM's op Ref-Adv. Ondanks sterke resultaten op RefCOCO, RefCOCO+ en RefCOCOg, presteren modellen aanzienlijk slechter op Ref-Adv, wat een afhankelijkheid van kortsluitingen en hiaten in visueel redeneren en gronding aan het licht brengt. Wij bieden een gedetailleerde foutenanalyse en streven ernaar dat Ref-Adv toekomstig werk aan visueel redeneren en gronding in MLLM's kan sturen.

LongVideo-R1: Slimme Navigatie voor Kostenefficiënt Begrip van Lange Video's
LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding

Feb 24

ByJihao Qiu, Lingxi Xie, Xinyue Huo, Qi Tian, Qixiang Ye

Dit artikel behandelt de kritieke en onderbelichte uitdaging van het begrijpen van lange video's met een laag computationeel budget. Wij presenteren LongVideo-R1, een actieve, redeneringsvaardige multimodale large language model (MLLM)-agent, ontworpen voor efficiënte navigatie door videocontext, waarbij de redundantie van een uitputtende zoektocht wordt vermeden. De kern van LongVideo-R1 wordt gevormd door een redeneringsmodule die gebruikmaakt van hoogwaardige visuele aanwijzingen om de meest informatieve videoclip af te leiden voor verdere verwerking. Tijdens inferentie start de agent met het doorlopen van visuele topniveau-samenvattingen en verfijnt iteratief zijn focus, waarbij het verkenproces onmiddellijk stopt zodra voldoende kennis is verworven om de query te beantwoorden. Voor de training extraheren we eerst hiërarchische videobeschrijvingen uit CGBench, een videocorpus met groundingannotaties, en leiden GPT-5 aan om 33K hoogwaardige chain-of-thought-with-tool-trajecten te genereren. De LongVideo-R1-agent wordt gefinetuned op het Qwen-3-8B-model via een tweefasenparadigma: supervised fine-tuning (SFT) gevolgd door reinforcement learning (RL), waarbij RL een specifiek ontworpen beloningsfunctie gebruikt om selectieve en efficiënte clipnavigatie te maximaliseren. Experimenten op meerdere benchmarks voor lange video's valideren de effectiviteit van de methode, die een superieure afweging biedt tussen QA-nauwkeurigheid en efficiëntie. Alle samengestelde data en broncode zijn verstrekt in het supplementaire materiaal en zullen openbaar beschikbaar worden gesteld. Code en data zijn beschikbaar op: https://github.com/qiujihao19/LongVideo-R1

Versnelling van Gemaskeerde Afbeeldingsgeneratie door Leren van Latent-gestuurde Dynamieken
Accelerating Masked Image Generation by Learning Latent Controlled Dynamics

Feb 27

ByKaiwen Zhu, Quansheng Zeng, Yuandong Pu, Shuo Cao, Xiaohui Li, Yi Xin, Qi Qin, Jiayang Li, Yu Qiao, Jinjin Gu, Yihao Liu

Gemaskerde beeldgeneratiemodellen (MIGM's) hebben grote successen geboekt, maar hun efficiëntie wordt belemmerd door de meerdere stappen van bidirectionele aandacht. In feite bestaat er aanzienlijke redundantie in hun berekeningen: bij het samplen van discrete tokens gaan de rijke semantiek in continue kenmerken verloren. Sommige bestaande werken proberen kenmerken te cachen om toekomstige kenmerken te benaderen. Deze vertonen echter aanzienlijke benaderingsfouten onder agressieve versnellingspercentages. Wij schrijven dit toe aan hun beperkte expressiviteit en het niet meenemen van sample-informatie. Om deze kloof te dichten, stellen wij voor een lichtgewicht model te leren dat zowel eerdere kenmerken als gesampelde tokens incorporeert en het gemiddelde snelheidsveld van kenmerkevolutie regresseert. Het model heeft een gematigde complexiteit die voldoende is om de subtiele dynamiek vast te leggen, terwijl het lichtgewicht blijft vergeleken met het oorspronkelijke basismodel. Wij passen onze methode, MIGM-Shortcut, toe op twee representatieve MIGM-architecturen en taken. Op de state-of-the-art Lumina-DiTO bereikt het met name een meer dan 4x versnelling van tekst-naar-beeldgeneratie met behoud van kwaliteit, waardoor de Pareto-grens van gemaskeerde beeldgeneratie aanzienlijk wordt verlegd. De code en modelgewichten zijn beschikbaar op https://github.com/Kaiwen-Zhu/MIGM-Shortcut.

SenCache: Versnelling van Inferentie in Diffusiemodellen via Gevoeligheidsbewust Cachen
SenCache: Accelerating Diffusion Model Inference via Sensitivity-Aware Caching

Feb 27

ByYasaman Haghighi, Alexandre Alahi

Diffusiemodellen behalen state-of-the-art kwaliteit voor videogeneratie, maar hun inferentie blijft duur vanwege het grote aantal sequentiële denoisestappen. Dit heeft een groeiende onderzoekslijn gemotiveerd voor het versnellen van diffusie-inferentie. Onder de trainingsvrije versnellingsmethoden vermindert caching de rekenkosten door eerder berekende modeloutputs over verschillende tijdstappen heen te hergebruiken. Bestaande cachingmethoden vertrouwen op heuristische criteria om cache-/hergebruikstijdstappen te kiezen en vereisen uitgebreide afstemming. Wij pakken deze beperking aan met een principieel, gevoeligheidsbewust cachingraamwerk. Concreet formaliseren we de cachingfout door een analyse van de gevoeligheid van de modeloutput voor verstoringen in de denoise-inputs, d.w.z. de latente ruisrepresentatie en de tijdstap, en tonen we aan dat deze gevoeligheid een cruciale voorspeller is van de cachingfout. Gebaseerd op deze analyse stellen we Sensitivity-Aware Caching (SenCache) voor, een dynamisch cachingbeleid dat adaptief cachingtijdstappen selecteert op basis van elk individueel sample. Ons raamwerk biedt een theoretische basis voor adaptieve caching, verklaart waarom eerdere empirische heuristieken gedeeltelijk effectief kunnen zijn, en breidt deze uit naar een dynamische, samplespecifieke aanpak. Experimenten op Wan 2.1, CogVideoX en LTX-Video tonen aan dat SenCache een betere visuele kwaliteit bereikt dan bestaande cachingmethoden onder vergelijkbare rekenbudgetten.

Geheugencaching: RNN's met groeiend geheugen
Memory Caching: RNNs with Growing Memory

Feb 27

ByAli Behrouz, Zeman Li, Yuan Deng, Peilin Zhong, Meisam Razaviyayn, Vahab Mirrokni

Transformers zijn gevestigd als de de facto ruggengraat voor de meeste recente ontwikkelingen in sequentiemodellering, voornamelijk vanwege hun toenemende geheugencapaciteit die schaalt met de contextlengte. Hoewel dit plausibel is voor retrievaltaken, leidt het tot kwadratische complexiteit, wat recente studies heeft gemotiveerd om levensvatbare subkwadratische recurrent alternatieven te verkennen. Ondanks veelbelovende voorlopige resultaten in diverse domeinen, presteren dergelijke recurrente architecturen minder goed dan Transformers in recall-intensieve taken, wat vaak wordt toegeschreven aan hun geheugen met vaste grootte. In dit artikel introduceren we Memory Caching (MC), een eenvoudige maar effectieve techniek die recurrente modellen verbetert door checkpoints van hun geheugentoestanden (ook wel verborgen toestanden genoemd) op te slaan. Memory Caching stelt het effectieve geheugencapaciteit van RNN's in staat om te groeien met de sequentielengte, en biedt een flexibele afweging die interpoleert tussen het vaste geheugen (d.w.z. O(L) complexiteit) van RNN's en het groeiende geheugen (d.w.z. O(L²) complexiteit) van Transformers. We stellen vier varianten van MC voor, waaronder gegateerde aggregatie en sparse selectiemechanismen, en bespreken hun implicaties voor zowel lineaire als diepe geheugenmodules. Onze experimentele resultaten voor taalmodelering en taken voor het begrijpen van lange context tonen aan dat MC de prestaties van recurrente modellen verbetert, wat de effectiviteit ervan ondersteunt. De resultaten van in-context recalltaken geven aan dat hoewel Transformers de beste nauwkeurigheid bereiken, onze MC-varianten competitieve prestaties vertonen, de kloof met Transformers verkleinen, en beter presteren dan state-of-the-art recurrente modellen.

Gedeelde Aard, Unieke Omgeving: PRISM voor Pluralistisch Redeneren via In-context Structuurmodellering
Shared Nature, Unique Nurture: PRISM for Pluralistic Reasoning via In-context Structure Modeling

Feb 24

ByGuancheng Tu, Shiyang Zhang, Tianyu Zhang, Yi Zhang, Diji Yang

Grote Taalmodellen (GTM'en) convergeren naar een enkelvoudig Artificieel Superbrein, waarbij gedeelde Aanleg (a-priori voorkennis uit pre-training) leidt tot een diepgaande ineenstorting van de distributie-diversiteit. Dit beperkt de distinctieve perspectieven die noodzakelijk zijn voor creatieve verkenning en wetenschappelijke ontdekking. Om dit aan te pakken, stellen we voor om modellen uit te rusten met inference-tijd Ontwikkeling (geïndividualiseerde epistemische trajecten) via het paradigma van Epistemische Evolutie, dat doorloopt via verkennen, internaliseren en uiten. We concretiseren dit met PRISM (Pluralistisch Redeneren via In-context Structuurmodellering), een model-agnostisch systeem dat GTM's versterkt met dynamische Epistemische Grafen die On-the-fly worden gegenereerd. Op drie creativiteitsbenchmarks behaalt PRISM state-of-the-art nieuwheid en vergroot het de distributie-diversiteit aanzienlijk. Bovendien evalueren we de praktische bruikbaarheid via een uitdagende benchmark voor de diagnose van zeldzame ziekten. Resultaten tonen aan dat PRISM met succes correcte diagnoses uit de lange staart van de verdeling blootlegt die standaard GTM's missen, wat bevestigt dat de divergentie voortkomt uit betekenisvolle verkenning en niet uit onsamenhangende ruis. Over het geheel genomen vestigt dit werk een nieuw paradigma voor Pluralistische AI, dat voorbij monolithische consensus beweegt naar een divers ecosysteem van unieke cognitieve individuen die in staat zijn tot collectieve, multi-perspectivische ontdekking.

Vectorisatie van de Trie: Efficiënt Beperkt Decoderen voor op LLM Gebaseerde Generatieve Retrieval op Accelerators
Vectorizing the Trie: Efficient Constrained Decoding for LLM-based Generative Retrieval on Accelerators

Feb 26

ByZhengyang Su, Isay Katsman, Yueqi Wang, Ruining He, Lukasz Heldt, Raghunandan Keshavan, Shao-Chuan Wang, Xinyang Yi, Mingyan Gao, Onkar Dalal, Lichan Hong, Ed Chi, Ningren Han

Generatieve retrieval is opgekomen als een krachtig paradigma voor op grote taalmodellen gebaseerde aanbevelingen. Industriële aanbevelsystemen hebben echter vaak baat bij het beperken van de uitvoerruimte tot een afgebakende subset van items op basis van bedrijfslogica (bijvoorbeeld het afdwingen van contentfreshness of productcategorieën), wat standaard autoregressieve decodering niet inherent ondersteunt. Bovendien leiden bestaande constrained decoding-methoden die gebruikmaken van prefixbomen (tries) tot ernstige latentiestraf op hardwareversnellers (TPU's/GPU's). In dit werk introduceren we STATIC (Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding), een efficiënte en schaalbare constrained decoding-techniek die specifiek is ontworpen voor hoogwaardige op grote taalmodellen gebaseerde generatieve retrieval op TPU's/GPU's. Door de prefixboom af te vlakken naar een statische Compressed Sparse Row (CSR)-matrix, transformeren we onregelmatige boomtraversals naar volledig gevectoriseerde sparse matrixoperaties, wat enorme efficiëntiewinsten op hardwareversnellers mogelijk maakt. We implementeren STATIC op een grootschalig industrieel videoplatform voor aanbevelingen dat miljarden gebruikers bedient. STATIC levert significante productmetriekimpact op met minimale latentie-overhead (0,033 ms per stap en 0,25% van de inferentietijd), wat een 948x snelheidswinst oplevert ten opzichte van een CPU-trie-implementatie en een 47-1033x snelheidswinst ten opzichte van een hardwareversnelde binary-search-basislijn. Bovendien blijft de runtime-overhead van STATIC extreem laag over een breed scala aan praktische configuraties. Voor zover wij weten, maakt STATIC de eerste productie-schaal implementatie van strikt constrained generatieve retrieval mogelijk. Daarnaast toont evaluatie op academische benchmarks aan dat STATIC de cold-start-prestaties voor generatieve retrieval aanzienlijk kan verbeteren. Onze code is beschikbaar op https://github.com/youtube/static-constraint-decoding.

DUET-VLM: Duale gefaseerde geünificeerde efficiënte tokenreductie voor VLM-training en -inferentie
DUET-VLM: Dual stage Unified Efficient Token reduction for VLM Training and Inference

Feb 21

ByAditya Kumar Singh, Hitesh Kandala, Pratik Prabhanjan Brahma, Zicheng Liu, Emad Barsoum

Vision-language modellen (VLMs) hebben opmerkelijke multimodale begrips- en redeneercapaciteiten bereikt, maar blijven rekenkundig kostbaar vanwege dichte visuele tokenisatie. Bestaande efficiëntiebenaderingen fuseren ofwel redundante visuele tokens of verwijderen ze progressief in de taal-backbone, waarbij vaak nauwkeurigheid wordt ingeruild voor snelheid. In dit werk stellen we DUET-VLM voor, een veelzichtig plug-and-play dual compressieframework dat bestaat uit (a) visie-only, redundantiebewuste compressie van de uitvoer van de visie-encoder naar informatiebehoudende tokens, gevolgd door (b) laagsgewijze, saliënte tekstgeleide verwijdering van visuele tokens binnen de taal-backbone om minder informatieve tokens progressief te snoeien. Deze gecoördineerde tokenbeheer maakt agressieve compressie mogelijk terwijl kritieke semantiek behouden blijft. Op LLaVA-1.5-7B behoudt onze aanpak meer dan 99% van de baseline-nauwkeurigheid met 67% minder tokens, en behoudt zelfs >97% zelfs bij een reductie van 89%. Met deze dual-stage compressie tijdens training bereikt het 99,7% nauwkeurigheid bij 67% en 97,6% bij 89% reductie, waarmee het eerdere state-of-the-art methoden voor visuele tokenreductie overtreft op meerdere benchmarks. Wanneer geïntegreerd in Video-LLaVA-7B, overtreft het zelfs de baseline – het bereikt >100% nauwkeurigheid met een substantiële reductie van 53,1% tokens en behoudt 97,6% nauwkeurigheid onder een extreme instelling van 93,4%. Deze resultaten benadrukken end-to-end training met DUET-VLM, waardoor robuuste aanpassing aan gereduceerde visuele (beeld/video) input mogelijk is zonder nauwkeurigheid op te offeren, en compacte yet semantisch rijke representaties worden geproduceerd binnen hetzelfde rekenbudget. Onze code is beschikbaar op https://github.com/AMD-AGI/DUET-VLM.

DLEBench: Evaluatie van het vermogen tot kleinschalige objectbewerking voor op instructies gebaseerde beeldbewerkingsmodellen
DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Feb 27

ByShibo Hong, Boxian Ai, Jun Kuang, Wei Wang, FengJiao Chen, Zhongyuan Peng, Chenhao Huang, Yixin Cao

Er is aanzienlijke vooruitgang geboekt op het gebied van instructiegestuurde beeldbewerkingsmodellen (IIEMs). Hoewel deze modellen op huidige benchmarks een plausibele naleving van instructies en sterke redeneervaardigheid tonen, blijft hun vermogen om kleine objecten te bewerken onderbelicht, ondanks het belang hiervan voor precieze lokale bewerking en het verfijnen van details in zowel echte als gegenereerde afbeeldingen. In dit artikel introduceren we DeepLookEditBench (DLEBench), de eerste benchmark die specifiek is ontworpen om de vaardigheden van IIEMs bij het bewerken van kleinschalige objecten te beoordelen. Concreet construeren we een uitdagende testomgeving bestaande uit 1889 samples verdeeld over zeven instructietypes. In deze samples beslaan de doelobjecten slechts 1%-10% van het beeldareaal, waarbij complexe scenario's zoals gedeeltelijke occlusie en bewerking van meerdere objecten worden afgedekt. Om een robuuste evaluatie op deze benchmark te waarborgen, stellen we een evaluatieprotocol voor met verfijnde beoordelingsrichtlijnen om subjectiviteit en ambiguïteit te minimaliseren bij twee criteria: Instructievolging en Visuele Consistentie. Dit protocol introduceert tevens een dual-mode evaluatieraamwerk (Tool-driven en Oracle-guided Modes) dat de discrepantie aanpakt tussen LMM-as-a-Judge en menselijke oordelen op DLEBench. Empirische resultaten van 10 IIEMs onthullen significante prestatiekloffen in kleinschalige objectbewerking, wat de behoefte aan gespecialiseerde benchmarks onderstreept om deze vaardigheid verder te ontwikkelen.

CL4SE: Een Benchmark voor Contextleren bij Software Engineering-taken
CL4SE: A Context Learning Benchmark For Software Engineering Tasks

Feb 26

ByHaichuan Hu, Ye Shang, Guoqing Xie, Congqing He, Quanjun Zhang

Context engineering is uitgegroeid tot een cruciaal paradigma om het potentieel van Large Language Models (LLM's) te ontsluiten bij Software Engineering (SE)-taken, waarbij prestatieverbeteringen worden gerealiseerd tijdens het testen zonder fine-tuning van het model. Ondanks dit succes ontbreekt het in bestaand onderzoek aan een systematische taxonomie van SE-specifieke contexttypen en een toegewijd benchmark om de heterogene effecten van verschillende contexten in kern-SE-workflows te kwantificeren. Om deze leemte op te vullen, stellen wij CL4SE (Context Learning for Software Engineering) voor, een uitgebreide benchmark met een fijnmazige taxonomie van vier SE-gerichte contexttypen (interpreteerbare voorbeelden, project-specifieke context, procedurele besluitvormingscontext, en positieve & negatieve context), elk gekoppeld aan een representatieve taak (codegeneratie, codesamenvatting, codereview en beoordeling van patchcorrectheid). Wij construeren hoogwaardige datasets met meer dan 13.000 samples uit meer dan 30 open-sourceprojecten en evalueren vijf gangbare LLM's aan de hand van negen metrieken. Uitgebreide experimenten tonen aan dat context learning een gemiddelde prestatieverbetering van 24,7% oplevert over alle taken. Specifiek verhoogt procedurele context de prestaties bij codereview met tot 33% (Qwen3-Max), gemengde positief-negatieve context verbetert patchbeoordeling met 30% (DeepSeek-V3), project-specifieke context verhoogt de BLEU-score voor codesamenvatting met 14,78% (GPT-Oss-120B), en interpreteerbare voorbeelden verbeteren PASS@1 voor codegeneratie met 5,72% (DeepSeek-V3). CL4SE vestigt het eerste gestandaardiseerde evaluatieraamwerk voor SE-context learning, biedt praktische empirische inzichten in taakspecifiek contextontwerp, en stelt een grootschalige dataset vrij om reproduceerbaar onderzoek op dit gebied te faciliteren.

Versterkingsbewuste Kennisdistillatie voor Redeneervaardigheden van Grote Taalmodellen
Reinforcement-aware Knowledge Distillation for LLM Reasoning

Feb 26

ByZhaoyang Zhang, Shuli Jiang, Yantao Shen, Yuting Zhang, Dhananjay Ram, Shuo Yang, Zhuowen Tu, Wei Xia, Stefano Soatto

Versterkend leren (VL) na de training heeft recentelijk grote vooruitgang geboekt bij grote taalmodellen (GTM's) met lange redeneerketens, maar de hoge inferentiekosten van dergelijke modellen stimuleren de distillatie naar kleinere studentmodellen. De meeste bestaande kennisdistillatie (KD) methoden zijn ontworpen voor supervised fine-tuning (SFT) en zijn afhankelijk van vaste leraarsporen of Kullback-Leibler (KL) divergentie-gebaseerde regularisatie tussen leraar en student. In combinatie met VL leiden deze benaderingen vaak tot distributiemismatch en doelstellingsinterferentie: de supervisie van de leraar komt mogelijk niet overeen met de evoluerende rollout-distributie van de student, en de KL-regularisator kan concurreren met beloningsmaximalisatie en vereist een zorgvuldige balancering van de verliesfunctie. Om deze problemen aan te pakken, stellen wij Reinforcement Learning-Aware Distillation (RLAD) voor, dat selectieve imitatie uitvoert tijdens VL – waarbij de student alleen naar de leraar wordt geleid wanneer dit de huidige policy-update verbetert. Onze kerncomponent, Trust Region Ratio Distillation (TRRD), vervangt de KL-regularisator tussen leraar en student door een PPO/GRPO-achtig likelihood-ratio doelwit verankerd aan een mengsel van de leraar en het oude beleid, wat resulteert in voordeel-bewuste, trust-region-gebonden distillatie op student-rollouts en een natuurlijke balans biedt tussen exploratie, exploitatie en imitatie. Over diverse logische redeneer- en rekenbenchmarks heen presteert RLAD consistent beter dan offline distillatie, standaard GRPO en KL-gebaseerde on-policy kennisdistillatie tussen leraar en student.

Cognitieve modellen en AI-algoritmes bieden sjablonen voor het ontwerpen van taalagentschappen.
Cognitive Models and AI Algorithms Provide Templates for Designing Language Agents

Feb 26

ByRyan Liu, Dilip Arumugam, Cedegao E. Zhang, Sean Escola, Xaq Pitkow, Thomas L. Griffiths

Hoewel hedendaagse grote taalmmodellen (LLM's) in isolatie steeds krachtiger worden, zijn er nog steeds veel complexe problemen die de mogelijkheden van een enkele LLM te boven gaan. Voor dergelijke taken bestaat er nog onduidelijkheid over de beste manier om meerdere LLM's als onderdelen te nemen en te combineren tot een groter geheel. Dit position paper betoogt dat potentiële blauwdrukken voor het ontwerpen van dergelijke modulaire taalagentschappen gevonden kunnen worden in de bestaande literatuur over cognitieve modellen en algoritmen voor kunstmatige intelligentie (AI). Om dit punt te verduidelijken, formaliseren we het idee van een agentsjabloon dat rollen specificeert voor individuele LLM's en hoe hun functionaliteiten gecomponeerd moeten worden. Vervolgens geven we een overzicht van diverse bestaande taalagentschappen in de literatuur en belichten we hun onderliggende sjablonen die rechtstreeks zijn afgeleid van cognitieve modellen of AI-algoritmen. Door deze ontwerpen te belichten, willen we de aandacht vestigen op agentsjablonen geïnspireerd door de cognitieve wetenschap en AI als een krachtig instrument voor het ontwikkelen van effectieve, interpreteerbare taalagentschappen.