Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

Eénstaps Residueverschuiving Diffusie voor Beeld Super-Resolutie via Destillatie
One-Step Residual Shifting Diffusion for Image Super-Resolution via Distillation

Mar 17, 2025

Daniil Selikhanovych, David Li, Aleksei Leonov, Nikita Gushchin, Sergei Kushneriuk, Alexander Filippov, Evgeny Burnaev, Iaroslav Koshelev, Alexander Korotin

962

Diffusiemodellen voor superresolutie (SR) produceren hoogwaardige visuele resultaten maar vereisen dure rekenkosten. Ondanks de ontwikkeling van verschillende methoden om diffusiegebaseerde SR-modellen te versnellen, slagen sommige (bijv. SinSR) er niet in realistische perceptuele details te produceren, terwijl andere (bijv. OSEDiff) niet-bestaande structuren kunnen hallucineren. Om deze problemen te overwinnen, presenteren we RSD, een nieuwe destillatiemethode voor ResShift, een van de beste diffusiegebaseerde SR-modellen. Onze methode is gebaseerd op het trainen van het studentennetwerk om dergelijke afbeeldingen te produceren dat een nieuw nep-ResShift-model dat daarop wordt getraind, overeenkomt met het leraarmodel. RSD bereikt herstel in één stap en overtreft de leraar met een grote marge. We laten zien dat onze destillatiemethode de andere destillatiegebaseerde methode voor ResShift - SinSR - kan overtreffen, waardoor het op gelijke hoogte komt met state-of-the-art diffusiegebaseerde SR-destillatiemethoden. Vergeleken met SR-methoden gebaseerd op vooraf getrainde tekst-naar-afbeelding-modellen, produceert RSD een concurrerende perceptuele kwaliteit, levert het afbeeldingen met een betere uitlijning op de gedegradeerde invoerafbeeldingen en vereist het minder parameters en GPU-geheugen. We presenteren experimentele resultaten op verschillende real-world en synthetische datasets, waaronder RealSR, RealSet65, DRealSR, ImageNet en DIV2K.

Overzicht van Evaluatie van LLM-gebaseerde Agents
Survey on Evaluation of LLM-based Agents

Mar 20, 2025

Asaf Yehudai, Lilach Eden, Alan Li, Guy Uziel, Yilun Zhao, Roy Bar-Haim, Arman Cohan, Michal Shmueli-Scheuer

912

De opkomst van LLM-gebaseerde agents markeert een paradigmaverschuiving in AI, waardoor autonome systemen kunnen plannen, redeneren, tools gebruiken en geheugen behouden terwijl ze interacteren met dynamische omgevingen. Dit artikel biedt de eerste uitgebreide overzicht van evaluatiemethodologieën voor deze steeds capabelere agents. We analyseren systematisch evaluatiebenchmarks en -frameworks langs vier kritische dimensies: (1) fundamentele agentvaardigheden, waaronder planning, toolgebruik, zelfreflectie en geheugen; (2) toepassingsspecifieke benchmarks voor web-, software engineering-, wetenschappelijke en conversatieagents; (3) benchmarks voor generalistische agents; en (4) frameworks voor het evalueren van agents. Onze analyse onthult opkomende trends, waaronder een verschuiving naar meer realistische, uitdagende evaluaties met continu bijgewerkte benchmarks. We identificeren ook kritieke lacunes die toekomstig onderzoek moet aanpakken—met name op het gebied van kostenefficiëntie, veiligheid en robuustheid, en in de ontwikkeling van fijnmazige en schaalbare evaluatiemethoden. Dit overzicht brengt het snel evoluerende landschap van agentevaluatie in kaart, onthult de opkomende trends in het veld, identificeert huidige beperkingen en stelt richtingen voor toekomstig onderzoek voor.

Stop met Overdenken: Een Overzicht van Efficiënte Redenering voor Grote Taalmodellen
Stop Overthinking: A Survey on Efficient Reasoning for Large Language Models

Mar 20, 2025

Yang Sui, Yu-Neng Chuang, Guanchu Wang, Jiamu Zhang, Tianyi Zhang, Jiayi Yuan, Hongyi Liu, Andrew Wen, Shaochen, Zhong, Hanjie Chen, Xia Hu

752

Grote Taalmodellen (LLMs) hebben opmerkelijke prestaties geleverd in complexe taken. Recente vooruitgang in Grote Redeneermodellen (LRMs), zoals OpenAI o1 en DeepSeek-R1, heeft de prestaties verder verbeterd in System-2 redeneerdomeinen zoals wiskunde en programmeren door gebruik te maken van supervised fine-tuning (SFT) en reinforcement learning (RL) technieken om de Chain-of-Thought (CoT) redenering te versterken. Echter, hoewel langere CoT-redeneersequenties de prestaties verbeteren, introduceren ze ook aanzienlijke rekenkundige overhead vanwege uitgebreide en redundante uitvoer, bekend als het "overthinking phenomenon". In dit artikel bieden we de eerste gestructureerde survey om systematisch de huidige vooruitgang te onderzoeken en te verkennen naar het bereiken van efficiënte redenering in LLMs. Over het algemeen, vertrouwend op het inherente mechanisme van LLMs, categoriseren we bestaande werken in verschillende belangrijke richtingen: (1) modelgebaseerde efficiënte redenering, waarbij wordt overwogen om volledige redeneermodellen te optimaliseren naar meer beknopte redeneermodellen of direct efficiënte redeneermodellen te trainen; (2) redeneeruitvoer-gebaseerde efficiënte redenering, die gericht is op het dynamisch verminderen van redeneerstappen en -lengte tijdens inferentie; (3) invoerprompt-gebaseerde efficiënte redenering, die streeft naar het verbeteren van de redeneerefficiëntie op basis van invoerprompt-eigenschappen zoals moeilijkheidsgraad of lengtebeheer. Daarnaast introduceren we het gebruik van efficiënte data voor het trainen van redeneermodellen, verkennen we de redeneercapaciteiten van kleine taalmodellen, en bespreken we evaluatiemethoden en benchmarking.

Inside-Out: Verborgen Feitelijke Kennis in LLM's
Inside-Out: Hidden Factual Knowledge in LLMs

Mar 19, 2025

Zorik Gekhman, Eyal Ben David, Hadas Orgad, Eran Ofek, Yonatan Belinkov, Idan Szpector, Jonathan Herzig, Roi Reichart

551

Dit werk presenteert een raamwerk voor het beoordelen of grote taalmmodellen (LLMs) meer feitelijke kennis in hun parameters coderen dan wat ze in hun uitvoer tot uitdrukking brengen. Hoewel enkele studies op deze mogelijkheid wijzen, heeft geen enkele dit fenomeen duidelijk gedefinieerd of aangetoond. We stellen eerst een formele definitie van kennis voor, waarbij we deze voor een gegeven vraag kwantificeren als de fractie van correct-incorrect antwoordparen waarin het correcte antwoord hoger wordt gerangschikt. Dit leidt tot externe en interne kennis, afhankelijk van de informatie die wordt gebruikt om individuele antwoordkandidaten te scoren: ofwel de observeerbare token-niveau kansen van het model, ofwel de tussenliggende berekeningen. Verborgen kennis ontstaat wanneer interne kennis externe kennis overtreft. Vervolgens presenteren we een casestudy waarin we dit raamwerk toepassen op drie populaire open-gewichten LLMs in een closed-book QA-opstelling. Onze resultaten geven aan dat: (1) LLMs consistent meer feitelijke kennis intern coderen dan wat ze extern tot uitdrukking brengen, met een gemiddeld verschil van 40%. (2) Verrassend genoeg is sommige kennis zo diep verborgen dat een model een antwoord intern perfect kan kennen, maar het zelfs niet één keer kan genereren, ondanks grootschalige herhaalde steekproeven van 1.000 antwoorden. Dit onthult fundamentele beperkingen in de generatiecapaciteiten van LLMs, wat (3) een praktische beperking vormt voor het opschalen van test-tijd rekenkracht via herhaalde antwoordsteekproeven in closed-book QA: significante prestatieverbeteringen blijven ontoegankelijk omdat sommige antwoorden praktisch nooit worden bemonsterd, terwijl we ze gegarandeerd als eerste zouden rangschikken als ze dat wel waren.

Reinforcement Learning voor Redeneren in Kleine LLM's: Wat Werkt en Wat Niet
Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't

Mar 20, 2025

Quy-Anh Dang, Chris Ngo

5123

Het verbeteren van de redeneervaardigheden van grote taalmodellen (LLMs) is doorgaans afhankelijk van enorme rekenkracht en uitgebreide datasets, wat de toegankelijkheid beperkt in omgevingen met beperkte middelen. Onze studie onderzoekt het potentieel van reinforcement learning (RL) om het redeneren in kleine LLMs te verbeteren, met focus op een model van 1,5 miljard parameters, DeepSeek-R1-Distill-Qwen-1.5B, onder strikte beperkingen: training op 4 NVIDIA A40 GPU's (elk 48 GB VRAM) binnen 24 uur. Door het Group Relative Policy Optimization (GRPO)-algoritme aan te passen en een compacte, hoogwaardige dataset voor wiskundig redeneren samen te stellen, hebben we drie experimenten uitgevoerd om het modelgedrag en de prestaties te onderzoeken. Onze resultaten tonen snelle verbeteringen in redeneren - bijvoorbeeld AMC23-nauwkeurigheid stijgend van 63% naar 80% en AIME24 bereikend 46,7%, wat o1-preview overtreft - met slechts 7.000 voorbeelden en een trainingskost van $42, vergeleken met duizenden dollars voor basismodellen. Er deden zich echter uitdagingen voor, zoals instabiliteit bij optimalisatie en lengtebeperkingen bij langdurige training. Deze bevindingen benadrukken de effectiviteit van RL-gebaseerde fine-tuning voor kleine LLMs, wat een kosteneffectief alternatief biedt voor grootschalige benaderingen. We maken onze code en datasets beschikbaar als open-source bronnen, wat inzicht biedt in afwegingen en een basis legt voor schaalbare, redeneervaardige LLMs in omgevingen met beperkte middelen. Alles is beschikbaar op https://github.com/knoveleng/open-rs.

Cosmos-Reason1: Van Fysiek Gezond Verstand Naar Belichaamd Redeneren
Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning

Mar 18, 2025

NVIDIA, Alisson Azzolini, Hannah Brandon, Prithvijit Chattopadhyay, Huayu Chen, Jinju Chu, Yin Cui, Jenna Diamond, Yifan Ding, Francesco Ferroni, Rama Govindaraju, Jinwei Gu, Siddharth Gururani, Imad El Hanafi, Zekun Hao, Jacob Huffman, Jingyi Jin, Brendan Johnson, Rizwan Khan, George Kurian, Elena Lantz, Nayeon Lee, Zhaoshuo Li, Xuan Li, Tsung-Yi Lin, Yen-Chen Lin, Ming-Yu Liu, Andrew Mathau, Yun Ni, Lindsey Pavao, Wei Ping, David W. Romero, Misha Smelyanskiy, Shuran Song, Lyne Tchapmi, Andrew Z. Wang, Boxin Wang, Haoxiang Wang, Fangyin Wei, Jiashu Xu, Yao Xu, Xiaodong Yang, Zhuolin Yang, Xiaohui Zeng, Zhe Zhang

502

Fysieke AI-systemen moeten waarnemen, begrijpen en complexe acties uitvoeren in de fysieke wereld. In dit artikel presenteren we de Cosmos-Reason1-modellen die de fysieke wereld kunnen begrijpen en gepaste belichaamde beslissingen (bijv. de volgende actie) kunnen genereren in natuurlijke taal via lange ketens van redeneringsprocessen. We beginnen met het definiëren van belangrijke vaardigheden voor fysieke AI-redenering, met een focus op fysiek gezond verstand en belichaamde redenering. Om fysiek gezond verstand weer te geven, gebruiken we een hiërarchische ontologie die fundamentele kennis over ruimte, tijd en fysica vastlegt. Voor belichaamde redenering vertrouwen we op een tweedimensionale ontologie die generaliseert over verschillende fysieke belichamingen. Op basis van deze vaardigheden ontwikkelen we twee multimodale grote taalmodellen, Cosmos-Reason1-8B en Cosmos-Reason1-56B. We cureren data en trainen onze modellen in vier fasen: visuele voorafgaande training, algemene supervised fine-tuning (SFT), fysieke AI SFT, en fysieke AI reinforcement learning (RL) als de na-training. Om onze modellen te evalueren, bouwen we uitgebreide benchmarks voor fysiek gezond verstand en belichaamde redenering volgens onze ontologieën. Evaluatieresultaten tonen aan dat fysieke AI SFT en reinforcement learning significante verbeteringen opleveren. Om de ontwikkeling van fysieke AI te faciliteren, zullen we onze code en vooraf getrainde modellen beschikbaar stellen onder de NVIDIA Open Model License op https://github.com/nvidia-cosmos/cosmos-reason1.

Waarom falen multi-agent LLM-systemen?
Why Do Multi-Agent LLM Systems Fail?

Mar 17, 2025

Mert Cemri, Melissa Z. Pan, Shuyi Yang, Lakshya A. Agrawal, Bhavya Chopra, Rishabh Tiwari, Kurt Keutzer, Aditya Parameswaran, Dan Klein, Kannan Ramchandran, Matei Zaharia, Joseph E. Gonzalez, Ion Stoica

473

Ondanks de groeiende enthousiasme voor Multi-Agent Systemen (MAS), waarbij meerdere LLM-agenten samenwerken om taken te voltooien, blijven hun prestatieverbeteringen op populaire benchmarks minimaal in vergelijking met single-agent frameworks. Deze kloof onderstreept de noodzaak om de uitdagingen die de effectiviteit van MAS belemmeren, te analyseren. In dit artikel presenteren we de eerste uitgebreide studie naar MAS-uitdagingen. We analyseren vijf populaire MAS-frameworks over meer dan 150 taken, met de inzet van zes ervaren menselijke annotators. We identificeren 14 unieke faalmodi en stellen een uitgebreide taxonomie voor die toepasbaar is op verschillende MAS-frameworks. Deze taxonomie ontstaat iteratief op basis van overeenstemming tussen drie expert-annotators per studie, met een Cohen's Kappa-score van 0,88. Deze fijnmazige faalmodi zijn georganiseerd in drie categorieën: (i) specificatie- en systeemontwerpfouten, (ii) misalignement tussen agenten, en (iii) taakverificatie en -beëindiging. Om schaalbare evaluatie te ondersteunen, integreren we MASFT met LLM-as-a-Judge. We onderzoeken ook of geïdentificeerde fouten eenvoudig kunnen worden voorkomen door twee interventies voor te stellen: verbeterde specificatie van agentrollen en versterkte orkestratiestrategieën. Onze bevindingen tonen aan dat geïdentificeerde fouten complexere oplossingen vereisen, wat een duidelijk onderzoekspad voor toekomstig onderzoek markeert. We maken onze dataset en LLM-annotator openbaar.

Het Vrijgeven van het Vecset Diffusiemodel voor Snelle Vormgeneratie
Unleashing Vecset Diffusion Model for Fast Shape Generation

Mar 20, 2025

Zeqiang Lai, Yunfei Zhao, Zibo Zhao, Haolin Liu, Fuyun Wang, Huiwen Shi, Xianghui Yang, Qinxiang Lin, Jinwei Huang, Yuhong Liu, Jie Jiang, Chunchao Guo, Xiangyu Yue

444

3D-vormgeneratie heeft een grote bloei doorgemaakt dankzij de ontwikkeling van zogenaamde "native" 3D-diffusie, met name door het Vecset Diffusion Model (VDM). Hoewel recente vooruitgang veelbelovende resultaten heeft laten zien bij het genereren van hoogwaardige 3D-vormen, heeft VDM nog steeds moeite met snelle generatie. De uitdagingen bestaan niet alleen door moeilijkheden bij het versnellen van diffusiebemonstering, maar ook bij VAE-decodering in VDM, gebieden die in eerdere werken onderbelicht zijn gebleven. Om deze uitdagingen aan te pakken, presenteren we FlashVDM, een systematisch raamwerk voor het versnellen van zowel VAE als DiT in VDM. Voor DiT maakt FlashVDM flexibele diffusiebemonstering mogelijk met slechts 5 inferentiestappen en vergelijkbare kwaliteit, wat mogelijk wordt gemaakt door het stabiliseren van consistentiedistillatie met onze nieuw geïntroduceerde Progressive Flow Distillation. Voor VAE introduceren we een bliksemsnelle vecset-decoder uitgerust met Adaptive KV Selection, Hierarchical Volume Decoding en Efficient Network Design. Door gebruik te maken van de localiteit van de vecset en de sparsiteit van de vormoppervlakte in het volume, verlaagt onze decoder drastisch het aantal FLOPs, waardoor de totale decodeeroverhead wordt geminimaliseerd. We passen FlashVDM toe op Hunyuan3D-2 om Hunyuan3D-2 Turbo te verkrijgen. Door systematische evaluatie laten we zien dat ons model aanzienlijk beter presteert dan bestaande snelle 3D-generatiemethoden, waarbij het vergelijkbare prestaties bereikt als de state-of-the-art terwijl de inferentietijd met meer dan 45x voor reconstructie en 32x voor generatie wordt verminderd. Code en modellen zijn beschikbaar op https://github.com/Tencent/FlashVDM.

Schaalsgewijze Destillatie van Diffusiemodellen
Scale-wise Distillation of Diffusion Models

Mar 20, 2025

Nikita Starodubcev, Denis Kuznedelev, Artem Babenko, Dmitry Baranchuk

424

We presenteren SwD, een scale-wise distillatiekader voor diffusiemodellen (DMs), dat effectief gebruikmaakt van next-scale voorspellingsideeën voor diffusiegebaseerde few-step generatoren. In meer detail is SwD geïnspireerd door recente inzichten die diffusieprocessen relateren aan impliciete spectrale autoregressie. We veronderstellen dat DMs generatie kunnen starten bij lagere dataresoluties en de samples geleidelijk kunnen opschalen bij elke denoisestap zonder prestatieverlies, terwijl de rekenkosten aanzienlijk worden verlaagd. SwD integreert dit idee op natuurlijke wijze in bestaande diffusiedistillatiemethoden gebaseerd op distributie-matching. Daarnaast verrijken we de familie van distributie-matchingbenaderingen door een nieuw patch-verlies te introduceren dat een fijnmazigere gelijkenis met de doeldistributie afdwingt. Wanneer toegepast op state-of-the-art tekst-naar-beeld diffusiemodellen, benadert SwD de inferentietijden van twee volledige resolutiestappen en presteert het aanzienlijk beter dan de tegenhangers binnen hetzelfde rekenbudget, zoals blijkt uit geautomatiseerde metingen en studies naar menselijke voorkeuren.

JARVIS-VLA: Post-Trainen van Grootschalige Visueel-Taalmodellen om Visuele Spellen te Spelen met Toetsenbord en Muis
JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse

Mar 20, 2025

Muyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang

412

Onlangs heeft actiegebaseerde besluitvorming in open-wereldomgevingen aanzienlijke aandacht gekregen. Visual Language Action (VLA)-modellen, vooraf getraind op grootschalige webdatasets, hebben veelbelovende resultaten getoond bij besluitvormingstaken. Eerdere onderzoeken hebben zich echter voornamelijk gericht op actie-na-training, waarbij verbeteringen aan het onderliggende model zelf vaak over het hoofd werden gezien. Als reactie hierop introduceren we een nieuwe aanpak, Act from Visual Language Post-Training, die Visual Language Models (VLMs) verfijnt door middel van visuele en linguïstische begeleiding op een zelfsuperviserende manier. Deze verbetering vergroot de capaciteiten van de modellen op het gebied van wereldkennis, visuele herkenning en ruimtelijke verankering in open-wereldomgevingen. Door de bovenstaande na-trainingsparadigma's te volgen, hebben we de eerste VLA-modellen in Minecraft ontwikkeld die menselijke instructies kunnen volgen voor meer dan 1.000 verschillende atomische taken, waaronder vervaardigen, smelten, koken, mijnen en doden. Onze experimenten tonen aan dat na-training op niet-trajecttaken leidt tot een significante verbetering van 40% ten opzichte van de beste agent-baseline op een diverse set van atomische taken. Bovendien laten we zien dat onze aanpak traditionele op imitatie leren gebaseerde beleidsregels in Minecraft overtreft, wat resulteert in state-of-the-art prestaties. We hebben de code, modellen en datasets openbaar gemaakt om verder onderzoek te bevorderen. De projectpagina is te vinden op https://craftjarvis.github.io/JarvisVLA.

InfiniteYou: Flexibele Fotobewerking met Behoud van Je Identiteit
InfiniteYou: Flexible Photo Recrafting While Preserving Your Identity

Mar 20, 2025

Liming Jiang, Qing Yan, Yumin Jia, Zichuan Liu, Hao Kang, Xin Lu

366

Het bereiken van flexibele en hoogwaardige beeldgeneratie met behoud van identiteit blijft een uitdaging, vooral met geavanceerde Diffusion Transformers (DiTs) zoals FLUX. Wij introduceren InfiniteYou (InfU), een van de eerste robuuste frameworks die DiTs voor deze taak benut. InfU lost belangrijke problemen van bestaande methoden op, zoals onvoldoende identiteitsgelijkenis, slechte tekst-beeldafstemming en lage generatiekwaliteit en esthetiek. Centraal in InfU staat InfuseNet, een component dat identiteitskenmerken in het DiT-basismodel injecteert via restverbindingen, waardoor de identiteitsgelijkenis wordt verbeterd terwijl de generatiecapaciteiten behouden blijven. Een meerfasige trainingsstrategie, inclusief voorafgaande training en gesuperviseerde fine-tuning (SFT) met synthetische single-person-multiple-sample (SPMS) data, verbetert verder de tekst-beeldafstemming, verbetert de beeldkwaliteit en vermindert het kopiëren van gezichten. Uitgebreide experimenten tonen aan dat InfU state-of-the-art prestaties bereikt, bestaande baseline-methoden overtreffend. Bovendien zorgt het plug-and-play ontwerp van InfU voor compatibiliteit met verschillende bestaande methoden, wat een waardevolle bijdrage levert aan de bredere gemeenschap.

LHM: Groot Animeerbaar Menselijk Reconstructiemodel vanuit één Afbeelding in Seconden
LHM: Large Animatable Human Reconstruction Model from a Single Image in Seconds

Mar 13, 2025

Lingteng Qiu, Xiaodong Gu, Peihao Li, Qi Zuo, Weichao Shen, Junfei Zhang, Kejie Qiu, Weihao Yuan, Guanying Chen, Zilong Dong, Liefeng Bo

325

Het reconstrueren van animeerbare 3D-menselijke modellen vanuit een enkele afbeelding is een uitdagend probleem vanwege de ambiguïteit in het ontkoppelen van geometrie, uiterlijk en vervorming. Recente vooruitgang in 3D-menselijke reconstructie richt zich voornamelijk op statische menselijke modellering, en de afhankelijkheid van synthetische 3D-scans voor training beperkt hun generalisatievermogen. Daarentegen behalen op optimalisatie gebaseerde videomethoden een hogere nauwkeurigheid, maar vereisen ze gecontroleerde opnameomstandigheden en rekenintensieve verfijningsprocessen. Geïnspireerd door de opkomst van grote reconstructiemodellen voor efficiënte statische reconstructie, stellen we LHM (Large Animatable Human Reconstruction Model) voor om hoogwaardige avatars, gerepresenteerd als 3D Gaussian splatting, in één voorwaartse pass te infereren. Ons model maakt gebruik van een multimodale transformer-architectuur om de positionele kenmerken van het menselijk lichaam en beeldkenmerken effectief te coderen met een aandachtmechanisme, waardoor gedetailleerde behoud van kledinggeometrie en textuur mogelijk wordt. Om het behoud van gezichtsidentiteit en het herstel van fijne details verder te verbeteren, stellen we een hoofdkenmerkpiramide-coderingsschema voor om multi-schaalkenmerken van de hoofdregio's te aggregeren. Uitgebreide experimenten tonen aan dat onze LHM binnen enkele seconden plausibele animeerbare menselijke modellen genereert zonder nabewerking voor gezicht en handen, en daarbij bestaande methoden overtreft in zowel reconstructienauwkeurigheid als generalisatievermogen.

Fin-R1: Een Taalmodel op Schaal voor Financieel Redeneren via Reinforcement Learning
Fin-R1: A Large Language Model for Financial Reasoning through Reinforcement Learning

Mar 20, 2025

Zhaowei Liu, Xin Guo, Fangqi Lou, Lingfeng Zeng, Jinyi Niu, Zixuan Wang, Jiajie Xu, Weige Cai, Ziwei Yang, Xueqian Zhao, Chao Li, Sheng Xu, Dezhi Chen, Yun Chen, Zuo Bai, Liwen Zhang

274

Redenerende grote taalmodellen evolueren snel in verschillende domeinen. Hun mogelijkheden om complexe financiële taken aan te pakken, vereisen echter nog diepgaand onderzoek. In dit artikel introduceren we Fin-R1, een redenerend groot taalmodel dat specifiek is ontworpen voor de financiële sector. Fin-R1 is gebouwd met behulp van een tweestapsarchitectuur, waarbij gebruik wordt gemaakt van een financieel redeneerdataset die is gedestilleerd en verwerkt op basis van DeepSeek-R1. Door middel van supervised fine-tuning (SFT) en reinforcement learning (RL)-training demonstreert het prestaties die dicht bij die van DeepSeek-R1 liggen, met een parameterschaal van 7 miljard, over een reeks financiële redeneertaken. Het behaalt de state-of-the-art (SOTA) in de FinQA- en ConvFinQA-taken tussen de geëvalueerde LLM's, en overtreft ook grotere modellen in andere taken. Fin-R1 toont sterke redeneer- en besluitvormingscapaciteiten en biedt oplossingen voor diverse problemen die in het financiële domein worden aangetroffen. Onze code is beschikbaar op https://github.com/SUFE-AIFLM-Lab/Fin-R1.

DiffMoE: Dynamische Tokenselectie voor Schaalbare Diffusie Transformers
DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers

Mar 18, 2025

Minglei Shi, Ziyang Yuan, Haotian Yang, Xintao Wang, Mingwu Zheng, Xin Tao, Wenliang Zhao, Wenzhao Zheng, Jie Zhou, Jiwen Lu, Pengfei Wan, Di Zhang, Kun Gai

275

Diffusiemodellen hebben opmerkelijke successen geboekt in diverse beeldgeneratietaken, maar hun prestaties worden vaak beperkt door de uniforme verwerking van invoer onder verschillende omstandigheden en ruisniveaus. Om deze beperking aan te pakken, stellen we een nieuwe aanpak voor die gebruikmaakt van de inherente heterogeniteit van het diffusieproces. Onze methode, DiffMoE, introduceert een batchgewijze globale tokenpool die experts in staat stelt om tijdens de training toegang te krijgen tot globale tokendistributies, wat gespecialiseerd expertgedrag bevordert. Om het volledige potentieel van het diffusieproces te benutten, integreert DiffMoE een capaciteitsvoorspeller die rekenbronnen dynamisch toewijst op basis van ruisniveaus en samplecomplexiteit. Door middel van uitgebreide evaluatie behaalt DiffMoE state-of-the-art prestaties onder diffusiemodellen op de ImageNet-benchmark, waarbij het zowel dichte architecturen met 3x geactiveerde parameters als bestaande MoE-benaderingen aanzienlijk overtreft, terwijl het slechts 1x geactiveerde parameters behoudt. De effectiviteit van onze aanpak strekt zich uit verder dan klasse-conditionele generatie naar uitdagendere taken zoals tekst-naar-beeldgeneratie, wat de brede toepasbaarheid ervan aantoont in verschillende diffusiemodeltoepassingen. Projectpagina: https://shiml20.github.io/DiffMoE/

SynCity: Training-vrije generatie van 3D-werelden
SynCity: Training-Free Generation of 3D Worlds

Mar 20, 2025

Paul Engstler, Aleksandar Shtedritski, Iro Laina, Christian Rupprecht, Andrea Vedaldi

264

We pakken de uitdaging aan om 3D-werelden te genereren op basis van tekstuele beschrijvingen. We introduceren SynCity, een benadering zonder training of optimalisatie, die gebruikmaakt van de geometrische precisie van vooraf getrainde 3D-generatieve modellen en de artistieke veelzijdigheid van 2D-beeldgeneratoren om grote, hoogwaardige 3D-ruimtes te creëren. Terwijl de meeste 3D-generatieve modellen objectgericht zijn en geen grootschalige werelden kunnen genereren, laten we zien hoe 3D- en 2D-generatoren gecombineerd kunnen worden om voortdurend uitbreidende scènes te genereren. Via een op tegels gebaseerde aanpak bieden we fijnmazige controle over de lay-out en het uiterlijk van scènes. De wereld wordt tegel voor tegel gegenereerd, waarbij elke nieuwe tegel binnen zijn wereldcontext wordt gegenereerd en vervolgens met de scène wordt samengevoegd. SynCity genereert boeiende en meeslepende scènes die rijk zijn aan detail en diversiteit.

Plug-and-Play 1.x-Bit KV Cache Kwantisatie voor Video Large Language Modellen
Plug-and-Play 1.x-Bit KV Cache Quantization for Video Large Language Models

Mar 20, 2025

Keda Tao, Haoxuan You, Yang Sui, Can Qin, Huan Wang

243

Video large language models (VideoLLMs) hebben het vermogen aangetoond om langere video-invoer te verwerken en complexe redenering en analyse mogelijk te maken. Echter, vanwege de duizenden visuele tokens uit de videoframes, kan de key-value (KV) cache de geheugenvereisten aanzienlijk verhogen, wat een knelpunt wordt voor de inferentiesnelheid en het geheugengebruik. KV-cache-kwantisatie is een veelgebruikte aanpak om dit probleem aan te pakken. In dit artikel ontdekken we dat 2-bit KV-kwantisatie van VideoLLMs de modelprestaties nauwelijks schaadt, terwijl de limiet van KV-cache-kwantisatie in nog lagere bits nog niet is onderzocht. Om deze kloof te overbruggen, introduceren we VidKV, een plug-and-play KV-cache-kwantisatiemethode om de KV-cache te comprimeren tot minder dan 2 bits. Specifiek: (1) voor de key stellen we een mixed-precision-kwantisatiestrategie voor in de kanaaldimensie, waarbij we 2-bit-kwantisatie uitvoeren voor afwijkende kanalen en 1-bit-kwantisatie gecombineerd met FFT voor normale kanalen; (2) voor de value implementeren we 1.58-bit-kwantisatie terwijl we selectief semantisch belangrijke visuele tokens filteren voor gerichte bewaring, voor een betere afweging tussen precisie en modelprestaties. Belangrijk is dat onze bevindingen suggereren dat de value-cache van VideoLLMs per kanaal moet worden gekwantiseerd in plaats van per token, zoals voorgesteld door eerdere KV-cache-kwantisatiewerkzaamheden voor LLMs. Empirisch laten uitgebreide resultaten met LLaVA-OV-7B en Qwen2.5-VL-7B op zes benchmarks zien dat VidKV de KV-cache effectief comprimeert tot 1.5-bit en 1.58-bit precisie met bijna geen prestatieverlies in vergelijking met de FP16-tegenhangers.

MathFusion: Verbetering van Wiskundig Probleemoplossend Vermogen van LLM door Instructie Fusie
MathFusion: Enhancing Mathematic Problem-solving of LLM through Instruction Fusion

Mar 20, 2025

Qizhi Pei, Lijun Wu, Zhuoshi Pan, Yu Li, Honglin Lin, Chenlin Ming, Xin Gao, Conghui He, Rui Yan

242

Grote Taalmodellen (LLM's) hebben indrukwekkende vooruitgang geboekt in wiskundig redeneren. Hoewel data-augmentatie veelbelovend is om het vermogen tot wiskundig probleemoplossen te verbeteren, zijn huidige benaderingen voornamelijk beperkt tot wijzigingen op instansieniveau—zoals herformulering of het genereren van syntactische variaties—die de intrinsieke relationele structuren die inherent zijn aan wiskundige kennis niet vastleggen en benutten. Geïnspireerd door menselijke leerprocessen, waarbij wiskundige vaardigheid zich ontwikkelt door systematische blootstelling aan onderling verbonden concepten, introduceren we MathFusion, een nieuw framework dat wiskundig redeneren verbetert door kruisprobleem-instructiesynthese. MathFusion implementeert dit via drie fusiestrategieën: (1) sequentiële fusie, waarbij gerelateerde problemen worden gekoppeld om oplossingsafhankelijkheden te modelleren; (2) parallelle fusie, waarbij analoge problemen worden gecombineerd om conceptueel begrip te versterken; en (3) conditionele fusie, waarbij contextbewuste selectieve problemen worden gecreëerd om de flexibiliteit van het redeneren te vergroten. Door deze strategieën toe te passen, genereren we een nieuwe dataset, MathFusionQA, gevolgd door het finetunen van modellen (DeepSeekMath-7B, Mistral-7B, Llama3-8B) hierop. Experimentele resultaten tonen aan dat MathFusion aanzienlijke verbeteringen bereikt in wiskundig redeneren terwijl het een hoge data-efficiëntie behoudt, met een prestatieverbetering van 18,0 punten in nauwkeurigheid over diverse benchmarks, terwijl slechts 45K aanvullende synthetische instructies nodig zijn, wat een aanzienlijke verbetering is ten opzichte van traditionele single-instructiebenaderingen. Onze datasets, modellen en code zijn publiekelijk beschikbaar op https://github.com/QizhiPei/mathfusion.

Beeld tokeniseren als een verzameling
Tokenize Image as a Set

Mar 20, 2025

Zigang Geng, Mengde Xu, Han Hu, Shuyang Gu

163

Dit artikel introduceert een fundamenteel nieuw paradigma voor beeldgeneratie via set-gebaseerde tokenisatie en distributiemodellering. In tegenstelling tot conventionele methoden die beelden serialiseren in latentecodes met vaste posities en een uniforme compressieverhouding, introduceren wij een ongeordende token-setrepresentatie om coderingscapaciteit dynamisch toe te wijzen op basis van regionale semantische complexiteit. Deze TokenSet verbetert de aggregatie van globale context en verhoogt de robuustheid tegen lokale verstoringen. Om de kritieke uitdaging van het modelleren van discrete sets aan te pakken, ontwikkelen we een duale transformatiemechanisme dat sets bijectief omzet in vaste-lengte integerreeksen met sommatiebeperkingen. Verder stellen we Fixed-Sum Discrete Diffusion voor—het eerste framework dat tegelijkertijd discrete waarden, vaste sequentielengte en sommatie-invariantie behandelt—wat effectieve set-distributiemodellering mogelijk maakt. Experimenten tonen de superioriteit van onze methode aan in semantisch bewuste representatie en generatiekwaliteit. Onze innovaties, die nieuwe representatie- en modelleringsstrategieën omvatten, brengen visuele generatie voorbij traditionele sequentiële tokenparadigma's. Onze code en modellen zijn publiekelijk beschikbaar op https://github.com/Gengzigang/TokenSet.

M3: 3D-Ruimtelijk Multimodaal Geheugen
M3: 3D-Spatial MultiModal Memory

Mar 20, 2025

Xueyan Zou, Yuchen Song, Ri-Zhao Qiu, Xuanbin Peng, Jianglong Ye, Sifei Liu, Xiaolong Wang

152

We presenteren 3D Spatial MultiModal Memory (M3), een multimodaal geheugensysteem ontworpen om informatie over middelgrote statische scènes vast te houden via videobronnen voor visuele perceptie. Door 3D Gaussian Splatting-technieken te integreren met foundation models, bouwt M3 een multimodaal geheugen dat in staat is om feature-representaties te renderen over verschillende granulariteiten, waarbij een breed scala aan kennis wordt omvat. In ons onderzoek identificeren we twee belangrijke uitdagingen in eerdere werken over feature splatting: (1) computationele beperkingen bij het opslaan van hoogdimensionale features voor elk Gaussisch primitief, en (2) uitlijning of informatieverlies tussen gedistilleerde features en foundation model features. Om deze uitdagingen aan te pakken, stellen we M3 voor met sleutelcomponenten van belangrijkste scènecomponenten en Gaussisch geheugenattention, waardoor efficiënte training en inferentie mogelijk worden. Om M3 te valideren, voeren we uitgebreide kwantitatieve evaluaties uit van feature-similariteit en downstream taken, evenals kwalitatieve visualisaties om de pixel-trace van Gaussisch geheugenattention te benadrukken. Onze aanpak omvat een diverse reeks foundation models, waaronder vision-language models (VLMs), perceptiemodellen en grote multimodale en taalmodelen (LMMs/LLMs). Bovendien demonstreren we de toepasbaarheid in de praktijk door M3's feature-veld te implementeren in binnenruimtes op een viervoetige robot. Opmerkelijk is dat we stellen dat M3 het eerste werk is dat de kerncompressie-uitdagingen in 3D feature-distillatie aanpakt.

CaKE: Circuitbewust Bewerken Maakt Generaliseerbare Kennissystemen Mogelijk
CaKE: Circuit-aware Editing Enables Generalizable Knowledge Learners

Mar 20, 2025

Yunzhi Yao, Jizhan Fang, Jia-Chen Gu, Ningyu Zhang, Shumin Deng, Huajun Chen, Nanyun Peng

152

Kennisbewerking (Knowledge Editing, KE) maakt het mogelijk om verouderde of incorrecte informatie in grote taalmodellen (Large Language Models, LLMs) aan te passen. Hoewel bestaande KE-methoden geïsoleerde feiten kunnen bijwerken, hebben ze moeite om deze updates te generaliseren naar multi-hop redeneertaken die afhankelijk zijn van de aangepaste kennis. Door een analyse van redeneercircuits — de neurale paden die LLMs gebruiken voor kennisgebaseerde inferentie — observeren we dat huidige laaggelokaliseerde KE-benaderingen, zoals MEMIT en WISE, die slechts één of enkele modellagen bewerken, moeite hebben om de bijgewerkte informatie effectief in deze redeneerpaden te integreren. Om deze beperking aan te pakken, stellen we CaKE (Circuit-aware Knowledge Editing) voor, een nieuwe methode die een effectievere integratie van bijgewerkte kennis in LLMs mogelijk maakt. CaKE maakt gebruik van strategisch samengestelde data, geleid door onze circuitgebaseerde analyse, die het model dwingt om de aangepaste kennis te gebruiken, waardoor het model gestimuleerd wordt om geschikte redeneercircuits te ontwikkelen voor nieuw geïntegreerde kennis. Experimentele resultaten tonen aan dat CaKE een nauwkeuriger en consistenter gebruik van bijgewerkte kennis mogelijk maakt in gerelateerde redeneertaken, wat leidt tot een gemiddelde verbetering van 20% in de nauwkeurigheid van multi-hop redeneren op de MQuAKE-dataset in vergelijking met bestaande KE-methoden. We hebben de code en data vrijgegeven op https://github.com/zjunlp/CaKE.

MotionStreamer: Streaming Bewegingsgeneratie via Diffusiegebaseerd Autoregressief Model in Causale Latente Ruimte
MotionStreamer: Streaming Motion Generation via Diffusion-based Autoregressive Model in Causal Latent Space

Mar 19, 2025

Lixing Xiao, Shunlin Lu, Huaijin Pi, Ke Fan, Liang Pan, Yueer Zhou, Ziyong Feng, Xiaowei Zhou, Sida Peng, Jingbo Wang

152

Dit artikel behandelt de uitdaging van tekstgeconditioneerde streamingbewegingsgeneratie, waarbij het nodig is om de volgende menselijke houding te voorspellen op basis van variabele historische bewegingen en binnenkomende teksten. Bestaande methoden hebben moeite met het realiseren van streamingbewegingsgeneratie; zo zijn diffusiemodellen beperkt door vooraf gedefinieerde bewegingslengtes, terwijl GPT-gebaseerde methoden last hebben van vertraagde reacties en foutaccumulatie door gediscretiseerde niet-causale tokenisatie. Om deze problemen op te lossen, stellen we MotionStreamer voor, een nieuw framework dat een continu causaal latent ruimte integreert in een probabilistisch autoregressief model. De continue latenten verminderen informatieverlies veroorzaakt door discretisatie en beperken effectief foutaccumulatie tijdens langdurige autoregressieve generatie. Daarnaast maakt ons model door het vaststellen van temporele causale afhankelijkheden tussen huidige en historische bewegingslatenten volledig gebruik van de beschikbare informatie om nauwkeurige online bewegingsdecodering te bereiken. Experimenten tonen aan dat onze methode bestaande benaderingen overtreft en tegelijkertijd meer toepassingen biedt, waaronder meervoudige generatie, langdurige generatie en dynamische bewegingcompositie. Projectpagina: https://zju3dv.github.io/MotionStreamer/

XAttention: Blok Sparse Attention met Antidiagonale Scoring
XAttention: Block Sparse Attention with Antidiagonal Scoring

Mar 20, 2025

Ruyi Xu, Guangxuan Xiao, Haofeng Huang, Junxian Guo, Song Han

142

Long-Context Transformer-modellen (LCTMs) zijn essentieel voor real-world toepassingen, maar lijden onder hoge computationele kosten vanwege de kwadratische complexiteit van aandacht (attention). Block-sparse attention vermindert dit door de rekenkracht te richten op kritieke regio's, maar bestaande methoden worstelen met het balanceren van nauwkeurigheid en efficiëntie vanwege kostbare metingen van blokbelangrijkheid. In dit artikel introduceren we XAttention, een plug-and-play framework dat de inferentie van lange context in Transformer-modellen aanzienlijk versnelt door gebruik te maken van sparse attention. De belangrijkste innovatie van XAttention is het inzicht dat de som van antidiagonale waarden (d.w.z. van linksonder naar rechtsboven) in de aandachtmatrix een krachtige proxy biedt voor blokbelangrijkheid. Hierdoor kunnen niet-essentiële blokken precies worden geïdentificeerd en verwijderd, wat resulteert in een hoge sparsity en aanzienlijk versnelde inferentie. Uit uitgebreide evaluaties op veeleisende lange-context benchmarks – waaronder RULER en LongBench voor taal, VideoMME voor videobegrip en VBench voor videogeneratie – blijkt dat XAttention een nauwkeurigheid bereikt die vergelijkbaar is met volledige aandacht, terwijl het aanzienlijke computationele voordelen biedt. We demonstreren een versnelling van tot 13,5x in de aandachtberekening. Deze resultaten onderstrepen het vermogen van XAttention om het praktische potentieel van block sparse attention te ontsluiten, waardoor de weg wordt geëffend voor schaalbare en efficiënte inzet van LCTMs in real-world toepassingen. Code is beschikbaar op https://github.com/mit-han-lab/x-attention.

1000+ FPS 4D Gaussische Splatting voor Dynamische Scène Rendering
1000+ FPS 4D Gaussian Splatting for Dynamic Scene Rendering

Mar 20, 2025

Yuheng Yuan, Qiuhong Shen, Xingyi Yang, Xinchao Wang

142

4D Gaussian Splatting (4DGS) heeft recentelijk aanzienlijke aandacht gekregen als een methode voor het reconstrueren van dynamische scènes. Ondanks dat het superieure kwaliteit bereikt, vereist 4DGS doorgaans aanzienlijke opslag en lijdt het onder een trage renderingsnelheid. In dit werk duiken we in deze problemen en identificeren we twee belangrijke bronnen van temporele redundantie. (Q1) Kortlevende Gaussians: 4DGS gebruikt een groot deel van Gaussians met een korte temporele duur om scènedynamiek weer te geven, wat leidt tot een excessief aantal Gaussians. (Q2) Inactieve Gaussians: Bij het renderen draagt slechts een kleine subset van Gaussians bij aan elk frame. Desondanks worden alle Gaussians verwerkt tijdens de rasterisatie, wat resulteert in overbodige rekenkosten. Om deze redundanties aan te pakken, presenteren we 4DGS-1K, dat draait op meer dan 1000 FPS op moderne GPU's. Voor Q1 introduceren we de Spatial-Temporal Variation Score, een nieuw snoeicriterium dat effectief kortlevende Gaussians verwijdert terwijl het 4DGS aanmoedigt om scènedynamiek vast te leggen met Gaussians met langere temporele duur. Voor Q2 slaan we een masker op voor actieve Gaussians over opeenvolgende frames, wat de overbodige berekeningen bij het renderen aanzienlijk vermindert. Vergeleken met standaard 4DGS, bereikt onze methode een 41-voudige reductie in opslag en een 9-voudige versnelling van de rasterisatiesnelheid op complexe dynamische scènes, terwijl een vergelijkbare visuele kwaliteit behouden blijft. Bezoek onze projectpagina op https://4DGS-1K.github.io.

Expert Race: Een flexibel routeringsstrategie voor het schalen van Diffusion Transformers met een Mixture of Experts
Expert Race: A Flexible Routing Strategy for Scaling Diffusion Transformer with Mixture of Experts

Mar 20, 2025

Yike Yuan, Ziyu Wang, Zihao Huang, Defa Zhu, Xun Zhou, Jingyi Yu, Qiyang Min

142

Diffusiemodellen zijn uitgegroeid tot een mainstream raamwerk in visuele generatie. Voortbouwend op dit succes heeft de integratie van Mixture of Experts (MoE)-methoden belofte getoond in het verbeteren van de schaalbaarheid en prestaties van modellen. In dit artikel introduceren we Race-DiT, een nieuw MoE-model voor diffusie-transformers met een flexibele routeringsstrategie, Expert Race. Door tokens en experts samen te laten concurreren en de beste kandidaten te selecteren, leert het model experts dynamisch toe te wijzen aan kritieke tokens. Daarnaast stellen we per-laag regularisatie voor om uitdagingen in het leren van ondiepe lagen aan te pakken, en router similarity loss om mode-collaps te voorkomen, wat een betere benutting van experts garandeert. Uitgebreide experimenten op ImageNet valideren de effectiviteit van onze aanpak, waarbij aanzienlijke prestatieverbeteringen worden getoond terwijl schaaleigenschappen worden beloofd.

Ultra-Resolutie Aanpassing met Gemak
Ultra-Resolution Adaptation with Ease

Mar 20, 2025

Ruonan Yu, Songhua Liu, Zhenxiong Tan, Xinchao Wang

132

Text-to-image diffusiemodellen hebben de afgelopen jaren opmerkelijke vooruitgang geboekt. Het trainen van modellen voor het genereren van hoogwaardige afbeeldingen blijft echter een uitdaging, vooral wanneer trainingsdata en rekenbronnen beperkt zijn. In dit artikel onderzoeken we dit praktische probleem vanuit twee belangrijke perspectieven: data- en parameter-efficiëntie, en stellen we een reeks richtlijnen voor ultra-resolutie-aanpassing voor, genaamd URAE. Voor data-efficiëntie tonen we theoretisch en empirisch aan dat synthetische data gegenereerd door sommige leraarmodellen de trainingsconvergentie aanzienlijk kunnen bevorderen. Voor parameter-efficiëntie ontdekken we dat het afstemmen van kleine componenten van de gewichtsmatrices beter presteert dan veelgebruikte low-rank adapters wanneer synthetische data niet beschikbaar zijn, wat aanzienlijke prestatieverbeteringen biedt terwijl de efficiëntie behouden blijft. Daarnaast laten we voor modellen die gebruikmaken van begeleidingsdistillatie, zoals FLUX, zien dat het uitschakelen van classifier-free guidance, d.w.z. het instellen van de begeleidingsschaal op 1 tijdens de aanpassing, cruciaal is voor bevredigende prestaties. Uitgebreide experimenten valideren dat URAE vergelijkbare 2K-generatieprestaties bereikt met state-of-the-art closed-source modellen zoals FLUX1.1 [Pro] Ultra met slechts 3K samples en 2K iteraties, terwijl het nieuwe benchmarks stelt voor 4K-resolutiegeneratie. Codes zijn beschikbaar op https://github.com/Huage001/URAE{hier}.

Sonata: Zelfsupervisie Leren van Betrouwbare Puntrepresentaties
Sonata: Self-Supervised Learning of Reliable Point Representations

Mar 20, 2025

Xiaoyang Wu, Daniel DeTone, Duncan Frost, Tianwei Shen, Chris Xie, Nan Yang, Jakob Engel, Richard Newcombe, Hengshuang Zhao, Julian Straub

112

In dit artikel onderzoeken we of we een betrouwbaar zelfgesuperviseerd puntenwolk-model hebben dat kan worden gebruikt voor diverse 3D-taken via eenvoudige lineaire probing, zelfs met beperkte data en minimale rekenkracht. We constateren dat bestaande 3D-zelfgesuperviseerde leerbenaderingen tekortschieten wanneer ze worden geëvalueerd op representatiekwaliteit door middel van lineaire probing. We veronderstellen dat dit komt door wat we de "geometrische shortcut" noemen, waardoor representaties inzakken naar laagwaardige ruimtelijke kenmerken. Deze uitdaging is uniek voor 3D en ontstaat door de schaarse aard van puntenwolkdata. We pakken dit aan via twee belangrijke strategieën: het verhullen van ruimtelijke informatie en het vergroten van de afhankelijkheid van invoerkenmerken, wat uiteindelijk resulteert in een Sonata van 140k puntenwolken door middel van zelfdistillatie. Sonata is eenvoudig en intuïtief, maar de geleerde representaties zijn sterk en betrouwbaar: zero-shot visualisaties tonen semantische groepering, naast sterke ruimtelijke redenering door middel van nearest-neighbor-relaties. Sonata toont uitzonderlijke parameter- en data-efficiëntie, verdrievoudigt de nauwkeurigheid van lineaire probing (van 21,8% naar 72,5%) op ScanNet en verdubbelt bijna de prestaties met slechts 1% van de data in vergelijking met eerdere benaderingen. Volledige fine-tuning brengt de state-of-the-art verder vooruit in zowel 3D binnen- als buitenomgevingsperceptietaken.

MagicMotion: Beheersbare Videogeneratie met Dicht-naar-Schaarse Trajectoriebegeleiding
MagicMotion: Controllable Video Generation with Dense-to-Sparse Trajectory Guidance

Mar 20, 2025

Quanhao Li, Zhen Xing, Rui Wang, Hui Zhang, Qi Dai, Zuxuan Wu

102

Recente vooruitgang in videogeneratie heeft geleid tot opmerkelijke verbeteringen in visuele kwaliteit en temporele coherentie. Hierop is traject-controleerbare videogeneratie ontstaan, die precieze controle over objectbewegingen mogelijk maakt via expliciet gedefinieerde ruimtelijke paden. Bestaande methoden hebben echter moeite met complexe objectbewegingen en multi-objectbewegingscontrole, wat resulteert in onnauwkeurige trajectvolging, slechte objectconsistentie en verminderde visuele kwaliteit. Bovendien ondersteunen deze methoden alleen trajectcontrole in een enkel formaat, wat hun toepasbaarheid in diverse scenario's beperkt. Daarnaast is er geen openbaar beschikbare dataset of benchmark die specifiek is afgestemd op traject-controleerbare videogeneratie, wat robuuste training en systematische evaluatie belemmert. Om deze uitdagingen aan te pakken, introduceren we MagicMotion, een nieuw beeld-naar-video-generatieframework dat trajectcontrole mogelijk maakt via drie niveaus van voorwaarden, van dicht naar schaars: maskers, begrenzingsvakken en schaarse vakken. Gegeven een invoerbeeld en trajecten, animeert MagicMotion naadloos objecten langs gedefinieerde trajecten terwijl objectconsistentie en visuele kwaliteit behouden blijven. Verder presenteren we MagicData, een grootschalige traject-gecontroleerde videodataset, samen met een geautomatiseerde pijplijn voor annotatie en filtering. We introduceren ook MagicBench, een uitgebreide benchmark die zowel videokwaliteit als trajectcontrole-nauwkeurigheid beoordeelt voor verschillende aantallen objecten. Uitgebreide experimenten tonen aan dat MagicMotion eerdere methoden overtreft op verschillende metrieken. Onze projectpagina is openbaar beschikbaar op https://quanhaol.github.io/magicmotion-site.

NuiScene: Onderzoek naar efficiënte generatie van onbegrensde buitenomgevingen
NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes

Mar 20, 2025

Han-Hung Lee, Qinghong Han, Angel X. Chang

102

In dit artikel onderzoeken we de taak van het genereren van uitgestrekte buitenruimtes, variërend van kastelen tot wolkenkrabbers. In tegenstelling tot het genereren van binnenruimtes, wat een primaire focus was van eerder werk, brengt het genereren van buitenruimtes unieke uitdagingen met zich mee, waaronder grote variaties in scènehoogtes en de behoefte aan een methode die in staat is om snel grote landschappen te produceren. Om dit aan te pakken, stellen we een efficiënte aanpak voor die scènedelen codeert als uniforme vectorsets, wat betere compressie en prestaties biedt dan de ruimtelijk gestructureerde latente representaties die in eerdere methoden werden gebruikt. Bovendien trainen we een expliciet outpaintingsmodel voor onbegrensde generatie, wat de samenhang verbetert in vergelijking met eerdere resampling-gebaseerde inpaintingmethoden, terwijl het ook de generatie versnelt door extra diffusiestappen te elimineren. Om deze taak te faciliteren, hebben we NuiScene43 samengesteld, een kleine maar hoogwaardige set van scènes, voorbewerkt voor gezamenlijke training. Opmerkelijk is dat, wanneer getraind op scènes van verschillende stijlen, ons model verschillende omgevingen, zoals landelijke huizen en stedelijke wolkenkrabbers, binnen dezelfde scène kan combineren, wat het potentieel van ons curatieproces benadrukt om heterogene scènes te benutten voor gezamenlijke training.

CLS-RL: Beeldclassificatie met Regelgebaseerd Reinforcement Learning
CLS-RL: Image Classification with Rule-Based Reinforcement Learning

Mar 20, 2025

Ming Li, Shitian Zhao, Jike Zhong, Yuxiang Lai, Kaipeng Zhang

102

Classificatie is een kerntaak in machine learning. Recent onderzoek heeft aangetoond dat hoewel Multimodale Grote Taalmodellen (MLLMs) aanvankelijk slecht presteren in beeldclassificatie, het finetunen ervan met een voldoende hoeveelheid data hun prestaties aanzienlijk kan verbeteren, waardoor ze vergelijkbaar worden met state-of-the-art (SOTA) classificatiemodellen. Het verkrijgen van grootschalige gelabelde data is echter kostbaar. In dit artikel onderzoeken we few-shot MLLM classificatie finetunen. We ontdekten dat Supervised Fine-Tuning (SFT) ernstige overfittingproblemen kan veroorzaken en zelfs kan leiden tot een verslechtering van de prestaties in vergelijking met de zero-shot aanpak. Om deze uitdaging aan te pakken, geïnspireerd door recente successen in regelgebaseerd reinforcement learning, stellen we CLS-RL voor, dat verifieerbare signalen gebruikt als beloning om MLLMs te finetunen. We ontdekten dat CLS-RL in de meeste datasets beter presteert dan SFT en een veel hogere gemiddelde nauwkeurigheid heeft in zowel base-to-new als few-shot leeromgevingen. Bovendien observeerden we een free-lunch fenomeen voor CLS-RL; wanneer modellen worden gefinetuned op een specifieke dataset, kan hun prestaties op andere verschillende datasets ook verbeteren ten opzichte van zero-shot modellen, zelfs als die datasets verschillen in distributie en klassennamen. Dit suggereert dat RL-gebaseerde methoden modellen effectief de basisprincipes van classificatie aanleren. Ten slotte, geïnspireerd door recente werken in inference time thinking, heronderzoeken we het 'denkproces' tijdens het finetunen, een kritisch aspect van RL-gebaseerde methoden, in de context van visuele classificatie. We vragen ons af of dergelijke taken uitgebreide denkprocessen tijdens het finetunen vereisen, en stellen voor dat dit de prestaties mogelijk zelfs kan schaden. Op basis van deze premisse introduceren we de No-Thinking-CLS-RL methode, die denkprocessen tijdens de training minimaliseert door een gelijkheidsnauwkeurigheidsbeloning in te stellen. Onze bevindingen geven aan dat, met veel minder finetuningtijd, de No-Thinking-CLS-RL methode superieure in-domein prestaties en generalisatiecapaciteiten bereikt dan CLS-RL.

Zero-1-to-A: Zero-Shot One Image naar Animeerbare Hoofd Avatars met Video Diffusie
Zero-1-to-A: Zero-Shot One Image to Animatable Head Avatars Using Video Diffusion

Mar 20, 2025

Zhou Zhenglin, Ma Fan, Fan Hehe, Chua Tat-Seng

102

Het genereren van animeerbare hoofdavatars vereist doorgaans uitgebreide gegevens voor training. Om de benodigde hoeveelheid data te verminderen, is een natuurlijke oplossing om gebruik te maken van bestaande methoden voor het genereren van statische avatars zonder data, zoals vooraf getrainde diffusiemodellen met score-distillatie sampling (SDS), die avatars afstemmen op pseudo grondwaarheid-uitvoer van het diffusiemodel. Direct destilleren van 4D-avatars uit videodiffusie leidt echter vaak tot overmatig vloeiende resultaten vanwege ruimtelijke en temporele inconsistenties in de gegenereerde video. Om dit probleem aan te pakken, stellen we Zero-1-to-A voor, een robuuste methode die een ruimtelijk en temporeel consistentiedataset synthetiseert voor 4D-avatarreconstructie met behulp van het videodiffusiemodel. Specifiek construeert Zero-1-to-A iteratief videodatasets en optimaliseert animeerbare avatars op een progressieve manier, waardoor de avatar-kwaliteit soepel en consistent toeneemt gedurende het leerproces. Deze progressieve leerbenadering omvat twee fasen: (1) Ruimtelijke Consistentie Leren fixeert expressies en leert van voor- naar zijaanzichten, en (2) Temporele Consistentie Leren fixeert aanzichten en leert van ontspannen tot overdreven expressies, waardoor 4D-avatars op een eenvoudig-naar-complexe manier worden gegenereerd. Uitgebreide experimenten tonen aan dat Zero-1-to-A de getrouwheid, animatiekwaliteit en renderingsnelheid verbetert in vergelijking met bestaande diffusiegebaseerde methoden, en biedt zo een oplossing voor het creëren van levensechte avatars. Code is publiekelijk beschikbaar op: https://github.com/ZhenglinZhou/Zero-1-to-A.

BigO(Bench) -- Kunnen LLM's Code Genereren met Gecontroleerde Tijd- en Ruimtecomplexiteit?
BigO(Bench) -- Can LLMs Generate Code with Controlled Time and Space Complexity?

Mar 19, 2025

Pierre Chambon, Baptiste Roziere, Benoit Sagot, Gabriel Synnaeve

We introduceren BigO(Bench), een nieuw codeerbenchmark ontworpen om de capaciteiten van generatieve taalmodelen te evalueren in het begrijpen en genereren van code met gespecificeerde tijd- en ruimtecomplexiteiten. Dit benchmark adresseert de leemte in huidige evaluaties die vaak de vaardigheid van modellen om code te begrijpen en te produceren die beperkt is door computationale complexiteit over het hoofd zien. BigO(Bench) omvat tools om de algoritmische complexiteit van elke Python-functie af te leiden uit profileringsmetingen, inclusief door mensen of LLM's gegenereerde oplossingen. BigO(Bench) bevat ook een set van 3.105 codeerproblemen en 1.190.250 oplossingen van Code Contests, geannoteerd met afgeleide (synthetische) tijd- en ruimtecomplexiteitslabels vanuit het complexiteitsraamwerk, evenals bijbehorende runtime- en geheugenvoetafdrukwaarden voor een grote set invoergroottes. We presenteren resultaten van de evaluatie van meerdere state-of-the-art taalmodelen op dit benchmark, waarbij hun sterktes en zwaktes in het omgaan met complexiteitseisen worden belicht. In het bijzonder blijken token-space redeneermodelen onovertroffen in codegeneratie maar niet in complexiteitsbegrip, wat suggereert dat ze mogelijk niet goed generaliseren naar taken waarvoor tijdens de training geen beloning werd gegeven.

Agents spelen duizenden 3D-videogames.
Agents Play Thousands of 3D Video Games

Mar 17, 2025

Zhongwen Xu, Xianliang Wang, Siyi Li, Tao Yu, Liang Wang, Qiang Fu, Wei Yang

Wij presenteren PORTAL, een nieuw raamwerk voor het ontwikkelen van kunstmatige intelligentie-agenten die in staat zijn om duizenden 3D-videogames te spelen via taalgestuurde beleidsgeneratie. Door besluitvormingsproblemen om te zetten in taalmodelleertaken, maakt onze aanpak gebruik van grote taalmodelen (LLM's) om gedragsbomen te genereren die worden weergegeven in een domeinspecifieke taal (DSL). Deze methode elimineert de rekenkundige last die gepaard gaat met traditionele reinforcement learning-benaderingen, terwijl strategische diepte en snelle aanpassingsvermogen behouden blijven. Ons raamwerk introduceert een hybride beleidsstructuur die regelgebaseerde knooppunten combineert met neurale netwerkcomponenten, waardoor zowel hoogwaardige strategische redenering als precieze laagniveaucontrole mogelijk wordt. Een dual-feedbackmechanisme dat kwantitatieve spelmetrieken en visie-taalmodelanalyse omvat, vergemakkelijkt iteratieve beleidsverbetering op zowel tactisch als strategisch niveau. De resulterende beleidsregels zijn direct inzetbaar, menselijk interpreteerbaar en in staat om te generaliseren over diverse gamingomgevingen. Experimentele resultaten tonen de effectiviteit van PORTAL aan over duizenden first-person shooter (FPS)-games, waarbij significante verbeteringen worden getoond in ontwikkelingsrendement, beleidsgeneralizatie en gedragsdiversiteit in vergelijking met traditionele benaderingen. PORTAL vertegenwoordigt een belangrijke vooruitgang in de ontwikkeling van game-AI en biedt een praktische oplossing voor het creëren van geavanceerde agenten die kunnen opereren in duizenden commerciële videogames met minimale ontwikkelingsoverhead. Experimentele resultaten op de 3D-videogames zijn het beste te bekijken op https://zhongwen.one/projects/portal.

Het verbeteren van autoregressieve beeldgeneratie via coarse-to-fine tokenvoorspelling
Improving Autoregressive Image Generation through Coarse-to-Fine Token Prediction

Mar 20, 2025

Ziyao Guo, Kaipeng Zhang, Michael Qizhe Shieh

Autoregressieve modellen hebben opmerkelijke successen geboekt in beeldgeneratie door sequentiële voorspeltechnieken uit taalmodeling aan te passen. Het toepassen van deze benaderingen op afbeeldingen vereist echter het discretiseren van continue pixelgegevens via vectorkwantiseringsmethoden zoals VQ-VAE. Om de kwantiseringsfouten die in VQ-VAE bestaan te verminderen, neigen recente werken ernaar grotere codeboeken te gebruiken. Dit breidt echter het vocabulaire uit, wat de autoregressieve modelleringstaak bemoeilijkt. Dit artikel heeft als doel een manier te vinden om de voordelen van grote codeboeken te benutten zonder de autoregressieve modellering moeilijker te maken. Door empirisch onderzoek ontdekken we dat tokens met vergelijkbare codewoordrepresentaties vergelijkbare effecten hebben op het uiteindelijk gegenereerde beeld, wat een aanzienlijke redundantie in grote codeboeken aan het licht brengt. Op basis van dit inzicht stellen we voor om tokens van grof naar fijn (CTF) te voorspellen, gerealiseerd door het toewijzen van hetzelfde grove label aan vergelijkbare tokens. Ons raamwerk bestaat uit twee fasen: (1) een autoregressief model dat sequentieel grove labels voorspelt voor elke token in de reeks, en (2) een hulpmodel dat gelijktijdig fijnmazige labels voorspelt voor alle tokens, afhankelijk van hun grove labels. Experimenten op ImageNet tonen de superieure prestaties van onze methode aan, met een gemiddelde verbetering van 59 punten in de Inception Score vergeleken met de basislijnen. Opmerkelijk is dat, ondanks het toevoegen van een inferentiestap, onze aanpak snellere bemonsteringssnelheden bereikt.

SALT: Singuliere Waarde Aanpassing met Laag-Rang Transformatie
SALT: Singular Value Adaptation with Low-Rank Transformation

Mar 20, 2025

Abdelrahman Elsayed, Sarim Hashmi, Mohammed Elseiagy, Hu Wang, Mohammad Yaqub, Ibrahim Almakky

De complexe aard van medische beeldsegmentatie vereist modellen die specifiek zijn ontworpen om gedetailleerde, domeinspecifieke kenmerken vast te leggen. Grote foundation-modellen bieden aanzienlijke flexibiliteit, maar de kosten van fine-tuning blijven een belangrijk obstakel. Parameter-Efficient Fine-Tuning (PEFT) methoden, zoals Low-Rank Adaptation (LoRA), werken efficiënt door modelgewichten bij te werken met low-rank matrices, maar kunnen onderfitting vertonen wanneer de gekozen rang onvoldoende is om domeinspecifieke nuances vast te leggen. Aan de andere kant bieden full-rank Singular Value Decomposition (SVD) gebaseerde methoden uitgebreide updates door alle singuliere waarden aan te passen, maar ze missen vaak flexibiliteit en vertonen wisselende prestaties over verschillende datasets. Wij stellen SALT (Singular Value Adaptation with Low-Rank Transformation) voor, een methode die selectief de meest invloedrijke singuliere waarden aanpast met behulp van trainbare schaal- en verschuivingsparameters, terwijl dit wordt aangevuld met een low-rank update voor de resterende deelruimte. Deze hybride aanpak benut de voordelen van zowel LoRA als SVD, waardoor effectieve aanpassing mogelijk is zonder te vertrouwen op het vergroten van de modelgrootte of -diepte. Geëvalueerd op 5 uitdagende medische datasets, variërend van slechts 20 tot 1000 samples, presteert SALT 2% tot 5% beter in Dice dan state-of-the-art PEFT (LoRA en SVD) met slechts 3,9% trainbare parameters, wat robuuste aanpassing aantoont zelfs in situaties met beperkte middelen. De code voor SALT is beschikbaar op: https://github.com/BioMedIA-MBZUAI/SALT.

Waar kijken grote visueel-taalkundige modellen naar bij het beantwoorden van vragen?
Where do Large Vision-Language Models Look at when Answering Questions?

Mar 18, 2025

Xiaoying Xing, Chia-Wen Kuo, Li Fuxin, Yulei Niu, Fan Chen, Ming Li, Ying Wu, Longyin Wen, Sijie Zhu

Grote Vision-Taalmodellen (LVLMs) hebben veelbelovende prestaties getoond in taken die visueel-taalkundig begrip en redeneren vereisen. Hun visuele begripsgedrag blijft echter onderbelicht. Een fundamentele vraag rijst: in hoeverre zijn LVLMs afhankelijk van visuele input, en welke beeldregio's dragen bij aan hun antwoorden? Het interpreteren van de vrije-vorm generatie van LVLMs is niet triviaal vanwege hun complexe visuele architectuur (bijvoorbeeld meerdere encoders en multi-resolutie) en variabele-lengte uitvoer. In dit artikel breiden we bestaande heatmap-visualisatiemethoden (bijvoorbeeld iGOS++) uit om LVLMs te ondersteunen bij open-einde visuele vraagbeantwoording. We stellen een methode voor om visueel relevante tokens te selecteren die de relevantie tussen gegenereerde antwoorden en invoerbeeld weerspiegelen. Bovendien voeren we een uitgebreide analyse uit van state-of-the-art LVLMs op benchmarks die visuele informatie vereisen om te kunnen antwoorden. Onze bevindingen bieden verschillende inzichten in het gedrag van LVLMs, waaronder de relatie tussen focusregio en antwoordcorrectheid, verschillen in visuele aandacht tussen architecturen, en de impact van de schaal van het taalmodel op visueel begrip. De code en gegevens zijn beschikbaar op https://github.com/bytedance/LVLM_Interpretation.

Uni-3DAR: Geünificeerde 3D-generatie en -begrip via autoregressie op gecomprimeerde ruimtelijke tokens
Uni-3DAR: Unified 3D Generation and Understanding via Autoregression on Compressed Spatial Tokens

Mar 20, 2025

Shuqi Lu, Haowei Lin, Lin Yao, Zhifeng Gao, Xiaohong Ji, Weinan E, Linfeng Zhang, Guolin Ke

Recente vooruitgang in grote taalmodel(len) en hun multimodale uitbreidingen hebben de effectiviteit aangetoond van het verenigen van generatie en begrip via autoregressieve voorspelling van het volgende token. Desondanks, ondanks de kritieke rol van 3D-structuurgeneratie en -begrip ({3D GU}) in AI voor de wetenschap, hebben deze taken zich grotendeels onafhankelijk ontwikkeld, waarbij autoregressieve methoden onderbelicht zijn gebleven. Om deze kloof te overbruggen, introduceren we Uni-3DAR, een geïntegreerd framework dat {3D GU}-taken naadloos integreert via autoregressieve voorspelling. De kern van Uni-3DAR bestaat uit een nieuwe hiërarchische tokenisatie die 3D-ruimte comprimeert met behulp van een octree, waarbij de inherente schaarste van 3D-structuren wordt benut. Vervolgens wordt een aanvullende tokenisatie toegepast voor fijnmazige structurele details, waarbij belangrijke attributen zoals atoomtypen en precieze ruimtelijke coördinaten in microscopische 3D-structuren worden vastgelegd. We stellen verder twee optimalisaties voor om de efficiëntie en effectiviteit te verbeteren. De eerste is een tweeledige compressiestrategie voor subtrees, die de octree-tokenreeks tot 8x verkleint. De tweede is een gemaskeerd voorspellingsmechanisme voor het volgende token, speciaal ontworpen voor dynamisch variërende tokenposities, wat de modelprestaties aanzienlijk verbetert. Door deze strategieën te combineren, slaagt Uni-3DAR erin diverse {3D GU}-taken te verenigen binnen een enkel autoregressief framework. Uitgebreide experimenten over meerdere microscopische {3D GU}-taken, waaronder moleculen, eiwitten, polymeren en kristallen, valideren de effectiviteit en veelzijdigheid ervan. Opmerkelijk is dat Uni-3DAR eerdere state-of-the-art diffusiemodellen met een aanzienlijke marge overtreft, met een relatieve verbetering van tot 256\% en een inferentiesnelheid die tot 21,8x sneller is. De code is publiekelijk beschikbaar op https://github.com/dptech-corp/Uni-3DAR.

Naar een Verenigde Latente Ruimte voor 3D Moleculaire Latente Diffusiemodellering
Towards Unified Latent Space for 3D Molecular Latent Diffusion Modeling

Mar 19, 2025

Yanchen Luo, Zhiyuan Liu, Yi Zhao, Sihang Li, Kenji Kawaguchi, Tat-Seng Chua, Xiang Wang

3D-molecuulgeneratie is cruciaal voor geneesmiddelenontdekking en materiaalwetenschap, waarbij modellen complexe multimodale gegevens moeten verwerken, waaronder atoomtypen, chemische bindingen en 3D-coördinaten. Een belangrijke uitdaging is het integreren van deze modaliteiten met verschillende vormen, terwijl SE(3)-equivariantie voor 3D-coördinaten behouden blijft. Om dit te bereiken, hanteren bestaande benaderingen doorgaans afzonderlijke latente ruimtes voor invariante en equivariante modaliteiten, wat de efficiëntie tijdens zowel training als sampling vermindert. In dit werk stellen we de Unified Variational Auto-Encoder voor 3D Molecular Latent Diffusion Modeling (UAE-3D) voor, een multimodale VAE die 3D-moleculen comprimeert tot latente sequenties vanuit een geünificeerde latente ruimte, terwijl een bijna-nul reconstructiefout behouden blijft. Deze geünificeerde latente ruimte elimineert de complexiteit van het omgaan met multimodaliteit en equivariantie bij het uitvoeren van latente diffusiemodellering. We demonstreren dit door de Diffusion Transformer te gebruiken—een algemeen diffusiemodel zonder enige moleculaire inductieve bias—voor latente generatie. Uitgebreide experimenten op de GEOM-Drugs- en QM9-datasets tonen aan dat onze methode significant nieuwe benchmarks stelt in zowel de novo als conditionele 3D-molecuulgeneratie, waarbij leidende efficiëntie en kwaliteit worden bereikt.

Maak uw training flexibel: naar implementatie-efficiënte videomodellen
Make Your Training Flexible: Towards Deployment-Efficient Video Models

Mar 18, 2025

Chenting Wang, Kunchang Li, Tianxiang Jiang, Xiangyu Zeng, Yi Wang, Limin Wang

Populaire methoden voor videotraining werken voornamelijk met een vast aantal tokens die worden bemonsterd vanuit een vooraf bepaalde spatiotemporele grid, wat resulteert in suboptimale nauwkeurigheid-rekentijd-afwegingen vanwege inherente videoredundantie. Ze missen ook aanpassingsvermogen aan variërende rekenbudgetten voor downstream taken, wat de toepassing van het meest competitieve model in real-world scenario's belemmert. Daarom stellen we een nieuwe testopzet voor, Token Optimalisatie, om de invoerinformatie over verschillende budgetten te maximaliseren, waarbij de groottebeperkte set invoertokens wordt geoptimaliseerd door tokenselectie uit geschikter bemonsterde video's. Hiertoe introduceren we een nieuw augmentatietool genaamd Flux. Door de bemonsteringsgrid flexibel te maken en tokenselectie te benutten, kan het eenvoudig worden geïntegreerd in de meeste populaire videotrainingsframeworks, wat de robuustheid van het model verhoogt tegen bijna geen extra kosten. We integreren Flux in grootschalige videovoorbereiding, en het resulterende FluxViT vestigt nieuwe state-of-the-art resultaten over uitgebreide taken tegen standaardkosten. Opmerkelijk is dat het met slechts 1/4 van de tokens nog steeds de prestaties van eerdere state-of-the-art modellen met Token Optimalisatie kan evenaren, wat bijna 90\% besparing oplevert. Alle modellen en data zijn beschikbaar op https://github.com/OpenGVLab/FluxViT.

See-Saw Modaliteitsbalans: Zie Gradient, en Herstel Verstoorde Visie-Taalbalans om Dominante Modaliteitsbias te Verminderen
See-Saw Modality Balance: See Gradient, and Sew Impaired Vision-Language Balance to Mitigate Dominant Modality Bias

Mar 18, 2025

JuneHyoung Kwon, MiHyeon Kim, Eunju Lee, Juhwan Choi, YoungBin Kim

Vision-language (VL)-modellen hebben sterke prestaties getoond bij diverse taken. Deze modellen vertrouwen echter vaak op een specifieke modaliteit voor voorspellingen, wat leidt tot een "dominante modaliteitsbias". Deze bias heeft een aanzienlijke negatieve invloed op de prestaties, vooral wanneer één modaliteit verstoord is. In deze studie analyseren we het gedrag van modellen onder dominante modaliteitsbias en tonen we theoretisch aan dat niet-uitgelijnde gradienten of verschillen in gradientmagnitudes een gebalanceerde convergentie van het verlies verhinderen. Op basis van deze bevindingen stellen we een nieuw framework voor, BalGrad, om dominante modaliteitsbias te verminderen. Onze aanpak omvat herweging van inter-modaliteitsgradiënten, aanpassing van de gradient van de KL-divergentie op basis van de bijdrage van elke modaliteit, en inter-taakgradiëntprojectie om taakrichtingen op een niet-conflicterende manier uit te lijnen. Experimenten op de UPMC Food-101, Hateful Memes en MM-IMDb datasets bevestigen dat BalGrad effectief overmatige afhankelijkheid van specifieke modaliteiten bij het maken van voorspellingen vermindert.

MagicID: Hybride Voorkeursoptimalisatie voor ID-consistente en dynamiekbehoudende videopersonalisatie
MagicID: Hybrid Preference Optimization for ID-Consistent and Dynamic-Preserved Video Customization

Mar 16, 2025

Hengjia Li, Lifan Jiang, Xi Xiao, Tianyang Wang, Hongwei Yi, Boxi Wu, Deng Cai

Video-identiteitsaanpassing streeft ernaar hoogwaardige video's te produceren die een consistente identiteit behouden en aanzienlijke dynamiek vertonen op basis van referentiebeelden van gebruikers. Bestaande methoden kampen echter met twee belangrijke uitdagingen: identiteitsdegradatie over langere videolengtes en verminderde dynamiek tijdens de training, voornamelijk vanwege hun afhankelijkheid van traditionele zelfreconstructietraining met statische beelden. Om deze problemen aan te pakken, introduceren we MagicID, een nieuw framework dat is ontworpen om direct de generatie van identiteitsconsistente en dynamisch rijke video's afgestemd op gebruikersvoorkeuren te bevorderen. Specifiek stellen we voor om gepaarde voorkeursvideogegevens te construeren met expliciete identiteits- en dynamiekbeloningen voor voorkeursleren, in plaats van vast te houden aan de traditionele zelfreconstructie. Om de beperkingen van aangepaste voorkeursgegevens aan te pakken, introduceren we een hybride samplingstrategie. Deze aanpak prioriteert eerst identiteitsbehoud door gebruik te maken van statische video's afgeleid van referentiebeelden, en verbetert vervolgens de kwaliteit van dynamische beweging in de gegenereerde video's met behulp van een Frontier-gebaseerde samplingmethode. Door deze hybride voorkeursparen te gebruiken, optimaliseren we het model om af te stemmen op de beloningsverschillen tussen paren van aangepaste voorkeuren. Uitgebreide experimenten tonen aan dat MagicID met succes consistente identiteit en natuurlijke dynamiek bereikt, en daarmee bestaande methoden op verschillende metrieken overtreft.

UVE: Zijn MLLMs Geünificeerde Evaluatoren voor AI-gegenereerde Video's?
UVE: Are MLLMs Unified Evaluators for AI-Generated Videos?

Mar 13, 2025

Yuanxin Liu, Rui Zhu, Shuhuai Ren, Jiacong Wang, Haoyuan Guo, Xu Sun, Lu Jiang

Met de snelle groei van videogeneratieve modellen (VGMs) is het essentieel om betrouwbare en uitgebreide automatische metrieken te ontwikkelen voor AI-gegenereerde video's (AIGVs). Bestaande methoden gebruiken ofwel standaardmodellen die zijn geoptimaliseerd voor andere taken, of vertrouwen op menselijke beoordelingsgegevens om gespecialiseerde evaluatoren te trainen. Deze benaderingen zijn beperkt tot specifieke evaluatieaspecten en zijn moeilijk op te schalen met de toenemende vraag naar fijnmazigere en meer uitgebreide evaluaties. Om dit probleem aan te pakken, onderzoekt dit werk de haalbaarheid van het gebruik van multimodale grote taalmodellen (MLLMs) als een uniforme evaluator voor AIGVs, waarbij gebruik wordt gemaakt van hun sterke visuele perceptie en taalbegrip. Om de prestaties van automatische metrieken in uniforme AIGV-evaluatie te beoordelen, introduceren we een benchmark genaamd UVE-Bench. UVE-Bench verzamelt video's gegenereerd door state-of-the-art VGMs en biedt paarsgewijze menselijke voorkeursannotaties over 15 evaluatieaspecten. Met behulp van UVE-Bench evalueren we uitgebreid 16 MLLMs. Onze empirische resultaten suggereren dat hoewel geavanceerde MLLMs (bijv. Qwen2VL-72B en InternVL2.5-78B) nog achterblijven bij menselijke evaluatoren, ze een veelbelovend vermogen tonen in uniforme AIGV-evaluatie, waarbij ze bestaande gespecialiseerde evaluatiemethoden aanzienlijk overtreffen. Daarnaast voeren we een diepgaande analyse uit van belangrijke ontwerpkeuzes die de prestaties van MLLM-gestuurde evaluatoren beïnvloeden, wat waardevolle inzichten biedt voor toekomstig onderzoek naar AIGV-evaluatie. De code is beschikbaar op https://github.com/bytedance/UVE.

VideoRFSplat: Directe Scene-Level Tekst-naar-3D Gaussische Splatting Generatie met Flexibele Pose en Multi-View Gezamenlijke Modellering
VideoRFSplat: Direct Scene-Level Text-to-3D Gaussian Splatting Generation with Flexible Pose and Multi-View Joint Modeling

Mar 20, 2025

Hyojun Go, Byeongjun Park, Hyelin Nam, Byung-Hoon Kim, Hyungjin Chung, Changick Kim

We stellen VideoRFSplat voor, een direct tekst-naar-3D-model dat gebruikmaakt van een videogeneratiemodel om realistische 3D Gaussian Splatting (3DGS) te genereren voor onbegrensde real-world scènes. Om diverse cameraposities en onbegrensde ruimtelijke omvang van real-world scènes te genereren, terwijl generalisatie naar willekeurige tekstprompts wordt gegarandeerd, fine-tunen eerdere methoden 2D-generatiemodellen om gezamenlijk cameraposities en multi-view afbeeldingen te modelleren. Deze methoden kampen echter met instabiliteit bij het uitbreiden van 2D-generatiemodellen naar gezamenlijke modellering vanwege de modaliteitskloof, wat aanvullende modellen vereist om de training en inferentie te stabiliseren. In dit werk stellen we een architectuur en een samplingstrategie voor om multi-view afbeeldingen en cameraposities gezamenlijk te modelleren bij het fine-tunen van een videogeneratiemodel. Onze kernidee is een dual-stream architectuur die een specifiek positiemodel koppelt aan een voorgetraind videogeneratiemodel via communicatieblokken, waarbij multi-view afbeeldingen en cameraposities via aparte streams worden gegenereerd. Dit ontwerp vermindert de interferentie tussen de positie- en beeldmodaliteiten. Daarnaast stellen we een asynchrone samplingstrategie voor die cameraposities sneller denoiseert dan multi-view afbeeldingen, waardoor snel gedenoiseerde posities de multi-view generatie kunnen conditioneren, wat wederzijdse ambiguïteit vermindert en de cross-modale consistentie verbetert. Getraind op meerdere grootschalige real-world datasets (RealEstate10K, MVImgNet, DL3DV-10K, ACID), presteert VideoRFSplat beter dan bestaande tekst-naar-3D directe generatiemethoden die sterk afhankelijk zijn van post-hoc verfijning via score-distillatie-sampling, en bereikt superieure resultaten zonder dergelijke verfijning.

Waarom Personalisatie van Deep Learning-gebaseerde Code Completion Tools Belangrijk Is
Why Personalizing Deep Learning-Based Code Completion Tools Matters

Mar 18, 2025

Alessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota

Deep learning (DL)-gebaseerde code-completiontools hebben softwareontwikkeling getransformeerd door geavanceerde codegeneratie mogelijk te maken. Deze tools maken gebruik van modellen die getraind zijn op enorme hoeveelheden code uit talloze repositories, waardoor algemene codeerpatronen worden vastgelegd. De impact van het fine-tunen van deze modellen voor specifieke organisaties of ontwikkelaars om hun prestaties op dergelijke onderwerpen te verbeteren, blijft echter onontgonnen. In dit werk vullen we deze leemte door solide empirisch bewijs te presenteren dat deze vraag beantwoordt. Meer specifiek bekijken we 136 ontwikkelaars van twee organisaties (Apache en Spring), twee modelarchitecturen (T5 en Code Llama) en drie modelgroottes (60M, 750M en 7B trainbare parameters). T5-modellen (60M, 750M) werden voorgetraind en gefinetuned op meer dan 2.000 open-sourceprojecten, exclusief de gegevens van de onderzochte organisaties, en vergeleken met versies die gefinetuned waren op organisatie- en ontwikkelaarspecifieke datasets. Voor het Code Llama-model (7B) vergeleken we de prestaties van het al voorgetrainde model dat online beschikbaar is met hetzelfde model dat gefinetuned was via parameter-efficiënt fine-tunen op organisatie- en ontwikkelaarspecifieke datasets. Onze resultaten laten zien dat er een verbetering is in de voorspellingsmogelijkheden door zowel een organisatie-specifieke als een ontwikkelaar-specifieke aanvullende fine-tuning, waarbij de eerste bijzonder goed presteert. Deze bevinding geldt algemeen voor (i) de twee onderzochte organisaties (d.w.z. Apache en Spring) en (ii) modellen van volledig verschillende omvang (van 60M tot 7B trainbare parameters). Tot slot tonen we aan dat DL-modellen die gefinetuned zijn op een organisatie-specifieke dataset dezelfde completionprestaties bereiken als voorgetrainde codemodellen die out of the box worden gebruikt en die ongeveer 10 keer groter zijn, wat resulteert in besparingen op het gebied van implementatie- en inferentiekosten (bijv. kleinere GPU's die nodig zijn).

Schilderen met Woorden: Verbetering van Gedetailleerde Beeldbeschrijvingen met Benchmark en Afstemmingsleren
Painting with Words: Elevating Detailed Image Captioning with Benchmark and Alignment Learning

Mar 10, 2025

Qinghao Ye, Xianhan Zeng, Fu Li, Chunyuan Li, Haoqi Fan

Beeldbeschrijving is al lang een cruciale taak in visueel begrip, waarbij recente vooruitgang in visueel-taalmodelen (VLM's) het vermogen om gedetailleerde beeldbeschrijvingen te genereren aanzienlijk heeft verbeterd. De evaluatie van gedetailleerde beeldbeschrijvingen blijft echter onderbelicht vanwege verouderde evaluatiemetrics en grove annotaties. In dit artikel introduceren we DeCapBench samen met een nieuwe metric, DCScore, die specifiek is ontworpen voor gedetailleerde beschrijvingstaken. DCScore evalueert hallucinaties en fijnmazige volledigheid door reacties te ontleden in de kleinste zelfvoorzienende eenheden, genaamd primitieve informatie-eenheden, en deze individueel te beoordelen. Onze evaluatie toont aan dat DCScore beter aansluit bij menselijk oordeel dan andere op regels gebaseerde of modelgebaseerde metrics. Tegelijkertijd vertoont DeCapBench een hoge correlatie met VLM-arenaresultaten op beschrijvende taken, waarbij het bestaande benchmarks voor visueel-taalmodelen overtreft. Daarnaast presenteren we een automatische methode voor het verzamelen van fijnmazige feedback, FeedQuill, voor voorkeursoptimalisatie op basis van onze geavanceerde metric, die robuuste generalisatiecapaciteiten laat zien over automatisch gegenereerde voorkeursdata. Uitgebreide experimenten op meerdere VLM's tonen aan dat onze methode niet alleen hallucinaties aanzienlijk vermindert, maar ook de prestaties op verschillende benchmarks verbetert, waarbij superieure prestaties in gedetailleerde beschrijvingen worden bereikt en GPT-4o wordt overtroffen.

Misleidende Humor: Een Synthetische Meertalige Benchmarkdataset voor het Verbinden van Gefabriceerde Beweringen met Humoristische Inhoud
Deceptive Humor: A Synthetic Multilingual Benchmark Dataset for Bridging Fabricated Claims with Humorous Content

Mar 20, 2025

Sai Kartheek Reddy Kasu, Shankar Biradar, Sunil Saumya

Dit artikel presenteert de Deceptive Humor Dataset (DHD), een nieuwe bron voor het bestuderen van humor die voortkomt uit gefabriceerde claims en desinformatie. In een tijdperk van wijdverspreide desinformatie is het essentieel om te begrijpen hoe humor verweven is met misleiding. DHD bestaat uit humoristische opmerkingen die gegenereerd zijn uit valse narratieven, waarbij gebruik is gemaakt van gefabriceerde claims en gemanipuleerde informatie met behulp van het ChatGPT-4o-model. Elk voorbeeld is gelabeld met een Satire Niveau, variërend van 1 voor subtiele satire tot 3 voor hoogwaardige satire, en ingedeeld in vijf verschillende Humor Categorieën: Zwarte Humor, Ironie, Maatschappijkritiek, Woordspelingen en Absurdisme. De dataset omvat meerdere talen, waaronder Engels, Telugu, Hindi, Kannada, Tamil en hun code-mixed varianten (Te-En, Hi-En, Ka-En, Ta-En), waardoor het een waardevolle meertalige benchmark vormt. Door de introductie van DHD leggen we een gestructureerde basis voor het analyseren van humor in misleidende contexten, wat de weg vrijmaakt voor een nieuwe onderzoeksrichting die onderzoekt hoe humor niet alleen interageert met desinformatie, maar ook de perceptie en verspreiding ervan beïnvloedt. We stellen sterke basislijnen vast voor de voorgestelde dataset, wat een fundament biedt voor toekomstig onderzoek om modellen voor het detecteren van misleidende humor te benchmarken en verder te ontwikkelen.

GASP: Het verenigen van geometrische en semantische zelfsupervisie voorafgaande training voor autonoom rijden
GASP: Unifying Geometric and Semantic Self-Supervised Pre-training for Autonomous Driving

Mar 19, 2025

William Ljungbergh, Adam Lilja, Adam Tonderski. Arvid Laveno Ling, Carl Lindström, Willem Verbeke, Junsheng Fu, Christoffer Petersson, Lars Hammarstrand, Michael Felsberg

Zelfsupervised vooraf trainen op basis van voorspelling van het volgende token heeft grote taalmodelen in staat gesteld de onderliggende structuur van tekst te leren, wat heeft geleid tot ongekende prestaties op een breed scala aan taken wanneer het op grote schaal wordt toegepast. Op vergelijkbare wijze genereert autonoom rijden enorme hoeveelheden ruimtelijk-temporele data, wat de mogelijkheid suggereert om schaal te benutten om de onderliggende geometrische en semantische structuur van de omgeving en de evolutie ervan in de tijd te leren. In deze richting stellen we een geometrische en semantische zelfsupervised vooraf trainingsmethode voor, GASP, die een uniforme representatie leert door, op elk opgevraagd toekomstig punt in ruimtetijd, te voorspellen: (1) algemene bezetting, die de evoluerende structuur van de 3D-scène vastlegt; (2) ego-bezetting, die het pad van het ego-voertuig door de omgeving modelleert; en (3) gedestilleerde hoogwaardige kenmerken van een visie-foundationmodel. Door geometrische en semantische 4D-bezettingsvelden te modelleren in plaats van ruwe sensormetingen, leert het model een gestructureerde, generaliseerbare representatie van de omgeving en de evolutie ervan in de tijd. We valideren GASP op meerdere benchmarks voor autonoom rijden, waarbij we significante verbeteringen aantonen in semantische bezettingsvoorspelling, online mapping en ego-trajectvoorspelling. Onze resultaten tonen aan dat continue 4D-geometrische en semantische bezettingsvoorspelling een schaalbare en effectieve vooraf trainingsparadigma biedt voor autonoom rijden. Voor code en aanvullende visualisaties, zie \href{https://research.zenseact.com/publications/gasp/.}

TikZero: Zero-Shot Tekstgestuurde Synthese van Grafische Programma's
TikZero: Zero-Shot Text-Guided Graphics Program Synthesis

Mar 14, 2025

Jonas Belouadi, Eddy Ilg, Margret Keuper, Hideki Tanaka, Masao Utiyama, Raj Dabre, Steffen Eger, Simone Paolo Ponzetto

Met de opkomst van generatieve AI wordt het synthetiseren van figuren uit tekstbeschrijvingen een aantrekkelijke toepassing. Het bereiken van hoge geometrische precisie en bewerkbaarheid vereist echter dat figuren worden weergegeven als grafische programma's in talen zoals TikZ, en uitgelijnde trainingsgegevens (d.w.z. grafische programma's met bijschriften) blijven schaars. Ondertussen zijn grote hoeveelheden niet-uitgelijnde grafische programma's en gerasterde afbeeldingen met bijschriften gemakkelijker beschikbaar. Wij verzoenen deze verschillende gegevensbronnen door TikZero te presenteren, dat de generatie van grafische programma's loskoppelt van tekstbegrip door afbeeldingsrepresentaties te gebruiken als een intermediaire brug. Het maakt onafhankelijke training op grafische programma's en afbeeldingen met bijschriften mogelijk en stelt zero-shot tekstgestuurde synthese van grafische programma's tijdens inferentie in staat. We tonen aan dat onze methode aanzienlijk beter presteert dan baseline-modellen die alleen kunnen werken met uitgelijnde grafische programma's. Bovendien, wanneer uitgelijnde grafische programma's worden gebruikt als een aanvullende trainingssignaal, evenaart of overtreft TikZero de prestaties van veel grotere modellen, inclusief commerciële systemen zoals GPT-4o. Onze code, datasets en geselecteerde modellen zijn publiekelijk beschikbaar.

AIMI: Benutten van toekomstige kennis en personalisatie in voorspelling van schaarse gebeurtenissen voor therapietrouw
AIMI: Leveraging Future Knowledge and Personalization in Sparse Event Forecasting for Treatment Adherence

Mar 20, 2025

Abdullah Mamun, Diane J. Cook, Hassan Ghasemzadeh

Het volgen van voorgeschreven behandelingen is cruciaal voor mensen met chronische aandoeningen om kostbare of nadelige gezondheidsuitkomsten te voorkomen. Voor bepaalde patiëntengroepen zijn intensieve leefstijlinterventies essentieel om de medicatietrouw te verbeteren. Nauwkeurige voorspellingen van de therapietrouw kunnen de weg openen voor de ontwikkeling van een on-demand interventietool, waardoor tijdige en gepersonaliseerde ondersteuning mogelijk wordt. Met de toenemende populariteit van smartphones en wearables is het nu makkelijker dan ooit om slimme activiteitenmonitoringsystemen te ontwikkelen en in te zetten. Effectieve voorspellingssystemen voor therapietrouw op basis van wearablesensors zijn echter nog steeds niet breed beschikbaar. Wij dichten deze kloof door Adherence Forecasting and Intervention with Machine Intelligence (AIMI) voor te stellen. AIMI is een kennisgestuurd voorspellingssysteem voor therapietrouw dat gebruikmaakt van smartphonesensoren en eerdere medicatiegeschiedenis om de kans te schatten dat een voorgeschreven medicatie wordt vergeten. Een gebruikersstudie werd uitgevoerd met 27 deelnemers die dagelijks medicijnen namen om hun cardiovasculaire aandoeningen te beheersen. We hebben CNN- en LSTM-gebaseerde voorspellingsmodellen ontworpen en ontwikkeld met verschillende combinaties van invoerkenmerken en ontdekten dat LSTM-modellen medicatietrouw kunnen voorspellen met een nauwkeurigheid van 0,932 en een F-1-score van 0,936. Bovendien tonen we, via een reeks ablatiestudies met convolutie- en recurrent neurale netwerkarchitecturen, aan dat het benutten van bekende kennis over de toekomst en gepersonaliseerde training de nauwkeurigheid van de voorspelling van medicatietrouw verbetert. Code beschikbaar: https://github.com/ab9mamun/AIMI.