ChatPaper.aiChatPaper.ai
Home

arXiv

HuggingFace

PrijzenAccountWerkruimte

•
•

•
•

•
•

•
•

•
•

Footer

Company name

ChatPaper.ai: Your advanced AI reading assistant.

Contact us: hi@pomodiary.com

X (Twitter)Discord

Products

  • AI Search
  • AI Mind Map
  • Arxiv Summary
  • Huggingface Summary

Support

  • FAQ
  • Contact

Company

  • Blog
  • Privacy Policy
  • Terms of Service

Available Languages

  • 🇬🇧English
  • 🇨🇳中文简体
  • 🇭🇰繁體中文
  • 🇯🇵日本語
  • 🇰🇷한국어
  • 🇩🇪Deutsch
  • 🇫🇷Français
  • 🇷🇺Русский
  • 🇪🇸Español

© 2025 chatpaper.ai All rights reserved.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

1

Crowdsourcen, Crawlen of Genereren? Het creëren van SEA-VL, een multiculturele Vision-Language-dataset voor Zuidoost-Azië
Crowdsource, Crawl, or Generate? Creating SEA-VL, a Multicultural Vision-Language Dataset for Southeast Asia

Mar 10
BySamuel Cahyawijaya, Holy Lovenia, Joel Ruben Antony Moniz, Tack Hwa Wong, Mohammad Rifqi Farhansyah, Thant Thiri Maung, Frederikus Hudi, David Anugraha, Muhammad Ravi Shulthan Habibi, Muhammad Reza Qorib, Amit Agarwal, Joseph Marvin Imperial, Hitesh Laxmichand Patel, Vicky Feliren, Bahrul Ilmi Nasution, Manuel Antonio Rufino, Genta Indra Winata, Rian Adam Rajagede, Carlos Rafael Catalan, Mohamed Fazli Imam, Priyaranjan Pattnayak, Salsabila Zahirah Pranida, Kevin Pratama, Yeshil Bangera, Adisai Na-Thalang, Patricia Nicole Monderin, Yueqi Song, Christian Simon, Lynnette Hui Xian Ng, Richardy Lobo' Sapan, Taki Hasan Rafi, Bin Wang, Supryadi, Kanyakorn Veerakanjana, Piyalitt Ittichaiwong, Matthew Theodore Roque, Karissa Vincentio, Takdanai Kreangphet, Phakphum Artkaew, Kadek Hendrawan Palgunadi, Yanzhi Yu, Rochana Prih Hastuti, William Nixon, Mithil Bangera, Adrian Xuan Wei Lim, Aye Hninn Khine, Hanif Muhammad Zhafran, Teddy Ferdinan, Audra Aurora Izzani, Ayushman Singh, Evan, Jauza Akbar Krito, Michael Anugraha, Fenal Ashokbhai Ilasariya, Haochen Li, John Amadeo Daniswara, Filbert Aurelian Tjiaranata, Eryawan Presma Yulianrifat, Can Udomcharoenchaikit, Fadil Risdian Ansori, Mahardika Krisna Ihsani, Giang Nguyen, Anab Maulana Barik, Dan John Velasco, Rifo Ahmad Genadi, Saptarshi Saha, Chengwei Wei, Isaiah Flores, Kenneth Ko Han Chen, Anjela Gail Santos, Wan Shen Lim, Kaung Si Phyo, Tim Santos, Meisyarah Dwiastuti, Jiayun Luo, Jan Christian Blaise Cruz, Ming Shan Hee, Ikhlasul Akmal Hanif, M. Alif Al Hakim, Muhammad Rizky Sya'ban, Kun Kerdthaisong, Lester James V. Miranda, Fajri Koto, Tirana Noor Fatyanosa, Alham Fikri Aji, Jostin Jerico Rosal, Jun Kevin, Robert Wijaya, Onno P. Kampman, Ruochen Zhang, Börje F. Karlsson, Peerat Limkonchotiwat
101
4

Zuidoost-Azië (SEA) is een regio met een buitengewone linguïstische en culturele diversiteit, maar het blijft aanzienlijk ondervertegenwoordigd in onderzoek naar visie-taal (VL). Dit resulteert vaak in kunstmatige intelligentie (AI) modellen die de culturele nuances van SEA niet goed weergeven. Om deze kloof te dichten, presenteren we SEA-VL, een open-source initiatief dat zich richt op het ontwikkelen van hoogwaardige, cultureel relevante data voor SEA-talen. Door bijdragers uit SEA-landen te betrekken, streeft SEA-VL ernaar om een betere culturele relevantie en diversiteit te waarborgen, waardoor de inclusiviteit van ondervertegenwoordigde talen in VL-onderzoek wordt bevorderd. Naast crowdsourcing gaat ons initiatief een stap verder in het verkennen van de automatische verzameling van cultureel relevante afbeeldingen via webcrawling en beeldgeneratie. Ten eerste constateren we dat webcrawling ongeveer ~85% culturele relevantie bereikt, terwijl het kostenefficiënter en tijdbesparender is dan crowdsourcing. Ten tweede, ondanks de aanzienlijke vooruitgang in generatieve beeldmodellen, blijven synthetische afbeeldingen onbetrouwbaar in het nauwkeurig weergeven van SEA-culturen. De gegenereerde afbeeldingen slagen er vaak niet in om de genuanceerde tradities en culturele contexten van de regio te weerspiegelen. In totaal verzamelen we 1,28 miljoen cultureel relevante afbeeldingen van SEA, wat meer dan 50 keer groter is dan andere bestaande datasets. Met SEA-VL streven we ernaar om de representatiekloof in SEA te overbruggen, waardoor de ontwikkeling van meer inclusieve AI-systemen wordt bevorderd die authentiek de diverse culturen in heel SEA weergeven.

2

LMM-R1: Het versterken van 3B LMM's met sterke redeneervaardigheden door middel van tweefasen regelgebaseerd RL
LMM-R1: Empowering 3B LMMs with Strong Reasoning Abilities Through Two-Stage Rule-Based RL

Mar 10
ByYingzhe Peng, Gongrui Zhang, Miaosen Zhang, Zhiyuan You, Jie Liu, Qipeng Zhu, Kai Yang, Xingzhong Xu, Xin Geng, Xu Yang
88
3

Het verbeteren van redeneervaardigheden in Grote Multimodale Modellen (LMMs) wordt geconfronteerd met unieke uitdagingen door de complexe interactie tussen visuele waarneming en logisch redeneren, vooral in compacte 3B-parameterarchitecturen waar architectonische beperkingen de redeneercapaciteit en modale afstemming beperken. Hoewel op regels gebaseerd reinforcement learning (RL) uitblinkt in tekstuele domeinen, wordt de multimodale uitbreiding ervan geconfronteerd met twee kritieke barrières: (1) databeperkingen door dubbelzinnige antwoorden en schaarse voorbeelden van complex redeneren, en (2) verminderd fundamenteel redeneren veroorzaakt door multimodale voorpretraining. Om deze uitdagingen aan te pakken, stellen we \method voor, een tweestappenraamwerk dat op regels gebaseerd RL aanpast voor multimodaal redeneren via Foundational Reasoning Enhancement (FRE) gevolgd door Multimodal Generalization Training (MGT). In de FRE-fase worden eerst redeneervaardigheden versterkt met alleen tekstuele gegevens en op regels gebaseerd RL, waarna de MGT-fase deze redeneervaardigheden generaliseert naar multimodale domeinen. Experimenten op Qwen2.5-VL-Instruct-3B tonen aan dat \method gemiddelde verbeteringen van 4,83% en 4,5% behaalt ten opzichte van baseline-modellen in multimodale en tekstuele benchmarks, respectievelijk, met een winst van 3,63% in complexe Football Game-taken. Deze resultaten valideren dat tekstgebaseerde redeneerversterking effectieve multimodale generalisatie mogelijk maakt, wat een data-efficiënt paradigma biedt dat kostbare hoogwaardige multimodale trainingsgegevens omzeilt.

3

YuE: Het opschalen van open foundation-modellen voor het genereren van lange muziekvormen
YuE: Scaling Open Foundation Models for Long-Form Music Generation

Mar 11
ByRuibin Yuan, Hanfeng Lin, Shuyue Guo, Ge Zhang, Jiahao Pan, Yongyi Zang, Haohe Liu, Yiming Liang, Wenye Ma, Xingjian Du, Xinrun Du, Zhen Ye, Tianyu Zheng, Yinghao Ma, Minghao Liu, Zeyue Tian, Ziya Zhou, Liumeng Xue, Xingwei Qu, Yizhi Li, Shangda Wu, Tianhao Shen, Ziyang Ma, Jun Zhan, Chunhui Wang, Yatian Wang, Xiaowei Chi, Xinyue Zhang, Zhenzhu Yang, Xiangzhou Wang, Shansong Liu, Lingrui Mei, Peng Li, Junjie Wang, Jianwei Yu, Guojian Pang, Xu Li, Zihao Wang, Xiaohuan Zhou, Lijun Yu, Emmanouil Benetos, Yong Chen, Chenghua Lin, Xie Chen, Gus Xia, Zhaoxiang Zhang, Chao Zhang, Wenhu Chen, Xinyu Zhou, Xipeng Qiu, Roger Dannenberg, Jiaheng Liu, Jian Yang, Wenhao Huang, Wei Xue, Xu Tan, Yike Guo
70
3

We pakken de taak van lange-muziekgeneratie aan—met name het uitdagende tekst-naar-liedprobleem—door YuE te introduceren, een familie van open foundation-modellen gebaseerd op de LLaMA2-architectuur. Specifiek schaalt YuE naar biljoenen tokens en genereert het tot vijf minuten muziek terwijl het tekstuele afstemming, coherente muzikale structuur en boeiende vocale melodieën met passende begeleiding behoudt. Dit wordt bereikt door (1) track-ontkoppelde volgende-tokenvoorspelling om dichte mengsignalen te overwinnen, (2) structurele progressieve conditionering voor lange-context tekstuele afstemming, en (3) een multitask, multifase pre-trainingsrecept om te convergeren en te generaliseren. Daarnaast herontwerpen we de in-context learning-techniek voor muziekgeneratie, waardoor veelzijdige stijloverdracht mogelijk wordt (bijvoorbeeld het omzetten van Japanse city pop naar een Engelse rap terwijl de originele begeleiding behouden blijft) en bidirectionele generatie. Door uitgebreide evaluatie tonen we aan dat YuE enkele propriëtaire systemen evenaart of zelfs overtreft in muzikaliteit en vocale behendigheid. Bovendien maakt fine-tuning van YuE extra controles en verbeterde ondersteuning voor minder gebruikte talen mogelijk. Verder laten we zien dat de geleerde representaties van YuE goed presteren op muziekbegripstaken, waarbij de resultaten van YuE de state-of-the-art methoden op de MARBLE-benchmark evenaren of overtreffen. Trefwoorden: tekst2lied, liedgeneratie, lange-vorm, foundation-model, muziekgeneratie.

4

Optimalisatie van Testtijdberekening via Meta Reinforcement Fine-Tuning
Optimizing Test-Time Compute via Meta Reinforcement Fine-Tuning

Mar 10
ByYuxiao Qu, Matthew Y. R. Yang, Amrith Setlur, Lewis Tunstall, Edward Emanuel Beeching, Ruslan Salakhutdinov, Aviral Kumar
46
2

Het trainen van modellen om rekentijd tijdens het testen effectief te benutten, is cruciaal voor het verbeteren van het redeneervermogen van LLM's (Large Language Models). Huidige methoden doen dit voornamelijk via fine-tuning op zoeksporen of door reinforcement learning (RL) uit te voeren met een 0/1 beloning voor het resultaat, maar maken deze benaderingen efficiënt gebruik van de rekentijd tijdens het testen? Zouden deze benaderingen blijven schalen naarmate het budget toeneemt? In dit artikel proberen we deze vragen te beantwoorden. We formaliseren het probleem van het optimaliseren van rekentijd tijdens het testen als een meta-reinforcement learning (RL) probleem, wat een principieel perspectief biedt op het besteden van rekentijd tijdens het testen. Dit perspectief stelt ons in staat om de lange uitvoerstroom van de LLM te zien als bestaande uit meerdere episodes die tijdens het testen worden uitgevoerd, en leidt ons ertoe om een notie van cumulatieve spijt over uitvoertokens te gebruiken als een manier om de effectiviteit van rekentijd tijdens het testen te meten. Net zoals RL-algoritmen de beste afweging kunnen maken tussen exploratie en exploitatie tijdens de training, zou het minimaliseren van cumulatieve spijt ook de beste balans bieden tussen exploratie en exploitatie in de tokenstroom. Hoewel we aantonen dat state-of-the-art modellen geen spijt minimaliseren, kan dit wel worden bereikt door een dichte beloningsbonus te maximaliseren in combinatie met de 0/1 resultaatbeloning van RL. Deze bonus is de "voortgang" die wordt gemaakt door elk volgend blok in de uitvoerstroom, gekwantificeerd door de verandering in de waarschijnlijkheid van uiteindelijk succes. Met deze inzichten ontwikkelen we Meta Reinforcement Fine-Tuning, of MRT, een nieuwe klasse van fine-tuning methoden voor het optimaliseren van rekentijd tijdens het testen. MRT leidt tot een relatieve prestatieverbetering van 2-3x en een ruwweg 1.5x hogere token-efficiëntie voor wiskundig redeneren in vergelijking met RL met resultaatbeloning.

5

Gemini Embedding: Generaliseerbare Embeddings van Gemini
Gemini Embedding: Generalizable Embeddings from Gemini

Mar 10
ByJinhyuk Lee, Feiyang Chen, Sahil Dua, Daniel Cer, Madhuri Shanbhogue, Iftekhar Naim, Gustavo Hernández Ábrego, Zhe Li, Kaifeng Chen, Henrique Schechter Vera, Xiaoqi Ren, Shanfeng Zhang, Daniel Salz, Michael Boratko, Jay Han, Blair Chen, Shuo Huang, Vikram Rao, Paul Suganthan, Feng Han, Andreas Doumanoglou, Nithi Gupta, Fedor Moiseev, Cathy Yip, Aashi Jain, Simon Baumgartner, Shahrokh Shahi, Frank Palma Gomez, Sandeep Mariserla, Min Choi, Parashar Shah, Sonam Goenka, Ke Chen, Ye Xia, Koert Chen, Sai Meher Karthik Duddu, Yichang Chen, Trevor Walker, Wenlei Zhou, Rakesh Ghiya, Zach Gleicher, Karan Gill, Zhe Dong, Mojtaba Seyedhosseini, Yunhsuan Sung, Raphael Hoffmann, Tom Duerig
43
3

In dit rapport introduceren we Gemini Embedding, een state-of-the-art embeddingmodel dat gebruikmaakt van de kracht van Gemini, het meest geavanceerde grote taalmodel van Google. Door gebruik te maken van de inherente meertalige en codebegripcapaciteiten van Gemini, produceert Gemini Embedding zeer generaliseerbare embeddings voor tekst die zich uitstrekt over talrijke talen en tekstuele modaliteiten. De representaties die door Gemini Embedding worden gegenereerd, kunnen vooraf worden berekend en toegepast op een verscheidenheid aan downstreamtaken, waaronder classificatie, gelijkenis, clustering, rangschikking en retrieval. Geëvalueerd op de Massive Multilingual Text Embedding Benchmark (MMTEB), die meer dan honderd taken omvat in meer dan 250 talen, presteert Gemini Embedding aanzienlijk beter dan eerdere state-of-the-art modellen, wat aanzienlijke verbeteringen in de kwaliteit van de embeddings aantoont. Door state-of-the-art prestaties te behalen op de meertalige, Engelse en codebenchmarks van MMTEB, toont ons unificatiemodel sterke capaciteiten over een breed scala aan taken en overtreft het gespecialiseerde domeinspecifieke modellen.

6

Seedream 2.0: Een Native Chinees-Engels Tweetalig Beeldgeneratie Fundamentmodel
Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

Mar 10
ByLixue Gong, Xiaoxia Hou, Fanshi Li, Liang Li, Xiaochen Lian, Fei Liu, Liyang Liu, Wei Liu, Wei Lu, Yichun Shi, Shiqi Sun, Yu Tian, Zhi Tian, Peng Wang, Xun Wang, Ye Wang, Guofeng Wu, Jie Wu, Xin Xia, Xuefeng Xiao, Linjie Yang, Zhonghua Zhai, Xinyu Zhang, Qi Zhang, Yuwei Zhang, Shijia Zhao, Jianchao Yang, Weilin Huang
37
3

De snelle vooruitgang van diffusiemodellen heeft een opmerkelijke vooruitgang in het veld van beeldgeneratie teweeggebracht. Toch worstelen gangbare modellen zoals Flux, SD3.5 en Midjourney nog steeds met problemen zoals modelbias, beperkte tekstweergavecapaciteiten en onvoldoende begrip van Chinese culturele nuances. Om deze beperkingen aan te pakken, presenteren we Seedream 2.0, een native Chinees-Engels tweetalig beeldgeneratie-basismodel dat uitblinkt op diverse dimensies, en dat tekstprompts in zowel Chinees als Engels vakkundig verwerkt, waardoor het tweetalige beeldgeneratie en tekstweergave ondersteunt. We ontwikkelen een krachtig datasysteem dat kennisintegratie vergemakkelijkt, en een bijschriftsysteem dat een balans vindt tussen nauwkeurigheid en rijkdom in beeldbeschrijvingen. In het bijzonder is Seedream geïntegreerd met een zelfontwikkeld tweetalig groot taalmodel als tekstencoder, waardoor het native kennis rechtstreeks kan leren uit enorme hoeveelheden data. Dit stelt het in staat om hoogwaardige afbeeldingen te genereren met nauwkeurige culturele nuances en esthetische uitdrukkingen, beschreven in zowel Chinees als Engels. Daarnaast wordt Glyph-Aligned ByT5 toegepast voor flexibele teken-niveau tekstweergave, terwijl een Scaled ROPE goed generaliseert naar ongetrainde resoluties. Multi-fase post-trainingsoptimalisaties, inclusief SFT en RLHF-iteraties, verbeteren de algehele capaciteit verder. Door uitgebreide experimenten tonen we aan dat Seedream 2.0 state-of-the-art prestaties bereikt op meerdere aspecten, waaronder prompt-volgen, esthetiek, tekstweergave en structurele correctheid. Bovendien is Seedream 2.0 geoptimaliseerd door meerdere RLHF-iteraties om de uitvoer nauwkeurig af te stemmen op menselijke voorkeuren, zoals blijkt uit de uitstekende ELO-score. Daarnaast kan het gemakkelijk worden aangepast naar een instructie-gebaseerd beeldbewerkingsmodel, zoals SeedEdit, met sterke bewerkingscapaciteiten die een balans vinden tussen instructie-volgen en beeldconsistentie.

7

MagicInfinite: Oneindige Sprekende Video's Genereren met Jouw Woorden en Stem
MagicInfinite: Generating Infinite Talking Videos with Your Words and Voice

Mar 7
ByHongwei Yi, Tian Ye, Shitong Shao, Xuancheng Yang, Jiantong Zhao, Hanzhong Guo, Terrance Wang, Qingyu Yin, Zeke Xie, Lei Zhu, Wei Li, Michael Lingelbach, Daquan Zhou
36
2

We presenteren MagicInfinite, een nieuw diffusion Transformer (DiT) framework dat traditionele beperkingen van portretanimatie overwint en hoogwaardige resultaten levert voor diverse karaktersoorten - realistische mensen, volledige lichaamsfiguren en gestileerde anime-personages. Het ondersteunt verschillende gezichtshoudingen, inclusief achterwaartse aanzichten, en animeert één of meerdere karakters met invoermaskers voor precieze sprekeraanwijzing in scènes met meerdere personages. Onze aanpak adresseert belangrijke uitdagingen met drie innovaties: (1) 3D volledige-attentiemechanismen met een sliding window denoising-strategie, waardoor oneindige videogeneratie mogelijk wordt met temporele coherentie en visuele kwaliteit voor diverse karakterstijlen; (2) een tweefasen curriculumleerschema, dat audio integreert voor lipsynchronisatie, tekst voor expressieve dynamiek en referentiebeelden voor identiteitsbehoud, waardoor flexibele multimodale controle over lange sequenties mogelijk wordt; en (3) regiospecifieke maskers met adaptieve verliesfuncties om globale tekstuele controle en lokale audiogestuurde begeleiding in balans te brengen, wat sprekerspecifieke animaties ondersteunt. De efficiëntie wordt verbeterd via onze innovatieve unified step en cfg-distillatietechnieken, wat een 20x versnelling van de inferentiesnelheid oplevert ten opzichte van het basismodel: het genereren van een 10 seconden durende 540x540p video in 10 seconden of 720x720p in 30 seconden op 8 H100 GPU's, zonder kwaliteitsverlies. Evaluaties op onze nieuwe benchmark tonen de superioriteit van MagicInfinite aan op het gebied van audio-lipsynchronisatie, identiteitsbehoud en bewegingsnatuurlijkheid in diverse scenario's. Het is publiekelijk beschikbaar op https://www.hedra.com/, met voorbeelden op https://magicinfinite.github.io/.

8

Video Actieverschillen
Video Action Differencing

Mar 10
ByJames Burgess, Xiaohan Wang, Yuhui Zhang, Anita Rau, Alejandro Lozano, Lisa Dunlap, Trevor Darrell, Serena Yeung-Levy
33
2

Hoe verschillen twee individuen wanneer ze dezelfde handeling uitvoeren? In dit werk introduceren we Video Action Differencing (VidDiff), de nieuwe taak om subtiele verschillen tussen video's van dezelfde handeling te identificeren, wat veel toepassingen heeft, zoals coaching en vaardigheidsleren. Om ontwikkeling op deze nieuwe taak mogelijk te maken, creëren we eerst VidDiffBench, een benchmarkdataset met 549 videoparen, voorzien van menselijke annotaties van 4.469 fijnmazige actieverschillen en 2.075 lokalisatietimestamps die aangeven waar deze verschillen optreden. Onze experimenten tonen aan dat VidDiffBench een aanzienlijke uitdaging vormt voor state-of-the-art grote multimodale modellen (LMMs), zoals GPT-4o en Qwen2-VL. Door falende gevallen van LMMs op VidDiffBench te analyseren, belichten we twee belangrijke uitdagingen voor deze taak: het lokaliseren van relevante subacties over twee video's en fijnmazige frame-vergelijking. Om deze te overwinnen, stellen we de VidDiff-methode voor, een agent-gebaseerde workflow die de taak opdeelt in drie fasen: actieverschilvoorstel, sleutelframe-lokalisatie en frameverschillen, waarbij elke fase gespecialiseerde foundationmodellen gebruikt. Om toekomstig onderzoek in deze nieuwe taak aan te moedigen, maken we de benchmark beschikbaar op https://huggingface.co/datasets/jmhb/VidDiffBench en de code op http://jmhb0.github.io/viddiff.

9

UniF^2ace: Fijnmazig gezichtsbegrip en -generatie met geïntegreerde multimodale modellen
UniF^2ace: Fine-grained Face Understanding and Generation with Unified Multimodal Models

Mar 11
ByJunzhe Li, Xuerui Qiu, Linrui Xu, Liya Guo, Delin Qu, Tingting Long, Chun Fan, Ming Li
31
3

Unified multimodal models (UMMs) zijn naar voren gekomen als een krachtig paradigma in fundamenteel computer vision-onderzoek, waarbij ze aanzienlijk potentieel hebben getoond op het gebied van zowel beeldbegrip als beeldgeneratie. Bestaand onderzoek in het domein van gezichten richt zich echter voornamelijk op het begrijpen van grove gezichtskenmerken, met beperkte capaciteit om fijnmazige gezichtskenmerken te verwerken en zonder aandacht voor generatiemogelijkheden. Om deze beperkingen te overwinnen, stellen we UniF^2ace voor, de eerste UMM die specifiek is ontworpen voor fijnmazig gezichtsbegrip en -generatie. Over het algemeen trainen we UniF^2ace op een zelfsamengestelde, gespecialiseerde dataset met behulp van twee elkaar versterkende diffusietechnieken en een twee niveaus tellende mixture-of-experts-architectuur. Concreet bouwen we eerst een grootschalige gezichtsdataset, UniF^2ace-130K, die 130K afbeelding-tekst-paren bevat met één miljoen vraag-antwoord-paren die een breed scala aan gezichtskenmerken bestrijken. Ten tweede leggen we een theoretische verbinding tussen discrete diffusie score matching en gemaskerde generatieve modellen, waarbij we beide evidence lower bounds gelijktijdig optimaliseren, wat het vermogen van het model om gezichtsdetails te synthetiseren aanzienlijk verbetert. Tot slot introduceren we zowel token-level als sequence-level mixture-of-experts, wat efficiënt fijnmazige representatie leren mogelijk maakt voor zowel begrips- als generatietaken. Uitgebreide experimenten op UniF^2ace-130K tonen aan dat UniF^2ace bestaande UMMs en generatieve modellen overtreft, met superieure prestaties op zowel begrips- als generatietaken.

10

Tuning-vrije generatie van lange video's met meerdere gebeurtenissen via gesynchroniseerd gekoppeld bemonsteren
Tuning-Free Multi-Event Long Video Generation via Synchronized Coupled Sampling

Mar 11
BySubin Kim, Seoung Wug Oh, Jui-Hsien Wang, Joon-Young Lee, Jinwoo Shin
27
2

Hoewel recente vooruitgang in tekst-naar-video diffusiemodellen het mogelijk maakt om hoogwaardige korte video's te genereren vanuit een enkele prompt, blijft het genereren van realistische lange video's in één keer een uitdaging vanwege beperkte data en hoge rekenkosten. Om dit aan te pakken, stellen verschillende werken tuning-vrije benaderingen voor, waarbij bestaande modellen worden uitgebreid voor het genereren van lange video's, specifiek door gebruik te maken van meerdere prompts om dynamische en gecontroleerde inhoudsveranderingen mogelijk te maken. Deze methoden richten zich echter voornamelijk op het waarborgen van soepele overgangen tussen aangrenzende frames, wat vaak leidt tot inhoudsverschuiving en een geleidelijk verlies van semantische samenhang over langere sequenties. Om dit probleem aan te pakken, stellen wij Synchronized Coupled Sampling (SynCoS) voor, een nieuw inferentiekader dat de denoising-paden over de gehele video synchroniseert, waardoor langetermijnconsistentie wordt gewaarborgd tussen zowel aangrenzende als verre frames. Onze aanpak combineert twee complementaire samplingstrategieën: reverse sampling en optimalisatiegebaseerd sampling, die respectievelijk naadloze lokale overgangen waarborgen en globale samenhang afdwingen. Direct afwisselen tussen deze samplingmethoden leidt echter tot een verkeerde uitlijning van de denoising-trajecten, wat de promptbegeleiding verstoort en onbedoelde inhoudsveranderingen introduceert, aangezien ze onafhankelijk van elkaar werken. Om dit op te lossen, synchroniseert SynCoS deze methoden via een gegronde tijdsstap en een vast basislawaai, waardoor volledig gekoppelde sampling met uitgelijnde denoising-paden wordt gegarandeerd. Uitgebreide experimenten tonen aan dat SynCoS de generatie van lange video's met meerdere gebeurtenissen aanzienlijk verbetert, met soepelere overgangen en superieure langetermijnsamenhang, en daarmee zowel kwantitatief als kwalitatief beter presteert dan eerdere benaderingen.

11

SegAgent: Onderzoek naar Pixelbegrip in MLLMs door het Nabootsen van Menselijke Annotator Trajectories
SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories

Mar 11
ByMuzhi Zhu, Yuzhuo Tian, Hao Chen, Chunluan Zhou, Qingpei Guo, Yang Liu, Ming Yang, Chunhua Shen
27
2

Hoewel MLLM's adequate beeldbegrip hebben getoond, worstelen ze nog steeds met begrip op pixelniveau, wat hun praktische toepassingen beperkt. Huidige evaluatietaken zoals VQA en visuele verankering blijven te grof om een nauwkeurige beoordeling van fijnmazig pixelbegrip mogelijk te maken. Hoewel segmentatie fundamenteel is voor begrip op pixelniveau, vereisen bestaande methoden vaak dat MLLM's impliciete tokens genereren, die worden gedecodeerd via externe pixeldecoders. Deze aanpak verstoort de tekstuitvoerruimte van de MLLM, wat mogelijk de taalvaardigheden aantast en de flexibiliteit en uitbreidbaarheid vermindert, terwijl het intrinsieke pixelbegrip van het model niet accuraat wordt weergegeven. Daarom introduceren we de Human-Like Mask Annotation Task (HLMAT), een nieuw paradigma waarbij MLLM's menselijke annotators nabootsen met behulp van interactieve segmentatietools. Door segmentatie te modelleren als een meerstaps Markov-beslissingsproces, stelt HLMAT MLLM's in staat om iteratief tekstgebaseerde klikpunten te genereren, waardoor hoogwaardige maskers worden bereikt zonder architectuurwijzigingen of impliciete tokens. Via deze opzet ontwikkelen we SegAgent, een model dat is afgestemd op mensachtige annotatietrajecten, dat prestaties bereikt die vergelijkbaar zijn met state-of-the-art (SOTA) methoden en aanvullende taken ondersteunt zoals maskerverfijning en annotatiefiltering. HLMAT biedt een protocol voor het beoordelen van fijnmazig pixelbegrip in MLLM's en introduceert een visiegerichte, meerstaps besluitvormingstaak die het verkennen van de visuele redeneervaardigheden van MLLM's vergemakkelijkt. Onze aanpassingen van de beleidsverbeteringsmethode StaR en PRM-geleide boomzoektocht versterken verder de robuustheid van het model in complexe segmentatietaken, wat een basis legt voor toekomstige vooruitgang in fijnmazige visuele perceptie en meerstaps besluitvorming voor MLLM's.

12

Impliciete redenering in Transformers is redeneren via snelkoppelingen
Implicit Reasoning in Transformers is Reasoning through Shortcuts

Mar 10
ByTianhe Lin, Jian Xie, Siyu Yuan, Deqing Yang
23
2

Test-time compute ontwikkelt zich als een nieuw paradigma om de complexe, meerstaps redeneervaardigheden van taalmodelen te verbeteren, zoals blijkt uit het succes van OpenAI's o1 en o3, evenals DeepSeek's R1. In vergelijking met expliciet redeneren tijdens test-time compute, is impliciet redeneren efficiënter in inferentie, omdat het minder gegenereerde tokens vereist. Waarom komt de geavanceerde redeneervaardigheid echter niet tot uiting in de impliciete redeneerstijl? In dit werk trainen we GPT-2 vanaf nul op een gecureerde dataset voor meerstaps wiskundig redeneren en voeren we analytische experimenten uit om te onderzoeken hoe taalmodelen impliciet redeneren in meerstaps taken. Onze bevindingen onthullen: 1) Taalmodelen kunnen stap-voor-stap redeneren en hoge nauwkeurigheid bereiken in zowel in-domein als out-of-domein tests via impliciet redeneren. Deze vaardigheid komt echter alleen naar voren wanneer getraind op data met een vast patroon. 2) Aan de andere kant neigen impliciete redeneervaardigheden die ontstaan uit training op data zonder vast patroon tot overfitting op een specifiek patroon en slagen ze er niet in om verder te generaliseren. Opmerkelijk is dat deze beperking ook wordt waargenomen in state-of-the-art grote taalmodelen. Deze bevindingen suggereren dat taalmodelen impliciet redeneren verwerven via shortcut learning, wat sterke prestaties mogelijk maakt op taken met vergelijkbare patronen, maar generalisatie ontbreekt.

13

LightGen: Efficiënte beeldgeneratie via kennisdistillatie en directe voorkeursoptimalisatie
LightGen: Efficient Image Generation through Knowledge Distillation and Direct Preference Optimization

Mar 11
ByXianfeng Wu, Yajing Bai, Haoze Zheng, Harold Haodong Chen, Yexin Liu, Zihao Wang, Xuran Ma, Wen-Jie Shu, Xianzu Wu, Harry Yang, Ser-Nam Lim
20
2

Recente vooruitgang in tekst-naar-beeldgeneratie heeft voornamelijk vertrouwd op uitgebreide datasets en architecturen met veel parameters. Deze vereisten beperken de toegankelijkheid aanzienlijk voor onderzoekers en praktijkmensen die niet over aanzienlijke rekenkracht beschikken. In dit artikel introduceren we \model, een efficiënt trainingsparadigma voor beeldgeneratiemodellen dat gebruikmaakt van kennisdistillatie (KD) en Direct Preference Optimization (DPO). Geïnspireerd door het succes van data-KD-technieken die veel worden toegepast in Multi-Modale Large Language Models (MLLMs), distilleert LightGen kennis uit state-of-the-art (SOTA) tekst-naar-beeldmodellen in een compacte Masked Autoregressive (MAR)-architectuur met slechts 0,7B parameters. Met behulp van een compacte synthetische dataset van slechts 2M hoogwaardige afbeeldingen gegenereerd uit diverse bijschriften, tonen we aan dat datadiversiteit een veel grotere invloed heeft op modelprestaties dan datavolume. Deze strategie vermindert de rekenkundige eisen aanzienlijk en verkort de voorbereidingstijd van potentieel duizenden GPU-dagen tot slechts 88 GPU-dagen. Bovendien, om de inherente tekortkomingen van synthetische data aan te pakken, met name slechte hoogfrequente details en ruimtelijke onnauwkeurigheden, integreren we de DPO-techniek die de beeldkwaliteit en positionele nauwkeurigheid verfijnt. Uitgebreide experimenten bevestigen dat LightGen beeldgeneratiekwaliteit bereikt die vergelijkbaar is met SOTA-modellen, terwijl het rekenkundige middelen aanzienlijk reduceert en de toegankelijkheid voor omgevingen met beperkte middelen vergroot. Code is beschikbaar op https://github.com/XianfengWu01/LightGen.

14

OmniMamba: Efficiënte en Geünificeerde Multimodale Begripsvorming en Generatie via State Space Modellen
OmniMamba: Efficient and Unified Multimodal Understanding and Generation via State Space Models

Mar 11
ByJialv Zou, Bencheng Liao, Qian Zhang, Wenyu Liu, Xinggang Wang
19
2

Recente vooruitgang in geünificeerde multimodale begrips- en visuele generatie (of multimodale generatie) modellen is belemmerd door hun kwadratische computationale complexiteit en afhankelijkheid van grootschalige trainingsdata. Wij presenteren OmniMamba, het eerste lineair-architectuurgebaseerde multimodale generatie- model dat zowel tekst als afbeeldingen genereert via een geünificeerd next-token voorspellingsparadigma. Het model benut volledig de hoge computationale en geheugen- efficiëntie van Mamba-2, en breidt de mogelijkheden uit van tekstgeneratie naar multimodale generatie. Om de data-inefficiëntie van bestaande geünificeerde modellen aan te pakken, stellen we twee belangrijke innovaties voor: (1) ontkoppelde vocabulaire om modaal-specifieke generatie te sturen, en (2) taakspecifieke LoRA voor parameter-efficiënte aanpassing. Verder introduceren we een ontkoppelde tweefasen- trainingsstrategie om data-onbalans tussen twee taken te verminderen. Uitgerust met deze technieken behaalt OmniMamba competitieve prestaties met JanusFlow terwijl het Show-o overtreft op benchmarks, ondanks dat het getraind is op slechts 2M afbeelding-tekst paren, wat 1.000 keer minder is dan Show-o. Opmerkelijk is dat OmniMamba uitblinkt met uitstekende inferentie-efficiëntie, met een versnelling tot 119,2 keer en een GPU-geheugenreductie van 63% voor lange-sequentiegeneratie in vergelijking met Transformer-gebaseerde tegenhangers. Code en modellen zijn vrijgegeven op https://github.com/hustvl/OmniMamba.

15

Het Benutten van Instructie-Volgende Retrievers voor het Ophalen van Kwaadaardige Informatie
Exploiting Instruction-Following Retrievers for Malicious Information Retrieval

Mar 11
ByParishad BehnamGhader, Nicholas Meade, Siva Reddy
16
2

Instructievolgende retrievers worden veelvuldig naast LLM's toegepast in praktische toepassingen, maar er is weinig onderzoek gedaan naar de veiligheidsrisico's rondom hun toenemende zoekcapaciteiten. We bestuderen empirisch het vermogen van retrievers om kwaadaardige queries te bevredigen, zowel bij direct gebruik als bij gebruik in een op retrieval-augmented generation gebaseerde opzet. Concreet onderzoeken we zes toonaangevende retrievers, waaronder NV-Embed en LLM2Vec, en constateren dat de meeste retrievers bij kwaadaardige verzoeken (voor >50% van de queries) relevante schadelijke passages kunnen selecteren. Zo selecteert LLM2Vec bijvoorbeeld correcte passages voor 61,35% van onze kwaadaardige queries. We ontdekken verder een opkomend risico bij instructievolgende retrievers, waarbij zeer relevante schadelijke informatie naar voren kan worden gebracht door hun instructievolgende capaciteiten te misbruiken. Tenslotte tonen we aan dat zelfs veiligheidsafgestemde LLM's, zoals Llama3, kwaadaardige verzoeken kunnen bevredigen wanneer ze schadelijke opgehaalde passages in-context krijgen aangeboden. Kortom, onze bevindingen benadrukken de risico's van kwaadwillig misbruik die gepaard gaan met de toenemende capaciteit van retrievers.

16

LocAgent: Grafisch-Gestuurde LLM-Agenten voor Codelokalisatie
LocAgent: Graph-Guided LLM Agents for Code Localization

Mar 12
ByZhaoling Chen, Xiangru Tang, Gangda Deng, Fang Wu, Jialong Wu, Zhiwei Jiang, Viktor Prasanna, Arman Cohan, Xingyao Wang
13
2

Codelokalisatie—het precies identificeren waar in een codebase wijzigingen moeten worden aangebracht—is een fundamentele maar uitdagende taak in softwareonderhoud. Bestaande benaderingen hebben moeite om efficiënt door complexe codebases te navigeren bij het identificeren van relevante codesecties. De uitdaging ligt in het overbruggen van natuurlijke taalprobleembeschrijvingen met de juiste code-elementen, wat vaak redenering vereist over hiërarchische structuren en meerdere afhankelijkheden. Wij introduceren LocAgent, een framework dat codelokalisatie aanpakt via een op grafieken gebaseerde representatie. Door codebases te parseren in gerichte heterogene grafieken, creëert LocAgent een lichtgewicht representatie die codestructuren (bestanden, klassen, functies) en hun afhankelijkheden (imports, aanroepen, overerving) vastlegt, waardoor LLM-agents effectief kunnen zoeken en relevante entiteiten kunnen lokaliseren via krachtige multi-hop redenering. Experimentele resultaten op real-world benchmarks tonen aan dat onze aanpak de nauwkeurigheid van codelokalisatie aanzienlijk verbetert. Opmerkelijk is dat onze methode met het fijn afgestelde Qwen-2.5-Coder-Instruct-32B model vergelijkbare resultaten behaalt met SOTA propriëtaire modellen tegen sterk gereduceerde kosten (ongeveer 86% reductie), met een nauwkeurigheid van tot 92,7% op bestandsniveau lokalisatie, terwijl het succespercentage van downstream GitHub-issue-oplossingen met 12% verbetert voor meerdere pogingen (Pass@10). Onze code is beschikbaar op https://github.com/gersteinlab/LocAgent.

17

AI-native Geheugen 2.0: Tweede Ik
AI-native Memory 2.0: Second Me

Mar 11
ByJiale Wei, Xiang Ying, Tao Gao, Felix Tao, Jingbo Shang
13
2

De interactie van mensen met de externe wereld omvat fundamenteel de uitwisseling van persoonlijke herinneringen, of dit nu is met andere individuen, websites, applicaties of, in de toekomst, AI-agents. Een aanzienlijk deel van deze interactie is redundant, waarbij gebruikers herhaaldelijk dezelfde informatie moeten verstrekken in verschillende contexten. Bestaande oplossingen, zoals in browsers opgeslagen inloggegevens, automatische invulmechanismen en geünificeerde authenticatiesystemen, hebben geprobeerd deze redundantie te verminderen door als tussenpersonen te fungeren die veelgebruikte gebruikersgegevens opslaan en ophalen. De opkomst van grote taalmodelen (LLMs) biedt een kans om geheugenbeheer opnieuw te definiëren via een AI-native paradigma: SECOND ME. SECOND ME fungeert als een intelligent, persistent geheugenoffloadsysteem dat gebruikersspecifieke kennis behoudt, organiseert en dynamisch benut. Door als tussenpersoon te dienen in gebruikersinteracties, kan het autonoom contextbewuste reacties genereren, vereiste informatie vooraf invullen en naadloze communicatie met externe systemen faciliteren, waardoor de cognitieve belasting en interactiewrijving aanzienlijk worden verminderd. In tegenstelling tot traditionele geheugenopslagoplossingen gaat SECOND ME verder dan statische gegevensretentie door gebruik te maken van LLM-gebaseerde geheugenparameterisatie. Dit maakt gestructureerde organisatie, contextueel redeneren en adaptieve kennisretrieval mogelijk, wat leidt tot een meer systematische en intelligente benadering van geheugenbeheer. Naarmate AI-gedreven persoonlijke agents zoals SECOND ME steeds meer worden geïntegreerd in digitale ecosystemen, vertegenwoordigt SECOND ME een cruciale stap naar het versterken van mens-wereldinteractie met persistente, contextbewuste en zelfoptimaliserende geheugensystemen. We hebben het volledig lokaliseerbare implementatiesysteem openbaar gemaakt op GitHub: https://github.com/Mindverse/Second-Me.

18

"Hoofdcomponenten" maken een nieuwe beeldtaal mogelijk
"Principal Components" Enable A New Language of Images

Mar 11
ByXin Wen, Bingchen Zhao, Ismail Elezi, Jiankang Deng, Xiaojuan Qi
12
2

We introduceren een nieuw visueel tokenisatiekader dat een bewijsbare PCA-achtige structuur in de latente tokenruimte incorporeert. Terwijl bestaande visuele tokenizers voornamelijk optimaliseren voor reconstructiefideliteit, verwaarlozen ze vaak de structurele eigenschappen van de latente ruimte — een cruciaal aspect voor zowel interpreteerbaarheid als downstream taken. Onze methode genereert een 1D causale tokenreeks voor afbeeldingen, waarbij elke opeenvolgende token niet-overlappende informatie bijdraagt met wiskundig gegarandeerde afnemende verklaarde variantie, analoog aan hoofdcomponentenanalyse. Deze structurele beperking zorgt ervoor dat de tokenizer eerst de meest opvallende visuele kenmerken extraheert, waarbij elke volgende token afnemende maar complementaire informatie toevoegt. Daarnaast hebben we een semantisch-spectrumkoppelingseffect geïdentificeerd en opgelost dat ongewenste verstrengeling van hoogwaardige semantische inhoud en laagwaardige spectrale details in de tokens veroorzaakt, door gebruik te maken van een diffusiedecoder. Experimenten tonen aan dat onze aanpak state-of-the-art reconstructieprestaties bereikt en een betere interpreteerbaarheid mogelijk maakt die aansluit bij het menselijk visuele systeem. Bovendien bereiken autoregressieve modellen die getraind zijn op onze tokenreeksen prestaties die vergelijkbaar zijn met de huidige state-of-the-art methoden, terwijl ze minder tokens nodig hebben voor training en inferentie.

19

VisualSimpleQA: Een Benchmark voor Ontkoppelde Evaluatie van Grote Visueel-Taalmodellen in Feitenzoekende Vraagbeantwoording
VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering

Mar 9
ByYanling Wang, Yihan Zhao, Xiaodong Chen, Shasha Guo, Lixin Liu, Haoyang Li, Yong Xiao, Jing Zhang, Qi Li, Ke Xu
11
5

Grote visueel-taalkundige modellen (LVLMs) hebben opmerkelijke prestaties laten zien, maar het genereren van niet-feitelijke antwoorden blijft veelvoorkomend bij feitenzoekende vraag-antwoordtaken (QA). Huidige multimodale benchmarks voor feitenzoekende taken richten zich voornamelijk op het vergelijken van modeluitvoer met grondwaarheid-antwoorden, wat beperkte inzichten biedt in de prestaties van modalitiespecifieke modules. Om deze kloof te overbruggen, introduceren we VisualSimpleQA, een multimodale benchmark voor feitenzoekende taken met twee belangrijke kenmerken. Ten eerste maakt het een gestroomlijnde en ontkoppelde evaluatie van LVLMs in visuele en taalkundige modaliteiten mogelijk. Ten tweede bevat het goed gedefinieerde moeilijkheidscriteria om menselijke annotatie te begeleiden en vergemakkelijkt het de extractie van een uitdagende subset, VisualSimpleQA-hard. Experimenten met 15 LVLMs tonen aan dat zelfs state-of-the-art modellen zoals GPT-4o slechts 60%+ correctheid behalen in multimodale feitenzoekende QA op VisualSimpleQA en 30%+ op VisualSimpleQA-hard. Bovendien laat de ontkoppelde evaluatie over deze modellen aanzienlijke verbeteringsmogelijkheden zien in zowel visuele als taalkundige modules. De dataset is beschikbaar op https://huggingface.co/datasets/WYLing/VisualSimpleQA.

20

Robusto-1 Dataset: Vergelijking tussen mensen en VLMs bij echte out-of-distribution VQA voor autonoom rijden uit Peru
Robusto-1 Dataset: Comparing Humans and VLMs on real out-of-distribution Autonomous Driving VQA from Peru

Mar 10
ByDunant Cusipuma, David Ortega, Victor Flores-Benites, Arturo Deza
11
2

Naarmate multimodale fundamentele modellen experimenteel worden ingezet in zelfrijdende auto's, is een redelijke vraag die we ons stellen: hoe vergelijkbaar reageren deze systemen met mensen in bepaalde rijomstandigheden – vooral in situaties die buiten de distributie vallen? Om dit te bestuderen, hebben we de Robusto-1 dataset gecreëerd, die gebruik maakt van dashcam-videogegevens uit Peru, een land met een van de meest agressieve bestuurders ter wereld, een hoge verkeersindex en een hoog aandeel van bizarre tot niet-bizarre straatobjecten die waarschijnlijk nooit in de training zijn gezien. In het bijzonder, om op een cognitief niveau voorlopig te testen hoe goed fundamentele visuele taalmodellen (VLMs) zich verhouden tot mensen in rijomstandigheden, stappen we af van begrenzingsvakken, segmentatiekaarten, bezettingskaarten of trajectschattingen naar multimodale visuele vraag-antwoordtaken (VQA), waarbij we zowel mensen als machines vergelijken via een populaire methode in systeemneurowetenschappen, bekend als Representational Similarity Analysis (RSA). Afhankelijk van het type vragen dat we stellen en de antwoorden die deze systemen geven, zullen we laten zien in welke gevallen VLMs en mensen convergeren of divergeren, wat ons in staat stelt hun cognitieve uitlijning te onderzoeken. We ontdekken dat de mate van uitlijning aanzienlijk varieert afhankelijk van het type vragen dat aan elk type systeem wordt gesteld (mensen versus VLMs), wat een kloof in hun uitlijning benadrukt.

21

CineBrain: Een grootschalige multimodale hersendataset tijdens natuurlijke audiovisuele narratieve verwerking
CineBrain: A Large-Scale Multi-Modal Brain Dataset During Naturalistic Audiovisual Narrative Processing

Mar 10
ByJianxiong Gao, Yichang Liu, Baofeng Yang, Jianfeng Feng, Yanwei Fu
11
2

In dit artikel introduceren we CineBrain, de eerste grootschalige dataset met gelijktijdige EEG- en fMRI-opnames tijdens dynamische audiovisuele stimulatie. Erkennend dat EEG een hoge temporele resolutie biedt en fMRI een diepe ruimtelijke dekking van de hersenen, bevat CineBrain ongeveer zes uur aan narratief gedreven content van de populaire televisieserie The Big Bang Theory voor elk van de zes deelnemers. Op basis van deze unieke dataset stellen we CineSync voor, een innovatief multimodaal decodeerframework dat een Multi-Modal Fusion Encoder integreert met een op diffusie gebaseerde Neural Latent Decoder. Onze aanpak combineert EEG- en fMRI-signalen effectief en verbetert de reconstructiekwaliteit van complexe audiovisuele stimuli aanzienlijk. Om een rigoureuze evaluatie mogelijk te maken, introduceren we Cine-Benchmark, een uitgebreid evaluatieprotocol dat reconstructies beoordeelt op zowel semantische als perceptuele dimensies. Experimentele resultaten tonen aan dat CineSync state-of-the-art videoreconstructieprestaties bereikt en benadrukken ons initiële succes in het combineren van fMRI en EEG voor het reconstrueren van zowel video- als audiostimuli. Projectpagina: https://jianxgao.github.io/CineBrain.

22

Benchmarken van AI-modellen in Software Engineering: Een Review, Zoekinstrument en Verbeterprotocol
Benchmarking AI Models in Software Engineering: A Review, Search Tool, and Enhancement Protocol

Mar 7
ByRoham Koohestani, Philippe de Bekker, Maliheh Izadi
11
2

Benchmarks zijn essentieel voor consistente evaluatie en reproduceerbaarheid. De integratie van Kunstmatige Intelligentie in Software Engineering (AI4SE) heeft geleid tot talrijke benchmarks voor taken zoals codegeneratie en bugfixing. Deze toename brengt echter uitdagingen met zich mee: (1) verspreide benchmarkkennis over verschillende taken, (2) moeilijkheden bij het selecteren van relevante benchmarks, (3) het ontbreken van een uniforme standaard voor benchmarkontwikkeling, en (4) beperkingen van bestaande benchmarks. In dit artikel bespreken we 173 studies en identificeren we 204 AI4SE-benchmarks. We classificeren deze benchmarks, analyseren hun beperkingen en leggen hiaten in de praktijken bloot. Op basis van onze review hebben we BenchScout ontwikkeld, een semantisch zoekinstrument om relevante benchmarks te vinden, door middel van geautomatiseerde clustering van de contexten uit bijbehorende studies. We hebben een gebruikersstudie uitgevoerd met 22 deelnemers om de bruikbaarheid, effectiviteit en intuïtiviteit van BenchScout te evalueren, wat resulteerde in gemiddelde scores van 4.5, 4.0 en 4.1 op een schaal van 5. Om benchmarkstandaarden te bevorderen, stellen we BenchFrame voor, een uniforme methode om de kwaliteit van benchmarks te verbeteren. Als casestudy hebben we BenchFrame toegepast op de HumanEval-benchmark en de belangrijkste beperkingen ervan aangepakt. Dit leidde tot HumanEvalNext, met (1) gecorrigeerde fouten, (2) verbeterde taalconversie, (3) uitgebreide testdekking en (4) verhoogde moeilijkheidsgraad. Vervolgens hebben we tien state-of-the-art code-taalmodellen geëvalueerd op HumanEval, HumanEvalPlus en HumanEvalNext. Op HumanEvalNext lieten de modellen een daling zien in de pass@1-score van respectievelijk 31.22% en 19.94% vergeleken met HumanEval en HumanEvalPlus.

23

Mengsel van Experts Intrinsiek Interpreteerbaar Gemaakt
Mixture of Experts Made Intrinsically Interpretable

Mar 5
ByXingyi Yang, Constantin Venhoff, Ashkan Khakzar, Christian Schroeder de Witt, Puneet K. Dokania, Adel Bibi, Philip Torr
10
2

Neuronen in grote taalmodelen vertonen vaak polysemantie, waarbij ze tegelijkertijd meerdere ongerelateerde concepten coderen en de interpreteerbaarheid bemoeilijken. In plaats van te vertrouwen op post-hoc methoden, presenteren we MoE-X, een Mixture-of-Experts (MoE) taalmodel dat ontworpen is om intrinsiek interpreteerbaar te zijn. Onze aanpak is gemotiveerd door de observatie dat in taalmodelen bredere netwerken met sparse activaties meer geneigd zijn interpreteerbare factoren vast te leggen. Het direct trainen van dergelijke grote, sparse netwerken is echter computationeel onhaalbaar. MoE-architecturen bieden een schaalbare alternatief door slechts een subset van experts te activeren voor een gegeven invoer, wat inherent aansluit bij interpreteerbaarheidsdoelen. In MoE-X leggen we deze verbinding door de MoE-laag te herschrijven als een equivalente sparse, grote MLP. Deze aanpak maakt efficiënte schaalvergroting van de verborgen grootte mogelijk terwijl de sparsiteit behouden blijft. Om de interpreteerbaarheid verder te verbeteren, dwingen we sparse activatie af binnen elke expert en herontwerpen we het routeringsmechanisme om experts met de hoogste activatiesparsiteit te prioriteren. Deze ontwerpen zorgen ervoor dat alleen de meest opvallende kenmerken worden doorgestuurd en verwerkt door de experts. We evalueren MoE-X op schaak- en natuurlijke-taaltaken, waarbij we aantonen dat het prestaties bereikt die vergelijkbaar zijn met die van dense modellen, terwijl de interpreteerbaarheid aanzienlijk verbetert. MoE-X behaalt een perplexiteit die beter is dan GPT-2, met een interpreteerbaarheid die zelfs sparse autoencoder (SAE)-gebaseerde benaderingen overtreft.

24

^RFLAV: Rolling Flow matching voor oneindige Audio-Video generatie
^RFLAV: Rolling Flow matching for infinite Audio Video generation

Mar 11
ByAlex Ergasti, Giuseppe Gabriele Tarollo, Filippo Botti, Tomaso Fontanini, Claudio Ferrari, Massimo Bertozzi, Andrea Prati
9
2

Gezamenlijke audio-video (AV) generatie blijft een aanzienlijke uitdaging in generatieve AI, voornamelijk vanwege drie kritieke vereisten: de kwaliteit van de gegenereerde samples, naadloze multimodale synchronisatie en temporele samenhang, waarbij audiosporen overeenkomen met de visuele data en vice versa, en onbeperkte videoduur. In dit artikel presenteren we een nieuwe transformer-gebaseerde architectuur die alle belangrijke uitdagingen van AV-generatie aanpakt. We onderzoeken drie verschillende cross-modale interactiemodules, waarbij onze lichtgewicht temporele fusiemodule naar voren komt als de meest effectieve en computationeel efficiënte aanpak voor het afstemmen van audio- en visuele modaliteiten. Onze experimentele resultaten tonen aan dat de bestaande state-of-the-art modellen overtreft in multimodale AV-generatietaken. Onze code en checkpoints zijn beschikbaar op https://github.com/ErgastiAlex/R-FLAV.

25

AnyMoLe: Karakterbeweging Tussenin Genereren met Video Diffusiemodellen
AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models

Mar 11
ByKwan Yun, Seokhyeon Hong, Chaelin Kim, Junyong Noh
8
2

Ondanks recente vooruitgang in op leren gebaseerde bewegingstussenvoeging, is een belangrijke beperking over het hoofd gezien: de vereiste voor karakter-specifieke datasets. In dit werk introduceren we AnyMoLe, een nieuwe methode die deze beperking aanpakt door gebruik te maken van videodiffusiemodellen om bewegings-tussenframes te genereren voor willekeurige karakters zonder externe data. Onze aanpak hanteert een tweestaps frame-generatieproces om het contextuele begrip te verbeteren. Bovendien introduceren we ICAdapt, een fine-tuningtechniek voor videodiffusiemodellen, om de domeinkloof tussen real-world en gerenderde karakteranimaties te overbruggen. Daarnaast stellen we een "bewegings-video nabootsing" optimalisatietechniek voor, die naadloze bewegingsgeneratie mogelijk maakt voor karakters met willekeurige gewrichtsstructuren door gebruik te maken van 2D- en 3D-bewuste kenmerken. AnyMoLe vermindert de data-afhankelijkheid aanzienlijk terwijl het vloeiende en realistische overgangen genereert, waardoor het toepasbaar is op een breed scala aan bewegingstussenvoegingstaken.

26

Verwijzend naar een Persoon
Referring to Any Person

Mar 11
ByQing Jiang, Lin Wu, Zhaoyang Zeng, Tianhe Ren, Yuda Xiong, Yihao Chen, Qin Liu, Lei Zhang
7
2

Mensen zijn ongetwijfeld de belangrijkste deelnemers in computervisie, en het vermogen om een individu te detecteren op basis van een natuurlijke taal beschrijving, een taak die we definiëren als verwijzen naar een persoon, heeft aanzienlijke praktische waarde. We constateren echter dat bestaande modellen over het algemeen niet in staat zijn om real-world bruikbaarheid te bereiken, en huidige benchmarks worden beperkt door hun focus op één-op-één verwijzingen, wat de vooruitgang op dit gebied belemmert. In dit werk benaderen we deze taak vanuit drie kritische perspectieven: taakdefinitie, datasetontwerp en modelarchitectuur. We identificeren eerst vijf aspecten van verwijzingen en drie onderscheidende kenmerken van deze taak. Vervolgens introduceren we HumanRef, een nieuwe dataset die ontworpen is om deze uitdagingen aan te pakken en real-world toepassingen beter te weerspiegelen. Vanuit een modelontwerpperspectief integreren we een multimodaal groot taalmodel met een objectdetectiekader, waardoor we een robuust verwijsmodel construeren genaamd RexSeek. Experimentele resultaten laten zien dat state-of-the-art modellen, die goed presteren op veelgebruikte benchmarks zoals RefCOCO/+/g, moeite hebben met HumanRef vanwege hun onvermogen om meerdere individuen te detecteren. In tegenstelling daarmee blinkt RexSeek niet alleen uit in het verwijzen naar mensen, maar generaliseert het ook effectief naar het verwijzen naar gewone objecten, waardoor het breed toepasbaar is in verschillende perceptietaken. Code is beschikbaar op https://github.com/IDEA-Research/RexSeek.

27

BiasEdit: Het debiassen van stereotiepe taalmodelen via modelbewerking
BiasEdit: Debiasing Stereotyped Language Models via Model Editing

Mar 11
ByXin Xu, Wei Xu, Ningyu Zhang, Julian McAuley
7
2

Eerdere studies hebben aangetoond dat taalmodellen stereotypen en vooroordelen vertonen. Bestaande strategieën om vooroordelen te verminderen, zoals het opnieuw trainen van een model met tegenstrijdige gegevens, representatieprojectie en prompting, slagen er vaak niet in om vooroordelen efficiënt te elimineren of de bevooroordeelde interne representaties van de modellen direct te wijzigen. Om deze problemen aan te pakken, stellen we BiasEdit voor, een efficiënte methode voor modelbewerking om stereotypische vooroordelen uit taalmodellen te verwijderen door middel van lichtgewicht netwerken die fungeren als editors om parameterupdates te genereren. BiasEdit maakt gebruik van een verliesfunctie voor het verminderen van vooroordelen, die editor-netwerken begeleidt om lokale aanpassingen uit te voeren op een deel van de parameters van een taalmodel om vooroordelen te verminderen, terwijl de taalmodelleringsvaardigheden tijdens het bewerken behouden blijven door middel van een retentieverlies. Experimenten op StereoSet en Crows-Pairs demonstreren de effectiviteit, efficiëntie en robuustheid van BiasEdit in het elimineren van vooroordelen in vergelijking met tangentiële debiasing-baselines, met weinig tot geen impact op de algemene capaciteiten van de taalmodellen. Daarnaast voeren we bias tracing uit om vooroordelen in verschillende modules te onderzoeken en verkennen we de impact van biasbewerkingen op verschillende componenten van taalmodellen.

28

Inductief Moment Matching
Inductive Moment Matching

Mar 10
ByLinqi Zhou, Stefano Ermon, Jiaming Song
6
2

Diffusiemodellen en Flow Matching genereren hoogwaardige samples, maar zijn traag tijdens inferentie, en het destilleren ervan naar modellen met weinig stappen leidt vaak tot instabiliteit en uitgebreide afstemming. Om deze afwegingen op te lossen, stellen we Inductive Moment Matching (IMM) voor, een nieuwe klasse van generatieve modellen voor één of weinig-staps sampling met een enkelvoudig trainingsproces. In tegenstelling tot destillatie, vereist IMM geen voorafgaande training, initialisatie en optimalisatie van twee netwerken; en in tegenstelling tot Consistentiemodellen garandeert IMM convergentie op distributieniveau en blijft stabiel onder verschillende hyperparameters en standaard model architecturen. IMM overtreft diffusiemodellen op ImageNet-256x256 met een FID van 1,99 met slechts 8 inferentiestappen en behaalt een state-of-the-art 2-staps FID van 1,98 op CIFAR-10 voor een model dat vanaf nul is getraind.

29

Voorbij alleen-decoders: Grote Taalmodellen kunnen goede encoders zijn voor Machinaal Vertalen
Beyond Decoder-only: Large Language Models Can be Good Encoders for Machine Translation

Mar 9
ByYingfeng Luo, Tong Zheng, Yongyu Mu, Bei Li, Qinghong Zhang, Yongqi Gao, Ziqiang Xu, Peinan Feng, Xiaoqian Liu, Tong Xiao, Jingbo Zhu
6
2

Het vakgebied van neurale machinaalvertaling (NMT) is veranderd met de opkomst van grote taalmodelen (LLMs). Veel van de recente aandacht in natuurlijke taalverwerking (NLP) is uitgegaan naar het modelleren van machinaalvertaling en vele andere problemen met behulp van een enkele vooraf getrainde Transformer-decoder, terwijl encoder-decoder-architecturen, die eerder de standaard waren in NMT-modellen, relatief minder aandacht hebben gekregen. In dit artikel onderzoeken we vertaalmodellen die universeel, efficiënt en eenvoudig te optimaliseren zijn, door de wereld van LLMs te combineren met de wereld van NMT. We passen LLMs toe op NMT-codering en laten de NMT-decoder ongewijzigd. We ontwikkelen ook methoden om LLMs beter te laten samenwerken met de NMT-decoder. Bovendien construeren we een nieuwe dataset met meerdere taken om te beoordelen hoe goed het machinaalvertalingssysteem generaliseert over verschillende taken. Evaluaties op de WMT en onze datasets laten zien dat resultaten met onze methode gelijk zijn aan of een reeks baselines overtreffen wat betreft vertaalkwaliteit, maar ze bereiken een versnelling van de inferentiesnelheid met een factor 2,4 tot 6,5 en een reductie van 75% in het geheugengebruik van de KV-cache. Het toont ook sterke generalisatie over een verscheidenheid aan vertaalgerelateerde taken.

30

RayFlow: Instance-Aware Diffusieversnelling via Adaptieve Stroomtrajectorieën
RayFlow: Instance-Aware Diffusion Acceleration via Adaptive Flow Trajectories

Mar 10
ByHuiyang Shao, Xin Xia, Yuhong Yang, Yuxi Ren, Xing Wang, Xuefeng Xiao
5
2

Diffusiemodellen hebben opmerkelijke successen behaald in verschillende domeinen. Hun trage generatiesnelheid blijft echter een kritieke uitdaging. Bestaande versnellingsmethoden, hoewel gericht op het verminderen van stappen, gaan vaak ten koste van de samplekwaliteit, beheersbaarheid, of introduceren trainingscomplexiteiten. Daarom stellen wij RayFlow voor, een nieuw diffusiekader dat deze beperkingen aanpakt. In tegenstelling tot vorige methoden leidt RayFlow elk sample langs een uniek pad naar een instantiespecifieke doeldistributie. Deze methode minimaliseert de samplingstappen terwijl de generatiediversiteit en stabiliteit behouden blijven. Bovendien introduceren we Time Sampler, een importance sampling-techniek om de trainings efficiëntie te verbeteren door te focussen op cruciale tijdstappen. Uitgebreide experimenten tonen de superioriteit van RayFlow aan in het genereren van hoogwaardige afbeeldingen met verbeterde snelheid, controle en trainings efficiëntie in vergelijking met bestaande versnellings technieken.

31

ObjectMover: Generatieve Objectbeweging met Videoprior
ObjectMover: Generative Object Movement with Video Prior

Mar 11
ByXin Yu, Tianyu Wang, Soo Ye Kim, Paul Guerrero, Xi Chen, Qing Liu, Zhe Lin, Xiaojuan Qi
5
5

Hoe eenvoudig het ook lijkt, het verplaatsen van een object naar een andere locatie binnen een afbeelding is in feite een uitdagende beeldbewerkingstaak die het herharmoniseren van de belichting, het aanpassen van de pose op basis van perspectief, het nauwkeurig invullen van verborgen gebieden en het zorgen voor een coherente synchronisatie van schaduwen en reflecties vereist, terwijl de objectidentiteit behouden blijft. In dit artikel presenteren we ObjectMover, een generatief model dat objectverplaatsing kan uitvoeren in zeer uitdagende scènes. Onze belangrijkste inzicht is dat we deze taak modelleren als een sequentie-naar-sequentieprobleem en een videogeneratiemodel finetunen om gebruik te maken van zijn kennis over consistente objectgeneratie over videoframes. We laten zien dat ons model met deze aanpak kan inspelen op complexe real-world scenario's, waarbij extreme belichtingsharmonisatie en objecteffectverplaatsing worden afgehandeld. Omdat grootschalige gegevens voor objectverplaatsing niet beschikbaar zijn, construeren we een datageneratiepijplijn met behulp van een moderne game-engine om hoogwaardige gegevensparen te synthetiseren. We stellen verder een multi-task leerstrategie voor die training op real-world videogegevens mogelijk maakt om de modelgeneralisatie te verbeteren. Door middel van uitgebreide experimenten tonen we aan dat ObjectMover uitstekende resultaten behaalt en zich goed aanpast aan real-world scenario's.

32

Perplexity-val: op PLM gebaseerde retrievers overschatten documenten met lage perplexiteit
Perplexity Trap: PLM-Based Retrievers Overrate Low Perplexity Documents

Mar 11
ByHaoyu Wang, Sunhao Dai, Haiyuan Zhao, Liang Pang, Xiao Zhang, Gang Wang, Zhenhua Dong, Jun Xu, Ji-Rong Wen
5
2

Eerdere studies hebben aangetoond dat op PLM gebaseerde retrievalsystemen een voorkeur vertonen voor door LLM gegenereerde inhoud, waarbij ze hogere relevantiescores toekennen aan deze documenten, zelfs wanneer hun semantische kwaliteit vergelijkbaar is met door mensen geschreven documenten. Dit fenomeen, bekend als bronbias, vormt een bedreiging voor de duurzame ontwikkeling van het ecosysteem voor informatie toegang. De onderliggende oorzaken van bronbias zijn echter nog niet onderzocht. In dit artikel verklaren we het proces van informatie retrieval met een causaal diagram en ontdekken we dat op PLM gebaseerde retrievers perplexiteitskenmerken leren voor relevantieschatting, wat bronbias veroorzaakt door documenten met een lage perplexiteit hoger te rangschikken. Theoretische analyse onthult verder dat het fenomeen voortkomt uit de positieve correlatie tussen de gradiënten van de verliesfuncties in de taak van taalmodellering en de retrievetaak. Op basis van de analyse wordt een causaal geïnspireerde debiasingmethode tijdens inferentie voorgesteld, genaamd Causal Diagnosis and Correction (CDC). CDC diagnosticeert eerst het biaseffect van de perplexiteit en scheidt vervolgens het biaseffect van de totale geschatte relevantiescore. Experimentele resultaten in drie domeinen tonen de superieure debiasing effectiviteit van CDC aan, wat de geldigheid van ons voorgestelde verklaringskader benadrukt. Broncodes zijn beschikbaar op https://github.com/WhyDwelledOnAi/Perplexity-Trap.

33

Intelligentie evalueren via trial and error
Evaluating Intelligence via Trial and Error

Feb 26
ByJingtao Zhan, Jiahao Zhao, Jiayu Li, Yiqun Liu, Bo Zhang, Qingyao Ai, Jiaxin Mao, Hongning Wang, Min Zhang, Shaoping Ma
4
3

Intelligentie is een cruciaal kenmerk voor soorten om oplossingen te vinden binnen een beperkt aantal trial-and-error pogingen. Op basis van dit idee introduceren we Survival Game als een raamwerk om intelligentie te evalueren op basis van het aantal mislukte pogingen in een trial-and-error proces. Minder mislukkingen duiden op een hogere intelligentie. Wanneer zowel de verwachting als de variantie van het aantal mislukkingen eindig zijn, geeft dit het vermogen aan om consistent oplossingen te vinden voor nieuwe uitdagingen, wat wij definiëren als het Autonome Niveau van intelligentie. Met behulp van Survival Game evalueren we bestaande AI-systemen uitgebreid. Onze resultaten laten zien dat hoewel AI-systemen het Autonome Niveau bereiken in eenvoudige taken, ze hier nog ver van verwijderd zijn in complexere taken, zoals visie, zoeken, aanbevelingen en taal. Hoewel het opschalen van huidige AI-technologieën zou kunnen helpen, zou dit tegen astronomische kosten gaan. Projecties suggereren dat het bereiken van het Autonome Niveau voor algemene taken 10^{26} parameters zou vereisen. Om dit in perspectief te plaatsen: het laden van zo'n enorm model vereist zoveel H100 GPU's dat hun totale waarde 10^{7} keer de marktwaarde van Apple Inc. is. Zelfs met de Wet van Moore zou het ondersteunen van zo'n parameterschaal 70 jaar duren. Deze verbijsterende kosten benadrukken de complexiteit van menselijke taken en de tekortkomingen van huidige AI-technologieën. Om dit fenomeen verder te onderzoeken, voeren we een theoretische analyse uit van Survival Game en de experimentele resultaten. Onze bevindingen suggereren dat menselijke taken een kritieke eigenschap bezitten. Als gevolg hiervan vereist het Autonome Niveau een diep begrip van de onderliggende mechanismen van de taak. Huidige AI-systemen begrijpen deze mechanismen echter niet volledig en vertrouwen in plaats daarvan op oppervlakkige nabootsing, waardoor het moeilijk voor hen is om een autonoom niveau te bereiken. Wij geloven dat Survival Game niet alleen de toekomstige ontwikkeling van AI kan sturen, maar ook diepgaande inzichten kan bieden in menselijke intelligentie.

34

Instorting van Dichte Retrievers: Korte, Vroege en Letterlijke Vooroordelen die Feitelijk Bewijs Overtreffen
Collapse of Dense Retrievers: Short, Early, and Literal Biases Outranking Factual Evidence

Mar 6
ByMohsen Fayyaz, Ali Modarressi, Hinrich Schuetze, Nanyun Peng
4
2

Dichte retrievalsystemen worden vaak gebruikt in Informatie Retrieval (IR)-toepassingen, zoals Retrieval-Augmented Generation (RAG). Omdat ze meestal de eerste stap in deze systemen vormen, is hun robuustheid cruciaal om fouten te voorkomen. In dit werk ontwerpen we, door een dataset voor relatie-extractie (bijv. Re-DocRED) te hergebruiken, gecontroleerde experimenten om de impact van heuristische biases, zoals het bevoordelen van kortere documenten, in retrievers zoals Dragon+ en Contriever te kwantificeren. Onze bevindingen onthullen significante kwetsbaarheden: retrievers vertrouwen vaak op oppervlakkige patronen zoals het overmatig prioriteren van het begin van documenten, kortere documenten, herhaalde entiteiten en letterlijke overeenkomsten. Daarnaast negeren ze vaak of het document het antwoord op de query bevat, wat wijst op een gebrek aan diepgaand semantisch begrip. Opmerkelijk is dat wanneer meerdere biases zich combineren, modellen een catastrofale prestatievermindering vertonen, waarbij ze in minder dan 3% van de gevallen het document met het antwoord selecteren boven een bevooroordeeld document zonder het antwoord. Bovendien tonen we aan dat deze biases directe gevolgen hebben voor downstream-toepassingen zoals RAG, waarbij door de retriever geprefereerde documenten grote taalmodellen (LLMs) kunnen misleiden, wat resulteert in een prestatievermindering van 34% in vergelijking met het niet verstrekken van documenten.

35

Capaciteitsbewuste Inferentie: Het Verminderen van het Straggler-effect in Mixture of Experts
Capacity-Aware Inference: Mitigating the Straggler Effect in Mixture of Experts

Mar 7
ByShwai He, Weilin Cai, Jiayi Huang, Ang Li
4
2

Het Mixture of Experts (MoE) is een effectieve architectuur voor het schalen van grote taalmodelen door gebruik te maken van sparse expert-activering, waardoor de afweging tussen prestaties en efficiëntie wordt geoptimaliseerd. Echter, onder expert-parallelisme lijdt MoE aan inefficiënties tijdens inferentie als gevolg van een onbalans in token-to-expert-toewijzing, waarbij sommige experts overbelast zijn terwijl anderen onderbenut blijven. Deze onbalans leidt tot slechte resourcebenutting en verhoogde latentie, aangezien de meest belaste expert de totale vertraging bepaalt, een fenomeen dat we definiëren als het \textit{Straggler Effect}. Om dit te mitigeren, stellen we Capacity-Aware Inference voor, inclusief twee belangrijke technieken: (1) \textit{Capacity-Aware Token Drop}, die overbelaste tokens verwijdert om de maximale latentie van MoE te reguleren, en (2) \textit{Capacity-Aware Token Reroute}, die overbelaste tokens herverdeelt naar onderbenutte experts, waardoor de tokenverdeling wordt gebalanceerd. Deze technieken optimaliseren gezamenlijk zowel het gebruik van zwaar belaste als licht belaste experts, wat resulteert in een efficiëntere MoE-inferentiepijplijn. Uitgebreide experimenten tonen de effectiviteit van onze methoden aan, met significante verbeteringen in inferentie-efficiëntie, zoals een gemiddelde prestatieverbetering van 0,2\% en een inferentieversnelling van 1,94 keer op Mixtral-8x7B-Instruct.

36

QuoTA: Query-georiënteerde Token Toewijzing via CoT Query Ontkoppeling voor Langdurige Videocomprehensie
QuoTA: Query-oriented Token Assignment via CoT Query Decouple for Long Video Comprehension

Mar 11
ByYongdong Luo, Wang Chen, Xiawu Zheng, Weizhong Huang, Shukang Yin, Haojia Lin, Chaoyou Fu, Jinfa Huang, Jiayi Ji, Jiebo Luo, Rongrong Ji
4
2

Recente vooruitgang in het begrijpen van lange video's vermindert doorgaans visuele redundantie door visuele token pruning op basis van aandachtverdeling. Echter, hoewel bestaande methoden post-hoc pruning van tokens met lage respons in decoderlagen toepassen, negeren ze de semantische correlatie op invoerniveau tussen visuele tokens en instructies (query). In dit artikel stellen we QuoTA voor, een ante-hoc training-vrij module dat bestaande grote video-taalmodellen (LVLMs) uitbreidt voor visuele token toewijzing op basis van query-gerichte frame-level belangrijkheidsbeoordeling. De query-gerichte token selectie is cruciaal omdat het visuele verwerking afstemt op taakspecifieke vereisten, waardoor het tokenbudget optimaal wordt benut terwijl semantisch relevante inhoud behouden blijft. Specifiek (i) wijst QuoTA strategisch frame-level belangrijkheidsscores toe op basis van query relevantie, waardoor eenmalige visuele token toewijzing mogelijk is vóór cross-modale interacties in decoderlagen, (ii) ontkoppelen we de query via Chain-of-Thoughts redenering om nauwkeurigere LVLM-gebaseerde frame belangrijkheidsscores te faciliteren, en (iii) biedt QuoTA een plug-and-play functionaliteit die uitbreidt naar bestaande LVLMs. Uitgebreide experimentele resultaten tonen aan dat het implementeren van QuoTA met LLaVA-Video-7B een gemiddelde prestatieverbetering van 3,2% oplevert over zes benchmarks (inclusief Video-MME en MLVU) terwijl het opereert binnen een identiek visueel tokenbudget als de baseline. Codes zijn open-source beschikbaar op https://github.com/MAC-AutoML/QuoTA.

37

NullFace: Trainingsvrije gelokaliseerde gezichtsanonymisering
NullFace: Training-Free Localized Face Anonymization

Mar 11
ByHan-Wei Kung, Tuomas Varanka, Terence Sim, Nicu Sebe
2
2

Privacyzorgen rondom het steeds toenemende aantal camera's nemen toe in het huidige digitale tijdperk. Hoewel bestaande anonimiseringsmethoden in staat zijn om identiteitsinformatie te verbergen, hebben ze vaak moeite om de bruikbaarheid van de afbeeldingen te behouden. In dit werk introduceren we een trainingsvrije methode voor gezichtsanonymisering die belangrijke niet-identiteitsgerelateerde attributen behoudt. Onze aanpak maakt gebruik van een vooraf getraind tekst-naar-beeld diffusiemodel zonder optimalisatie of training te vereisen. Het begint met het inverteren van de invoerafbeelding om het initiële ruis te herstellen. De ruis wordt vervolgens gedenoised via een identiteitsgeconditioneerd diffusieproces, waarbij aangepaste identiteitsembeddingen ervoor zorgen dat het geanonimiseerde gezicht verschilt van de oorspronkelijke identiteit. Onze aanpak ondersteunt ook gelokaliseerde anonymisering, waardoor gebruikers controle hebben over welke gezichtsregio's worden geanonimiseerd of intact blijven. Uitgebreide evaluaties in vergelijking met state-of-the-art methoden laten zien dat onze aanpak uitblinkt in anonymisering, attribuutbehoud en beeldkwaliteit. De flexibiliteit, robuustheid en praktische bruikbaarheid maken het geschikt voor real-world toepassingen. Code en data zijn te vinden op https://github.com/hanweikung/nullface.

38

PlainQAFact: Automatische Evaluatiemetriek voor Feitelijkheid van Biomedische Samenvattingen in Eenvoudige Taal
PlainQAFact: Automatic Factuality Evaluation Metric for Biomedical Plain Language Summaries Generation

Mar 11
ByZhiwen You, Yue Guo
2
2

Hallucinaties in de uitvoer van taalmodellen vormen risico's in het medische domein, vooral voor leken die gezondheidsgerelateerde beslissingen nemen. Bestaande methoden voor feitelijkheidsevaluatie, zoals op entailment en vraag-antwoord (QA) gebaseerde methoden, worstelen met het genereren van samenvattingen in begrijpelijke taal (Plain Language Summary, PLS) vanwege het fenomeen van uitgebreide uitleg, waarbij externe inhoud (bijv. definities, achtergrondinformatie, voorbeelden) die niet in het brondocument voorkomt, wordt toegevoegd om het begrip te vergroten. Om dit aan te pakken, introduceren we PlainQAFact, een raamwerk getraind op een fijnmazige, door mensen geannoteerde dataset genaamd PlainFact, om de feitelijkheid van zowel vereenvoudigde als uitgebreid uitgelegde zinnen te evalueren. PlainQAFact classificeert eerst het type feitelijkheid en beoordeelt vervolgens de feitelijkheid met behulp van een op QA gebaseerde scoringsmethode die retrieval-augmented is. Onze aanpak is lichtgewicht en computationeel efficiënt. Empirische resultaten laten zien dat bestaande feitelijkheidsmetrieken niet effectief de feitelijkheid in PLS kunnen evalueren, vooral bij uitgebreide uitleg, terwijl PlainQAFact state-of-the-art prestaties behaalt. We analyseren verder de effectiviteit ervan over verschillende externe kennisbronnen, antwoordextractiestrategieën, overlapmaten en documentgranulariteitsniveaus, waardoor de algehele feitelijkheidsbeoordeling wordt verfijnd.

39

Ideeën uit Inference-time Scaling kunnen voordelen bieden voor generatieve voor-trainingsalgoritmen
Ideas in Inference-time Scaling can Benefit Generative Pre-training Algorithms

Mar 10
ByJiaming Song, Linqi Zhou
2
2

De afgelopen jaren hebben we aanzienlijke vooruitgang gezien in foundation models door generatieve voorafgaande training, maar de algoritmische innovatie op dit gebied is grotendeels gestagneerd rond autoregressieve modellen voor discrete signalen en diffusiemodellen voor continue signalen. Deze stagnatie creëert een knelpunt dat ons ervan weerhoudt het volledige potentieel van rijke multimodale data te benutten, wat op zijn beurt de vooruitgang op het gebied van multimodale intelligentie beperkt. Wij beargumenteren dat een inferentie-eerst perspectief, dat schaalbaarheidsefficiëntie tijdens inferentietijd over sequentielengte en verfijningsstappen prioriteert, nieuwe generatieve voorafgaande trainingsalgoritmen kan inspireren. Met Inductive Moment Matching (IMM) als concreet voorbeeld demonstreren we hoe het aanpakken van beperkingen in het inferentieproces van diffusiemodellen door gerichte aanpassingen resulteert in een stabiel, enkelstaps algoritme dat superieure samplekwaliteit bereikt met meer dan een orde van grootte hogere inferentie-efficiëntie.

40

OTTER: Een Vision-Language-Action Model met Tekstbewuste Visuele Feature Extractie
OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction

Mar 5
ByHuang Huang, Fangchen Liu, Letian Fu, Tingfan Wu, Mustafa Mukadam, Jitendra Malik, Ken Goldberg, Pieter Abbeel
1
2

Vision-Language-Action (VLA) modellen hebben als doel om robotacties te voorspellen op basis van visuele waarnemingen en taal instructies. Bestaande benaderingen vereisen het finetunen van vooraf getrainde vision-language modellen (VLMs), omdat visuele en taal kenmerken onafhankelijk worden ingevoerd in downstream beleidsfuncties, wat de vooraf getrainde semantische afstemmingen aantast. Wij stellen OTTER voor, een nieuwe VLA architectuur die gebruik maakt van deze bestaande afstemmingen door expliciete, tekstbewuste visuele kenmerk extractie. In plaats van alle visuele kenmerken te verwerken, selecteert en geeft OTTER alleen taakrelevante visuele kenmerken door die semantisch zijn afgestemd op de taal instructie aan de policy transformer. Hierdoor kan OTTER de vooraf getrainde vision-language encoders bevroren houden. Daardoor behoudt en benut OTTER het rijke semantische begrip dat is geleerd uit grootschalige voorafgaande training, wat sterke zero-shot generalisatie mogelijkheden mogelijk maakt. In simulaties en real-world experimenten presteert OTTER aanzienlijk beter dan bestaande VLA modellen, wat sterke zero-shot generalisatie naar nieuwe objecten en omgevingen aantoont. Video, code, checkpoints en dataset: https://ottervla.github.io/.

Mar 11
Mar 12
Mar 13