HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

31 papers found

Qwen2.5-VL Technisch Rapport
Qwen2.5-VL Technical Report

Feb 19

ByShuai Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Sibo Song, Kai Dang, Peng Wang, Shijie Wang, Jun Tang, Humen Zhong, Yuanzhi Zhu, Mingkun Yang, Zhaohai Li, Jianqiang Wan, Pengfei Wang, Wei Ding, Zheren Fu, Yiheng Xu, Jiabo Ye, Xi Zhang, Tianbao Xie, Zesen Cheng, Hang Zhang, Zhibo Yang, Haiyang Xu, Junyang Lin

206

We introduceren Qwen2.5-VL, het nieuwste vlaggenschipmodel van de Qwen vision-language serie, dat aanzienlijke vooruitgang boekt in zowel fundamentele mogelijkheden als innovatieve functionaliteiten. Qwen2.5-VL maakt een grote sprong voorwaarts in het begrijpen en interacteren met de wereld door verbeterde visuele herkenning, nauwkeurige objectlokalisatie, robuuste documentparsing en langdurige videocomprehensie. Een opvallende eigenschap van Qwen2.5-VL is zijn vermogen om objecten nauwkeurig te lokaliseren met behulp van bounding boxes of punten. Het biedt robuuste gestructureerde data-extractie van facturen, formulieren en tabellen, evenals gedetailleerde analyse van grafieken, diagrammen en lay-outs. Om complexe inputs te verwerken, introduceert Qwen2.5-VL dynamische resolutieverwerking en absolute tijdcodering, waardoor het beelden van verschillende formaten en video's van langere duur (tot uren) kan verwerken met secondenprecieze gebeurtenislokalisatie. Hierdoor kan het model ruimtelijke schalen en temporele dynamiek intrinsiek waarnemen zonder te vertrouwen op traditionele normalisatietechnieken. Door een native dynamische-resolutie Vision Transformer (ViT) vanaf nul te trainen en Window Attention te integreren, verminderen we de rekenkosten terwijl de native resolutie behouden blijft. Als resultaat blinkt Qwen2.5-VL niet alleen uit in statische beeld- en documentbegrip, maar ook als een interactieve visuele agent die in staat is tot redeneren, gereedschapsgebruik en taakuitvoering in real-world scenario's zoals het bedienen van computers en mobiele apparaten. Qwen2.5-VL is beschikbaar in drie formaten, die diverse use cases adresseren van edge AI tot high-performance computing. Het vlaggenschipmodel Qwen2.5-VL-72B kan wedijveren met state-of-the-art modellen zoals GPT-4o en Claude 3.5 Sonnet, met name uitblinkend in document- en diagrambegrip. Daarnaast behoudt Qwen2.5-VL een robuuste linguïstische prestaties, waarbij de kern taalvaardigheden van de Qwen2.5 LLM behouden blijven.

Over de Betrouwbaarheid van Generatieve Fundamentele Modellen: Richtlijn, Evaluatie en Perspectief
On the Trustworthiness of Generative Foundation Models: Guideline, Assessment, and Perspective

Feb 20

ByYue Huang, Chujie Gao, Siyuan Wu, Haoran Wang, Xiangqi Wang, Yujun Zhou, Yanbo Wang, Jiayi Ye, Jiawen Shi, Qihui Zhang, Yuan Li, Han Bao, Zhaoyi Liu, Tianrui Guan, Dongping Chen, Ruoxi Chen, Kehan Guo, Andy Zou, Bryan Hooi Kuen-Yew, Caiming Xiong, Elias Stengel-Eskin, Hongyang Zhang, Hongzhi Yin, Huan Zhang, Huaxiu Yao, Jaehong Yoon, Jieyu Zhang, Kai Shu, Kaijie Zhu, Ranjay Krishna, Swabha Swayamdipta, Taiwei Shi, Weijia Shi, Xiang Li, Yiwei Li, Yuexing Hao, Yuexing Hao, Zhihao Jia, Zhize Li, Xiuying Chen, Zhengzhong Tu, Xiyang Hu, Tianyi Zhou, Jieyu Zhao, Lichao Sun, Furong Huang, Or Cohen Sasson, Prasanna Sattigeri, Anka Reuel, Max Lamparth, Yue Zhao, Nouha Dziri, Yu Su, Huan Sun, Heng Ji, Chaowei Xiao, Mohit Bansal, Nitesh V. Chawla, Jian Pei, Jianfeng Gao, Michael Backes, Philip S. Yu, Neil Zhenqiang Gong, Pin-Yu Chen, Bo Li, Xiangliang Zhang

Generatieve Foundation Models (GenFMs) zijn opgekomen als transformerende tools. Hun brede adoptie roept echter kritieke zorgen op over betrouwbaarheid op verschillende dimensies. Dit artikel presenteert een uitgebreid raamwerk om deze uitdagingen aan te pakken via drie belangrijke bijdragen. Ten eerste voeren we een systematische review uit van wereldwijde AI-governancewetten en -beleid van overheden en regelgevende instanties, evenals industriële praktijken en standaarden. Op basis van deze analyse stellen we een reeks leidende principes voor GenFMs voor, ontwikkeld door uitgebreide multidisciplinaire samenwerking die technische, ethische, juridische en maatschappelijke perspectieven integreert. Ten tweede introduceren we TrustGen, het eerste dynamische benchmarkplatform ontworpen om betrouwbaarheid te evalueren over meerdere dimensies en modeltypen, waaronder tekst-naar-beeld, grote taal- en visie-taalmodellen. TrustGen maakt gebruik van modulaire componenten—metadata-curatie, testcasegeneratie en contextuele variatie—om adaptieve en iteratieve beoordelingen mogelijk te maken, waardoor de beperkingen van statische evaluatiemethoden worden overwonnen. Met TrustGen onthullen we significante vooruitgang in betrouwbaarheid, terwijl we aanhoudende uitdagingen identificeren. Tot slot bieden we een diepgaande discussie van de uitdagingen en toekomstige richtingen voor betrouwbare GenFMs, die de complexe, evoluerende aard van betrouwbaarheid onthult, waarbij de genuanceerde afwegingen tussen nut en betrouwbaarheid worden belicht, en rekening wordt gehouden met verschillende downstream-toepassingen, waarbij aanhoudende uitdagingen worden geïdentificeerd en een strategische routekaart voor toekomstig onderzoek wordt geboden. Dit werk stelt een holistisch raamwerk vast voor het bevorderen van betrouwbaarheid in GenAI, en baant de weg voor een veiligere en verantwoordelijkere integratie van GenFMs in kritieke toepassingen. Om vooruitgang in de gemeenschap te faciliteren, geven we de toolkit voor dynamische evaluatie vrij.

SongGen: Een Enkelfase Auto-regressieve Transformer voor Tekst-naar-Lied Generatie
SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation

Feb 18

ByZihan Liu, Shuangrui Ding, Zhixiong Zhang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

Text-to-song-generatie, de taak om vocalen en begeleiding te creëren vanuit tekstuele invoer, brengt aanzienlijke uitdagingen met zich mee vanwege de complexiteit van het domein en de schaarste aan data. Bestaande benaderingen maken vaak gebruik van meerfasige generatieprocedures, wat resulteert in omslachtige trainings- en inferentiepijplijnen. In dit artikel stellen we SongGen voor, een volledig open-source, enkelfasig auto-regressief transformer-model ontworpen voor controleerbare songgeneratie. Het voorgestelde model maakt fijnmazige controle mogelijk over diverse muzikale attributen, waaronder songteksten en tekstuele beschrijvingen van instrumentatie, genre, stemming en timbre, terwijl het ook een optionele drie seconden durende referentieclip biedt voor stemklonen. Binnen een geünificeerd auto-regressief raamwerk ondersteunt SongGen twee uitvoermodi: de gemengde modus, die direct een mix van vocalen en begeleiding genereert, en de dual-track modus, die ze afzonderlijk synthetiseert voor meer flexibiliteit in downstream-toepassingen. We onderzoeken diverse tokenpatroonstrategieën voor elke modus, wat leidt tot opmerkelijke verbeteringen en waardevolle inzichten. Daarnaast ontwerpen we een geautomatiseerde data-preprocessingpijplijn met effectieve kwaliteitscontrole. Om gemeenschapsbetrokkenheid en toekomstig onderzoek te bevorderen, zullen we onze modelgewichten, trainingscode, geannoteerde data en preprocessingpijplijn vrijgeven. De gegenereerde voorbeelden worden getoond op onze projectpagina op https://liuzh-19.github.io/SongGen/, en de code zal beschikbaar zijn op https://github.com/LiuZH-19/SongGen.

MMTEB: Massieve Meertalige Tekst Embedding Benchmark
MMTEB: Massive Multilingual Text Embedding Benchmark

Feb 19

ByKenneth Enevoldsen, Isaac Chung, Imene Kerboua, Márton Kardos, Ashwin Mathur, David Stap, Jay Gala, Wissam Siblini, Dominik Krzemiński, Genta Indra Winata, Saba Sturua, Saiteja Utpala, Mathieu Ciancone, Marion Schaeffer, Gabriel Sequeira, Diganta Misra, Shreeya Dhakal, Jonathan Rystrøm, Roman Solomatin, Ömer Çağatan, Akash Kundu, Martin Bernstorff, Shitao Xiao, Akshita Sukhlecha, Bhavish Pahwa, Rafał Poświata, Kranthi Kiran GV, Shawon Ashraf, Daniel Auras, Björn Plüster, Jan Philipp Harries, Loïc Magne, Isabelle Mohr, Mariya Hendriksen, Dawei Zhu, Hippolyte Gisserot-Boukhlef, Tom Aarsen, Jan Kostkan, Konrad Wojtasik, Taemin Lee, Marek Šuppa, Crystina Zhang, Roberta Rocca, Mohammed Hamdy, Andrianos Michail, John Yang, Manuel Faysse, Aleksei Vatolin, Nandan Thakur, Manan Dey, Dipam Vasani, Pranjal Chitale, Simone Tedeschi, Nguyen Tai, Artem Snegirev, Michael Günther, Mengzhou Xia, Weijia Shi, Xing Han Lù, Jordan Clive, Gayatri Krishnakumar, Anna Maksimova, Silvan Wehrli, Maria Tikhonova, Henil Panchal, Aleksandr Abramov, Malte Ostendorff, Zheng Liu, Simon Clematide, Lester James Miranda, Alena Fenogenova, Guangyu Song, Ruqiya Bin Safi, Wen-Ding Li, Alessia Borghini, Federico Cassano, Hongjin Su, Jimmy Lin, Howard Yen, Lasse Hansen, Sara Hooker, Chenghao Xiao, Vaibhav Adlakha, Orion Weller, Siva Reddy, Niklas Muennighoff

Tekst-embeddingen worden doorgaans geëvalueerd op een beperkte set taken, die worden beperkt door taal, domein en taakdiversiteit. Om deze beperkingen aan te pakken en een uitgebreidere evaluatie te bieden, introduceren we de Massive Multilingual Text Embedding Benchmark (MMTEB) - een grootschalige, door de gemeenschap gedreven uitbreiding van MTEB, die meer dan 500 kwaliteitsgecontroleerde evaluatietaken omvat in meer dan 250 talen. MMTEB omvat een diverse set uitdagende, nieuwe taken zoals het volgen van instructies, het ophalen van lange documenten en het ophalen van code, en vertegenwoordigt de grootste meertalige verzameling evaluatietaken voor embeddingmodellen tot op heden. Met behulp van deze verzameling ontwikkelen we verschillende sterk meertalige benchmarks, die we gebruiken om een representatieve set modellen te evalueren. We constateren dat grote taalmmodellen (LLM's) met miljarden parameters state-of-the-art prestaties kunnen behalen op bepaalde taalsubsets en taakcategorieën, maar dat het best presterende publiek beschikbare model multilingual-e5-large-instruct is met slechts 560 miljoen parameters. Om de toegankelijkheid te vergroten en de rekenkosten te verlagen, introduceren we een nieuwe downsampling-methode gebaseerd op inter-taakcorrelatie, die zorgt voor een diverse selectie terwijl de relatieve modelrangschikking behouden blijft. Bovendien optimaliseren we taken zoals het ophalen van informatie door harde negatieven te bemonsteren, waardoor kleinere maar effectieve splits ontstaan. Deze optimalisaties stellen ons in staat benchmarks te introduceren die de rekenkosten drastisch verlagen. Zo behoudt onze nieuw geïntroduceerde zero-shot Engelse benchmark een vergelijkbare rangschikking als de volledige versie, maar tegen een fractie van de rekenkosten.

Kleine modellen hebben moeite om te leren van sterke redeneerders.
Small Models Struggle to Learn from Strong Reasoners

Feb 17

ByYuetai Li, Xiang Yue, Zhangchen Xu, Fengqing Jiang, Luyao Niu, Bill Yuchen Lin, Bhaskar Ramasubramanian, Radha Poovendran

Grote taalmodellen (LLMs) blinken uit in complexe redeneertaken, en het destilleren van hun redeneervermogen in kleinere modellen heeft veelbelovende resultaten opgeleverd. Wij hebben echter een interessant fenomeen ontdekt, dat we de 'Small Model Learnability Gap' noemen: kleine modellen (≤3B parameters) profiteren niet consistent van lange ketens van redeneringen (chain-of-thought, CoT) of destillatie van grotere modellen. In plaats daarvan presteren ze beter wanneer ze worden afgestemd op kortere, eenvoudigere redeneerketens die beter aansluiten bij hun intrinsieke leervermogen. Om dit aan te pakken, stellen we Mix Distillation voor, een eenvoudige maar effectieve strategie die de complexiteit van redeneringen in balans brengt door lange en korte CoT-voorbeelden te combineren, of redeneringen van zowel grotere als kleinere modellen. Onze experimenten tonen aan dat Mix Distillation de redeneerprestaties van kleine modellen aanzienlijk verbetert in vergelijking met training op slechts één type data. Deze bevindingen benadrukken de beperkingen van directe destillatie van sterke modellen en onderstrepen het belang van het aanpassen van de complexiteit van redeneringen voor een effectieve overdracht van redeneervermogen.

RAD: Het trainen van een end-to-end rijbeleid via grootschalige 3DGS-gebaseerde reinforcement learning
RAD: Training an End-to-End Driving Policy via Large-Scale 3DGS-based Reinforcement Learning

Feb 18

ByHao Gao, Shaoyu Chen, Bo Jiang, Bencheng Liao, Yiang Shi, Xiaoyang Guo, Yuechuan Pu, Haoran Yin, Xiangyu Li, Xinbang Zhang, Ying Zhang, Wenyu Liu, Qian Zhang, Xinggang Wang

Bestaande end-to-end algoritmen voor autonoom rijden (AD) volgen doorgaans het Imitation Learning (IL) paradigma, dat uitdagingen kent zoals causale verwarring en de open-loop kloof. In dit werk stellen we een 3DGS-gebaseerd closed-loop Reinforcement Learning (RL) trainingsparadigma op. Door gebruik te maken van 3DGS-technieken construeren we een fotorealistische digitale replica van de echte fysieke wereld, waardoor het AD-beleid uitgebreid de toestandsruimte kan verkennen en kan leren omgaan met out-of-distribution scenario's door middel van grootschalige trial en error. Om de veiligheid te vergroten, ontwerpen we gespecialiseerde beloningen die het beleid begeleiden om effectief te reageren op veiligheidskritieke gebeurtenissen en om causale relaties in de echte wereld te begrijpen. Voor een betere afstemming op menselijk rijgedrag wordt IL geïntegreerd in de RL-training als een regularisatieterm. We introduceren een closed-loop evaluatiebenchmark bestaande uit diverse, voorheen onbekende 3DGS-omgevingen. In vergelijking met IL-gebaseerde methoden behaalt RAD betere prestaties op de meeste closed-loop metrieken, met name een 3x lagere botsingsfrequentie. Uitgebreide closed-loop resultaten zijn te vinden op https://hgao-cv.github.io/RAD.

MoM: Lineaire Sequentiële Modellering met Mixture-of-Memories
MoM: Linear Sequence Modeling with Mixture-of-Memories

Feb 19

ByJusen Du, Weigao Sun, Disen Lan, Jiaxi Hu, Yu Cheng

Lineaire sequentiemodelleringsmethoden, zoals lineaire aandacht, toestandsruimtemodellering en lineaire RNN's, bieden aanzienlijke efficiëntieverbeteringen door de complexiteit van training en inferentie te verminderen. Deze methoden comprimeren echter doorgaans de volledige invoerreeks in een enkele vaste geheugenstatus, wat leidt tot suboptimale prestaties bij recall-intensieve downstreamtaken. Geïnspireerd door neurowetenschappen, met name het vermogen van de hersenen om robuust langetermijngeheugen te behouden terwijl "geheugeninterferentie" wordt geminimaliseerd, introduceren we een nieuwe architectuur genaamd Mixture-of-Memories (MoM). MoM maakt gebruik van meerdere onafhankelijke geheugenstatussen, waarbij een routeringsnetwerk invoertokens naar specifieke geheugenstatussen leidt. Deze aanpak verbetert de algehele geheugencapaciteit aanzienlijk en minimaliseert tegelijkertijd geheugeninterferentie. Als gevolg presteert MoM uitstekend bij recall-intensieve taken en overtreft het bestaande lineaire sequentiemodelleringsmethoden. Ondanks het gebruik van meerdere geheugenstatussen blijft de berekening van elke geheugenstatus lineair in complexiteit, waardoor MoM het voordeel van lineaire complexiteit tijdens de training behoudt, terwijl het tijdens de inferentie constant in complexiteit blijft. Onze experimentele resultaten tonen aan dat MoM huidige lineaire sequentiemodellen aanzienlijk overtreft bij downstreamtaaltaken, met name recall-intensieve taken, en zelfs prestaties bereikt die vergelijkbaar zijn met Transformer-modellen. De code is vrijgegeven op https://github.com/OpenSparseLLMs/MoM en maakt ook deel uit van https://github.com/OpenSparseLLMs/Linear-MoE.

Craw4LLM: Efficiënt webcrawlen voor LLM-pretraining
Craw4LLM: Efficient Web Crawling for LLM Pretraining

Feb 19

ByShi Yu, Zhiyuan Liu, Chenyan Xiong

Webcrawling is een belangrijke bron van vooraf getrainde data voor grote taalmodellen (LLMs), maar het merendeel van de gecrawlde webpagina's wordt tijdens het vooraf trainen weggegooid vanwege lage data-kwaliteit. Dit artikel presenteert Crawl4LLM, een efficiënte webcrawling-methode die het webgrafiek verkent op basis van de voorkeuren van LLM-vooraf training. Specifiek maakt het gebruik van de invloed van een webpagina in LLM-vooraf training als de prioriteitsscore van de scheduler van de webcrawler, wat de standaard prioriteit op basis van grafiekconnectiviteit vervangt. Onze experimenten op een webgrafiek met 900 miljoen webpagina's uit de index van een commerciële zoekmachine tonen de efficiëntie van Crawl4LLM aan in het verkrijgen van hoogwaardige vooraf getrainde data. Met slechts 21% van de URL's gecrawld, bereiken LLMs die zijn vooraf getraind op Crawl4LLM-data dezelfde downstream-prestaties als eerdere crawls, wat de verspilling bij het crawlen aanzienlijk vermindert en de belasting op websites verlicht. Onze code is openbaar beschikbaar op https://github.com/cxcscmu/Crawl4LLM.

LongPO: Zelfevolutie van Large Language Models met Lange Contexten via Kort-naar-Lang Voorkeursoptimalisatie
LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Feb 19

ByGuanzheng Chen, Xin Li, Michael Qizhe Shieh, Lidong Bing

Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond door middel van voorafgaande training en afstemming. Superieure LLMs met korte context kunnen echter onderpresteren in scenario's met lange context vanwege onvoldoende afstemming op lange context. Dit afstemmingsproces blijft uitdagend vanwege de onpraktische aard van menselijke annotatie voor uitgebreide contexten en de moeilijkheid om prestaties op korte en lange context in balans te brengen. Om deze uitdagingen aan te pakken, introduceren we LongPO, dat LLMs met korte context in staat stelt om zichzelf te ontwikkelen en uit te blinken in taken met lange context door intern capaciteiten van korte context over te dragen. LongPO benut LLMs om te leren van zelf gegenereerde voorkeursgegevens van kort naar lang, bestaande uit gepaarde reacties gegenereerd voor identieke instructies met lange context inputs en hun gecomprimeerde tegenhangers met korte context. Deze voorkeur onthult capaciteiten en potenties van LLMs die zijn ontwikkeld tijdens afstemming op korte context, maar die mogelijk verminderd zijn in onder-afgestemde scenario's met lange context. Daarnaast integreert LongPO een KL-beperking van kort naar lang om prestatieverlies op korte context te beperken tijdens afstemming op lange context. Wanneer toegepast op Mistral-7B-Instruct-v0.2 van 128K tot 512K contextlengtes, behoudt LongPO volledig de prestaties op korte context en overtreft het aanzienlijk naïeve SFT en DPO in zowel lange als korte context taken. Specifiek kunnen met \ourMethod getrainde modellen resultaten behalen op benchmarks voor lange context die vergelijkbaar zijn met, of zelfs beter dan, die van superieure LLMs (bijv. GPT-4-128K) die uitgebreide annotatie van lange context en grotere parameterschalen omvatten.

Autellix: Een efficiënte serveringsengine voor LLM-agents als algemene programma's
Autellix: An Efficient Serving Engine for LLM Agents as General Programs

Feb 19

ByMichael Luo, Xiaoxiang Shi, Colin Cai, Tianjun Zhang, Justin Wong, Yichuan Wang, Chi Wang, Yanping Huang, Zhifeng Chen, Joseph E. Gonzalez, Ion Stoica

Grootschalige taalmodel (LLM) applicaties ontwikkelen zich verder dan eenvoudige chatbots naar dynamische, algemene agentische programma's, die LLM-aanroepen en uitvoertokens schalen om AI-agenten te helpen redeneren, verkennen en complexe taken op te lossen. Echter negeren bestaande LLM-serversystemen de afhankelijkheden tussen programma's en aanroepen, waardoor significante optimalisatiemogelijkheden worden gemist. Onze analyse toont aan dat programma's die worden ingediend bij LLM-serversystemen lange cumulatieve wachttijden ervaren, voornamelijk door head-of-line blocking op zowel het niveau van individuele LLM-aanvragen als het programma. Om dit aan te pakken introduceren we Autellix, een LLM-serversysteem dat programma's als eersteklas burgers behandelt om hun end-to-end latenties te minimaliseren. Autellix onderschept LLM-aanroepen die door programma's worden ingediend en verrijkt planners met context op programmaniveau. We stellen twee planningsalgoritmen voor - voor single-threaded en gedistribueerde programma's - die LLM-aanroepen onderbreken en prioriteren op basis van eerder voltooide aanroepen van hun programma's. Onze evaluatie toont aan dat Autellix, over diverse LLM's en agentische workloads, de doorvoer van programma's met 4-15x verbetert bij dezelfde latentie vergeleken met state-of-the-art systemen, zoals vLLM.

Denkvoorkeuren Optimalisatie
Thinking Preference Optimization

Feb 17

ByWang Yang, Hongye Jin, Jingfeng Yang, Vipin Chaudhary, Xiaotian Han

Supervised Fine-Tuning (SFT) is een bewezen en effectieve methode om langere ketens van redeneringen (Chain-of-Thought, CoT) te verbeteren in relatief kleine taalmodelen (LLMs) door ze te fine-tunen met lange CoT-antwoorden van grotere LLMs. Om de redeneervaardigheden voortdurend te verbeteren, kunnen we ofwel nieuwe hoogwaardige lange CoT SFT-gegevens verzamelen, of herhaaldelijk trainen op bestaande SFT-datasets. Het verkrijgen van nieuwe lange CoT SFT-gegevens is echter kostbaar en beperkt, terwijl herhaalde training vaak leidt tot een prestatieplateau of -afname. Om de prestaties met de SFT-gegevens verder te verbeteren, stellen we Thinking Preference Optimization (ThinkPO) voor, een eenvoudige maar effectieve post-SFT-methode die lange CoT-redeneringen verbetert zonder nieuwe lange CoT-antwoorden te vereisen. In plaats daarvan maakt ThinkPO gebruik van gemakkelijk beschikbare of eenvoudig te verkrijgen korte CoT-redeneringen als afgewezen antwoorden en lange CoT-antwoorden als gekozen antwoorden voor dezelfde vraag. Vervolgens past het directe voorkeursoptimalisatie toe om het model aan te moedigen langere redeneeruitkomsten te prefereren. Experimenten tonen aan dat ThinkPO de redeneerprestaties van SFT-getrainde modellen verder verbetert, bijvoorbeeld door de nauwkeurigheid van wiskundig redeneren van SFT-getrainde modellen met 8,6% te verhogen en de uitvoerlengte met 25,9%. Opmerkelijk is dat ThinkPO in staat is om de prestaties van het openbaar gedistilleerde SFT-model voortdurend te verbeteren, bijvoorbeeld door de prestaties van het officiële DeepSeek-R1-Distill-Qwen-7B-model op MATH500 te verhogen van 87,4% naar 91,2%.

SearchRAG: Kunnen zoekmachines nuttig zijn voor LLM-gebaseerd medisch vraagbeantwoorden?
SearchRAG: Can Search Engines Be Helpful for LLM-based Medical Question Answering?

Feb 18

ByYucheng Shi, Tianze Yang, Canyu Chen, Quanzheng Li, Tianming Liu, Xiang Li, Ninghao Liu

Grote Taalmodellen (LLMs) hebben opmerkelijke capaciteiten getoond in algemene domeinen, maar hebben vaak moeite met taken die gespecialiseerde kennis vereisen. Conventionele Retrieval-Augmented Generation (RAG)-technieken halen doorgaans externe informatie uit statische kennisbanken, die verouderd of incompleet kunnen zijn, waardoor fijnmazige klinische details die essentieel zijn voor nauwkeurige medische vraagbeantwoording, ontbreken. In dit werk stellen we SearchRAG voor, een nieuw raamwerk dat deze beperkingen overwint door gebruik te maken van real-time zoekmachines. Onze methode maakt gebruik van synthetische querygeneratie om complexe medische vragen om te zetten in zoekmachinevriendelijke queries en benut onzekerheidsgebaseerde kennisselectie om de meest relevante en informatieve medische kennis te filteren en op te nemen in de input van het LLM. Experimentele resultaten tonen aan dat onze methode de nauwkeurigheid van antwoorden in medische vraagbeantwoordings taken aanzienlijk verbetert, met name voor complexe vragen die gedetailleerde en actuele kennis vereisen.

Train Small, Infer Large: Geheugenefficiënte LoRA-training voor grote taalmodelle
Train Small, Infer Large: Memory-Efficient LoRA Training for Large Language Models

Feb 19

ByJun Zhang, Jue Wang, Huan Li, Lidan Shou, Ke Chen, Yang You, Guiming Xie, Xuejian Gong, Kunlong Zhou

Grote Taalmodellen (LLMs) hebben natuurlijke taalverwerking aanzienlijk vooruitgebracht met uitzonderlijke mogelijkheden voor taakgeneralisatie. Low-Rank Adaption (LoRA) biedt een kosteneffectieve oplossing voor fine-tuning, waarbij de oorspronkelijke modelparameters worden bevroren en alleen lichtgewicht, laag-rang adaptermatrices worden getraind. Het geheugengebruik van LoRA wordt echter grotendeels bepaald door de oorspronkelijke modelparameters. Om dit te verlichten, stellen we LoRAM voor, een geheugenefficiënt LoRA-trainingsschema dat gebaseerd is op de intuïtie dat veel neuronen in overgeparameteriseerde LLMs een lage trainingsnut hebben, maar essentieel zijn voor inferentie. LoRAM introduceert een unieke draai: het traint op een gepruned (klein) model om geprunede laag-rang matrices te verkrijgen, die vervolgens worden hersteld en gebruikt met het oorspronkelijke (grote) model voor inferentie. Daarnaast minimaliseert een minimaal kostbare voortdurende pre-training, uitgevoerd door de modeluitgevers van tevoren, de kennisdiscrepantie tussen geprunede en oorspronkelijke modellen. Onze uitgebreide experimenten tonen de effectiviteit van LoRAM aan over verschillende pruningstrategieën en downstreamtaken. Voor een model met 70 miljard parameters maakt LoRAM training mogelijk op een GPU met slechts 20G HBM, waardoor een A100-80G GPU voor LoRA-training en 15 GPU's voor volledige fine-tuning worden vervangen. Specifiek reduceert QLoRAM, geïmplementeerd door gestructureerde pruning gecombineerd met 4-bit kwantisatie, voor LLaMA-3.1-70B (LLaMA-2-70B), de parameteropslagkosten die het geheugengebruik domineren in laag-rang matrixtraining met 15,81 keer (16,95 keer), terwijl het dominante prestatieverbeteringen behaalt ten opzichte van zowel de oorspronkelijke LLaMA-3.1-70B (LLaMA-2-70B) als LoRA-getrainde LLaMA-3.1-8B (LLaMA-2-13B).

Veronderstelde Culturele Identiteit: Hoe Namen de Reacties van LLM's Vormgeven
Presumed Cultural Identity: How Names Shape LLM Responses

Feb 17

BySiddhesh Pawar, Arnav Arora, Lucie-Aimée Kaffee, Isabelle Augenstein

Namen zijn sterk verbonden met de menselijke identiteit. Ze kunnen dienen als markers van individualiteit, cultureel erfgoed en persoonlijke geschiedenis. Het gebruik van namen als een kernindicator van identiteit kan echter leiden tot een te simplistische weergave van complexe identiteiten. Bij interactie met LLM's (Large Language Models) vormen gebruikersnamen een belangrijk informatiepunt voor personalisatie. Namen kunnen in chatbotgesprekken terechtkomen via directe gebruikersinvoer (gevraagd door chatbots), als onderdeel van taakcontexten zoals CV-beoordelingen, of als ingebouwde geheugenfuncties die gebruikersinformatie opslaan voor personalisatie. Wij bestuderen vooroordelen die aan namen zijn verbonden door culturele aannames te meten in de reacties die door LLM's worden gegenereerd wanneer ze worden gepresenteerd met veelvoorkomende vragen om suggesties, waarbij mogelijk aannames over de gebruiker worden gemaakt. Onze analyses tonen sterke aannames over culturele identiteit die aan namen zijn verbonden in de generaties van LLM's, over meerdere culturen heen. Ons werk heeft implicaties voor het ontwerpen van genuanceerdere personalisatiesystemen die stereotypering vermijden, terwijl ze zinvolle maatwerk blijven bieden.

Waarom beschermde schepen aan de grond lopen? Veiligheidsmechanismen van uitgelijnde grote taalmodellen hebben de neiging verankerd te zijn in het sjabloongebied.
Why Safeguarded Ships Run Aground? Aligned Large Language Models' Safety Mechanisms Tend to Be Anchored in The Template Region

Feb 19

ByChak Tou Leong, Qingyu Yin, Jian Wang, Wenjie Li

De veiligheidsafstemming van grote taalmodellen (LLM's) blijft kwetsbaar, aangezien hun initiële gedrag eenvoudig kan worden omzeild door zelfs relatief eenvoudige aanvallen. Omdat het invullen van een vaste sjabloon tussen de invoerinstructie en de initiële modeluitvoer een gangbare praktijk is voor bestaande LLM's, stellen we de hypothese dat deze sjabloon een sleutelfactor is achter hun kwetsbaarheden: de veiligheidsgerichte besluitvorming van LLM's is te sterk afhankelijk van de geaggregeerde informatie uit het sjabloongebied, wat het veiligheidsgedrag van deze modellen sterk beïnvloedt. We verwijzen naar dit probleem als sjabloonverankerde veiligheidsafstemming. In dit artikel voeren we uitgebreide experimenten uit en bevestigen we dat sjabloonverankerde veiligheidsafstemming wijdverspreid is onder verschillende afgestemde LLM's. Onze mechanistische analyses tonen aan hoe dit leidt tot de vatbaarheid van modellen bij het tegenkomen van omzeilingsaanvallen tijdens de inferentie. Bovendien laten we zien dat het loskoppelen van veiligheidsmechanismen van het sjabloongebied veelbelovend is om de kwetsbaarheid voor omzeilingsaanvallen te verminderen. We moedigen toekomstig onderzoek aan om robuustere technieken voor veiligheidsafstemming te ontwikkelen die minder afhankelijk zijn van het sjabloongebied.

InfiR: Het Ontwikkelen van Effectieve Kleine Taalmodellen en Multimodale Kleine Taalmodellen voor Redeneren
InfiR : Crafting Effective Small Language Models and Multimodal Small Language Models in Reasoning

Feb 17

ByCongkai Xie, Shuo Cai, Wenjun Wang, Pengxiang Li, Zhijie Sang, Kejing Yang, Yiming Zhang, Zhen Li, Guanghao Zhu, Zeyu Liu, Yang Yu, Yuhang Liu, Su Lu, Baoyi He, Qi Zhou, Xiaotian Han, Jianbo Yuan, Shengyu Zhang, Fei Wu, Hongxia Yang

Grote Taalmodellen (LLM's) en Multimodale Grote Taalmodellen (MLLM's) hebben aanzienlijke vooruitgang geboekt in redeneervaardigheden. Ze kampen echter nog steeds met uitdagingen zoals hoge rekenkundige eisen en privacyzorgen. Dit artikel richt zich op de ontwikkeling van efficiënte Kleine Taalmodellen (SLM's) en Multimodale Kleine Taalmodellen (MSLM's) die competitieve redeneervaardigheden behouden. We introduceren een nieuwe trainingspijplijn die de redeneervaardigheden verbetert en de implementatie op edge-apparaten vergemakkelijkt, waarbij state-of-the-art prestaties worden behaald en de ontwikkelingskosten worden geminimaliseerd. \InfR~ streeft ernaar AI-systemen te verbeteren door de redeneervaardigheden te versterken, adoptiebarrières te verlagen en privacyzorgen aan te pakken door middel van kleinere modelgroottes. Bronnen zijn beschikbaar op https://github.com/Reallm-Labs/InfiR.

AdaptiveStep: Automatisch Verdelen van Redeneerstappen op Basis van Modelvertrouwen
AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence

Feb 19

ByYuliang Liu, Junjie Lu, Zhaoling Chen, Chaofeng Qu, Jason Klein Liu, Chonghan Liu, Zefan Cai, Yunhui Xia, Li Zhao, Jiang Bian, Chuheng Zhang, Wei Shen, Zhouhan Lin

Huidige benaderingen voor het trainen van Process Reward Models (PRM's) omvatten vaak het opdelen van reacties in meerdere redeneerstappen met behulp van op regels gebaseerde technieken, zoals het gebruik van vooraf gedefinieerde placeholder-tokens of het vaststellen van de lengte van de redeneerstap in een vaste grootte. Deze benaderingen negeren het feit dat specifieke woorden doorgaans geen echte beslissingspunten in een tekst markeren. Om dit aan te pakken, stellen we AdaptiveStep voor, een methode die redeneerstappen verdeelt op basis van het vertrouwen van het model in het voorspellen van het volgende woord. Deze verdeelmethode biedt meer beslissingsinformatie bij elke stap, wat downstream taken, zoals het leren van beloningsmodellen, verbetert. Bovendien vereist onze methode geen handmatige annotatie. We demonstreren de effectiviteit ervan door experimenten met AdaptiveStep-getrainde PRM's in wiskundige redeneer- en codegeneratietaken. Experimentele resultaten tonen aan dat de resulterende PRM state-of-the-art Best-of-N prestaties behaalt, waarbij de gretige zoekstrategie met token-level waardegeleide decodering wordt overtroffen, terwijl ook de constructiekosten met meer dan 30% worden verlaagd in vergelijking met bestaande open-source PRM's. Daarnaast bieden we een grondige analyse en een casestudy over de prestaties, overdraagbaarheid en generalisatiecapaciteiten van de PRM.

AIDE: AI-gestuurde verkenning in de ruimte van code
AIDE: AI-Driven Exploration in the Space of Code

Feb 18

ByZhengyao Jiang, Dominik Schmidt, Dhruv Srikanth, Dixing Xu, Ian Kaplan, Deniss Jacenko, Yuxiang Wu

Machine learning, de basis van moderne kunstmatige intelligentie, heeft innovaties aangestuurd die de wereld fundamenteel hebben getransformeerd. Echter, achter deze vooruitgang schuilt een complex en vaak moeizaam proces dat arbeidsintensieve en rekenkrachtige iteratie en experimentatie vereist. Ingenieurs en wetenschappers die machine learning-modellen ontwikkelen, besteden een groot deel van hun tijd aan trial-and-error taken in plaats van het bedenken van innovatieve oplossingen of onderzoekshypothesen. Om deze uitdaging aan te pakken, introduceren we AI-Driven Exploration (AIDE), een machine learning-engineering agent aangedreven door grote taalmodellen (LLMs). AIDE benadert machine learning-engineering als een code-optimalisatieprobleem en formuleert trial-and-error als een boomzoektocht in de ruimte van mogelijke oplossingen. Door strategisch veelbelovende oplossingen te hergebruiken en te verfijnen, wisselt AIDE effectief rekenbronnen in voor verbeterde prestaties, wat resulteert in state-of-the-art resultaten op meerdere machine learning-engineering benchmarks, waaronder onze Kaggle-evaluaties, OpenAI MLE-Bench en METRs RE-Bench.

NExT-Mol: 3D-diffusie ontmoet 1D-taalmodellering voor 3D-molecuulgeneratie
NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation

Feb 18

ByZhiyuan Liu, Yanchen Luo, Han Huang, Enzhi Zhang, Sihang Li, Junfeng Fang, Yaorui Shi, Xiang Wang, Kenji Kawaguchi, Tat-Seng Chua

3D-molecuulgeneratie is cruciaal voor geneesmiddelenontdekking en materiaalontwerp. Hoewel eerdere inspanningen zich richten op 3D-diffusiemodellen vanwege hun voordelen bij het modelleren van continue 3D-conformeren, negeren ze de voordelen van 1D SELFIES-gebaseerde taalmodellen (LMs), die 100% geldige moleculen kunnen genereren en gebruikmaken van de miljardenschalige 1D-molecuuldatasets. Om deze voordelen te combineren voor 3D-molecuulgeneratie, stellen we een foundation model voor -- NExT-Mol: 3D Diffusion Meets 1D Language Modeling for 3D Molecule Generation. NExT-Mol gebruikt een uitgebreid voorgetraind molecuul-LM voor 1D-molecuulgeneratie, en voorspelt vervolgens de 3D-conformeren van het gegenereerde molecuul met een 3D-diffusiemodel. We verbeteren de prestaties van NExT-Mol door de modelgrootte van het LM op te schalen, de diffusieneurale architectuur te verfijnen en 1D-naar-3D transfer learning toe te passen. Opmerkelijk is dat ons 1D-molecuul-LM de baseline aanzienlijk overtreft in distributiegelijkheid terwijl het de geldigheid waarborgt, en ons 3D-diffusiemodel behaalt toonaangevende prestaties in conformervoorspelling. Gezien deze verbeteringen in 1D- en 3D-modellering, behaalt NExT-Mol een relatieve verbetering van 26% in 3D FCD voor de novo 3D-generatie op GEOM-DRUGS, en een gemiddelde relatieve winst van 13% voor voorwaardelijke 3D-generatie op QM9-2014. Onze codes en voorgetrainde checkpoints zijn beschikbaar op https://github.com/acharkq/NExT-Mol.

REALTALK: Een 21-daagse real-world dataset voor langetermijnconversaties
REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation

Feb 18

ByDong-Ho Lee, Adyasha Maharana, Jay Pujara, Xiang Ren, Francesco Barbieri

Op de lange termijn zijn open-domein dialoogcapaciteiten essentieel voor chatbots die eerdere interacties willen onthouden en emotionele intelligentie (EI) willen demonstreren. Toch vertrouwt het meeste bestaande onderzoek op synthetische, door LLM gegenereerde data, waardoor er vragen open blijven over conversatiepatronen in de echte wereld. Om deze kloof te dichten, introduceren we REALTALK, een 21-daags corpus van authentieke berichtenapp-dialogen, dat een directe benchmark biedt tegenover echte menselijke interacties. We beginnen met een datasetanalyse, waarbij we focussen op EI-kenmerken en persona-consistentie om de unieke uitdagingen van echte werelddialogen te begrijpen. Door vergelijking met door LLM gegenereerde gesprekken, benadrukken we belangrijke verschillen, waaronder diverse emotionele uitdrukkingen en variaties in persona-stabiliteit die synthetische dialogen vaak niet kunnen vastleggen. Gebaseerd op deze inzichten introduceren we twee benchmarktaken: (1) persona-simulatie, waarbij een model een gesprek voortzet namens een specifieke gebruiker op basis van eerdere dialoogcontext; en (2) geheugenpeiling, waarbij een model gerichte vragen beantwoordt die een langetermijngeheugen van eerdere interacties vereisen. Onze bevindingen tonen aan dat modellen moeite hebben om een gebruiker uitsluitend op basis van dialooggeschiedenis te simuleren, terwijl fine-tuning op specifieke gebruikerschats de persona-emulatie verbetert. Daarnaast ondervinden bestaande modellen aanzienlijke uitdagingen bij het oproepen en benutten van langetermijncontext binnen echte wereldconversaties.

TESS 2: Een grootschalig generalistisch diffusie-taalmodel
TESS 2: A Large-Scale Generalist Diffusion Language Model

Feb 19

ByJaesung Tae, Hamish Ivison, Sachin Kumar, Arman Cohan

We introduceren TESS 2, een algemeen instructievolgend diffusie-taalmodel dat hedendaagse instructie-afgestemde diffusiemodellen overtreft, en dat evenaart en soms zelfs sterke autoregressieve (AR) modellen overstijgt. We trainen TESS 2 door eerst een sterk AR-model aan te passen via voortgezette vooropleiding met de gebruikelijke kruisentropie als diffusieverlies, en vervolgens verdere instructie-afstemming uit te voeren. We ontdekken dat aanpassingstraining, evenals de keuze van het basismodel, cruciaal zijn voor het trainen van goede instructievolgende diffusiemodellen. We stellen verder beloningsbegeleiding voor, een nieuwe en modulaire begeleidingsprocedure tijdens de inferentie om modeluitvoeringen uit te lijnen zonder het onderliggende model te hoeven trainen. Tot slot tonen we aan dat TESS 2 verder verbetert met meer rekencapaciteit tijdens de inferentie, wat het nut van diffusie-LM's benadrukt bij het hebben van fijnmazige controle over de hoeveelheid rekenkracht die tijdens de inferentie wordt gebruikt. Code en modellen zijn beschikbaar op https://github.com/hamishivi/tess-2.

De Jury Beoordelen: Een Verzameling van Door LLM-Gegenereerde Relevantiebeoordelingen
Judging the Judges: A Collection of LLM-Generated Relevance Judgements

Feb 19

ByHossein A. Rahmani, Clemencia Siro, Mohammad Aliannejadi, Nick Craswell, Charles L. A. Clarke, Guglielmo Faggioli, Bhaskar Mitra, Paul Thomas, Emine Yilmaz

Het gebruik van Large Language Models (LLM's) voor relevantiebeoordelingen biedt veelbelovende mogelijkheden om Informatie Retrieval (IR), Natural Language Processing (NLP) en aanverwante velden te verbeteren. Inderdaad, LLM's beloven IR-onderzoekers in staat te stellen evaluatiecollecties op te bouwen met slechts een fractie van het handmatige menselijke werk dat momenteel vereist is. Dit kan helpen bij nieuwe onderwerpen waarover nog beperkte kennis beschikbaar is en kan de uitdagingen van het evalueren van rankingsystemen in situaties met beperkte middelen verzachten, waar het moeilijk is om menselijke annotators te vinden. Gezien de snelle recente ontwikkelingen in dit domein, zijn er nog veel vragen over LLM's als beoordelaars die beantwoord moeten worden. Onder de aspecten die verder onderzoek vereisen, kunnen we de impact van verschillende componenten in een pijplijn voor het genereren van relevantiebeoordelingen noemen, zoals de gebruikte prompt of de gekozen LLM. Dit artikel evalueert en rapporteert over de resultaten van een grootschalige automatische relevantiebeoordeling, de LLMJudge-uitdaging op SIGIR 2024, waar verschillende benaderingen voor relevantiebeoordeling werden voorgesteld. In detail publiceren en evalueren we 42 door LLM's gegenereerde labels van de relevantiebeoordelingen van de TREC 2023 Deep Learning-track, geproduceerd door acht internationale teams die deelnamen aan de uitdaging. Vanwege hun diverse aard kunnen deze automatisch gegenereerde relevantiebeoordelingen de gemeenschap niet alleen helpen systematische vooroordelen veroorzaakt door LLM's te onderzoeken, maar ook de effectiviteit van ensemblemodellen verkennen, de afwegingen tussen verschillende modellen en menselijke beoordelaars analyseren, en methodologieën voor het verbeteren van geautomatiseerde evaluatietechnieken bevorderen. De vrijgegeven bron is beschikbaar op de volgende link: https://llm4eval.github.io/LLMJudge-benchmark/

ActionPiece: Contextuele Tokenisatie van Actiesequenties voor Generatieve Aanbevelingen
ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation

Feb 19

ByYupeng Hou, Jianmo Ni, Zhankui He, Noveen Sachdeva, Wang-Cheng Kang, Ed H. Chi, Julian McAuley, Derek Zhiyuan Cheng

Generatieve aanbeveling (GR) is een opkomend paradigma waarbij gebruikersacties worden getokeniseerd in discrete tokenpatronen en autoregressief worden gegenereerd als voorspellingen. Bestaande GR-modellen tokeniseren echter elke actie onafhankelijk, waarbij dezelfde vaste tokens worden toegewezen aan identieke acties in alle sequenties, zonder rekening te houden met contextuele relaties. Dit gebrek aan contextbewustzijn kan leiden tot suboptimale prestaties, aangezien dezelfde actie verschillende betekenissen kan hebben afhankelijk van de omringende context. Om dit probleem aan te pakken, stellen we ActionPiece voor, waarbij context expliciet wordt meegenomen bij het tokeniseren van actiesequenties. In ActionPiece wordt elke actie weergegeven als een set van itemkenmerken, die dienen als de initiële tokens. Gegeven de corpora van actiesequenties, construeren we de vocabulaire door kenmerkpatronen samen te voegen als nieuwe tokens, gebaseerd op hun co-voorkomfrequentie zowel binnen individuele sets als over aangrenzende sets. Gezien de ongeordende aard van kenmerksets, introduceren we verder setpermutatieregularisatie, wat meerdere segmentaties van actiesequenties met dezelfde semantiek oplevert. Experimenten op openbare datasets tonen aan dat ActionPiece consistent beter presteert dan bestaande methoden voor actietokenisatie, met een verbetering van NDCG@10 met 6,00% tot 12,82%.

Van Tools naar Teamgenoten: Evaluatie van LLM's in Multi-Sessie Coderingsinteracties
From Tools to Teammates: Evaluating LLMs in Multi-Session Coding Interactions

Feb 19

ByNathanaël Carraz Rakotonirina, Mohammed Hamdy, Jon Ander Campos, Lucas Weber, Alberto Testoni, Marzieh Fadaee, Sandro Pezzelle, Marco Del Tredici

Grote Taalmodellen (LLMs) worden steeds vaker gebruikt in werkomgevingen voor een breed scala aan taken, waarbij ze uitblinken in het oplossen van individuele problemen in isolatie. Maar zijn ze ook in staat om effectief samen te werken tijdens langdurige interacties? Om dit te onderzoeken introduceren we MemoryCode, een synthetische dataset met meerdere sessies die is ontworpen om het vermogen van LLMs te testen om eenvoudige codeerinstructies te volgen en uit te voeren te midden van irrelevante informatie, wat een realistische setting simuleert. Hoewel alle geteste modellen geïsoleerde instructies goed aankunnen, verslechtert zelfs de prestaties van state-of-the-art modellen zoals GPT-4o wanneer instructies over meerdere sessies verspreid zijn. Onze analyse suggereert dat dit komt door hun onvermogen om informatie op te halen en te integreren over lange instructieketens. Onze resultaten benadrukken een fundamentele beperking van huidige LLMs, wat hun vermogen om effectief samen te werken in langdurige interacties beperkt.

REFIND: Retrieval-augmentatie voor het detecteren van feitelijke hallucinaties in grote taalmodellen
REFIND: Retrieval-Augmented Factuality Hallucination Detection in Large Language Models

Feb 19

ByDongGeon Lee, Hwanjo Yu

Hallucinaties in de uitvoer van grote taalmodellen (LLM's) beperken hun betrouwbaarheid aanzienlijk bij kennisintensieve taken zoals vraagbeantwoording. Om deze uitdaging aan te pakken, introduceren we REFIND (Retrieval-augmented Factuality hallucINation Detection), een nieuw framework dat hallucinaties in LLM-uitvoer detecteert door direct gebruik te maken van opgehaalde documenten. Als onderdeel van REFIND stellen we de Context Sensitivity Ratio (CSR) voor, een nieuwe metriek die de gevoeligheid van LLM-uitvoer voor opgehaald bewijsmateriaal kwantificeert. Deze innovatieve aanpak stelt REFIND in staat om hallucinaties efficiënt en nauwkeurig te detecteren, wat het onderscheidt van bestaande methoden. In de evaluatie toonde REFIND robuustheid aan in negen talen, inclusief situaties met beperkte bronnen, en presteerde het aanzienlijk beter dan baseline-modellen, met superieure IoU-scores bij het identificeren van hallucinaties. Dit werk benadrukt de effectiviteit van het kwantificeren van contextgevoeligheid voor hallucinatiedetectie, waardoor de weg wordt geëffend voor betrouwbaardere en vertrouwenswaardigere LLM-toepassingen in diverse talen.

Welke van deze opties beschrijft het beste meerkeuzeevaluatie met LLM's? A) Gedwongen B) Gebrekkig C) Herstelbaar D) Al het bovenstaande
Which of These Best Describes Multiple Choice Evaluation with LLMs? A) Forced B) Flawed C) Fixable D) All of the Above

Feb 19

ByNishant Balepur, Rachel Rudinger, Jordan Lee Boyd-Graber

Meerkeuzevraagbeantwoording (MCQA) is populair voor de evaluatie van LLM's vanwege de eenvoud en mensachtige testmethode, maar wij pleiten voor hervorming ervan. We onthullen eerst tekortkomingen in het MCQA-formaat, omdat het moeite heeft met: 1) het testen van generatie/subjectiviteit; 2) het matchen van LLM-gebruiksscenario's; en 3) het volledig testen van kennis. In plaats daarvan bepleiten we generatieve formaten gebaseerd op menselijke testmethoden, waarbij LLM's antwoorden construeren en uitleggen, wat beter aansluit bij gebruikersbehoeften en kennis, terwijl het gemakkelijk te scoren blijft. Vervolgens tonen we aan dat zelfs wanneer MCQA een nuttig formaat is, de datasets problemen hebben zoals: lekken; onbeantwoordbaarheid; shortcuts; en verzadiging. Voor elk probleem bieden we oplossingen uit het onderwijs, zoals rubrics om het schrijven van MCQs te begeleiden; scoringsmethoden om gokken in te perken; en Item Response Theory om moeilijkere MCQs te maken. Ten slotte bespreken we LLM-fouten in MCQA, zoals robuustheid, biases en onbetrouwbare verklaringen, en laten we zien hoe onze eerdere oplossingen deze problemen beter meten of aanpakken. Hoewel we MCQA niet hoeven te verlaten, moedigen we meer inspanningen aan om de taak te verfijnen op basis van educatieve testmethoden, waardoor evaluaties worden verbeterd.

GIMMICK -- Wereldwijd Inclusieve Multimodale Multitask Culturele Kennis Benchmarking
GIMMICK -- Globally Inclusive Multimodal Multitask Cultural Knowledge Benchmarking

Feb 19

ByFlorian Schneider, Carolin Holtermann, Chris Biemann, Anne Lauscher

Grote Vision-Taalmodellen (LVLMs) hebben recentelijk aandacht gekregen vanwege hun opvallende prestaties en brede toepasbaarheid. Hoewel eerder is aangetoond dat hun effectiviteit in gebruiksscenario's die niet-Westerse contexten betreffen tekortschiet, zijn bestaande studies beperkt in omvang, waarbij slechts een smal scala aan culturen wordt bestreken, uitsluitend wordt gefocust op een klein aantal culturele aspecten, of slechts een beperkte selectie van modellen op één enkele taak wordt geëvalueerd. In de richting van wereldwijd inclusief LVLM-onderzoek introduceren we GIMMICK, een uitgebreide multimodale benchmark die is ontworpen om een breed spectrum aan culturele kennis te beoordelen over 144 landen die zes wereldwijde macroregio's vertegenwoordigen. GIMMICK omvat zes taken gebaseerd op drie nieuwe datasets die 728 unieke culturele gebeurtenissen of facetten beslaan, waarop we 20 LVLMs en 11 LLMs hebben geëvalueerd, waaronder vijf propriëtaire en 26 open-weight modellen van alle formaten. We onderzoeken systematisch (1) regionale culturele vooroordelen, (2) de invloed van modelgrootte, (3) invoermodaliteiten, en (4) externe aanwijzingen. Onze analyses onthullen sterke vooroordelen ten opzichte van Westerse culturen over modellen en taken heen en benadrukken sterke correlaties tussen modelgrootte en prestaties, evenals de effectiviteit van multimodale invoer en externe geografische aanwijzingen. We constateren verder dat modellen meer kennis hebben van tastbare dan van ontastbare aspecten (bijv. voedsel vs. rituelen) en dat ze uitblinken in het herkennen van brede culturele oorsprongen, maar moeite hebben met een meer genuanceerd begrip.

Hoogwaardige Nieuwe Beeldsynthese via Splatting-Gestuurde Diffusie
High-Fidelity Novel View Synthesis via Splatting-Guided Diffusion

Feb 18

ByXiang Zhang, Yang Zhang, Lukas Mehl, Markus Gross, Christopher Schroers

Ondanks recente vooruitgang in Novel View Synthesis (NVS) blijft het genereren van hoogwaardige beelden vanuit enkele of schaarse observaties een aanzienlijke uitdaging. Bestaande op splatting gebaseerde benaderingen produceren vaak vervormde geometrie door splattingfouten. Hoewel op diffusie gebaseerde methoden rijke 3D-priors benutten om een verbeterde geometrie te bereiken, lijden ze vaak onder texture hallucinatie. In dit artikel introduceren we SplatDiff, een op pixel-splatting gebaseerd videodiffusiemodel dat is ontworpen om hoogwaardige nieuwe beelden te synthetiseren vanuit een enkele afbeelding. Specifiek stellen we een uitgelijnde synthesestrategie voor voor precieze controle van doelperspectieven en geometrie-consistente beeldsynthese. Om texture hallucinatie te verminderen, ontwerpen we een texture bridge module die hoogwaardige texturegeneratie mogelijk maakt door adaptieve featurefusie. Op deze manier benut SplatDiff de sterke punten van splatting en diffusie om nieuwe beelden te genereren met consistente geometrie en hoogwaardige details. Uitgebreide experimenten bevestigen de state-of-the-art prestaties van SplatDiff in single-view NVS. Daarnaast toont SplatDiff, zonder extra training, opmerkelijke zero-shot prestaties in diverse taken, waaronder sparse-view NVS en stereo videoconversie.

MVL-SIB: Een Massaal Meertalige Visueel-Taal Benchmark voor Cross-Modale Topische Matching
MVL-SIB: A Massively Multilingual Vision-Language Benchmark for Cross-Modal Topical Matching

Feb 18

ByFabian David Schmidt, Florian Schneider, Chris Biemann, Goran Glavaš

Bestaande meertalige visueel-taalkundige (VL) benchmarks beslaan vaak slechts een handvol talen. Als gevolg hiervan richten evaluaties van grote visueel-taalkundige modellen (LVLMs) zich voornamelijk op talen met veel bronnen, wat de behoefte aan evaluatiegegevens voor talen met weinig bronnen onderstreept. Om deze beperking aan te pakken, introduceren we MVL-SIB, een massaal meertalige visueel-taalkundige benchmark die zowel cross-modale als tekstuele thematische matching evalueert over 205 talen — meer dan 100 talen meer dan de meest meertalige bestaande VL benchmarks omvatten. Vervolgens testen we een reeks open-gewicht LVLMs samen met GPT-4o(-mini) op MVL-SIB. Onze resultaten laten zien dat LVLMs moeite hebben met cross-modale thematische matching in talen met weinig bronnen, waarbij ze niet beter presteren dan toeval voor talen zoals N'Koo. Onze analyse toont verder aan dat VL-ondersteuning in LVLMs onevenredig afneemt in vergelijking met tekstuele ondersteuning voor talen met weinig bronnen, zoals blijkt uit de vergelijking van cross-modale en tekstuele thematische matchingprestaties. We merken ook op dat open-gewicht LVLMs geen voordeel halen uit het representeren van een thema met meer dan één afbeelding, wat suggereert dat deze modellen nog niet volledig effectief zijn in het omgaan met taken met meerdere afbeeldingen. Door de prestaties op MVL-SIB te correleren met andere meertalige VL benchmarks, benadrukken we dat MVL-SIB dient als een uitgebreide test van meertalig VL-begrip in LVLMs.

Ruis kan overdraagbare kennis bevatten: Semi-gesuperviseerde heterogene domeinadaptatie begrijpen vanuit een empirisch perspectief
Noise May Contain Transferable Knowledge: Understanding Semi-supervised Heterogeneous Domain Adaptation from an Empirical Perspective

Feb 19

ByYuan Yao, Xiaopu Zhang, Yu Zhang, Jian Jin, Qiang Yang

Semi-supervised heterogene domeinadaptatie (SHDA) richt zich op leren over domeinen met verschillende kenmerkrepresentaties en verdelingen, waarbij bronmonsters gelabeld zijn terwijl de meeste doelmonsters ongelabeld zijn, met slechts een klein deel gelabeld. Bovendien is er geen één-op-één correspondentie tussen bron- en doelmonsters. Hoewel diverse SHDA-methoden zijn ontwikkeld om dit probleem aan te pakken, blijft de aard van de kennis die over heterogene domeinen wordt overgedragen onduidelijk. Dit artikel gaat dieper in op deze vraag vanuit een empirisch perspectief. We voeren uitgebreide experimenten uit op ongeveer 330 SHDA-taken, waarbij we twee gesuperviseerde leermethoden en zeven representatieve SHDA-methoden gebruiken. Verrassend genoeg geven onze observaties aan dat zowel de categorie- als kenmerkinformatie van bronmonsters geen significante invloed hebben op de prestaties van het doeldomein. Daarnaast kan ruis afkomstig van eenvoudige verdelingen, wanneer gebruikt als bronmonsters, overdraagbare kennis bevatten. Op basis van dit inzicht voeren we een reeks experimenten uit om de onderliggende principes van overdraagbare kennis in SHDA te ontdekken. Specifiek ontwerpen we een uniform Kennisoverdrachtsraamwerk (KTF) voor SHDA. Op basis van het KTF ontdekken we dat de overdraagbare kennis in SHDA voornamelijk voortkomt uit de overdraagbaarheid en onderscheidbaarheid van het brondomein. Het waarborgen van deze eigenschappen in bronmonsters, ongeacht hun oorsprong (bijv. afbeelding, tekst, ruis), kan de effectiviteit van kennisoverdracht in SHDA-taken verbeteren. De codes en datasets zijn beschikbaar op https://github.com/yyyaoyuan/SHDA.

Het verminderen van hallucinaties bij het genereren van SPARQL-query's op basis van taalmodel door middel van post-generatie geheugenretrieval
Reducing Hallucinations in Language Model-based SPARQL Query Generation Using Post-Generation Memory Retrieval

Feb 19

ByAditya Sharma, Luis Lara, Amal Zouaq, Christopher J. Pal

Het vermogen om SPARQL-query's te genereren uit vragen in natuurlijke taal is cruciaal voor een efficiënte en accurate ophalen van gestructureerde gegevens uit kennisgrafieken (KG). Hoewel grote taalmodellen (LLM's) veelvuldig worden ingezet voor het genereren van SPARQL-query's, zijn ze vaak gevoelig voor hallucinaties en out-of-distribution fouten bij het produceren van KG-elementen zoals Uniform Resource Identifiers (URI's) op basis van interne parametrische kennis. Dit resulteert vaak in inhoud die plausibel lijkt maar feitelijk onjuist is, wat aanzienlijke uitdagingen oplevert voor hun gebruik in real-world informatie-ophalingsapplicaties (IR). Dit heeft geleid tot toenemend onderzoek gericht op het detecteren en mitigeren van dergelijke fouten. In dit artikel introduceren we PGMR (Post-Generation Memory Retrieval), een modulair framework dat een niet-parametrische geheugenmodule integreert om KG-elementen op te halen en de op LLM gebaseerde SPARQL-querygeneratie te verbeteren. Onze experimentele resultaten tonen aan dat PGMR consistent sterke prestaties levert over diverse datasets, dataverdelingen en LLM's. Opmerkelijk is dat PGMR URI-hallucinaties aanzienlijk vermindert, waardoor het probleem in verschillende scenario's vrijwel wordt geëlimineerd.