AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

GHOST 2.0: generatieve overdracht van hoofden met hoge getrouwheid in één keer
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

Hoewel het vervangen van gezichten recentelijk aandacht heeft gekregen in de onderzoeksgemeenschap, blijft een gerelateerd probleem van het verwisselen van hoofden grotendeels onontgonnen. Naast het overdragen van huidskleur, brengt het verwisselen van hoofden extra uitdagingen met zich mee, zoals de noodzaak om structurele informatie van het hele hoofd te behouden tijdens synthese en het opvullen van lacunes tussen het verwisselde hoofd en de achtergrond. In dit artikel behandelen we deze zorgen met GHOST 2.0, dat bestaat uit twee probleemspecifieke modules. Ten eerste introduceren we het verbeterde Aligner-model voor het opnieuw uitvoeren van hoofden, dat identiteitsinformatie op meerdere schalen behoudt en robuust is tegen extreme posevariaties. Ten tweede gebruiken we een Blender-module die het opnieuw uitgevoerde hoofd naadloos integreert in de doelachtergrond door huidskleur over te dragen en niet-overeenkomende regio's op te vullen. Beide modules presteren beter dan de baselines op de overeenkomstige taken, waardoor het mogelijk is om state-of-the-art resultaten te behalen bij het verwisselen van hoofden. We pakken ook complexe gevallen aan, zoals grote verschillen in haarstijlen van bron en doel. De code is beschikbaar op https://github.com/ai-forever/ghost-2.0

Kanana: Rekenkundig efficiënte tweetalige taalmodelen
Kanana: Compute-efficient Bilingual Language Models

Feb 26

ByKanana LLM Team, Yunju Bak, Hojin Lee, Minho Ryu, Jiyeon Ham, Seungjae Jung, Daniel Wontae Nam, Taegyeong Eo, Donghun Lee, Doohae Jung, Boseop Kim, Nayeon Kim, Jaesun Park, Hyunho Kim, Hyunwoong Ko, Changmin Lee, Kyoung-Woon On, Seulye Baeg, Junrae Cho, Sunghee Jung, Jieun Kang, EungGyun Kim, Eunhwa Kim, Byeongil Ko, Daniel Lee, Minchul Lee, Miok Lee, Shinbok Lee, Gaeun Seo

We introduceren Kanana, een reeks tweetalige taalmodellen die uitmuntende prestaties leveren in het Koreaans en competitieve prestaties in het Engels. De rekenkosten van Kanana zijn aanzienlijk lager dan die van state-of-the-art modellen van vergelijkbare grootte. Het rapport beschrijft in detail de technieken die tijdens de voorafgaande training zijn gebruikt om rekenkundig efficiënte maar toch competitieve modellen te realiseren, waaronder hoogwaardige datafiltering, gefaseerde voorafgaande training, diepteschaalvergroting, en snoeien en distillatie. Bovendien schetst het rapport de methodologieën die zijn toegepast tijdens de nabehandeling van de Kanana-modellen, waaronder gesuperviseerde fijnafstemming en voorkeursoptimalisatie, gericht op het verbeteren van hun vermogen om naadloos met gebruikers te interageren. Ten slotte gaat het rapport in op plausibele benaderingen die zijn gebruikt voor de aanpassing van taalmodellen aan specifieke scenario's, zoals inbedding, retrieval-augmented generation en functie-aanroeping. De Kanana-modelreeks beslaat een bereik van 2,1B tot 32,5B parameters, waarbij 2,1B-modellen (basis, instructie, inbedding) openbaar zijn vrijgegeven om onderzoek naar Koreaanse taalmodellen te bevorderen.

Naar een AI-co-wetenschapper
Towards an AI co-scientist

Feb 26

ByJuraj Gottweis, Wei-Hung Weng, Alexander Daryin, Tao Tu, Anil Palepu, Petar Sirkovic, Artiom Myaskovsky, Felix Weissenberger, Keran Rong, Ryutaro Tanno, Khaled Saab, Dan Popovici, Jacob Blum, Fan Zhang, Katherine Chou, Avinatan Hassidim, Burak Gokturk, Amin Vahdat, Pushmeet Kohli, Yossi Matias, Andrew Carroll, Kavita Kulkarni, Nenad Tomasev, Yuan Guan, Vikram Dhillon, Eeshit Dhaval Vaishnav, Byron Lee, Tiago R D Costa, José R Penadés, Gary Peltz, Yunhan Xu, Annalisa Pawlosky, Alan Karthikesalingam, Vivek Natarajan

Wetenschappelijke ontdekkingen zijn afhankelijk van wetenschappers die nieuwe hypothesen genereren die vervolgens rigoureus experimenteel worden gevalideerd. Om dit proces te versterken, introduceren we een AI-co-wetenschapper, een multi-agent systeem gebouwd op Gemini 2.0. De AI-co-wetenschapper is bedoeld om te helpen bij het ontdekken van nieuwe, originele kennis en het formuleren van aantoonbaar nieuwe onderzoekshypothesen en -voorstellen, gebaseerd op eerder bewijs en afgestemd op door wetenschappers verstrekte onderzoeksdoelen en -richtlijnen. Het ontwerp van het systeem omvat een benadering van hypothesegeneratie die bestaat uit genereren, debatteren en evolueren, geïnspireerd door de wetenschappelijke methode en versneld door het schalen van rekenkracht tijdens testfasen. Belangrijke bijdragen zijn: (1) een multi-agent architectuur met een asynchroon taakuitvoeringskader voor flexibele schaling van rekenkracht; (2) een toernooi-evolutieproces voor zelfverbeterende hypothesegeneratie. Geautomatiseerde evaluaties tonen voortdurende voordelen van rekenkracht tijdens testfasen, wat de kwaliteit van hypothesen verbetert. Hoewel het systeem algemeen toepasbaar is, richten we de ontwikkeling en validatie op drie biomedische gebieden: hergebruik van geneesmiddelen, ontdekking van nieuwe doelen, en het verklaren van mechanismen van bacteriële evolutie en antimicrobiële resistentie. Voor hergebruik van geneesmiddelen stelt het systeem kandidaten voor met veelbelovende validatieresultaten, waaronder kandidaten voor acute myeloïde leukemie die tumorgroei remmen in vitro bij klinisch toepasbare concentraties. Voor de ontdekking van nieuwe doelen stelde de AI-co-wetenschapper nieuwe epigenetische doelen voor leverfibrose voor, gevalideerd door anti-fibrotische activiteit en levercelregeneratie in menselijke hepatische organoïden. Ten slotte reconstrueerde de AI-co-wetenschapper ongepubliceerde experimentele resultaten via een parallelle in silico ontdekking van een nieuw genoverdrachtsmechanisme in bacteriële evolutie. Deze resultaten, gedetailleerd in aparte, gelijktijdig gepubliceerde rapporten, demonstreren het potentieel om biomedische en wetenschappelijke ontdekkingen te versterken en een tijdperk in te luiden van door AI geëmpowerde wetenschappers.

TheoremExplainAgent: Naar Multimodale Verklaringen voor LLM Stellingenbegrip
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

Het begrijpen van domeinspecifieke stellingen vereist vaak meer dan alleen tekstgebaseerd redeneren; effectieve communicatie via gestructureerde visuele uitleg is cruciaal voor een dieper begrip. Hoewel grote taalmmodellen (LLMs) sterke prestaties laten zien in tekstgebaseerd stellingenredeneren, blijft hun vermogen om samenhangende en pedagogisch zinvolle visuele uitleg te genereren een open uitdaging. In dit werk introduceren we TheoremExplainAgent, een agent-gebaseerde aanpak voor het genereren van langdurige stellinguitlegvideo's (langer dan 5 minuten) met behulp van Manim-animaties. Om multimodale stellinguitleg systematisch te evalueren, stellen we TheoremExplainBench voor, een benchmark die 240 stellingen beslaat over meerdere STEM-disciplines, samen met 5 geautomatiseerde evaluatiemetrics. Onze resultaten tonen aan dat agent-gebaseerde planning essentieel is voor het genereren van gedetailleerde langdurige video's, en de o3-mini agent bereikt een slagingspercentage van 93,8% en een totaalscore van 0,77. Echter, onze kwantitatieve en kwalitatieve studies laten zien dat de meeste geproduceerde video's kleine problemen hebben met de lay-out van visuele elementen. Bovendien onthullen multimodale uitleggen diepere redeneerfouten die tekstgebaseerde uitleggen niet blootleggen, wat het belang van multimodale uitleggen benadrukt.

Plutus: Benchmarking van grote taalmodellen in het Grieks met beperkte financiële bronnen
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

Ondanks de cruciale rol van Griekenland in de wereldeconomie, blijven grote taalmodellen (LLMs) onderbelicht voor de Griekse financiële context vanwege de linguïstische complexiteit van het Grieks en het gebrek aan domeinspecifieke datasets. Eerdere inspanningen op het gebied van meertalige financiële natuurlijke taalverwerking (NLP) hebben aanzienlijke prestatieverschillen aan het licht gebracht, maar tot nu toe zijn er geen specifieke Griekse financiële benchmarks of Griekse financiële LLMs ontwikkeld. Om deze kloof te overbruggen, introduceren we Plutus-ben, de eerste Griekse Financiële Evaluatie Benchmark, en Plutus-8B, het baanbrekende Griekse Financiële LLM, afgestemd met Griekse domeinspecifieke data. Plutus-ben behandelt vijf kern-NLP-taken in het Grieks: numerieke en tekstuele herkenning van benoemde entiteiten, vraagbeantwoording, abstractieve samenvatting en onderwerpsclassificatie, waardoor systematische en reproduceerbare LLM-evaluaties mogelijk worden. Om deze taken te ondersteunen, presenteren we drie nieuwe, hoogwaardige Griekse financiële datasets, grondig geannoteerd door expert moedertaalsprekers van het Grieks, aangevuld met twee bestaande bronnen. Onze uitgebreide evaluatie van 22 LLMs op Plutus-ben toont aan dat Griekse financiële NLP uitdagend blijft vanwege linguïstische complexiteit, domeinspecifieke terminologie en hiaten in financiële redenering. Deze bevindingen benadrukken de beperkingen van cross-linguale transfer, de noodzaak van financiële expertise in Griekse modellen en de uitdagingen van het aanpassen van financiële LLMs aan Griekse tekst. We maken Plutus-ben, Plutus-8B en alle bijbehorende datasets openbaar om reproduceerbaar onderzoek te bevorderen en de Griekse financiële NLP vooruit te helpen, waardoor bredere meertalige inclusiviteit in de financiële sector wordt gestimuleerd.

De feitelijkheid van taalmodelen hangt af van de taal van bevraging.
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

Meertalige taalmodellen (LMs) worden verwacht feitelijke kennis consistent te onthouden in verschillende talen, maar ze slagen er vaak niet in om kennis tussen talen over te dragen, zelfs wanneer ze de juiste informatie in één van de talen bezitten. Zo vinden we bijvoorbeeld dat een LM Rashed Al Shashai correct kan identificeren als afkomstig uit Saudi-Arabië wanneer hij in het Arabisch wordt gevraagd, maar consistent faalt om dit te doen wanneer hij in het Engels of Swahili wordt gevraagd. Om deze beperking systematisch te onderzoeken, introduceren we een benchmark van 10.000 landgerelateerde feiten in 13 talen en stellen we drie nieuwe metrieken voor: Factual Recall Score, Knowledge Transferability Score en Cross-Lingual Factual Knowledge Transferability Score om feitelijke herinnering en kennisoverdraagbaarheid in LMs over verschillende talen te kwantificeren. Onze resultaten onthullen fundamentele zwaktes in de huidige state-of-the-art LMs, met name in cross-linguale generalisatie waarbij modellen er niet in slagen kennis effectief over te dragen tussen verschillende talen, wat leidt tot inconsistente prestaties die gevoelig zijn voor de gebruikte taal. Onze bevindingen benadrukken de noodzaak voor LMs om taal-specifieke feitelijke betrouwbaarheid te herkennen en de meest betrouwbare informatie over talen heen te benutten. We publiceren onze benchmark en evaluatieframework om toekomstig onderzoek in meertalige kennisoverdracht te stimuleren.

Rang 1: Testtijd berekenen voor opnieuw rangschikken in Informatie ophalen
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

We introduceren Rank1, het eerste hersorteermodel dat is getraind om gebruik te maken van rekenkracht op testtijd. Rank1 toont de toepasbaarheid binnen informatieopvraging van het gebruik van een redenerend taalmodel (bijv. OpenAI's o1, Deepseek's R1, enz.) voor distillatie om de prestaties van een kleiner model snel te verbeteren. We verzamelen en stellen een dataset van meer dan 600.000 voorbeelden van R1-redeneersporen uit vragen en passages in MS MARCO beschikbaar. Modellen die zijn getraind op deze dataset tonen: (1) state-of-the-art prestaties op geavanceerde redeneer- en instructievolgdatasets; (2) werken opmerkelijk goed buiten distributie vanwege het vermogen om te reageren op gebruikersinvoer; en (3) hebben verklaarbare redeneerketens die aan gebruikers of op RAG gebaseerde systemen kunnen worden gegeven. Verder tonen we aan dat gekwantiseerde versies van deze modellen sterke prestaties behouden terwijl er minder rekenkracht/geheugen wordt gebruikt. Over het algemeen toont Rank1 aan dat rekenkracht op testtijd zorgt voor een fundamenteel nieuw type verklaarbaar en presterend hersorteermodel voor zoekopdrachten.

Kunnen grote taalmodellen fouten detecteren in lange ketens van redeneringen?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

Onlangs hebben o1-achtige modellen aanzienlijke aandacht getrokken, waarbij deze modellen lange Chain-of-Thought (CoT)-redeneerstappen produceren om de redeneervaardigheden van bestaande Large Language Models (LLMs) te verbeteren. In dit artikel introduceren we, om de kwaliteiten van deze lange CoTs te begrijpen en de kritiekvaardigheden van bestaande LLMs op deze lange CoTs te meten, de DeltaBench. Deze omvat de gegenereerde lange CoTs van verschillende o1-achtige modellen (bijv. QwQ, DeepSeek-R1) voor verschillende redeneertaken (bijv. Wiskunde, Code, Algemeen Redeneren), om het vermogen om fouten in lange CoT-redeneringen te detecteren te meten. Op basis van DeltaBench voeren we eerst een gedetailleerde analyse uit van de gegenereerde lange CoTs om de effectiviteit en efficiëntie van verschillende o1-achtige modellen te ontdekken. Vervolgens voeren we uitgebreide evaluaties uit van bestaande procesbeloningsmodellen (PRMs) en kritiekmodellen om de fouten van elk geannoteerd proces te detecteren, met als doel de grenzen en beperkingen van bestaande PRMs en kritiekmodellen te onderzoeken. Tot slot hopen we dat DeltaBench ontwikkelaars kan begeleiden om de lange CoT-redeneervaardigheden van hun modellen beter te begrijpen.

Agentisch Beloningsmodelleren: Integratie van Menselijke Voorkeuren met Verifieerbare Correctheidssignalen voor Betrouwbare Beloningssystemen
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

Beloningsmodellen (RMs) zijn cruciaal voor de training en het opschalen tijdens de inferentie van grote taalmodelen (LLMs). Echter richten bestaande beloningsmodellen zich voornamelijk op menselijke voorkeuren, waarbij verifieerbare correctheidssignalen worden verwaarloosd, terwijl deze een sterk potentieel hebben bij het trainen van LLMs. In dit artikel stellen we agentische beloningsmodellering voor, een beloningssysteem dat beloningsmodellen combineert met verifieerbare correctheidssignalen vanuit verschillende aspecten om betrouwbare beloningen te bieden. We implementeren empirisch een beloningsagent, genaamd RewardAgent, die menselijke voorkeursbeloningen combineert met twee verifieerbare signalen: feitelijkheid en instructievolging, om betrouwbaardere beloningen te bieden. We voeren uitgebreide experimenten uit op bestaande benchmarks voor beloningsmodellen en inferentietijd best-of-n zoekopdrachten op real-world downstream taken. RewardAgent presteert aanzienlijk beter dan standaard beloningsmodellen, wat de effectiviteit ervan aantoont. We construeren verder trainingsvoorkeursparen met behulp van RewardAgent en trainen een LLM met het DPO-doel, wat superieure prestaties oplevert op verschillende NLP-benchmarks in vergelijking met conventionele beloningsmodellen. Onze code is openbaar vrijgegeven om verder onderzoek te faciliteren (https://github.com/THU-KEG/Agentic-Reward-Modeling).

Project Alexandria: Naar het Vrijmaken van Wetenschappelijke Kennis van Copyrightbeperkingen via LLM's
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

Betaalmuren, licenties en auteursrechtenregels beperken vaak de brede verspreiding en hergebruik van wetenschappelijke kennis. Wij zijn van mening dat het zowel juridisch als technisch haalbaar is om de wetenschappelijke kennis in wetenschappelijke teksten te extraheren. Huidige methoden, zoals tekst-embeddings, slagen er niet in om feitelijke inhoud betrouwbaar te behouden, en eenvoudig parafraseren is mogelijk niet juridisch solide. We dringen er bij de gemeenschap op aan om een nieuw idee te omarmen: het omzetten van wetenschappelijke documenten in Kenniseenheden met behulp van LLM's. Deze eenheden maken gebruik van gestructureerde gegevens die entiteiten, attributen en relaties vastleggen zonder stilistische inhoud. We leveren bewijs dat Kenniseenheden: (1) een juridisch verdedigbaar kader vormen voor het delen van kennis uit auteursrechtelijk beschermde onderzoeksteksten, gebaseerd op juridische analyses van het Duitse auteursrecht en de Amerikaanse Fair Use-doctrine, en (2) het merendeel (~95%) van de feitelijke kennis uit de oorspronkelijke tekst behouden, gemeten aan de hand van meerkeuzevragen over feiten uit de oorspronkelijke auteursrechtelijk beschermde tekst over vier onderzoeksgebieden. Het vrijgeven van wetenschappelijke kennis van auteursrechten belooft transformerende voordelen voor wetenschappelijk onderzoek en onderwijs door taalmodellen toe te staan belangrijke feiten uit auteursrechtelijk beschermd materiaal opnieuw te gebruiken. Om dit te ondersteunen, delen we open-source tools voor het omzetten van onderzoeksdocumenten in Kenniseenheden. Over het algemeen stelt ons werk de haalbaarheid voor van het democratiseren van toegang tot wetenschappelijke kennis met inachtneming van auteursrechten.

Kunnen Taalmodellen Falsifiëren? Evaluatie van Algoritmische Redenering met Tegenbeeldcreatie
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

Er is steeds meer opwinding over het potentieel van Taalmodellen (TM's) om wetenschappelijke ontdekkingen te versnellen. Het falsifiëren van hypothesen is essentieel voor wetenschappelijke vooruitgang, omdat het claims in de loop van de tijd iteratief verfijnt. Dit proces vereist aanzienlijke inspanning van onderzoekers, redenering en vindingrijkheid. Toch beoordelen huidige benchmarks voor TM's voornamelijk hun vermogen om oplossingen te genereren in plaats van ze uit te dagen. Wij pleiten voor de ontwikkeling van benchmarks die deze omgekeerde capaciteit evalueren - het creëren van tegenstrijdige voorbeelden voor subtiel incorrecte oplossingen. Om deze benadering te demonstreren, beginnen we met het domein van algoritmisch probleemoplossen, waar tegenstrijdige voorbeelden automatisch kunnen worden geëvalueerd met behulp van code-uitvoering. Specifiek introduceren we REFUTE, een dynamisch bijgewerkte benchmark die recente problemen en onjuiste inzendingen van programmeerwedstrijden omvat, waar menselijke experts succesvol tegenstrijdige voorbeelden hebben geïdentificeerd. Onze analyse toont aan dat de beste redenerende agenten, zelfs OpenAI o3-mini (hoog) met feedback over code-uitvoering, tegenstrijdige voorbeelden kunnen creëren voor slechts <9% van de onjuiste oplossingen in REFUTE, hoewel beoordelingen aangeven dat het in staat is om tot 48% van deze problemen vanaf nul op te lossen. We hopen dat ons werk vooruitgang zal stimuleren in het evalueren en verbeteren van het vermogen van TM's om onjuiste oplossingen te falsifiëren - een capaciteit die cruciaal is voor zowel het versnellen van onderzoek als het laten verbeteren van modellen door betrouwbare reflecterende redenering.

VEM: Omgevingsvrije exploratie voor het trainen van GUI-agenten met waardemodel van de omgeving
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Het trainen van Vision-Language Models (VLMs) voor Graphical User Interface (GUI)-agentschappen via Reinforcement Learning (RL) kampt met cruciale uitdagingen: omgevingsgebaseerde RL vereist kostbare interacties, terwijl omgevingsvrije methoden moeite hebben met distributieverschuiving en beloningsgeneralizatie. Wij stellen een omgevingsvrij RL-raamwerk voor dat waardeschatting ontkoppelt van beleidsoptimalisatie door gebruik te maken van een vooraf getraind Value Environment Model (VEM). VEM voorspelt staat-actie-waarden rechtstreeks uit offline data, waarbij het mensachtige aannames destilleert over GUI-interactieresultaten zonder voorspelling van de volgende staat of omgevingsfeedback te vereisen. Dit voorkomt stapelingsfouten en verhoogt de veerkracht tegen UI-veranderingen door te focussen op semantisch redeneren (bijv., Draagt deze actie bij aan het doel van de gebruiker?). Het raamwerk werkt in twee fasen: (1) het vooraf trainen van VEM om langetermijnactienut te schatten en (2) het begeleiden van beleidsverkenning met bevroren VEM-signalen, waardoor layout-onafhankelijke GUI-automatisering mogelijk wordt. Geëvalueerd op Android-in-the-Wild benchmarks, behaalt VEM state-of-the-art prestaties in zowel offline als online settings, waarbij het omgevingsvrije referentiemodellen aanzienlijk overtreft en prestaties van omgevingsgebaseerde benaderingen evenaart zonder interactiekosten. Belangrijk is dat VEM aantoont dat semantisch bewuste waardeschatting vergelijkbare prestaties kan bereiken als online getrainde methoden.

Distilleer Elke Diepte: Distillatie Creëert een Sterkere Monoculaire Diepteschatter
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

Monoculaire diepteschatting (MDE) heeft als doel om scènediepte te voorspellen vanuit een enkele RGB-afbeelding en speelt een cruciale rol in 3D-scènebegrip. Recente vooruitgang in zero-shot MDE maakt gebruik van genormaliseerde dieptevoorstellingen en distillatiegebaseerd leren om de generalisatie over diverse scènes te verbeteren. Huidige methoden voor dieptenormalisatie bij distillatie, die vertrouwen op globale normalisatie, kunnen echter ruisachtige pseudo-labels versterken, wat de effectiviteit van distillatie vermindert. In dit artikel analyseren we systematisch de impact van verschillende dieptenormalisatiestrategieën op pseudo-label distillatie. Op basis van onze bevindingen stellen we Cross-Context Distillatie voor, dat globale en lokale dieptesignalen integreert om de kwaliteit van pseudo-labels te verbeteren. Daarnaast introduceren we een multi-leraar distillatieraamwerk dat gebruikmaakt van de complementaire sterktes van verschillende diepteschattingsmodellen, wat leidt tot robuustere en nauwkeurigere dieptevoorspellingen. Uitgebreide experimenten op benchmarkdatasets tonen aan dat onze aanpak state-of-the-art methoden significant overtreft, zowel kwantitatief als kwalitatief.

CritiQ: Het afleiden van gegevenskwaliteitscriteria uit menselijke voorkeuren
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

Taalmodelen zijn sterk afhankelijk van hoogwaardige data voor optimale prestaties. Bestaande benaderingen vertrouwen op handmatig ontworpen heuristieken, de perplexiteit van bestaande modellen, het trainen van classificatoren of zorgvuldige prompt engineering, wat aanzienlijke expertise en menselijke annotatie-inspanning vereist en tegelijkertijd vooroordelen introduceert. Wij introduceren CritiQ, een nieuwe methode voor dataselectie die automatisch criteria uit menselijke voorkeuren voor data kwaliteit ontgint met slechts 30 door mensen geannoteerde paren en efficiënte dataselectie uitvoert. Het belangrijkste onderdeel, CritiQ Flow, maakt gebruik van een manageragent om kwaliteitscriteria te ontwikkelen en werknemersagenten om paarsgewijze beoordelingen te maken. We bouwen een kennisbank die kwaliteitscriteria uit eerder werk extraheert om CritiQ Flow te versterken. In vergelijking met op perplexiteit en classificatie gebaseerde methoden zijn verbale criteria meer interpreteerbaar en hebben ze herbruikbare waarde. Na het afleiden van de criteria trainen we de CritiQ Scorer om kwaliteitsscores te geven en efficiënte dataselectie uit te voeren. We demonstreren de effectiviteit van onze methode in de domeinen code, wiskunde en logica, waarbij we hoge nauwkeurigheid behalen op door mensen geannoteerde test sets. Om de kwaliteit van de geselecteerde data te valideren, trainen we voortdurend Llama 3.1-modellen en observeren we verbeterde prestaties op downstream taken in vergelijking met uniforme steekproeven. Ablatie studies valideren de voordelen van de kennisbank en het reflectieproces. We analyseren hoe criteria evolueren en de effectiviteit van meerderheidsstemming.

BIG-Bench Extra Moeilijk
BIG-Bench Extra Hard

Feb 26

ByMehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat

Grote taalmodellen (LLM's) worden steeds vaker ingezet in alledaagse toepassingen, waarbij robuuste algemene redeneervaardigheden en een diverse set redeneervaardigheden worden vereist. Echter, huidige LLM redeneer-benchmarks richten zich voornamelijk op wiskundige en programmeervaardigheden, wat een hiaat creëert in de evaluatie van bredere redeneervaardigheden. Een bijzondere uitzondering is het BIG-Bench dataset, dat heeft gediend als een cruciale benchmark voor het evalueren van de algemene redeneervaardigheden van LLM's, dankzij de diverse set uitdagende taken die een uitgebreide beoordeling van algemeen redeneren over verschillende vaardigheden binnen een uniform kader mogelijk maakten. Echter, recente vooruitgang in LLM's heeft geleid tot verzadiging op BIG-Bench, en zijn moeilijkere versie BIG-Bench Hard (BBH). State-of-the-art modellen behalen bijna perfecte scores op veel taken in BBH, waardoor de bruikbaarheid ervan afneemt. Om deze beperking aan te pakken, introduceren we BIG-Bench Extra Hard (BBEH), een nieuwe benchmark die is ontworpen om de grenzen van LLM redeneerevaluatie te verleggen. BBEH vervangt elke taak in BBH door een nieuwe taak die een vergelijkbare redeneervaardigheid onderzoekt maar aanzienlijk meer moeilijkheid vertoont. We evalueren verschillende modellen op BBEH en observeren een (harmonisch) gemiddelde nauwkeurigheid van 9.8% voor het beste algemene model en 44.8% voor het beste redeneer-gespecialiseerde model, wat wijst op aanzienlijke ruimte voor verbetering en het voortdurende uitdaging benadrukt om robuuste algemene redenering in LLM's te bereiken. We maken BBEH openbaar beschikbaar op: https://github.com/google-deepmind/bbeh.

MMKE-Bench: Een Multimodaal Bewerkingsbenchmark voor Diverse Visuele Kennis
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

Kennisbewerkingstechnieken zijn naar voren gekomen als essentiële tools voor het bijwerken van de feitelijke kennis van grote taalmodellen (LLM's) en multimodale modellen (LMM's), waardoor ze verouderde of onnauwkeurige informatie kunnen corrigeren zonder opnieuw te hoeven trainen vanaf nul. Bestaande benchmarks voor multimodale kennisbewerking richten zich voornamelijk op entiteitsniveau kennis die wordt weergegeven als eenvoudige drietallen, wat niet de complexiteit van multimodale informatie in de echte wereld vastlegt. Om dit probleem aan te pakken, introduceren we MMKE-Bench, een uitgebreide MultiModale Kennisbewerking Benchmark, ontworpen om de mogelijkheid van LMM's te evalueren om diverse visuele kennis in realistische scenario's te bewerken. MMKE-Bench pakt deze beperkingen aan door drie soorten bewerkingstaken op te nemen: visuele entiteitsbewerking, visuele semantische bewerking en gebruikersspecifieke bewerking. Bovendien maakt MMKE-Bench gebruik van vrije natuurlijke taal om kennis voor te stellen en te bewerken, wat een flexibeler en effectiever formaat biedt. De benchmark bestaat uit 2.940 kennisstukken en 8.363 afbeeldingen over 33 brede categorieën, met evaluatievragen die automatisch worden gegenereerd en door mensen worden geverifieerd. We beoordelen vijf toonaangevende kennisbewerkingsmethoden op drie prominente LMM's, waarbij blijkt dat geen enkele methode uitblinkt op alle criteria, en dat visuele en gebruikersspecifieke bewerkingen bijzonder uitdagend zijn. MMKE-Bench stelt een nieuwe standaard voor het evalueren van de robuustheid van multimodale kennisbewerkingstechnieken, wat de vooruitgang in dit snel evoluerende vakgebied stimuleert.

FSPO: Optimalisatie van Voorkeur met Weinig Voorbeelden van Synthetische Voorkeursgegevens in LLM's Leidt tot Effectieve Personalisatie voor Echte Gebruikers
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

Het effectief personaliseren van LLM's is cruciaal voor een breed scala aan gebruikersgerichte toepassingen zoals virtuele assistenten en inhoudscuratoren. Geïnspireerd door de sterke leermogelijkheden in context van LLM's, stellen we Few-Shot Preference Optimization (FSPO) voor, waarbij beloningsmodellering wordt herschikt als een meta-leerprobleem. Binnen dit kader leert een LLM zich snel aan te passen aan een gebruiker via een paar gelabelde voorkeuren van die gebruiker, waarbij een gepersonaliseerde beloningsfunctie voor hen wordt geconstrueerd. Daarnaast, aangezien echte voorkeursgegevens schaars zijn en moeilijk op grote schaal te verzamelen, stellen we zorgvuldige ontwerpkeuzes voor om synthetische voorkeursdatasets te construeren voor personalisatie, waarbij meer dan 1 miljoen synthetische gepersonaliseerde voorkeuren worden gegenereerd met behulp van publiekelijk beschikbare LLM's. In het bijzonder, om succesvol over te dragen van synthetische gegevens naar echte gebruikers, vinden we het cruciaal dat de gegevens zowel een hoge diversiteit als een coherente, zelf-consistente structuur vertonen. We evalueren FSPO op gepersonaliseerde open-ended generatie voor maximaal 1.500 synthetische gebruikers over drie domeinen: filmrecensies, pedagogische aanpassing op basis van educatieve achtergrond, en algemeen vraagbeantwoording, samen met een gecontroleerde menselijke studie. Over het algemeen behaalt FSPO een gemiddelde Alpaca Eval winrate van 87% bij het genereren van reacties die gepersonaliseerd zijn voor synthetische gebruikers en een winrate van 72% bij echte menselijke gebruikers in open-ended vraagbeantwoording.

Het aanpassen van automatische spraakherkenning voor luchtverkeersleiding met accenten.
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27

ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim

Effectieve communicatie in de Luchtverkeersleiding (ATC) is cruciaal voor het handhaven van de luchtvaartveiligheid, maar de uitdagingen die worden gesteld door Engels met een accent blijven grotendeels onaangepakt in Automatische Spraakherkenning (ASR) systemen. Bestaande modellen hebben moeite met de nauwkeurigheid van transcriptie voor Zuidoost-Aziatische accenten, met name in lawaaierige ATC-omgevingen. Deze studie presenteert de ontwikkeling van ASR-modellen die specifiek zijn afgestemd op Zuidoost-Aziatische accenten met behulp van een nieuw gecreëerde dataset. Ons onderzoek behaalt significante verbeteringen, met een Woordfoutpercentage (WER) van 0.0982 of 9.82% voor Zuidoost-Aziatisch-geaccentueerde ATC-spraak. Daarnaast benadrukt het artikel het belang van regiospecifieke datasets en accentgerichte training, en biedt het een pad voor het implementeren van ASR-systemen in militaire operaties met beperkte middelen. De bevindingen benadrukken de noodzaak van trainingstechnieken die bestand zijn tegen ruis en regiospecifieke datasets om de transcriptienauwkeurigheid te verbeteren voor niet-westerse accenten in ATC-communicatie.

Drop-Upcycling: Het trainen van een Schrale Mengeling van Experts met Gedeeltelijke Herinitialisatie
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26

ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki

De Mixture of Experts (MoE) architectuur vermindert de trainings- en inferentiekosten aanzienlijk in vergelijking met een dicht model van gelijke capaciteit. Upcycling is een benadering die een MoE-model initialiseert en traint met behulp van een voorgeleerd dicht model. Hoewel upcycling leidt tot initiële prestatiewinst, verloopt het trainingsproces langzamer dan wanneer het vanaf nul wordt getraind, wat resulteert in suboptimale prestaties op de lange termijn. Wij stellen Drop-Upcycling voor - een methode die dit probleem effectief aanpakt. Drop-Upcycling combineert twee ogenschijnlijk tegenstrijdige benaderingen: het benutten van de kennis van voorgeleerde dichte modellen terwijl sommige delen van de gewichten statistisch opnieuw worden geïnitialiseerd. Deze benadering bevordert strategisch expertspecialisatie, wat aanzienlijk de efficiëntie van het MoE-model bij kennisverwerving verbetert. Uitgebreide grootschalige experimenten tonen aan dat Drop-Upcycling op de lange termijn aanzienlijk beter presteert dan eerdere methoden voor het construeren van MoE, met name bij training op honderden miljarden tokens of meer. Als gevolg hiervan behaalt ons MoE-model met 5,9 miljard actieve parameters vergelijkbare prestaties als een 13 miljard dicht model in dezelfde modelfamilie, terwijl het ongeveer 1/4 van de trainings-FLOPs vereist. Alle experimentele bronnen, inclusief broncode, trainingsgegevens, modelcontrolepunten en logboeken, zijn openbaar beschikbaar om reproduceerbaarheid en toekomstig onderzoek naar MoE te bevorderen.

AISafetyLab: Een Uitgebreid Kader voor Evaluatie en Verbetering van AI-Veiligheid
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24

ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang

Naarmate AI-modellen steeds vaker worden ingezet in diverse real-world scenario's, blijft het waarborgen van hun veiligheid een cruciale maar onderbelichte uitdaging. Hoewel er aanzienlijke inspanningen zijn geleverd om de veiligheid van AI te evalueren en te verbeteren, vormen het ontbreken van een gestandaardiseerd raamwerk en een uitgebreide toolkit aanzienlijke obstakels voor systematisch onderzoek en praktische toepassing. Om deze kloof te overbruggen, introduceren we AISafetyLab, een uniform raamwerk en toolkit dat representatieve aanvals-, verdedigings- en evaluatiemethodologieën voor AI-veiligheid integreert. AISafetyLab beschikt over een intuïtieve interface waarmee ontwikkelaars naadloos verschillende technieken kunnen toepassen, terwijl een goed gestructureerde en uitbreidbare codebase wordt behouden voor toekomstige ontwikkelingen. Daarnaast voeren we empirische studies uit op Vicuna, waarbij we verschillende aanvals- en verdedigingsstrategieën analyseren om waardevolle inzichten te bieden in hun vergelijkende effectiviteit. Om voortdurend onderzoek en ontwikkeling in AI-veiligheid te faciliteren, is AISafetyLab publiekelijk beschikbaar op https://github.com/thu-coai/AISafetyLab, en zijn we toegewijd aan de continue onderhoud en verbetering ervan.

MolSpectra: Pre-training van 3D Moleculaire Representatie met Multi-modale Energie Spectra
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22

ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

Het vaststellen van de relatie tussen 3D-structuren en de energietoestanden van moleculaire systemen heeft zich bewezen als een veelbelovende aanpak voor het leren van 3D-moleculaire representaties. Bestaande methoden zijn echter beperkt tot het modelleren van de moleculaire energietoestanden vanuit de klassieke mechanica. Deze beperking resulteert in een aanzienlijke verwaarlozing van kwantummechanische effecten, zoals gekwantiseerde (discrete) energieniveaustructuren, die een nauwkeurigere schatting van de moleculaire energie bieden en experimenteel gemeten kunnen worden via energiespectra. In dit artikel stellen we voor om de energiespectra te gebruiken om de pre-training van 3D-moleculaire representaties (MolSpectra) te verbeteren, waardoor kennis van de kwantummechanica wordt geïntegreerd in de moleculaire representaties. Specifiek introduceren we SpecFormer, een multi-spectrum encoder voor het coderen van moleculaire spectra via gemaskeerde patch-reconstructie. Door de uitvoer van de 3D-encoder en de spectrum-encoder verder af te stemmen met behulp van een contrastief doel, verbeteren we het begrip van de 3D-encoder van moleculen. Evaluaties op openbare benchmarks laten zien dat onze vooraf getrainde representaties bestaande methoden overtreffen in het voorspellen van moleculaire eigenschappen en het modelleren van dynamiek.

Naar Optimale Multi-Concept Speculatieve Decodering
Towards Optimal Multi-draft Speculative Decoding

Feb 26

ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang

Grote Taalmodellen (LLM's) zijn een onmisbaar onderdeel geworden van taken voor natuurlijke taalverwerking. Autoregressieve bemonstering is echter een efficiëntieknelpunt geworden. Multi-Concept Speculatief Decoderen (MDSD) is een recente benadering waarbij bij het genereren van elk token een kleine conceptuele model meerdere concepten genereert, en het doel-LLM controleert ze parallel, zodat de uiteindelijke output overeenkomt met de doelmodelverdeling. De twee belangrijkste ontwerpkeuzes in MDSD zijn de conceptbemonsteringsmethode en het verificatiealgoritme. Voor een vaste conceptbemonsteringsmethode is het optimale acceptatiepercentage een oplossing voor een optimaal transportprobleem, maar de complexiteit van dit probleem maakt het moeilijk om het optimale acceptatiepercentage op te lossen en het verschil te meten tussen bestaande verificatiealgoritmen en de theoretische bovengrens. Dit artikel bespreekt de dualiteit van het optimale transportprobleem, waardoor het mogelijk is om het optimale acceptatiepercentage efficiënt te berekenen. Voor het eerst meten we de theoretische bovengrens van de efficiëntie van MDSD voor woordenschatgroottes in de duizenden en kwantificeren we het verschil tussen bestaande verificatiealgoritmen en deze bovengrens. We vergelijken ook verschillende conceptbemonsteringsmethoden op basis van hun optimale acceptatiepercentages. Onze resultaten tonen aan dat de conceptbemonsteringsmethode sterk van invloed is op het optimale acceptatiepercentage, waarbij bemonstering zonder vervanging beter presteert dan bemonstering met vervanging. Bovendien bereiken bestaande verificatiealgoritmen niet de theoretische bovengrens voor zowel bemonstering zonder vervanging als met vervanging. Onze bevindingen suggereren dat zorgvuldig ontworpen conceptbemonsteringsmethoden potentieel het optimale acceptatiepercentage kunnen verbeteren en de ontwikkeling van verificatiealgoritmen mogelijk maken die nauw aansluiten bij de theoretische bovengrens.

PosterSum: Een Multimodale Benchmark voor Wetenschappelijke Postersamenvatting
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24

ByRohit Saxena, Pasquale Minervini, Frank Keller

Het genereren van nauwkeurige en beknopte tekstuele samenvattingen uit multimodale documenten is een uitdaging, vooral bij visueel complexe inhoud zoals wetenschappelijke posters. Wij introduceren PosterSum, een nieuwe benchmark om de ontwikkeling van visie-taalmodellen te bevorderen die wetenschappelijke posters kunnen begrijpen en samenvatten in onderzoekspaperabstracts. Onze dataset bevat 16.305 conferentieposters, gekoppeld aan hun bijbehorende abstracten als samenvattingen. Elke poster wordt in beeldformaat aangeboden en presenteert diverse visuele begripsuitdagingen, zoals complexe lay-outs, dichte tekstregio's, tabellen en figuren. We testen state-of-the-art Multimodale Grote Taalmodellen (MLLMs) op PosterSum en tonen aan dat ze moeite hebben om wetenschappelijke posters nauwkeurig te interpreteren en samen te vatten. We stellen Segment & Summarize voor, een hiërarchische methode die huidige MLLMs overtreft op geautomatiseerde metrieken, met een winst van 3,14% in ROUGE-L. Dit zal dienen als startpunt voor toekomstig onderzoek naar postersamenvatting.

DOEI: Dubbele Optimalisatie van Informatie-Inbedding voor Aandacht-Versterkte Klassenactivatiekaarten
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao

Zwak gesuperviseerde semantische segmentatie (WSSS) maakt doorgaans gebruik van beperkte semantische annotaties om initiële Class Activation Maps (CAM's) te verkrijgen. Echter, vanwege de ontoereikende koppeling tussen klasse-activatieresponsen en semantische informatie in een hoog-dimensionale ruimte, is de CAM gevoelig voor objectco-voorkomen of onderactivatie, wat resulteert in een inferieure herkenningsnauwkeurigheid. Om dit probleem aan te pakken, stellen we DOEI voor, Dual Optimization of Embedding Information, een nieuw benadering die insluitende representaties reconstrueert via semantisch-bewuste aandachtsgewichtsmatrices om de expressiemogelijkheid van insluitende informatie te optimaliseren. Specifiek versterkt DOEI tokens met hoge zekerheid en onderdrukt die met lage zekerheid tijdens de klasse-naar-patch interactie. Deze afstemming van activatieresponsen met semantische informatie versterkt de propagatie en ontkoppeling van doelfuncties, waardoor de gegenereerde insluitingen doelkenmerken nauwkeuriger kunnen vertegenwoordigen in een semantische ruimte op hoog niveau. Daarnaast stellen we een hybride-functieafstemmingsmodule voor in DOEI die RGB-waarden, insluiting-geleide functies en zelfaandachtsgewichten combineert om de betrouwbaarheid van kandidaat-tokens te vergroten. Uitgebreide experimenten tonen aan dat DOEI een effectieve plug-and-play module is die visual transformer-gebaseerde WSSS-modellen van de laatste stand van de techniek in staat stelt om aanzienlijk de kwaliteit van CAM's en segmentatieprestaties te verbeteren op populaire benchmarks, waaronder PASCAL VOC (+3,6%, +1,5%, +1,2% mIoU) en MS COCO (+1,2%, +1,6% mIoU). De code zal beschikbaar zijn op https://github.com/AIGeeksGroup/DOEI.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

GHOST 2.0: generatieve overdracht van hoofden met hoge getrouwheid in één keer
GHOST 2.0: generative high-fidelity one shot transfer of heads

Feb 25

ByAlexander Groshev, Anastasiia Iashchenko, Pavel Paramonov, Denis Dimitrov, Andrey Kuznetsov

Kanana: Rekenkundig efficiënte tweetalige taalmodelen
Kanana: Compute-efficient Bilingual Language Models

Feb 26

Naar een AI-co-wetenschapper
Towards an AI co-scientist

Feb 26

TheoremExplainAgent: Naar Multimodale Verklaringen voor LLM Stellingenbegrip
TheoremExplainAgent: Towards Multimodal Explanations for LLM Theorem Understanding

Feb 26

ByMax Ku, Thomas Chong, Jonathan Leung, Krish Shah, Alvin Yu, Wenhu Chen

Plutus: Benchmarking van grote taalmodellen in het Grieks met beperkte financiële bronnen
Plutus: Benchmarking Large Language Models in Low-Resource Greek Finance

Feb 26

ByXueqing Peng, Triantafillos Papadopoulos, Efstathia Soufleri, Polydoros Giannouris, Ruoyu Xiang, Yan Wang, Lingfei Qian, Jimin Huang, Qianqian Xie, Sophia Ananiadou

De feitelijkheid van taalmodelen hangt af van de taal van bevraging.
Language Models' Factuality Depends on the Language of Inquiry

Feb 25

ByTushar Aggarwal, Kumar Tanmay, Ayush Agrawal, Kumar Ayush, Hamid Palangi, Paul Pu Liang

Rang 1: Testtijd berekenen voor opnieuw rangschikken in Informatie ophalen
Rank1: Test-Time Compute for Reranking in Information Retrieval

Feb 25

ByOrion Weller, Kathryn Ricci, Eugene Yang, Andrew Yates, Dawn Lawrie, Benjamin Van Durme

Kunnen grote taalmodellen fouten detecteren in lange ketens van redeneringen?
Can Large Language Models Detect Errors in Long Chain-of-Thought Reasoning?

Feb 26

ByYancheng He, Shilong Li, Jiaheng Liu, Weixun Wang, Xingyuan Bu, Ge Zhang, Zhongyuan Peng, Zhaoxiang Zhang, Wenbo Su, Bo Zheng

Agentisch Beloningsmodelleren: Integratie van Menselijke Voorkeuren met Verifieerbare Correctheidssignalen voor Betrouwbare Beloningssystemen
Agentic Reward Modeling: Integrating Human Preferences with Verifiable Correctness Signals for Reliable Reward Systems

Feb 26

ByHao Peng, Yunjia Qi, Xiaozhi Wang, Zijun Yao, Bin Xu, Lei Hou, Juanzi Li

Project Alexandria: Naar het Vrijmaken van Wetenschappelijke Kennis van Copyrightbeperkingen via LLM's
Project Alexandria: Towards Freeing Scientific Knowledge from Copyright Burdens via LLMs

Feb 26

ByChristoph Schuhmann, Gollam Rabby, Ameya Prabhu, Tawsif Ahmed, Andreas Hochlehnert, Huu Nguyen, Nick Akinci Heidrich, Ludwig Schmidt, Robert Kaczmarczyk, Sören Auer, Jenia Jitsev, Matthias Bethge

Kunnen Taalmodellen Falsifiëren? Evaluatie van Algoritmische Redenering met Tegenbeeldcreatie
Can Language Models Falsify? Evaluating Algorithmic Reasoning with Counterexample Creation

Feb 26

ByShiven Sinha, Shashwat Goel, Ponnurangam Kumaraguru, Jonas Geiping, Matthias Bethge, Ameya Prabhu

VEM: Omgevingsvrije exploratie voor het trainen van GUI-agenten met waardemodel van de omgeving
VEM: Environment-Free Exploration for Training GUI Agent with Value Environment Model

Feb 26

ByJiani Zheng, Lu Wang, Fangkai Yang, Chaoyun Zhang, Lingrui Mei, Wenjie Yin, Qingwei Lin, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Distilleer Elke Diepte: Distillatie Creëert een Sterkere Monoculaire Diepteschatter
Distill Any Depth: Distillation Creates a Stronger Monocular Depth Estimator

Feb 26

ByXiankang He, Dongyan Guo, Hongji Li, Ruibo Li, Ying Cui, Chi Zhang

CritiQ: Het afleiden van gegevenskwaliteitscriteria uit menselijke voorkeuren
CritiQ: Mining Data Quality Criteria from Human Preferences

Feb 26

ByHonglin Guo, Kai Lv, Qipeng Guo, Tianyi Liang, Zhiheng Xi, Demin Song, Qiuyinzhe Zhang, Yu Sun, Kai Chen, Xipeng Qiu, Tao Gui

BIG-Bench Extra Moeilijk
BIG-Bench Extra Hard

Feb 26

MMKE-Bench: Een Multimodaal Bewerkingsbenchmark voor Diverse Visuele Kennis
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

Feb 27

ByYuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li

FSPO: Optimalisatie van Voorkeur met Weinig Voorbeelden van Synthetische Voorkeursgegevens in LLM's Leidt tot Effectieve Personalisatie voor Echte Gebruikers
FSPO: Few-Shot Preference Optimization of Synthetic Preference Data in LLMs Elicits Effective Personalization to Real Users

Feb 26

ByAnikait Singh, Sheryl Hsu, Kyle Hsu, Eric Mitchell, Stefano Ermon, Tatsunori Hashimoto, Archit Sharma, Chelsea Finn

Het aanpassen van automatische spraakherkenning voor luchtverkeersleiding met accenten.
Adapting Automatic Speech Recognition for Accented Air Traffic Control Communications

Feb 27

ByMarcus Yu Zhe Wee, Justin Juin Hng Wong, Lynus Lim, Joe Yu Wei Tan, Prannaya Gupta, Dillion Lim, En Hao Tew, Aloysius Keng Siew Han, Yong Zhi Lim

Drop-Upcycling: Het trainen van een Schrale Mengeling van Experts met Gedeeltelijke Herinitialisatie
Drop-Upcycling: Training Sparse Mixture of Experts with Partial Re-initialization

Feb 26

ByTaishi Nakamura, Takuya Akiba, Kazuki Fujii, Yusuke Oda, Rio Yokota, Jun Suzuki

AISafetyLab: Een Uitgebreid Kader voor Evaluatie en Verbetering van AI-Veiligheid
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement

Feb 24

ByZhexin Zhang, Leqi Lei, Junxiao Yang, Xijie Huang, Yida Lu, Shiyao Cui, Renmiao Chen, Qinglin Zhang, Xinyuan Wang, Hao Wang, Hao Li, Xianqi Lei, Chengwei Pan, Lei Sha, Hongning Wang, Minlie Huang

MolSpectra: Pre-training van 3D Moleculaire Representatie met Multi-modale Energie Spectra
MolSpectra: Pre-training 3D Molecular Representation with Multi-modal Energy Spectra

Feb 22

ByLiang Wang, Shaozhen Liu, Yu Rong, Deli Zhao, Qiang Liu, Shu Wu, Liang Wang

Naar Optimale Multi-Concept Speculatieve Decodering
Towards Optimal Multi-draft Speculative Decoding

Feb 26

ByZhengmian Hu, Tong Zheng, Vignesh Viswanathan, Ziyi Chen, Ryan A. Rossi, Yihan Wu, Dinesh Manocha, Heng Huang

PosterSum: Een Multimodale Benchmark voor Wetenschappelijke Postersamenvatting
PosterSum: A Multimodal Benchmark for Scientific Poster Summarization

Feb 24

ByRohit Saxena, Pasquale Minervini, Frank Keller

DOEI: Dubbele Optimalisatie van Informatie-Inbedding voor Aandacht-Versterkte Klassenactivatiekaarten
DOEI: Dual Optimization of Embedding Information for Attention-Enhanced Class Activation Maps

Feb 21

ByHongjie Zhu, Zeyu Zhang, Guansong Pang, Xu Wang, Shimin Wen, Yu Bai, Daji Ergu, Ying Cai, Yang Zhao