HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

21 papers found

Babel: Open Multilingual Large Language Models die meer dan 90% van de wereldwijde sprekers bedienen
Babel: Open Multilingual Large Language Models Serving Over 90% of Global Speakers

Mar 2

ByYiran Zhao, Chaoqun Liu, Yue Deng, Jiahao Ying, Mahani Aljunied, Zhaodonghui Li, Lidong Bing, Hou Pong Chan, Yu Rong, Deli Zhao, Wenxuan Zhang

Grote taalmodellen (LLMs) hebben een revolutie teweeggebracht in natuurlijke taalverwerking (NLP), maar open-source meertalige LLMs blijven schaars, waarbij bestaande modellen vaak beperkt zijn in taaldekking. Dergelijke modellen geven meestal prioriteit aan goed ondersteunde talen, terwijl veel gesproken maar onderbedeelde talen vaak over het hoofd worden gezien. Om deze ongelijkheid aan te pakken, introduceren we Babel, een open meertalig LLM dat de top 25 talen qua aantal sprekers bestrijkt, meer dan 90% van de wereldbevolking ondersteunt, en veel talen omvat die door andere open meertalige LLMs worden verwaarloosd. In tegenstelling tot traditionele voortgezette voorafgaande trainingsbenaderingen, breidt Babel zijn parameteraantal uit via een laaguitbreidingstechniek die de prestatiecapaciteit van Babel verhoogt. We introduceren twee varianten: Babel-9B, ontworpen voor efficiënte inferentie en fine-tuning, en Babel-83B, dat een nieuwe standaard zet voor open meertalige LLMs. Uitgebreide evaluaties op meertalige taken tonen de superieure prestaties aan in vergelijking met open LLMs van vergelijkbare grootte. Bovendien bereikt Babel, met behulp van open-source begeleide fine-tuning datasets, opmerkelijke prestaties, waarbij Babel-9B-Chat de leiding neemt onder 10B-grote LLMs en Babel-83B-Chat een nieuwe standaard zet voor meertalige taken, en hetzelfde niveau bereikt als commerciële modellen.

HoT: Gemarkeerde Gedachtegang voor het Refereren aan Ondersteunende Feiten uit Invoergegevens
HoT: Highlighted Chain of Thought for Referencing Supporting Facts from Inputs

Mar 3

ByTin Nguyen, Logan Bolton, Mohammad Reza Taesiri, Anh Totti Nguyen

Een achilleshiel van Large Language Models (LLM's) is hun neiging om niet-feitelijke uitspraken te hallucineren. Een antwoord dat een mix van feitelijke en niet-feitelijke uitspraken bevat, vormt een uitdaging voor mensen om te verifiëren en hun beslissingen nauwkeurig op te baseren. Om dit probleem aan te pakken, stellen we Highlighted Chain-of-Thought Prompting (HoT) voor, een techniek om LLM's aan te zetten tot het genereren van reacties met XML-tags die feiten koppelen aan die in de query worden verstrekt. Dat wil zeggen, gegeven een invoervraag, zouden LLM's eerst de vraag herformatteren om XML-tags toe te voegen die belangrijke feiten benadrukken, en vervolgens een antwoord genereren met markeringen over de feiten die uit de invoer worden geciteerd. Interessant is dat HoT in few-shot settings beter presteert dan standaard chain of thought prompting (CoT) op een breed scala van 17 taken, variërend van rekenkunde en begrijpend lezen tot logisch redeneren. Wanneer mensen worden gevraagd om LLM-reacties te verifiëren, helpen markeringen tijdgebonden deelnemers om nauwkeuriger en efficiënter te herkennen wanneer LLM's correct zijn. Toch, verrassend genoeg, wanneer LLM's fout zijn, hebben HoT's de neiging om gebruikers te laten geloven dat een antwoord correct is.

Procesgebaseerde zelfbelonende taalmodellen
Process-based Self-Rewarding Language Models

Mar 5

ByShimao Zhang, Xiao Liu, Xin Zhang, Junxiao Liu, Zheheng Luo, Shujian Huang, Yeyun Gong

Grote Taalmodellen hebben uitstekende prestaties getoond bij diverse downstream taken en worden breed toegepast in meerdere scenario's. Menselijk geannoteerde voorkeursdata wordt gebruikt voor training om de prestaties van LLMs verder te verbeteren, wat echter beperkt wordt door de bovengrens van menselijke prestaties. Daarom is de Self-Rewarding methode voorgesteld, waarbij LLMs trainingsdata genereren door hun eigen uitvoer te belonen. Het bestaande self-rewarding paradigma is echter niet effectief in wiskundige redeneerscenario's en kan zelfs leiden tot een afname in prestaties. In dit werk stellen we de Process-based Self-Rewarding pipeline voor taalmodellen voor, die lang-durig redeneren, stapgewijze LLM-as-a-Judge en stapgewijze voorkeursoptimalisatie introduceert binnen het self-rewarding paradigma. Ons nieuwe paradigma verbetert met succes de prestaties van LLMs op meerdere wiskundige redeneerbenchmarks door iteratieve Process-based Self-Rewarding, wat het immense potentieel van self-rewarding aantoont om LLM-redenering te bereiken die menselijke capaciteiten mogelijk overstijgt.

KodCode: Een gevarieerde, uitdagende en verifieerbare synthetische dataset voor codering
KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding

Mar 4

ByZhangchen Xu, Yang Liu, Yueqin Yin, Mingyuan Zhou, Radha Poovendran

We introduceren KodCode, een synthetische dataset die de hardnekkige uitdaging aanpakt van het verkrijgen van hoogwaardige, verifieerbare trainingsgegevens over diverse moeilijkheidsgraden en domeinen voor het trainen van Large Language Models voor codering. Bestaande codegerichte bronnen slagen er doorgaans niet in om zowel de breedte van dekking (bijvoorbeeld van eenvoudige codeertaken tot geavanceerde algoritmische problemen) als verifieerbare correctheid (bijvoorbeeld unittests) te waarborgen. In tegenstelling hiermee bestaat KodCode uit vraag-oplossing-test-tripletten die systematisch worden gevalideerd via een zelfverificatieprocedure. Onze pijplijn begint met het synthetiseren van een breed scala aan codeervragen, waarna oplossingen en testgevallen worden gegenereerd met extra pogingen voor uitdagende problemen. Ten slotte wordt post-training datasynthese uitgevoerd door vragen te herschrijven in diverse formaten en antwoorden te genereren via een testgebaseerde afkeuringssteekproefprocedure vanuit een redeneermodel (DeepSeek R1). Deze pijplijn resulteert in een grootschalige, robuuste en diverse coderingsdataset. KodCode is geschikt voor supervised fine-tuning en de gekoppelde unittests bieden ook groot potentieel voor RL-tuning. Fine-tuning experimenten op coderingsbenchmarks (HumanEval(+), MBPP(+), BigCodeBench en LiveCodeBench) tonen aan dat met KodCode afgestemde modellen state-of-the-art prestaties bereiken, waarbij modellen zoals Qwen2.5-Coder-32B-Instruct en DeepSeek-R1-Distill-Llama-70B worden overtroffen.

GEN3C: 3D-geïnformeerde wereldconsistente videogeneratie met precieze camerabesturing
GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control

Mar 5

ByXuanchi Ren, Tianchang Shen, Jiahui Huang, Huan Ling, Yifan Lu, Merlin Nimier-David, Thomas Müller, Alexander Keller, Sanja Fidler, Jun Gao

We presenteren GEN3C, een generatief videomodel met precieze Camera Control en tijdelijke 3D Consistentie. Bestaande videomodellen genereren al realistische video's, maar ze maken weinig gebruik van 3D-informatie, wat leidt tot inconsistenties, zoals objecten die plotseling verschijnen en verdwijnen. Camera controle, als deze überhaupt wordt geïmplementeerd, is onnauwkeurig, omdat cameraparameters slechts inputs zijn voor het neuraal netwerk, dat vervolgens moet afleiden hoe de video afhangt van de camera. In tegenstelling hiermee wordt GEN3C geleid door een 3D cache: puntenwolken verkregen door het voorspellen van de pixelgewijze diepte van seed-afbeeldingen of eerder gegenereerde frames. Bij het genereren van de volgende frames wordt GEN3C geconditioneerd op de 2D-weergaven van de 3D cache met het nieuwe cameratraject dat door de gebruiker wordt verstrekt. Cruciaal is dat dit betekent dat GEN3C noch hoeft te onthouden wat het eerder heeft gegenereerd, noch de beeldstructuur hoeft af te leiden uit de camerapositie. Het model kan in plaats daarvan al zijn generatieve kracht richten op eerder niet waargenomen gebieden, evenals het voortbewegen van de scène naar het volgende frame. Onze resultaten tonen een nauwkeurigere camerabesturing dan eerder werk, evenals state-of-the-art resultaten in sparse-view novel view synthesis, zelfs in uitdagende omgevingen zoals rijsimulaties en monodynamische video. De resultaten zijn het beste te bekijken in video's. Bekijk onze webpagina! https://research.nvidia.com/labs/toronto-ai/GEN3C/

ABC: Betere controle bereiken over multimodale embeddings met behulp van VLMs
ABC: Achieving Better Control of Multimodal Embeddings using VLMs

Mar 1

ByBenjamin Schneider, Florian Kerschbaum, Wenhu Chen

Visuele inbeddingsmodellen blinken uit in zero-shot taken zoals visuele retrievel en classificatie. Deze modellen kunnen echter niet worden gebruikt voor taken die ambiguïteit bevatten of gebruikersinstructies vereisen. Deze taken vereisen een multimodaal inbeddingsmodel, dat inbeddingen uitvoert die visuele en natuurlijke taalinput combineren. Bestaande CLIP-gebaseerde benaderingen embedden afbeeldingen en tekst onafhankelijk van elkaar en fuseren het resultaat. Wij constateren dat dit resulteert in zwakke interacties tussen modaliteiten en slechte gebruikerscontrole over de representatie. Wij introduceren ABC, een open-source multimodaal inbeddingsmodel dat een visie-taalmodelbackbone gebruikt om beeldkenmerken diep te integreren met natuurlijke taal instructies. ABC behaalt de beste prestatie voor zijn grootte op MSCOCO beeld-naar-tekst retrievel en is het best presterende model voor classificatie- en VQA-taken in de Massive Multimodal Embedding Benchmark. Met een sterk geünificeerde visie-taalrepresentatie kan ABC natuurlijke taal gebruiken om subtiele en potentieel ambigue visuele retrievelproblemen op te lossen. Om deze capaciteit te evalueren, ontwerpen wij CtrlBench, een benchmark die vereist dat tekstuele instructies worden verweven met beeldinhoud voor correcte retrievel. ABC zet de standaard voor multimodale inbeddingen verder door hoogwaardige representaties en flexibele natuurlijke taalcontrole te bieden. Ons model en datasets zijn beschikbaar op onze projectpagina.

Verbetering van Abnormale Gronding voor Visuele Taalmodellen met Kennisbeschrijvingen
Enhancing Abnormality Grounding for Vision Language Models with Knowledge Descriptions

Mar 5

ByJun Li, Che Liu, Wenjia Bai, Rossella Arcucci, Cosmin I. Bercea, Julia A. Schnabel

Visuele Taalmodellen (VLMs) hebben indrukwekkende capaciteiten getoond in visuele grondingstaken. Hun effectiviteit in het medische domein, met name voor het detecteren en lokaliseren van afwijkingen in medische beelden, blijft echter onderbelicht. Een grote uitdaging is de complexe en abstracte aard van medische terminologie, waardoor het moeilijk is om pathologische afwijkingstermen direct te koppelen aan hun bijbehorende visuele kenmerken. In dit werk introduceren we een nieuwe aanpak om de prestaties van VLMs in het detecteren en lokaliseren van medische afwijkingen te verbeteren door gebruik te maken van gedecentraliseerde medische kennis. In plaats van modellen direct aan te sturen om specifieke afwijkingen te herkennen, richten we ons op het opdelen van medische concepten in fundamentele attributen en veelvoorkomende visuele patronen. Deze strategie bevordert een sterkere afstemming tussen tekstuele beschrijvingen en visuele kenmerken, wat zowel de herkenning als de lokalisatie van afwijkingen in medische beelden verbetert. We evalueren onze methode op het 0.23B Florence-2 basismodel en laten zien dat het vergelijkbare prestaties behaalt in het gronden van afwijkingen met aanzienlijk grotere 7B LLaVA-gebaseerde medische VLMs, ondanks dat het getraind is op slechts 1,5% van de data die voor dergelijke modellen wordt gebruikt. Experimentele resultaten tonen ook de effectiviteit van onze aanpak aan bij zowel bekende als voorheen onbekende afwijkingen, wat wijst op sterke generalisatiecapaciteiten.

CrowdSelect: Synthetische instructiedataselectie met multi-LLM-wijsheid
CrowdSelect: Synthetic Instruction Data Selection with Multi-LLM Wisdom

Mar 3

ByYisen Li, Lingfeng Yang, Wenxuan Shen, Pan Zhou, Yao Wan, Weiwei Lin, Dongping Chen

Het distilleren van de instructievolgende capaciteiten van geavanceerde Large Language Models naar kleinere modellen met behulp van een geselecteerde subset is een gangbare aanpak geworden in modeltraining. Hoewel bestaande strategieën voor het selecteren van synthetische instructiedata voornamelijk afhankelijk zijn van eendimensionale signalen (zoals beloningsscores, modelperplexiteit), slagen ze er niet in de complexiteit van instructievolging over diverse vakgebieden te vatten. Daarom onderzoeken we meer diverse signalen om uitgebreide kenmerken van instructie-responsparen vast te leggen en stellen we drie fundamentele metrieken voor die gebruikmaken van Multi-LLM-wijsheid, gebaseerd op (1) diverse LLM-responsen en (2) beoordeling door een beloningsmodel. Op basis van deze basismetrieken introduceren we CrowdSelect, een geïntegreerde metriek die een clustering-gebaseerde aanpak omvat om de diversiteit van responsen te behouden. Onze uitgebreide experimenten tonen aan dat onze fundamentele metrieken consistent de prestaties verbeteren over 4 basismodellen op MT-bench en Arena-Hard. CrowdSelect, dat efficiënt alle metrieken incorporeert, behaalt state-of-the-art prestaties in zowel Full als LoRA fine-tuning, met verbeteringen van 4,81% op Arena-Hard en 11,1% op MT-bench met Llama-3.2-3b-instruct. We hopen dat onze bevindingen waardevolle inzichten zullen bieden voor toekomstig onderzoek in deze richting. Code is beschikbaar op https://github.com/listentm/crowdselect.

Fijn afstemmen van kleine taalmodellen voor domeinspecifieke AI: een Edge AI-perspectief
Fine-Tuning Small Language Models for Domain-Specific AI: An Edge AI Perspective

Mar 3

ByRakshit Aralimatti, Syed Abdul Gaffar Shakhadri, Kruthika KR, Kartik Basavaraj Angadi

Het implementeren van grootschalige taalmodelen op edge-apparaten gaat gepaard met inherente uitdagingen, zoals hoge rekenkundige eisen, energieverbruik en potentiële risico's voor gegevensprivacy. Dit artikel introduceert de Shakti Small Language Models (SLMs) Shakti-100M, Shakti-250M en Shakti-500M, die deze beperkingen rechtstreeks aanpakken. Door efficiënte architecturen, kwantiserings-technieken en verantwoorde AI-principes te combineren, maakt de Shakti-serie on-device intelligentie mogelijk voor smartphones, slimme apparaten, IoT-systemen en meer. We bieden uitgebreide inzichten in hun ontwerpfilosofie, trainingspijplijnen en benchmarkprestaties op zowel algemene taken (bijv. MMLU, Hellaswag) als gespecialiseerde domeinen (gezondheidszorg, financiën en juridisch). Onze bevindingen tonen aan dat compacte modellen, wanneer ze zorgvuldig ontworpen en afgestemd zijn, aan de verwachtingen kunnen voldoen en deze vaak overtreffen in real-world edge-AI-scenario's.

Her-maskeren van Discrete Diffusiemodellen met Schaling tijdens Inferentie
Remasking Discrete Diffusion Models with Inference-Time Scaling

Mar 1

ByGuanghan Wang, Yair Schiff, Subham Sekhar Sahoo, Volodymyr Kuleshov

Een deel van het succes van diffusiemodellen komt voort uit hun vermogen om iteratieve verfijning uit te voeren, d.w.z. het herhaaldelijk corrigeren van uitvoer tijdens het generatieproces. Moderne gemaskeerde discrete diffusie mist echter deze mogelijkheid: zodra een token is gegenereerd, kan deze niet meer worden bijgewerkt, zelfs niet wanneer deze een fout introduceert. Hier pakken we deze beperking aan door de remasking diffusiemodel (ReMDM) sampler te introduceren, een methode die op een principiële manier kan worden toegepast op vooraf getrainde gemaskeerde diffusiemodellen en die is afgeleid van een discreet diffusiemodel met een aangepast remasking achterwaarts proces. Het meest interessante is dat ReMDM discrete diffusie voorziet van een vorm van schaalbaarheid van rekentijd tijdens inferentie. Door het aantal samplingstappen te verhogen, genereert ReMDM natuurlijke taaluitvoer die de kwaliteit van autoregressieve modellen benadert, terwijl wanneer het rekenbudget beperkt is, ReMDM de kwaliteit beter behoudt. ReMDM verbetert ook de steekproefkwaliteit van gemaskeerde diffusiemodellen voor gediscretiseerde afbeeldingen, en in wetenschappelijke domeinen zoals molecuulontwerp vergemakkelijkt ReMDM diffusiebegeleiding en verlegt het de Pareto-grens van beheersbaarheid ten opzichte van klassieke masking en uniforme ruis-diffusie. We bieden de code samen met een blogpost op de projectpagina: https://remdm.github.io.

Mengsel van Structurele en Tekstuele Retrieval over Tekstrijke Grafiek Kennisbanken
Mixture of Structural-and-Textual Retrieval over Text-rich Graph Knowledge Bases

Feb 27

ByYongjia Lei, Haoyu Han, Ryan A. Rossi, Franck Dernoncourt, Nedim Lipka, Mahantesh M Halappanavar, Jiliang Tang, Yu Wang

Tekstrijke Grafische Kennisbanken (TG-KBs) zijn steeds belangrijker geworden voor het beantwoorden van vragen door tekstuele en structurele kennis te bieden. Huidige retrievamethodeën halen deze twee soorten kennis echter vaak geïsoleerd op, zonder rekening te houden met hun wederzijdse versterking, en sommige hybride methoden omzeilen zelfs de structurele retrieval volledig na naburige aggregatie. Om deze kloof te dichten, stellen we een Mixture of Structural-and-Textual Retrieval (MoR) voor om deze twee soorten kennis op te halen via een Planning-Reasoning-Organizing raamwerk. In de Planning-fase genereert MoR tekstuele planningsgrafieken die de logica voor het beantwoorden van vragen schetsen. Na de planningsgrafieken verweeft MoR in de Reasoning-fase structurele doorlopen en tekstuele matching om kandidaten uit TG-KBs te verkrijgen. In de Organizing-fase herrangschikt MoR de opgehaalde kandidaten verder op basis van hun structurele traject. Uitgebreide experimenten tonen de superioriteit van MoR aan in het harmoniseren van structurele en tekstuele retrieval met inzichten, waaronder ongelijke retrievemogelijkheden bij verschillende vraaglogica's en de voordelen van het integreren van structurele trajecten voor het herrangschikken van kandidaten. Onze code is beschikbaar op https://github.com/Yoega/MoR.

QE4PE: Woordniveau Kwaliteitsschatting voor Menselijke Nabewerking
QE4PE: Word-level Quality Estimation for Human Post-Editing

Mar 4

ByGabriele Sarti, Vilém Zouhar, Grzegorz Chrupała, Ana Guerberof-Arenas, Malvina Nissim, Arianna Bisazza

Woordniveau-kwaliteitsschatting (QE) detecteert foutieve segmenten in machinaal gegenereerde vertalingen, wat het menselijk na-editeren kan sturen en vergemakkelijken. Hoewel de nauwkeurigheid van woordniveau-QE-systemen uitgebreid is geëvalueerd, blijven hun bruikbaarheid en downstream-impact op de snelheid, kwaliteit en bewerkingskeuzes van menselijk na-editeren onderbelicht. Onze QE4PE-studie onderzoekt de invloed van woordniveau-QE op het na-editeren van machinaal gegenereerde vertalingen (MT) in een realistische setting met 42 professionele na-editors in twee vertaalrichtingen. We vergelijken vier modaliteiten voor het markeren van foutieve segmenten, waaronder gesuperviseerde en op onzekerheid gebaseerde woordniveau-QE-methoden, voor het identificeren van potentiële fouten in de uitvoer van een state-of-the-art neuraal MT-model. De inspanning en productiviteit van het na-editeren worden geschat aan de hand van gedragslogboeken, terwijl kwaliteitsverbeteringen worden beoordeeld door menselijke annotatie op woord- en segmentniveau. We constateren dat domein, taal en de snelheid van de editors kritieke factoren zijn bij het bepalen van de effectiviteit van markeringen, waarbij bescheiden verschillen tussen door mensen gemaakte en geautomatiseerde QE-markeringen een kloof tussen nauwkeurigheid en bruikbaarheid in professionele workflows benadrukken.

Het verkennen van herschrijfbenaderingen voor verschillende gesprekstaken
Exploring Rewriting Approaches for Different Conversational Tasks

Feb 26

ByMd Mehrab Tanjim, Ryan A. Rossi, Mike Rimer, Xiang Chen, Sungchul Kim, Vaishnavi Muppala, Tong Yu, Zhengmian Hu, Ritwik Sinha, Wei Zhang, Iftikhar Ahamath Burhanuddin, Franck Dernoncourt

Conversatie-assistenten vereisen vaak een algoritme voor het herschrijven van vragen dat gebruikmaakt van een subset van eerdere interacties om een betekenisvollere (nauwkeurigere) antwoord te geven op de vraag of het verzoek van de gebruiker. De exacte aanpak voor het herschrijven hangt echter vaak af van de use case en de toepassingsspecifieke taken die door de conversatie-assistent worden ondersteund, naast andere beperkingen. In dit artikel onderzoeken we systematisch twee verschillende benaderingen, aangeduid als herschrijven en fusie, voor twee fundamenteel verschillende generatietaken, waaronder een tekst-naar-tekst generatietaak en een multimodale generatieve taak die tekst als invoer neemt en een visualisatie of datatabel genereert die de vraag van de gebruiker beantwoordt. Onze resultaten geven aan dat de specifieke herschrijf- of fusiebenadering sterk afhangt van de onderliggende use case en de generatieve taak. In het bijzonder vinden we dat voor een conversatie-assistent voor vraagbeantwoording de query-herschrijvingbenadering het beste presteert, terwijl voor een data-analyseassistent die visualisaties en datatabellen genereert op basis van de conversatie van de gebruiker met de assistent, de fusiebenadering het beste werkt. Opmerkelijk is dat we twee datasets verkennen voor de use case van de data-analyseassistent, voor korte en lange conversaties, en we ontdekken dat queryfusie altijd beter presteert, terwijl voor de tekstgebaseerde vraagbeantwoording in conversaties de query-herschrijvingbenadering het beste presteert.

FLAME: Een Federated Learning Benchmark voor Robotmanipulatie
FLAME: A Federated Learning Benchmark for Robotic Manipulation

Mar 3

BySantiago Bou Betran, Alberta Longhini, Miguel Vasco, Yuchong Zhang, Danica Kragic

Recente vooruitgang in robotmanipulatie is aangedreven door grootschalige datasets die in diverse omgevingen zijn verzameld. Het trainen van robotmanipulatiebeleid op deze datasets gebeurt traditioneel op een gecentraliseerde manier, wat zorgen oproept over schaalbaarheid, aanpasbaarheid en gegevensprivacy. Hoewel federated learning gedecentraliseerde, privacybeschermende training mogelijk maakt, blijft de toepassing ervan op robotmanipulatie grotendeels onontgonnen. Wij introduceren FLAME (Federated Learning Across Manipulation Environments), de eerste benchmark die is ontworpen voor federated learning in robotmanipulatie. FLAME bestaat uit: (i) een set grootschalige datasets met meer dan 160.000 expertdemonstraties van meerdere manipulatietaken, verzameld in een breed scala aan gesimuleerde omgevingen; (ii) een trainings- en evaluatieraamwerk voor het leren van robotbeleid in een federated setting. We evalueren standaard federated learning-algoritmen in FLAME, tonen hun potentieel voor gedistribueerd beleidsleren aan en belichten belangrijke uitdagingen. Onze benchmark legt de basis voor schaalbare, aanpasbare en privacybewuste robotleren.

CognitiveDrone: Een VLA-model en evaluatiebenchmark voor real-time cognitieve taakoplossing en redenering in UAV's
CognitiveDrone: A VLA Model and Evaluation Benchmark for Real-Time Cognitive Task Solving and Reasoning in UAVs

Mar 3

ByArtem Lykov, Valerii Serpiva, Muhammad Haris Khan, Oleg Sautenkov, Artyom Myshlyaev, Grik Tadevosyan, Yasheerah Yaqoot, Dzmitry Tsetserukou

Dit artikel introduceert CognitiveDrone, een innovatief Vision-Language-Action (VLA)-model dat is ontworpen voor complexe taken met Onbemande Luchtvaartuigen (UAV's) die geavanceerde cognitieve vaardigheden vereisen. Het model is getraind op een dataset met meer dan 8.000 gesimuleerde vluchttrajectorieën in drie belangrijke categorieën: Mensherkenning, Symboolbegrip en Redeneren. Het genereert real-time 4D-actiecommando's op basis van first-person visuele input en tekstuele instructies. Om de prestaties in complexe scenario's verder te verbeteren, stellen we CognitiveDrone-R1 voor, dat een extra Vision-Language Model (VLM)-redeneermodule integreert om taakinstructies te vereenvoudigen voordat hoogfrequente controle plaatsvindt. Experimentele evaluaties met behulp van onze open-source benchmark, CognitiveDroneBench, laten zien dat terwijl een op racen gericht model (RaceVLA) een algeheel slagingspercentage van 31,3% behaalt, het basis CognitiveDrone-model 59,6% bereikt en CognitiveDrone-R1 een slagingspercentage van 77,2% behaalt. Deze resultaten tonen verbeteringen van tot wel 30% in kritieke cognitieve taken, wat de effectiviteit onderstreept van het integreren van geavanceerde redeneervaardigheden in UAV-besturingssystemen. Onze bijdragen omvatten de ontwikkeling van een state-of-the-art VLA-model voor UAV-besturing en de introductie van de eerste toegewijde benchmark voor het beoordelen van cognitieve taken in drone-operaties. De volledige repository is beschikbaar op cognitivedrone.github.io.

Benchmarken van Grote Taalmodellen voor Multi-Talige Softwarekwetsbaarheidsdetectie
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo

Recente ontwikkelingen in generatieve AI hebben geleid tot de wijdverspreide adoptie van grote taalmodellen (LLMs) in software engineering, waarbij tal van lang bestaande uitdagingen worden aangepakt. Er ontbreekt echter een uitgebreide studie die de mogelijkheden van LLMs onderzoekt bij het detecteren van softwarekwetsbaarheden (SVD), een cruciaal aspect van softwaresecurity. Bestaand onderzoek richt zich voornamelijk op het evalueren van LLMs met behulp van C/C++-datasets. Het verkent doorgaans slechts één of twee strategieën onder prompt engineering, instruction tuning en sequence classification fine-tuning voor open-source LLMs. Hierdoor bestaat er een aanzienlijke kennislacune over de effectiviteit van diverse LLMs bij het detecteren van kwetsbaarheden in verschillende programmeertalen. Om deze kennislacune aan te pakken, presenteren we een uitgebreide empirische studie die de prestaties van LLMs bij de SVD-taak evalueert. We hebben een uitgebreide dataset samengesteld met 8.260 kwetsbare functies in Python, 7.505 in Java en 28.983 in JavaScript. We evalueren vijf open-source LLMs met behulp van meerdere benaderingen, waaronder prompt engineering, instruction tuning en sequence classification fine-tuning. Deze LLMs worden vergeleken met vijf fine-tuned kleine taalmodellen en twee open-source static application security testing tools. Daarnaast verkennen we twee manieren om de prestaties van LLMs op SVD te verbeteren: a) Dataperspectief: Het opnieuw trainen van modellen met behulp van gedownsamplede gebalanceerde datasets. b) Modelperspectief: Het onderzoeken van ensemble learning-methoden die voorspellingen van meerdere LLMs combineren. Onze uitgebreide experimenten tonen aan dat SVD een uitdagende taak blijft voor LLMs. Deze studie biedt een grondig inzicht in de rol van LLMs bij SVD en biedt praktische inzichten voor toekomstige vooruitgang in het benutten van generatieve AI om softwaresecuritypraktijken te verbeteren.

Retrievalmodellen zijn niet toolvaardig: Benchmarking van toolretrieval voor grote taalmodellen
Retrieval Models Aren't Tool-Savvy: Benchmarking Tool Retrieval for Large Language Models

Mar 3

ByZhengliang Shi, Yuhan Wang, Lingyong Yan, Pengjie Ren, Shuaiqiang Wang, Dawei Yin, Zhaochun Ren

Tool learning heeft als doel om grote taalmodellen (LLMs) uit te breiden met diverse tools, waardoor ze kunnen functioneren als agents voor het oplossen van praktische taken. Vanwege de beperkte contextlengte van LLMs die tools gebruiken, is het toepassen van informatie-retrieval (IR) modellen om nuttige tools te selecteren uit grote toolverzamelingen een cruciale eerste stap. Echter, de prestaties van IR-modellen in tool-retrieval taken blijven onderbelicht en onduidelijk. De meeste benchmarks voor toolgebruik vereenvoudigen deze stap door handmatig een kleine set relevante tools voor elke taak vooraf te annoteren, wat ver afstaat van realistische scenario's. In dit artikel stellen we ToolRet voor, een heterogene tool-retrieval benchmark bestaande uit 7.6k diverse retrieval taken, en een corpus van 43k tools, verzameld uit bestaande datasets. We benchmarken zes typen modellen op ToolRet. Verrassend genoeg vertonen zelfs modellen met sterke prestaties in conventionele IR benchmarks slechte prestaties op ToolRet. Deze lage retrievalkwaliteit vermindert de taak-succesratio van toolgebruikende LLMs. Als vervolgstap dragen we een grootschalige trainingsdataset bij met meer dan 200k instanties, die de tool-retrievalcapaciteit van IR-modellen aanzienlijk optimaliseert.

SwiLTra-Bench: De Zwitserse Benchmark voor Juridische Vertaling
SwiLTra-Bench: The Swiss Legal Translation Benchmark

Mar 3

ByJoel Niklaus, Jakob Merane, Luka Nenadic, Sina Ahmadi, Yingqiang Gao, Cyrill A. H. Chevalley, Claude Humbel, Christophe Gösken, Lorenzo Tanzi, Thomas Lüthi, Stefan Palombo, Spencer Poff, Boling Yang, Nan Wu, Matthew Guillod, Robin Mamié, Daniel Brunner, Julio Pereyra, Niko Grupen

In Zwitserland is juridische vertaling bijzonder belangrijk vanwege de vier officiële talen van het land en de vereisten voor meertalige juridische documentatie. Dit proces is echter traditioneel afhankelijk van professionals die zowel juridische experts als bekwame vertalers moeten zijn, wat knelpunten veroorzaakt en de effectieve toegang tot rechtvaardigheid beïnvloedt. Om deze uitdaging aan te pakken, introduceren we SwiLTra-Bench, een uitgebreide meertalige benchmark van meer dan 180K uitgelijnde Zwitserse juridische vertaalparen, bestaande uit wetten, kopnoten en persberichten in alle Zwitserse talen samen met Engels, ontworpen om LLM-gebaseerde vertaalsystemen te evalueren. Onze systematische evaluatie toont aan dat toonaangevende modellen superieure vertaalprestaties behalen voor alle documenttypen, terwijl gespecialiseerde vertaalsystemen specifiek uitblinken in wetten maar onderpresteren in kopnoten. Door rigoureus testen en validatie door menselijke experts tonen we aan dat, hoewel het finetunen van open SLM's hun vertaalkwaliteit aanzienlijk verbetert, ze nog steeds achterblijven bij de beste zero-shot geprompte toonaangevende modellen zoals Claude-3.5-Sonnet. Daarnaast presenteren we SwiLTra-Judge, een gespecialiseerd LLM-evaluatiesysteem dat het beste aansluit bij de beoordelingen van menselijke experts.

Diverse Beleid voor Controleerbare Diffusie met Signaal Temporele Logica
Diverse Controllable Diffusion Policy with Signal Temporal Logic

Mar 4

ByYue Meng, Chuchu fan

Het genereren van realistische simulaties is cruciaal voor toepassingen van autonome systemen, zoals zelfrijdende auto's en mens-robotinteracties. Hedendaagse rijsimulatoren hebben echter nog steeds moeite met het genereren van controleerbare, diverse en regelconforme gedragingen voor weggebruikers: op regels gebaseerde modellen kunnen geen diverse gedragingen produceren en vereisen zorgvuldige afstemming, terwijl op leren gebaseerde methoden het beleid imiteren vanuit data, maar niet expliciet zijn ontworpen om de regels te volgen. Bovendien zijn real-world datasets van nature "single-outcome", wat het voor de leermethode moeilijk maakt om diverse gedragingen te genereren. In dit artikel maken we gebruik van Signal Temporal Logic (STL) en Diffusion Models om een controleerbaar, divers en regelbewust beleid te leren. We kalibreren eerst de STL op de real-world data, genereren vervolgens diverse synthetische data met behulp van trajectoptimalisatie, en leren ten slotte het gecorrigeerde diffusiebeleid op de uitgebreide dataset. We testen op de NuScenes dataset en onze aanpak kan de meest diverse regelconforme trajecten bereiken in vergelijking met andere baseline-methoden, met een looptijd van 1/17X ten opzichte van de op één na beste aanpak. In de closed-loop-testing bereikt onze aanpak de hoogste diversiteit, regelconformiteit en het laagste botsingspercentage. Onze methode kan verschillende kenmerken genereren, afhankelijk van verschillende STL-parameters tijdens het testen. Een case study over mens-robotontmoetingsscenario's laat zien dat onze aanpak diverse en dicht bij de oracle liggende trajecten kan genereren. De annotatietool, uitgebreide dataset en code zijn beschikbaar op https://github.com/mengyuest/pSTL-diffusion-policy.

Betrouwbare en efficiënte multi-agent coördinatie via grafische neuraal netwerk variatie-autoencoders
Reliable and Efficient Multi-Agent Coordination via Graph Neural Network Variational Autoencoders

Mar 4

ByYue Meng, Nathalie Majcherczyk, Wenliang Liu, Scott Kiesel, Chuchu Fan, Federico Pecora

Multi-agent coördinatie is cruciaal voor betrouwbare navigatie van meerdere robots in gedeelde ruimtes, zoals geautomatiseerde magazijnen. In gebieden met dicht robotverkeer kunnen lokale coördinatiemethoden falen om een deadlock-vrije oplossing te vinden. In deze scenario's is het gepast om een centrale eenheid een globaal schema te laten genereren dat de volgorde van de robots bepaalt. De uitvoeringstijd van dergelijke gecentraliseerde coördinatiemethoden neemt echter aanzienlijk toe met de schaal van het probleem. In dit artikel stellen we voor om Graph Neural Network Variational Autoencoders (GNN-VAE) te benutten om het multi-agent coördinatieprobleem op grote schaal sneller op te lossen dan via gecentraliseerde optimalisatie. We formuleren het coördinatieprobleem als een grafiekprobleem en verzamelen grondwaarheidsgegevens met behulp van een Mixed-Integer Linear Program (MILP) solver. Tijdens de training codeert ons leerraamwerk hoogwaardige oplossingen van het grafiekprobleem in een latente ruimte. Tijdens de inferentie worden oplossingsmonsters gedecodeerd uit de bemonsterde latente variabelen, en het monster met de laagste kosten wordt geselecteerd voor coördinatie. Ten slotte wordt het uitvoerbare voorstel met de hoogste prestatie-index geselecteerd voor implementatie. Door constructie retourneert ons GNN-VAE raamwerk oplossingen die altijd voldoen aan de beperkingen van het beschouwde coördinatieprobleem. Numerieke resultaten tonen aan dat onze aanpak, getraind op kleinschalige problemen, hoogwaardige oplossingen kan bereiken, zelfs voor grootschalige problemen met 250 robots, en veel sneller is dan andere baseline methoden. Projectpagina: https://mengyuest.github.io/gnn-vae-coord

Interact, Instruct om te Verbeteren: Een LLM-Gestuurd Parallel Actor-Reasoner Framework voor het Verbeteren van Interacties van Autonome Voertuigen
Interact, Instruct to Improve: A LLM-Driven Parallel Actor-Reasoner Framework for Enhancing Autonomous Vehicle Interactions

Mar 1

ByShiyu Fang, Jiaqi Liu, Chengkai Xu, Chen Lv, Peng Hang, Jian Sun

Autonome Voertuigen (AV's) hebben het commercialisatiestadium bereikt, maar hun beperkte vermogen om te interacteren en intenties uit te drukken, blijft een uitdaging vormen in interacties met door mensen bestuurde voertuigen (HV's). Recente vooruitgang in grote taalmodellen (LLM's) maakt bidirectionele mens-machinecommunicatie mogelijk, maar het conflict tussen de trage inferentiesnelheid en de behoefte aan real-time besluitvorming vormt een uitdaging voor praktische implementatie. Om deze problemen aan te pakken, introduceert dit artikel een parallel Actor-Reasoner-framework dat is ontworpen om expliciete bidirectionele AV-HV-interacties in meerdere scenario's mogelijk te maken. Ten eerste wordt door het faciliteren van interacties tussen de LLM-gestuurde Reasoner en heterogene gesimuleerde HV's tijdens de training een interactiegeheugendatabase, aangeduid als de Actor, opgesteld. Vervolgens wordt door de introductie van de geheugenpartitiemodule en de tweelaagse geheugenretrievalmodule het vermogen van de Actor om met heterogene HV's om te gaan aanzienlijk verbeterd. Ablatiestudies en vergelijkingen met andere besluitvormingsmethoden tonen aan dat het voorgestelde Actor-Reasoner-framework de veiligheid en efficiëntie aanzienlijk verbetert. Ten slotte wordt, met de combinatie van de externe Mens-Machine-Interface (eHMI)-informatie afgeleid van de redenering van de Reasoner en de haalbare actieoplossingen opgehaald uit de Actor, de effectiviteit van de voorgestelde Actor-Reasoner bevestigd in veldinteracties met meerdere scenario's. Onze code is beschikbaar op https://github.com/FanGShiYuu/Actor-Reasoner.

Benchmarken van Grote Taalmodellen voor Multi-Talige Softwarekwetsbaarheidsdetectie
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection

Mar 3

ByTing Zhang, Chengran Yang, Yindu Su, Martin Weyssow, Hung Nguyen, Tan Bui, Hong Jin Kang, Yikun Li, Eng Lieh Ouh, Lwin Khin Shar, David Lo