AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

WebThinker: Grote Redeneermodellen Versterken met Diepgaande Onderzoekscapaciteit
WebThinker: Empowering Large Reasoning Models with Deep Research Capability

Apr 30

ByXiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou

Grote redeneermodellen (LRMs), zoals OpenAI-o1 en DeepSeek-R1, tonen indrukwekkende vermogens voor langetermijnredenering. Hun afhankelijkheid van statische interne kennis beperkt echter hun prestaties op complexe, kennisintensieve taken en belemmert hun vermogen om uitgebreide onderzoeksrapporten te produceren die een synthese vereisen van diverse webinformatie. Om dit aan te pakken, stellen we WebThinker voor, een diepgaand onderzoeksagent dat LRMs in staat stelt om autonoom het web te doorzoeken, webpagina's te navigeren en onderzoeksrapporten op te stellen tijdens het redeneerproces. WebThinker integreert een Deep Web Explorer-module, waardoor LRMs dynamisch kunnen zoeken, navigeren en informatie uit het web kunnen extraheren wanneer ze kennislacunes tegenkomen. Het maakt ook gebruik van een autonome Think-Search-and-Draft-strategie, waardoor het model naadloos redeneren, informatievergaring en rapportschrijven in realtime kan afwisselen. Om het gebruik van onderzoeksinstrumenten verder te verbeteren, introduceren we een RL-gebaseerde trainingsstrategie via iteratieve online Direct Preference Optimization (DPO). Uitgebreide experimenten op complexe redeneerbenchmarks (GPQA, GAIA, WebWalkerQA, HLE) en wetenschappelijke rapportgeneratietaken (Glaive) tonen aan dat WebThinker aanzienlijk beter presteert dan bestaande methoden en sterke propriëtaire systemen. Onze aanpak verbetert de betrouwbaarheid en toepasbaarheid van LRMs in complexe scenario's, wat de weg vrijmaakt voor krachtigere en veelzijdigere diepgaande onderzoekssystemen. De code is beschikbaar op https://github.com/RUC-NLPIR/WebThinker.

Sadeed: Vooruitgang in Arabische Diacritisering via Kleine Taalmodellen
Sadeed: Advancing Arabic Diacritization Through Small Language Model

Apr 30

ByZeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan

Arabische tekstdiacritisering blijft een hardnekkige uitdaging in natuurlijke taalverwerking vanwege de morfologische rijkdom van de taal. In dit artikel introduceren we Sadeed, een nieuwe aanpak gebaseerd op een fijn afgestemd decoder-only taalmodel, aangepast van Kuwain 1.5B Hennara et al. [2025], een compact model dat oorspronkelijk is getraind op diverse Arabische corpora. Sadeed is fijn afgestemd op zorgvuldig samengestelde, hoogwaardige gediacritiseerde datasets, die zijn opgebouwd via een rigoureus data-cleaning en normalisatieproces. Ondanks het gebruik van bescheiden rekenbronnen, behaalt Sadeed competitieve resultaten in vergelijking met propriëtaire grote taalmodelen en overtreft het traditionele modellen die op vergelijkbare domeinen zijn getraind. Daarnaast belichten we belangrijke beperkingen in de huidige benchmarkpraktijken voor Arabische diacritisering. Om deze problemen aan te pakken, introduceren we SadeedDiac-25, een nieuwe benchmark ontworpen om een eerlijkere en meer uitgebreide evaluatie mogelijk te maken over diverse tekstgenres en complexiteitsniveaus. Samen bieden Sadeed en SadeedDiac-25 een robuuste basis voor het bevorderen van Arabische NLP-toepassingen, waaronder machinaal vertalen, tekst-naar-spraak en taal-leerhulpmiddelen.

Phi-4-reasoning Technisch Rapport
Phi-4-reasoning Technical Report

Apr 30

ByMarah Abdin, Sahaj Agarwal, Ahmed Awadallah, Vidhisha Balachandran, Harkirat Behl, Lingjiao Chen, Gustavo de Rosa, Suriya Gunasekar, Mojan Javaheripi, Neel Joshi, Piero Kauffmann, Yash Lara, Caio César Teodoro Mendes, Arindam Mitra, Besmira Nushi, Dimitris Papailiopoulos, Olli Saarikivi, Shital Shah, Vaishnavi Shrivastava, Vibhav Vineet, Yue Wu, Safoora Yousefi, Guoqing Zheng

We introduceren Phi-4-reasoning, een redeneermodel met 14 miljard parameters dat sterke prestaties levert op complexe redeneertaken. Het model is getraind via supervised fine-tuning van Phi-4 op een zorgvuldig samengestelde set van "leerbare" prompts—geselecteerd op basis van het juiste niveau van complexiteit en diversiteit—en redeneerdemonstraties gegenereerd met o3-mini. Phi-4-reasoning produceert gedetailleerde redeneerketens die effectief gebruikmaken van rekentijd tijdens inferentie. We ontwikkelden verder Phi-4-reasoning-plus, een variant versterkt door een korte fase van outcome-based reinforcement learning, die hogere prestaties biedt door langere redeneersporen te genereren. Over een breed scala aan redeneertaken presteren beide modellen aanzienlijk beter dan veel grotere open-weight modellen zoals het DeepSeek-R1-Distill-Llama-70B-model en benaderen ze de prestatieniveaus van het volledige DeepSeek-R1-model. Onze uitgebreide evaluaties omvatten benchmarks op het gebied van wiskundig en wetenschappelijk redeneren, coderen, algoritmisch probleemoplossen, planning en ruimtelijk inzicht. Interessant genoeg observeren we ook een niet-triviale overdracht van verbeteringen naar algemene benchmarks. In dit rapport bieden we inzichten in onze trainingsdata, onze trainingsmethodologieën en onze evaluaties. We tonen aan dat het voordeel van zorgvuldige datacuratie voor supervised fine-tuning (SFT) zich uitstrekt tot redeneertaalmodellen en verder kan worden versterkt door reinforcement learning (RL). Tot slot wijst onze evaluatie op mogelijkheden om de manier waarop we de prestaties en robuustheid van redeneermodellen beoordelen, te verbeteren.

Phi-4-Mini-Reasoning: Het verkennen van de grenzen van kleine redeneertaalmodellen in wiskunde
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

Apr 30

ByHaoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen

Chain-of-Thought (CoT) verbetert de formele redeneervaardigheden van Large Language Models (LLMs) aanzienlijk door ze te trainen om expliciet tussenliggende redeneerstappen te genereren. Hoewel LLMs duidelijk baat hebben bij dergelijke technieken, blijft het verbeteren van redeneervaardigheden in Small Language Models (SLMs) een uitdaging vanwege hun beperkte modelcapaciteit. Recent werk van Deepseek-R1 toont aan dat distillatie van door LLM gegenereerde synthetische data de redeneervaardigheid van SLM aanzienlijk kan verbeteren. Het gedetailleerde modelrecept wordt echter niet vrijgegeven. In dit werk presenteren we een systematisch trainingsrecept voor SLMs dat uit vier stappen bestaat: (1) grootschalige mid-training op diverse gedistilleerde lange-CoT-data, (2) supervised fine-tuning op hoogwaardige lange-CoT-data, (3) Rollout DPO met behulp van een zorgvuldig samengestelde voorkeursdataset, en (4) Reinforcement Learning (RL) met Verifieerbare Beloning. We passen onze methode toe op Phi-4-Mini, een compact model met 3,8 miljard parameters. Het resulterende Phi-4-Mini-Reasoning model overtreft, bij wiskundige redeneertaken, veel grotere redeneermodellen, bijvoorbeeld door DeepSeek-R1-Distill-Qwen-7B met 3,2 punten en DeepSeek-R1-Distill-Llama-8B met 7,7 punten te verslaan op Math-500. Onze resultaten valideren dat een zorgvuldig ontworpen trainingsrecept, met grootschalige hoogwaardige CoT-data, effectief is om sterke redeneervaardigheden te ontgrendelen, zelfs in resource-beperkte kleine modellen.

100 Dagen Na DeepSeek-R1: Een Overzicht van Replicatiestudies en Meer Richtlijnen voor Redeneertaalmodellen
100 Days After DeepSeek-R1: A Survey on Replication Studies and More Directions for Reasoning Language Models

May 1

ByChong Zhang, Yue Deng, Xiang Lin, Bin Wang, Dianwen Ng, Hai Ye, Xingxuan Li, Yao Xiao, Zhanfeng Mo, Qi Zhang, Lidong Bing

De recente ontwikkeling van redenerende taalmodelen (RLMs) vertegenwoordigt een nieuwe evolutie in grote taalmodelen. In het bijzonder heeft de recente release van DeepSeek-R1 een brede maatschappelijke impact gehad en enthousiasme gewekt in de onderzoeksgemeenschap voor het verkennen van het expliciete redeneerparadigma van taalmodelen. Echter zijn de implementatiedetails van de vrijgegeven modellen, waaronder DeepSeek-R1-Zero, DeepSeek-R1 en de gedistilleerde kleine modellen, niet volledig openbaar gemaakt door DeepSeek. Als gevolg hiervan zijn er veel replicatiestudies ontstaan die ernaar streven de sterke prestaties van DeepSeek-R1 te reproduceren, waarbij vergelijkbare prestaties worden bereikt door vergelijkbare trainingsprocedures en volledig openbare databronnen. Deze studies hebben haalbare strategieën onderzocht voor supervised fine-tuning (SFT) en reinforcement learning van verifieerbare beloningen (RLVR), met een focus op datavoorbereiding en methodedesign, wat verschillende waardevolle inzichten heeft opgeleverd. In dit rapport bieden we een samenvatting van recente replicatiestudies om toekomstig onderzoek te inspireren. We richten ons voornamelijk op SFT en RLVR als twee hoofdrichtingen, waarbij we de details introduceren voor dataconstructie, methodedesign en trainingsprocedures van huidige replicatiestudies. Bovendien vatten we belangrijke bevindingen samen uit de implementatiedetails en experimentele resultaten die door deze studies zijn gerapporteerd, in de hoop toekomstig onderzoek te inspireren. We bespreken ook aanvullende technieken voor het verbeteren van RLMs, waarbij we het potentieel benadrukken om het toepassingsbereik van deze modellen uit te breiden, en de uitdagingen in de ontwikkeling bespreken. Met dit overzicht willen we onderzoekers en ontwikkelaars van RLMs helpen op de hoogte te blijven van de nieuwste ontwikkelingen, en streven we ernaar nieuwe ideeën te inspireren om RLMs verder te verbeteren.

Softpick: Geen Attention Sink, Geen Massale Activaties met Gecorrigeerde Softmax
Softpick: No Attention Sink, No Massive Activations with Rectified Softmax

Apr 29

ByZayd M. K. Zuhri, Erland Hilman Fuadi, Alham Fikri Aji

We introduceren softpick, een gecorrigeerde, niet-som-tot-één, directe vervanging voor softmax in transformer-attentiemechanismen die aandachtssinks en massieve activaties elimineert. Onze experimenten met modellen van 340M parameters tonen aan dat softpick prestaties behoudt die gelijk zijn aan softmax op standaard benchmarks, terwijl een sinkpercentage van 0% wordt bereikt. De softpick-transformer produceert verborgen toestanden met aanzienlijk lagere kurtosis (340 vs 33.510) en creëert sparse aandachtmaps (46,97% sparsity). Modellen die softpick gebruiken, presteren consistent beter dan softmax wanneer ze gekwantiseerd worden, met name uitgesproken voordelen bij lagere bitprecisies. Onze analyse en discussie laten zien hoe softpick nieuwe mogelijkheden kan openen voor kwantisatie, training met lage precisie, sparsity-optimalisatie, pruning en interpreteerbaarheid. Onze code is beschikbaar op https://github.com/zaydzuhri/softpick-attention.

COMPACT: COMPositionele Atoom-naar-Complex Visuele Vaardigheidsafstemming
COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

Apr 30

ByXindi Wu, Hee Seung Hwang, Polina Kirichenko, Olga Russakovsky

Multimodale Large Language Models (MLLMs) blinken uit in eenvoudige visueel-taalkundige taken, maar hebben moeite met complexe taken die meerdere vaardigheden vereisen, zoals het gelijktijdig herkennen van objecten, deze tellen en hun ruimtelijke relaties begrijpen. Dit kan deels het gevolg zijn van het feit dat Visual Instruction Tuning (VIT), een cruciale trainingsstap voor MLLMs, traditioneel gericht is geweest op het schalen van de datavolume, maar niet op de compositionele complexiteit van de trainingsvoorbeelden. Wij stellen COMPACT voor (COMPositional Atomic-to-complex visual Capability Tuning), dat een trainingsdataset genereert waarbij expliciet controle wordt uitgeoefend op de compositionele complexiteit van de trainingsvoorbeelden. De data van COMPACT stelt MLLMs in staat om combinaties van atomische vaardigheden te trainen om complexe vaardigheden efficiënter te leren. Op alle benchmarks behaalt COMPACT vergelijkbare prestaties als de LLaVA-665k VIT terwijl minder dan 10% van het databudget wordt gebruikt, en overtreft het deze zelfs op verschillende benchmarks, vooral die waarbij complexe taken met meerdere vaardigheden betrokken zijn. Zo behaalt COMPACT een aanzienlijke verbetering van 83,3% op MMStar en 94,0% op MM-Vet in vergelijking met de volledige VIT, met name bij complexe vragen die vier of meer atomische vaardigheden vereisen. COMPACT biedt een schaalbare, data-efficiënte, visuele compositionele tuningmethode om prestaties te verbeteren op complexe visueel-taalkundige taken.

Voorbij het laatste antwoord: je redeneerspoor onthult meer dan je denkt
Beyond the Last Answer: Your Reasoning Trace Uncovers More than You Think

Apr 29

ByHasan Abed Al Kader Hammoud, Hani Itani, Bernard Ghanem

Grote Taalmodellen (LLMs) maken gebruik van stapsgewijs redeneren om complexe problemen op te lossen. De standaard evaluatiepraktijk omvat het genereren van een volledige redeneringstrace en het beoordelen van de juistheid van het uiteindelijke antwoord dat aan het einde wordt gepresenteerd. In dit artikel betwisten we de afhankelijkheid van het uiteindelijke antwoord door de volgende twee vragen te stellen: Vertegenwoordigt het uiteindelijke antwoord betrouwbaar de optimale conclusie van het model? Kunnen alternatieve redeneringspaden tot verschillende resultaten leiden? Om deze vragen te beantwoorden, analyseren we tussenliggende redeneringsstappen, die we subgedachten noemen, en stellen we een methode voor op basis van onze bevindingen. Onze aanpak omvat het segmenteren van een redeneringstrace in opeenvolgende subgedachten op basis van linguïstische aanwijzingen. We beginnen door het model aan te zetten om vervolgen te genereren vanaf het eindpunt van elke tussenliggende subgedachte. We extraheren een potentieel antwoord uit elk voltooid vervolg dat afkomstig is van verschillende subgedachten. We ontdekken dat het samenvoegen van deze antwoorden door het meest voorkomende antwoord (de modus) te selecteren vaak een aanzienlijk hogere nauwkeurigheid oplevert in vergelijking met het uitsluitend vertrouwen op het antwoord afgeleid van de originele volledige trace. De analyse van de consistentie tussen de antwoorden afgeleid van verschillende subgedachten onthult kenmerken die correleren met het vertrouwen en de juistheid van het model, wat suggereert dat er potentieel is om minder betrouwbare antwoorden te identificeren. Onze experimenten met verschillende LLMs en uitdagende wiskundige redeneerdatasets (AIME2024 en AIME2025) tonen consistente verbeteringen in nauwkeurigheid, met winsten die oplopen tot respectievelijk 13\% en 10\%. De implementatie is beschikbaar op: https://github.com/hammoudhasan/SubthoughtReasoner.

Generatieve AI voor Karakteranimatie: Een Uitgebreid Overzicht van Technieken, Toepassingen en Toekomstige Richtingen
Generative AI for Character Animation: A Comprehensive Survey of Techniques, Applications, and Future Directions

Apr 27

ByMohammad Mahdi Abootorabi, Omid Ghahroodi, Pardis Sadat Zahraei, Hossein Behzadasl, Alireza Mirrokni, Mobina Salimipanah, Arash Rasouli, Bahar Behzadipour, Sara Azarnoush, Benyamin Maleki, Erfan Sadraiye, Kiarash Kiani Feriz, Mahdi Teymouri Nahad, Ali Moghadasi, Abolfazl Eshagh Abianeh, Nizi Nazar, Hamid R. Rabiee, Mahdieh Soleymani Baghshah, Meisam Ahmadi, Ehsaneddin Asgari

Generatieve AI is bezig kunst, gaming en vooral animatie te hervormen. Recente doorbraken in foundation- en diffusiemodellen hebben de tijd en kosten voor het produceren van geanimeerde content verminderd. Karakters zijn centrale componenten van animatie, waarbij beweging, emoties, gebaren en gezichtsuitdrukkingen een rol spelen. Het tempo en de breedte van de ontwikkelingen in de afgelopen maanden maken het moeilijk om een coherent overzicht van het vakgebied te behouden, wat de noodzaak van een integrerende review onderstreept. In tegenstelling tot eerdere overzichten die avatars, gebaren of gezichtsanimatie geïsoleerd behandelen, biedt deze survey een enkel, uitgebreid perspectief op alle belangrijkste generatieve AI-toepassingen voor karakteranimatie. We beginnen met het onderzoeken van de state-of-the-art op het gebied van gezichtsanimatie, expressieweergave, beeld-synthese, avatarcreatie, gebarenmodellering, bewegingssynthese, objectgeneratie en texturesynthese. We belichten toonaangevend onderzoek, praktische implementaties, veelgebruikte datasets en opkomende trends voor elk gebied. Om nieuwkomers te ondersteunen, bieden we ook een uitgebreide achtergrondsectie die foundationmodellen en evaluatiemetrics introduceert, zodat lezers de benodigde kennis hebben om het vakgebied te betreden. We bespreken open uitdagingen en schetsen toekomstige onderzoeksrichtingen, waardoor een roadmap ontstaat om AI-gestuurde karakteranimatietechnologieën verder te ontwikkelen. Deze survey is bedoeld als bron voor onderzoekers en ontwikkelaars die het vakgebied van generatieve AI-animatie of aanverwante gebieden betreden. Bronnen zijn beschikbaar op: https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey.

Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technisch Rapport
Llama-3.1-FoundationAI-SecurityLLM-Base-8B Technical Report

Apr 28

ByPaul Kassianik, Baturay Saglam, Alexander Chen, Blaine Nelson, Anu Vellore, Massimo Aufiero, Fraser Burch, Dhruv Kedia, Avi Zohary, Sajana Weerawardhena, Aman Priyanshu, Adam Swanda, Amy Chang, Hyrum Anderson, Kojin Oshiba, Omar Santos, Yaron Singer, Amin Karbasi

Naarmate transformer-gebaseerde grote taalmodellen (LLMs) steeds meer doordringen in de samenleving, hebben ze domeinen zoals software-engineering, creatief schrijven en digitale kunst gerevolutioneerd. Hun adoptie in cybersecurity blijft echter beperkt vanwege uitdagingen zoals schaarste aan gespecialiseerde trainingsdata en de complexiteit van het representeren van cybersecurity-specifieke kennis. Om deze lacunes aan te pakken, presenteren we Foundation-Sec-8B, een cybersecurity-gericht LLM gebouwd op de Llama 3.1-architectuur en versterkt door voortgezette pretraining op een zorgvuldig samengesteld cybersecurity-corpus. We evalueren Foundation-Sec-8B op zowel gevestigde als nieuwe cybersecurity-benchmarks, waaruit blijkt dat het Llama 3.1-70B en GPT-4o-mini evenaart in bepaalde cybersecurity-specifieke taken. Door ons model openbaar te maken, streven we ernaar de vooruitgang en adoptie van AI-gestuurde tools in zowel publieke als private cybersecurity-contexten te versnellen.

ReVision: Hoogwaardige, kosteneffectieve videogeneratie met expliciete 3D-fysicamodellering voor complexe beweging en interactie
ReVision: High-Quality, Low-Cost Video Generation with Explicit 3D Physics Modeling for Complex Motion and Interaction

Apr 30

ByQihao Liu, Ju He, Qihang Yu, Liang-Chieh Chen, Alan Yuille

De afgelopen jaren heeft videogeneratie aanzienlijke vooruitgang geboekt. Toch blijven er uitdagingen bestaan bij het genereren van complexe bewegingen en interacties. Om deze uitdagingen aan te pakken, introduceren we ReVision, een plug-and-play-framework dat geparametriseerde 3D-fysische kennis expliciet integreert in een voorgetraind conditioneel videogeneratiemodel, waardoor het vermogen om hoogwaardige video's met complexe bewegingen en interacties te genereren aanzienlijk wordt verbeterd. ReVision bestaat specifiek uit drie fasen. Eerst wordt een videodiffusiemodel gebruikt om een ruwe video te genereren. Vervolgens extraheren we een reeks 2D- en 3D-kenmerken uit de ruwe video om een 3D-objectgerichte representatie te construeren, die vervolgens wordt verfijnd door ons voorgestelde geparametriseerde fysische prior-model om een nauwkeurige 3D-bewegingsreeks te produceren. Ten slotte wordt deze verfijnde bewegingsreeks teruggevoerd naar hetzelfde videodiffusiemodel als aanvullende conditionering, waardoor het genereren van beweging-consistente video's mogelijk wordt, zelfs in scenario's met complexe acties en interacties. We valideren de effectiviteit van onze aanpak op Stable Video Diffusion, waarbij ReVision de bewegingsfideliteit en -coherentie aanzienlijk verbetert. Opmerkelijk is dat het, met slechts 1,5 miljard parameters, zelfs een state-of-the-art videogeneratiemodel met meer dan 13 miljard parameters overtreft bij het genereren van complexe video's met een aanzienlijke marge. Onze resultaten suggereren dat, door het integreren van 3D-fysische kennis, zelfs een relatief klein videodiffusiemodel complexe bewegingen en interacties met meer realisme en beheersbaarheid kan genereren, wat een veelbelovende oplossing biedt voor fysisch plausibele videogeneratie.

Het temmen van de titanen: Een overzicht van efficiënte LLM-inferentiebediening
Taming the Titans: A Survey of Efficient LLM Inference Serving

Apr 28

ByRanran Zhen, Juntao Li, Yixin Ji, Zhenlin Yang, Tong Liu, Qingrong Xia, Xinyu Duan, Zhefeng Wang, Baoxing Huai, Min Zhang

Grote Taalmodellen (LLM's) voor Generatieve AI hebben opmerkelijke vooruitgang geboekt en zijn geëvolueerd tot geavanceerde en veelzijdige tools die breed worden toegepast in verschillende domeinen en toepassingen. De aanzienlijke geheugenoverhead veroorzaakt door hun enorme aantal parameters, gecombineerd met de hoge rekenkundige eisen van het aandachtmechanisme, vormt echter aanzienlijke uitdagingen bij het bereiken van lage latentie en hoge doorvoer voor LLM-inferentiediensten. Recente doorbraken, aangedreven door baanbrekend onderzoek, hebben de vooruitgang op dit gebied aanzienlijk versneld. Dit artikel biedt een uitgebreid overzicht van deze methoden, waarbij fundamentele benaderingen op instantieniveau, diepgaande strategieën op clusterniveau, opkomende scenario-richtingen en andere diverse maar belangrijke gebieden worden behandeld. Op instantieniveau bespreken we modelplaatsing, aanvraagplanning, decoderinglengtevoorspelling, opslagbeheer en het disaggregatieparadigma. Op clusterniveau onderzoeken we GPU-clusterimplementatie, multi-instantiebelastingsverdeling en cloudserviceoplossingen. Voor opkomende scenario's organiseren we de discussie rond specifieke taken, modules en aanvullende methoden. Om een holistisch overzicht te waarborgen, belichten we ook verschillende niche maar kritieke gebieden. Tot slot schetsen we potentiële onderzoeksrichtingen om het veld van LLM-inferentiebediening verder te bevorderen.

RoboVerse: Naar een Geïntegreerd Platform, Dataset en Benchmark voor Schaalbaar en Generaliseerbaar Robotleren
RoboVerse: Towards a Unified Platform, Dataset and Benchmark for Scalable and Generalizable Robot Learning

Apr 26

ByHaoran Geng, Feishi Wang, Songlin Wei, Yuyang Li, Bangjun Wang, Boshi An, Charlie Tianyue Cheng, Haozhe Lou, Peihao Li, Yen-Jen Wang, Yutong Liang, Dylan Goetting, Chaoyi Xu, Haozhe Chen, Yuxi Qian, Yiran Geng, Jiageng Mao, Weikang Wan, Mingtong Zhang, Jiangran Lyu, Siheng Zhao, Jiazhao Zhang, Jialiang Zhang, Chengyang Zhao, Haoran Lu, Yufei Ding, Ran Gong, Yuran Wang, Yuxuan Kuang, Ruihai Wu, Baoxiong Jia, Carlo Sferrazza, Hao Dong, Siyuan Huang, Yue Wang, Jitendra Malik, Pieter Abbeel

Dataschaling en gestandaardiseerde evaluatiebenchmarks hebben aanzienlijke vooruitgang geboekt in natuurlijke taalverwerking en computervisie. Robotica wordt echter geconfronteerd met unieke uitdagingen bij het schalen van data en het opzetten van evaluatieprotocollen. Het verzamelen van real-world data is resource-intensief en inefficiënt, terwijl benchmarken in real-world scenario's zeer complex blijft. Synthetische data en simulatie bieden veelbelovende alternatieven, maar bestaande inspanningen schieten vaak tekort in data kwaliteit, diversiteit en benchmarkstandaardisatie. Om deze uitdagingen aan te pakken, introduceren we RoboVerse, een uitgebreid framework bestaande uit een simulatieplatform, een synthetische dataset en uniforme benchmarks. Ons simulatieplatform ondersteunt meerdere simulatoren en robotische uitvoeringen, waardoor naadloze overgangen tussen verschillende omgevingen mogelijk zijn. De synthetische dataset, met hoogwaardige fysica en fotorealistische rendering, is opgebouwd via meerdere benaderingen. Daarnaast stellen we uniforme benchmarks voor imitatieleren en reinforcement learning voor, waardoor evaluatie op verschillende niveaus van generalisatie mogelijk wordt. De kern van het simulatieplatform is MetaSim, een infrastructuur die diverse simulatieomgevingen abstraheert naar een universele interface. Het herstructureert bestaande simulatieomgevingen naar een simulator-onafhankelijk configuratiesysteem, evenals een API die verschillende simulatorfunctionaliteiten afstemt, zoals het starten van simulatieomgevingen, het laden van assets met initiële staten, het stappen van de fysica-engine, enz. Deze abstractie zorgt voor interoperabiliteit en uitbreidbaarheid. Uitgebreide experimenten tonen aan dat RoboVerse de prestaties van imitatieleren, reinforcement learning, wereldmodel leren en sim-to-real transfer verbetert. Deze resultaten valideren de betrouwbaarheid van onze dataset en benchmarks, en vestigen RoboVerse als een robuuste oplossing voor het bevorderen van robotleren.

UniBiomed: Een Universeel Fundamentmodel voor Gegronde Interpretatie van Biomedische Beelden
UniBiomed: A Universal Foundation Model for Grounded Biomedical Image Interpretation

Apr 30

ByLinshan Wu, Yuxiang Nie, Sunan He, Jiaxin Zhuang, Hao Chen

Multimodale interpretatie van biomedische afbeeldingen opent nieuwe mogelijkheden in biomedische beeldanalyse. Traditionele AI-benaderingen vertrouwen doorgaans op gescheiden training, zoals Large Language Models (LLMs) voor het genereren van klinische teksten en segmentatiemodellen voor het extraheren van doelen, wat resulteert in onflexibele inzet in de praktijk en het niet benutten van holistische biomedische informatie. Daarom introduceren we UniBiomed, het eerste universele foundation-model voor gegronde interpretatie van biomedische afbeeldingen. UniBiomed is gebaseerd op een nieuwe integratie van een Multimodaal Large Language Model (MLLM) en het Segment Anything Model (SAM), wat het genereren van klinische teksten en de segmentatie van bijbehorende biomedische objecten effectief verenigt voor gegronde interpretatie. Op deze manier is UniBiomed in staat om een breed scala aan biomedische taken aan te pakken over tien diverse biomedische beeldmodaliteiten. Voor de ontwikkeling van UniBiomed hebben we een grootschalige dataset samengesteld met meer dan 27 miljoen tripletten van afbeeldingen, annotaties en tekstbeschrijvingen over tien beeldmodaliteiten. Uitgebreide validatie op 84 interne en externe datasets toonde aan dat UniBiomed state-of-the-art prestaties behaalt in segmentatie, ziekteherkenning, regio-gerichte diagnose, visuele vraagbeantwoording en rapportgeneratie. Bovendien kunnen, in tegenstelling tot eerdere modellen die vertrouwen op klinische experts om afbeeldingen vooraf te diagnosticeren en handmatig precieze tekstuele of visuele prompts te maken, UniBiomed geautomatiseerde en end-to-end gegronde interpretatie bieden voor biomedische beeldanalyse. Dit vertegenwoordigt een nieuwe paradigmaverschuiving in klinische workflows, wat de diagnostische efficiëntie aanzienlijk zal verbeteren. Samengevat vertegenwoordigt UniBiomed een nieuwe doorbraak in biomedische AI, waarbij krachtige gegronde interpretatiemogelijkheden worden ontsloten voor nauwkeurigere en efficiëntere biomedische beeldanalyse.

Het selecteren van optimale kandidaatprofielen in vijandige omgevingen met behulp van conjointanalyse en machine learning
Selecting Optimal Candidate Profiles in Adversarial Environments Using Conjoint Analysis and Machine Learning

Apr 26

ByConnor T. Jerzak, Priyanshi Chandra, Rishi Hazra

Conjoint-analyse, een toepassing van factorieel experimenteel ontwerp, is een populair instrument in sociaalwetenschappelijk onderzoek voor het bestuderen van multidimensionale voorkeuren. In dergelijke experimenten binnen de context van politieke analyse wordt respondenten gevraagd te kiezen tussen twee hypothetische politieke kandidaten met willekeurig geselecteerde kenmerken, zoals partijaffiliatie, beleidsposities, geslacht en ras. Wij beschouwen het probleem van het identificeren van optimale kandidaatprofielen. Omdat het aantal unieke kenmerkcombinaties het totale aantal observaties in een typisch conjoint-experiment ver overtreft, is het onmogelijk om het optimale profiel exact te bepalen. Om deze identificatie-uitdaging aan te pakken, leiden we een optimale stochastische interventie af die een kansverdeling van verschillende attributen vertegenwoordigt, gericht op het bereiken van het meest gunstige gemiddelde resultaat. We beschouwen eerst een omgeving waarin één politieke partij hun kandidaatselectie optimaliseert. Vervolgens gaan we over naar het realistischer geval waarin twee politieke partijen hun eigen kandidaatselectie gelijktijdig en in tegenstelling tot elkaar optimaliseren. We passen de voorgestelde methodologie toe op een bestaand conjoint-experiment over stemkeuze voor de Amerikaanse president. We constateren dat, in tegenstelling tot de niet-adversariële aanpak, verwachte uitkomsten in het adversariële regime binnen het bereik van historische verkiezingsresultaten vallen, waarbij de optimale strategieën die door de methode worden voorgesteld, vaker overeenkomen met de daadwerkelijk waargenomen kandidaten vergeleken met strategieën die zijn afgeleid van een niet-adversariële aanpak. Deze bevindingen geven aan dat het incorporeren van adversariële dynamiek in conjoint-analyse unieke inzichten kan opleveren in sociaalwetenschappelijke gegevens uit experimenten.

AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

WebThinker: Grote Redeneermodellen Versterken met Diepgaande Onderzoekscapaciteit
WebThinker: Empowering Large Reasoning Models with Deep Research Capability

Apr 30

ByXiaoxi Li, Jiajie Jin, Guanting Dong, Hongjin Qian, Yutao Zhu, Yongkang Wu, Ji-Rong Wen, Zhicheng Dou

Sadeed: Vooruitgang in Arabische Diacritisering via Kleine Taalmodellen
Sadeed: Advancing Arabic Diacritization Through Small Language Model

Apr 30

ByZeina Aldallal, Sara Chrouf, Khalil Hennara, Mohamed Motaism Hamed, Muhammad Hreden, Safwan AlModhayan

Phi-4-reasoning Technisch Rapport
Phi-4-reasoning Technical Report

Apr 30

Phi-4-Mini-Reasoning: Het verkennen van de grenzen van kleine redeneertaalmodellen in wiskunde
Phi-4-Mini-Reasoning: Exploring the Limits of Small Reasoning Language Models in Math

Apr 30

ByHaoran Xu, Baolin Peng, Hany Awadalla, Dongdong Chen, Yen-Chun Chen, Mei Gao, Young Jin Kim, Yunsheng Li, Liliang Ren, Yelong Shen, Shuohang Wang, Weijian Xu, Jianfeng Gao, Weizhu Chen