AI Onderzoekspapers Dagelijks

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

SmolVLM: Herdefiniëring van kleine en efficiënte multimodale modellen
SmolVLM: Redefining small and efficient multimodal models

Apr 7

ByAndrés Marafioti, Orr Zohar, Miquel Farré, Merve Noyan, Elie Bakouch, Pedro Cuenca, Cyril Zakka, Loubna Ben Allal, Anton Lozhkov, Nouamane Tazi, Vaibhav Srivastav, Joshua Lochner, Hugo Larcher, Mathieu Morlon, Lewis Tunstall, Leandro von Werra, Thomas Wolf

205

Grote Vision-Language Models (VLMs) leveren uitzonderlijke prestaties, maar vereisen aanzienlijke rekenkracht, wat hun inzet op mobiele en edge-apparaten beperkt. Kleinere VLMs volgen doorgaans de ontwerpkeuzes van grotere modellen, zoals uitgebreide beeldtokenisatie, wat leidt tot inefficiënt GPU-geheugengebruik en beperkte praktische bruikbaarheid voor on-device toepassingen. Wij introduceren SmolVLM, een reeks compacte multimodale modellen die specifiek zijn ontworpen voor resource-efficiënte inferentie. We onderzoeken systematisch architectuurconfiguraties, tokenisatiestrategieën en data-curatie die zijn geoptimaliseerd voor lage rekenkosten. Hierdoor identificeren we cruciale ontwerpkeuzes die aanzienlijke prestatieverbeteringen opleveren bij beeld- en videotaken met minimale geheugenvoetafdruk. Ons kleinste model, SmolVLM-256M, gebruikt minder dan 1GB GPU-geheugen tijdens inferentie en presteert beter dan het 300 keer grotere Idefics-80B-model, ondanks een ontwikkelingsachterstand van 18 maanden. Ons grootste model, met 2,2 miljard parameters, kan concurreren met state-of-the-art VLMs die het dubbele GPU-geheugen verbruiken. SmolVLM-modellen gaan verder dan statische beelden en tonen robuuste videobegripcapaciteiten. Onze resultaten benadrukken dat strategische architectuuromzettingen, agressieve maar efficiënte tokenisatie en zorgvuldig samengestelde trainingsdata de multimodale prestaties aanzienlijk verbeteren, waardoor praktische, energie-efficiënte implementaties op aanzienlijk kleinere schaal mogelijk worden.

Eén-minuut videogeneratie met test-time training
One-Minute Video Generation with Test-Time Training

Apr 7

ByKaran Dalal, Daniel Koceja, Gashon Hussein, Jiarui Xu, Yue Zhao, Youjin Song, Shihao Han, Ka Chun Cheung, Jan Kautz, Carlos Guestrin, Tatsunori Hashimoto, Sanmi Koyejo, Yejin Choi, Yu Sun, Xiaolong Wang

110

Transformers hebben tegenwoordig nog steeds moeite om video's van één minuut te genereren, omdat self-attention lagen inefficiënt zijn voor lange contexten. Alternatieven zoals Mamba-lagen worstelen met complexe verhalen met meerdere scènes omdat hun verborgen toestanden minder expressief zijn. We experimenteren met Test-Time Training (TTT) lagen, waarvan de verborgen toestanden zelf neurale netwerken kunnen zijn, en dus expressiever zijn. Door TTT-lagen toe te voegen aan een vooraf getrainde Transformer, kan deze één minuut durende video's genereren op basis van tekstuele storyboards. Als proof of concept hebben we een dataset samengesteld gebaseerd op Tom en Jerry-tekenfilms. Vergeleken met baseline-methoden zoals Mamba~2, Gated DeltaNet en sliding-window attention lagen, genereren TTT-lagen veel samenhangendere video's die complexe verhalen vertellen, met een voorsprong van 34 Elo-punten in een menselijke evaluatie van 100 video's per methode. Hoewel de resultaten veelbelovend zijn, bevatten ze nog steeds artefacten, waarschijnlijk vanwege de beperkte capaciteit van het vooraf getrainde 5B-model. De efficiëntie van onze implementatie kan ook worden verbeterd. We hebben alleen geëxperimenteerd met video's van één minuut vanwege beperkte middelen, maar de aanpak kan worden uitgebreid naar langere video's en complexere verhalen. Voorbeeldvideo's, code en annotaties zijn beschikbaar op: https://test-time-training.github.io/video-dit

Heroverweging van Reflectie in Pre-training
Rethinking Reflection in Pre-Training

Apr 5

ByEssential AI, Darsh J Shah, Peter Rushton, Somanshu Singla, Mohit Parmar, Kurt Smith, Yash Vanjani, Ashish Vaswani, Adarsh Chaluvaraju, Andrew Hojel, Andrew Ma, Anil Thomas, Anthony Polloreno, Ashish Tanwer, Burhan Drak Sibai, Divya S Mansingka, Divya Shivaprasad, Ishaan Shah, Karl Stratos, Khoi Nguyen, Michael Callahan, Michael Pust, Mrinal Iyer, Philip Monk, Platon Mazarakis, Ritvik Kapila, Saurabh Srivastava, Tim Romanski

Het vermogen van een taalmodel om te reflecteren op zijn eigen redenering biedt een belangrijk voordeel bij het oplossen van complexe problemen. Hoewel het meeste recente onderzoek zich heeft gericht op hoe dit vermogen zich ontwikkelt tijdens reinforcement learning, laten wij zien dat het eigenlijk veel eerder begint te ontstaan - tijdens de pre-training van het model. Om dit te bestuderen, introduceren we opzettelijke fouten in ketens van redeneringen en testen we of het model nog steeds tot het juiste antwoord kan komen door deze fouten te herkennen en te corrigeren. Door de prestaties te volgen tijdens verschillende fasen van pre-training, observeren we dat dit zelfcorrigerende vermogen vroeg verschijnt en gestaag verbetert in de loop van de tijd. Zo vertoont een OLMo2-7B model dat is gepre-traind op 4 biljoen tokens zelfcorrectie bij onze zes zelfreflectietaken.

T1: Tool-geïntegreerde zelfverificatie voor schaling van rekenkracht tijdens testen in kleine taalmodellen
T1: Tool-integrated Self-verification for Test-time Compute Scaling in Small Language Models

Apr 7

ByMinki Kang, Jongwon Jeong, Jaewoong Cho

Recente studies hebben aangetoond dat het schalen van rekentijd tijdens testen effectief de prestaties van kleine taalmodellen (sLMs) verbetert. Eerdere onderzoeken hebben echter voornamelijk gekeken naar het schalen van rekentijd tijdens testen met een extra groter model als verifier, waardoor zelfverificatie door sLMs onderbelicht is gebleven. In dit werk onderzoeken we of sLMs hun uitvoer betrouwbaar kunnen zelfverifiëren onder testtijd-schaling. We constateren dat zelfs met kennisdistillatie van grotere verifiers, sLMs moeite hebben met verificatietaken die memorisatie vereisen, zoals numerieke berekeningen en feitencontrole. Om deze beperking aan te pakken, stellen we Tool-geïntegreerde zelfverificatie (T1) voor, waarbij memorisatie-intensieve verificatiestappen worden gedelegeerd aan externe tools, zoals een code-interpreter. Onze theoretische analyse toont aan dat toolintegratie de memorisatie-eisen vermindert en de prestaties bij testtijd-schaling verbetert. Experimenten op de MATH-benchmark laten zien dat, met T1, een Llama-3.2 1B-model onder testtijd-schaling het aanzienlijk grotere Llama-3.1 8B-model overtreft. Bovendien generaliseert T1 effectief naar zowel wiskundige (MATH500) als multidisciplinaire kennisintensieve taken (MMLU-Pro). Onze bevindingen benadrukken het potentieel van toolintegratie om de zelfverificatievaardigheden van sLMs aanzienlijk te verbeteren.

URECA: Unieke Regio Beschrijft Alles
URECA: Unique Region Caption Anything

Apr 7

BySangbeom Lim, Junwan Kim, Heeji Yoon, Jaewoo Jung, Seungryong Kim

Regiobeschrijving heeft als doel natuurlijke taal beschrijvingen te genereren voor specifieke beeldregio's, waarbij hun onderscheidende kenmerken worden benadrukt. Bestaande methoden hebben echter moeite om unieke beschrijvingen te produceren over meerdere granulariteiten, wat hun toepasbaarheid in de praktijk beperkt. Om de behoefte aan gedetailleerd begrip op regioniveau aan te pakken, introduceren we de URECA-dataset, een grootschalige dataset die is afgestemd op beschrijvingen van regio's met meerdere granulariteiten. In tegenstelling tot eerdere datasets die zich voornamelijk richten op opvallende objecten, zorgt de URECA-dataset voor een unieke en consistente mapping tussen regio's en beschrijvingen door een diverse set van objecten, onderdelen en achtergrondelementen te incorporeren. Centraal hierin staat een stapsgewijze data-curatiepijplijn, waarbij elke stap de regioselectie en beschrijvingsgeneratie geleidelijk verfijnt. Door Multimodale Grote Taalmodellen (MLLMs) in elke stap te benutten, produceert onze pijplijn onderscheidende en contextueel verankerde beschrijvingen met verbeterde nauwkeurigheid en semantische diversiteit. Op basis van deze dataset presenteren we URECA, een nieuw beschrijvingsmodel dat is ontworpen om regio's met meerdere granulariteiten effectief te coderen. URECA behoudt essentiële ruimtelijke eigenschappen zoals positie en vorm door eenvoudige maar impactvolle aanpassingen aan bestaande MLLMs, waardoor fijnmazige en semantisch rijke regionbeschrijvingen mogelijk worden. Onze aanpak introduceert dynamische maskermodellering en een maskerencoder met hoge resolutie om de uniciteit van beschrijvingen te verbeteren. Experimenten tonen aan dat URECA state-of-the-art prestaties bereikt op de URECA-dataset en zich goed generaliseert naar bestaande benchmarks voor regiobeschrijving.

Schadt kwantisatie redeneren? Een empirische studie naar gekwantiseerde redeneermodellen
Quantization Hurts Reasoning? An Empirical Study on Quantized Reasoning Models

Apr 7

ByRuikang Liu, Yuxuan Sun, Manyi Zhang, Haoli Bai, Xianzhi Yu, Tiezheng Yu, Chun Yuan, Lu Hou

Recente vooruitgang in redeneertaalmodellen heeft opmerkelijke prestaties laten zien in complexe taken, maar hun uitgebreide keten-van-gedachten-redeneerproces verhoogt de inferentie-overhead. Hoewel kwantisering veelvuldig is toegepast om de inferentiekosten van grote taalmodelen te verlagen, blijft de impact ervan op redeneermodellen onderbelicht. In deze studie voeren we het eerste systematische onderzoek uit naar gekwantiseerde redeneermodellen, waarbij we de open-source DeepSeek-R1-Distilled Qwen- en LLaMA-families evalueren, variërend van 1,5B tot 70B parameters, en QwQ-32B. Ons onderzoek omvat gewichts-, KV-cache- en activatiekwantisering met behulp van state-of-the-art algoritmen op verschillende bit-breedtes, met uitgebreide evaluatie over wiskundige (AIME, MATH-500), wetenschappelijke (GPQA) en programmeerredeneerbenchmarks (LiveCodeBench). Onze bevindingen tonen aan dat verliesloze kwantisering kan worden bereikt met W8A8- of W4A16-kwantisering, maar dat lagere bit-breedtes aanzienlijke nauwkeurigheidsrisico's met zich meebrengen. We identificeren verder modelgrootte, modeloorsprong en taakmoeilijkheid als kritieke prestatiebepalende factoren. In tegenstelling tot verwachtingen vertonen gekwantiseerde modellen geen verhoogde uitvoerlengtes. Daarnaast kan het strategisch schalen van de modelgroottes of redeneerstappen de prestaties effectief verbeteren. Alle gekwantiseerde modellen en codes zullen worden openbaar gemaakt op https://github.com/ruikangliu/Quantized-Reasoning-Models.

VAPO: Efficiënt en betrouwbaar reinforcement learning voor geavanceerde redeneertaken
VAPO: Efficient and Reliable Reinforcement Learning for Advanced Reasoning Tasks

Apr 7

ByYuYue, Yufeng Yuan, Qiying Yu, Xiaochen Zuo, Ruofei Zhu, Wenyuan Xu, Jiaze Chen, Chengyi Wang, TianTian Fan, Zhengyin Du, Xiangpeng Wei, Gaohong Liu, Juncai Liu, Lingjun Liu, Haibin Lin, Zhiqi Lin, Bole Ma, Chi Zhang, Mofan Zhang, Wang Zhang, Hang Zhu, Ru Zhang, Xin Liu, Mingxuan Wang, Yonghui Wu, Lin Yan

We presenteren VAPO, het Value-based Augmented Proximal Policy Optimization-framework voor redeneermodellen, een nieuw raamwerk dat is afgestemd op redeneermodellen binnen het value-based paradigma. Gebenchmarkt op de AIME 2024-dataset, bereikt VAPO, gebouwd op het Qwen 32B vooraf getrainde model, een state-of-the-art score van 60,4. In een directe vergelijking onder identieke experimentele omstandigheden presteert VAPO meer dan 10 punten beter dan de eerder gerapporteerde resultaten van DeepSeek-R1-Zero-Qwen-32B en DAPO. Het trainingsproces van VAPO springt in het oog door zijn stabiliteit en efficiëntie. Het bereikt state-of-the-art prestaties binnen slechts 5.000 stappen. Bovendien treden er bij meerdere onafhankelijke runs geen trainingscrashes op, wat de betrouwbaarheid ervan onderstreept. Dit onderzoek verdiept zich in lange ketens van redenering (long chain-of-thought, long-CoT) met behulp van een value-based reinforcement learning-raamwerk. We identificeren drie belangrijke uitdagingen die value-based methoden teisteren: bias in het waardemodel, de aanwezigheid van heterogene sequentielengtes en de schaarste van beloningssignalen. Door systematisch ontwerp biedt VAPO een geïntegreerde oplossing die deze uitdagingen effectief verlicht, waardoor de prestaties in long-CoT-redeneertaken worden verbeterd.

Concept Lancet: Beeldbewerking met Compositionele Representatie Transplantatie
Concept Lancet: Image Editing with Compositional Representation Transplant

Apr 3

ByJinqi Luo, Tianjiao Ding, Kwan Ho Ryan Chan, Hancheng Min, Chris Callison-Burch, René Vidal

Diffusiemodellen worden veel gebruikt voor beeldbewerkingstaken. Bestaande bewerkingsmethoden ontwerpen vaak een procedure voor representatiemanipulatie door een bewerkingsrichting in de tekstembedding of scorespace te bepalen. Zo'n procedure staat echter voor een belangrijke uitdaging: het overschatten van de bewerkingssterkte schaadt de visuele consistentie, terwijl het onderschatten ervan de bewerkingstaak niet voltooit. Opmerkelijk is dat elke bronafbeelding mogelijk een andere bewerkingssterkte vereist, en het is kostbaar om via trial-and-error een geschikte sterkte te zoeken. Om deze uitdaging aan te pakken, stellen we Concept Lancet (CoLan) voor, een zero-shot plug-and-play raamwerk voor principiële representatiemanipulatie in diffusiegebaseerde beeldbewerking. Tijdens inferentie ontbinden we de broninvoer in de latente (tekstembedding of diffusiescore) ruimte als een lineaire combinatie van de representaties van de verzamelde visuele concepten. Hierdoor kunnen we nauwkeurig de aanwezigheid van concepten in elke afbeelding schatten, wat de bewerking informeert. Op basis van de bewerkingstaak (vervangen/toevoegen/verwijderen) voeren we een aangepast concepttransplantatieproces uit om de corresponderende bewerkingsrichting op te leggen. Om de conceptruimte voldoende te modelleren, hebben we een conceptuele representatiedataset samengesteld, CoLan-150K, die diverse beschrijvingen en scenario's van visuele termen en zinnen bevat voor het latente woordenboek. Experimenten op meerdere diffusiegebaseerde beeldbewerkingsbaselines tonen aan dat methoden uitgerust met CoLan state-of-the-art prestaties behalen in bewerkingseffectiviteit en consistentiebehoud.

Waarom Redeneren Belangrijk Is? Een Overzicht van Vooruitgang in Multimodaal Redeneren (v1)
Why Reasoning Matters? A Survey of Advancements in Multimodal Reasoning (v1)

Apr 4

ByJing Bi, Susan Liang, Xiaofei Zhou, Pinxin Liu, Junjia Guo, Yunlong Tang, Luchuan Song, Chao Huang, Guangyu Sun, Jinxi He, Jiarui Wu, Shu Yang, Daoan Zhang, Chen Chen, Lianggong Bruce Wen, Zhang Liu, Jiebo Luo, Chenliang Xu

Redeneren staat centraal in de menselijke intelligentie en maakt gestructureerd probleemoplossen mogelijk in diverse taken. Recente vooruitgang in grote taalmodellen (LLMs) heeft hun redeneervaardigheden aanzienlijk verbeterd op het gebied van rekenkunde, gezond verstand en symbolische domeinen. Het effectief uitbreiden van deze capaciteiten naar multimodale contexten—waarbij modellen zowel visuele als tekstuele input moeten integreren—blijft echter een aanzienlijke uitdaging. Multimodaal redeneren introduceert complexiteiten, zoals het omgaan met tegenstrijdige informatie tussen modaliteiten, wat vereist dat modellen geavanceerde interpretatiestrategieën toepassen. Het aanpakken van deze uitdagingen vereist niet alleen geavanceerde algoritmen, maar ook robuuste methodologieën voor het evalueren van de nauwkeurigheid en samenhang van het redeneren. Dit artikel biedt een beknopt maar inzichtelijk overzicht van redeneertechnieken in zowel tekstuele als multimodale LLMs. Door een grondige en actuele vergelijking formuleren we duidelijk de kernuitdagingen en -mogelijkheden op het gebied van redeneren, waarbij we praktische methoden voor post-training optimalisatie en test-time inferentie belichten. Ons werk biedt waardevolle inzichten en richtlijnen, verbindt theoretische kaders met praktische implementaties, en zet duidelijke richtingen uit voor toekomstig onderzoek.

LiveVQA: Live Visuele Kenniszoektocht
LiveVQA: Live Visual Knowledge Seeking

Apr 7

ByMingyang Fu, Yuyang Peng, Benlin Liu, Yao Wan, Dongping Chen

We introduceren LiveVQA, een automatisch verzamelde dataset van de meest recente visuele kennis van het internet met gesynthetiseerde VQA-problemen. LiveVQA bestaat uit 3.602 enkelvoudige en meervoudige visuele vragen van 6 nieuwswebsites in 14 nieuwscategorieën, met een hoge kwaliteit van beeld-tekst coherentie en authentieke informatie. Onze evaluatie over 15 MLLM's (bijvoorbeeld GPT-4o, Gemma-3 en de Qwen-2.5-VL-familie) toont aan dat sterkere modellen over het algemeen beter presteren, waarbij geavanceerde visuele redeneervaardigheden cruciaal blijken voor complexe meervoudige vragen. Ondanks uitstekende prestaties op tekstuele problemen, laten modellen met tools zoals zoekmachines nog steeds aanzienlijke tekortkomingen zien bij het beantwoorden van visuele vragen die de meest recente visuele kennis vereisen, wat belangrijke onderzoeksgebieden voor de toekomst benadrukt.

Krijgt u waar u voor betaalt? Het controleren van modelvervanging in LLM-API's
Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs

Apr 7

ByWill Cai, Tianneng Shi, Xuandong Zhao, Dawn Song

De opkomst van Large Language Models (LLM's) die via black-box API's worden aangeboden, brengt een aanzienlijk vertrouwensprobleem met zich mee: gebruikers betalen voor diensten op basis van geadverteerde modelcapaciteiten (bijvoorbeeld grootte, prestaties), maar aanbieders kunnen het gespecificeerde model stiekem vervangen door een goedkopere, lagere kwaliteit alternatief om operationele kosten te verlagen. Dit gebrek aan transparantie ondermijnt eerlijkheid, tast vertrouwen aan en bemoeilijkt betrouwbare benchmarking. Het detecteren van dergelijke vervangingen is moeilijk vanwege de black-box aard, waarbij de interactie meestal beperkt blijft tot input-output queries. Dit artikel formaliseert het probleem van modelvervangingsdetectie in LLM API's. We evalueren systematisch bestaande verificatietechnieken, waaronder output-gebaseerde statistische tests, benchmarkevaluaties en log probability-analyse, onder verschillende realistische aanvalsscenario's zoals modelkwantisatie, gerandomiseerde vervanging en benchmarkontduiking. Onze bevindingen onthullen de beperkingen van methoden die uitsluitend op tekstoutputs vertrouwen, vooral tegen subtiele of adaptieve aanvallen. Hoewel log probability-analyse sterkere garanties biedt wanneer deze beschikbaar is, is de toegankelijkheid ervan vaak beperkt. We sluiten af met een bespreking van de potentie van hardware-gebaseerde oplossingen zoals Trusted Execution Environments (TEE's) als een weg naar bewijsbare modelintegriteit, waarbij we de afwegingen tussen beveiliging, prestaties en adoptie door aanbieders benadrukken. Code is beschikbaar op https://github.com/sunblaze-ucb/llm-api-audit.

Gaussische Mengsel Stroom Afstemmingsmodellen
Gaussian Mixture Flow Matching Models

Apr 7

ByHansheng Chen, Kai Zhang, Hao Tan, Zexiang Xu, Fujun Luan, Leonidas Guibas, Gordon Wetzstein, Sai Bi

Diffusiemodellen benaderen de denoisingsverdeling als een Gaussische verdeling en voorspellen het gemiddelde ervan, terwijl flow matching-modellen het Gaussische gemiddelde herparameteriseren als stroomsnelheid. Ze presteren echter minder goed bij bemonstering met weinig stappen vanwege discretisatiefouten en hebben de neiging oververzadigde kleuren te produceren onder classifier-free guidance (CFG). Om deze beperkingen aan te pakken, stellen we een nieuw Gaussian mixture flow matching (GMFlow)-model voor: in plaats van het gemiddelde te voorspellen, voorspelt GMFlow dynamische Gaussian mixture (GM)-parameters om een multi-modale stroomsnelheidsverdeling vast te leggen, die kan worden geleerd met een KL-divergentieverlies. We tonen aan dat GMFlow eerdere diffusie- en flow matching-modellen generaliseert waarbij een enkele Gaussische verdeling wordt geleerd met een L_2 denoising-verlies. Voor inferentie leiden we GM-SDE/ODE-oplossers af die gebruikmaken van analytische denoisingsverdelingen en snelheidsvelden voor precieze bemonstering met weinig stappen. Bovendien introduceren we een nieuw probabilistisch guidingschema dat de oververzadigingsproblemen van CFG vermindert en de kwaliteit van beeldgeneratie verbetert. Uitgebreide experimenten tonen aan dat GMFlow consistent beter presteert dan flow matching-baselines in generatiekwaliteit, met een precisie van 0,942 bij slechts 6 bemonsteringsstappen op ImageNet 256×256.

DiaTool-DPO: Multi-Turn Direct Preference Optimalisatie voor Tool-augmented Grote Taalmodellen
DiaTool-DPO: Multi-Turn Direct Preference Optimization for Tool-Augmented Large Language Models

Apr 2

BySunghee Jung, Donghun Lee, Shinbok Lee, Gaeun Seo, Daniel Lee, Byeongil Ko, Junrae Cho, Kihyun Kim, Eunggyun Kim, Myeongcheol Shin

Tool-Augmented Large Language Models (TA-LLMs) hebben potentie getoond in real-world toepassingen, maar kampen met uitdagingen bij het verwerken van onvolledige queries en verzoeken buiten hun bereik. Terwijl bestaande benaderingen voornamelijk vertrouwen op Supervised Fine-Tuning met expert-trajecten, stellen wij DiaTool-DPO voor, een nieuwe methode die de dialoogcapaciteiten van TA-LLMs verbetert via Direct Preference Optimization. We modelleren TA-LLM-interacties als een Markov Decision Process met 5 verschillende dialoogtoestanden en categoriseren gebruikersqueries in 3 typen op basis van hun staatsovergangstrajecten. We construeren automatisch gepaarde trajectdatasets van correcte en incorrecte dialoogstromen en introduceren een gespecialiseerd doelverlies voor dialoogcontrole. Onze uitgebreide evaluatie toont aan dat DiaTool-DPO de prestaties van GPT-4o benadert (94,8% in informatievergaring, 91% in toolcall-afwijzing) met aanzienlijke verbeteringen ten opzichte van de baseline (respectievelijk 44% en 9,6%) terwijl de kernfunctionaliteit behouden blijft. Onze aanpak opent nieuwe mogelijkheden voor het ontwikkelen van TA-LLMs die diverse real-world scenario's aankunnen zonder aanvullende expertdemonstraties of menselijke labeling te vereisen.

BOP Challenge 2024 over Modelgebaseerde en Modelvrije 6D Objectpose-schatting
BOP Challenge 2024 on Model-Based and Model-Free 6D Object Pose Estimation

Apr 3

ByVan Nguyen Nguyen, Stephen Tyree, Andrew Guo, Mederic Fourmy, Anas Gouda, Taeyeop Lee, Sungphill Moon, Hyeontae Son, Lukas Ranftl, Jonathan Tremblay, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Stan Birchfield, Jiri Matas, Yann Labbe, Martin Sundermeyer, Tomas Hodan

We presenteren de evaluatiemethodologie, datasets en resultaten van de BOP Challenge 2024, de zesde in een reeks van openbare competities die georganiseerd zijn om de stand van de techniek in 6D objectpose-estimatie en gerelateerde taken vast te leggen. In 2024 was ons doel om BOP te laten overstappen van laboratoriumachtige opstellingen naar realistische scenario's. Ten eerste introduceerden we nieuwe modelvrije taken, waarbij geen 3D objectmodellen beschikbaar zijn en methoden objecten moeten onboarden op basis van aangeleverde referentievideo's. Ten tweede definieerden we een nieuwe, praktischere 6D objectdetectietaak waarbij de identiteiten van objecten die zichtbaar zijn in een testafbeelding niet als invoer worden gegeven. Ten derde introduceerden we nieuwe BOP-H3 datasets, opgenomen met hoogresolutie sensoren en AR/VR headsets, die sterk lijken op realistische scenario's. BOP-H3 bevat 3D-modellen en onboardingsvideo's om zowel modelgebaseerde als modelvrije taken te ondersteunen. Deelnemers streden in zeven challenge tracks, elk gedefinieerd door een taak, objectonboardingsopstelling en datasetgroep. Opmerkelijk is dat de beste 2024-methode voor modelgebaseerde 6D lokalisatie van onbekende objecten (FreeZeV2.1) een 22% hogere nauwkeurigheid behaalt op BOP-Classic-Core dan de beste 2023-methode (GenFlow), en slechts 4% achterblijft bij de beste 2023-methode voor bekende objecten (GPose2023), hoewel deze aanzienlijk langzamer is (24,9 vs 2,7s per afbeelding). Een praktischere 2024-methode voor deze taak is Co-op, die slechts 0,8s per afbeelding nodig heeft en 25x sneller en 13% nauwkeuriger is dan GenFlow. Methoden hebben een vergelijkbare rangschikking bij 6D detectie als bij 6D lokalisatie, maar een hogere uitvoeringstijd. Bij modelgebaseerde 2D detectie van onbekende objecten behaalt de beste 2024-methode (MUSE) een relatieve verbetering van 21% ten opzichte van de beste 2023-methode (CNOS). De 2D detectienauwkeurigheid voor onbekende objecten blijft echter nog steeds aanzienlijk (-53%) achter bij de nauwkeurigheid voor bekende objecten (GDet2023). Het online evaluatiesysteem blijft open en is beschikbaar op http://bop.felk.cvut.cz/.

3D-scenebegrip door lokale willekeurige toegangssequentiemodellering
3D Scene Understanding Through Local Random Access Sequence Modeling

Apr 4

ByWanhee Lee, Klemen Kotar, Rahul Mysore Venkatesh, Jared Watrous, Honglin Chen, Khai Loong Aw, Daniel L. K. Yamins

3D-scenebegrip vanuit enkele afbeeldingen is een cruciaal probleem in computervisie met talrijke toepassingen in grafische weergave, augmented reality en robotica. Hoewel op diffusie gebaseerde modelleerbenaderingen veelbelovend zijn, hebben ze vaak moeite om object- en sceneconsistentie te behouden, vooral in complexe real-world scenario's. Om deze beperkingen aan te pakken, stellen we een autoregressieve generatieve benadering voor genaamd Local Random Access Sequence (LRAS) modellering, die gebruikmaakt van lokale patchkwantisatie en willekeurig geordende sequentiegeneratie. Door optische stroom te gebruiken als een tussenliggende representatie voor 3D-scenebewerking, tonen onze experimenten aan dat LRAS state-of-the-art prestaties bereikt in novel view synthesis en 3D-objectmanipulatie. Bovendien laten we zien dat ons framework zich van nature uitbreidt naar zelfgesuperviseerde diepteschatting door een eenvoudige aanpassing van de sequentieontwerp. Door sterke prestaties te behalen op meerdere 3D-scenebegriptaken, biedt LRAS een verenigd en effectief framework voor het bouwen van de volgende generatie 3D-visiemodellen.

Clinical ModernBERT: Een efficiënte en lang-context encoder voor biomedische tekst
Clinical ModernBERT: An efficient and long context encoder for biomedical text

Apr 4

BySimon A. Lee, Anthony Wu, Jeffrey N. Chiang

We introduceren Clinical ModernBERT, een transformer-gebaseerde encoder die vooraf is getraind op grootschalige biomedische literatuur, klinische notities en medische ontologieën, waarbij PubMed-samenvattingen, MIMIC IV-klinische gegevens en medische codes met hun tekstuele beschrijvingen zijn geïntegreerd. Gebaseerd op ModernBERT, de huidige state-of-the-art natuurlijke taaltekstencoder met architectonische verbeteringen zoals roterende positionele embeddings (RoPE), Flash Attention en een uitgebreide contextlengte tot 8.192 tokens, past ons model deze innovaties specifiek toe op biomedische en klinische domeinen. Clinical ModernBERT blinkt uit in het produceren van semantisch rijke representaties die zijn afgestemd op taken met lange contexten. We valideren dit zowel door de vooraf getrainde gewichten te analyseren als door empirische evaluatie op een uitgebreide reeks klinische NLP-benchmarks.

Distillatie en verfijning van redenering in kleine taalmodelen voor documentherrangschikking
Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking

Apr 4

ByChris Samarinas, Hamed Zamani

We presenteren een nieuwe aanpak voor het trainen van kleine taalmodellen voor redeneerintensief documentranking, waarbij kennisdistillatie wordt gecombineerd met optimalisatie via reinforcement learning. Terwijl bestaande methoden vaak afhankelijk zijn van kostbare menselijke annotaties of grote black-box taalmodellen, maakt onze methodologie gebruik van webdata en een leraar-LLM om automatisch hoogwaardige trainingsvoorbeelden met relevantieverklaringen te genereren. Door documentranking te formuleren als een reinforcement learning-probleem en expliciete redeneervaardigheden te stimuleren, trainen we een compact taalmodel met 3B parameters dat state-of-the-art prestaties behaalt op de BRIGHT-benchmark. Ons model staat op de derde plaats van de leaderboard terwijl het aanzienlijk minder parameters gebruikt dan andere benaderingen, en presteert beter dan modellen die meer dan 20 keer groter zijn. Door middel van uitgebreide experimenten tonen we aan dat het genereren van verklaringen tijdens inferentie, in plaats van het direct voorspellen van relevantiescores, effectiever redeneren mogelijk maakt met kleinere taalmodellen. Het zelfgesuperviseerde karakter van onze methode biedt een schaalbare en interpreteerbare oplossing voor moderne informatie- retrievalsystemen.

Mamba als Brug: Waar Vision Foundation Models en Vision Language Models Samenkomen voor Domeingegeneraliseerde Semantische Segmentatie
Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation

Apr 4

ByXin Zhang, Robby T. Tan

Vision Foundation Models (VFMs) en Vision-Language Models (VLMs) hebben aan populariteit gewonnen in Domain Generalized Semantic Segmentation (DGSS) vanwege hun sterke generalisatiecapaciteiten. Bestaande DGSS-methoden vertrouwen echter vaak uitsluitend op VFMs of VLMs, waarbij de complementaire sterktes over het hoofd worden gezien. VFMs (bijv. DINOv2) blinken uit in het vastleggen van fijnmazige kenmerken, terwijl VLMs (bijv. CLIP) robuuste tekstuitlijning bieden maar moeite hebben met grove granulariteit. Ondanks hun complementaire sterktes is het effectief integreren van VFMs en VLMs met aandachtmechanismen een uitdaging, omdat de toegenomen patch-tokens het modelleren van lange sequenties bemoeilijken. Om dit aan te pakken, stellen we MFuser voor, een nieuw Mamba-gebaseerd fusiekader dat de sterktes van VFMs en VLMs efficiënt combineert terwijl lineaire schaalbaarheid in sequentielengte behouden blijft. MFuser bestaat uit twee belangrijke componenten: MVFuser, dat fungeert als een co-adapter om de twee modellen gezamenlijk te fine-tunen door zowel sequentiële als ruimtelijke dynamiek vast te leggen; en MTEnhancer, een hybride aandacht-Mamba-module die tekstembeddingen verfijnt door beeldprioriteiten te incorporeren. Onze aanpak bereikt nauwkeurige kenmerklokaliteit en sterke tekstuitlijning zonder aanzienlijke rekenkosten te veroorzaken. Uitgebreide experimenten tonen aan dat MFuser aanzienlijk beter presteert dan state-of-the-art DGSS-methoden, met een score van 68,20 mIoU op synthetisch-naar-echte en 71,87 mIoU op echt-naar-echte benchmarks. De code is beschikbaar op https://github.com/devinxzhang/MFuser.

Sampleer, Zoek Niet: Een Heroverweging van Testtijd-Uitlijning voor Taalmodellen
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models

Apr 4

ByGonçalo Faria, Noah A. Smith

Het vergroten van de rekentijd tijdens het testen is naar voren gekomen als een veelbelovende richting voor het verbeteren van de prestaties van taalmodelen, met name in scenario's waar het finetunen van het model onpraktisch of onmogelijk is vanwege rekenbeperkingen of private modelgewichten. Bestaande zoekmethoden tijdens het testen die gebruikmaken van een beloningsmodel (RM) gaan echter vaak in kwaliteit achteruit naarmate de rekencapaciteit toeneemt, vanwege de overoptimalisatie van inherent onvolmaakte beloningsproxies. Wij introduceren QAlign, een nieuwe aanpak voor uitlijning tijdens het testen. Naarmate we de rekentijd tijdens het testen opschalen, convergeert QAlign naar het bemonsteren van de optimaal uitgelijnde verdeling voor elke individuele prompt. Door recente vooruitgang in Markov-keten Monte Carlo voor tekstgeneratie te benutten, maakt onze methode beter uitgelijnde uitvoer mogelijk zonder het onderliggende model aan te passen of zelfs toegang tot logits te vereisen. We demonstreren de effectiviteit van QAlign op benchmarks voor wiskundig redeneren (GSM8K en GSM-Symbolic) met behulp van een taakspecifiek RM, en laten consistente verbeteringen zien ten opzichte van bestaande methoden voor rekentijd tijdens het testen, zoals best-of-n en meerderheidsstemming. Bovendien, wanneer toegepast met meer realistische RM's getraind op de Tulu 3 voorkeursdataset, presteert QAlign beter dan directe voorkeursoptimalisatie (DPO), best-of-n, meerderheidsstemming en gewogen meerderheidsstemming op een diverse reeks datasets (GSM8K, MATH500, IFEval, MMLU-Redux en TruthfulQA). Als een praktische oplossing voor het uitlijnen van taalmodelen tijdens het testen met behulp van extra rekenkracht zonder kwaliteitsverlies, breidt onze aanpak de grenzen uit van de mogelijkheden die kunnen worden behaald met kant-en-klare taalmodelen zonder verdere training.

JailDAM: Jailbreak-detectie met adaptief geheugen voor vision-language modellen
JailDAM: Jailbreak Detection with Adaptive Memory for Vision-Language Model

Apr 3

ByYi Nian, Shenzhe Zhu, Yuehan Qin, Li Li, Ziyi Wang, Chaowei Xiao, Yue Zhao

Multimodale grote taalmodellen (MLLMs) blinken uit in visie-taaltaken, maar brengen ook aanzienlijke risico's met zich mee van het genereren van schadelijke inhoud, met name via jailbreak-aanvallen. Jailbreak-aanvallen verwijzen naar opzettelijke manipulaties die de veiligheidsmechanismen in modellen omzeilen, wat leidt tot het genereren van ongepaste of onveilige inhoud. Het detecteren van dergelijke aanvallen is cruciaal om een verantwoorde inzet van MLLMs te waarborgen. Bestaande methoden voor jailbreak-detectie worden geconfronteerd met drie primaire uitdagingen: (1) Veel methoden vertrouwen op verborgen toestanden of gradiënten van het model, wat hun toepasbaarheid beperkt tot white-box modellen, waarbij de interne werking van het model toegankelijk is; (2) Ze gaan gepaard met een hoge rekenkundige overhead door onzekerheidsgebaseerde analyse, wat real-time detectie beperkt, en (3) Ze vereisen volledig gelabelde datasets met schadelijke inhoud, die in praktijksituaties vaak schaars zijn. Om deze problemen aan te pakken, introduceren we een test-time adaptief raamwerk genaamd JAILDAM. Onze methode maakt gebruik van een geheugengebaseerde aanpak die wordt geleid door beleidsgestuurde onveilige kennisrepresentaties, waardoor expliciete blootstelling aan schadelijke data overbodig wordt. Door dynamisch onveilige kennis bij te werken tijdens test-time, verbetert ons raamwerk de generalisatie naar onbekende jailbreak-strategieën terwijl de efficiëntie behouden blijft. Experimenten op meerdere VLM-jailbreak-benchmarks tonen aan dat JAILDAM state-of-the-art prestaties levert in de detectie van schadelijke inhoud, waarbij zowel de nauwkeurigheid als de snelheid worden verbeterd.

GlotEval: Een Testsuite voor Massaal Meertalige Evaluatie van Grote Taalmodellen
GlotEval: A Test Suite for Massively Multilingual Evaluation of Large Language Models

Apr 5

ByHengyu Luo, Zihao Li, Joseph Attieh, Sawal Devkota, Ona de Gibert, Shaoxiong Ji, Peiqin Lin, Bhavani Sai Praneeth Varma Mantina, Ananda Sreenidhi, Raúl Vázquez, Mengjie Wang, Samea Yusofi, Jörg Tiedemann

Grote taalmodellen (LLMs) ontwikkelen zich wereldwijd in een ongekend tempo, waarbij regio's deze modellen steeds vaker toepassen in hun primaire taal. Het evalueren van deze modellen in diverse taalomgevingen, met name in talen met beperkte bronnen, is een grote uitdaging geworden voor zowel de academische wereld als de industrie. Bestaande evaluatieframeworks richten zich onevenredig veel op Engels en een handvol talen met veel bronnen, waardoor de realistische prestaties van LLMs in meertalige en minder bronrijke scenario's over het hoofd worden gezien. Om dit gat te dichten, introduceren we GlotEval, een lichtgewicht framework ontworpen voor massaal meertalige evaluatie. Met ondersteuning voor zeven belangrijke taken (machinevertaling, tekstclassificatie, samenvatting, open-einde generatie, leesbegrip, sequentielabeling en intrinsieke evaluatie), die tientallen tot honderden talen omvatten, benadrukt GlotEval consistente meertalige benchmarking, taalspecifieke promptsjablonen en niet-Engels-centrische machinevertaling. Dit maakt een nauwkeurige diagnose van de sterke en zwakke punten van modellen in diverse taalkundige contexten mogelijk. Een meertalige vertalingscasestudie toont de toepasbaarheid van GlotEval voor meertalige en taalspecifieke evaluaties.

Heroverwegen van meertalige continue voorpretraining: Datamenging voor het aanpassen van LLM's aan verschillende talen en bronnen
Rethinking Multilingual Continual Pretraining: Data Mixing for Adapting LLMs Across Languages and Resources

Apr 5

ByZihao Li, Shaoxiong Ji, Hengyu Luo, Jörg Tiedemann

Grote Taalmodellen (LLMs) vertonen aanzienlijke prestatieverschillen tussen talen, waarbij vooral hoog-resourcetalen profiteren en ondervertegenwoordigde talen worden benadeeld. Continue Voorafgaande Training (CPT) is naar voren gekomen als een veelbelovende aanpak om deze onbalans aan te pakken, hoewel de relatieve effectiviteit van monolinguale, tweetalige en code-aangevulde datastrategieën nog onduidelijk is. Deze studie evalueert systematisch 36 CPT-configuraties met drie multilinguale basismodellen, over 30+ talen die zijn gecategoriseerd als altruïstisch, egoïstisch en stagnerend, en die verschillende resourceniveaus omvatten. Onze bevindingen onthullen drie belangrijke inzichten: (1) Tweetalige CPT verbetert multilinguale classificatie, maar veroorzaakt vaak taalvermengingsproblemen tijdens generatie. (2) Het opnemen van programmeercodegegevens tijdens CPT verbetert consistent de nauwkeurigheid van multilinguele classificatie, met name ten gunste van laag-resourcetalen, maar introduceert een afweging door de generatiekwaliteit lichtelijk te verslechteren. (3) In tegenstelling tot eerder werk, observeren we aanzienlijke afwijkingen van taalclassificaties op basis van hun impact op cross-linguale transfer: Talen die als altruïstisch zijn geclassificeerd, hebben vaak een negatief effect op verwante talen, egoïstische talen vertonen conditioneel en configuratie-afhankelijk gedrag, en stagnerende talen tonen verrassende aanpassingsvermogen onder bepaalde CPT-omstandigheden. Deze genuanceerde interacties benadrukken de complexiteit van multilinguele representatieleer en onderstrepen het belang van systematische studies naar generaliseerbare taalclassificatie om toekomstige multilinguele CPT-strategieën te informeren.