Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote Vision-Language Models (VLMs) leveren uitzonderlijke prestaties, maar vereisen aanzienlijke rekenkracht, wat hun inzet op mobiele en edge-apparaten beperkt. Kleinere VLMs volgen doorgaans de ontwerpkeuzes van grotere modellen, zoals uitgebreide beeldtokenisatie, wat leidt tot inefficiënt GPU-geheugengebruik en beperkte praktische bruikbaarheid voor on-device toepassingen. Wij introduceren SmolVLM, een reeks compacte multimodale modellen die specifiek zijn ontworpen voor resource-efficiënte inferentie. We onderzoeken systematisch architectuurconfiguraties, tokenisatiestrategieën en data-curatie die zijn geoptimaliseerd voor lage rekenkosten. Hierdoor identificeren we cruciale ontwerpkeuzes die aanzienlijke prestatieverbeteringen opleveren bij beeld- en videotaken met minimale geheugenvoetafdruk. Ons kleinste model, SmolVLM-256M, gebruikt minder dan 1GB GPU-geheugen tijdens inferentie en presteert beter dan het 300 keer grotere Idefics-80B-model, ondanks een ontwikkelingsachterstand van 18 maanden. Ons grootste model, met 2,2 miljard parameters, kan concurreren met state-of-the-art VLMs die het dubbele GPU-geheugen verbruiken. SmolVLM-modellen gaan verder dan statische beelden en tonen robuuste videobegripcapaciteiten. Onze resultaten benadrukken dat strategische architectuuromzettingen, agressieve maar efficiënte tokenisatie en zorgvuldig samengestelde trainingsdata de multimodale prestaties aanzienlijk verbeteren, waardoor praktische, energie-efficiënte implementaties op aanzienlijk kleinere schaal mogelijk worden.
Transformers hebben tegenwoordig nog steeds moeite om video's van één minuut te genereren, omdat self-attention lagen inefficiënt zijn voor lange contexten. Alternatieven zoals Mamba-lagen worstelen met complexe verhalen met meerdere scènes omdat hun verborgen toestanden minder expressief zijn. We experimenteren met Test-Time Training (TTT) lagen, waarvan de verborgen toestanden zelf neurale netwerken kunnen zijn, en dus expressiever zijn. Door TTT-lagen toe te voegen aan een vooraf getrainde Transformer, kan deze één minuut durende video's genereren op basis van tekstuele storyboards. Als proof of concept hebben we een dataset samengesteld gebaseerd op Tom en Jerry-tekenfilms. Vergeleken met baseline-methoden zoals Mamba~2, Gated DeltaNet en sliding-window attention lagen, genereren TTT-lagen veel samenhangendere video's die complexe verhalen vertellen, met een voorsprong van 34 Elo-punten in een menselijke evaluatie van 100 video's per methode. Hoewel de resultaten veelbelovend zijn, bevatten ze nog steeds artefacten, waarschijnlijk vanwege de beperkte capaciteit van het vooraf getrainde 5B-model. De efficiëntie van onze implementatie kan ook worden verbeterd. We hebben alleen geëxperimenteerd met video's van één minuut vanwege beperkte middelen, maar de aanpak kan worden uitgebreid naar langere video's en complexere verhalen. Voorbeeldvideo's, code en annotaties zijn beschikbaar op: https://test-time-training.github.io/video-dit
Het vermogen van een taalmodel om te reflecteren op zijn eigen redenering biedt een belangrijk voordeel bij het oplossen van complexe problemen. Hoewel het meeste recente onderzoek zich heeft gericht op hoe dit vermogen zich ontwikkelt tijdens reinforcement learning, laten wij zien dat het eigenlijk veel eerder begint te ontstaan - tijdens de pre-training van het model. Om dit te bestuderen, introduceren we opzettelijke fouten in ketens van redeneringen en testen we of het model nog steeds tot het juiste antwoord kan komen door deze fouten te herkennen en te corrigeren. Door de prestaties te volgen tijdens verschillende fasen van pre-training, observeren we dat dit zelfcorrigerende vermogen vroeg verschijnt en gestaag verbetert in de loop van de tijd. Zo vertoont een OLMo2-7B model dat is gepre-traind op 4 biljoen tokens zelfcorrectie bij onze zes zelfreflectietaken.
Recente studies hebben aangetoond dat het schalen van rekentijd tijdens testen effectief de prestaties van kleine taalmodellen (sLMs) verbetert. Eerdere onderzoeken hebben echter voornamelijk gekeken naar het schalen van rekentijd tijdens testen met een extra groter model als verifier, waardoor zelfverificatie door sLMs onderbelicht is gebleven. In dit werk onderzoeken we of sLMs hun uitvoer betrouwbaar kunnen zelfverifiëren onder testtijd-schaling. We constateren dat zelfs met kennisdistillatie van grotere verifiers, sLMs moeite hebben met verificatietaken die memorisatie vereisen, zoals numerieke berekeningen en feitencontrole. Om deze beperking aan te pakken, stellen we Tool-geïntegreerde zelfverificatie (T1) voor, waarbij memorisatie-intensieve verificatiestappen worden gedelegeerd aan externe tools, zoals een code-interpreter. Onze theoretische analyse toont aan dat toolintegratie de memorisatie-eisen vermindert en de prestaties bij testtijd-schaling verbetert. Experimenten op de MATH-benchmark laten zien dat, met T1, een Llama-3.2 1B-model onder testtijd-schaling het aanzienlijk grotere Llama-3.1 8B-model overtreft. Bovendien generaliseert T1 effectief naar zowel wiskundige (MATH500) als multidisciplinaire kennisintensieve taken (MMLU-Pro). Onze bevindingen benadrukken het potentieel van toolintegratie om de zelfverificatievaardigheden van sLMs aanzienlijk te verbeteren.
Regiobeschrijving heeft als doel natuurlijke taal beschrijvingen te genereren voor specifieke beeldregio's, waarbij hun onderscheidende kenmerken worden benadrukt. Bestaande methoden hebben echter moeite om unieke beschrijvingen te produceren over meerdere granulariteiten, wat hun toepasbaarheid in de praktijk beperkt. Om de behoefte aan gedetailleerd begrip op regioniveau aan te pakken, introduceren we de URECA-dataset, een grootschalige dataset die is afgestemd op beschrijvingen van regio's met meerdere granulariteiten. In tegenstelling tot eerdere datasets die zich voornamelijk richten op opvallende objecten, zorgt de URECA-dataset voor een unieke en consistente mapping tussen regio's en beschrijvingen door een diverse set van objecten, onderdelen en achtergrondelementen te incorporeren. Centraal hierin staat een stapsgewijze data-curatiepijplijn, waarbij elke stap de regioselectie en beschrijvingsgeneratie geleidelijk verfijnt. Door Multimodale Grote Taalmodellen (MLLMs) in elke stap te benutten, produceert onze pijplijn onderscheidende en contextueel verankerde beschrijvingen met verbeterde nauwkeurigheid en semantische diversiteit. Op basis van deze dataset presenteren we URECA, een nieuw beschrijvingsmodel dat is ontworpen om regio's met meerdere granulariteiten effectief te coderen. URECA behoudt essentiële ruimtelijke eigenschappen zoals positie en vorm door eenvoudige maar impactvolle aanpassingen aan bestaande MLLMs, waardoor fijnmazige en semantisch rijke regionbeschrijvingen mogelijk worden. Onze aanpak introduceert dynamische maskermodellering en een maskerencoder met hoge resolutie om de uniciteit van beschrijvingen te verbeteren. Experimenten tonen aan dat URECA state-of-the-art prestaties bereikt op de URECA-dataset en zich goed generaliseert naar bestaande benchmarks voor regiobeschrijving.
Recente vooruitgang in redeneertaalmodellen heeft opmerkelijke prestaties laten zien in complexe taken, maar hun uitgebreide keten-van-gedachten-redeneerproces verhoogt de inferentie-overhead. Hoewel kwantisering veelvuldig is toegepast om de inferentiekosten van grote taalmodelen te verlagen, blijft de impact ervan op redeneermodellen onderbelicht. In deze studie voeren we het eerste systematische onderzoek uit naar gekwantiseerde redeneermodellen, waarbij we de open-source DeepSeek-R1-Distilled Qwen- en LLaMA-families evalueren, variërend van 1,5B tot 70B parameters, en QwQ-32B. Ons onderzoek omvat gewichts-, KV-cache- en activatiekwantisering met behulp van state-of-the-art algoritmen op verschillende bit-breedtes, met uitgebreide evaluatie over wiskundige (AIME, MATH-500), wetenschappelijke (GPQA) en programmeerredeneerbenchmarks (LiveCodeBench). Onze bevindingen tonen aan dat verliesloze kwantisering kan worden bereikt met W8A8- of W4A16-kwantisering, maar dat lagere bit-breedtes aanzienlijke nauwkeurigheidsrisico's met zich meebrengen. We identificeren verder modelgrootte, modeloorsprong en taakmoeilijkheid als kritieke prestatiebepalende factoren. In tegenstelling tot verwachtingen vertonen gekwantiseerde modellen geen verhoogde uitvoerlengtes. Daarnaast kan het strategisch schalen van de modelgroottes of redeneerstappen de prestaties effectief verbeteren. Alle gekwantiseerde modellen en codes zullen worden openbaar gemaakt op https://github.com/ruikangliu/Quantized-Reasoning-Models.
We presenteren VAPO, het Value-based Augmented Proximal Policy Optimization-framework voor redeneermodellen, een nieuw raamwerk dat is afgestemd op redeneermodellen binnen het value-based paradigma. Gebenchmarkt op de AIME 2024-dataset, bereikt VAPO, gebouwd op het Qwen 32B vooraf getrainde model, een state-of-the-art score van 60,4. In een directe vergelijking onder identieke experimentele omstandigheden presteert VAPO meer dan 10 punten beter dan de eerder gerapporteerde resultaten van DeepSeek-R1-Zero-Qwen-32B en DAPO. Het trainingsproces van VAPO springt in het oog door zijn stabiliteit en efficiëntie. Het bereikt state-of-the-art prestaties binnen slechts 5.000 stappen. Bovendien treden er bij meerdere onafhankelijke runs geen trainingscrashes op, wat de betrouwbaarheid ervan onderstreept. Dit onderzoek verdiept zich in lange ketens van redenering (long chain-of-thought, long-CoT) met behulp van een value-based reinforcement learning-raamwerk. We identificeren drie belangrijke uitdagingen die value-based methoden teisteren: bias in het waardemodel, de aanwezigheid van heterogene sequentielengtes en de schaarste van beloningssignalen. Door systematisch ontwerp biedt VAPO een geïntegreerde oplossing die deze uitdagingen effectief verlicht, waardoor de prestaties in long-CoT-redeneertaken worden verbeterd.
Diffusiemodellen worden veel gebruikt voor beeldbewerkingstaken. Bestaande bewerkingsmethoden ontwerpen vaak een procedure voor representatiemanipulatie door een bewerkingsrichting in de tekstembedding of scorespace te bepalen. Zo'n procedure staat echter voor een belangrijke uitdaging: het overschatten van de bewerkingssterkte schaadt de visuele consistentie, terwijl het onderschatten ervan de bewerkingstaak niet voltooit. Opmerkelijk is dat elke bronafbeelding mogelijk een andere bewerkingssterkte vereist, en het is kostbaar om via trial-and-error een geschikte sterkte te zoeken. Om deze uitdaging aan te pakken, stellen we Concept Lancet (CoLan) voor, een zero-shot plug-and-play raamwerk voor principiële representatiemanipulatie in diffusiegebaseerde beeldbewerking. Tijdens inferentie ontbinden we de broninvoer in de latente (tekstembedding of diffusiescore) ruimte als een lineaire combinatie van de representaties van de verzamelde visuele concepten. Hierdoor kunnen we nauwkeurig de aanwezigheid van concepten in elke afbeelding schatten, wat de bewerking informeert. Op basis van de bewerkingstaak (vervangen/toevoegen/verwijderen) voeren we een aangepast concepttransplantatieproces uit om de corresponderende bewerkingsrichting op te leggen. Om de conceptruimte voldoende te modelleren, hebben we een conceptuele representatiedataset samengesteld, CoLan-150K, die diverse beschrijvingen en scenario's van visuele termen en zinnen bevat voor het latente woordenboek. Experimenten op meerdere diffusiegebaseerde beeldbewerkingsbaselines tonen aan dat methoden uitgerust met CoLan state-of-the-art prestaties behalen in bewerkingseffectiviteit en consistentiebehoud.
We introduceren LiveVQA, een automatisch verzamelde dataset van de meest recente visuele kennis van het internet met gesynthetiseerde VQA-problemen. LiveVQA bestaat uit 3.602 enkelvoudige en meervoudige visuele vragen van 6 nieuwswebsites in 14 nieuwscategorieën, met een hoge kwaliteit van beeld-tekst coherentie en authentieke informatie. Onze evaluatie over 15 MLLM's (bijvoorbeeld GPT-4o, Gemma-3 en de Qwen-2.5-VL-familie) toont aan dat sterkere modellen over het algemeen beter presteren, waarbij geavanceerde visuele redeneervaardigheden cruciaal blijken voor complexe meervoudige vragen. Ondanks uitstekende prestaties op tekstuele problemen, laten modellen met tools zoals zoekmachines nog steeds aanzienlijke tekortkomingen zien bij het beantwoorden van visuele vragen die de meest recente visuele kennis vereisen, wat belangrijke onderzoeksgebieden voor de toekomst benadrukt.
De opkomst van Large Language Models (LLM's) die via black-box API's worden aangeboden, brengt een aanzienlijk vertrouwensprobleem met zich mee: gebruikers betalen voor diensten op basis van geadverteerde modelcapaciteiten (bijvoorbeeld grootte, prestaties), maar aanbieders kunnen het gespecificeerde model stiekem vervangen door een goedkopere, lagere kwaliteit alternatief om operationele kosten te verlagen. Dit gebrek aan transparantie ondermijnt eerlijkheid, tast vertrouwen aan en bemoeilijkt betrouwbare benchmarking. Het detecteren van dergelijke vervangingen is moeilijk vanwege de black-box aard, waarbij de interactie meestal beperkt blijft tot input-output queries. Dit artikel formaliseert het probleem van modelvervangingsdetectie in LLM API's. We evalueren systematisch bestaande verificatietechnieken, waaronder output-gebaseerde statistische tests, benchmarkevaluaties en log probability-analyse, onder verschillende realistische aanvalsscenario's zoals modelkwantisatie, gerandomiseerde vervanging en benchmarkontduiking. Onze bevindingen onthullen de beperkingen van methoden die uitsluitend op tekstoutputs vertrouwen, vooral tegen subtiele of adaptieve aanvallen. Hoewel log probability-analyse sterkere garanties biedt wanneer deze beschikbaar is, is de toegankelijkheid ervan vaak beperkt. We sluiten af met een bespreking van de potentie van hardware-gebaseerde oplossingen zoals Trusted Execution Environments (TEE's) als een weg naar bewijsbare modelintegriteit, waarbij we de afwegingen tussen beveiliging, prestaties en adoptie door aanbieders benadrukken. Code is beschikbaar op https://github.com/sunblaze-ucb/llm-api-audit.
Redeneren staat centraal in de menselijke intelligentie en maakt gestructureerd probleemoplossen mogelijk in diverse taken. Recente vooruitgang in grote taalmodellen (LLMs) heeft hun redeneervaardigheden aanzienlijk verbeterd op het gebied van rekenkunde, gezond verstand en symbolische domeinen. Het effectief uitbreiden van deze capaciteiten naar multimodale contexten—waarbij modellen zowel visuele als tekstuele input moeten integreren—blijft echter een aanzienlijke uitdaging. Multimodaal redeneren introduceert complexiteiten, zoals het omgaan met tegenstrijdige informatie tussen modaliteiten, wat vereist dat modellen geavanceerde interpretatiestrategieën toepassen. Het aanpakken van deze uitdagingen vereist niet alleen geavanceerde algoritmen, maar ook robuuste methodologieën voor het evalueren van de nauwkeurigheid en samenhang van het redeneren. Dit artikel biedt een beknopt maar inzichtelijk overzicht van redeneertechnieken in zowel tekstuele als multimodale LLMs. Door een grondige en actuele vergelijking formuleren we duidelijk de kernuitdagingen en -mogelijkheden op het gebied van redeneren, waarbij we praktische methoden voor post-training optimalisatie en test-time inferentie belichten. Ons werk biedt waardevolle inzichten en richtlijnen, verbindt theoretische kaders met praktische implementaties, en zet duidelijke richtingen uit voor toekomstig onderzoek.
Diffusiemodellen benaderen de denoisingsverdeling als een Gaussische verdeling en voorspellen het gemiddelde ervan, terwijl flow matching-modellen het Gaussische gemiddelde herparameteriseren als stroomsnelheid. Ze presteren echter minder goed bij bemonstering met weinig stappen vanwege discretisatiefouten en hebben de neiging oververzadigde kleuren te produceren onder classifier-free guidance (CFG). Om deze beperkingen aan te pakken, stellen we een nieuw Gaussian mixture flow matching (GMFlow)-model voor: in plaats van het gemiddelde te voorspellen, voorspelt GMFlow dynamische Gaussian mixture (GM)-parameters om een multi-modale stroomsnelheidsverdeling vast te leggen, die kan worden geleerd met een KL-divergentieverlies. We tonen aan dat GMFlow eerdere diffusie- en flow matching-modellen generaliseert waarbij een enkele Gaussische verdeling wordt geleerd met een L_2 denoising-verlies. Voor inferentie leiden we GM-SDE/ODE-oplossers af die gebruikmaken van analytische denoisingsverdelingen en snelheidsvelden voor precieze bemonstering met weinig stappen. Bovendien introduceren we een nieuw probabilistisch guidingschema dat de oververzadigingsproblemen van CFG vermindert en de kwaliteit van beeldgeneratie verbetert. Uitgebreide experimenten tonen aan dat GMFlow consistent beter presteert dan flow matching-baselines in generatiekwaliteit, met een precisie van 0,942 bij slechts 6 bemonsteringsstappen op ImageNet 256×256.
Tool-Augmented Large Language Models (TA-LLMs) hebben potentie getoond in real-world toepassingen, maar kampen met uitdagingen bij het verwerken van onvolledige queries en verzoeken buiten hun bereik. Terwijl bestaande benaderingen voornamelijk vertrouwen op Supervised Fine-Tuning met expert-trajecten, stellen wij DiaTool-DPO voor, een nieuwe methode die de dialoogcapaciteiten van TA-LLMs verbetert via Direct Preference Optimization. We modelleren TA-LLM-interacties als een Markov Decision Process met 5 verschillende dialoogtoestanden en categoriseren gebruikersqueries in 3 typen op basis van hun staatsovergangstrajecten. We construeren automatisch gepaarde trajectdatasets van correcte en incorrecte dialoogstromen en introduceren een gespecialiseerd doelverlies voor dialoogcontrole. Onze uitgebreide evaluatie toont aan dat DiaTool-DPO de prestaties van GPT-4o benadert (94,8% in informatievergaring, 91% in toolcall-afwijzing) met aanzienlijke verbeteringen ten opzichte van de baseline (respectievelijk 44% en 9,6%) terwijl de kernfunctionaliteit behouden blijft. Onze aanpak opent nieuwe mogelijkheden voor het ontwikkelen van TA-LLMs die diverse real-world scenario's aankunnen zonder aanvullende expertdemonstraties of menselijke labeling te vereisen.
We introduceren Clinical ModernBERT, een transformer-gebaseerde encoder die vooraf is getraind op grootschalige biomedische literatuur, klinische notities en medische ontologieën, waarbij PubMed-samenvattingen, MIMIC IV-klinische gegevens en medische codes met hun tekstuele beschrijvingen zijn geïntegreerd. Gebaseerd op ModernBERT, de huidige state-of-the-art natuurlijke taaltekstencoder met architectonische verbeteringen zoals roterende positionele embeddings (RoPE), Flash Attention en een uitgebreide contextlengte tot 8.192 tokens, past ons model deze innovaties specifiek toe op biomedische en klinische domeinen. Clinical ModernBERT blinkt uit in het produceren van semantisch rijke representaties die zijn afgestemd op taken met lange contexten. We valideren dit zowel door de vooraf getrainde gewichten te analyseren als door empirische evaluatie op een uitgebreide reeks klinische NLP-benchmarks.
3D-scenebegrip vanuit enkele afbeeldingen is een cruciaal probleem in computervisie met talrijke toepassingen in grafische weergave, augmented reality en robotica. Hoewel op diffusie gebaseerde modelleerbenaderingen veelbelovend zijn, hebben ze vaak moeite om object- en sceneconsistentie te behouden, vooral in complexe real-world scenario's. Om deze beperkingen aan te pakken, stellen we een autoregressieve generatieve benadering voor genaamd Local Random Access Sequence (LRAS) modellering, die gebruikmaakt van lokale patchkwantisatie en willekeurig geordende sequentiegeneratie. Door optische stroom te gebruiken als een tussenliggende representatie voor 3D-scenebewerking, tonen onze experimenten aan dat LRAS state-of-the-art prestaties bereikt in novel view synthesis en 3D-objectmanipulatie. Bovendien laten we zien dat ons framework zich van nature uitbreidt naar zelfgesuperviseerde diepteschatting door een eenvoudige aanpassing van de sequentieontwerp. Door sterke prestaties te behalen op meerdere 3D-scenebegriptaken, biedt LRAS een verenigd en effectief framework voor het bouwen van de volgende generatie 3D-visiemodellen.
Vision Foundation Models (VFMs) en Vision-Language Models (VLMs) hebben aan populariteit gewonnen in Domain Generalized Semantic Segmentation (DGSS) vanwege hun sterke generalisatiecapaciteiten. Bestaande DGSS-methoden vertrouwen echter vaak uitsluitend op VFMs of VLMs, waarbij de complementaire sterktes over het hoofd worden gezien. VFMs (bijv. DINOv2) blinken uit in het vastleggen van fijnmazige kenmerken, terwijl VLMs (bijv. CLIP) robuuste tekstuitlijning bieden maar moeite hebben met grove granulariteit. Ondanks hun complementaire sterktes is het effectief integreren van VFMs en VLMs met aandachtmechanismen een uitdaging, omdat de toegenomen patch-tokens het modelleren van lange sequenties bemoeilijken. Om dit aan te pakken, stellen we MFuser voor, een nieuw Mamba-gebaseerd fusiekader dat de sterktes van VFMs en VLMs efficiënt combineert terwijl lineaire schaalbaarheid in sequentielengte behouden blijft. MFuser bestaat uit twee belangrijke componenten: MVFuser, dat fungeert als een co-adapter om de twee modellen gezamenlijk te fine-tunen door zowel sequentiële als ruimtelijke dynamiek vast te leggen; en MTEnhancer, een hybride aandacht-Mamba-module die tekstembeddingen verfijnt door beeldprioriteiten te incorporeren. Onze aanpak bereikt nauwkeurige kenmerklokaliteit en sterke tekstuitlijning zonder aanzienlijke rekenkosten te veroorzaken. Uitgebreide experimenten tonen aan dat MFuser aanzienlijk beter presteert dan state-of-the-art DGSS-methoden, met een score van 68,20 mIoU op synthetisch-naar-echte en 71,87 mIoU op echt-naar-echte benchmarks. De code is beschikbaar op https://github.com/devinxzhang/MFuser.
We presenteren de evaluatiemethodologie, datasets en resultaten van de BOP Challenge 2024, de zesde in een reeks van openbare competities die georganiseerd zijn om de stand van de techniek in 6D objectpose-estimatie en gerelateerde taken vast te leggen. In 2024 was ons doel om BOP te laten overstappen van laboratoriumachtige opstellingen naar realistische scenario's. Ten eerste introduceerden we nieuwe modelvrije taken, waarbij geen 3D objectmodellen beschikbaar zijn en methoden objecten moeten onboarden op basis van aangeleverde referentievideo's. Ten tweede definieerden we een nieuwe, praktischere 6D objectdetectietaak waarbij de identiteiten van objecten die zichtbaar zijn in een testafbeelding niet als invoer worden gegeven. Ten derde introduceerden we nieuwe BOP-H3 datasets, opgenomen met hoogresolutie sensoren en AR/VR headsets, die sterk lijken op realistische scenario's. BOP-H3 bevat 3D-modellen en onboardingsvideo's om zowel modelgebaseerde als modelvrije taken te ondersteunen. Deelnemers streden in zeven challenge tracks, elk gedefinieerd door een taak, objectonboardingsopstelling en datasetgroep. Opmerkelijk is dat de beste 2024-methode voor modelgebaseerde 6D lokalisatie van onbekende objecten (FreeZeV2.1) een 22% hogere nauwkeurigheid behaalt op BOP-Classic-Core dan de beste 2023-methode (GenFlow), en slechts 4% achterblijft bij de beste 2023-methode voor bekende objecten (GPose2023), hoewel deze aanzienlijk langzamer is (24,9 vs 2,7s per afbeelding). Een praktischere 2024-methode voor deze taak is Co-op, die slechts 0,8s per afbeelding nodig heeft en 25x sneller en 13% nauwkeuriger is dan GenFlow. Methoden hebben een vergelijkbare rangschikking bij 6D detectie als bij 6D lokalisatie, maar een hogere uitvoeringstijd. Bij modelgebaseerde 2D detectie van onbekende objecten behaalt de beste 2024-methode (MUSE) een relatieve verbetering van 21% ten opzichte van de beste 2023-methode (CNOS). De 2D detectienauwkeurigheid voor onbekende objecten blijft echter nog steeds aanzienlijk (-53%) achter bij de nauwkeurigheid voor bekende objecten (GDet2023). Het online evaluatiesysteem blijft open en is beschikbaar op http://bop.felk.cvut.cz/.
We presenteren een nieuwe aanpak voor het trainen van kleine taalmodellen voor redeneerintensief documentranking, waarbij kennisdistillatie wordt gecombineerd met optimalisatie via reinforcement learning. Terwijl bestaande methoden vaak afhankelijk zijn van kostbare menselijke annotaties of grote black-box taalmodellen, maakt onze methodologie gebruik van webdata en een leraar-LLM om automatisch hoogwaardige trainingsvoorbeelden met relevantieverklaringen te genereren. Door documentranking te formuleren als een reinforcement learning-probleem en expliciete redeneervaardigheden te stimuleren, trainen we een compact taalmodel met 3B parameters dat state-of-the-art prestaties behaalt op de BRIGHT-benchmark. Ons model staat op de derde plaats van de leaderboard terwijl het aanzienlijk minder parameters gebruikt dan andere benaderingen, en presteert beter dan modellen die meer dan 20 keer groter zijn. Door middel van uitgebreide experimenten tonen we aan dat het genereren van verklaringen tijdens inferentie, in plaats van het direct voorspellen van relevantiescores, effectiever redeneren mogelijk maakt met kleinere taalmodellen. Het zelfgesuperviseerde karakter van onze methode biedt een schaalbare en interpreteerbare oplossing voor moderne informatie- retrievalsystemen.
Multimodale grote taalmodellen (MLLMs) blinken uit in visie-taaltaken, maar brengen ook aanzienlijke risico's met zich mee van het genereren van schadelijke inhoud, met name via jailbreak-aanvallen. Jailbreak-aanvallen verwijzen naar opzettelijke manipulaties die de veiligheidsmechanismen in modellen omzeilen, wat leidt tot het genereren van ongepaste of onveilige inhoud. Het detecteren van dergelijke aanvallen is cruciaal om een verantwoorde inzet van MLLMs te waarborgen. Bestaande methoden voor jailbreak-detectie worden geconfronteerd met drie primaire uitdagingen: (1) Veel methoden vertrouwen op verborgen toestanden of gradiënten van het model, wat hun toepasbaarheid beperkt tot white-box modellen, waarbij de interne werking van het model toegankelijk is; (2) Ze gaan gepaard met een hoge rekenkundige overhead door onzekerheidsgebaseerde analyse, wat real-time detectie beperkt, en (3) Ze vereisen volledig gelabelde datasets met schadelijke inhoud, die in praktijksituaties vaak schaars zijn. Om deze problemen aan te pakken, introduceren we een test-time adaptief raamwerk genaamd JAILDAM. Onze methode maakt gebruik van een geheugengebaseerde aanpak die wordt geleid door beleidsgestuurde onveilige kennisrepresentaties, waardoor expliciete blootstelling aan schadelijke data overbodig wordt. Door dynamisch onveilige kennis bij te werken tijdens test-time, verbetert ons raamwerk de generalisatie naar onbekende jailbreak-strategieën terwijl de efficiëntie behouden blijft. Experimenten op meerdere VLM-jailbreak-benchmarks tonen aan dat JAILDAM state-of-the-art prestaties levert in de detectie van schadelijke inhoud, waarbij zowel de nauwkeurigheid als de snelheid worden verbeterd.
Het vergroten van de rekentijd tijdens het testen is naar voren gekomen als een veelbelovende richting voor het verbeteren van de prestaties van taalmodelen, met name in scenario's waar het finetunen van het model onpraktisch of onmogelijk is vanwege rekenbeperkingen of private modelgewichten. Bestaande zoekmethoden tijdens het testen die gebruikmaken van een beloningsmodel (RM) gaan echter vaak in kwaliteit achteruit naarmate de rekencapaciteit toeneemt, vanwege de overoptimalisatie van inherent onvolmaakte beloningsproxies. Wij introduceren QAlign, een nieuwe aanpak voor uitlijning tijdens het testen. Naarmate we de rekentijd tijdens het testen opschalen, convergeert QAlign naar het bemonsteren van de optimaal uitgelijnde verdeling voor elke individuele prompt. Door recente vooruitgang in Markov-keten Monte Carlo voor tekstgeneratie te benutten, maakt onze methode beter uitgelijnde uitvoer mogelijk zonder het onderliggende model aan te passen of zelfs toegang tot logits te vereisen. We demonstreren de effectiviteit van QAlign op benchmarks voor wiskundig redeneren (GSM8K en GSM-Symbolic) met behulp van een taakspecifiek RM, en laten consistente verbeteringen zien ten opzichte van bestaande methoden voor rekentijd tijdens het testen, zoals best-of-n en meerderheidsstemming. Bovendien, wanneer toegepast met meer realistische RM's getraind op de Tulu 3 voorkeursdataset, presteert QAlign beter dan directe voorkeursoptimalisatie (DPO), best-of-n, meerderheidsstemming en gewogen meerderheidsstemming op een diverse reeks datasets (GSM8K, MATH500, IFEval, MMLU-Redux en TruthfulQA). Als een praktische oplossing voor het uitlijnen van taalmodelen tijdens het testen met behulp van extra rekenkracht zonder kwaliteitsverlies, breidt onze aanpak de grenzen uit van de mogelijkheden die kunnen worden behaald met kant-en-klare taalmodelen zonder verdere training.
Grote taalmodellen (LLMs) ontwikkelen zich wereldwijd in een ongekend tempo, waarbij regio's deze modellen steeds vaker toepassen in hun primaire taal. Het evalueren van deze modellen in diverse taalomgevingen, met name in talen met beperkte bronnen, is een grote uitdaging geworden voor zowel de academische wereld als de industrie. Bestaande evaluatieframeworks richten zich onevenredig veel op Engels en een handvol talen met veel bronnen, waardoor de realistische prestaties van LLMs in meertalige en minder bronrijke scenario's over het hoofd worden gezien. Om dit gat te dichten, introduceren we GlotEval, een lichtgewicht framework ontworpen voor massaal meertalige evaluatie. Met ondersteuning voor zeven belangrijke taken (machinevertaling, tekstclassificatie, samenvatting, open-einde generatie, leesbegrip, sequentielabeling en intrinsieke evaluatie), die tientallen tot honderden talen omvatten, benadrukt GlotEval consistente meertalige benchmarking, taalspecifieke promptsjablonen en niet-Engels-centrische machinevertaling. Dit maakt een nauwkeurige diagnose van de sterke en zwakke punten van modellen in diverse taalkundige contexten mogelijk. Een meertalige vertalingscasestudie toont de toepasbaarheid van GlotEval voor meertalige en taalspecifieke evaluaties.
Grote Taalmodellen (LLMs) vertonen aanzienlijke prestatieverschillen tussen talen, waarbij vooral hoog-resourcetalen profiteren en ondervertegenwoordigde talen worden benadeeld. Continue Voorafgaande Training (CPT) is naar voren gekomen als een veelbelovende aanpak om deze onbalans aan te pakken, hoewel de relatieve effectiviteit van monolinguale, tweetalige en code-aangevulde datastrategieën nog onduidelijk is. Deze studie evalueert systematisch 36 CPT-configuraties met drie multilinguale basismodellen, over 30+ talen die zijn gecategoriseerd als altruïstisch, egoïstisch en stagnerend, en die verschillende resourceniveaus omvatten. Onze bevindingen onthullen drie belangrijke inzichten: (1) Tweetalige CPT verbetert multilinguale classificatie, maar veroorzaakt vaak taalvermengingsproblemen tijdens generatie. (2) Het opnemen van programmeercodegegevens tijdens CPT verbetert consistent de nauwkeurigheid van multilinguele classificatie, met name ten gunste van laag-resourcetalen, maar introduceert een afweging door de generatiekwaliteit lichtelijk te verslechteren. (3) In tegenstelling tot eerder werk, observeren we aanzienlijke afwijkingen van taalclassificaties op basis van hun impact op cross-linguale transfer: Talen die als altruïstisch zijn geclassificeerd, hebben vaak een negatief effect op verwante talen, egoïstische talen vertonen conditioneel en configuratie-afhankelijk gedrag, en stagnerende talen tonen verrassende aanpassingsvermogen onder bepaalde CPT-omstandigheden. Deze genuanceerde interacties benadrukken de complexiteit van multilinguele representatieleer en onderstrepen het belang van systematische studies naar generaliseerbare taalclassificatie om toekomstige multilinguele CPT-strategieën te informeren.