Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We presenteren Qwen3-Omni, een enkel multimodaal model dat voor het eerst state-of-the-art prestaties behoudt over tekst, beeld, audio en video zonder enige achteruitgang ten opzichte van enkelmodale tegenhangers. Qwen3-Omni evenaart de prestaties van enkelmodale modellen van dezelfde grootte binnen de Qwen-serie en blinkt vooral uit op audiotaken. Over 36 audio en audio-visuele benchmarks behaalt Qwen3-Omni open-source SOTA op 32 benchmarks en overall SOTA op 22, waarbij het sterke closed-source modellen zoals Gemini-2.5-Pro, Seed-ASR en GPT-4o-Transcribe overtreft. Qwen3-Omni maakt gebruik van een Thinker-Talker MoE-architectuur die perceptie en generatie over tekst, beeld, audio en video verenigt, wat resulteert in vloeiende tekst en natuurlijke real-time spraak. Het ondersteunt tekstinteractie in 119 talen, spraakbegrip in 19 talen en spraakgeneratie in 10 talen. Om de eerste-pakketvertraging in streaming-synthese te verminderen, voorspelt Talker autoregressief discrete spraakcodecs met behulp van een multi-codebook-schema. Door gebruik te maken van de representatiecapaciteit van deze codebooks, vervangen we rekenintensieve block-wise diffusie door een lichtgewicht causaal ConvNet, wat streaming vanaf het eerste codec-frame mogelijk maakt. In cold-start-omgevingen bereikt Qwen3-Omni een theoretische end-to-end eerste-pakketvertraging van 234 ms. Om multimodale redenering verder te versterken, introduceren we een Thinking-model dat expliciet redeneert over invoer van elke modaliteit. Aangezien de onderzoeksgemeenschap momenteel geen algemeen model voor audiobeschrijving heeft, hebben we Qwen3-Omni-30B-A3B afgestemd om Qwen3-Omni-30B-A3B-Captioner te verkrijgen, dat gedetailleerde, hallucinatiearme beschrijvingen produceert voor willekeurige audio-invoer. Qwen3-Omni-30B-A3B, Qwen3-Omni-30B-A3B-Thinking en Qwen3-Omni-30B-A3B-Captioner zijn openbaar beschikbaar gesteld onder de Apache 2.0-licentie.
We definiëren Agency als het opkomende vermogen van AI-systemen om te functioneren als autonome agenten die actief problemen ontdekken, hypothesen formuleren en oplossingen uitvoeren door middel van zelfgestuurde interactie met omgevingen en tools. Deze fundamentele capaciteit markeert het begin van het Tijdperk van AI Agency, aangedreven door een kritieke verschuiving in de industrie: de dringende behoefte aan AI-systemen die niet alleen denken, maar ook werken. Hoewel huidige AI uitblinkt in redeneren en het genereren van reacties, eisen industrieën autonome agenten die taken kunnen uitvoeren, tools kunnen bedienen en echte resultaten kunnen behalen. Naarmate agentische intelligentie het bepalende kenmerk wordt dat cognitieve systemen scheidt van productieve werkers, wordt het efficiënt ontwikkelen van machine-autonomie van cruciaal belang. Huidige benaderingen gaan ervan uit dat meer data betere agency oplevert, volgens de traditionele schaalwetten uit taalmodelering. Wij dagen dit paradigma fundamenteel uit. LIMI (Less Is More for Intelligent Agency) toont aan dat agency radicaal andere ontwikkelingsprincipes volgt. Door strategisch te focussen op collaboratieve softwareontwikkeling en wetenschappelijke onderzoeksworkflows, laten we zien dat geavanceerde agentische intelligentie kan ontstaan uit minimale maar strategisch samengestelde demonstraties van autonoom gedrag. Met slechts 78 zorgvuldig ontworpen trainingsvoorbeelden behaalt LIMI 73,5% op uitgebreide agency-benchmarks, wat aanzienlijk beter is dan state-of-the-art modellen: Kimi-K2-Instruct (24,1%), DeepSeek-V3.1 (11,9%), Qwen3-235B-A22B-Instruct (27,5%) en GLM-4.5 (45,1%). Het meest opvallend is dat LIMI een verbetering van 53,7% laat zien ten opzichte van modellen die getraind zijn op 10.000 voorbeelden – en zo superieure agentische intelligentie bereikt met 128 keer minder voorbeelden. Onze bevindingen leggen het Agency Efficiency Principle vast: machine-autonomie ontstaat niet uit een overvloed aan data, maar uit de strategische selectie van hoogwaardige agentische demonstraties.
Recente vooruitgang in video-invoeging op basis van diffusiemodellen is indrukwekkend. Bestaande methoden vertrouwen echter op complexe controlesignalen, maar hebben moeite met onderwerpconsistentie, wat hun praktische toepasbaarheid beperkt. In dit artikel richten we ons op de taak van Masker-vrije Video-invoeging en streven we ernaar drie belangrijke uitdagingen op te lossen: dataschaarste, onderwerp-scène-evenwicht en invoegingsharmonisatie. Om de dataschaarste aan te pakken, stellen we een nieuwe datapijplijn voor, InsertPipe, die automatisch diverse kruispaardata construeert. Op basis van onze datapijplijn ontwikkelen we OmniInsert, een nieuw uniform raamwerk voor masker-vrije video-invoeging vanuit zowel enkele als meerdere onderwerpverwijzingen. Specifiek introduceren we, om het onderwerp-scène-evenwicht te behouden, een eenvoudig maar effectief Condition-Specific Feature Injection-mechanisme om multi-broncondities duidelijk in te spuiten en stellen we een nieuwe Progressieve Trainingsstrategie voor die het model in staat stelt om feature-injectie van onderwerpen en bronvideo in evenwicht te brengen. Tegelijkertijd ontwerpen we de Subject-Focused Loss om het gedetailleerde uiterlijk van de onderwerpen te verbeteren. Om de invoegingsharmonisatie verder te verbeteren, stellen we een Insertive Preference Optimization-methodologie voor om het model te optimaliseren door menselijke voorkeuren te simuleren, en integreren we een Context-Aware Rephraser-module tijdens de verwijzing om het onderwerp naadloos in de originele scènes te integreren. Om het gebrek aan een benchmark voor het veld aan te pakken, introduceren we InsertBench, een uitgebreide benchmark bestaande uit diverse scènes met zorgvuldig geselecteerde onderwerpen. Evaluatie op InsertBench geeft aan dat OmniInsert state-of-the-art closed-source commerciële oplossingen overtreft. De code zal worden vrijgegeven.
We introduceren Meta Agents Research Environments (ARE), een onderzoeksplatform voor de schaalbare creatie van omgevingen, integratie van synthetische of echte applicaties, en uitvoering van agent-gebaseerde orkestraties. ARE biedt eenvoudige abstracties om complexe en diverse omgevingen te bouwen, elk met hun eigen regels, tools, inhoud en verificatiemechanismen, wat helpt om de kloof tussen modelontwikkeling en implementatie in de echte wereld te overbruggen. We stellen ook Gaia2 voor, een benchmark gebouwd in ARE en ontworpen om algemene agentcapaciteiten te meten. Naast zoeken en uitvoeren vereist Gaia2 dat agenten omgaan met ambiguïteiten en ruis, zich aanpassen aan dynamische omgevingen, samenwerken met andere agenten en opereren onder tijdsbeperkingen. In tegenstelling tot eerdere benchmarks draait Gaia2 asynchroon, waardoor nieuwe faalmodi zichtbaar worden die in statische omgevingen onzichtbaar blijven. Onze experimenten tonen aan dat geen enkel systeem domineert over het hele intelligentiespectrum: sterkere redeneervaardigheden gaan vaak ten koste van efficiëntie, en budgetschaalcurves bereiken een plateau, wat de noodzaak benadrukt van nieuwe architecturen en adaptieve rekenstrategieën. Misschien nog belangrijker is dat de abstracties van ARE continue uitbreiding van Gaia2 naar andere omgevingen mogelijk maken, waardoor de gemeenschap in staat wordt gesteld snel nieuwe benchmarks te creëren die zijn afgestemd op hun domeinen. In de tweede helft van AI hangt vooruitgang steeds meer af van het definiëren van zinvolle taken en robuuste evaluaties om grensverleggende capaciteiten vooruit te drijven.
Ondanks de groeiende interesse in het repliceren van het opgeschaalde succes van grote taalmodelen (LLM's) in industriële zoek- en aanbevelingssystemen, blijven de meeste bestaande industriële inspanningen beperkt tot het overnemen van Transformer-architecturen, die slechts incrementele verbeteringen bieden ten opzichte van sterke Deep Learning Aanbevelingsmodellen (DLRM's). Vanuit een eerste-principe perspectief komen de doorbraken van LLM's niet alleen voort uit hun architectuur, maar ook uit twee complementaire mechanismen: context engineering, dat ruwe invoerquery's verrijkt met contextuele signalen om de mogelijkheden van het model beter te benutten, en meerstaps redeneren, dat modeluitvoeren iteratief verfijnt via tussenliggende redeneerpaden. Deze twee mechanismen en hun potentieel om aanzienlijke verbeteringen te ontgrendelen, blijven echter grotendeels onontgonnen in industriële rankingsystemen. In dit artikel stellen we OnePiece voor, een uniform raamwerk dat LLM-stijl context engineering en redeneren naadloos integreert in zowel retrievals- als rankingsmodellen van industriële cascadepijplijnen. OnePiece is gebouwd op een pure Transformer-backbone en introduceert verder drie belangrijke innovaties: (1) gestructureerd context engineering, dat interactiegeschiedenis verrijkt met voorkeurs- en scenariosignalen en deze samenbrengt in een gestructureerde getokeniseerde invoerreeks voor zowel retrieval als ranking; (2) bloksgewijs latent redeneren, dat het model uitrust met meerstaps verfijning van representaties en de redeneerbandbreedte schaalt via blokgrootte; (3) progressieve multitask-training, die gebruikersfeedbackketens benut om redeneerstappen effectief te begeleiden tijdens de training. OnePiece is geïmplementeerd in het belangrijkste gepersonaliseerde zoekscenario van Shopee en behaalt consistente online verbeteringen in verschillende belangrijke bedrijfsmatige metrieken, waaronder meer dan +2% GMV/UU en een stijging van +2,90% in advertentie-inkomsten.
Dit artikel introduceert TempSamp-R1, een nieuw reinforcement fine-tuning framework dat is ontworpen om de effectiviteit van het aanpassen van multimodale grote taalmodellen (MLLMs) aan video-temporele grondslagstaken te verbeteren. We tonen aan dat bestaande reinforcement learning-methoden, zoals Group Relative Policy Optimization (GRPO), vertrouwen op on-policy sampling voor beleidsupdates. Echter, bij taken met grote temporele zoekruimtes wordt deze strategie zowel inefficiënt als beperkt in prestaties, omdat het vaak niet in staat is temporeel nauwkeurige oplossingen te identificeren. Om deze beperking aan te pakken, maakt TempSamp-R1 gebruik van grondwaarheidannotaties als off-policy supervisie om temporeel precieze begeleiding te bieden, waardoor de schaarste en uitlijning in on-policy oplossingen effectief worden gecompenseerd. Om de training verder te stabiliseren en de variantie in beloningsgebaseerde updates te verminderen, biedt TempSamp-R1 een niet-lineaire soft advantage-berekeningsmethode die de beloningsfeedback dynamisch hervormt via een asymmetrische transformatie. Door een hybride Chain-of-Thought (CoT) trainingsparadigma te gebruiken, optimaliseert TempSamp-R1 een enkel verenigd model om zowel CoT- als niet-CoT-inferentiemodi te ondersteunen, waardoor efficiënte verwerking van queries met variërende redeneercomplexiteit mogelijk wordt. Experimentele resultaten tonen aan dat TempSamp-R1 GRPO-gebaseerde baselines overtreft en nieuwe state-of-the-art prestaties op benchmarkdatasets vestigt: Charades-STA (R1@0.7: 52.9%, +2.7%), ActivityNet Captions (R1@0.5: 56.0%, +5.3%), en QVHighlights (mAP: 30.0%, +3.0%). Bovendien toont TempSamp-R1 robuuste few-shot generalisatiecapaciteiten onder beperkte data. Code: https://github.com/HVision-NKU/TempSamp-R1
In dit artikel presenteren we VideoFrom3D, een nieuw raamwerk voor het synthetiseren van hoogwaardige 3D-scènevideo's uit grove geometrie, een cameratraject en een referentiebeeld. Onze aanpak stroomlijnt de 3D-grafische ontwerpworkflow, waardoor flexibele ontwerpverkenning en snelle productie van resultaten mogelijk worden. Een eenvoudige benadering voor het synthetiseren van een video uit grove geometrie zou een videodiffusiemodel kunnen conditioneren op geometrische structuur. Bestaande videodiffusiemodellen hebben echter moeite om hoogwaardige resultaten te genereren voor complexe scènes vanwege de moeilijkheid om visuele kwaliteit, beweging en temporele consistentie gezamenlijk te modelleren. Om dit aan te pakken, stellen we een generatief raamwerk voor dat gebruikmaakt van de complementaire sterke punten van beeld- en videodiffusiemodellen. Specifiek bestaat ons raamwerk uit een Sparse Anchor-view Generation (SAG) en een Geometry-guided Generative Inbetweening (GGI) module. De SAG module genereert hoogwaardige, kruisbeeld-consistente ankerbeelden met behulp van een beelddiffusiemodel, ondersteund door Sparse Appearance-guided Sampling. Op basis van deze ankerbeelden interpoleert de GGI module trouw tussenliggende frames met behulp van een videodiffusiemodel, versterkt door flow-gebaseerde camerabesturing en structurele begeleiding. Opmerkelijk is dat beide modules werken zonder enige gepaarde dataset van 3D-scènemodellen en natuurlijke beelden, wat extreem moeilijk te verkrijgen is. Uitgebreide experimenten tonen aan dat onze methode hoogwaardige, stijl-consistente scènevideo's produceert onder diverse en uitdagende scenario's, en daarbij eenvoudige en uitgebreide basislijnen overtreft.
Online reinforcement learning (RL) is van cruciaal belang geweest voor het na-trainen van taalmodelen, maar de uitbreiding naar diffusiemodellen blijft uitdagend vanwege onberekenbare waarschijnlijkheden. Recente werken discretiseren het omgekeerde samplingproces om GRPO-stijl training mogelijk te maken, maar ze erven fundamentele beperkingen, waaronder solverbeperkingen, inconsistentie tussen voorwaartse en omgekeerde processen, en gecompliceerde integratie met classifier-free guidance (CFG). Wij introduceren Diffusion Negative-aware FineTuning (DiffusionNFT), een nieuw online RL-paradigma dat diffusiemodellen direct optimaliseert op het voorwaartse proces via flow matching. DiffusionNFT contrasteert positieve en negatieve generaties om een impliciete richting voor beleidsverbetering te definiëren, waarbij versterkingssignalen op natuurlijke wijze worden geïntegreerd in het doel van gesuperviseerd leren. Deze formulering maakt training mogelijk met willekeurige black-box solvers, elimineert de noodzaak van waarschijnlijkheidsschatting, en vereist alleen schone afbeeldingen in plaats van samplingtrajecten voor beleidsoptimalisatie. DiffusionNFT is tot 25 keer efficiënter dan FlowGRPO in directe vergelijkingen, terwijl het CFG-vrij is. Zo verbetert DiffusionNFT de GenEval-score van 0.24 naar 0.98 binnen 1k stappen, terwijl FlowGRPO 0.95 bereikt met meer dan 5k stappen en aanvullende CFG-inzet. Door gebruik te maken van meerdere beloningsmodellen, verbetert DiffusionNFT de prestaties van SD3.5-Medium aanzienlijk in elke geteste benchmark.
We introduceren SWE-Bench Pro, een aanzienlijk uitdagender benchmark die voortbouwt op de best practices van SWE-BENCH [25], maar expliciet is ontworpen om realistische, complexe, ondernemingsniveau problemen te omvatten die buiten het bereik van SWE-BENCH vallen. SWE-BENCH PRO bevat 1.865 problemen afkomstig uit een diverse set van 41 actief onderhouden repositories, variërend van zakelijke applicaties, B2B-diensten en ontwikkelaarstools. De benchmark is onderverdeeld in een openbare set met vrije toegang tot problemen afkomstig uit 11 repositories, een afgezonderde set van 12 repositories en een commerciële set van 18 propriëtaire repositories waarmee we formele partnerschapsovereenkomsten hebben met startende bedrijven. Problemen in de afgezonderde en de commerciële set zijn niet publiekelijk toegankelijk, maar we publiceren resultaten over de commerciële set. Onze benchmark bevat taken met een lange tijdsduur die uren tot dagen kunnen kosten voor een professionele software engineer om te voltooien, vaak met patches over meerdere bestanden en aanzienlijke codewijzigingen. Alle taken zijn door mensen geverifieerd en aangevuld met voldoende context om oplosbaarheid te garanderen. In onze evaluatie van veelgebruikte coderingsmodellen, onder een uniforme structuur, observeren we dat hun prestaties op SWE-Bench PRO onder de 25% blijven (Pass@1), waarbij GPT-5 tot nu toe de hoogste score behaalt met 23,3%. Om deze beperkingen beter te begrijpen, clusteren we de faalmodi die worden waargenomen in de verzamelde agenttrajecten voor een duidelijkere karakterisering van de foutpatronen die huidige modellen vertonen. Over het algemeen biedt SWE-BENCH PRO een vervuiling-resistent testplatform dat de complexiteit en diversiteit van echte softwareontwikkeling nauwkeuriger weergeeft, en bevordert het de zoektocht naar echt autonome software engineering agents op professioneel niveau.
Recente ontwikkelingen in grote taalmodellen (LLMs) hebben de contextlengtes uitgebreid, waardoor assistenten langere geschiedenissen kunnen behouden voor coherente, gepersonaliseerde antwoorden. Deze mogelijkheid hangt echter af van Key-Value (KV) caching, waarvan het geheugen lineair groeit met de dialooglengte en snel dominant wordt onder strikte resourcebeperkingen. Een actieve onderzoekslijn om deze overhead te verminderen is KV-cachecompressie, die streeft naar het beperken van de cachegrootte terwijl de nauwkeurigheid behouden blijft. Toch kampen bestaande methoden met twee belangrijke beperkingen: (i) het verwijderen van items na volledige contextprefill veroorzaakt onbegrensde piekgeheugen, en (ii) query-afhankelijke verwijdering beperkt de cache tot een enkele query, wat leidt tot verminderde nauwkeurigheid in meerzijdige gesprekken. Wij introduceren EpiCache, een trainingsvrij KV-cachebeheerframework voor langdurige conversatievraag-antwoord (LongConvQA) onder vaste geheugenbudgetten. EpiCache beperkt de cachegroei door bloksgewijze prefill en behoudt onderwerpgerelateerde context via episodische KV-compressie, waarbij de gespreksgeschiedenis wordt gegroepeerd in coherente episodes en episode-specifieke KV-cacheverwijdering wordt toegepast. We ontwerpen verder een adaptieve laaggewijze budgettoewijzingsstrategie die de gevoeligheid van elke laag voor verwijdering meet en het geheugenbudget dienovereenkomstig over de lagen verdeelt. Over drie LongConvQA-benchmarks verbetert EpiCache de nauwkeurigheid met tot 40% ten opzichte van recente baselines, behoudt bijna volledige KV-nauwkeurigheid onder 4-6x compressie, en reduceert latentie en geheugen met tot 2.4x en 3.5x, waardoor efficiënte meerzijdige interactie mogelijk wordt onder strikte resourcebeperkingen.
Recente vooruitgang in reinforcement learning (RL) heeft de redeneervaardigheden van grote taalmodellen (LLMs) verbeterd, maar de impact op multimodale LLMs (MLLMs) blijft beperkt. Met name bij visueel intensieve taken zoals geometrisch redeneren, hallucineren MLLMs vaak, wat leidt tot onnauwkeurige redeneringen. Wij schrijven dit toe aan het perceptuele knelpunt in MLLMs, dat de voordelen van redeneertraining beperkt. Om dit te kwantificeren, hebben we een Geo-Perception Question-Answering (GeoPQA) benchmark ontworpen, gericht op basisgeometrische concepten en ruimtelijke relaties. Experimenten met GeoPQA onthullen aanzienlijke tekortkomingen van MLLMs in visuele perceptie, die de RL-beloningssignalen voor effectieve training beperken. Om dit knelpunt aan te pakken, stellen we een tweefasen RL-trainingsframework voor, waarbij eerst de visuele perceptie van geometrische structuren wordt verbeterd, waarna de redeneervaardigheden worden gestimuleerd. Toegepast op Qwen2.5-VL-3B-Instruct, verbetert onze tweefasentraining het geometrisch redeneren met 9,7% en het oplossen van geometrische problemen met 9,1%, vergeleken met de directe redeneertrainingsaanpak. Onze methode generaliseert ook naar andere visueel intensieve domeinen zoals figuurinterpretatie, wat het belang van perceptuele verankering benadrukt voor effectief redeneren in MLLMs.
We voeren een middelgrote, tot op zekere hoogte vervuiling-vrije evaluatie uit van huidige grote redeneermodellen (LRMs) met enkele voorlopige bevindingen. We brengen ook ROME uit, onze evaluatiebenchmark voor visuele taalmodellen die bedoeld is om redeneren vanuit visuele aanwijzingen te testen. We voegen links toe naar de benchmark, evaluatiedata en andere updates op deze website: https://flageval-baai.github.io/LRM-Eval/
Grote taalmmodellen (LLMs) verwerven aanzienlijke wereldkennis tijdens voorafgaande training, die verder wordt gevormd door technieken na de training, zoals gesuperviseerde fine-tuning (SFT). Het effect van SFT op de kennis van een model blijft echter onderbelicht, wat ons vermogen beperkt om kennisveranderingsgedrag in gefinetunede modellen te beheersen. Om deze kloof te dichten, evalueren we de prestaties van closed-book vraagbeantwoording (CBQA) over vijf LLMs uit de LLaMA-2 en LLaMA-3 families. Verrassend genoeg presteren modellen die gefinetuned zijn op 1.920 voorbeelden tot 14% slechter dan die gefinetuned zijn op slechts 240 voorbeelden. Bovendien leidt het variëren van het niveau van kennisbeheersing in de finetuninggegevens tot prestatiefluctuaties van meer dan 12%. Om deze effecten te onderzoeken, analyseren we het modelgedrag op zowel het token- als het parameterniveau. Onze analyse onthult dat tot 90% van de parameterupdates tijdens SFT niet bijdraagt aan kennisverbetering. Het herstellen van deze updates kan de prestaties op de CBQA-taak verbeteren, afhankelijk van de kenmerken van de finetuninggegevens. Deze inzichten bieden praktische richtlijnen voor het ontwikkelen van finetuningstrategieën die de modelkennis effectiever versterken.
Dit artikel introduceert ByteWrist, een nieuw, zeer flexibel en antropomorf parallel polsmechanisme voor robotmanipulatie. ByteWrist adresseert de kritieke beperkingen van bestaande seriële en parallelle polsmechanismen bij operaties in nauwe ruimtes door middel van een compact drietraps parallel aandrijvingsmechanisme geïntegreerd met boogvormige eindverbindingen. Het ontwerp bereikt precieze RPY (Roll-Pitch-Yaw) bewegingen terwijl het een uitzonderlijke compactheid behoudt, wat het bijzonder geschikt maakt voor complexe ongestructureerde omgevingen zoals huishoudelijke diensten, medische assistentie en precisieassemblage. De belangrijkste innovaties omvatten: (1) een genest drietraps motor-aangedreven verbindingsmechanisme dat het volume minimaliseert terwijl het onafhankelijke multi-DOF controle mogelijk maakt, (2) boogvormige eindverbindingen die de krachtoverdracht optimaliseren en het bewegingsbereik vergroten, en (3) een centrale ondersteunende bal die functioneert als een sferisch gewricht en de structurele stijfheid verhoogt zonder de flexibiliteit aan te tasten. Tegelijkertijd presenteren we een uitgebreide kinematische modellering, inclusief voorwaartse / inverse kinematica en een numerieke Jacobiaanse oplossing voor precieze controle. Empirisch observeren we dat ByteWrist sterke prestaties vertoont in manoeuvreerbaarheid in nauwe ruimtes en taken voor coöperatieve manipulatie met twee armen, waarbij het Kinova-gebaseerde systemen overtreft. De resultaten wijzen op significante verbeteringen in compactheid, efficiëntie en stijfheid in vergelijking met traditionele ontwerpen, wat ByteWrist positioneert als een veelbelovende oplossing voor de volgende generatie robotmanipulatie in beperkte omgevingen.
Ontwikkelaars van grote taalmodellen (LLM's) streven ernaar dat hun modellen eerlijk, behulpzaam en onschadelijk zijn. Wanneer ze echter worden geconfronteerd met kwaadaardige verzoeken, zijn modellen getraind om te weigeren, wat ten koste gaat van behulpzaamheid. Wij laten zien dat geavanceerde LLM's een voorkeur kunnen ontwikkelen voor oneerlijkheid als nieuwe strategie, zelfs wanneer andere opties beschikbaar zijn. Getroffen modellen reageren op schadelijke verzoeken met uitvoer die schadelijk klinkt, maar in de praktijk subtiel incorrect of anderszins onschadelijk is. Dit gedrag ontstaat met moeilijk te voorspellen variaties, zelfs binnen modellen uit dezelfde modelfamilie. Wij vinden geen duidelijke oorzaak voor de neiging tot bedrog, maar wij laten zien dat capabelere modellen beter zijn in het uitvoeren van deze strategie. Strategische oneerlijkheid heeft al een praktische impact op veiligheidsevaluaties, aangezien wij aantonen dat oneerlijke reacties alle op uitvoer gebaseerde monitors misleiden die worden gebruikt om jailbreaks te detecteren die wij testen, waardoor benchmarkscores onbetrouwbaar worden. Bovendien kan strategische oneerlijkheid fungeren als een honeypot tegen kwaadaardige gebruikers, wat eerdere jailbreak-aanvallen merkbaar verduistert. Terwijl uitvoermonitors falen, laten wij zien dat lineaire probes op interne activaties kunnen worden gebruikt om strategische oneerlijkheid betrouwbaar te detecteren. Wij valideren probes op datasets met verifieerbare uitkomsten en door hun kenmerken te gebruiken als stuurvectoren. Over het algemeen beschouwen wij strategische oneerlijkheid als een concreet voorbeeld van een bredere zorg dat de afstemming van LLM's moeilijk te controleren is, vooral wanneer behulpzaamheid en onschadelijkheid met elkaar in conflict zijn.
Universele multimodale inbeddingsmodellen hebben groot succes geboekt in het vastleggen van semantische relevantie tussen queries en kandidaten. Huidige methodes comprimeren echter queries en kandidaten tot een enkele vector, wat mogelijk de expressiviteit voor fijnmazige informatie beperkt, of produceren te veel vectoren die onpraktisch duur zijn voor multivector-retrieval. In dit werk introduceren we MetaEmbed, een nieuw raamwerk voor multimodale retrieval dat heroverweegt hoe multimodale inbeddingen worden geconstrueerd en op grote schaal worden geïnterageerd. Tijdens de training wordt een vast aantal leerbare Meta-Tokens toegevoegd aan de invoerreeks. Tijdens de testfase dienen hun gecontextualiseerde representaties uit de laatste laag als compacte maar expressieve multivector-inbeddingen. Door de voorgestelde Matryoshka Multivector Retrieval-training leert MetaEmbed informatie te organiseren op granulariteit over meerdere vectoren. Hierdoor maken we schaling tijdens de testfase mogelijk in multimodale retrieval, waarbij gebruikers een balans kunnen vinden tussen retrievalkwaliteit en efficiëntie-eisen door het aantal tokens te selecteren dat wordt gebruikt voor indexering en retrieval-interacties. Uitgebreide evaluaties op de Massive Multimodal Embedding Benchmark (MMEB) en de Visual Document Retrieval Benchmark (ViDoRe) bevestigen dat MetaEmbed state-of-the-art retrievakwaliteit bereikt terwijl het robuust schaalt naar modellen met 32B parameters.
De brede adoptie van Large Language Models (LLMs) wordt belemmerd door hun neiging tot hallucinatie, waarbij ze plausibele maar feitelijk onjuiste informatie genereren. Hoewel Retrieval-Augmented Generation (RAG)-systemen proberen dit probleem aan te pakken door antwoorden te verankeren in externe kennis, blijft hallucinatie een hardnekkige uitdaging, vooral voor morfologisch complexe, laag-resource talen zoals het Turks. Dit artikel introduceert Turk-LettuceDetect, de eerste suite van hallucinatiedetectiemodellen die specifiek zijn ontworpen voor Turkse RAG-toepassingen. Gebaseerd op het LettuceDetect-framework formuleren we hallucinatiedetectie als een token-level classificatietaak en fine-tunen we drie verschillende encoder-architecturen: een Turks-specifieke ModernBERT, TurkEmbed4STS en een meertalige EuroBERT. Deze modellen zijn getraind op een machinaal vertaalde versie van de RAGTruth-benchmarkdataset, die 17.790 instanties bevat voor taken zoals vraagbeantwoording, data-naar-tekstgeneratie en samenvatting. Onze experimentele resultaten laten zien dat het ModernBERT-gebaseerde model een F1-score van 0,7266 behaalt op de volledige testset, met bijzonder sterke prestaties op gestructureerde taken. De modellen behouden rekenkundige efficiëntie terwijl ze lange contexten tot 8.192 tokens ondersteunen, waardoor ze geschikt zijn voor real-time implementatie. Vergelijkende analyse toont aan dat state-of-the-art LLMs weliswaar een hoge recall hebben, maar lijden onder een lage precisie door het overmatig genereren van gehallucineerde inhoud, wat de noodzaak van gespecialiseerde detectiemechanismen onderstreept. Door onze modellen en de vertaalde dataset vrij te geven, vult dit werk een kritieke leemte in meertalige NLP en legt het een basis voor het ontwikkelen van betrouwbaardere en vertrouwenswaardigere AI-toepassingen voor het Turks en andere talen.
De vraag naar efficiënte implementatie van grote taalmodellen (LLMs) heeft de interesse in kwantisatie aangewakkerd, wat de inferentiekosten verlaagt, en parameter-efficiënte fine-tuning (PEFT), wat de trainingsoverhead vermindert. Dit heeft de ontwikkeling van kwantisatiebewuste PEFT gestimuleerd om nauwkeurige maar toch efficiënte gekwantiseerde modellen te produceren. In deze context is het verminderen van kwantisatiefouten vóór fine-tuning cruciaal om een hoge modelnauwkeurigheid te bereiken. Bestaande methoden die vertrouwen op low-rank aanpassing hebben echter een beperkte representatiecapaciteit. Recente Fourier-gerelateerde transform (FT)-gebaseerde adapters bieden een grotere representatiekracht dan low-rank adapters, maar hun directe integratie in gekwantiseerde modellen resulteert vaak in ondoeltreffende foutreductie en verhoogde rekenkosten. Om deze beperkingen te overwinnen, stellen we QWHA voor, een methode die FT-gebaseerde adapters integreert in gekwantiseerde modellen door de Walsh-Hadamard Transform (WHT) te gebruiken als transformkernel, samen met een nieuw adapter-initialisatieschema dat adaptieve parameterselectie en waardeverfijning omvat. We tonen aan dat QWHA effectief kwantisatiefouten vermindert terwijl het fine-tuning vergemakkelijkt, en dat het ontwerp de rekenkosten aanzienlijk verlaagt. Experimentele resultaten laten zien dat QWHA consistent beter presteert dan baseline-methoden in nauwkeurigheid bij lage-bit kwantisatie en aanzienlijke trainingsversnellingen bereikt ten opzichte van bestaande FT-gebaseerde adapters. De code is beschikbaar op https://github.com/vantaa89/qwha.
Grafische gebruikersinterfaces (GUI's) zijn het primaire medium voor mens-computerinteractie, maar het automatiseren van GUI-interacties blijft een uitdaging vanwege de complexiteit van visuele elementen, dynamische omgevingen en de noodzaak van meerstaps redeneren. Bestaande methoden gebaseerd op vision-language modellen (VLM's) kampen vaak met beperkte resolutie, domeinmismatch en onvoldoende sequentiële besluitvormingscapaciteit. Om deze problemen aan te pakken, stellen we Mano voor, een robuuste GUI-agent gebouwd op een multimodaal foundation model dat is voorgetraind op uitgebreide web- en computersysteemdata. Onze aanpak integreert een nieuwe gesimuleerde omgeving voor het genereren van hoogwaardige data, een drietraps trainingspijplijn (gesuperviseerde fine-tuning, offline reinforcement learning en online reinforcement learning) en een verificatiemodule voor foutherstel. Mano toont state-of-the-art prestaties op meerdere GUI-benchmarks, waaronder Mind2Web en OSWorld, met aanzienlijke verbeteringen in succespercentage en operationele nauwkeurigheid. Ons werk biedt nieuwe inzichten in de effectieve integratie van reinforcement learning met VLM's voor praktische inzet van GUI-agenten, waarbij het belang wordt benadrukt van domeinspecifieke data, iteratieve training en holistische beloningsontwerpen.
We introduceren Synthetic Bootstrapped Pretraining (SBP), een voorbereidingsprocedure voor taalmodellen (LM) die eerst een model leert van de relaties tussen documenten uit de voorbereidingsdataset en deze vervolgens benut om een uitgebreid nieuw corpus te synthetiseren voor gezamenlijke training. Terwijl standaard voorbereidingen LMs leren om causale correlaties tussen tokens binnen een enkel document te begrijpen, is deze niet ontworpen om de rijke, leerbare inter-documentcorrelaties efficiënt te modelleren die potentieel tot betere prestaties kunnen leiden. We valideren SBP door een rekenkundig afgestemde voorbereidingsopzet te ontwerpen en trainen een model met 3 miljard parameters vanaf nul op maximaal 1 biljoen tokens. We constateren dat SBP consistent verbetert ten opzichte van een sterke herhalingsbaseline en een aanzienlijk deel van de prestatieverbetering realiseert die haalbaar is met een orakel-upperbound die toegang heeft tot 20 keer meer unieke data. Kwalitatieve analyse toont aan dat de gesynthetiseerde documenten verder gaan dan louter parafraseringen – SBP abstraheert eerst een kernconcept uit het bronmateriaal en creëert vervolgens een nieuwe narratief daarop. Naast sterke empirische prestaties, laat SBP een natuurlijke Bayesiaanse interpretatie toe: de synthesizer leert impliciet om de latente concepten die tussen gerelateerde documenten worden gedeeld, te abstraheren.
Trainingsvrije video-objectbewerking heeft als doel precieze manipulatie op objectniveau te bereiken, inclusief het invoegen, vervangen en verwijderen van objecten. Het wordt echter geconfronteerd met aanzienlijke uitdagingen bij het behouden van nauwkeurigheid en temporele consistentie. Bestaande methoden, vaak ontworpen voor U-Net-architecturen, kampen met twee primaire beperkingen: onnauwkeurige inversie door eerstegraads oplossers en contextuele conflicten veroorzaakt door ruwe "harde" feature-vervanging. Deze problemen zijn nog uitdagender in Diffusion Transformers (DiTs), waar de ongeschiktheid van eerder gebruikte laagselectieheuristieken effectieve begeleiding bemoeilijkt. Om deze beperkingen aan te pakken, introduceren we ContextFlow, een nieuw trainingsvrij framework voor DiT-gebaseerde video-objectbewerking. In detail gebruiken we eerst een hogere-orde Rectified Flow-oplosser om een robuuste bewerkingsbasis te creëren. De kern van ons framework is Adaptive Context Enrichment (voor het specificeren wat te bewerken), een mechanisme dat contextuele conflicten aanpakt. In plaats van features te vervangen, verrijkt het de self-attention-context door Key-Value-paren uit parallelle reconstructie- en bewerkingspaden samen te voegen, waardoor het model in staat wordt gesteld informatie dynamisch te fuseren. Daarnaast stellen we, om te bepalen waar deze verrijking moet worden toegepast (voor het specificeren waar te bewerken), een systematische, data-gedreven analyse voor om taakspecifieke cruciale lagen te identificeren. Gebaseerd op een nieuwe Guidance Responsiveness Metric, wijst onze methode de meest invloedrijke DiT-blokken aan voor verschillende taken (bijv. invoegen, vervangen), waardoor gerichte en zeer effectieve begeleiding mogelijk wordt. Uitgebreide experimenten tonen aan dat ContextFlow aanzienlijk beter presteert dan bestaande trainingsvrije methoden en zelfs verschillende state-of-the-art trainingsgebaseerde benaderingen overtreft, met temporeel coherente, hoogwaardige resultaten als resultaat.
Cross-attention is een kernmechanisme in encoder-decoder-architecturen, dat wijdverspreid is in vele domeinen, waaronder spraak-naar-tekst (S2T)-verwerking. De scores ervan zijn hergebruikt voor verschillende downstream-toepassingen—zoals timestamp-schatting en audio-tekst-alignering—onder de aanname dat ze de afhankelijkheden tussen de invoer-spraakrepresentatie en de gegenereerde tekst weerspiegelen. Hoewel de verklarende aard van aandachtmechanismen breed is bediscussieerd in de bredere NLP-literatuur, blijft deze aanname grotendeels ononderzocht binnen het spraakdomein. Om deze leemte aan te pakken, evalueren we de verklarende kracht van cross-attention in S2T-modellen door de scores ervan te vergelijken met invoer-saliencykaarten afgeleid van kenmerktoewijzing. Onze analyse omvat eentalige en meertalige, enkelvoudige en meervoudige taakmodellen op verschillende schalen, en toont aan dat attentiescores matig tot sterk overeenkomen met saliency-gebaseerde verklaringen, vooral wanneer ze worden geaggregeerd over heads en lagen. Het laat echter ook zien dat cross-attention slechts ongeveer 50% van de invoerrelevantie vastlegt en, in het beste geval, slechts gedeeltelijk weerspiegelt hoe de decoder de representaties van de encoder verwerkt—wat slechts 52-75% van de saliency verklaart. Deze bevindingen onthullen fundamentele beperkingen in het interpreteren van cross-attention als een verklarende proxy, wat suggereert dat het een informatieve maar onvolledige kijk biedt op de factoren die voorspellingen in S2T-modellen sturen.
Het opschalen van aanbevelingsmodellen naar grote aanbevelingsmodellen is een van de meest besproken onderwerpen geworden. Recente inspanningen richten zich op componenten die verder gaan dan het opschalen van de embeddingdimensie, omdat wordt aangenomen dat het opschalen van embeddings kan leiden tot prestatievermindering. Hoewel er enkele initiële observaties zijn gedaan over embeddings, blijft de oorzaak van hun niet-schaalbaarheid onduidelijk. Bovendien is het nog steeds een onontgonnen gebied of prestatievermindering optreedt bij verschillende soorten modellen en datasets. Wat betreft het effect van embeddingdimensies op de prestaties, voeren we grootschalige experimenten uit over 10 datasets met verschillende sparsiteitsniveaus en schalen, waarbij we 4 representatieve klassieke architecturen gebruiken. Verrassend observeren we twee nieuwe fenomenen: dubbelpiek en logaritmisch. Bij het eerste fenomeen verbetert de prestatie eerst naarmate de embeddingdimensie toeneemt, daalt vervolgens, stijgt opnieuw en neemt uiteindelijk af. Bij het tweede fenomeen vertoont het een perfecte logaritmische curve. Onze bijdragen zijn drievoudig. Ten eerste ontdekken we twee nieuwe fenomenen bij het opschalen van collaboratieve filteringsmodellen. Ten tweede krijgen we inzicht in de onderliggende oorzaken van het dubbelpiekfenomeen. Tot slot analyseren we theoretisch de ruisbestendigheid van collaboratieve filteringsmodellen, waarbij de resultaten overeenkomen met empirische observaties.
We introduceren Reasoning Core, een nieuwe schaalbare omgeving voor Reinforcement Learning met Verifieerbare Beloningen (RLVR), ontworpen om fundamenteel symbolisch redeneren in Grote Taalmodellen (LLMs) te bevorderen. In tegenstelling tot bestaande benchmarks die zich richten op spellen of geïsoleerde puzzels, genereert Reasoning Core procedureel problemen binnen kernformele domeinen, waaronder PDDL-planning, eerstegraadslogica, contextvrije grammatica-parsing, causaal redeneren en het oplossen van systeemvergelijkingen. De omgeving is gebouwd op belangrijke ontwerpprincipes van hooggenerieke probleemdistributies, verificatie via externe tools en continue moeilijkheidscontrole, die samen zorgen voor een vrijwel oneindige voorraad van nieuwe trainingsinstanties. Initiële zero-shot-evaluaties met toonaangevende LLMs bevestigen de uitdaging van de taken in Reasoning Core, wat het positioneert als een veelbelovende bron om de redeneervaardigheden van toekomstige modellen te verbeteren.
Zelfs zonder geluiden direct te horen, kunnen mensen moeiteloos redeneren over auditieve eigenschappen, zoals toonhoogte, luidheid of geluidsbronassociaties, door gebruik te maken van auditief gezond verstand. Daarentegen ontbreekt deze vaardigheid vaak bij taalmodelen, wat hun effectiviteit in multimodale interacties beperkt. Als eerste stap om deze kloof te overbruggen, presenteren we AuditoryBench++, een uitgebreide benchmark voor het evalueren van auditieve kennis en redenering in tekstgebaseerde omgevingen. De benchmark omvat taken die variëren van eenvoudige auditieve vergelijkingen tot contextueel onderbouwde redenering, waardoor een gedetailleerde analyse mogelijk is van hoe modellen auditieve concepten verwerken en integreren. Daarnaast introduceren we AIR-CoT, een nieuwe methode voor auditieve verbeelding en redenering die auditieve informatie genereert en integreert tijdens inferentie door middel van spandetectie met speciale tokens en kennisinjectie. Uitgebreide experimenten met recente LLM's en Multimodale LLM's tonen aan dat AIR-CoT over het algemeen beter presteert dan zowel standaardmodellen als modellen die zijn verrijkt met auditieve kennis. De projectpagina is beschikbaar op https://auditorybenchpp.github.io.
Recente ontwikkelingen in Grote Multimodale Modellen (LMMs) hebben hun opmerkelijke succes aangetoond als algemene multimodale assistenten, met een bijzondere focus op holistisch beeld- en video-taalbegrip. Omgekeerd is er minder aandacht besteed aan het schalen van fijnmazige, pixel-niveau begripscapaciteiten, waarbij de modellen een pixel-niveau afstemming tussen visuele signalen en taalsemantiek moeten realiseren. Sommige eerdere studies hebben LMMs toegepast op gerelateerde taken zoals regionale bijschrijving en verwijzende expressiesegmentatie. Deze modellen zijn echter beperkt tot het onafhankelijk uitvoeren van verwijzende of segmentatietaken en slagen er niet in deze fijnmazige perceptiecapaciteiten te integreren in visuele redenering. Om deze kloof te overbruggen, stellen we UniPixel voor, een groot multimodaal model dat in staat is visuele promptinputs flexibel te begrijpen en masker-gebaseerde antwoorden te genereren. Ons model onderscheidt zich door het naadloos integreren van pixel-niveau perceptie met algemene visuele begripscapaciteiten. Specifiek verwerkt UniPixel visuele prompts en genereert relevante maskers op aanvraag, en voert vervolgens redeneringen uit die gebaseerd zijn op deze tussenliggende verwijzingen tijdens inferentie, waardoor fijnmazige pixel-niveau redenering mogelijk wordt. De effectiviteit van onze aanpak is geverifieerd op 10 benchmarks voor een diverse set van taken, waaronder pixel-niveau verwijzing/segmentatie en objectgericht begrip in afbeeldingen/video's. Een nieuwe PixelQA-taak die gezamenlijk verwijzing, segmentatie en vraagbeantwooring vereist, is ook ontworpen om de flexibiliteit van onze methode te verifiëren.
De veiligheid en afstemming van Large Language Models (LLMs) zijn cruciaal voor hun verantwoorde inzet. Huidige evaluatiemethoden richten zich voornamelijk op het identificeren en voorkomen van duidelijk schadelijke uitkomsten. Echter, slagen ze er vaak niet in om een meer verraderlijke foutmodus aan te pakken: modellen die ogenschijnlijk onschuldige uitkomsten produceren terwijl ze werken op basis van kwaadaardige of misleidende interne redeneringen. Deze kwetsbaarheid, vaak veroorzaakt door geavanceerde systeemprompt-injecties, stelt modellen in staat om conventionele veiligheidsfilters te omzeilen, wat een significant, onderbelicht risico vormt. Om deze kloof te dichten, introduceren we de Deceptive Reasoning Exposure Suite (D-REX), een nieuwe dataset ontworpen om de discrepantie tussen het interne redeneringsproces van een model en zijn uiteindelijke uitkomst te evalueren. D-REX is samengesteld door middel van een competitieve red-teaming-oefening waarbij deelnemers adversariële systeemprompts creëerden om dergelijk misleidend gedrag te induceren. Elk voorbeeld in D-REX bevat de adversariële systeemprompt, een testvraag van een eindgebruiker, de ogenschijnlijk onschuldige reactie van het model en, cruciaal, de interne gedachtegang van het model, die de onderliggende kwaadaardige intentie onthult. Onze benchmark faciliteert een nieuwe, essentiële evaluatietaak: de detectie van misleidende afstemming. We tonen aan dat D-REX een aanzienlijke uitdaging vormt voor bestaande modellen en veiligheidsmechanismen, wat de dringende behoefte aan nieuwe technieken onderstreept die de interne processen van LLMs onderzoeken, niet alleen hun uiteindelijke uitkomsten.
De huidige state-of-the-art autonome voertuigen kunnen te maken krijgen met veiligheidskritieke situaties wanneer hun lokale sensoren worden geblokkeerd door grote nabijgelegen objecten op de weg. Vehicle-to-vehicle (V2V) coöperatief autonoom rijden is voorgesteld als een manier om dit probleem aan te pakken, en een recent geïntroduceerd framework voor coöperatief autonoom rijden heeft bovendien een benadering geadopteerd die een Multimodaal Large Language Model (MLLM) integreert om de coöperatieve perceptie- en planningsprocessen te combineren. Ondanks het potentiële voordeel van het toepassen van graph-of-thoughts redenering op het MLLM, is dit idee nog niet overwogen in eerder onderzoek naar coöperatief autonoom rijden. In dit paper stellen we een nieuw graph-of-thoughts framework voor, specifiek ontworpen voor MLLM-gebaseerd coöperatief autonoom rijden. Onze graph-of-thoughts omvat onze voorgestelde nieuwe ideeën van occlusiebewuste perceptie en planningbewuste voorspelling. We hebben de V2V-GoT-QA dataset samengesteld en het V2V-GoT model ontwikkeld voor het trainen en testen van de coöperatieve rij-graph-of-thoughts. Onze experimentele resultaten laten zien dat onze methode andere baselines overtreft in coöperatieve perceptie-, voorspellings- en plannings taken.
Grote taalmodellen (LLM's) worden veelvuldig ingezet voor diverse taken en toepassingen. Ondanks hun brede mogelijkheden, blijken ze echter een gebrek te hebben aan culturele afstemming (ryan-etal-2024-unintended, alkhamissi-etal-2024-investigating) en produceren ze bevooroordeelde uitkomsten (naous-etal-2024-beer) vanwege een tekort aan culturele kennis en competentie. Het evalueren van LLM's op cultureel bewustzijn en afstemming is bijzonder uitdagend vanwege het ontbreken van geschikte evaluatiemetrics en het gebrek aan cultureel verankerde datasets die de enorme complexiteit van culturen op regionaal en subregionaal niveau weergeven. Bestaande datasets voor cultuurspecifieke items (CSI's) richten zich voornamelijk op concepten op regionaal niveau en kunnen valse positieven bevatten. Om dit probleem aan te pakken, introduceren we een nieuwe CSI-dataset voor de Indiase cultuur, behorend tot 17 culturele facetten. De dataset omvat sim8k culturele concepten uit 36 subregio's. Om de culturele competentie van LLM's te meten in een taak voor culturele tekstaanpassing, evalueren we de aanpassingen met behulp van de gemaakte CSI's, LLM als beoordelaar, en menselijke evaluaties uit diverse sociaal-demografische regio's. Daarnaast voeren we een kwantitatieve analyse uit die selectieve subregionale dekking en oppervlakkige aanpassingen aantoont bij alle beschouwde LLM's. Onze dataset is hier beschikbaar: https://huggingface.co/datasets/nlip/DIWALI{https://huggingface.co/datasets/nlip/DIWALI}, projectwebpagina\href{https://nlip-lab.github.io/nlip/publications/diwali/{https://nlip-lab.github.io/nlip/publications/diwali/}}, en onze codebase met modeluitvoer is hier te vinden: https://github.com/pramitsahoo/culture-evaluation{https://github.com/pramitsahoo/culture-evaluation}.
Onderwater stereo-diepteschatting biedt nauwkeurige 3D-geometrie voor robotica-taken zoals navigatie, inspectie en mapping, en levert metrische diepte op met behulp van goedkope passieve camera's, terwijl de schaalambiguïteit van monoculaire methoden wordt vermeden. Bestaande benaderingen worden echter geconfronteerd met twee kritieke uitdagingen: (i) het parameter-efficiënt aanpassen van grote vision foundation-encoders aan het onderwaterdomein zonder uitgebreide gelabelde data, en (ii) het nauwkeurig integreren van globaal coherente maar schaal-ambigue monoculaire prioriteiten met lokaal metrische maar fotometrisch kwetsbare stereo-correspondenties. Om deze uitdagingen aan te pakken, stellen we StereoAdapter voor, een parameter-efficiënt zelfgesuperviseerd raamwerk dat een LoRA-aangepaste monoculaire foundation-encoder combineert met een recurrent stereo-verfijningsmodule. We introduceren verder dynamische LoRA-aanpassing voor efficiënte rangselectie en pre-training op de synthetische UW-StereoDepth-40K dataset om de robuustheid onder diverse onderwateromstandigheden te verbeteren. Uitgebreide evaluaties op zowel gesimuleerde als real-world benchmarks tonen verbeteringen van 6,11% op TartanAir en 5,12% op SQUID in vergelijking met state-of-the-art methoden, terwijl real-world implementatie met de BlueROV2-robot de consistente robuustheid van onze aanpak verder aantoont. Code: https://github.com/AIGeeksGroup/StereoAdapter. Website: https://aigeeksgroup.github.io/StereoAdapter.
Reinforcement Learning is naar voren gekomen als de fundamentele techniek voor het verbeteren van redeneervaardigheden in LLM's. Bestaande algoritmen passen echter uniforme optimalisatie toe op alle tokens, zonder rekening te houden met hun verschillende rollen in het redeneerproces. Om deze beperking aan te pakken, introduceren we Heterogeneous Adaptive Policy Optimization (HAPO), een uitgebreid token-bewust algoritme dat de optimalisatie dynamisch aanpast op basis van token-entropie. Voor rollout-sampling stellen we Adaptive Temperature Sampling voor, dat de samplingtemperatuur in realtime aanpast, waardoor exploratie wordt bevorderd bij tokens met hoge entropie terwijl coherentie behouden blijft bij tokens met lage entropie. Voor de voordeelberekening introduceren we Token Level Group Average, dat voordelen normaliseert op tokenniveau, waarbij rekening wordt gehouden met sequentielengte zoals in token-mean loss, terwijl een onbevooroordeelde behandeling behouden blijft. Vervolgens ontwikkelen we Differential Advantage Redistribution, dat entropie en belangrijkheidsratio's benut om beloningsaanpassingen te moduleren voor tokens met duidelijke signalen. Voor clipping loss ontwerpen we Asymmetric Adaptive Clipping, waardoor agressieve waarschijnlijkheidsreductie mogelijk is voor ruisachtige tokens met lage entropie, terwijl exploratie wordt toegestaan voor tokens met hoge entropie. Door systematisch onderzoek naar de relatie tussen entropie en trainingsdynamiek hebben we token-level behandeling ingebed in elke fase om fijnmazige controle te bereiken. Uitgebreide experimenten tonen aan dat HAPO consequent beter presteert dan DAPO over meerdere modelschalen. Onze code is te vinden op https://github.com/starriver030515/HAPO.
We introduceren perioperatie, een paradigma voor robotische dataverzameling dat menselijke manipulatie sensoriseert en vastlegt terwijl de overdraagbaarheid van de data naar echte robots wordt gemaximaliseerd. We implementeren dit paradigma in DEXOP, een passieve handexoskelet ontworpen om het menselijk vermogen te maximaliseren om rijke sensorische (visuele + tactiele) data te verzamelen voor diverse behendige manipulatietaken in natuurlijke omgevingen. DEXOP verbindt mechanisch menselijke vingers met robotvingers, biedt gebruikers directe contactfeedback (via proprioceptie) en spiegelt de menselijke handhouding naar de passieve robothand om de overdracht van gedemonstreerde vaardigheden naar de robot te maximaliseren. De krachtfeedback en houdingsspiegeling maken taakdemonstraties natuurlijker voor mensen vergeleken met teleoperatie, wat zowel snelheid als nauwkeurigheid verhoogt. We evalueren DEXOP over een reeks behendige, contactrijke taken, waarbij we het vermogen aantonen om hoogwaardige demonstratiedata op grote schaal te verzamelen. Beleidsregels die met DEXOP-data worden geleerd, verbeteren de taakprestaties per eenheid van dataverzamelingstijd aanzienlijk vergeleken met teleoperatie, waardoor DEXOP een krachtig hulpmiddel is voor het bevorderen van robotbehendigheid. Onze projectpagina is te vinden op https://dex-op.github.io.
In dit artikel gaan we in op de uitdagingen die gepaard gaan met het samenvoegen van low-rank aanpassingen van grote neurale netwerken. Met de opkomst van parameter-efficiënte aanpassingstechnieken, zoals Low-Rank Adaptation (LoRA), is het finetunen van modellen toegankelijker geworden. Hoewel het finetunen van modellen met LoRA zeer efficiënt is, offeren bestaande samenvoegmethoden deze efficiëntie vaak op door volledige gewichtsmatrices samen te voegen. Wij stellen het Core Space-samenvoegkader voor, dat het mogelijk maakt om LoRA-aangepaste modellen samen te voegen binnen een gemeenschappelijke uitlijningsbasis, waardoor de efficiëntie van low-rank aanpassing behouden blijft terwijl de nauwkeurigheid over taken aanzienlijk verbetert. We leveren verder een formeel bewijs dat projectie in Core Space geen verlies van informatie veroorzaakt en bieden een complexiteitsanalyse die de efficiëntiewinsten aantoont. Uitgebreide empirische resultaten laten zien dat Core Space bestaande samenvoegtechnieken aanzienlijk verbetert en state-of-the-art resultaten behaalt op zowel visuele als taaltaken, terwijl slechts een fractie van de rekenbronnen wordt gebruikt. De codebase is beschikbaar op https://github.com/apanariello4/core-space-merging.
Verborgen licentieconflicten in het open-source AI-ecosysteem vormen ernstige juridische en ethische risico's, waardoor organisaties blootstaan aan mogelijke rechtszaken en gebruikers aan onbekende risico's. Het veld ontbeert echter een data-gedreven inzicht in hoe vaak deze conflicten voorkomen, waar ze ontstaan en welke gemeenschappen het meest worden getroffen. Wij presenteren de eerste end-to-end audit van licenties voor datasets en modellen op Hugging Face, evenals hun downstream-integratie in open-source softwaretoepassingen, waarbij 364 duizend datasets, 1,6 miljoen modellen en 140 duizend GitHub-projecten worden bestreken. Onze empirische analyse onthult systemische niet-naleving, waarbij 35,5% van de model-naar-toepassing-overgangen beperkende licentieclausules elimineert door herlicentiëring onder permissieve voorwaarden. Daarnaast prototypen we een uitbreidbare regelengine die bijna 200 SPDX- en modelspecifieke clausules codeert voor het detecteren van licentieconflicten, die 86,4% van de licentieconflicten in softwaretoepassingen kan oplossen. Om toekomstig onderzoek te ondersteunen, publiceren we onze dataset en de prototype-engine. Onze studie benadrukt licentienaleving als een kritieke governance-uitdaging in open-source AI en biedt zowel de data als de tools die nodig zijn om geautomatiseerde, AI-bewuste naleving op grote schaal mogelijk te maken.
Het analyseren van cultureel-erfgoedartefacten blijft een uitdaging voor MLLM's: algemene modellen missen domeinexpertise, en SFT past zich vaak te veel aan oppervlakkige patronen aan, wat leidt tot broos redeneren voor authenticatie en historische toeschrijving. Dit roept de vraag op hoe MLLM's kunnen worden uitgerust met robuust, expertniveau redeneren voor oud-Grieks aardewerk. Wij presenteren VaseVL, een SFT-then-RL-systeem dat evaluatie omzet in begeleiding: we construeren een taxonomie van vraagtypen, onderzoeken het SFT-model om prestatiekloofjes per type te lokaliseren, en optimaliseren met type-geconditioneerde, compositiegericht beloningen die zich richten op die kloofjes. We brengen ook VaseVQA uit, een uitgebreide benchmark van 31.773 afbeeldingen ontworpen om diepgaand begrip te onderzoeken. Experimenten tonen state-of-the-art resultaten voor stijlclassificatie en historische toeschrijving met aanzienlijke verbeteringen in compositorische robuustheid ten opzichte van SFT-only-baselines, wat diagnose-geleide, taxonomie-geconditioneerde beloningsengineering valideert en een herbruikbare bron biedt voor toekomstig onderzoek. Code en dataset zullen beschikbaar zijn op https://github.com/AIGeeksGroup/VaseVQA.
De efficiëntie van Bayesiaanse optimalisatie (BO) hangt sterk af van de keuze van de Gaussische proces (GP) kernel, die een centrale rol speelt bij het balanceren van exploratie en exploitatie onder beperkte evaluatiebudgetten. Traditionele BO-methoden vertrouwen vaak op vaste of heuristische kernelselectiestrategieën, wat kan leiden tot trage convergentie of suboptimale oplossingen wanneer de gekozen kernel slecht past bij de onderliggende doelfunctie. Om deze beperking aan te pakken, stellen we een gloednieuwe Context-Aware Kernel Evolution (CAKE) voor om BO te verbeteren met grote taalmodellen (LLMs). Concreet maakt CAKE gebruik van LLMs als de crossover- en mutatie-operatoren om adaptief GP-kernels te genereren en te verfijnen op basis van de waargenomen gegevens gedurende het optimalisatieproces. Om de kracht van CAKE te maximaliseren, stellen we verder BIC-Acquisition Kernel Ranking (BAKER) voor om de meest effectieve kernel te selecteren door de modelpassing, gemeten door het Bayesiaanse informatiecriterium (BIC), te balanceren met de verwachte verbetering bij elke iteratie van BO. Uitgebreide experimenten tonen aan dat onze nieuwe CAKE-gebaseerde BO-methode consistent beter presteert dan gevestigde baseline-methoden over een reeks real-world taken, waaronder hyperparameteroptimalisatie, controllerafstemming en fotonische chipontwerpen. Onze code is publiekelijk beschikbaar op https://github.com/cake4bo/cake.
Neurale audiocodecs vormen een fundamenteel onderdeel van moderne generatieve audiopipelines. Hoewel recente codecs sterke reconstructie bij lage bitrates bereiken en krachtige representaties bieden voor downstream taken, zijn de meeste niet streambaar, wat hun gebruik in realtime toepassingen beperkt. Wij presenteren FocalCodec-Stream, een hybride codec gebaseerd op focale modulatie die spraak comprimeert in een enkele binaire codebook bij 0,55 - 0,80 kbps met een theoretische latentie van 80 ms. Onze aanpak combineert meerfasige causale distillatie van WavLM met gerichte architectuurverbeteringen, waaronder een lichtgewicht refiner-module die de kwaliteit verbetert onder latentiebeperkingen. Experimenten tonen aan dat FocalCodec-Stream bestaande streambare codecs overtreft bij vergelijkbare bitrates, terwijl zowel semantische als akoestische informatie behouden blijft. Het resultaat is een gunstige afweging tussen reconstructiekwaliteit, prestaties bij downstream taken, latentie en efficiëntie. Code en checkpoints zullen worden vrijgegeven op https://github.com/lucadellalib/focalcodec.
We introduceren BeepBank-500, een compacte, volledig synthetische dataset van earcons/waarschuwingen (300-500 clips) die is ontworpen voor snelle, rechtenvrije experimenten in mens-computerinteractie en audio machine learning. Elke clip wordt gegenereerd vanuit een parametrisch recept dat de golfvormfamilie (sinus, blokgolf, driehoeksgolf, FM), grondfrequentie, duur, amplitude-envelop, amplitudemodulatie (AM) en lichte Schroeder-stijl reverberatie bepaalt. We gebruiken drie reverberatie-instellingen: droog, en twee synthetische ruimtes aangeduid als 'rir small' ('klein') en 'rir medium' ('medium') in het artikel en in de metadata. We publiceren mono 48 kHz WAV-audio (16-bit), een uitgebreide metadatatabel (signaal/spectrale kenmerken) en kleine reproduceerbare basislijnen voor (i) golfvormfamilieclassificatie en (ii) f0-regressie op enkele tonen. Het corpus richt zich op taken zoals earconclassificatie, timbreanalyses en onsetdetectie, met duidelijk vermelde licenties en beperkingen. De audio is vrijgegeven in het publieke domein via CC0-1.0; de code valt onder de MIT-licentie. Data DOI: https://doi.org/10.5281/zenodo.17172015. Code: https://github.com/mandip42/earcons-mini-500.
Diffusie-gebaseerde grote taalmodellen (DLLMs) hebben recentelijk toenemende interesse gewekt als alternatief voor autoregressieve decoders. In dit werk presenteren we een empirische studie over het gebruik van het diffusie-gebaseerde grote taalmodel LLaDA voor automatische spraakherkenning (ASR). We onderzoeken eerst het gebruik ervan als een externe deliberatie-gebaseerde verwerkingsmodule voor Whisper-LLaMA-transcripties. Door gebruik te maken van de bidirectionele aandacht en denoiserende capaciteiten van LLaDA, verkennen we strategieën zoals willekeurige maskering, maskering van lage betrouwbaarheid en semi-autoregressieve benaderingen, en tonen we aan dat Whisper-LLaDA de WER aanzienlijk verlaagt in vergelijking met de baseline. Op LibriSpeech behaalt het beste cascadesysteem een WER van 2,25%/4,94% op test-clean/test-other, wat een relatieve verbetering van 12,3% vertegenwoordigt ten opzichte van de Whisper-LLaMA-baseline op de test-other-split. Daarentegen slaagt een plain-text LLaDA zonder akoestische kenmerken er niet in de nauwkeurigheid te verbeteren, wat het belang van audio-geconditioneerde embeddings benadrukt. We evalueren Whisper-LLaDA verder als een standalone decoder voor ASR met diffusie-gebaseerde en semi-autoregressieve decodering. De meeste experimentele configuraties behalen een snellere inferentie dan de Whisper-LLaMA-baseline, hoewel de herkenningsnauwkeurigheid iets lager is. Deze bevindingen bieden een empirisch perspectief op diffusie-gebaseerde LLMs voor ASR en wijzen op veelbelovende richtingen voor verbeteringen.
Geautomatiseerde code review (CR) is een belangrijke toepassing voor Large Language Models (LLM's), maar de vooruitgang wordt belemmerd door een "realiteitskloof": bestaande benchmarks evalueren modellen op geïsoleerde deel taken met behulp van vereenvoudigde, contextarme gegevens. Dit weerspiegelt niet de holistische, contextrijke aard van CR in de praktijk. Om deze kloof te overbruggen, introduceren we CodeFuse-CR-Bench, de eerste comprehensiveness-aware benchmark voor repository-level CR-evaluatie. CodeFuse-CR-Bench bestaat uit 601 hoogwaardige instanties van 70 Python-projecten die negen Pull-Request (PR)-probleemdomeinen beslaan, waarbij elke instantie rijke, veelzijdige context biedt, inclusief het bijbehorende issue, PR-details en de repository-status, wat end-to-end evaluatie mogelijk maakt. Naast oppervlakkige metrieken stellen we ook een nieuw evaluatiekader voor dat regelgebaseerde controles voor locatie en syntaxis combineert met modelgebaseerde beoordelingen van de reviewkwaliteit. We presenteren de eerste grootschalige beoordeling van state-of-the-art LLM's op deze uitgebreide CR-taak. Onze resultaten leggen cruciale basislijnen vast en onthullen dat (1) geen enkele LLM alle aspecten van CR domineert; (2) Gemini 2.5 Pro de hoogste algehele prestaties behaalt; en (3) verschillende LLM's variërende robuustheid vertonen tegenover redundante context. Deze bevindingen benadrukken de noodzaak van holistische, multidimensionale evaluatie en bieden actiegerichte inzichten voor het ontwikkelen van echt intelligente en praktische CR-assistenten.
Grote Vision-Taalmodellen (L-VLMs) hebben opmerkelijke prestaties geleverd in diverse visuele en taaltaken, waaronder visuele vraagbeantwoording (VQA). Hun hoge rekenkundige kosten maken ze echter onpraktisch voor omgevingen met beperkte middelen en toepassingen die zwaar leunen op inferentie. Kleine Vision-Taalmodellen (S-VLMs) bieden daarentegen efficiëntie, maar lijden onder een aanzienlijk prestatieverschil in vergelijking met hun grotere tegenhangers. In dit werk introduceren we de Model Parity Aligner (MPA), een nieuw raamwerk dat is ontworpen om S-VLMs systematisch te verbeteren door gebruik te maken van ongelabelde afbeeldingen en effectieve kennisoverdracht van L-VLMs. In plaats van traditionele methoden voor kennisdistillatie die afhankelijk zijn van gelabelde trainingsdata, hanteert MPA een strategische parity-gebaseerde aanpak die de kenniskloof tussen S-VLMs en L-VLMs precies identificeert en de training optimaliseert door alleen deze verschillen aan te pakken. We voeren uitgebreide experimenten uit op vier diverse VQA-benchmarks, namelijk TextVQA, ST-VQA, ChartQA en OKVQA, die elk gespecialiseerde redeneervaardigheden vereisen, zoals tekstherkenning, grafiekinterpretatie, en begrip van gezond verstand en feiten. Onze resultaten tonen aan dat MPA consistent de prestaties van S-VLMs op alle benchmarks verbetert, het prestatieverschil verkleint en tegelijkertijd de rekenkundige efficiëntie behoudt. We stellen onze code openbaar beschikbaar.
Procesbeloningsmodellen (PRM's) bieden gedetailleerde, stap-voor-stap evaluaties die diepere redeneerprocessen in grote taalmodellen (LLM's) faciliteren, wat effectief blijkt te zijn bij complexe taken zoals wiskundig redeneren. Het ontwikkelen van PRM's is echter uitdagend vanwege de hoge kosten en beperkte schaalbaarheid van door mensen geannoteerde data. Synthetische data gegenereerd via Monte Carlo (MC) schatting is een veelbelovend alternatief, maar lijdt onder een hoog ruisniveau, wat overfitting kan veroorzaken en grootschalige training kan belemmeren. In dit werk voeren we een voorlopige studie uit naar de ruisverdeling in synthetische data gegenereerd via MC-schatting, waarbij we vaststellen dat annotatiemodellen de correctheid van stappen zowel onderschatten als overschatten vanwege beperkingen in hun annotatiecapaciteiten. Gebaseerd op deze inzichten stellen we Self-Denoising Monte Carlo Annotation (SCAN) voor, een efficiënt raamwerk voor datasynthese en ruisbestendig leren. Onze belangrijkste bevindingen zijn: (1) Zelfs lichtgewicht modellen (bijv. 1,5B parameters) kunnen hoogwaardige annotaties produceren via een zelfdenoiserende strategie, waardoor PRM's superieure prestaties kunnen bereiken met slechts 6% van de inferentiekosten die nodig zijn voor standaard MC-schatting. (2) Met onze robuuste leerstrategie kunnen PRM's effectief leren van deze zwakke supervisie, wat resulteert in een verbetering van 39,2 F1-score (van 19,9 naar 59,1) in ProcessBench. Ondanks het gebruik van slechts een compacte synthetische dataset overtreffen onze modellen sterke baseline-modellen, inclusief die getraind op grootschalige door mensen geannoteerde datasets zoals PRM800K. Bovendien blijven de prestaties verbeteren naarmate we de synthetische data opschalen, wat het potentieel van SCAN aantoont voor schaalbare, kostenefficiënte en robuuste PRM-training.