Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De opkomst van agentisch reinforcement learning (Agentic RL) markeert een paradigmaverschuiving ten opzichte van conventioneel reinforcement learning toegepast op grote taalmodellen (LLM RL), waarbij LLMs worden herkaderd van passieve sequentiegeneratoren naar autonome, besluitvormende agents die zijn ingebed in complexe, dynamische werelden. Dit overzicht formaliseert deze conceptuele verschuiving door de gedegenereerde enkelstaps Markov Decision Processes (MDPs) van LLM-RL te contrasteren met de temporeel uitgebreide, gedeeltelijk observeerbare Markov decision processes (POMDPs) die Agentic RL definiëren. Op basis van deze fundering stellen we een uitgebreide tweeledige taxonomie voor: één georganiseerd rond kernagentische capaciteiten, waaronder planning, gereedschapsgebruik, geheugen, redeneren, zelfverbetering en perceptie, en de andere rond hun toepassingen in diverse taakdomeinen. Centraal in onze these staat dat reinforcement learning het kritieke mechanisme is voor het transformeren van deze capaciteiten van statische, heuristische modules naar adaptief, robuust agentisch gedrag. Om toekomstig onderzoek te ondersteunen en te versnellen, consolideren we het landschap van open-source omgevingen, benchmarks en frameworks in een praktisch compendium. Door meer dan vijfhonderd recente werken te synthetiseren, schetst dit overzicht de contouren van dit snel evoluerende veld en belicht het de kansen en uitdagingen die de ontwikkeling van schaalbare, algemene AI-agents zullen vormgeven.
De ontwikkeling van autonome agents voor grafische gebruikersinterfaces (GUI's) vormt een grote uitdaging binnen kunstmatige intelligentie. Hoewel recente vooruitgang in native agentmodellen veelbelovend is gebleken door perceptie, redenering, actie en geheugen te verenigen via end-to-end leren, blijven er open problemen bestaan op het gebied van dataschaalbaarheid, multi-turn reinforcement learning (RL), de beperkingen van puur GUI-gebaseerde werking en omgevingsstabiliteit. In dit technische rapport presenteren we UI-TARS-2, een native GUI-gericht agentmodel dat deze uitdagingen aanpakt via een systematische trainingsmethodologie: een dataflywheel voor schaalbare datageneratie, een gestabiliseerd multi-turn RL-framework, een hybride GUI-omgeving die bestandssystemen en terminals integreert, en een uniform sandboxplatform voor grootschalige rollouts. Empirische evaluatie toont aan dat UI-TARS-2 significante verbeteringen behaalt ten opzichte van zijn voorganger UI-TARS-1.5. Op GUI-benchmarks bereikt het 88,2 op Online-Mind2Web, 47,5 op OSWorld, 50,6 op WindowsAgentArena en 73,3 op AndroidWorld, waarmee het sterke baselines zoals Claude en OpenAI-agents overtreft. In game-omgevingen behaalt het een gemiddelde genormaliseerde score van 59,8 over een suite van 15 games—ongeveer 60% van het menselijke prestatieniveau—en blijft het concurrerend met toonaangevende propriëtaire modellen (bijv. OpenAI o3) op LMGame-Bench. Daarnaast kan het model generaliseren naar langetermijn-informatiezoekende taken en software-engineeringbenchmarks, wat zijn robuustheid over diverse agenttaken benadrukt. Gedetailleerde analyses van de trainingsdynamiek bieden verder inzicht in het bereiken van stabiliteit en efficiëntie bij grootschalige agent-RL. Deze resultaten onderstrepen het potentieel van UI-TARS-2 om de stand van GUI-agents vooruit te helpen en sterke generalisatie naar real-world interactieve scenario's te tonen.
Grote Taalmodellen (LLM's) kunnen hun redeneervermogen aanzienlijk verbeteren door interactie met externe tools, een paradigma dat bekend staat als Tool-Integrated Reasoning (TIR). Het uitbreiden van TIR naar scenario's met meerdere beurten met behulp van Reinforcement Learning (RL) wordt echter vaak belemmerd door instabiliteit tijdens de training en prestatieverval. Wij identificeren dat deze instabiliteit voornamelijk wordt veroorzaakt door een distributieverschuiving als gevolg van feedback van externe tools, wat leidt tot de generatie van tokens met een lage waarschijnlijkheid. Dit probleem verergert na opeenvolgende beurten, wat catastrofale explosies in de gradiëntnorm veroorzaakt die het trainingsproces ontsporen. Om deze uitdaging aan te pakken, introduceren we SimpleTIR, een plug-and-play algoritme dat de training van TIR over meerdere beurten stabiliseert. De kernstrategie is het identificeren en filteren van trajecten die lege beurten bevatten, d.w.z. beurten die noch een codeblok noch een definitief antwoord opleveren. Door deze problematische trajecten uit de beleidsupdate te verwijderen, blokkeert SimpleTIR effectief de schadelijke, hoogmagnitude gradiënten, waardoor de leer dynamiek wordt gestabiliseerd. Uitgebreide experimenten tonen aan dat SimpleTIR state-of-the-art prestaties behaalt op uitdagende wiskundige redeneerbenchmarks, waarbij de AIME24-score wordt verhoogd van een tekst-only baseline van 22.1 naar 50.5 wanneer gestart vanaf het Qwen2.5-7B basismodel. Bovendien moedigt SimpleTIR, door de beperkingen van supervised fine-tuning te vermijden, het model aan om diverse en verfijnde redeneerpatronen te ontdekken, zoals zelfcorrectie en kruisvalidatie.
In vision-language modeling zijn critic-modellen doorgaans getraind om uitvoeringen te evalueren -- door scalaire scores of paarsgewijze voorkeuren toe te kennen -- in plaats van om reacties te genereren. Deze scheiding van policy-modellen, die de reacties produceren, is zo diepgeworteld dat critics zelden worden overwogen voor direct policy-gebruik. In dit werk dagen we deze conventie uit. We stellen voor om voorkeursgelabelde critic-datasets te reorganiseren in verifieerbare trainingssignalen en reinforcement learning rechtstreeks uit te voeren op een basisgeneratief model, wat resulteert in LLaVA-Critic-R1, een multimodale critic die is getraind om voorkeursbeoordelingen te optimaliseren terwijl het volledige generatievermogen behouden blijft. Verrassend genoeg blijkt LLaVA-Critic-R1 niet alleen als een top presterende critic, maar ook als een competitief policy-model -- het evenaart of overtreft gespecialiseerde redenerende VLMs die zijn getraind met domeinspecifieke gegevens over 26 visuele redenerings- en begripsbenchmarks, met een gemiddelde winst van +5,7% ten opzichte van het basismodel (Qwen-2.5-VL-7B). Door deze aanpak uit te breiden naar bestaande sterke redenerende VLMs ontstaat LLaVA-Critic-R1+, wat de policy-prestaties verder verbetert zonder in te leveren op critic-kwaliteit, en een SoTA-prestatie van 71,9 op MMMU bereikt op de 7B-schaal. Tot slot laten we zien dat het verbeterde critic-vermogen ten goede komt aan inferentie: het toepassen van zelfkritiek tijdens de testfase resulteert in een gemiddelde verbetering van +13,8% op vijf representatieve redeneertaken zonder aanvullende training. Onze resultaten tonen aan dat RL-training op critic-gegevens een verenigd model kan opleveren dat uitblinkt in zowel evaluatie als generatie, en biedt een eenvoudige weg naar schaalbare, zelfverbeterende multimodale systemen.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft succes aangetoond in het verbeteren van de redeneervaardigheden van LLM's, maar blijft beperkt tot enkelvoudige interacties zonder toolintegratie. Hoewel recente benaderingen van Agentic Reinforcement Learning met Toolgebruik (ARLT) zijn ontstaan om meervoudige toolinteracties aan te pakken, ontwikkelen bestaande werken taakspecifieke codebases die lijden onder fragmentatie, synchronisatieknelpunten en beperkte uitbreidbaarheid over domeinen. Deze inefficiënties belemmeren een bredere adoptie door de gemeenschap en algoritmische innovatie. Wij introduceren VerlTool, een uniform en modulair framework dat deze beperkingen aanpakt door middel van systematische ontwerpprincipes. VerlTool biedt vier belangrijke bijdragen: (1) upstream-afstemming met VeRL, wat compatibiliteit en vereenvoudigd onderhoud garandeert, (2) uniform toolbeheer via gestandaardiseerde API's die diverse modaliteiten ondersteunen, waaronder code-uitvoering, zoeken, SQL-databases en beeldverwerking, (3) asynchrone uitvoering van rollouts die een bijna 2x versnelling bereikt door synchronisatieknelpunten te elimineren, en (4) een uitgebreide evaluatie die competitieve prestaties aantoont over 6 ARLT-domeinen. Ons framework formaliseert ARLT als meervoudige trajecten met multi-modale observatietokens (tekst/beeld/video), wat verder gaat dan enkelvoudige RLVR-paradigma's. We trainen en evalueren modellen op wiskundig redeneren, kennis-QA, SQL-generatie, visueel redeneren, webzoeken en software-engineeringtaken, waarbij resultaten worden behaald die vergelijkbaar zijn met gespecialiseerde systemen, terwijl een uniforme trainingsinfrastructuur wordt geboden. De modulaire pluginarchitectuur maakt snelle toolintegratie mogelijk die slechts lichtgewicht Python-definities vereist, wat de ontwikkelingslast aanzienlijk vermindert en een schaalbare basis biedt voor onderzoek naar tool-augmented RL. Onze code is open-source beschikbaar op https://github.com/TIGER-AI-Lab/verl-tool.
Grote taalmodellen vereisen vaak kostbare optimalisatie, zoals reinforcement learning, om complexe redeneertaken onder de knie te krijgen. Dit werk toont aan dat redeneervermogen, eenmaal aangeleerd, kan worden geëxtraheerd en overgedragen tussen modellen als een compacte taakvector. We gebruiken twee publiek beschikbare, identiek geïnitialiseerde Qwen2.5-modellen, waarvan er één is verfijnd met supervised fine-tuning (SFT) en de andere met group relative policy optimization (GRPO) op dezelfde dataset. Hieruit extraheren we een redeneervector: v_{reason} = theta_{GRPO} - theta_{SFT}. We veronderstellen dat deze vector het redeneervermogen vastlegt dat is aangebracht door reinforcement learning, terwijl gedeelde kennis uit het SFT-proces wordt uitgefilterd. Wanneer deze vector via eenvoudige rekenkunde wordt toegevoegd aan compatibele instructie-afgestemde modellen, verbetert deze consistent de prestaties op diverse redeneerbenchmarks: GSM8K (+4,9%), HumanEval (+4,3%), SciQ (+1,7%) en BigBenchHard (+12,3% voor het 1,5B-model). De prestatieverbeteringen blijven bestaan onder adversariële omstandigheden. Omgekeerd veroorzaakt het aftrekken van de vector een significante prestatievermindering (-11,8% op GSM8K), wat de sterke bijdrage van de vector aan het redeneervermogen van het model aantoont. Dit werk laat zien hoe redeneervermogen, dat doorgaans wordt ontwikkeld via dure training, kan worden geëxtraheerd uit bestaande open-source modellen en hergebruikt kan worden via eenvoudige tensorrekenkunde, wat een praktische manier biedt om modellen te verbeteren door eerder gedane computationele investeringen te recyclen.
Video multimodale grote taalmodellen (Video-MLLMs) hebben opmerkelijke vooruitgang geboekt in videobegrip. Ze blijven echter kwetsbaar voor hallucinaties die inhoud produceren die inconsistent is met of niet gerelateerd is aan de video-invoer. Eerdere benchmarks voor videohallucinaties richten zich voornamelijk op korte video's. Ze schrijven hallucinaties toe aan factoren zoals sterke taalprioriteiten, ontbrekende frames of visueel-taalkundige vooroordelen die door de visuele encoder worden geïntroduceerd. Hoewel deze oorzaken inderdaad de meeste hallucinaties in korte video's verklaren, oversimplificeren ze nog steeds de oorzaak van hallucinaties. Soms genereren modellen incorrecte uitvoer, maar met correcte frame-niveau semantiek. We verwijzen naar dit type hallucinatie als Semantische Aggregatie Hallucinatie (SAH), die ontstaat tijdens het proces van het aggregeren van frame-niveau semantiek naar gebeurtenis-niveau semantische groepen. Gezien het feit dat SAH vooral kritiek wordt in lange video's vanwege de toegenomen semantische complexiteit over meerdere gebeurtenissen, is het essentieel om de oorzaken van dit type hallucinatie te scheiden en grondig te onderzoeken. Om de bovenstaande problemen aan te pakken, introduceren we ELV-Halluc, de eerste benchmark gewijd aan hallucinaties in lange video's, wat een systematisch onderzoek van SAH mogelijk maakt. Onze experimenten bevestigen het bestaan van SAH en tonen aan dat het toeneemt met semantische complexiteit. Daarnaast vinden we dat modellen gevoeliger zijn voor SAH bij snel veranderende semantiek. Bovendien bespreken we potentiële benaderingen om SAH te verminderen. We demonstreren dat de positionele coderingsstrategie bijdraagt aan het verminderen van SAH, en nemen verder de DPO-strategie over om het vermogen van het model om semantiek binnen en tussen gebeurtenissen te onderscheiden te verbeteren. Om dit te ondersteunen, stellen we een dataset samen van 8K adversariële dataparen en behalen we verbeteringen op zowel ELV-Halluc als Video-MME, inclusief een aanzienlijke vermindering van 27,7% in de SAH-ratio.
Hoogwaardige gelabelde gegevens zijn essentieel voor het trainen van nauwkeurige documentconversiemodellen, met name in domeinen met complexe formaten zoals tabellen, formules en tekst met meerdere kolommen. Handmatige annotatie is echter zowel kostbaar als tijdrovend, terwijl automatische labeling met behulp van bestaande modellen vaak onnauwkeurig is in dergelijke uitdagende scenario's. Hierdoor kan het trainen van studentmodellen door het destilleren van uitvoer van leraarmodellen hun prestaties in real-world toepassingen aanzienlijk beperken. In dit artikel stellen we een volledig geautomatiseerd, destillatievrij raamwerk voor dat uit twee fasen bestaat voor het construeren van hoogwaardige documentextractie-datasets en modellen die in staat zijn om diverse documentformaten en lay-outs te verwerken. In de eerste fase introduceren we een methode voor het genereren van grootschalige, diverse synthetische gegevens, waardoor een model sleutelelementen in een uniform formaat kan extraheren met een sterke initiële prestatie. In de tweede fase presenteren we een zelfverbeteringsaanpak die het model, aanvankelijk getraind op synthetische gegevens, verder aanpast aan real-world documenten. Specifiek gebruiken we eerst het fijn afgestemde model om echte documenten te annoteren, passen we vervolgens een reeks filterstrategieën toe om de annotatiekwaliteit te verifiëren, en trainen we het model ten slotte opnieuw op de geverifieerde dataset. Door dit proces iteratief te herhalen, verbeteren we zowel de conversiecapaciteiten van het model als de kwaliteit van de gegenereerde gegevens progressief. We trainen een openbaar POINTS-1.5-model om POINTS-Reader te verkrijgen, dat veel bestaande openbare en propriëtaire modellen van vergelijkbare of grotere omvang overtreft. Ons model is beschikbaar op https://github.com/Tencent/POINTS-Reader.
De Transformer-architectuur, ondersteund door het self-attention-mechanisme, is de facto standaard geworden voor taken op het gebied van sequentiemodellering. Het kerncomputatieprimitief schaalt echter kwadratisch met de sequentielengte (O(N^2)), wat een aanzienlijk knelpunt vormt bij het verwerken van lange contexten. In dit artikel stellen we het Gated Associative Memory (GAM)-netwerk voor, een nieuwe, volledig parallelle architectuur voor sequentiemodellering die lineaire complexiteit (O(N)) vertoont ten opzichte van de sequentielengte. Het GAM-blok vervangt de self-attention-laag door twee parallelle paden: een causale convolutie om lokaal, positie-afhankelijk context efficiënt vast te leggen, en een parallel mechanisme voor associatief geheugen om globale, inhoudsgebaseerde patronen te modelleren. Deze paden worden dynamisch samengevoegd met behulp van een gating-mechanisme, waardoor het model lokaal en globaal informatie voor elk token flexibel kan combineren. We implementeren GAM vanaf de grond en voeren een grondige vergelijkende analyse uit tegen een standaard Transformer-model en een moderne lineaire baseline (Mamba) op de WikiText-2-benchmark, evenals tegen de Transformer op de TinyStories-dataset. Onze experimenten tonen aan dat GAM consistent sneller is, beide baselines overtreft qua trainingssnelheid, en een superieure of competitieve uiteindelijke validatieperplexiteit behaalt op alle datasets, wat het een veelbelovend en efficiënt alternatief voor sequentiemodellering maakt.
Naarmate grote taalmodellen (LLMs) vooruitgang boeken in conversatie- en redeneervaardigheden, is hun praktische toepassing in de gezondheidszorg een cruciaal onderzoeksgebied geworden. Er bestaat echter een opvallende kloof tussen de prestaties van medische LLMs op statische benchmarks zoals de USMLE en hun bruikbaarheid in real-world klinische besluitvorming. Deze discrepantie ontstaat omdat traditionele examens het dynamische, interactieve karakter van medische consultaties niet vastleggen. Om deze uitdaging aan te pakken, introduceren we een nieuw dynamisch verificatiekader dat verder gaat dan een statische antwoordverifier, en een grootschalig, hoogwaardig interactief reinforcement learning-systeem opzet. Ons kader bestaat uit twee belangrijke componenten: een Patiëntsimulator die realistische klinische omgevingen creëert met behulp van geanonimiseerde medische dossiers, en een Klinische Rubrics Generator die dynamisch multidimensionale evaluatiemetrics produceert. Op deze basis ontwikkelen we Baichuan-M2, een medisch augmented reasoning-model met 32B parameters, getraind via een meerfasige reinforcement learning-strategie met een verbeterd Group Relative Policy Optimization (GRPO)-algoritme. Geëvalueerd op HealthBench, presteert Baichuan-M2 beter dan alle andere open-source modellen en de meeste geavanceerde closed-source tegenhangers, met een score boven de 32 op de uitdagende HealthBench Hard benchmark – een prestatie die voorheen alleen door GPT-5 werd overtroffen. Ons werk toont aan dat een robuust dynamisch verificatiesysteem essentieel is om de mogelijkheden van LLMs af te stemmen op praktische klinische toepassingen, en stelt een nieuwe Pareto-front vast in de prestatie-parameter trade-off voor de inzet van medische AI.
In de afgelopen jaren heeft de ontwikkeling van Large Language Models (LLMs) aanzienlijke vooruitgang geboekt, waarbij hun mogelijkheden zijn uitgebreid naar multimodale taken via Multimodal Large Language Models (MLLMs). Echter blijft videobegrip een uitdagend gebied vanwege de dynamische en informatie-intensieve aard van video's. Bestaande modellen worstelen met de afweging tussen ruimtelijke resolutie en temporele dekking bij het verwerken van videocontent. Wij presenteren Keye-VL-1.5, dat fundamentele uitdagingen in videobegrip aanpakt door drie belangrijke innovaties. Ten eerste introduceren we een nieuwe Slow-Fast video-encoderingsstrategie die computationele bronnen dynamisch toewijst op basis van inter-frame gelijkenis, waarbij sleutelframes met significante visuele veranderingen worden verwerkt met een hogere resolutie (Slow pathway) terwijl relatief statische frames worden behandeld met een verhoogde temporele dekking bij lagere resolutie (Fast pathway). Ten tweede implementeren we een progressieve vierfasen pre-trainingsmethodologie die de contextlengte van het model systematisch uitbreidt van 8K naar 128K tokens, waardoor het verwerken van langere video's en complexere visuele content mogelijk wordt. Ten derde ontwikkelen we een uitgebreide post-trainingspipeline die zich richt op het verbeteren van redenering en afstemming op menselijke voorkeuren, waarbij een 5-staps chain-of-thought dataconstructieproces, iteratieve GSPO-gebaseerde reinforcement learning met progressieve prompt hints voor moeilijke gevallen, en alignment training worden geïntegreerd. Door uitgebreide evaluatie op publieke benchmarks en rigoureuze interne menselijke beoordeling, toont Keye-VL-1.5 significante verbeteringen ten opzichte van bestaande modellen, met name uitblinkend in videobegriptaken terwijl het competitieve prestaties behoudt op algemene multimodale benchmarks.
Dit artikel biedt een vereenvoudiging van de architectuur en het verliesontwerp van OpenVision om de trainings efficiëntie te verbeteren. In navolging van eerdere vision-language pretrainingswerken zoals CapPa en AIMv2, evenals moderne multimodale ontwerpen zoals LLaVA, zijn onze wijzigingen eenvoudig: we verwijderen de tekstencoder (en daarmee het contrastieve verlies), waarbij alleen het captioning-verlies behouden blijft als een puur generatief trainingssignaal. We noemen deze nieuwe versie OpenVision 2. De eerste resultaten zijn veelbelovend: ondanks deze vereenvoudiging, presteert OpenVision 2 competitief ten opzichte van het oorspronkelijke model op een breed scala aan multimodale benchmarks, terwijl het zowel de trainingsduur als het geheugengebruik aanzienlijk vermindert. Bijvoorbeeld, met ViT-L/14 wordt de trainingsduur met ongeveer 1,5x verminderd (van 83 uur naar 57 uur), en het geheugengebruik met ongeveer 1,8x (van 24,5GB naar 13,8GB, wat het mogelijk maakt om de maximale batchgrootte te vergroten van 2k naar 8k). Deze superieure trainings efficiëntie stelt ons ook in staat om ver voorbij de grootste vision-encoder die in OpenVision wordt gebruikt te schalen, waarbij we meer dan 1 miljard parameters bereiken. We zijn sterk overtuigd dat dit lichtgewicht, puur generatieve paradigma overtuigend is voor de toekomstige ontwikkeling van vision-encoders in multimodale foundation-modellen.
Recente vooruitgang in Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft grote taalmmodellen (LLMs) in staat gesteld om uitdagende redeneertaken aan te pakken, zoals wiskunde en programmeren. RLVR maakt gebruik van verifieerbare uitkomstbeloningen om beleidsoptimalisatie te sturen, waardoor LLMs op een gegronde en betrouwbare manier de uitvoerkwaliteit kunnen verbeteren. Ondanks de belofte brengt het RLVR-paradigma aanzienlijke uitdagingen met zich mee, aangezien bestaande methoden vaak te lijden hebben onder schaarse beloningssignalen en onstabiele beleidsgradiëntupdates, met name in RL-gebaseerde benaderingen. Om deze uitdagingen aan te pakken, stellen we PACS voor, een nieuw RLVR-raamwerk dat imPliciete Actor-Critic-koppeling bereikt via een Supervised learning-raamwerk. Door de uitkomstbeloning te behandelen als een voorspelbaar label, herformuleren we het RLVR-probleem tot een supervised learning-taak over een scorefunctie die wordt geparameteriseerd door het beleidsmodel en geoptimaliseerd met behulp van kruis-entropieverlies. Een gedetailleerde gradiëntanalyse toont aan dat deze supervised formulering inherent de klassieke beleidsgradiëntupdate herstelt, terwijl de rollen van actor en critic impliciet worden gekoppeld, wat resulteert in stabielere en efficiëntere training. Bij benchmarking op uitdagende wiskundige redeneertaken presteert PACS beter dan sterke RLVR-baselines, zoals PPO en GRPO, en behaalt het superieure redeneerprestaties. Zo behaalt PACS bijvoorbeeld 59,78% bij pass@256 op AIME 2025, wat verbeteringen vertegenwoordigt van 13,32 en 14,36 punten ten opzichte van PPO en GRPO. Dit eenvoudige maar krachtige raamwerk biedt een veelbelovende weg voor LLMs na training met verifieerbare beloningen. Onze code en gegevens zijn beschikbaar als open source op https://github.com/ritzz-ai/PACS.
Post-training van grote taalmmodellen (LMs) richt zich vaak op nauwkeurigheid en behulpzaamheid ten koste van diversiteit. Dit creëert een spanning: hoewel post-training de kwaliteit van antwoorden verbetert, verscherpt het ook de uitvoerdistributies en vermindert het het bereik van ideeën, wat de bruikbaarheid van LMs beperkt in creatieve en verkennende taken zoals brainstormen, verhalen vertellen of probleemoplossing. Wij pakken deze uitdaging aan met Diversity-Aware Reinforcement Learning (DARLING), een raamwerk dat gezamenlijk optimaliseert voor antwoordkwaliteit en semantische diversiteit. In de kern introduceert DARLING een geleerde partitiefunctie om diversiteit te meten die verder gaat dan oppervlakkige lexicale variaties. Dit diversiteitssignaal wordt vervolgens gecombineerd met een kwaliteitsbeloning tijdens online reinforcement learning, wat modellen aanmoedigt om uitvoer te genereren die zowel van hoge kwaliteit als onderscheidend zijn. Experimenten over meerdere modelfamilies en -groottes tonen aan dat DARLING generaliseert naar twee regimes: niet-verifieerbare taken (instructieopvolging en creatief schrijven) en verifieerbare taken (competitiewiskunde). Op vijf benchmarks in de eerste setting presteert DARLING consistent beter dan kwaliteitsgerichte RL-baselines, waarbij het uitvoer produceert die tegelijkertijd van hogere kwaliteit en nieuwigheid is. In de tweede setting behaalt DARLING hogere pass@1 (oplossingskwaliteit) en pass@k (oplossingsvariëteit). Het meest opvallend is dat het expliciet optimaliseren voor diversiteit exploratie in online RL katalyseert, wat zich manifesteert als antwoorden van hogere kwaliteit.
Video compositing combineert live-action beelden om videoproducties te creëren en fungeert als een cruciale techniek in videoproductie en filmproductie. Traditionele workflows vereisen intensieve arbeidsinspanningen en samenwerking tussen experts, wat resulteert in lange productiecycli en hoge personeelskosten. Om dit probleem aan te pakken, automatiseren we dit proces met generatieve modellen, genaamd generatieve video compositing. Deze nieuwe taak streeft ernaar om op een adaptieve manier identiteits- en bewegingsinformatie van voorgrondvideo’s in de doelvideo te injecteren op een interactieve manier, waardoor gebruikers de grootte, bewegingsbaan en andere attributen van de dynamische elementen in de uiteindelijke video kunnen aanpassen. Specifiek hebben we een nieuwe Diffusion Transformer (DiT)-pipeline ontworpen op basis van zijn intrinsieke eigenschappen. Om de consistentie van de doelvideo voor en na bewerking te behouden, hebben we een lichtgewicht DiT-gebaseerde achtergrondbehoudtak herzien met gemaskeerde token-injectie. Om dynamische elementen van andere bronnen over te nemen, is een DiT-fusieblok voorgesteld dat volledige self-attention gebruikt, samen met een eenvoudige maar effectieve voorgrondaugmentatie voor training. Daarnaast hebben we, voor het samenvoegen van achtergrond- en voorgrondvideo’s met verschillende lay-outs op basis van gebruikerscontrole, een nieuwe positionele embedding ontwikkeld, genaamd Extended Rotary Position Embedding (ERoPE). Ten slotte hebben we een dataset samengesteld bestaande uit 61K sets van video’s voor onze nieuwe taak, genaamd VideoComp. Deze data omvat complete dynamische elementen en hoogwaardige doelvideo’s. Experimenten tonen aan dat onze methode generatieve video compositing effectief realiseert en bestaande mogelijke oplossingen overtreft in termen van geloofwaardigheid en consistentie.
De recente ontwikkeling van Large Language Models (LLM's) is gepaard gegaan met een opwelling van nieuwe ideeën en methoden om het verlies van deep learning-modellen beter te optimaliseren. De beweringen van deze methoden zijn talrijk: van snellere convergentie tot het verwijderen van afhankelijkheid van bepaalde hyperparameters. De diverse experimentele protocollen die worden gebruikt om deze beweringen te valideren, maken echter directe vergelijkingen tussen methoden uitdagend. Deze studie presenteert een uitgebreide evaluatie van recente optimalisatietechnieken in gestandaardiseerde LLM-voorafgaande trainingsscenario's, waarbij systematisch wordt gevarieerd in modelgrootte, batchgrootte en trainingsduur. Door zorgvuldige afstemming van elke methode bieden we praktijkmensen richtlijnen over welke optimizer het meest geschikt is voor elk scenario. Voor onderzoekers benadrukt ons werk veelbelovende richtingen voor toekomstig optimalisatieonderzoek. Ten slotte hopen we, door onze code vrij te geven en alle experimenten volledig reproduceerbaar te maken, dat onze inspanningen kunnen bijdragen aan de ontwikkeling en rigoureuze benchmarking van toekomstige methoden.
Reinforcement Learning from Verifiable Rewards (RLVR) is naar voren gekomen als een veelbelovend raamwerk voor het verbeteren van de redeneervaardigheden van grote taalmodelen. Bestaande benaderingen zoals GRPO kampen echter vaak met het probleem van nulgradiënten. Dit probleem ontstaat voornamelijk door vaste afkappunten voor token-niveau waarschijnlijkheidsratio's en de standaardisering van identieke beloningen, wat kan leiden tot ineffectieve gradiëntupdates en onderbenutting van gegenereerde reacties. In dit werk stellen we Dynamic Clipping Policy Optimization (DCPO) voor, dat een dynamische afkappstrategie introduceert die de afkappunten adaptief aanpast op basis van token-specifieke priorwaarschijnlijkheden om token-niveau exploratie te verbeteren, en een vloeiende voordeelstandaardisatietechniek die beloningen standaardiseert over cumulatieve trainingsstappen om de effectieve benutting van gegenereerde reacties op responsniveau te verbeteren. DCPO behaalde state-of-the-art prestaties op vier benchmarks gebaseerd op vier verschillende modellen. In het bijzonder behaalde DCPO een Avg@1 van 46,7 onder greedy decoding en een Avg@32 van 38,8 onder 32-voudige sampling op de AIME24-benchmark, waarmee het zowel DAPO (36,7/31,6) als GRPO (36,7/32,1) overtrof op het Qwen2.5-Math-7B-model. Op de AIME25-benchmark gebaseerd op Qwen2.5-14B behaalt DCPO een prestatie van (23,3/19,0), waarmee het GRPO (13,3/10,5) en DAPO (20,0/15,3) overtreft. Bovendien behaalde DCPO een gemiddelde verbetering van 28% in het niet-nul voordeel ten opzichte van GRPO in vier modellen, verdubbelde het de trainings efficiëntie ten opzichte van DAPO, en verminderde het de token-afkappratio significant met een orde van grootte in vergelijking met zowel GRPO als DAPO, terwijl het superieure prestaties behaalde. Deze resultaten onderstrepen de effectiviteit van DCPO in het efficiënter benutten van gegenereerde data voor reinforcement learning in grote taalmodelen.
GUI-agents aangedreven door LLM's tonen potentie in het interacteren met diverse digitale omgevingen. Onder deze omgevingen bieden videogames een waardevolle testomgeving vanwege hun gevarieerde interfaces, waarbij avonturengames extra uitdagingen bieden door complexe, narratief gedreven interacties. Bestaande gamebenchmarks missen echter diversiteit en evalueren agents zelden op het voltooien van volledige verhaallijnen. Om dit aan te pakken, introduceren we FlashAdventure, een benchmark van 34 Flash-gebaseerde avonturengames die is ontworpen om het voltooien van volledige verhaalbogen te testen en de kloof tussen observatie en gedrag aan te pakken: de uitdaging om eerdere gameplay-informatie te onthouden en erop te handelen. We stellen ook CUA-as-a-Judge voor, een geautomatiseerde gameplay-evaluator, en COAST, een agentisch framework dat gebruikmaakt van langetermijncluegeheugen om sequentiële taken beter te plannen en op te lossen. Experimenten tonen aan dat huidige GUI-agents moeite hebben met volledige verhaalbogen, terwijl COAST de voltooiing van mijlpalen verbetert door de kloof tussen observatie en gedrag te overbruggen. Desalniettemin wijst een opvallend verschil tussen mensen en de best presterende agents op de noodzaak van voortgezet onderzoek om deze kloof te verkleinen.
Guardianmodellen worden gebruikt om de uitvoer van gebruikersgerichte chatbots te begeleiden en te modereren, waarbij ze richtlijnen handhaven en ongewenst gedrag detecteren. Standaard guardianmodellen zoals LlamaGuard detecteren vooraf gedefinieerde, statische categorieën van schadelijke inhoud. Wij stellen dynamische guardianmodellen voor die tekst evalueren op basis van door gebruikers gedefinieerde beleidsregels, waardoor ze nuttig zijn voor verschillende toepassingsdomeinen die niet worden afgedekt door standaard guardianmodellen. Onze dynamische guardianmodellen kunnen worden gebruikt voor snelle detectie van beleidsschendingen of in combinatie met keten-van-redenering (chain-of-thought) die de modeluitvoer articuleert en rechtvaardigt. Onze dynamische guardianmodellen evenaren statische modellen in detectienauwkeurigheid voor statische schadelijke categorieën, terwijl ze schendingen van vrije-vorm-beleidsregels identificeren met een nauwkeurigheid die vergelijkbaar is met geavanceerde redeneermodellen, maar in een fractie van de tijd.
Vector embeddings zijn in de loop der jaren belast met een steeds groeiende reeks retrievaltaken, met een opkomende trend in het gebruik ervan voor redeneren, instructievolgen, coderen en meer. Deze nieuwe benchmarks dwingen embeddings om te werken voor elke query en elk relevantiebegrip dat gegeven zou kunnen worden. Hoewel eerdere werken theoretische beperkingen van vector embeddings hebben benadrukt, is er een algemene aanname dat deze moeilijkheden uitsluitend te wijten zijn aan onrealistische queries, en dat die welke dat niet zijn, overwonnen kunnen worden met betere trainingsdata en grotere modellen. In dit werk tonen we aan dat we deze theoretische beperkingen kunnen tegenkomen in realistische situaties met extreem eenvoudige queries. We verbinden bekende resultaten uit de leer theorie, waaruit blijkt dat het aantal top-k subsets van documenten dat kan worden geretourneerd als resultaat van een query, beperkt is door de dimensie van de embedding. We tonen empirisch aan dat dit zelfs geldt als we ons beperken tot k=2, en direct optimaliseren op de testset met vrij geparametriseerde embeddings. Vervolgens creëren we een realistische dataset genaamd LIMIT die modellen stress test op basis van deze theoretische resultaten, en observeren we dat zelfs state-of-the-art modellen falen op deze dataset ondanks de eenvoudige aard van de taak. Ons werk toont de grenzen van embeddingmodellen onder het bestaande single vector paradigma en roept op tot toekomstig onderzoek om methoden te ontwikkelen die deze fundamentele beperking kunnen oplossen.
Grote Taalmodellen (LLMs) blinken uit in het genereren van synthetische data, maar het waarborgen van de kwaliteit en diversiteit ervan blijft een uitdaging. Wij stellen Genetic Prompt voor, een nieuw raamwerk dat genetische algoritmen combineert met LLMs om de synthetische datageneratie te versterken. Onze aanpak behandelt semantische tekstattributen als gensequenties en benut het LLM om crossover- en mutatieoperaties te simuleren. Dit genetische proces verbetert de data-kwaliteit en diversiteit door nieuwe attribuutcombinaties te creëren, wat resulteert in synthetische verdelingen die dichter bij real-world data liggen. Om de ouderselectie te optimaliseren, integreren we ook een actief leerproces dat de zoekruimte voor nakomelingen vergroot. Onze experimenten op meerdere NLP-taken onthullen verschillende belangrijke bevindingen: Genetic Prompt overtreft niet alleen aanzienlijk de state-of-the-art baselines, maar toont ook robuuste prestaties over verschillende generator modelgroottes en schalen. Bovendien demonstreren we dat het samenvoegen van onze synthetische data met de originele trainingsset de prestaties van downstream modellen aanzienlijk verbetert, vooral in scenario's met klasse-onbalans. Onze bevindingen valideren dat Genetic Prompt een effectieve methode is voor het produceren van hoogwaardige synthetische data voor een breed scala aan NLP-toepassingen.
Diepgaande onderzoeksinstrumenten behoren tot de meest invloedrijke en meest voorkomende agent-systemen van vandaag. We merken echter op dat elk diepgaand onderzoeksagent dat tot nu toe is geïntroduceerd, vastgelegd is om een specifieke onderzoeksstrategie uit te voeren met een vaste keuze van tools. We introduceren Universal Deep Research (UDR), een generalistisch agent-systeem dat zich om elk taalmodel heen wikkelt en de gebruiker in staat stelt om volledig aangepaste diepgaande onderzoeksstrategieën te creëren, te bewerken en te verfijnen zonder dat er aanvullende training of finetuning nodig is. Om de veelzijdigheid van ons systeem te demonstreren, voorzien we UDR van voorbeelden van minimale, uitgebreide en intensieve onderzoeksstrategieën, en bieden we een gebruikersinterface om experimenten met het systeem te vergemakkelijken.
AdamW is lange tijd de dominante optimizer geweest bij het vooraf trainen van taalmodelen, ondanks talrijke beweringen dat alternatieve optimizers een versnelling van 1,4 tot 2x bieden. Wij stellen dat twee methodologische tekortkomingen eerlijke vergelijkingen hebben vertroebeld en de praktische adoptie hebben belemmerd: (i) ongelijke afstemming van hyperparameters en (ii) beperkte of misleidende evaluatieopstellingen. Om deze twee problemen aan te pakken, voeren we een systematische studie uit van tien deep learning-optimizers over vier modelschalen (0,1B-1,2B parameters) en data-to-model-verhoudingen (1-8x het Chinchilla-optimum). We ontdekken dat eerlijke en informatieve vergelijkingen rigoureuze afstemming van hyperparameters en evaluaties over een reeks modelschalen en data-to-model-verhoudingen vereisen, uitgevoerd aan het einde van de training. Ten eerste kunnen optimale hyperparameters voor één optimizer suboptimaal zijn voor een andere, waardoor blinde overdracht van hyperparameters oneerlijk is. Ten tweede is de daadwerkelijke versnelling van veel voorgestelde optimizers ten opzichte van goed afgestelde basislijnen lager dan beweerd en neemt af met de modelgrootte tot slechts 1,1x voor modellen met 1,2B parameters. Ten derde kan het vergelijken van tussenliggende checkpoints voordat het doelbudget voor training is bereikt misleidend zijn, omdat de rangorde tussen twee optimizers tijdens de training kan omkeren door het verval van de leercurve. Door ons grondige onderzoek ontdekken we dat alle snelste optimizers, zoals Muon en Soap, matrices gebruiken als preconditioners – waarbij ze de gradiënten vermenigvuldigen met matrices in plaats van met elementgewijze schaalfactoren. De versnelling van matrixgebaseerde optimizers is echter omgekeerd evenredig met de modelschaal, en neemt af van 1,4x ten opzichte van AdamW voor modellen met 0,1B parameters tot slechts 1,1x voor modellen met 1,2B parameters.
Medische beeldretrieval is essentieel voor klinische besluitvorming en translationeel onderzoek, en is afhankelijk van discriminerende visuele representaties. Toch blijven huidige methoden gefragmenteerd, waarbij ze vertrouwen op afzonderlijke architecturen en trainingsstrategieën voor 2D, 3D en video-gebaseerde medische data. Dit modaliteit-specifieke ontwerp belemmert de schaalbaarheid en remt de ontwikkeling van uniforme representaties. Om uniform leren mogelijk te maken, hebben we een grootschalige hybride-modaliteit dataset samengesteld, bestaande uit 867.653 medische beeldmonsters, waaronder 2D röntgenfoto's en echo's, RGB-endoscopievideo's en 3D CT-scans. Met behulp van deze dataset trainen we M3Ret, een uniforme visuele encoder zonder enige modaliteit-specifieke aanpassingen. Het leert met succes overdraagbare representaties aan door gebruik te maken van zowel generatieve (MAE) als contrastieve (SimDINO) zelfgesuperviseerde leerparadigma's (SSL). Onze aanpak vestigt een nieuwe state-of-the-art in zero-shot beeld-naar-beeldretrieval over alle individuele modaliteiten, en overtreft sterke baselines zoals DINOv3 en de tekstgesuperviseerde BMC-CLIP. Opmerkelijker is dat er sterke cross-modale alignering ontstaat zonder gepaarde data, en het model generaliseert naar onbekende MRI-taken, ondanks dat het tijdens de pretraining nooit MRI heeft gezien, wat de generaliseerbaarheid van puur visuele zelfsupervisie naar onbekende modaliteiten aantoont. Uitgebreide analyses valideren verder de schaalbaarheid van ons framework over model- en datagrootten. Deze bevindingen geven een veelbelovend signaal aan de medische beeldvormingsgemeenschap, en positioneren M3Ret als een stap in de richting van foundationmodellen voor visuele SSL in multimodale medische beeldinterpretatie.
Grote Taalmodellen (LLMs) behalen gouden-medaille prestaties op vele benchmarks, maar het blijft onduidelijk of dit succes echte redenering of patroonherkenning weerspiegelt. Vanuit een cognitief wetenschappelijk perspectief is een informatief testscenario of modellen een onbekende taal kunnen beheersen via expliciet metalinguïstisch deductief leren, een paradigma waarbij menselijke leerders betrouwbaar grammaticale systemen kunnen internaliseren door metalinguïstisch redeneren. We onderzoeken deze vraag met Camlang, een nieuw geconstrueerde taal die natuurlijke maar niet eerder aangetroffen kenmerkcombinaties vertoont. Camlang bestaat uit twee expliciete bronnen, een grammaticaboek en een tweetalig woordenboek, die het leren van een tweede taal door volwassenen nabootsen via expliciete grammaticaregels en lexicale opzoekingen, en ons in staat stellen om fouten in morfosyntaxis, lexicale semantiek en zinsniveau-redenering te onderscheiden. Menselijke experimenten tonen aan dat deze bronnen voldoende zijn voor deelnemers om Camlang te verwerven en Camlang-taken succesvol op te lossen. Om evaluatie operationeel te maken, passen we CommonsenseQA aan naar Camlang, waardoor Camlang-CSQA-v0 ontstaat, de eerste taak in een bredere reeks waarbij het oplossen van vragen het toepassen van grammaticaregels en lexicale mapping vereist. Experimentele resultaten laten zien dat GPT-5 een nauwkeurigheid van 98% EM in het Engels behaalt, maar slechts 47% in Camlang, ver onder de menselijke prestatie van 87%, terwijl andere state-of-the-art redenerende LLMs nog slechter presteren. Menselijke verificatie onthult verder dat de meeste modelsuccessen voortkomen uit oppervlakkige lexicale afstemming, terwijl GPT-5 in beperkte mate opkomend metalinguïstisch bewustzijn vertoont, maar geen systematische grammaticale beheersing zoals mensen. Camlang stelt een cognitief onderbouwd evaluatieparadigma vast dat fundamentele kloofjes blootlegt tussen huidige modellen en menselijke metalinguïstische competentie.
Het omzetten van natuurlijke taalvragen naar SQL-query's is een cruciaal vraagstuk in zowel de industrie als de academische wereld, met als doel de toegang tot databases en grootschalige applicaties te vergroten. Dit onderzoek bestudeert hoe in-context leren en chain-of-thought kunnen worden ingezet om een robuuste oplossing te ontwikkelen voor text-to-SQL-systemen. Wij stellen SQL-of-Thought voor: een multi-agent framework dat de Text2SQL-taak opsplitst in schema linking, subprobleemidentificatie, queryplangeneratie, SQL-generatie en een begeleide correctielus. In tegenstelling tot eerdere systemen die alleen vertrouwen op uitvoeringsgebaseerde statische correctie, introduceren wij taxonomie-geleide dynamische foutmodificatie, geïnformeerd door in-context leren. SQL-of-Thought behaalt state-of-the-art resultaten op de Spider-dataset en zijn varianten, waarbij het geleide foutentaxonomie combineert met redeneringsgebaseerde queryplanning.
We presenteren ViSTA-SLAM als een real-time monocular visueel SLAM-systeem dat werkt zonder cameraintrinsieken te vereisen, waardoor het breed toepasbaar is in diverse camera-opstellingen. De kern van het systeem bestaat uit een lichtgewicht symmetrisch two-view associatie (STA) model als frontend, dat gelijktijdig relatieve cameraposes schat en lokale puntkaarten regresseert op basis van slechts twee RGB-beelden. Dit ontwerp vermindert de modelcomplexiteit aanzienlijk, de grootte van onze frontend is slechts 35\% van die van vergelijkbare state-of-the-art methoden, terwijl de kwaliteit van de two-view beperkingen die in de pijplijn worden gebruikt, wordt verbeterd. In de backend construeren we een speciaal ontworpen Sim(3) pose-grafiek die loop closures integreert om opgebouwde drift aan te pakken. Uitgebreide experimenten tonen aan dat onze aanpak superieure prestaties levert op het gebied van zowel cameratracking als de kwaliteit van dichte 3D-reconstructie in vergelijking met huidige methoden. Github repository: https://github.com/zhangganlin/vista-slam
Visuele autoregressieve modellen (VAR) zijn recent naar voren gekomen als een veelbelovende klasse van generatieve modellen, waarbij ze prestaties bereiken die vergelijkbaar zijn met diffusiemodellen in tekst-naar-beeld generatietaken. Hoewel conditionele generatie uitgebreid is onderzocht, is het vermogen om prompt-gestuurd beeldbewerking uit te voeren zonder aanvullende training even cruciaal, omdat het talrijke praktische toepassingen in de echte wereld ondersteunt. Dit artikel onderzoekt de tekst-naar-beeld bewerkingsmogelijkheden van VAR door Visual AutoRegressive Inverse Noise (VARIN) te introduceren, de eerste op ruisinversie gebaseerde bewerkingstechniek die expliciet is ontworpen voor VAR-modellen. VARIN maakt gebruik van een nieuwe pseudo-inverse functie voor argmax-sampling, genaamd Location-aware Argmax Inversion (LAI), om inverse Gumbel-ruis te genereren. Deze inverse ruis maakt een nauwkeurige reconstructie van het bronbeeld mogelijk en faciliteert gerichte, controleerbare bewerkingen die zijn afgestemd op tekstuele prompts. Uitgebreide experimenten tonen aan dat VARIN bronbeelden effectief aanpast volgens gespecificeerde prompts, terwijl het oorspronkelijke achtergrond en structurele details aanzienlijk behouden blijven, wat de effectiviteit ervan als een praktische bewerkingsaanpak valideert.
Met de snelle vooruitgang van Vision-Language Models (VLMs) zijn GUI-gebaseerde mobiele agents naar voren gekomen als een belangrijke ontwikkelingsrichting voor intelligente mobiele systemen. Bestaande agentmodellen blijven echter aanzienlijke uitdagingen ondervinden bij de uitvoering van taken in de echte wereld, met name wat betreft nauwkeurigheid en efficiëntie. Om deze beperkingen aan te pakken, stellen we MobiAgent voor, een uitgebreid mobiel agentsysteem dat bestaat uit drie kerncomponenten: de MobiMind-serie agentmodellen, het AgentRR-versnellingsframework en de MobiFlow-benchmarkingsuite. Daarnaast, erkennend dat de mogelijkheden van huidige mobiele agents nog steeds beperkt worden door de beschikbaarheid van hoogwaardige data, hebben we een AI-ondersteunde agile datacollectiepijplijn ontwikkeld die de kosten van handmatige annotatie aanzienlijk verlaagt. In vergelijking met zowel algemene LLM's als gespecialiseerde GUI-agentmodellen, behaalt MobiAgent state-of-the-art prestaties in realistische mobiele scenario's.
Dit werk identificeert anisotrope parameterverdelingen als een fundamentele barrière voor het trainen van grote taalmodel(len) (LLMs) met lage-bits kwantisering: enkele dominante singuliere waarden creëren brede numerieke bereiken die conflicteren met de inherente bias van bloksgewijze kwantisering. Deze bias behoudt onevenredig hoge-magnitudewaarden terwijl kleinere waarden worden weggegooid, wat leidt tot trainingsinstabiliteit en lage modelprestaties. Dit werk introduceert Metis, een trainingsframework dat combineert: (i) spectrale decompositie met willekeurige inbedding om efficiënt dominante componenten van lange-staartcomponenten te ontwarren, waardoor brede verdelingen worden gecomprimeerd tot kwantisatievriendelijke smalle bereiken; (ii) adaptieve leercurves in het spectrale domein om ondervertegenwoordigde richtingen te versterken en diverse kenmerken die cruciaal zijn voor prestaties beter vast te leggen; en (iii) een dual-range regularizer die gezamenlijk de numerieke precisie en parameterbereikverdeling beperkt, waardoor stabiele, onbevooroordeelde lage-bits training wordt gegarandeerd. Met Metis overtreft FP8-training FP32-baselines, en FP4-training bereikt nauwkeurigheid die vergelijkbaar is met FP32, wat de weg vrijmaakt voor robuuste en schaalbare LLM-training onder geavanceerde lage-bits kwantisering. De code-implementatie voor Metis is beschikbaar op: https://github.com/typename-yyf/Metis-quantization.
We presenteren de Flavors of Moonshine, een reeks kleine automatische spraakherkenning (ASR) modellen die gespecialiseerd zijn in een reeks ondervertegenwoordigde talen. De heersende opvatting suggereert dat meertalige ASR-modellen beter presteren dan eentalige tegenhangers door het benutten van cross-linguale fonetische overeenkomsten. We dagen deze aanname uit en tonen aan dat voor voldoende kleine modellen (27M parameters), het trainen van eentalige systemen op een zorgvuldig uitgebalanceerde mix van hoogwaardige door mensen gelabelde, pseudo-gelabelde en synthetische data aanzienlijk betere prestaties oplevert. Gemiddeld behalen onze modellen foutpercentages die 48% lager zijn dan het vergelijkbaar grote Whisper Tiny-model, presteren ze beter dan het 9x grotere Whisper Small-model, en in de meeste gevallen evenaren of overtreffen ze het 28x grotere Whisper Medium-model. Deze resultaten zetten de standaard voor modellen van deze omvang, waardoor nauwkeurige on-device ASR mogelijk wordt voor talen die voorheen beperkte ondersteuning hadden. We brengen Arabische, Chinese, Japanse, Koreaanse, Oekraïense en Vietnamese Moonshine-modellen uit onder een permissieve open-source licentie.
Grote Taalmodellen (LLM's) kunnen onbedoeld maatschappelijke vooroordelen weerspiegelen die aanwezig zijn in hun trainingsdata, wat leidt tot schadelijke of bevooroordeelde uitkomsten. In de Indiase context laten onze empirische evaluaties over een reeks modellen zien dat vooroordelen rond kaste en religie bijzonder opvallend zijn. Toch zijn de meeste bestaande mitigatiestrategieën westers georiënteerd en slagen ze er niet in om deze lokale nuances aan te pakken. Wij stellen AMBEDKAR voor, een raamwerk geïnspireerd op de egalitaire visie van Dr. B. R. Ambedkar, architect van de Indiase Grondwet, om LLM-uitkomsten te sturen naar eerlijkheid, neutraliteit en inclusiviteit in lijn met artikelen 14 tot 17. Onze aanpak introduceert een Grondwetsbewuste Decoderingslaag, geleid door de AI Grondwet van India en alleen toegepast tijdens inferentie, zonder enige parameterupdates aan het basismodel. We integreren een speculatieve decoderingsalgoritme dat proactief kaste- en gemeenschapsvooroordelen vermindert tijdens de generatie. Deze mitigatielaag opereert direct binnen het decoderingsproces, waardoor wijzigingen aan de interne werking van het model worden vermeden en de rekenkundige en infrastructurele kosten die gepaard gaan met hertraining worden verlaagd. We herinterpreteren speculatieve decodering niet slechts als een efficiëntiehulpmiddel, maar als een mechanisme voor eerlijkheid. In dit raamwerk fungeert een Klein Taalmodel (SLM) als een potentieel bevooroordeelde generator, terwijl een grondwettelijk geleid Groot Taalmodel (LLM) dient als de verifier. In plaats van de generatie te versnellen, handhaaft het LLM vooroordeelbestendige trajecten in de SLM-uitkomsten. Deze omkering van rollen leidt tot een paradigma van eerlijkheid-door-speculatie. Onze aanpak resulteert in een absolute vermindering van vooroordelen tot 26,41 procent in vergelijking met de baseline. Onze broncode, datasets en resultaten zijn beschikbaar op https://anonymous.4open.science/r/AMBEDKAR-983B/.
Promptgevoeligheid, verwijzend naar het fenomeen waarbij parafraseren (d.w.z. iets herhalen dat geschreven of gesproken is met andere woorden) leidt tot significante veranderingen in de prestaties van grote taalmodelen (LLM's), wordt algemeen beschouwd als een kernbeperking van LLM's. In dit werk herzien we dit probleem en stellen de vraag: Is de veelgerapporteerde hoge promptgevoeligheid werkelijk een inherente zwakte van LLM's, of is het grotendeels een artefact van evaluatieprocessen? Om deze vraag te beantwoorden, evalueren we systematisch 7 LLM's (bijv. de GPT- en Gemini-families) op 6 benchmarks, inclusief zowel meerkeuze- als open-eindetaken, met behulp van 12 diverse promptsjablonen. We ontdekken dat een groot deel van de promptgevoeligheid voortkomt uit heuristische evaluatiemethoden, zoals log-waarschijnlijkheidsscoring en rigide antwoordmatching, die vaak semantisch correcte reacties die via alternatieve formuleringen zoals synoniemen of parafrases worden uitgedrukt, over het hoofd zien. Wanneer we LLM-as-a-Judge-evaluaties toepassen, observeren we een aanzienlijke vermindering in prestatievariaties en een consistent hogere correlatie in modelrangschikkingen tussen verschillende prompts. Onze bevindingen suggereren dat moderne LLM's robuuster zijn tegenover promptsjablonen dan eerder werd aangenomen, en dat promptgevoeligheid meer een artefact van evaluatie kan zijn dan een gebrek in de modellen zelf.
Ondanks het grote potentieel wordt de toepassing van virtual try-on technologie in de praktijk belemmerd door twee grote uitdagingen: het onvermogen van huidige methoden om multi-referentie outfitcomposities (inclusief kledingstukken en accessoires) te ondersteunen, en hun aanzienlijke inefficiëntie veroorzaakt door de overbodige herberekening van referentiefuncties in elke denoising stap. Om deze uitdagingen aan te pakken, stellen we FastFit voor, een hoogwaardig multi-referentie virtual try-on framework gebaseerd op een nieuwe cachebare diffusie-architectuur. Door gebruik te maken van een Semi-Attention mechanisme en traditionele timestep embeddings te vervangen door class embeddings voor referentie-items, ontkoppelt ons model de codering van referentiefuncties volledig van het denoising proces met een verwaarloosbare parameteroverhead. Hierdoor kunnen referentiefuncties slechts één keer worden berekend en verliesloos worden hergebruikt in alle stappen, waardoor de efficiëntiebeperking fundamenteel wordt doorbroken en een gemiddelde snelheidswinst van 3,5x ten opzichte van vergelijkbare methoden wordt bereikt. Bovendien introduceren we, om onderzoek naar complexe, multi-referentie virtual try-on te faciliteren, DressCode-MR, een nieuwe grootschalige dataset. Deze bestaat uit 28.179 sets van hoogwaardige, gepaarde afbeeldingen die vijf belangrijke categorieën omvatten (tops, broeken, jurken, schoenen en tassen), samengesteld via een pijplijn van expertmodellen en verfijning door menselijke feedback. Uitgebreide experimenten op de VITON-HD, DressCode en onze DressCode-MR datasets tonen aan dat FastFit state-of-the-art methoden overtreft op belangrijke kwaliteitsmetrieken, terwijl het een aanzienlijk voordeel biedt in inferentie-efficiëntie.
Traditionele uitlijningsmethoden voor Grote Visuele en Taalmodellen (LVLMs) berusten voornamelijk op door mensen samengestelde voorkeursdata. Door mensen gegenereerde voorkeursdata is kostbaar; door machines gegenereerde voorkeursdata is beperkt in kwaliteit; en zelfgesuperviseerde voorkeursdata introduceert vaak hallucinaties. Om deze beperkingen te overwinnen, stellen we een nieuw Panel-of-Peers-leerkader voor, geïnspireerd door collaboratief leren tussen mensen. Deze aanpak maakt gebruik van een panel van LVLMs, waarbij elk model de collectieve uitvoer evalueert en ervan leert via een iteratief zelfverbeteringsproces. Door een peer review-systeem na te bootsen, genereren, beoordelen en verfijnen onze modellen uitvoer in reactie op een samengestelde set prompts, wat een klaslokaalleeromgeving nabootst. We demonstreren dat deze methodologie de modelprestaties verbetert zonder uitgebreide door mensen gelabelde datasets te vereisen. Onze experimenten tonen significante verbetering op meerdere benchmarks, wat het potentieel van peerevaluaties aantoont als een schaalbare alternatief voor zelfgesuperviseerde uitlijning. Opmerkelijk is dat we aantonen dat Panel-of-Peers de gemiddelde score op vijftien benchmarks verhoogt van 48% naar 57%.
Eerlijkheid in aanbevelingssystemen (RS) wordt doorgaans ingedeeld in groepseerlijkheid en individuele eerlijkheid. Er bestaat echter nog geen gevestigd wetenschappelijk begrip van de relatie tussen deze twee vormen van eerlijkheid, omdat eerder onderzoek naar beide typen verschillende evaluatiemaatstaven of evaluatiedoelen heeft gebruikt voor elk type eerlijkheid, waardoor een goede vergelijking tussen de twee niet mogelijk was. Hierdoor is het momenteel onbekend hoe het vergroten van één type eerlijkheid het andere type kan beïnvloeden. Om deze leemte op te vullen, bestuderen wij de relatie tussen groepseerlijkheid en individuele eerlijkheid door middel van een uitgebreide vergelijking van evaluatiemaatstaven die voor beide typen eerlijkheid kunnen worden gebruikt. Onze experimenten met 8 runs over 3 datasets tonen aan dat aanbevelingen die zeer eerlijk zijn voor groepen zeer oneerlijk kunnen zijn voor individuen. Deze bevinding is nieuw en nuttig voor RS-praktijkmensen die streven naar het verbeteren van de eerlijkheid van hun systemen. Onze code is beschikbaar op: https://github.com/theresiavr/stairway-to-fairness.
Puntenwolkleren, vooral op een zelfgesuperviseerde manier zonder handmatige labels, heeft steeds meer aandacht gekregen in zowel de visuele als de leergemeenschappen vanwege het potentiële nut in een breed scala aan toepassingen. De meeste bestaande generatieve benaderingen voor zelfgesuperviseerd leren van puntenwolken richten zich op het herstellen van gemaskeerde punten vanuit zichtbare punten binnen een enkel beeld. Erkennend dat een tweebeeld voorafgaande trainingsparadigma van nature meer diversiteit en variatie introduceert, kan het dus uitdagendere en informatievere voorafgaande training mogelijk maken. Geïnspireerd door dit idee, verkennen we het potentieel van tweebeeld leren in dit domein. In dit artikel stellen we Point-PQAE voor, een kruisreconstructie generatief paradigma dat eerst twee ontkoppelde puntenwolken/beelden genereert en vervolgens de ene vanuit de andere reconstrueert. Om dit doel te bereiken, ontwikkelen we voor het eerst een crop-mechanisme voor het genereren van puntenwolkbeelden en stellen we verder een nieuwe positionele codering voor om de 3D-relatieve positie tussen de twee ontkoppelde beelden weer te geven. De kruisreconstructie verhoogt de moeilijkheidsgraad van de voorafgaande training aanzienlijk in vergelijking met zelfreconstructie, waardoor onze methode eerdere enkelvoudige zelfreconstructiemethoden in 3D-zelfgesuperviseerd leren overtreft. Specifiek presteert het 6,5%, 7,0% en 6,7% beter dan de zelfreconstructie baseline (Point-MAE) in drie varianten van ScanObjectNN met het Mlp-Linear evaluatieprotocol. De code is beschikbaar op https://github.com/aHapBean/Point-PQAE.
Nauwkeurige segmentatie van organen en tumoren in CT- en MRI-scans is essentieel voor diagnose, behandelplanning en ziektebewaking. Hoewel deep learning geautomatiseerde segmentatie heeft verbeterd, blijven de meeste modellen taakspecifiek en missen ze generaliseerbaarheid over modaliteiten en instellingen. Vision foundation models (FMs) die vooraf zijn getraind op miljardenschalige natuurlijke afbeeldingen, bieden krachtige en overdraagbare representaties. Het aanpassen ervan aan medische beeldvorming kent echter twee belangrijke uitdagingen: (1) de ViT-backbone van de meeste foundation models presteert nog steeds minder goed dan gespecialiseerde CNN's bij medische beeldsegmentatie, en (2) de grote domeinkloof tussen natuurlijke en medische afbeeldingen beperkt de overdraagbaarheid. Wij introduceren MedDINOv3, een eenvoudig en effectief raamwerk voor het aanpassen van DINOv3 aan medische segmentatie. We herzien eerst plain ViTs en ontwerpen een eenvoudige en effectieve architectuur met multi-schaal tokenaggregatie. Vervolgens voeren we domeinadaptieve voorafgaande training uit op CT-3M, een gecureerde verzameling van 3,87 miljoen axiale CT-slices, met behulp van een meerfasig DINOv3-recept om robuuste dense features te leren. MedDINOv3 evenaart of overtreft state-of-the-art prestaties op vier segmentatiebenchmarks, wat het potentieel van vision foundation models als verenigde backbones voor medische beeldsegmentatie aantoont. De code is beschikbaar op https://github.com/ricklisz/MedDINOv3.
Fijnmazige objectdetectie in uitdagende visuele domeinen, zoals schadebeoordeling van voertuigen, vormt een aanzienlijke uitdaging, zelfs voor menselijke experts om betrouwbaar op te lossen. Hoewel DiffusionDet de stand van de techniek heeft verbeterd door middel van conditionele denoiseringsdiffusie, blijft de prestaties beperkt door lokale featureconditionering in contextafhankelijke scenario's. Wij pakken deze fundamentele beperking aan door Context-Aware Fusion (CAF) te introduceren, dat cross-attention-mechanismen benut om globale scènecontext te integreren met lokale voorstelfeatures. De globale context wordt gegenereerd met behulp van een aparte, toegewijde encoder die uitgebreide omgevingsinformatie vastlegt, waardoor elk objectvoorstel aandacht kan besteden aan scèniveau-begrip. Ons framework verbetert het generatieve detectieparadigma aanzienlijk door elk objectvoorstel in staat te stellen aandacht te besteden aan uitgebreide omgevingsinformatie. Experimentele resultaten tonen een verbetering ten opzichte van state-of-the-art modellen op de CarDD-benchmark, waarmee nieuwe prestatiebenchmarks worden gevestigd voor contextbewuste objectdetectie in fijnmazige domeinen.