Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij presenteren LingBot-World, een opensource-wereldsimulator die voortkomt uit videogeneratie. Als toonaangevend wereldmodel biedt LingBot-World de volgende kenmerken: (1) Het behoudt een hoge nauwkeurigheid en robuuste dynamiek in een breed scala aan omgevingen, waaronder realistische, wetenschappelijke contexten, tekenfilmstijlen en meer. (2) Het stelt een minutenlange tijdsduur mogelijk terwijl de contextuele consistentie in de tijd behouden blijft, ook wel "langetermijngeheugen" genoemd. (3) Het ondersteunt realtime-interactiviteit met een latentie van minder dan 1 seconde bij het genereren van 16 frames per seconde. Wij stellen de code en het model openbaar toegankelijk om de kloof tussen opensource- en gesloten technologieën te verkleinen. Wij zijn ervan overtuigd dat onze release de gemeenschap zal versterken met praktische toepassingen in gebieden zoals contentcreatie, gaming en robotleren.
Versterkend Leren met Verifieerbare Beloningen (RLVR) biedt een robuust mechanisme om wiskundig redeneren in grote modellen te verbeteren. Wij constateren echter een systematisch gebrek aan aandacht voor uitdagendere vraagstukken in bestaande methoden, zowel vanuit algoritmisch als data-perspectief, ondanks het belang ervan voor het verfijnen van onderontwikkelde capaciteiten. Algoritmisch lijdt het veelgebruikte Group Relative Policy Optimization (GRPO) aan een impliciete onbalans waarbij de omvang van beleidsupdates lager is voor moeilijkere vragen. Qua data richten augmentatiebenaderingen zich voornamelijk op het herformuleren van vragen om de diversiteit te vergroten, zonder de intrinsieke moeilijkheidsgraad systematisch te verhogen. Om deze problemen aan te pakken, stellen we een tweeledig MathForge-raamwerk voor om wiskundig redeneren te verbeteren door zich vanuit beide perspectieven op moeilijkere vragen te richten. Dit raamwerk omvat een Difficulty-Aware Group Policy Optimization (DGPO)-algoritme en een Multi-Aspect Question Reformulation (MQR)-strategie. Concreet herstelt DGPO eerst de impliciete onbalans in GRPO via een moeilijkheidsgebalanceerde schatting van het groepsvoordeel, en geeft het vervolgens prioriteit aan moeilijkere vragen via moeilijkheidsbewuste weging op vraagniveau. MQR herformuleert vragen tegelijkertijd over meerdere aspecten om de moeilijkheidsgraad te verhogen terwijl het oorspronkelijke gouden antwoord behouden blijft. Over vormt MathForge een synergetische lus: MQR verlegt de datagrenzen, en DGPO leert effectief van de aangevulde data. Uitgebreide experimenten tonen aan dat MathForge aanzienlijk beter presteert dan bestaande methoden bij diverse taken voor wiskundig redeneren. De code en aangevulde data zijn beschikbaar op https://github.com/AMAP-ML/MathForge.
Wij presenteren Innovator-VL, een wetenschappelijk multimodaal groot taalmodel dat is ontworpen om het begrip en redeneervermogen in diverse wetenschappelijke domeinen te bevorderen, terwijl het uitstekende prestaties levert op algemene visuele taken. In tegenstelling tot de trend om te vertrouwen op massale domeinspecifieke voorafgaande training en ondoorzichtige pijplijnen, toont ons werk aan dat een principiële trainingsopzet en transparante methodologie tot sterke wetenschappelijke intelligentie kunnen leiden met aanzienlijk verminderde gegevensbehoeften. (i) Ten eerste bieden wij een volledig transparante, end-to-end reproduceerbare trainingspijplijn, die gegevensverzameling, -opschoning, -voorbewerking, supervised fine-tuning, reinforcement learning en evaluatie omvat, samen met gedetailleerde optimalisatierecepten. Dit vergemakkelijkt een systematische uitbreiding door de gemeenschap. (ii) Ten tweede vertoont Innovator-VL opmerkelijke gegevensefficiëntie door competitieve prestaties te behalen op diverse wetenschappelijke taken met minder dan vijf miljoen gecureerde samples, zonder grootschalige voorafgaande training. Deze resultaten benadrukken dat effectief redeneren kan worden bereikt door principiële gegevensselectie in plaats van ongericht schalen. (iii) Ten derde toont Innovator-VL sterke generalisatie door competitieve prestaties te leveren op algemene visuele, multimodale redeneer- en wetenschappelijke benchmarks. Dit geeft aan dat wetenschappelijke afstemming kan worden geïntegreerd in een uniform model zonder algemene capaciteiten aan te tasten. Onze praktijken suggereren dat efficiënte, reproduceerbare en hoogpresterende wetenschappelijke multimodale modellen kunnen worden gebouwd, zelfs zonder grootschalige gegevens, wat een praktische basis biedt voor toekomstig onderzoek.
Wij presenteren DeepSeek-OCR 2 om de haalbaarheid te onderzoeken van een nieuwe encoder – DeepEncoder V2 – die in staat is om visuele tokens dynamisch te herordenen op basis van beeld semantiek. Conventionele vision-language modellen (VLM's) verwerken visuele tokens steevast in een rigide raster-scan volgorde (van linksboven naar rechtsonder) met vaste positionele codering wanneer ze aan grote taalmodellen (LLM's) worden gevoed. Dit staat echter haaks op de menselijke visuele perceptie, die flexibele maar semantisch coherente scanpatronen volgt, gedreven door inherente logische structuren. Vooral bij afbeeldingen met complexe lay-outs vertoont het menselijk visueel systeem een causaal-gestuurde sequentiële verwerking. Geïnspireerd door dit cognitieve mechanisme is DeepEncoder V2 ontworpen om de encoder te voorzien van causaal redeneervermogen, waardoor deze visuele tokens intelligent kan herordenen vóór de op LLM gebaseerde contentinterpretatie. Dit werk verkent een nieuw paradigma: of 2D-beeldbegrip effectief kan worden bereikt via twee gecascadeerde 1D causale redeneerstructuren, waardoor een nieuwe architecturale benadering wordt geboden met het potentieel om echt 2D-redeneren te realiseren. Code en modelgewichten zijn openbaar toegankelijk op http://github.com/deepseek-ai/DeepSeek-OCR-2.
Grote taalmodellen worden steeds vaker nageoefend met reinforcement learning in verifieerbare domeinen zoals code en wiskunde. Toch leren huidige methoden voor reinforcement learning met verifieerbare beloningen (RLVR) alleen van een scalaire uitkomstbeloning per poging, wat een ernstig credit-assignmentprobleem veroorzaakt. Veel verifieerbare omgevingen bieden eigenlijk rijke tekstuele feedback, zoals runtime-fouten of beoordelaarsevaluaties, die uitleggen waarom een poging mislukte. Wij formaliseren deze setting als reinforcement learning met rijke feedback en introduceren Self-Distillation Policy Optimization (SDPO), die getokeniseerde feedback omzet in een dicht leer signaal zonder externe leraar of expliciet beloningsmodel. SDPO behandelt het huidige model, geconditioneerd op feedback, als een zelf-leraar en distilleert diens feedback-geïnformeerde volgende-token-voorspellingen terug naar het beleid. Op deze manier benut SDPO het vermogen van het model om zijn eigen fouten retrospectief in-context te identificeren. Over wetenschappelijk redeneren, toolgebruik en competitief programmeren op LiveCodeBench v6 verbetert SDPO de steekproefficiëntie en eindnauwkeurigheid ten opzichte van sterke RLVR-baselines. Opmerkelijk is dat SDPO ook baseline-methoden overtreft in standaard RLVR-omgevingen die alleen scalaire feedback teruggeven, door succesvolle rollouts te gebruiken als impliciete feedback voor mislukte pogingen. Ten slotte versnelt het toepassen van SDPO op individuele vragen tijdens de testfase de ontdekking van oplossingen voor moeilijke binaire-beloningstaken, waarbij dezelfde ontdekkingskans wordt bereikt als bij best-of-k sampling of meerronde gesprekken met 3x minder pogingen.
Versterkend leren heeft grote taalmodellen in staat gesteld om als intelligente agenten te functioneren, maar het trainen ervan voor taken met een lange tijdschaal blijft uitdagend vanwege de schaarste aan hoogwaardige trajecten, vooral onder beperkte middelen. Bestaande methoden schalen doorgaans de aantallen rollouts op en alloceren rekenresources ongericht over tussenstappen. Dergelijke pogingen verspillen inherent aanzienlijke rekenbudgetten aan triviale stappen, terwijl ze de steekproefkwaliteit niet kunnen garanderen. Om dit aan te pakken, stellen we Spark voor (Strategic Policy-Aware exploRation via Key-state dynamic branching), een nieuw raamwerk dat selectief vertakt op kritieke beslissingsstaten voor resource-efficiënte exploratie. Ons belangrijkste inzicht is om adaptieve vertakkingsverkenning te activeren op kritieke beslissingspunten om veelbelovende trajecten te onderzoeken, waardoor een precieze resource-allokatie wordt bereikt die steekproefkwaliteit boven blinde dekking stelt. Dit ontwerp benut de intrinsieke beslissingssignalen van de agent om de afhankelijkheid van menselijke priori te verminderen, waardoor de agent autonoom de verkenning kan uitbreiden en een sterkere generalisatie kan bereiken. Experimenten in diverse taken (bijvoorbeeld embodied planning) tonen aan dat Spark superieure slagingspercentages bereikt met aanzienlijk minder trainingsvoorbeelden en robuuste generalisatie vertoont, zelfs in onbekende scenario's.
Taalmodelrepresentaties bevatten vaak lineaire richtingen die corresponderen met hoogwaardige concepten. Hier bestuderen we de dynamiek van deze representaties: hoe representaties evolueren langs deze dimensies binnen de context van (gesimuleerde) gesprekken. We ontdekken dat lineaire representaties drastisch kunnen veranderen tijdens een gesprek; bijvoorbeeld, informatie die aan het begin van een gesprek als feitelijk wordt gerepresenteerd, kan aan het eind als niet-feitelijk worden gerepresenteerd en vice versa. Deze veranderingen zijn inhoudsafhankelijk; terwijl representaties van gespreksrelevante informatie kunnen veranderen, blijft generieke informatie over het algemeen behouden. Deze veranderingen zijn robuust, zelfs voor dimensies die feitelijkheid ontwarren van meer oppervlakkige antwoordpatronen, en treden op bij verschillende modelfamilies en lagen van het model. Deze representatieveranderingen vereisen geen on-policy gesprekken; zelfs het afspelen van een gespreksscript geschreven door een volledig ander model kan vergelijkbare veranderingen produceren. Adaptatie is echter veel zwakker wanneer simpelweg een sciencefictionverhaal in de context wordt geplaatst dat explicieter als zodanig wordt gekaderd. We tonen ook aan dat sturing langs een representatierichting dramatisch verschillende effecten kan hebben op verschillende punten in een gesprek. Deze resultaten zijn consistent met het idee dat representaties kunnen evolueren als reactie op het model dat een bepaalde rol speelt die wordt gesuggereerd door een gesprek. Onze bevindingen kunnen uitdagingen vormen voor interpreteerbaarheid en sturing – in het bijzonder impliceren ze dat het misleidend kan zijn om statische interpretaties van kenmerken of richtingen te gebruiken, of probes die veronderstellen dat een bepaald bereik van kenmerken consistent overeenkomt met een bepaalde grondwaarheid. Dit soort representatiedynamiek wijst echter ook op spannende nieuwe onderzoeksrichtingen voor het begrijpen van hoe modellen zich aanpassen aan context.
Hoogwaardige evaluatiebenchmarks zijn cruciaal voor de inzet van Large Language Models (LLM's) bij geautomatiseerde codereviews (ACR). Bestaande benchmarks kampen echter met twee kritieke beperkingen: ten eerste het gebrek aan ondersteuning voor meerdere programmeertalen op repositoryniveau, wat de generaliseerbaarheid van evaluatieresultaten beperkt; ten tweede de afhankelijkheid van ruisachtige, onvolledige grondwaarheden afkomstig van ruwe Pull Request (PR)-commentaren, wat de reikwijdte van probleemdetectie beperkt. Om deze uitdagingen aan te pakken, introduceren we AACR-Bench, een uitgebreide benchmark die volledige cross-file context biedt voor meerdere programmeertalen. In tegenstelling tot traditionele datasets hanteert AACR-Bench een "AI-ondersteund, expert-geverifieerd" annotatiepijplijn om latente defecten bloot te leggen die vaak over het hoofd worden gezien in originele PR's, wat resulteert in een toename van 285% in defectdekking. Uitgebreide evaluaties van mainstream LLM's op AACR-Bench tonen aan dat eerdere beoordelingen de modelcapaciteiten mogelijk verkeerd hebben ingeschat of slechts gedeeltelijk hebben vastgelegd vanwege databeperkingen. Ons werk stelt een strengere standaard vast voor ACR-evaluatie en biedt nieuwe inzichten in LLM-gebaseerde ACR, namelijk dat de granulariteit/het niveau van context en de keuze van retrievemethoden de ACR-prestaties significant beïnvloeden, en dat deze invloed varieert afhankelijk van het LLM, de programmeertaal en het LLM-gebruiksparadigma (bijv. of een Agent-architectuur wordt gebruikt). De code, data en andere artefacten van onze evaluatieset zijn beschikbaar op https://github.com/alibaba/aacr-bench.
Open-weight coderingsagenten zouden een fundamenteel voordeel moeten hebben ten opzichte van closed-source systemen: ze kunnen worden gespecialiseerd voor privé-codebibliotheken, waarbij repositoriespecifieke informatie direct in hun gewichten wordt gecodeerd. Toch hebben de kosten en complexiteit van training dit voordeel tot nu toe theoretisch gehouden. Wij tonen aan dat het nu praktisch haalbaar is. Wij presenteren Soft-Verified Efficient Repository Agents (SERA), een efficiënte methode voor het trainen van coderingsagenten die de snelle en goedkope creatie van agenten, gespecialiseerd in privé-codebibliotheken, mogelijk maakt. Met alleen supervised finetuning (SFT) behaalt SERA state-of-the-art resultaten onder volledig open-source modellen (open data, methode, code) en evenaart het de prestaties van frontier open-weight modellen zoals Devstral-Small-2. Het creëren van SERA-modellen is 26x goedkoper dan reinforcement learning en 57x goedkoper dan eerdere synthetische data-methoden om een gelijkwaardige prestatie te bereiken. Onze methode, Soft Verified Generation (SVG), genereert duizenden trajecten vanuit een enkele code repository. Gecombineerd met kostenefficiëntie maakt dit specialisatie voor privé-codebibliotheken mogelijk. Naast repositoriespecialisatie passen we SVG toe op een groter corpus van codebibliotheken, waarbij we meer dan 200.000 synthetische trajecten genereren. We gebruiken deze dataset om gedetailleerde analyses te geven van schaalwetten, ablatiestudies en storende factoren bij het trainen van coderingsagenten. Al met al geloven we dat ons werk onderzoek naar open coderingsagenten aanzienlijk zal versnellen en het voordeel aantoont van open-source modellen die kunnen worden gespecialiseerd voor privé-codebibliotheken. We brengen SERA uit als het eerste model in Ai2's Open Coding Agents-reeks, samen met al onze code, data en Claude Code-integratie om de onderzoeksgemeenschap te ondersteunen.
Recente vooruitgang in het redeneren van Large Language Models (LLM's) wordt in toenemende mate gedreven door de verfijning van verliesfuncties na de training en alignmentstrategieën. Standaard Reinforcement Learning (RL)-paradigma's zoals Group Relative Policy Optimization (GRPO) blijven echter beperkt door statische uniformiteit: uniforme prompt sampling en een vast aantal rollouts per prompt. Voor heterogene, zwaarstaartige redeneergegevens creëert dit structurele inefficiënties die rekenkracht verspillen aan reeds opgeloste patronen, terwijl de lange staart van moeilijke problemen ondergetraind blijft. Om dit aan te pakken, stellen we Multi-Adversary Group Distributionally Robust Optimization (GDRO) voor, een optimalisatiegericht framework dat verder gaat dan uniforme redeneermodellen door de trainingsdistributie dynamisch aan te passen. We introduceren een Online Difficulty Classifier die prompts partitioneert in dynamische pass@k-moeilijkheidsgroepen. Vervolgens stellen we twee onafhankelijke GDRO-spellen voor na de training: (1) Prompt-GDRO, dat een EMA-gedebiased multiplicative-weights bandit sampler gebruikt om de intensieve moeilijkheidsmarge te targeten en hardnekkig moeilijke groepen op te waarderen zonder frequentiebias; en (2) Rollout-GDRO, dat een shadow-price controller gebruikt om rollouts over groepen te heralloceren, waardoor de variantiereductie van de gradient op moeilijke taken wordt gemaximaliseerd onder een vast gemiddeld budget (compute-neutraal). We geven no-regret garanties voor beide controllers en voegen een variantie-proxy analyse toe die een vierkantswortel-optimale rollout allocatie voor Rollout-GDRO motiveert. We valideren ons framework op de DAPO 14.1k dataset met Qwen3-Base modellen. Prompt-GDRO en Rollout-GDRO behalen respectievelijk gemiddelde relatieve winsten van +10.6% en +10.1% in pass@8 nauwkeurigheid over 1.7B, 4B en 8B schalen vergeleken met de GRPO-baseline. Kwalitatieve analyse toont een emergent curriculum: de adversaries verschuiven middelen naar de evoluerende redeneergrens, wat de prestaties van het redeneermodel verbetert.
Grafische gebruikersinterface (GUI)-agenten tonen groot potentieel om foundation-modellen in staat te stellen real-world taken uit te voeren, wat een revolutie teweegbrengt in mens-computerinteractie en de menselijke productiviteit verbetert. In dit rapport presenteren we OmegaUse, een algemeen GUI-agentmodel voor autonome taakuitvoering op zowel mobiele als desktopplatforms, dat computergebruik- en telefoongebruikscenario's ondersteunt. Het bouwen van een effectief GUI-agentmodel steunt op twee factoren: (1) hoogwaardige data en (2) effectieve trainingsmethoden. Om deze aan te pakken, introduceren we een zorgvuldig ontworpen data-constructiepijplijn en een ontkoppeld trainingsparadigma. Voor dataconstructie benutten we rigoureus samengestelde open-source datasets en introduceren we een nieuw geautomatiseerd syntheseframework dat bottom-up autonome exploratie integreert met top-down taxonomie-gestuurde generatie om hoogwaardige synthetische data te creëren. Voor training hanteren we, om deze data beter te benutten, een tweefasenstrategie: Supervised Fine-Tuning (SFT) om fundamentele interactiesyntaxis vast te leggen, gevolgd door Group Relative Policy Optimization (GRPO) om ruimtelijke verankering en sequentiële planning te verbeteren. Om computationele efficiëntie te balanceren met agent-redeneercapaciteit, is OmegaUse gebouwd op een Mixture-of-Experts (MoE)-backbone. Om cross-terminale capaciteiten offline te evalueren, introduceren we OS-Nav, een benchmark suite die meerdere besturingssystemen omvat: ChiM-Nav, gericht op Chinese Android mobiele omgevingen, en Ubu-Nav, gefocust op routine desktopinteracties op Ubuntu. Uitgebreide experimenten tonen aan dat OmegaUse zeer concurrerend presteert op gevestigde GUI-benchmarks, met een state-of-the-art (SOTA) score van 96,3% op ScreenSpot-V2 en een leidende 79,1% stap-succesratio op AndroidControl. OmegaUse presteert ook sterk op OS-Nav, met een stap-succesratio van 74,24% op ChiM-Nav en een gemiddeld succespercentage van 55,9% op Ubu-Nav.
AI-ondersteuning leidt tot aanzienlijke productiviteitswinsten in professionele domeinen, vooral voor beginnende werknemers. Hoe deze ondersteuning echter de ontwikkeling van vaardigheden beïnvloedt die nodig zijn om AI effectief te kunnen beheren, blijft onduidelijk. Beginnende werknemers die sterk leunen op AI om onbekende taken uit te voeren, kunnen hun eigen vaardigheidsverwerving in het gedrang brengen. Wij voerden gerandomiseerde experimenten uit om te bestuderen hoe ontwikkelaars een nieuwe asynchrone programmeerbibliotheek onder de knie kregen, met en zonder AI-ondersteuning. Wij constateren dat AI-gebruik het conceptueel begrip, het lezen van code en debugvaardigheden aantast, zonder gemiddeld genomen significante efficiëntiewinst op te leveren. Deelnemers die codeertaken volledig delegeerden, boekten enige productiviteitsverbetering, maar ten koste van het leren beheersen van de bibliotheek. Wij identificeren zes verschillende AI-interactiepatronen, waarvan er drie cognitieve betrokkenheid inhouden en leerresultaten behouden, zelfs wanneer deelnemers AI-ondersteuning ontvangen. Onze bevindingen suggereren dat AI-gestimuleerde productiviteit geen snelle route naar competentie is en dat AI-ondersteuning zorgvuldig in workflows moet worden geïntegreerd om vaardigheidsontwikkeling te waarborgen – met name in veiligheidskritieke domeinen.
Versterkend leren (RL) voor grote-taalmodelmodellen (LLM's) wordt in toenemende mate beperkt door de rollout (generatie), waarbij lange uitvoersequenties ervoor zorgen dat aandacht en KV-cache-geheugen de end-to-end verwerkingstijd domineren. FP8 biedt een aantrekkelijke hefboom om RL te versnellen door rekencosten en geheugenverkeer tijdens de rollout te verminderen, maar de toepassing van FP8 in RL brengt unieke technische en algoritmische uitdagingen met zich mee: de beleidsgewichten (policy weights) veranderen elke stap (wat herhaalde kwantisatie en gewichtssynchronisatie in de inferentie-engine vereist) en rollouts met lage precisie kunnen afwijken van het door de trainer veronderstelde beleid met hogere precisie, wat leidt tot een mismatch tussen training en inferentie en mogelijke instabiliteit. Dit rapport presenteert een praktische FP8-rolloutstack voor LLM-RL, geïmplementeerd in het veRL-ecosysteem met ondersteuning voor veelgebruikte trainingsbackends (zoals FSDP/Megatron-LM) en inferentie-engines (zoals vLLM/SGLang). Wij (i) maken FP8 W8A8 rollout voor lineaire lagen mogelijk door gebruik te maken van blokgewijze FP8-kwantisatie, (ii) breiden FP8 uit naar de KV-cache om geheugenknelpunten bij lange contexten te verwijderen via per-stap herkalibratie van QKV-schalen, en (iii) verminderen mismatch door gebruik te maken van rollout-correctie op basis van importance sampling (token-level TIS/MIS varianten). Voor zowel dense als MoE-modellen leveren deze technieken tot 44% hogere rollout-doorvoer op, terwijl het leerproces vergelijkbaar blijft met BF16-basislijnen.
Ondanks de syntactische vlotheid van grote taalmmodellen (LLM's) blijft het waarborgen van hun logische correctheid in hoogrisicodomeinen een fundamentele uitdaging. Wij presenteren een neurosymbolisch raamwerk dat LLM's combineert met SMT-oplossers om verificatie-gestuurde antwoorden te produceren via iteratieve verfijning. Onze aanpak decomposeert LLM-outputs in atomische beweringen, formaliseert deze automatisch naar eerstorde-logica en verifieert hun logische consistentie met geautomatiseerde bewijsvoering. Wij introduceren drie belangrijke innovaties: (1) multi-model consensus via formele semantische equivalentiecontrole om logische afstemming tussen kandidaatantwoorden te garanderen, waardoor de syntactische bias van oppervlaktevorm-metrieken wordt geëlimineerd, (2) semantisch routeren dat verschillende beweringstypen naar geschikte verificatiestrategieën leidt: symbolische oplossers voor logische beweringen en LLM-ensembles voor gezond verstand-redenering, en (3) precieze lokalisatie van logische fouten via Minimal Correction Subsets (MCS), die de exacte subset van te reviseren beweringen identificeert, waardoor binaire foutsignalen worden omgezet in actiegerichte feedback. Ons raamwerk classificeert beweringen op basis van hun logische status en aggregeert meerdere verificatiesignalen tot een uniforme score met variantie-gebaseerde penalisatie. Het systeem verfijnt antwoorden iteratief met gestructureerde feedback totdat acceptatiecriteria worden bereikt of convergentie wordt gerealiseerd. Deze hybride aanpak biedt formele garanties waar mogelijk en consensusverificatie elders, wat bijdraagt aan betrouwbare AI. Met het GPT-OSS-120B-model demonstreert VERGE een gemiddelde prestatieverbetering van 18,7% bij convergentie over een reeks redeneerbenchmarks in vergelijking met single-pass benaderingen.
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft het redeneervermogen van grote taalmodellen (LLM's) aanzienlijk verbeterd, maar de training stagneert vaak naarmate problemen verzadigd raken. Wij identificeren de kernuitdaging als de slechte toegankelijkheid van informatieve fouten: leersignalen bestaan wel, maar worden zelden aangetroffen tijdens standaard rollouts. Om dit aan te pakken, stellen we *failure-prefix conditioning* voor, een eenvoudige en effectieve methode om te leren van verzadigde problemen. In plaats van te starten vanaf de oorspronkelijke vraag, herverdeelt onze aanpak de verkenning door de training te conditioneren op prefixen die zijn afgeleid van zeldzame incorrecte redeneertrajecten, waardoor het model wordt blootgesteld aan foutgevoelige toestanden. Wij observeren dat *failure-prefix conditioning* prestatieverbeteringen oplevert die overeenkomen met training op problemen van gemiddelde moeilijkheidsgraad, terwijl de token-efficiëntie behouden blijft. Verder analyseren we de robuustheid van het model en constateren dat onze methode prestatievermindering onder misleidende foutprefixen vermindert, zij het met een milde afweging in de naleving van correct vroeg redeneren. Ten slotte tonen we aan dat een iteratieve aanpak, waarbij foutprefixen tijdens de training worden ververst, extra winst mogelijk maakt na prestatieplateaus. Over het geheel genomen suggereren onze resultaten dat *failure-prefix conditioning* een effectieve weg biedt om RLVR-training op verzadigde problemen te verlengen.
Het domein van taakonafhankelijke feature-upsampling is naar voren gekomen als een veelbelovend onderzoeksgebied om efficiënter dichtere features te creëren vanuit voorgetrainde visuele backbones. Deze methoden fungeren als een snellere route om dichte features te verkrijgen tegen een fractie van de kosten, door te leren hoe laagresolutie-features naar hoogresolutieversies kunnen worden gemapt. Terwijl vroege werken in dit domein iteratieve upsampling-benaderingen gebruikten, zijn recentere werken overgestapt op op cross-attention gebaseerde methoden, die het risico lopen in dezelfde schaalbaarheidsproblemen terecht te komen als de backbones die ze upsamplen. In dit werk tonen we aan dat iteratieve upsampling-methoden nog steeds kunnen concurreren met op cross-attention gebaseerde methoden; bovendien kunnen ze state-of-the-art prestaties leveren tegen lagere inferentiekosten. Wij stellen UPLiFT voor, een architectuur voor Universele Pixel-dichte Lightweight Feature Transformaties. We introduceren ook een efficiënte Local Attender-operator om de beperkingen van eerdere iteratieve feature-upsampling-methoden te overwinnen. Deze operator gebruikt een alternatieve formulation voor attentionele pooling die volledig lokaal is gedefinieerd. We tonen aan dat onze Local Attender UPLiFT in staat stelt om stabiele features te behouden gedurende het upsampling-proces, wat state-of-the-art prestaties mogelijk maakt tegen lagere inferentiekosten dan bestaande pixel-dichte feature-upsamplers. Daarnaast passen we UPLiFT toe op generatieve downstream-taken en laten we zien dat het competitieve prestaties bereikt met state-of-the-art Gekoppelde Flow Matching-modellen voor VAE-feature-upsampling. Al met al biedt UPLiFT een veelzijdige en efficiënte aanpak voor het creëren van dichtere features.
Spreker-toegeschreven automatische spraakherkenning (ASR) in omgevingen met meerdere sprekers blijft een grote uitdaging. Hoewel sommige benaderingen sterke prestaties bereiken wanneer ze worden afgestemd op specifieke domeinen, generaliseren weinig systemen goed over verschillende niet-domeinspecifieke datasets. Ons eerdere werk, Diarization-Conditioned Whisper (DiCoW), gebruikt speaker-diarisatie-uitvoer als conditioneringsinformatie en toonde met minimale afstemming sterke meertalige en multidomeinprestaties. In dit artikel pakken we een belangrijke beperking van DiCoW aan: ambiguïteit in Silence-Target-Non-target-Overlap (STNO)-maskers, waarbij twee of meer volledig overlappende sprekers nagenoeg identieke conditionering kunnen hebben ondanks verschillende transcripties. We introduceren SE-DiCoW (Self-Enrolled Diarization-Conditioned Whisper), dat diarisatie-uitvoer gebruikt om een inschrijfsegment te lokaliseren ergens in het gesprek waar de doelspreker het meest actief is. Dit inschrijfsegment wordt gebruikt als vaste conditionering via cross-attention in elke encoderlaag. We verfijnen DiCoW verder met verbeterde datasegmentatie, modelinitialisatie en augmentatie. Gezamenlijk leveren deze verbeteringen aanzienlijke winst op: SE-DiCoW reduceert de macro-gemiddelde tcpWER met 52,4% ten opzichte van de originele DiCoW op de EMMA MT-ASR-benchmark.
Ondanks tientallen jaren onderzoek naar nagalmspraak blijft het vergelijken van methoden moeilijk, omdat de meeste corpora geen akoestische annotaties per bestand bevatten of beperkte documentatie voor reproductie bieden. Wij presenteren RIR-Mega-Speech, een corpus van ongeveer 117,5 uur, gecreëerd door LibriSpeech-uitingen te convolueren met ongeveer 5.000 gesimuleerde kamerimpulsresponses uit de RIR-Mega-collectie. Elk bestand bevat RT60, de direct-reverberantieverhouding (DRR) en de helderheidsindex (C₅₀), berekend uit de bron-RIR volgens duidelijk gedefinieerde, reproduceerbare procedures. Wij bieden ook scripts om de dataset opnieuw op te bouwen en alle evaluatieresultaten te reproduceren. Met behulp van Whisper small op 1.500 gepaarde uitingen meten we een WER van 5,20% (95% BI: 4,69–5,78) op schone spraak en 7,70% (7,04–8,35) op gereflecteerde versies, wat overeenkomt met een gepaarde toename van 2,50 procentpunten (2,06–2,98). Dit vertegenwoordigt een relatieve verslechtering van 48%. De WER neemt monotoon toe met RT60 en af met DRR, in overeenstemming met eerder perceptueel onderzoek. Hoewel de kernbevinding dat reverberatie de herkenning schaadt goed is vastgesteld, willen wij de gemeenschap een gestandaardiseerde bron bieden waarbij de akoestische condities transparant zijn en resultaten onafhankelijk geverifieerd kunnen worden. De repository omvat herbouwinstructies met één commando voor zowel Windows- als Linux-omgevingen.
Voor sociaal gevoelige taken zoals haatspraakdetectie is de kwaliteit van verklaringen van grote taalmodel(len) cruciaal voor factoren zoals gebruikersvertrouwen en modelafstemming. Hoewel persona-prompting (PP) steeds vaker wordt gebruikt om modellen te sturen naar gebruikersspecifieke generatie, blijft het effect op modelredeneringen onderbelicht. Wij onderzoeken hoe door LLM gegenereerde redeneringen variëren wanneer ze worden geconditioneerd op verschillende gesimuleerde demografische persona's. Met behulp van datasets geannoteerd met woordniveau-redeneringen meten we de overeenstemming met menselijke annotaties van verschillende demografische groepen en beoordelen we de impact van PP op modelvooroordelen en menselijke afstemming. Onze evaluatie over drie LLM's levert drie belangrijke bevindingen op: (1) PP verbetert de classificatie bij de meest subjectieve taak (haatspraak) maar verslechtert de kwaliteit van de redenering. (2) Gesimuleerde persona's slagen er niet in af te stemmen op hun tegenhangers in de echte wereld, en hoge overeenstemming tussen persona's toont aan dat modellen resistent zijn tegen significante sturing. (3) Modellen vertonen consistente demografische vooroordelen en een sterke neiging om inhoud overmatig als schadelijk te bestempelen, ongeacht PP. Onze bevindingen onthullen een kritieke afweging: hoewel PP de classificatie bij sociaal gevoelige taken kan verbeteren, gaat dit vaak ten koste van de kwaliteit van de redenering en slaagt het er niet in onderliggende vooroordelen te mitigeren, wat tot voorzichtigheid bij de toepassing maant.
De groeiende vraag naar realtime robotimplementatie vereist snelle en on-device inferentie voor vision-language-action (VLA)-modellen. Binnen de VLA-literatuur is efficiëntie uitgebreid bestudeerd op tokenniveau, zoals visuele tokenreductie. Systematische transformerlaagreductie heeft daarentegen beperkte aandacht gekregen en, voor zover wij weten, is deze niet onderzocht voor op flows gebaseerde VLA-modellen onder kennisdistillatie. In dit werk stellen we Shallow-pi voor, een principieel kennisdistillatieraamwerk dat agressief de transformerdiepte van zowel de VLM-backbone als de op flows gebaseerde actiekop reduceert, waarbij het model van 18 naar 6 lagen wordt gecomprimeerd. Shallow-pi bereikt meer dan twee keer zo snelle inferentie met een daling van minder dan één procent absoluut in succespercentage op standaard manipulatiebenchmarks, en vestigt hiermee state-of-the-art prestaties onder gereduceerde VLA-modellen. Cruciaal is dat we onze aanval valideren door industriële real-world experimenten op Jetson Orin en Jetson Thor over meerdere robotplatforms, waaronder humanoïde systemen, in complexe en dynamische manipulatiescenario's.
Multimodale sarcasmedetectie (MSD) heeft als doel sarcasme in beeld-tekstparen te identificeren door semantische incongruenties tussen modaliteiten te modelleren. Bestaande methoden benutten vaak de misalignering van cross-modale embeddings om inconsistentie te detecteren, maar worstelen wanneer visuele en tekstuele inhoud slechts losjes gerelateerd of semantisch indirect zijn. Hoewel recente benaderingen grote taalmodellen (LLM's) inzetten om sarcastische aanwijzingen te genereren, introduceert de inherente diversiteit en subjectiviteit van deze gegenereerde data vaak ruis. Om deze beperkingen aan te pakken, stellen we het Generative Discrepancy Comparison Network (GDCNet) voor. Dit framework vat cross-modale conflicten door gebruik te maken van beschrijvende, feitelijk onderbouwde beeldbijschriften gegenereerd door Multimodale LLM's (MLLM's) als stabiele semantische ankers. Concreet berekent GDCNet semantische en sentiment-discrepanties tussen de gegenereerde objectieve beschrijving en de originele tekst, naast het meten van visueel-textuele geloofwaardigheid. Deze discrepantiekenmerken worden vervolgens gefuseerd met visuele en tekstuele representaties via een gemoduleerde eenheid om de bijdragen van modaliteiten adaptief in balans te brengen. Uitgebreide experimenten op MSD-benchmarks tonen de superieure nauwkeurigheid en robuustheid van GDCNet aan, waarmee een nieuwe state-of-the-art wordt gevestigd op de MMSD2.0-benchmark.
Schetsen biedt een intuïtieve manier om dynamische intentie over te brengen bij het ontwerpen van animaties (d.w.z. hoe elementen in de loop van de tijd en ruimte veranderen), wat het een natuurlijk medium maakt voor automatische contentcreatie. Toch beperken bestaande methoden schetsen vaak tot vaste commando-tokens of vooraf gedefinieerde visuele vormen, waarbij hun vrije vorm en de centrale rol van de mens bij het vormgeven van intentie over het hoofd worden gezien. Om dit aan te pakken, introduceren we een interactieparadigma waarbij gebruikers dynamische intentie overbrengen naar een vision-language-model via vrij-vorm schetsen, hier geconcretiseerd in een workflow van schets-storyboard naar motion graphics. We implementeren een interface en verbeteren deze via een driestappenstudie met 24 deelnemers. De studie toont aan hoe schetsen beweging overbrengen met minimale input, hoe hun inherente ambiguïteit gebruikers vereist om betrokken te zijn voor verduidelijking, en hoe schetsen visueel kunnen sturen bij het verfijnen van video. Onze bevindingen onthullen het potentieel van de interactie tussen schetsen en AI om de kloof tussen intentie en resultaat te overbruggen, en demonstreren de toepasbaarheid ervan op 3D-animatie en videogeneratie.