Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks de snelle vooruitgang in automatische spraakherkenning (ASR) en grote audio-taalmodelen blijft robuuste herkenning in realistische omgevingen beperkt door een ‘akoestische robuustheidsknelpunt’: modellen verliezen vaak hun akoestische fundering en produceren weglatingen of hallucinaties onder ernstige, compositorische vervormingen. Wij stellen Mega-ASR voor, een uniform ASR-in-the-wild raamwerk dat schaalbare samengestelde-dataconstructie combineert met progressieve akoestische-naar-semantische optimalisatie. We introduceren Voices-in-the-Wild-2M, dat 7 klassieke akoestische verschijnselen en 54 fysiek plausibele samengestelde scenario’s bestrijkt, en trainen Mega-ASR met Akoestische-naar-Semantische Progressieve Supervised Fine-Tuning en Dual-Granulariteit WER-Gated Beleidsoptimalisatie. Uitgebreide experimenten tonen aan dat Mega-ASR aanzienlijke voordelen behaalt ten opzichte van eerdere state-of-the-art systemen op ASR-benchmarks met ongunstige omstandigheden (45,69% vs. 54,01% op VOiCES R4-B-F, en 21,49% vs. 29,34% op NOIZEUS Sta-0). In complexe compositorische akoestische scenario’s levert Mega-ASR verder meer dan 30% relatieve WER-reductie ten opzichte van sterke open- en closed-source baselines, waarmee het een schaalbaar paradigma vestigt voor robuuste ASR in-the-wild.
Recente vooruitgang in multimodale grote taalmodellen heeft geleid tot een groeiende belangstelling voor grafische gebruikersinterface (GUI)-agenten, maar hun generalisatie blijft beperkt door het gebrek aan grootschalige trainingsgegevens die een breed scala aan reële toepassingen bestrijken. Bestaande datasets zijn sterk afhankelijk van kostbare handmatige annotaties en blijven doorgaans beperkt tot nauwe domeinen. Om deze uitdaging aan te pakken, introduceren we Video2GUI, een volledig geautomatiseerd raamwerk dat direct uit ongelabelde internetvideo's verankerde GUI-interactietrajecten extraheert. Video2GUI gebruikt een grof-naar-fijn filterstrategie om hoogwaardige GUI-tutorialvideo's te identificeren en om te zetten in gestructureerde agenttrajecten. Door deze pijplijn toe te passen op 500 miljoen videometadata-items bouwen we WildGUI, een grootschalige dataset met 12 miljoen interactietrajecten die meer dan 1.500 applicaties en websites bestrijken. Het vooraf trainen van Qwen2.5-VL en Mimo-VL op WildGUI levert consistente verbeteringen van 5-20% op bij meerdere GUI-verankering- en actiebenchmarks, wat gelijk is aan of beter is dan de state-of-the-art prestaties. We zullen zowel de WildGUI-dataset als de Video2GUI-pijplijn vrijgeven om toekomstig onderzoek naar GUI-agenten te ondersteunen.
Zonder aanzienlijke rekenkundige overhead te veroorzaken, beoogt train-free generatie van lange video's om fundamentele videogeneratiemodellen in staat te stellen langere video's te produceren. Autoregressieve raamwerken op frameniveau, zoals FIFO-diffusion, bieden het voordeel dat ze oneindig lange video's kunnen genereren met een constant geheugengebruik. De mismatch tussen training en inferentie, gekoppeld aan de uitdaging om consistentie op lange termijn te behouden, beperkt echter de effectieve inzet van fundamentele modellen. Om deze problemen aan te pakken, stellen we MIGA voor, een nieuwe methode voor oneindige videogeneratie. Ten eerste introduceren we een effectief tweefasig aligneringsmechanisme dat de training-inferentiekloof verkleint door de overmatige ruisomvang die aan het model wordt gevoed te verminderen. Vervolgens introduceren we een innovatief duaal consistentieverbeteringsmechanisme, waarbij de zelfreflectiebenadering vroege frames met hoge ruis corrigeert en de richtinggevende benadering voor verre frames latere frames met lage ruis en brede dekking gebruikt om de generatie te sturen, wat gezamenlijk de temporele consistentie verbetert. Uitgebreide experimenten op VBench en NarrLV tonen de state-of-the-art prestaties van MIGA. Onze projectpagina is beschikbaar op https://xiaokunfeng.github.io/miga_homepage/.
Multimodale grote taalmodellen (MLLM's) hebben opmerkelijke capaciteiten getoond in het overbruggen van visuele perceptie en tekstuele redenering, waardoor zero-shot begrip mogelijk wordt in diverse industriële scenario's. Hun prestaties in open-vocabulary industriële anomaliedetectie (IAD) worden echter vaak beperkt door domein-misaligned redenering en gehallucineerde structurele inferenties. Om deze uitdagingen aan te pakken, stellen we IndusAgent voor, een tool-versterkt agentisch raamwerk voor open-vocabulary IAD. Specifiek construeren we eerst Indus-CoT, een gestructureerde dataset die globale visuele observaties, hoge-resolutie lokale patches en expert-normaliteitprioriteiten integreert, wat supervisie biedt voor het finetunen van het model op rigoureuze industriële inspectietrajecten. Hierop voortbouwend orkestreert IndusAgent dynamisch een set externe tools, waaronder dynamische regiocropping, hoge-frequentie kenmerkverbetering en prioriteitsopvraging, waardoor de agent actief visuele ambiguïteiten kan oplossen en subtiele anomalieën kan ontwarren. Verder introduceren we een gegateerd reinforcement learning-doel dat gezamenlijk anomalieclassificatie, lokalisatienauwkeurigheid, redenering over anomalie-type en efficiënt toolgebruik optimaliseert, waardoor toolaanroeping alleen plaatsvindt wanneer dit nuttig is. Uitgebreide evaluaties op vijf industriële anomaliebenchmarks, waaronder MVTec-AD, VisA, MPDD, DTD en SDD, tonen aan dat IndusAgent state-of-the-art zero-shot prestaties behaalt onder alle bestaande methoden, wat onze robuustheid en generalisatiecapaciteit bevestigt.
Reinforcement learning met verifieerbare beloningen (RLVR) is een dominant paradigma geworden voor het verbeteren van redeneren in grote taalmodellen (LLMs), maar de onderliggende geometrie van de resulterende parameterbanen blijft onderbelicht. In dit werk tonen we aan dat RLVR-gewichtstrajecten extreem lage rang hebben en zeer voorspelbaar zijn. Specifiek vinden we dat het grootste deel van de prestatiewinst in downstream taken wordt gevangen door een rang-1-benadering van de parameterdelta's, waarbij de grootte van deze projectie bijna lineair evolueert met trainingsstappen. Gemotiveerd hierdoor stellen we een eenvoudige en reken-efficiënte methode voor, RELEX (REinforcement Learning EXtrapolation), die de rang-1-deelruimte schat op basis van een kort observatievenster en toekomstige checkpoints extrapoleert via lineaire regressie, zonder dat een geleerd model nodig is. Over drie modellen (Qwen2.5-Math-1.5B, Qwen3-4B-Base en Qwen3-8B-Base) produceert RELEX checkpoints die de RLVR-prestaties evenaren of overtreffen op zowel binnen-domein als buiten-domein benchmarks, waarbij slechts 15% van de stappen van volledige RLVR-training nodig is. Opmerkelijk is dat RELEX in staat is ver buiten het observatievenster te extrapoleren zonder trainingskosten, en checkpoints voorspelt tot 10-20 keer verder dan het geobserveerde voorvoegsel met voortdurende verbetering (bijvoorbeeld alleen de eerste 50 stappen observeren en extrapoleren naar 1000 stappen). Onze ablatieanalyse bevestigt de minimalistische toereikendheid van RELEX: noch het verhogen van de deelruimte rang, noch het toepassen van niet-lineaire modellering levert verdere winst op in extrapolatie. Tot slot tonen we aan dat het succes van RELEX voortkomt uit een 'ontruisingseffect': door updates op de rang-1-deelruimte te projecteren, verwerpt het model stochastische optimalisatieruis die anders de prestaties tijdens extrapolatie zou verslechteren. Onze code is beschikbaar op https://github.com/weizhepei/RELEX.
De snelle vooruitgang richting redeneren over lange contexten en multimodale intelligentie heeft de geheugenvoetafdruk van de Key-Value (KV) cache gemaakt tot een dominant geheugenknelpunt voor efficiënte implementatie. Hoewel de gevestigde per-kanaalkwantisering effectief omgaat met intrinsieke kanaalsgewijze uitschieters in Key-tensoren, neemt de effectiviteit ervan af onder extreme compressie. In dit werk herzien we de inherente beperkingen van het per-kanaalkwantisatieparadigma vanuit zowel empirische als theoretische perspectieven. Onze analyse identificeert Token Norm Imbalance (TNI) als de primaire bottleneck voor de kwantiseringgetrouwheid. We tonen aan dat TNI systematisch fouten versterkt wanneer gedeelde kwantisatieparameters moeten worden toegepast op tokengroepen die aanzienlijke normverschillen vertonen. In plaats van te vertrouwen op ingewikkelde kwantisatiepijplijnen (bijv. TurboQuant), stellen we OScaR (Omni-Scaled Canalized Rotation) voor, een accuraat en lichtgewicht compressieframework voor de KV-cache van X-LLMs (d.w.z. tekst-only, multimodale en omni-modale LLMs). Voortbouwend op het per-kanaalparadigma gebruikt OScaR Canalized Rotation gevolgd door Omni-Token Scaling om de door TNI veroorzaakte sequentiedimensionale variantie zowel effectief als efficiënt te beperken, verder ondersteund door ons geoptimaliseerde systeemontwerp en CUDA-kernels. Uitgebreide evaluaties over X-LLMs heen tonen aan dat OScaR consequent beter presteert dan bestaande methoden en bijna-verliesvrije prestaties behaalt onder INT2-kwantisatie, wat het vestigt als een robuust, laagcomplex en universeel framework dat een nieuw Pareto-front definieert. Vergeleken met de BF16 FlashDecoding-v2-baseline behaalt onze OScaR-implementatie een opmerkelijke versnelling tot 3,0x in decodering, vermindert de geheugenvoetafdruk met 5,3x en verhoogt de doorvoer met 4,1x. De code voor OScaR is openbaar beschikbaar op https://github.com/ZunhaiSu/OScaR-KV-Quant.
De fundamentele mogelijkheden die door Grote Taalmodellen (LLMs) zijn gevestigd, hebben de weg vrijgemaakt voor Multimodale Grote Taalmodellen (MLLMs), waarvan Grote Audiotalmodellen (LALMs) essentieel zijn voor het realiseren van universele auditieve intelligentie. Ondanks hun opmerkelijke prestaties heeft de escalatie van de capaciteiten van LALMs de ontwikkeling van systemische raamwerken om hun betrouwbaarheid te waarborgen aanzienlijk overtroffen. Dit overzichtsartikel biedt een uitgebreid onderzoek naar de endogene mechanismen van LALMs, waarbij gedetailleerd wordt ingegaan op de architectonische innovaties en afstemmingsalgoritmen die emergente redenering mogelijk maken. Specifiek analyseren we hoe de overgang naar uniforme end-to-end raamwerken en de integratie van continue akoestische signalen inherent het aanvalsoppervlak vergroten. Om de risico's binnen deze paradigma's rigoureus te evalueren, stellen we een uitgebreide taxonomie van betrouwbaarheid op, waarbij kritieke kwetsbaarheden worden gecategoriseerd zoals cross-modale jailbreaking, latente akoestische achterdeuren en biometrische privacy-lekken. We beoordelen de state-of-the-art aan de hand van zes analytische pijlers: hallucinatie, robuustheid, veiligheid, privacy, eerlijkheid en authenticatie. Het diepgaande onevenwicht tussen een volwassen offensief landschap en onderontwikkelde verdedigingen bevestigt verder de kritieke betrouwbaarheidskloven en multidimensionale risico's waarmee audio-gecentreerde intelligentie wordt geconfronteerd. Tot slot stellen we een strategische routekaart voor die pleit voor "Defense-in-Depth"-architecturen, causale auditieve wereldmodellering en intrinsieke representatie-engineering om de kloof tussen empirische prestaties en intrinsiek betrouwbare audio-intelligentie te overbruggen. Ons project is geüpload naar GitHub https://github.com/Kwwwww74/Awesome-Trustworthy-AudioLLMs.
Contextuele Integriteit (CI) definieert privacy niet louter als het verbergen van informatie, maar als het reguleren van informatiestromen volgens de normen van een bepaalde context. Naarmate grote taalmodellen steeds vaker worden ingezet als persoonlijke agenten die gevoelige werkstromen afhandelen, wordt het naleven van CI cruciaal. Zelfs de meest geavanceerde modellen blijven echter onbetrouwbaar bij het nemen van openbaarmakingsbeslissingen, en bestaande mitigatiestrategieën tasten vaak de onderliggende taakprestaties aan. Om deze privacy-nut afweging te overbruggen, stellen we SELFCI voor, een complementair zelf-distillatiekader dat informatieonderdrukking ontkoppelt van taakoplossing. SELFCI optimaliseert gezamenlijk twee onafhankelijke omgekeerde KL-divergenties over verschillende leraarverdelingen die zijn afgeleid van feedback: de ene stimuleert het behouden van taakrelevante informatie voor nut, terwijl de andere een minimale en passende openbaarmaking afdwingt. Deze complementaire formulering leidt tot een Product of Experts (PoE)-doelstelling, die het beleid afstemt op het snijvlak van bekwaamheids- en privacyvereisten. Empirische evaluaties tonen aan dat SELFCI, zonder afhankelijk te zijn van kostbare externe supervisie, consistent beter presteert dan competitieve basislijnen zoals online reinforcement learning-algoritmen (bijv. GRPO). Deze trends strekken zich verder uit tot domeinoverstijgende instellingen waarbij agentische werkstromen en geaccumuleerde privécontext betrokken zijn, wat suggereert dat SELFCI een praktische weg biedt naar CI-afstemming.
We tonen aan dat tijdreeks-fundamentmodellen schalen: één enkele trainingsreceptuur levert betrouwbare voorspellingskwaliteitsverbeteringen op van 4M tot 2,5B parameters. We brengen Toto 2.0 uit, een familie van vijf open-gewichten voorspellingsmodellen die onder dit recept zijn getraind. De Toto 2.0-familie vestigt een nieuwe state-of-the-art op drie voorspellingsbenchmarks: BOOM, onze observeerbaarheidsbenchmark; GIFT-Eval, de standaard algemene benchmark; en de recente verontreinigingsbestendige TIME-benchmark. Dit rapport beschrijft onze experimentele resultaten en detailleert de ontwerpbeslissingen achter Toto 2.0: de architectuur en trainingsreceptuur, trainingsdata, en de u-muP hyperparameteroverdrachtspijplijn. Alle vijf basiscontrolepunten worden uitgebracht onder Apache 2.0.
LLM-agenten zijn recentelijk naar voren gekomen als een krachtig paradigma voor het oplossen van complexe taken door middel van planning, toolgebruik, geheugenophaling en meerstapsinteractie. Deze agentische workflows introduceren echter vaak aanzienlijke overhead aan de invoerzijde, waardoor de rekenintensieve prefilling-fase een belangrijk knelpunt wordt bij inferentie over lange contexten en meerdere stappen. In dit werk stellen we Mix-Quant voor, een eenvoudig en effectief fasebewust kwantiseringsraamwerk voor snelle agentische inferentie. We onderzoeken eerst FP4-kwantificering in agentische LLM-workflows en zien dat het kwantiseren van het gehele inferentieproces tot aanzienlijke prestatievermindering kan leiden. Daarentegen vertoont de prefilling-fase aanzienlijke kwantiseringsredundantie en kan daarom met minimaal precisieverlies worden gekwantiseerd, ondanks dat het de dominante bron van rekenwerk is. Op basis van dit inzicht passen we de hoge-doorvoer NVFP4-kwantificering toe op de prefilling-fase, terwijl we BF16-precisie voor de decodering behouden. Door de versnelling van de prefilling te ontkoppelen van de kwaliteit van de decodering, combineert Mix-Quant fasebewuste algoritmische kwantificering met hardware-efficiënte NVFP4-uitvoering om het inferentieknelpunt in LLM-agenten te verlichten. Uitgebreide experimenten met benchmarks voor lange contexten en agentische taken tonen aan dat Mix-Quant grotendeels de taakprestaties behoudt en tegelijkertijd aanzienlijke efficiëntieverbeteringen levert, met een snelheidstoename tot 3x tijdens de prefilling.
Hoe moeten toekomstige neurale redeneersystemen uitgebreide berekening implementeren? Recursieve Redeneermodellen (RRM's) bieden een veelbelovend alternatief voor autoregressieve sequentie-extensie door het uitvoeren van iteratieve verfijning van latente toestanden met gedeelde overgangsfuncties. Toch zijn bestaande RRM's grotendeels deterministisch, waarbij ze een enkel latent traject volgen en convergeren naar een enkele voorspelling. We introduceren Generatieve Recursieve Redeneermodellen (GRAM), een raamwerk dat recursief latent redeneren omzet in probabilistische multi-trajectberekening. GRAM modelleert redeneren als een stochastisch latent traject, waardoor meerdere hypothesen, alternatieve oplossingsstrategieën en schaling tijdens inferentie mogelijk worden door zowel recursieve diepte als parallelle trajectbemonstering. Dit levert een latent-variabel generatief model op dat conditioneel redeneren ondersteunt via \(p_\theta(y \mid x)\) en, met vaste of afwezige invoer, onvoorwaardelijke generatie via \(p_\theta(x)\). Getraind met geamortiseerde variationele inferentie presteert GRAM beter dan deterministische recurrente en recursieve baselines op gestructureerde redeneer- en multi-oplossing beperkingsvervullingstaken, terwijl het een onvoorwaardelijke generatiecapaciteit demonstreert. https://ahn-ml.github.io/gram-website
Hoewel GUI-agenten aanzienlijke vooruitgang hebben geboekt bij webnavigatie en basistaken in besturingssystemen, blijven hun mogelijkheden in professionele creatieve workflows grotendeels onderbelicht. Om deze kloof te overbruggen introduceren we Cutverse, een benchmark die is ontworpen om autonome GUI-agenten systematisch te evalueren in realistische media-postproductieomgevingen. We hebben expertdemonstraties samengesteld uit 7 professionele toepassingen (bijv. Premiere Pro, Photoshop), die 186 complexe, langdurige taken bestrijken, gebaseerd op authentieke montageworkflows, met dichte multimodale interfaces en sterk gekoppelde interactiesequenties. Ter ondersteuning van schaalbare evaluatie ontwikkelen we een lichtgewicht parser die ruwe schermopnamen en interactielogs op laag niveau omzet in gestructureerde, compositorische GUI-actietrajecten met precieze verankering. Uitgebreide evaluaties tonen aan dat bestaande agenten slechts 36,0% taaksucces behalen bij realistische media-bewerkingstaken, wat de uitdagingen onderstreept die complexe, langdurige media-postproductieworkflows in onze benchmark met zich meebrengen. Hoewel huidige modellen veelbelovende ruimtelijke verankering, multimodale afstemming en gecoördineerde actie-uitvoering vertonen, blijven ze beperkt in langdurige betrouwbaarheid en domeinspecifieke planning.
Momenteel is het verbeteren van Unified Multimodale Modellen (UMM's) met beeldbegrip, -generatie en -bewerking voornamelijk gebaseerd op gemengde multitaaktraining. Vanwege inherente taakconflicten vereist een dergelijke strategie complexe meertrapspijplijnen, massale datamenging en balanceringstrucs, wat slechts resulteert in een prestatieafweging in plaats van echte wederzijdse versterking. Om dit paradigma te doorbreken, stellen wij Uni-Edit voor, een intelligente beeldbewerkingstaak die dient als de eerste algemene taak voor UMM-fijnafstemming. In tegenstelling tot complexe gemengde pijplijnen, verbetert Uni-Edit de prestaties op alle drie de vaardigheden tegelijk met slechts één taak, één trainingsfase en één dataset. Concreet identificeren wij beeldbewerking eerst als een inherent ideale algemene taak, omdat het van nature zowel visueel begrip als generatie vereist. Bestaande bewerkingsdata steunen echter op simplistische instructies die de begripscapaciteit van een model ernstig onderbenutten. Om dit aan te pakken, introduceren wij de eerste geautomatiseerde en schaalbare datasynthesespijplijn voor intelligente bewerking, waarbij diverse VQA-data worden omgezet in complexe en effectieve bewerkingsinstructies met ingebedde vragen en geneste logica. Dit levert Uni-Edit-148k op, dat diverse redeneerintensieve instructies koppelt aan hoogwaardig bewerkte afbeeldingen. Uitgebreide experimenten op BAGEL en Janus-Pro tonen aan dat fijnafstemming uitsluitend op Uni-Edit leidt tot uitgebreide verbeteringen in alle drie de vaardigheden, zonder enige ondersteunende handelingen.
Het evalueren van grote taalmodellen (LLMs) op natuurlijke-taal logisch redeneren is essentieel omdat regelgeleide taken vereisen dat conclusies strikt volgen uit gestelde premissen. Veel bestaande logische-redeneringsbenchmarks worden gegenereerd door het templaten van natuurlijke-taalitems uit bemonsterde formules, bieden alleen grove of niet-gecontroleerde formele annotaties, en worden nu snel verzadigd door geavanceerde redeneringsmodellen. We presenteren LLMEval-Logic, een Chinese logische-redeneringsbenchmark gebouwd op realistische situationele scenario's. De pipeline forward-authors en expert-audits natuurlijke-taalitems samen met hun referentieformalizeringen, verifieert geannoteerde antwoorden met Z3, construeert expertrubrieken voor natuurlijk-naar-formeel beoordelen, en verstevigt geselecteerde items via een gesloten-lus adversarial workflow. De benchmark wordt uitgebracht in twee gepaarde subsets: een 246-item Base subset geleverd met 1.400 door experts ontwikkelde rubriekatomen, en een 190-item Hard subset met 938 meerstaps subvragen over gesloten modelruimtes. Het evalueren van 14 geavanceerde LLMs op LLMEval-Logic onthult aanzienlijke hiaten in huidige modellen: het beste model bereikt slechts 37,5% Hard Item Accuracy, en zelfs met referentiesymbolen bereikt de hoogste gezamenlijke Z3+Rubric formalisatiescore onder geëvalueerde modellen slechts 60,16%. Onze benchmark is openbaar beschikbaar op https://github.com/llmeval/LLMEval-Logic.
Het huidige pretrainingparadigma voor grote taalmodellen is afhankelijk van enorme rekenkracht en internetschaal ruwe tekst, wat een aanzienlijke barrière vormt voor fundamenteel onderzoek. Biologische systemen daarentegen vertonen een zeer steekproefficiënt leren door verwerking op meerdere tijdschalen, zoals de functionele organisatie van de frontopariëtale lus. Dit als inspiratie nemend, introduceren we HRM-Text, dat standaard Transformers vervangt door een Hiërarchisch Recurrent Model (HRM) dat berekening ontkoppelt in traag evoluerende strategische lagen en snel evoluerende uitvoeringslagen. Om deze diepe recurrentie te stabiliseren voor taalmodellering introduceren we MagicNorm en een opwarmfase voor diepe credit assignment. Verder trainen we, in plaats van standaard pretraining op ruwe tekst, uitsluitend op instructie-responsparen met een taakvoltooiingsdoelstelling en PrefixLM-maskering. Als empirisch bewijs van bestaan van efficiënte pretraining behaalt een HRM-Text-model met 1 miljard parameters, getraind vanaf nul op slechts 40 miljard unieke tokens en een budget van $1.500, 60,7% op MMLU, 81,9% op ARC-C, 82,2% op DROP, 84,5% op GSM8K en 56,2% op MATH. Ondanks dat het ongeveer 100-900 keer minder trainings-tokens en naar schatting 96-432 keer minder rekenkracht gebruikt dan standaardbaselines, presteert HRM-Text concurrerend met open modellen van 2-7 miljard parameters. Deze resultaten tonen aan dat het co-ontwerpen van architecturen en doelstellingen de verhouding tussen rekenkracht en prestatie drastisch kan verkleinen, waardoor trainen vanaf nul toegankelijk wordt voor de bredere onderzoeksgemeenschap.
Workflows voor industriële assetoperaties zijn latentiegevoelig omdat een enkele gebruikersquery coördinatie kan vereisen over sensordata, werkorders, faalwijzen, voorspellingstools en domeinspecifieke agenten. We evalueren dit probleem op AssetOpsBench (AOB), een industriële agentbenchmark waarvan de plan-uitvoer-pijplijn herhaalde overhead blootlegt van tool discovery, LLM-planning, MCP-tooluitvoering en uiteindelijke samenvatting. Bestaande LLM-cachingtechnieken zoals KV-cache-hergebruik en op embeddings gebaseerde semantische caching zijn ontworpen voor chatbot-dienstverlening en falen wanneer de geldigheid van de uitvoer afhangt van tijd-, asset- of sensorparameters. We stellen twee complementaire optimalisatielagen voor AOB-plan-uitvoer-pijplijnen voor: een tijdelijke semantische cache en een reeks MCP-workflowoptimalisaties die schijfondersteunde tool-discovery caching en afhankelijkheidsbewuste parallelle stapuitvoering combineren. MCP-workflowoptimalisaties resulteerden in een 1,67x versnelling en verminderden de mediane end-to-end-latentie met ongeveer 40,0%, terwijl de tijdelijke cache-benchmark een mediane versnelling van 30,6x behaalde bij cache-hits. Naast de versnelling leggen onze resultaten een concrete falingsmodus bloot van pure semantische caching voor parameterrijke industriële queries, en bieden ze een kritische analyse van hoe cachingkeuzes interageren met de correctheid van evaluatie in MCP-ondersteunde agentbenchmarks.
Met de vooruitgang van AI-mogelijkheden worden AI-beoordelaars steeds vaker ingezet bij wetenschappelijke peer review, maar hun capaciteit en geloofwaardigheid blijven ter discussie staan: veel wetenschappers beschouwen ze eenvoudigweg als probabilistische systemen zonder de expertise om onderzoek te evalueren, terwijl andere onderzoekers optimistischer zijn over hun gereedheid zonder concreet bewijs. Inzicht in wat AI-beoordelaars goed doen, waar ze tekortschieten en welke uitdagingen er nog resteren, is essentieel. Bestaande evaluaties van AI-beoordelaars hebben zich echter gericht op de vraag of hun oordelen overeenkomen met menselijke oordelen (bijv. score-overeenstemming, acceptatievoorspelling), wat onvoldoende is om hun mogelijkheden en beperkingen te karakteriseren. In dit artikel vullen we deze leemte met een grootschalige expertannotatiestudie, waarin 45 domeinwetenschappers uit de natuur-, biologische en gezondheidswetenschappen 469 uur besteedden aan het beoordelen van 2.960 individuele kritiekpunten (elk gericht op een specifiek aspect van een artikel) van zowel door mensen geschreven als door AI gegenereerde reviews van 82 Nature-familie artikelen op correctheid, significantie en toereikendheid van bewijs. Op een samengestelde score over alle drie dimensies scoort een beoordelingsagent aangedreven door GPT-5.2 hoger dan de hoogst gewaardeerde menselijke beoordelaar per artikel (60,0% vs. 48,2%, p = 0,009), terwijl alle drie AI-beoordelaars (waaronder Gemini 3.0 Pro en Claude Opus 4.5) op elke dimensie de laagst gewaardeerde menselijke beoordelaar overtreffen. Nauwkeurige kritiek van AI-beoordelaars wordt ook vaker als significant en goed onderbouwd beoordeeld, en brengt een aparte 26% van de kwesties aan het licht die geen enkele menselijke beoordelaar aankaart. AI-beoordelaars vertonen echter veel meer overlap dan mensen (21% vs. 3% voor paren van beoordelaars), en vertonen 16 terugkerende zwaktes die mensen niet delen, zoals beperkte kennis van het subdomein, gebrek aan beheer van lange context over meerdere bestanden, en een overdreven kritische houding ten opzichte van kleine kwesties. Al met al positioneren onze resultaten de huidige AI-beoordelaars als aanvullingen op, en niet als vervanging van, menselijke beoordelaars.
Recente layout-naar-beeld modellen hebben opmerkelijke vooruitgang geboekt op het gebied van ruimtelijke beheersbaarheid. Desondanks hebben ze nog steeds moeite met occlusie tussen objecten. Wanneer begrenzingskaders overlappen, ontbreekt het bij de meeste bestaande methoden aan expliciete occlusie-informatie, wat de generatie in overlappingen inherent ambigu maakt en de bepaling van complexe occlusierelaties hindert. Hierdoor produceren ze vaak verwarde texturen of fysiek inconsistente lagen in de overlappende gebieden. Om dit probleem aan te pakken, construeren we eerst SA-Z, een grootschalige dataset verrijkt met expliciete occlusievolgorde en pixel-niveau annotaties. Voortbouwend op onze voorgestelde dataset introduceren we OcclusionFormer, een nieuw occlusiebewust diffusie-transformer raamwerk dat expliciet Z-volgorde prioriteit modelleert door instanties te ontkoppelen en ze samen te stellen via volumerendering. Bovendien introduceren we, om fijnmazige ruimtelijke precisie te waarborgen, een query-uitlijningsverlies dat individuele instanties expliciet superviseert en de semantische consistentie verbetert. De voorgestelde methode vermindert effectief de ambiguïteit in overlappende regio's, handhaaft correcte occlusieafhankelijkheden en behoudt structurele integriteit, wat leidt tot substantiële nauwkeurigheidswinsten in diverse scènes.
Stable Audio 3 is een familie van snelle latente diffusiemodellen (klein, middelgroot, groot) voor het genereren en bewerken van audio met variabele lengte. Aangezien onze modellen meerdere minuten audio kunnen genereren, is generatie met variabele lengte essentieel om de kosten van het produceren van volledige generaties voor korte geluiden te vermijden. We ondersteunen ook inpainting, wat gerichte audiobewerking en het voortzetten van korte opnames mogelijk maakt. Onze latente diffusiemodellen werken bovenop een nieuwe semantisch-akoestische autoencoder die audio projecteert naar een compacte latente ruimte, wat efficiënte diffusiegebaseerde generatie mogelijk maakt terwijl de audiogetrouwheid behouden blijft en semantische structuur in de latente ruimte wordt gestimuleerd. Tot slot passen we adversariële nabewerking toe om zowel de inferentie te versnellen als de generatiekwaliteit te verbeteren, waarbij het aantal inferentiestappen wordt verminderd terwijl de getrouwheid en prompt-naleving worden verbeterd. Stable Audio 3-modellen zijn getraind op gelicentieerde en Creative Commons-data om muziek en geluiden te genereren in minder dan 2 seconden op een H200 GPU en in minder dan enkele seconden op een MacBook Pro M4. We geven de gewichten vrij van de kleine en middelgrote modellen, die op consumentenhardware kunnen draaien, samen met hun trainings- en inferentiepijplijn.
Voor praktisch gebruik moeten diffusie- of stromingsgebaseerde generatieve modellen worden afgestemd op taakspecifieke beloningen, zoals promptgetrouwheid of esthetische voorkeur. Die afstemming is uitdagend omdat de beloning is gedefinieerd voor schone uitvoerbeelden, maar de afstemmingsprocedure vereist waardefunctieschattingen op ruizige tussentijdse latenten. Bestaande methoden gebruiken Tweedie-achtige of Monte Carlo-benaderingen, waarbij een afweging wordt gemaakt tussen schattingsbias en computationele kosten: Tweedie-schattingen zijn efficiënt maar vertekend, terwijl Monte Carlo-schattingen nauwkeuriger zijn maar dure rollouts vereisen. Een natuurlijk alternatief zou een geleerde waardefunctie zijn, maar het blijft een open vraag hoe effectief een sterk en algemeen waardemodel te trainen dat specifiek is voor ruizige latenten. Hier stellen we StitchVM voor, een modelstitching-framework dat beloningsmodellen die zijn voorgetraind voor schone beelden efficiënt overbrengt naar het ruizige latentenregime. StitchVM vertrekt van een bestaand, afgekapt pixelruimte-beloningsmodel en bevestigt er een bevroren diffusie-backbone aan als hoofd. Van het pixelruimtemodel behoudt de resulterende hybride een zorgvuldig voorgetraind, robuust beloningsvermogen; van de diffusie-backbone erft het zijn natuurlijke vermogen om met ruizige latenten om te gaan. De stitchprocedure is uitzonderlijk lichtgewicht; het stitchen en finetunen van CLIP ViT-L en SD 3.5 Medium duurt bijvoorbeeld slechts 10 GPU-uren. Door krachtige pixelruimte-beloningsmodellen over te brengen naar de latente ruimte, opent StitchVM een nieuwe stijl van diffusie-afstemming: in plaats van een ruwe, maar kostbare per-sample benadering van de waardefunctie, wordt de juiste functie voor de daadwerkelijke, ruizige latenten eenmalig geconstrueerd en vervolgens geamortiseerd over vele monsters en iteraties. We tonen aan dat deze aanpak verbeteringen oplevert over een breed scala aan downstream stuur- en natrainingsmethoden: DPS wordt 3,2 keer sneller terwijl het piek-GPU-geheugen halveert, en DiffusionNFT wordt 2,3 keer sneller.
De key-value (KV) cache domineert de geheugenbandbreedte en -voetafdruk bij autoregressieve inferentie met lange context. Recente rotatie-gepreconditioneerde codecs (TurboQuant, PolarQuant) tonen aan dat een gestructureerde willekeurige rotatie gevolgd door een scalaire kwantisator per coördinaat, afgestemd op een analytisch hanteerbare marginale verdeling, een bijna-optimaal recept is voor KV-compressie. OCTOPUS breidt dit paradigma uit met gezamenlijke kwantisatie van geroteerde coördinaat-tripleten. De richting van elk triplet wordt via een octaëdrische parameterisatie afgebeeld op een vierkant, en de twee resulterende coördinaten en de triplet-norm worden Lloyd-Max gekwantiseerd tegen implementatie-afgestemde marginale verdelingen. Optimalisatie van de kwadratische fout per triplet leidt tot een strikt niet-uniforme bitallocatie die alleen afhangt van de totale dimensionaliteit van de keys. We vinden dat het eindig-dimensionale kwaliteitsoptimum, verkregen via sweeps, constant is op elke echte decoder die we testen. De codec is data-onafhankelijk, online en deterministisch gegeven een seed. Over tekst, video en audio presteert OCTOPUS gelijk aan of beter dan elke eerdere rotatiecodec bij elke gerapporteerde bitsbreedte en metriek, met een voorsprong die groeit naarmate bits dalen voor extreme compressie. Bovendien reconstrueert een gefuseerde Triton-implementatie keys on the fly zonder de ongecomprimeerde key te materialiseren, waardoor de codec geen decodeer-bandbreedte of -latentie toevoegt bovenop de bestaande dekwantisatie. Projectpagina: https://octopus-quant.github.io/
Versterkingsleren van verifieerbare beloningen (RLVR) heeft te lijden onder schaarse uitkomstsignalen, wat leidt tot ernstige exploratieknelpunten bij complexe redeneertaken. Recente on-beleid zelf-distillatiemethoden proberen dit aan te pakken door gebruik te maken van taalfeedback om dichte, token-niveau supervisie te genereren. Deze benaderingen zijn echter afhankelijk van een vaste, passieve leraar om de feedback te interpreteren. Naarmate het studentenbeleid verbetert, bereiken de nulmeting-beoordelingscapaciteiten van de leraar een plateau, waardoor verder leren stopt. Om dit te overwinnen stellen we Variationele Beleidsdistillatie (VPD) voor, een raamwerk dat leren van taalfeedback formaliseert als een Variationeel Expectatie-Maximalisatie (EM)-probleem. VPD laat beide beleidsregels co-evolueren: in de E-stap wordt de leraar actief verfijnd op trajectuitkomsten via een adaptieve vertrouwensgebied-update, waarbij tekstuele feedback wordt vertaald naar een dynamisch verbeterde doel-tokenverdeling. In de M-stap internaliseert de student deze dichte distributionele begeleiding op zijn eigen on-beleid rollouts. Door continu het vermogen van de leraar te verbeteren om bruikbare signalen uit tekstuele kritiek te halen, overwint VPD de beperkingen van passieve distillatie. Geëvalueerd over diverse bronnen van diagnostische feedback bij wetenschappelijke redeneer- en codegeneratietaken, presteert VPD consequent beter dan zowel standaard RLVR als bestaande zelf-distillatiebaselines. Tot slot, door ons raamwerk te stress-testen op rigoureus wiskundig redeneren en koude-startregimes, belichten we de fundamentele grenzen van feedback-gestuurde zelf-distillatie in vergelijking met pure omgevingsgestuurde RL.
LLM-agenten organiseren gedrag via vaardigheden – gestructureerde, natuurlijk-taal specificaties die bepalen hoe een agent redeneert, informatie ophaalt en reageert. In tegenstelling tot monolithische prompts zijn vaardigheden artefacten met meerdere velden die onderworpen zijn aan harde platformbeperkingen: beschrijvingsvelden worden afgekapt voor routering, instructielichamen worden gecomprimeerd via progressieve onthulling, en naast elkaar bestaande vaardigheden concurreren om beperkte contextvensters. Deze beperkingen maken optimalisatie van vaardigheden inherent multi-objectief: een vaardigheid moet tegelijkertijd taakprestatie maximaliseren en voldoen aan platformlimieten. Toch negeren bestaande prompt-optimizers deze afwegingen of reduceren ze tot een gewogen som, waarbij Pareto-optimale varianten in niet-convexe objectiefgebieden worden gemist. Wij introduceren MOCHA (Multi-Objective Chebyshev Annealing), dat enkelvoudige-objectiefselectie vervangt door Chebyshev-scalarisatie – die het volledige Pareto-front bestrijkt, inclusief niet-convexe gebieden – gecombineerd met exponentiële annealing die overgaat van exploratie naar exploitatie. In onze experimenten met zes uiteenlopende agentvaardigheden – waarbij alle methoden dezelfde multi-objectieve mutatie-operator delen en baselines identieke, per-objectief tekstuele feedback krijgen – slagen bestaande optimizers er niet in om de initiële vaardigheid te verbeteren in 4 van de 6 taken: 1000 rollouts leveren nul vooruitgang op. MOCHA doorbreekt deze impasse bij elke taak, met een relatieve verbetering van 7,5% in gemiddelde correctheid ten opzichte van de sterkste baseline (tot 14,9% op FEVER en 10,4% op TheoremQA), terwijl het tweemaal zoveel Pareto-optimale vaardigheidsvarianten ontdekt.
Het genereren van een consistente VR-rondleiding door een volledig huis op basis van een plattegrond en een stijlreferentie vereist zowel fotorealistische panorama's als ruimtelijke samenhang over aanzichten heen. Zuivere 2D-generatoren produceren aantrekkelijke afzonderlijke panorama's, maar bedenken geometrie en materialen opnieuw wanneer het gezichtspunt verandert, terwijl monolithische 3D-generatie duur wordt en fijne textuur verliest op de schaal van meerdere kamers. Wij introduceren PanoWorld, een generatief ruimtelijk wereldmodel dat de synthese van een volledig huis behandelt als autoregressieve generatie van op knooppunten gebaseerde 360-graden panorama's, wat overeenkomt met de discrete navigatie die wordt gebruikt door echte VR-rondleidingsproducten. PanoWorld gebruikt een van de plattegrond afgeleide 3D-schil als globale geometrische proxy en een dynamische 3D Gaussian Splatting-cache als renderbaar ruimtelijk geheugen. Een feed-forward panoramisch LRM, ontworpen voor metrische schaal, meerkamer 360-graden invoer, brengt gegenereerde panorama's over naar lokale 3DGS-updates, terwijl kamerbewuste groepsaandacht interferentie van kenmerken tussen kamers onderdrukt. Een topologiebewuste progressieve cachingstrategie voegt deze lokale updates samen zonder de volledige geschiedenis herhaaldelijk te reconstrueren. Door de op schil gebaseerde geometriegeleiding te ontkoppelen van het cache-gerenderde visuele geheugen, behoudt PanoWorld hoogfrequente 2D-synthesekwaliteit terwijl de lay-out- en materiaalconsistentie over knooppunten heen wordt verbeterd. De projectlink is https://jjrcn.github.io/PanoWorld-project-home/
Reinforcement Learning met Verifieerbare Beloning (RLVR) is bewezen effectief in het verbeteren van het redeneervermogen van grote taalmodellen (Large Language Models, LLM’s). De leerdynamiek van RLVR blijft echter onderbelicht. In dit artikel onthullen we een contra-intuïtief fenomeen: bij moeilijke voorbeelden waar het model in eerste instantie moeite mee heeft, blijft een aanzienlijk deel onleerbaar, zelfs wanneer er correcte uitrolsessies aanwezig zijn. Om dit fenomeen te begrijpen, tonen we eerst aan dat bestaande optimalisatie- en samplingtechnieken er niet in slagen onleerbaarheid op te lossen. Via gradiëntanalyse over meerdere voorbeelden laten we zien dat onleerbare voorbeelden een fundamenteel representatieprobleem hebben, gekenmerkt door een lage gradiëntovereenkomst met de rest van de voorbeelden en ongeneraliseerbare redeneerpatronen. Verder tonen we aan dat representatiegebreken moeilijk te verhelpen zijn in RL, omdat data-augmentatie de gradiëntovereenkomst niet verbetert. Onze studie biedt de eerste systematische karakterisering van onleerbare data in RLVR-training en onthult fundamentele beperkingen van huidige RL-benaderingen voor redeneertaken. Code en data zijn beschikbaar op https://github.com/yulinchen99/unlearnability-rlvr.
Naarmate codeeragenten met lange tijdshorizonten meer code produceren dan een ontwikkelaar kan reviewen, verschuift het toezicht naar één enkel oppervlak: de geautomatiseerde testsuite. Beloningshacking ontstaat vanzelf in deze opzet, omdat de agent optimaliseert voor het doorstaan van tests terwijl hij afwijkt van het werkelijke doel van de gebruiker. Wij bestuderen dit beloningshackingfenomeen door software-engineeringtaken op te splitsen in drie delen: (i) een natuurlijke-taalbeschrijving van de specificatie, (ii) zichtbare validatietests die gespecificeerde functionaliteiten in isolatie uitoefenen, en (iii) achtergehouden tests die dezelfde functionaliteiten combineren om realistisch gebruik te simuleren. Op basis van de specificatie en de zichtbare validatietestsuites zou een oprechte agent in staat zijn een oplossing te genereren die ook alle achtergehouden tests doorstaat. Daarom gebruiken we het verschil in slagingspercentages op deze twee suites om beloningshacking te kwantificeren. Op basis van deze methodologie introduceren we SpecBench, een benchmark bestaande uit 30 systeemprogrammeertaken, variërend van korte tijdshorizontaken zoals het bouwen van een JSON-parser tot ultralange tijdshorizontaken zoals het helemaal opnieuw bouwen van een OS-kernel. Grootschalige experimenten tonen een consistent patroon: hoewel elke grensverleggende agent de zichtbare suite verzadigt, blijft beloningshacking bestaan, waarbij kleinere modellen grotere verschillen op achtergehouden suites vertonen. Het verschil neemt ook sterk toe met de taaklengte: het groeit met 28 procentpunten bij elke tienvoudige toename van de codeomvang. De mislukkingen variëren van subtiele functionaliteitsisolatie tot opzettelijke exploits, waaronder een 2.900-regelige hashtabel-"compiler" die testinvoer memoriseert. SpecBench biedt een principiële testomgeving om te meten of codeeragenten echte werkende systemen bouwen of slechts de testsuites manipuleren die ontwikkelaars hen aanreiken.
Praktische agents opereren over lange en evoluerende tijdsperioden, waarin informatie herhaaldelijk wordt bijgewerkt en kan interfereren over herinneringen heen, wat nauwkeurige terugroep en samengevoegde redenering over meerdere informatie-eenheden vereist. Echter, bestaande benchmarks richten zich op statische, onafhankelijke terugroep en slagen er niet in deze dynamische interacties tussen evoluerende herinneringen vast te leggen. In dit artikel bestuderen we hoe huidige geheugenversterkte agents presteren in realistische, interferentie-rijke, langetermijnomgevingen over diverse domeinen en vraagtypen. We introduceren MINTEval (Long-Horizon Memory under INTerference Evaluation), een benchmark met (1) lange, sterk onderling verbonden contexten met frequente informatie-updates die aanzienlijke interferentie veroorzaken, (2) diverse domeinen (toestandsregistratie, meerbeurtsdialoog, Wikipedia-revisies en GitHub-commits), wat evaluatie van domeingeneralisatie mogelijk maakt, en (3) diverse vraagtypen die robuustheid tegen interferentie beoordelen, waaronder (i) enkelvoudige doeltaken die het ophalen van een specifiek doel uit lange contexten vereisen, en (ii) meervoudige samenvoegingstaken die redeneren over meerdere relevante informatie-eenheden vereisen. In totaal bevat MINTEval 15,6k vraag-antwoordparen over langetermijncontexten met een gemiddelde van 138,8k tokens en tot 1,8M tokens per instantie. We evalueren 7 representatieve systemen, waaronder vanilla long-context LLM's, RAG en geheugenversterkte agentframeworks. Over alle systemen heen zien we consequent lage prestaties (gemiddeld 27,9% nauwkeurigheid), vooral bij vragen die samengevoegde redenering over meerdere bewijsstukken vereisen. Onze analyse toont aan dat de prestaties voornamelijk worden beperkt door terugvinden en geheugenconstructie. Bovendien worstelen huidige geheugensystemen met het herinneren en redeneren over eerdere feiten die zijn herzien of beïnvloed door latere context, waarbij de nauwkeurigheid afneemt naarmate het aantal tussenliggende updates toeneemt.
Direct Preference Optimization (DPO) is naar voren gekomen als een populair alternatief voor Reinforcement Learning from Human Feedback (RLHF), met theoretische equivalentie en een eenvoudigere implementatie. We bewijzen dat deze equivalentie voorwaardelijk is in plaats van universeel, afhankelijk van een impliciete aanname die in de praktijk vaak wordt geschonden: het RLHF-optimale beleid moet de door mensen geprefereerde reacties verkiezen. Wanneer deze aanname faalt, optimaliseert DPO een relatief voordeel ten opzichte van het referentiebeleid in plaats van absolute afstemming op menselijke voorkeuren, wat leidt tot pathologische convergentie waarbij beleidslijnen het DPO-verlies verlagen terwijl ze de voorkeur geven aan niet-geprefereerde reacties. We karakteriseren wanneer deze aanname wordt geschonden, tonen het bestaan van een ongewenste oplossingsruimte aan en bewijzen dat DPO en RLHF in dergelijke gevallen fundamenteel verschillende doelstellingen optimaliseren. Om dit aan te pakken introduceren we Constrained Preference Optimization (CPO), waarbij RLHF wordt uitgebreid met beperkingen voor aantoonbare afstemming. We bieden verder een geometrische interpretatie via soft margin ranking, waaruit blijkt dat DPO margin ranking implementeert met potentieel negatieve doelen. Onze theoretische analyse stelt vast wanneer de garanties van DPO gelden en biedt oplossingen die eenvoud behouden met aantoonbare afstemming. Uitgebreide experimenten op standaard benchmarks tonen aan dat CPO state-of-the-art prestaties levert. Code is beschikbaar op: https://github.com/visitworld123/CPO.
Wij presenteren Mem-π, een raamwerk voor adaptief geheugen in large language model (LLM) agenten, waarbij nuttige richtlijnen op aanvraag worden gegenereerd in plaats van opgehaald uit externe geheugenopslag. Bestaande geheugengebaseerde agenten zijn doorgaans afhankelijk van op gelijkenis gebaseerde ophaling uit episodische geheugenbanken of vaardigheidsbibliotheken, waarbij statische items worden geretourneerd die vaak niet aansluiten bij de huidige context. Daarentegen gebruikt Mem-π een speciaal taal- of visie-taalmodel met eigen parameters, gescheiden van de downstream-agent, om contextspecifieke richtlijnen te genereren voor complexe taken. Het model beslist, afhankelijk van de huidige agentcontext, gezamenlijk wanneer het richtlijnen moet produceren en welke richtlijnen het moet produceren. We trainen het met een beslissings-inhoud ontkoppelde reinforcement learning (RL)-doelstelling, waardoor het zich kan onthouden van generatie wanneer dit niet nuttig zou zijn, en anders beknopte, nuttige richtlijnen kan produceren. Op diverse agentische benchmarks, variërend van webnavigatie, terminalgebaseerd toolgebruik en tekstgebaseerde belichaamde interactie, presteert Mem-π consistent beter dan op ophaling gebaseerde en eerdere RL-geoptimaliseerde geheugenbaselines, met een relatieve verbetering van meer dan 30% op webnavigatietaken.
Recente feed-forward modellen hebben de geometriewaarneming voor het afleiden van dichte 3D-structuren uit sensorwaarnemingen aanzienlijk verbeterd. Echter, de essentiële mogelijkheden blijven gefragmenteerd over meerdere incompatibele paradigma's, waaronder online waarneming, offline reconstructie, multimodale integratie, schaalbaarheid over lange tijdshorizonten en metrische schaalberekening. We presenteren UniT, een uniform model gebouwd op een nieuwe Groeps Autoregressieve Transformer, die deze ogenschijnlijk uiteenlopende mogelijkheden herformuleert binnen één enkel raamwerk. Het kernidee is om groepen sensorwaarnemingen te behandelen als de basale autoregressieve eenheden en de overeenkomstige puntenkaarten te voorspellen op een anker-vrije en schaal-adaptieve manier. Meer specifiek worden diverse configuraties van aanzichten in zowel online als offline omgevingen op natuurlijke wijze verenigd binnen één enkel groepsautoregressieproces. Door de groepsgrootte te variëren, werkt de online modus over meerdere autoregressieve stappen met groepen van één enkel beeld, terwijl de offline modus een meervoudige beeldgroep aggregeert in één enkele voorwaartse passage. Tegelijkertijd zorgt een wachtrij-achtig KV-cachingmechanisme voor een begrensd autoregressief geheugen over lange tijdshorizonten. Dit wordt mogelijk gemaakt door het verminderen van langeafstandsafhankelijkheden van vroege beelden door middel van anker-vrije relationele modellering, waardoor verouderd geheugen ter plekke kan worden verwijderd. Om de generalisatie van metrische schaal over scènes te verbeteren, wordt binnen dit raamwerk een schaal-adaptief geometrieverlies geïntroduceerd. Het koppelt relatieve geometrische beperkingen aan een partiële absolute schaalterm, wat impliciet de globale schaal reguleert en een progressieve overgang induceert van schaal-invariante geometrie naar metrische schaaloplossingen. Samen met een speciale modale aandachtmodule voor het integreren van hulpmodaliteiten, behaalt UniT state-of-the-art prestaties in uniforme geometriewaarneming, zoals gevalideerd op tien benchmarks die zeven representatieve taken beslaan.
Naarmate autonome codeeragenten steeds beter in staat zijn om taken met een lange horizon uit te voeren, hebben ze geleidelijk het potentieel getoond om end-to-end softwareontwikkeling te voltooien. Hoewel bestaande benchmarks zich recentelijk hebben ontwikkeld van lokale codebewerking tot projectgeneratie vanaf nul, blijven ze beperkt tot structureel vereenvoudigde applicaties met een enkele stack. Hierdoor kunnen ze de heterogene omgevingen, full-stack orkestratie en systeemniveaucomplexiteit van echte bedrijfssoftware als dienst (SaaS)-systemen niet vatten, waardoor er een kritische lacune ontstaat in de beoordeling van agenten onder realistische technische randvoorwaarden. Om deze lacune te vullen, introduceren wij SaaSBench, de eerste benchmark die is ontworpen om de grenzen van AI-agenten in enterprise SaaS-engineering te verkennen. De benchmark omvat 30 complexe taken verdeeld over 6 SaaS-domeinen met 5.370 validatieknooppunten, en integreert 8 programmeertalen, 6 databases en 13 frameworks om de heterogeniteit van echte software nauwkeurig na te bootsen. Verder ontwerpen wij een afhankelijkheidsbewust hybride evaluatieparadigma dat is toegesneden op complexe systemen met lange horizonten en meercomponentenkoppeling, wat een fijnmazige, reproduceerbare beoordeling mogelijk maakt. Cruciaal is dat onze uitgebreide experimenten een opvallend inzicht onthullen: de voornaamste bottleneck voor state-of-the-art agenten is niet het genereren van geïsoleerde coderegel, maar het succesvol configureren en integreren van een systeem met meerdere componenten. Meer dan 95% van de taakmislukkingen vindt plaats voordat agenten zelfs maar aan de diepe bedrijfslogica toe zijn, waarbij modellen vaak ten prooi vallen aan overmoed en voortijdig stoppen tijdens de fundamentele systeemopbouw, of vastlopen in ineffectieve debugcycli. Wij hopen dat SaaSBench dient als een praktische en uitdagende testomgeving om de evolutie van betrouwbare codeeragenten op systeemniveau te stimuleren. De code is beschikbaar op https://github.com/ShadeCloak/SaaSbench.
Planning is een fundamentele vaardigheid voor grote taalmodellen (LLM's), omdat dergelijke complexe taken vereisen dat modellen doelen, beperkingen, middelen en langetermijngevolgen coördineren tot uitvoerbare en verifieerbare oplossingen. Bestaande planningsbenchmarks behandelen planningsgegevens echter meestal als vaste verzamelingen van instanties in plaats van als beheersbare generatiedoelen. Dit beperkt de dekkingsgraad van scenario's, koppelt moeilijkheidsgraad aan oppervlakkige proxies in plaats van aan structurele bronnen, en biedt beperkte ondersteuning voor schaalbare generatie, automatische verificatie of planningsgerichte training. We introduceren PlanningBench, een raamwerk voor het genereren van schaalbare, diverse en verifieerbare planningsgegevens voor zowel evaluatie als training. PlanningBench vertrekt van echte planningsscenario's en abstraheert praktische workflows tot een gestructureerde taxonomie van meer dan 30 taaktypes, subtaken, beperkingsfamilies en moeilijkheidsfactoren. Geleid door deze taxonomie instantieert een constraint-gestuurde synthesepijplijn zelfstandige planningsproblemen met adaptieve moeilijkheidsregeling, kwaliteitsfiltering en instantie-niveau verificatiechecklists. Dit verschuift de constructie van planningsgegevens van vaste benchmarkverzameling naar beheersbare generatie, terwijl realistische taakverankering behouden blijft. We gebruiken PlanningBench om open-source en closed-source geavanceerde LLM's te evalueren, en stellen vast dat huidige modellen nog steeds moeite hebben om volledige oplossingen te produceren onder gekoppelde beperkingen. Naast evaluatie verbetert reinforcement learning op geverifieerde PlanningBench-gegevens de prestaties op ongeziene planningsbenchmarks en bredere instructievolgende taken. Verdere analyse suggereert dat deterministische of goed gespecificeerde optimale oplossingen duidelijkere beloningssignalen en stabielere trainingsdynamiek bieden. Al met al biedt PlanningBench een beheersbare bron van planningsgegevens voor het diagnosticeren en verbeteren van generaliseerbare planningsvaardigheden in LLM's.
Veiligheids-natraining kan de schadelijkheid en beleidsnaleving van Grote Taalmodellen (GTM's) verbeteren, maar het kan ook de algemene bruikbaarheid verminderen, een fenomeen dat vaak wordt omschreven als de afstemmingsbelasting. We bestuderen deze afweging door de lens van continu leren: opeenvolgende afstemmingsfasen stellen het model bloot aan verschoven gegevensdistributies en doelstellingen, en hun gradiënten kunnen interfereren met richtingen die eerder verworven algemene capaciteiten ondersteunen. Deze opvatting beweert niet dat alle afstemmingsdegradatie één enkele oorzaak heeft; het biedt veeleer een nuttig eerste-orde mechanisme voor het beperken van een belangrijke bron van capaciteitsregressie. We stellen Orthogonale Gradiëntprojectie voor Veiligheidsafstemming (OGPSA) voor, een lichtgewicht updateregel die een laagrankige referentie-subruimte schat uit gradiënten op een kleine set gegevens van algemene capaciteiten en uit elke veiligheidsgradiënt de component verwijdert die in deze subruimte ligt. De resulterende update is de steilste lokale veiligheidsafdalingsrichting, onderhevig aan eerste-orde behoudsbeperkingen op de referentiedoelstellingen. OGPSA is compatibel met standaard natrainingspijplijnen en vermijdt grootschalige herhaling, hoewel het periodieke referentiegradiëntberekening introduceert. In zowel Gesuperviseerd Fijnafstemmen (SFT), Directe Preferentieoptimalisatie (DPO) als opeenvolgende SFT→DPO-instellingen verbetert OGPSA de waargenomen veiligheid–bruikbaarheidsafweging ten opzichte van standaardbaselines. Onder de opeenvolgende SFT→DPO-pijplijn stijgt de gemiddelde prestatieverbetering van 33,98% naar 42,74% op Qwen2.5-7B-Instruct en van 19,74% naar 32,98% op Llama3.1-8B-Instruct. We hebben onze code open-source beschikbaar gesteld op https://github.com/SunGL001/OGPSA.
Moderne training van taalmodellen wordt steeds vaker blootgesteld aan instabiliteit, gedegradeerde runs en verspilde rekenkracht, vooral onder agressieve leercurven, schaal- en runtime-stresscondities. Dit artikel introduceert Learn-by-Wire Guard (LBW-Guard), een begrensde, autonome besturingslaag voor trainingsbeheer die bovenop AdamW werkt. In plaats van de optimizer-updateregel te vervangen, observeert LBW-Guard trainingstelemetrie, interpreteert het instabiliteitsgevoelige regimes en past het begrensde controle toe op de uitvoering van de optimizer, terwijl vaste trainingsdoelstellingen behouden blijven. We evalueren LBW-Guard in een op Qwen2.5 gerichte stress- en robuustheidssuite met WikiText-103, met Qwen2.5-7B als empirisch anker, modelgroottevergelijkingen met Qwen2.5-3B en Qwen2.5-14B, leersnelheid-stresstests, gradient-clipping-baselines en een no-LoRA TinyLlama-1B full-parameter sanity check. In de 7B-referentie-instelling vermindert LBW-Guard de uiteindelijke perplexiteit van 13,21 naar 10,74, een verbetering van 18,7%, terwijl de end-to-end-tijd wordt verminderd van 392,54 s naar 357,02 s, een versnelling van 1,10x. Onder sterkere leersnelheid-stress degradeert AdamW naar een uiteindelijke perplexiteit van 1885,24 bij LR=3e-3 en 659,76 bij LR=1e-3, terwijl LBW-Guard trainbaar blijft met respectievelijk 11,57 en 10,33. Gradient-clipping-baselines reproduceren dit effect niet. Deze resultaten ondersteunen een afgebakende systeemconclusie dat stabiliteitsgevoelige LLM-training kan profiteren van een besturingslaag boven de optimizer. LBW-Guard levert bewijs dat begrensde runtime-controle productieve rekenkracht kan behouden onder stress, terwijl het zich onderscheidt van vervanging van de optimizer en lokale gradientonderdrukking.
Subwoordtokenisatie is een essentieel onderdeel van moderne grote taalmodellen (LLM's), maar de specifieke bijdragen ervan aan trainingsefficiëntie en modelprestaties blijven slecht begrepen. In dit werk ontkoppelen we de effecten van subwoordtokenisatie door ze te isoleren binnen een gecontroleerde voortrainingspijplijn op byteniveau. We formuleren en testen hypothesen over verschillende dimensies, waaronder monsterdoorvoer, schaling van de woordenschat en de linguïstische prior van subwoordgrenzen. Door deze effecten te simuleren in een setting op byteniveau, verfijnen we ons begrip van waarom subwoordmodellen beter presteren dan ruwe bytemodellen en bieden we inzichten om de voortraining van toekomstige modellen op byteniveau en subwoordmodellen te verbeteren. In het bijzonder benadrukken onze experimenten de cruciale rol van een verhoogde trainingdoorvoer en de integratie van subwoordgrenzen als expliciete prior of inductieve bias.
Diffusie-grote-taalmodelen (dLLMs) zijn naar voren gekomen als een concurrerend alternatief voor autoregressieve (AR) modellen, die betere hardwarebenutting en bidirectionele context bieden door parallelle blokniveau-decodering. Echter, terwijl dLLMs blijven opschalen met mixture-of-experts (MoE)-architecturen, blijft hun inzet op apparaten met beperkte middelen een open uitdaging. Bestaande AR-gebaseerde methoden leiden vaak tot ofwel prohibitieve I/O-overhead of significante rekenknelpunten. In dit werk stellen we TIDE voor, een nieuw resource-efficiënt inferentiesysteem dat gebruikmaakt van de temporele stabiliteit van expertactivaties tijdens het diffusieproces binnen het blok. Specifiek maken we gebruik van de temporele stabiliteit van expertactivaties tijdens het diffusieproces binnen het blok en introduceren we een intervalgebaseerde expertverversingsstrategie die de expertplaatsing op een I/O-bewuste manier bijwerkt. Om optimale prestaties te garanderen, formuleren we de inferentiescheduling als een wiskundig programmeringsprobleem, waarbij we het optimale interval oplossen dat het I/O-verkeer en CPU-berekening minimaliseert. Het belangrijkste is dat TIDE een verliesvrije optimalisatie is die geen modeltraining vereist en een 'gratis lunch'-versnelling biedt voor dLLM-inferentie. In een enkel GPU-CPU-systeem tonen we aan dat TIDE tot 1,4 keer en 1,5 keer doorvoerverbeteringen behaalt ten opzichte van eerdere basislijnen op respectievelijk de LLaDA2.0-mini en LLaDA2.0-flash modellen.
Video Virtual Try-On (VVT) streeft ernaar om een kledingstuk op een persoon in een video naadloos te vervangen door een nieuw exemplaar. Hoewel bestaande methoden aanzienlijke vooruitgang hebben geboekt in het handhaven van temporele consistentie, blijven ze voornamelijk beperkt tot niet-interactieve scenario's waarin modellen alleen kledingstukken tonen. Deze beperking ziet een cruciaal aspect van realistische kledingpresentatie over het hoofd: actieve mens-kledinginteractie. Om deze kloof te overbruggen introduceren en formaliseren we een nieuwe uitdagende taak: Interactive Video Virtual Try-On (Interactive VVT), waarbij proefpersonen in de video actief met hun kleding omgaan. Deze taak introduceert unieke uitdagingen die verder gaan dan eenvoudig textuurbehoud, waaronder: (1) het oplossen van de semantische ambiguïteit van interacties op basis van standaard pose-informatie, en (2) het leren van complexe kledingvervormingen uit video waarin interactieve momenten schaars en kort zijn. Om deze uitdagingen aan te pakken stellen we iTryOn voor, een nieuw raamwerk gebouwd op een grootschalige video-diffusie-Transformer. iTryOn introduceert een multi-level interactie-injectiemechanisme om de generatie van complexe dynamiek te sturen. Op ruimtelijk niveau introduceren we een kleding-agnostische 3D-hand-prior om fijnmazige begeleiding te bieden voor nauwkeurig hand-kledingcontact, waarmee ruimtelijke ambiguïteit effectief wordt opgelost. Op semantisch niveau maakt iTryOn gebruik van globale bijschriften voor algehele context en tijdgestempelde actiebijschriften voor gelokaliseerde interacties, gesynchroniseerd via onze nieuwe Action-aware Rotational Position Embedding (A-RoPE). Uitgebreide experimenten tonen aan dat iTryOn niet alleen state-of-the-art prestaties levert op traditionele VVT-benchmarks, maar ook een dominante voorsprong neemt in de nieuwe interactieve setting, wat een belangrijke stap markeert naar meer dynamische en controleerbare virtuele paskamerervaringen.
Grote Visuele Taalmodellen (GVTMs) tonen veelbelovend in medische toepassingen, maar hun onvermogen om antwoorden getrouw te gronden in visueel bewijs roept ernstige zorgen op over klinische betrouwbaarheid. Hoewel visuele attributiemethoden veel worden gebruikt om GVT-voorspellingen te verklaren, is het grotendeels ongetoetst of deze verklaringen daadwerkelijk het visuele bewijs weerspiegelen dat ten grondslag ligt aan de beslissing van het model, aangezien grondwaarheidsannotaties voor interne modelredenering doorgaans niet beschikbaar zijn. Wij pakken deze vraag aan voor thoraxfoto (CXR)-redenering door een causaal evaluatiekader te ontwikkelen dat alleen die CXR-VQA-steekproeven behoudt waarvoor het door de expert geannoteerde gebied, via contrafeitelijke bewerking, is geverifieerd causaal verantwoordelijk te zijn voor de voorspelling van het model. Met behulp van dit kader over 11 attributiemethoden, zes open-source GVTMs, en twee uitvoermodi (direct antwoord en stapsgewijze redenering) constateren wij dat bestaande attributiemethoden vaak het door de GVTMs gebruikte bewijs niet identificeren. Om dit falen aan te pakken stellen wij MedFocus voor, een conceptgebaseerde attributiemethode die via onevenwichtig optimaal transport klinisch betekenisvolle anatomische gebieden lokaliseert en hun causale effect op modeluitvoeren meet door middel van gerichte interventies. MedFocus produceert ruimtelijke, conceptniveau- en token-niveau-attributies en presteert aanzienlijk beter dan eerdere methoden, waarmee een stap wordt gezet naar betrouwbaardere attributie voor medische GVTMs. Onze gegevens en code zijn beschikbaar op https://github.com/gzxiong/medfocus/.
Tekst-naar-bewegingsgeneratie, die tekstuele beschrijvingen vertaalt naar menselijke bewegingen, staat voor de uitdaging dat gebruikers vaak moeite hebben om hun bedoelde bewegingen alleen via tekst nauwkeurig over te brengen. Om dit probleem aan te pakken, introduceert dit artikel DrawMotion, een efficiënt diffusiegebaseerd raamwerk dat is ontworpen voor multi-conditiescenario's. DrawMotion genereert bewegingen op basis van zowel een conventionele tekstconditie als een nieuwe handtekenconditie, die respectievelijk semantische en ruimtelijke controle over de gegenereerde bewegingen bieden. Specifiek pakken we de gedetailleerde bewegingsgeneratietaak aan vanuit drie perspectieven: 1) vrijhandtekenconditie. Om de door gebruikers bedoelde bewegingen nauwkeurig vast te leggen zonder omslachtige tekstuele invoer, ontwikkelen we een algoritme om automatisch met de hand getekende stokfiguurschetsen te genereren in verschillende datasetformaten; 2) multi-conditiefusie. We stellen een Multi-Conditiemodule (MCM) voor die wordt geïntegreerd in het diffusieproces, waardoor het model alle mogelijke combinaties van condities kan benutten terwijl de rekencomplexiteit wordt verminderd vergeleken met conventionele benaderingen; en 3) trainingsvrije sturing. Opmerkelijk is dat de MCM in DrawMotion ervoor zorgt dat de tussenliggende kenmerken in een continue ruimte liggen, waardoor classificator-sturingsgradiënten de kenmerken kunnen updaten en zo de gegenereerde bewegingen afstemmen op gebruikersintenties terwijl de betrouwbaarheid behouden blijft. Kwantitatieve experimenten en gebruikersstudies tonen aan dat de vrijhandtekenbenadering de gebruikstijd met ongeveer 46,7% vermindert bij het genereren van bewegingen die aansluiten bij hun verbeelding. De code, demo's en relevante gegevens zijn openbaar beschikbaar op https://github.com/InvertedForest/DrawMotion.
Queryclustering groepeert queries in groepen die gedeelde latente capaciteitsvereisten weerspiegelen, waardoor een capaciteitsbewuste evaluatie van LLM's mogelijk wordt. Bestaande clustermethoden, die voornamelijk steunen op semantische taxonomieën of embeddings, slagen er vaak niet in dergelijke latente capaciteitsvereisten te vatten vanwege een discrepantie tussen oppervlakkige semantiek en daadwerkelijke modelprestaties. Wij stellen ECC voor, een algoritme dat eerdere semantische embeddings kalibreert met behulp van beperkte posterieure modelvergelijkingen om de kloof tussen oppervlakkige semantiek en latente capaciteitsvereisten te overbruggen. ECC kenmerkt elk cluster door middel van een capaciteitsprofiel dat geparameteriseerd wordt door een Bradley-Terry-model en gebruikt trainbare menggewichten om queries met gemengde capaciteitsvereisten te accommoderen, waarbij gezamenlijk een flexibele, capaciteitsbewuste clusterstructuur wordt geleerd die query-specifieke inferentie van LLM-capaciteiten ondersteunt. Uitgebreide kwantitatieve en kwalitatieve evaluaties tonen aan dat ECC de kwaliteit van LLM-capaciteitsrangschikking aanzienlijk verbetert, met een gemiddelde verbetering van respectievelijk 17,64 en 18,02 procentpunten ten opzichte van door mensen gelabelde en op embeddings gebaseerde baselines, en effectief blijkt in downstream-taken zoals queryroutering.
Ensemble-verschillen worden veelvuldig gebruikt als proxy voor epistemische onzekerheid bij medische beeldsegmentatie. In de praktijk vormen veel studies ensembles via K-voudige kruisvalidatie (CV), maar verwijzen ernaar als 'diepe ensembles' (DE). Omdat CV-leden worden getraind op verschillende datasubsets, mengt hun onderlinge variabiliteit seed-geïnduceerde variabiliteit met effecten van data-exposure, wat de interpretatie van onzekerheid kan veranderen. We onderzoeken recente onzekerheidsstudies in segmentatie en constateren dat terminologie-implementatie-mismatches veelvoorkomend zijn. Vervolgens vergelijken we een standaard 5-voudig CV-ensemble met een 5-ledig DE (vaste trainingsset, verschillende random seeds) onder verder identieke configuraties op drie multi-rate segmentatiedatasets uit drie modaliteiten. We evalueren onzekerheid voor calibratie, foutdetectie, ambiguïteitsmodellering en robuustheid onder distributieverschuiving. DE behaalt vergelijkbare segmentatienauwkeurigheid terwijl calibratie en foutdetectie verbeteren, terwijl CV-ensembles op de bestudeerde datasets soms sterker correleren met inter-beoordelaarsvariabiliteit. De constructie van ensembles moet daarom worden gekozen op basis van de onderzoeksvraag: DE voor betrouwbaarheidsgerichte toepassingen (bijv. selectieve verwijzing/foutdetectie) en CV-ensembles als proxy voor ambiguïteit. We bieden een lichte nnU-Net-aanpassing waarmee DE-training binnen de standaardpijplijn mogelijk wordt.
In de afgelopen jaren is Muon uitgegroeid tot de dominante methode voor het trainen van grote taalmodellen, en in bredere zin van transformatoren. Het essentiële verschil, vergeleken met standaard gradiëntafdalingsmethoden, is het vervangen van de gebruikelijke updatematrix M=UΣV^top door zijn polaire factor UV^top. In dit werk beschouwen we een klasse van Muon-achtige updates, waarbij we de update M vervangen door UΣ^p V^top voor een parameter p. Dit noemen we een "spectraalvormende" bewerking, en we ontwikkelen een theorie over hoe p te kiezen, die afhangt van (a) de lokale kromming van de verliesfunctie, (b) ruis afkomstig van stochastische gradiënten en labelruis, en (c) de trainingsfase. Onze theorie en experimenten onthullen een voorheen over het hoofd gezien gedrag: positieve p helpt in het begin door richtingen met hoge kromming te benadrukken en signaalcontractie te versnellen, terwijl licht negatieve p later helpt door updatesterkte te herverdelen naar richtingen met lage kromming die nog steeds nuttige trainingssignalen bevatten. Voortbouwend op dit inzicht stellen we DynMuon voor, een efficiënte dynamische spectrale vormingsmethode die p van positief naar licht negatief in de loop van de training inplant. Uitgebreide experimenten met verschillende modelgroottes, architecturen en trainingsinstellingen laten zien dat DynMuon consequent een lager validatieverlies bereikt dan Muon, terwijl het 10,6–26,5% minder stappen nodig heeft om hetzelfde doelverlies te bereiken.