Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Moderne retrievalsystemen, zowel lexicaal als semantisch, ontsluiten een corpus via een vaste similariteitsinterface die toegang comprimeert tot een enkele top-k retrievalstap vóór redenering. Deze abstractie is efficiënt, maar voor agent-gebaseerd zoeken wordt het een knelpunt: exacte lexicale beperkingen, samenvoegingen van schaarse aanwijzingen, lokale contextcontroles en meerstaps hypothese-verfijning zijn moeilijk te implementeren door een conventionele kant-en-klare retriever aan te roepen, en bewijsmateriaal dat vroeg wordt weggefilterd kan niet worden hersteld door sterkere downstream-redenering. Agent-taken verergeren deze beperking verder omdat ze vereisen dat agenten meerdere stappen coördineren, waaronder het ontdekken van tussenliggende entiteiten, het combineren van zwakke aanwijzingen en het herzien van het plan na het observeren van gedeeltelijk bewijs. Om deze beperking aan te pakken, bestuderen we directe corpusinteractie (DCI), waarbij een agent het ruwe corpus direct doorzoekt met algemene terminaltools (bijv. grep, bestandslezingen, shell-commando's, lichtgewicht scripts), zonder enig embeddingmodel, vectorindex of retrieval-API. Deze aanpak vereist geen offline indexering en past zich natuurlijk aan aan evoluerende lokale corpora. Op IR-benchmarks en end-to-end agent-zoektaken presteert deze eenvoudige opzet aanzienlijk beter dan sterke sparse, dense en reranking-baselines op verschillende BRIGHT- en BEIR-datasets, en behaalt het een hoge nauwkeurigheid op BrowseComp-Plus en multi-hop QA zonder te vertrouwen op een conventionele semantische retriever. Onze resultaten geven aan dat naarmote taalagenten sterker worden, de retrievalkwaliteit niet alleen afhangt van het redeneervermogen, maar ook van de resolutie van de interface waarmee het model met het corpus interageert. DCI opent hiermee een breder interface-ontwerpruimte voor agent-gebaseerd zoeken.
Grootschalige taalmodel(len) hebben opmerkelijke successen geboekt binnen het autoregressieve paradigma, maar hoogwaardige tekstgeneratie hoeft niet gebonden te zijn aan een vaste links-naar-rechts volgorde. Bestaande alternatieven hebben nog steeds moeite om generatie-efficiëntie, schaalbare representatieleren en effectieve globale semantische modellering gezamenlijk te realiseren. Wij stellen Cola DLM voor, een hiërarchisch latent diffusie-taalmodel dat tekstgeneratie benadert via hiërarchische informatie-decompositie. Cola DLM leert eerst een stabiele tekst-naar-latent mapping met een Text VAE, modelleert vervolgens een globale semantische prior in een continue latente ruimte met een block-causale DiT, en genereert ten slotte tekst via conditionele decodering. Vanuit een verenigd Markov-padperspectief voert het diffusieproces latent prior transport uit in plaats van token-level observatieherstel, waardoor globale semantische organisatie wordt gescheiden van lokale tekstuele realisatie. Dit ontwerp resulteert in een flexibelere niet-autoregressieve inductieve bias, ondersteunt semantische compressie en prior-fitting in continue ruimte, en breidt zich natuurlijk uit naar andere continue modaliteiten. Door experimenten over 4 onderzoeksvragen, 8 benchmarks, strikt gematchte ~2B-parameter autoregressieve en LLaDA-baselines, en schaalcurves tot ongeveer 2000 EFLOPs, identificeren we een effectieve algemene configuratie van Cola DLM en verifiëren we het sterke schaalgedrag voor tekstgeneratie. Samengenomen vestigen de resultaten hiërarchische continue latente prior-modellering als een principieel alternatief voor strikt token-level taalmodellering, waarbij generatiekwaliteit en schaalgedrag modelcapaciteit mogelijk beter reflecteren dan likelihood, terwijl ze ook een concreet pad suggereren naar verenigde modellering van discrete tekst en continue modaliteiten.
Een persistente vaardigheidsbibliotheek stelt taalmodelagenten in staat om succesvolle strategieën te hergebruiken bij verschillende taken. Het onderhouden van zo'n bibliotheek vereist drie gekoppelde capaciteiten. De agent selecteert een relevante vaardigheid, past deze toe tijdens de uitvoering en destilleert nieuwe vaardigheden uit ervaring. Bestaande methoden optimaliseren deze capaciteiten afzonderlijk of met gescheiden beloningsbronnen, wat leidt tot gedeeltelijke en tegenstrijdige evolutie. Wij stellen Skill1 voor, een raamwerk dat een enkel beleid traint om vaardigheidsselectie, -toepassing en -distillatie gezamenlijk te laten co-evolueren naar een gedeeld taakresultaatdoel. Het beleid genereert een zoekopdracht om de bibliotheek te doorzoeken, herrangschikt kandidaten om er een te selecteren, lost de taak op onder voorwaarde van deze keuze en distilleert een nieuwe vaardigheid uit de trajectgeschiedenis. Alle leerprocessen ontlenen hun input aan een enkel taakresultaatsignaal. De laagfrequente trend ervan crediteert selectie en de hoogfrequente variatie crediteert distillatie. Experimenten op ALFWorld en WebShop tonen aan dat Skill1 eerdere op vaardigheden gebaseerde en reinforcement learning-baselines overtreft. Trainingsdynamieken bevestigen de co-evolutie van de drie capaciteiten, en ablatiestudies tonen aan dat het verwijderen van elk creditsignaal de evolutie verslechtert.
Een groeiend aantal onderzoeken in de cognitieve wetenschap suggereert dat rapporteerbaar bewust toegankelijke informatie gepaard gaat met een globale 'ignitie' over gedistribueerde geheugensystemen, terwijl deze activering slechts gedeeltelijk toegankelijk is omdat individuen niet direct alle geactiveerde inhoud kunnen benaderen of enumereren. Deze spanning wijst op een plausibel mechanisme waarbij cognitie mogelijk steunt op een compacte representatie die de globale invloed van de activering op downstream-verwerking benadert. Geïnspireerd door dit idee introduceren we het concept van de Mindscape Activation Signature (MiA-Signature), een gecomprimeerde representatie van het globale activeringspatroon dat door een query wordt opgewekt. In LLM-systemen wordt dit geïnstantieerd via submodulaire selectie van hoogwaardige concepten die de geactiveerde contextruimte bestrijken, optioneel verfijnd door lichtgewicht iteratieve updates met werkgeheugen. De resulterende MiA-Signature dient als een conditioneringssignaal dat het effect van de volledige activeringstoestand benadert, terwijl het computationeel hanteerbaar blijft. Integratie van MiA-Signatures in zowel RAG- als agent-systemen levert consistente prestatieverbeteringen op voor meerdere taken voor begrip van lange contexten.
Wij presenteren ons winnende systeem voor Taak B (generatie met referentieteksten) in SemEval-2026 Taak 8: MTRAGEval. Onze methode is een heterogeen ensemble van zeven grote taalmodel(len) (LLM's) met twee promptvarianten, waarbij een GPT-4o-mini beoordelaar de beste kandidaat per instantie selecteert. Wij eindigden als eerste van de 26 teams, met een voorwaardelijk harmonisch gemiddelde van 0,7827, en overtroffen daarmee de sterkste baseline (gpt-oss-120b, 0,6390). Ablatiestudies tonen aan dat diversiteit in modelfamilies, schaal en promptstrategieën essentieel is, waarbij het ensemble consistent beter presteert dan elk individueel model. Wij introduceren ook Meno-Lite-0.1, een 7B-model dat is aangepast aan het domein en een sterke kost-prestatieverhouding biedt, en analyseren MTRAGEval, waarbij we annotatielimieten en verbeterrichtingen belichten. Onze code is openbaar beschikbaar: https://github.com/RaguTeam/ragu_mtrag_semeval
Wereldactiemodellen (WAMs) zijn recent naar voren gekomen als een veelbelovend paradigma voor robotmanipulatie door gezamenlijk toekomstige visuele waarnemingen en toekomstige acties te voorspellen. Huidige WAMs voeren echter typisch een vast aantal voorspelde acties uit na elke modelinferentie, waardoor de robot geen inzicht heeft in of de voorgestelde toekomst consistent blijft met de daadwerkelijke fysieke uitrol. In dit werk formuleren we adaptieve WAM-uitvoering als een toekomst-realiteit-verificatieprobleem: de robot zou langer moeten uitvoeren wanneer de door de WAM voorspelde toekomst betrouwbaar blijft, en eerder opnieuw moeten plannen wanneer de realiteit afwijkt van de verbeelding. Hiertoe stellen we Future Forward Dynamics Causal Attention (FFDC) voor, een lichtgewicht verifier die gezamenlijk redeneert over voorspelde toekomstige acties, voorspelde visuele dynamiek, werkelijke waarnemingen en taal instructies om in te schatten of de resterende actie-uitrol nog steeds vertrouwd kan worden. FFDC maakt adaptieve actiebroedtes mogelijk als een emergent gevolg van voorspellings-waarnemingsconsistentie, waardoor de efficiëntie van lange-termijn uitvoering behouden blijft terwijl de responsiviteit wordt hersteld in contactrijke of moeilijke fasen. We introduceren verder Mixture-of-Horizon Training om de dekking van lange-termijn trajecten voor adaptieve uitvoering te verbeteren. Experimenten op de RoboTwin-benchmark en in de echte wereld tonen aan dat onze methode een sterke robuustheid-efficiëntie afweging bereikt: op RoboTwin vermindert het WAM forward passes met 69.10% en uitvoeringstijd met 34.02%, terwijl het slagingspercentage met 2.54% verbetert ten opzichte van de short-chunk baseline; in experimenten in de echte wereld verbetert het het slagingspercentage met 35%.
Reinforcement learning fine-tuning is de dominante aanpak geworden voor het afstemmen van diffusiomodellen op menselijke voorkeuren. Het beoordelen van afbeeldingen is echter van nature een multidimensionale taak, waarbij meerdere evaluatiecriteria gelijktijdig geoptimaliseerd moeten worden. Bestaande praktijken gaan om met meerdere beloningen door het trainen van één specialistisch model per beloning, het optimaliseren van een gewogen-som beloning R(x)=∑k wk Rk(x), of sequentiële fine-tuning met een handmatig vastgesteld faseschema. Deze benaderingen produceren ofwel geen verenigd model dat gezamenlijk op alle beloningen getraind kan worden, of vereisen zwaar handmatig afgestelde sequentiële training. Wij constateren dat het falen voortkomt uit het gebruik van een naïeve gewogen-som aggregatie van beloningen. Deze aanpak lijdt onder een mismatch op monsterniveau omdat de meeste rollouts specialistische monsters zijn, zeer informatief voor bepaalde beloningsdimensies maar irrelevant voor andere; bijgevolg verdunt gewogen sommatie hun supervisie. Om dit probleem aan te pakken, stellen we MARBLE (Multi-Aspect Reward BaLancE) voor, een optimalisatiekader in de gradïentruimte dat onafhankelijke advantage-schatters voor elke beloning handhaaft, beleidsgradïenten per beloning berekent en deze harmoniseert tot één enkele update-richting zonder handmatig afgestelde beloningsweging, door een kwadratisch programmeerprobleem op te lossen. We introduceren verder een geamortiseerde formulering die gebruikmaakt van de affiene structuur van het verlies gebruikt in DiffusionNFT, om de kosten per stap te reduceren van K+1 backward passes naar bijna de kosten van een enkele-beloningsbaseline, samen met EMA-afvlakking van de balanceringscoëfficiënten om updates te stabiliseren tegen tijdelijke fluctuaties per batch. Op SD3.5 Medium met vijf beloningen verbetert MARBLE alle vijf beloningsdimensies gelijktijdig, verandert de gradïentcosinus van de slechtst afgestemde beloning van negatief onder gewogen sommatie in 80% van de mini-batches naar consistent positief, en draait op 0.97X de trainingssnelheid van de baseline-training.
Versterkend leren met verifieerbare beloningen, met name Group Relative Policy Optimization (GRPO), heeft de redeneercapaciteiten van grote taalmodellen (LLM's) aanzienlijk verbeterd. Bij complexe taken lijdt GRPO echter vaak onder het "nulvoordeelprobleem": wanneer alle bemonsterde rollouts voor een query falen, stort het relatieve voordeel in tot nul. Bijgevolg verliest het model effectieve trainingssignalen voor deze vragen, wat de trainingsdata en het rekenbudget verspilt. Hoewel het simpelweg verhogen van het steekproefbudget voor deze vragen een gebruikelijke oplossing is, belemmert het statische steekproefbeleid inherent de verkenning van redeneerpaden, wat het succespercentage beperkt. In dit artikel stellen we Lorem Perturbation for Exploration (LoPE) voor, een eenvoudig maar effectief trainingsraamwerk om deze verkenningsbeperking te doorbreken. Wij stellen dat taakonafhankelijke perturbaties in de promptruimte de uitvoerdistributie van het model voldoende kunnen verschuiven om orthogonale redeneerpaden voor moeilijke vragen vrij te maken. Specifiek voegt LoPE sequenties toe, stochastisch samengesteld uit Lorem Ipsum-vocabulaire (een pseudo-Latijnse plaatshoudertekst), aan de prompts alvorens opnieuw te bemonsteren. Experimenten met 1,7B-, 4B- en 7B-modellen tonen aan dat LoPE aanzienlijk beter presteert dan hermonstering met de originele prompts. Verdere analyse toont aan dat andere op Latijn gebaseerde willekeurige sequenties met een lage perplexiteit ook effectieve perturbaties zijn. Onze resultaten positioneren LoPE als een sterke basislijn voor het verbreden van verkenning bij versterkend leren voor LLM's.
Op LLM gebaseerde agenten worden steeds vaker ingezet voor het verwerken van streamtaken, maar fungeren vaak nog als eenmalige probleemoplossers die niet leren van eerdere interacties. Herbruikbare vaardigheden die uit ervaring zijn gedistilleerd, vormen een natuurlijk substraat voor zelfevolutie, waarbij hoogwaardige vaardigheidscuratie de belangrijkste bottleneck vormt. Bestaande benaderingen vertrouwen op handmatige vaardigheidscuratie, voorschrijven heuristische vaardigheidsoperaties, of trainen voor kortetermijn-vaardigheidsoperaties. Desalniettemin hebben ze moeite om complexe langetermijn-curatiebeleid te leren uit indirecte en vertraagde feedback. Om deze uitdaging aan te pakken, stellen we SkillOS voor, een op ervaring gebaseerd RL-trainingsrecept voor het aanleren van vaardigheidscuratie in zelf-evoluerende agenten. SkillOS koppelt een bevroren agent-uitvoerder die vaardigheden ophaalt en toepast aan een trainbare vaardigheidscurator die een externe SkillRepo bijwerkt op basis van opgebouwde ervaring. Om leersignalen voor curatie te bieden, ontwerpen we samengestelde beloningen en trainen we op gegroepeerde taakstromen gebaseerd op vaardigheidsgerelateerde taakafhankelijkheden, waarbij eerdere trajecten de SkillRepo bijwerken en latere gerelateerde taken deze updates evalueren. Over multi-turn agent-taken en single-turn redeneertaken heen, presteert SkillOS consistent beter dan geheugenloze en sterke op geheugen gebaseerde vergelijkingsmodellen in zowel effectiviteit als efficiëntie, waarbij de aangeleerde vaardigheidscurator generaliseert over verschillende uitvoerder-backbones en taakdomeinen. Verdere analyses tonen aan dat de aangeleerde curator gerichter gebruik van vaardigheden produceert, terwijl de vaardigheden in de SkillRepo evolueren naar rijker gestructureerde Markdown-bestanden die na verloop van tijd hogere meta-vaardigheden coderen.
Audiovisuele Intelligentie (AVI) is naar voren gekomen als een centraal onderzoeksfront binnen de kunstmatige intelligentie. Het overbrugt auditieve en visuele modaliteiten om machines in staat te stellen de multimodale echte wereld waar te nemen, te genereren en ermee te interacteren. In het tijdperk van grote foundation-modellen is gezamenlijke modellering van audio en visie steeds crucialer geworden, niet alleen voor begrip, maar ook voor beheerbare generatie en redenering over dynamische, temporeel verankerde signalen. Recente vooruitgang, zoals Meta MovieGen en Google Veo-3, benadrukt de groeiende industriële en academische aandacht voor uniforme audio-visie-architecturen die leren van massale multimodale data. Desondanks de snelle vooruitgang blijft de literatuur gefragmenteerd, met uiteenlopende taken, inconsistente taxonomieën en heterogene evaluatiepraktijken die een systematische vergelijking en kennisintegratie belemmeren. Dit overzichtsartikel biedt de eerste uitgebreide review van AVI door de lens van grote foundation-modellen. Wij stellen een uniforme taxonomie op die het brede landschap van AVI-taken omvat, variërend van begrip (bijv. spraakherkenning, geluidslokalisatie) tot generatie (bijv. audiogestuurde videosynthese, video-naar-audio) en interactie (bijv. dialoog-, belichaamde of agent-gebaseerde interfaces). Wij synthetiseren methodologische fundamenten, waaronder modaliteitstokenisatie, cross-modale fusie, autoregressieve en op diffusie gebaseerde generatie, grootschalige pre-training, instructie-uitlijning en voorkeursoptimalisatie. Verder hebben wij representatieve datasets, benchmarks en evaluatiemetrics samengesteld, waardoor een gestructureerde vergelijking over taakfamilies heen mogelijk wordt en open uitdagingen op het gebied van synchronisatie, ruimtelijk redeneren, beheerbaarheid en veiligheid worden geïdentificeerd. Door dit snel expanderende vakgebied te consolideren in een coherent kader, beoogt dit overzichtsartikel te dienen als een fundamentele referentie voor toekomstig onderzoek naar grootschalige AVI.
Stapdistillatie is uitgegroeid tot een toonaangevende techniek voor het versnellen van diffusiemodellen, waarbij Distribution Matching Distillation (DMD) en Consistency Distillation twee representatieve paradigma's zijn. Terwijl consistentiemethoden zelfconsistentie afdwingen langs het volledige PF-ODE-traject om dit richting de clean data-manifold te sturen, vertrouwt klassieke DMD op een beperkte supervisie bij enkele vooraf gedefinieerde discrete tijdstappen. Deze beperkte discrete-tijdsformulering en de moduszoekende aard van de reverse KL-divergentie vertonen de neiging tot visuele artefacten en overmatig gladde uitvoer, wat vaak complexe hulpmodules vereist – zoals GAN's of beloningsmodellen – om de visuele kwaliteit te herstellen. In dit werk introduceren we Continuous-Time Distribution Matching (CDM), waarbij we het DMD-raamwerk voor het eerst migreren van discrete ankerpunten naar continue optimalisatie. CDM bereikt dit door twee continue-tijdsontwerpen. Ten eerste vervangen we het vaste discrete schema door een dynamisch continu schema met willekeurige lengte, zodat distribution matching wordt afgedwongen op willekeurige punten langs de sampletrajectories in plaats van alleen op enkele vaste ankerpunten. Ten tweede stellen we een continuetijds-uitlijningsdoel voor dat actieve off-trajectory matching uitvoert op latenties die worden geëxtrapoleerd via het snelheidsveld van de student, wat de generalisatie verbetert en fijne visuele details behoudt. Uitgebreide experimenten met verschillende architecturen, waaronder SD3-Medium en Longcat-Image, tonen aan dat CDM een zeer competitieve visuele kwaliteit biedt voor beeldgeneratie met weinig stappen, zonder te vertrouwen op complexe hulpdoelstellingen. Code is beschikbaar op https://github.com/byliutao/cdm.
Grote taalmmodellen (LLM's) worden steeds vaker gebruikt als interactieve agenten, maar het optimaliseren ervan voor besluitvorming op lange termijn blijft moeilijk omdat huidige methoden grotendeels puur reactief zijn, wat zowel de verkenning als de toewijzing van credits over langere trajecten verzwakt. In dit werk presenteren we Strategic Trajectory Abstraction (StraTA), een eenvoudig raamwerk dat een expliciete trajectniveau-strategie introduceert in agent-gebaseerd reinforcement learning (RL). StraTA samplet een compacte strategie vanuit de initiële taaktoestand, conditioneert daaropvolgende acties op die strategie, en traint strategiegeneratie en actie-uitvoering gezamenlijk met een hiërarchisch GRPO-achtig rollout-ontwerp, verder verbeterd door diverse strategie-rollout en kritisch zelfoordeel. Experimenten op ALFWorld, WebShop en SciWorld tonen aan dat StraTA consistent zowel de steekproevefficiëntie als de uiteindelijke prestaties verbetert ten opzichte van sterke basislijnen. StraTA behaalt succespercentages van 93,1% op ALFWorld en 84,2% op WebShop. Op SciWorld behaalt StraTA een algemene score van 63,5%, waarmee het frontier closed-source modellen overtreft.
Wij benaderen automatisch onderzoek als een gesloten empirische lus aangedreven door externe meting. Elke ingediende trial bevat een hypothese, een uitvoerbare code-aanpassing, een door de evaluator vastgestelde uitkomst en feedback die de volgende voorstel vormgeeft. De output is niet een gegenereerd artikel of een enkel modelcheckpoint, maar een auditeerbaar traject van voorstellen, code-diffs, experimenten, scores en faallabels. Wij concretiseren deze lus met gespecialiseerde agents die receptoppervlakken partitioneren en gemeten afstamming tussen trials delen. De centrale empirische bevinding is dat afstammingsfeedback agents in staat stelt om uitkomsten van de evaluator – inclusief crashes, budgetoverschrijdingen, groottetekortkomingen en nauwkeurigheidsdrempelmissers – om te zetten in latere programma-niveau receptaanpassingen in plaats van eenmalige suggesties. Over 1.197 headline-run trials plus 600 Parameter Golf-controletrials, na eenmalige setup en lancering, kozen mensen geen voorstellen, wijzigden ze geen recepten, override-den ze scores of repareerden ze mislukte trials tijdens de zoektocht. In de drie hoofd-runs reduceert dezelfde ingediende-trial-lus de Parameter Golf validatie-bpb met 0,81%, verhoogt het NanoChat-D12 CORE met 38,7% en reduceert de CIFAR-10 Airbench96 wallclock met 4,59%, waarbij elke taak gemeten wordt door zijn eigen externe evaluator en legaliteitscontroles. De trace omvat een strikte architectuur-domeinaudit van 157 headline-run inzendingen en programmaherschrijvingen zoals een NanoChat attention-kernel padwijziging. Binnen dit bereik schrijft de lus autonoom code, dient experimenten in, absorbeert feedback, past bekende technieken toe en combineert deze binnen elke omgeving, en verbetert publieke startrecepten.
Versterkend leren (RL) is toegepast om het redeneervermogen van grote taalmmodellen (LLM's) te verbeteren, maar het systematische onderzoek naar hoe training schaalt met de taakmoeilijkheid werd tot nu toe belemmerd door een gebrek aan gecontroleerde, schaalbare omgevingen. Wij introduceren ScaleLogic, een synthetisch logisch redeneerkader dat onafhankelijke controle biedt over twee moeilijkheidsassen: de diepte van de vereiste bewijsplanning (d.w.z. de horizon) en de expressiviteit van de onderliggende logica. Ons voorgestelde kader ondersteunt een breed scala aan logica's: van eenvoudige implicatielogica ("als-dan") tot expressievere eerstegraadsredenering met conjunctie ("en"), disjunctie ("of"), negatie ("niet") en universele kwantificering ("voor alle"). Met dit kader tonen we aan dat de RL-trainingsrekentijd T een machtswet volgt ten opzichte van de redeneerdiepte D (T ∝ D^γ, R² > 0.99), en dat de schaalexponent γ monotoon toeneemt met de logische expressiviteit, van 1.04 naar 2.60. Op downstream benchmarks voor wiskunde en algemeen redeneren leveren expressievere trainingsinstellingen zowel grotere prestatieverbeteringen op (tot +10.66 punten) als een rekenzuinigere transfer in vergelijking met minder expressieve instellingen. Dit demonstreert dat waarop een model wordt getraind, niet alleen hoeveel het wordt getraind, de downstream-transfer vormgeeft. We tonen verder aan dat de machtswet-relatie standhoudt over meerdere RL-methoden, en dat curriculumgebaseerde training de schaalbaarheidsefficiëntie aanzienlijk verbetert.
Versterkend leren voor agentische grote taalmodellen (LLM's) vertrouwt doorgaans op een schaarse, trajectniveau-uitkomstbeloning, waardoor het moeilijk is om de bijdrage van individuele tool-aanroepen binnen meerzijdige interacties te evalueren. Bestaande benaderingen voor dergelijke proces-toerekening van verdienste zijn ofwel afhankelijk van aparte externe procesbeloningsmodellen die extra kosten met zich meebrengen, of van op boomstructuren gebaseerde rollouts die het uitkomstsignaal slechts herverdelen terwijl ze de trajectdiversiteit beperken. Een veelbelovend alternatief maakt gebruik van de verandering per beurt in de door het beleid voorspelde waarschijnlijkheid van de grondwaarheid, genaamd Informatietoename (IG), als een intrinsiek processignaal zonder externe beoordelaar. Echter, eerder werk dat IG-signalen in de RL-trainingslus benut, kampt met drie systematische uitdagingen: normalisatie over beurten heen die met heterogene positionele contexten te maken krijgen kan de relatieve positie van individuele beurten verstoren, het accumuleren van een variabel aantal termen veroorzaakt dat de grootte-orde van voordelen afdrijft met de trajectdiepte, en een vast afkappbereik stuurt beleidsupdates identiek aan voor beurten met sterk uiteenlopende IG-signalen. In dit artikel stellen we A²TGPO voor (Agentic Turn-Group Policy Optimization with Adaptive Turn-level Clipping), dat IG behoudt als intrinsiek signaal maar herontwerpt hoe het wordt genormaliseerd, geaccumuleerd en verwerkt: (i) beurtgroep-normalisatie: normaliseert IG binnen elke (prompt, beurt-index) groep zodat elke beurt alleen wordt vergeleken met soortgenoten op dezelfde interactiediepte; (ii) variantie-herschaalde disconterende accumulatie: deelt cumulatieve genormaliseerde IG door de wortel uit geaccumuleerde termen om de grootte-orde van voordelen vergelijkbaar te houden over verschillende beurtposities heen; en (iii) adaptief beurtniveau-afkappen: moduleert het afkappbereik per beurt op basis van diens genormaliseerde IG, waarbij de updateregio wordt verbreed voor informatieve beurten en vernauwd voor niet-informatieve beurten.
Wij introduceren de AI co-wiskundige, een werkbank waarmee wiskundigen interactief AI-agenten kunnen inzetten voor open-eindig onderzoek. De AI co-wiskundige is geoptimaliseerd om holistische ondersteuning te bieden voor de verkennende en iteratieve realiteit van wiskundige workflows, waaronder ideeontwikkeling, literatuuronderzoek, computationele verkenning, stellingbewijzen en theorievorming. Door een asynchrone, stateful werkruimte te bieden die onzekerheid beheert, gebruikersintentie verfijnt, mislukte hypothesen bijhoudt en native wiskundige artefacten produceert, weerspiegelt het systeem menselijke collaboratieve workflows. In vroege tests hielp de AI co-wiskundige onderzoekers om open problemen op te lossen, nieuwe onderzoeksrichtingen te identificeren en over het hoofd geziene literatuurverwijzingen aan het licht te brengen. Naast het demonstreren van een zeer interactief paradigma voor AI-ondersteunde wiskundige ontdekking, behaalt de AI co-wiskundige ook state-of-the-art resultaten op harde probleemoplossingsbenchmarks, waaronder een score van 48% op FrontierMath Tier 4, een nieuwe hoogste score onder alle geëvalueerde AI-systemen.
Grote taalmodelen worden doorgaans ingezet als monolithische systemen, waarbij het volledige model vereist is, zelfs wanneer toepassingen slechts een beperkte subset van capaciteiten nodig hebben, zoals code, wiskunde of domeinspecifieke kennis. Mixture-of-Experts-modellen (MoE's) lijken een mogelijk alternatief te bieden door slechts een subset van experts per invoer te activeren, maar in de praktijk leidt het beperken van de inferentie tot een subset van experts voor een bepaald domein tot ernstige prestatievermindering. Dit beperkt hun praktische bruikbaarheid in geheugenbeperkte omgevingen, vooral naarmate modellen groter en schaarser worden. Wij introduceren EMO, een MoE ontworpen voor modulariteit – het onafhankelijk gebruik en de samenstelling van expertsubsets – zonder dat er door de mens gedefinieerde prior kennis vereist is. Ons belangrijkste idee is om tokens uit vergelijkbare domeinen aan te moedigen om op vergelijkbare experts te vertrouwen. Omdat tokens binnen een document vaak een domein delen, verplicht EMO hen om experts te selecteren uit een gedeelde pool, terwijl verschillende documenten verschillende pools kunnen gebruiken. Deze eenvoudige beperking zorgt ervoor dat er tijdens de voorafgaande training coherente expertgroeperingen ontstaan, uitsluitend op basis van documentgrenzen. Wij trainen een EMO-model vooraf met 1B actieve parameters en 14B totale parameters op 1T tokens. Als volledig model evenaart het de prestaties van standaard MoE's. Cruciaal is dat het selectief expertengebruik mogelijk maakt: het behouden van slechts 25% (12,5%) van de experts resulteert in een absoluut verlies van slechts 1% (3%), terwijl standaard MoE's onder dezelfde omstandigheden falen. Verder stellen wij vast dat expertsubsets in EMO gespecialiseerd zijn op semantisch niveau (bijvoorbeeld domeinen zoals wiskunde of code), in tegenstelling tot de specialisatie op laag syntactisch niveau die bij standaard MoE's wordt waargenomen. Al met al tonen onze resultaten een weg naar modulaire, geheugenefficiënte inzet van grote, schaarse modellen en openen zij nieuwe mogelijkheden voor samenstelbare architecturen.
Foundationmodellen hebben gestandaardiseerde representaties gecreëerd voor natuurlijke taalverwerking, maar dit paradigma blijft grotendeels onontgonnen voor tabelgegevens. Bestaande methoden kampen met fundamentele beperkingen: op LLM gebaseerde benaderingen missen retrieval-compatibele vectoruitvoer, terwijl tekst-embeddingmodellen vaak de tabelstructuur en numerieke semantiek niet goed vastleggen. Om deze kloof te overbruggen, introduceren we eerst de Tabular Embedding Benchmark (TabBench), een uitgebreide testset ontworpen om het tabelbegrip van embeddingmodellen te evalueren. Vervolgens presenteren we TabEmbed, het eerste generalistische embeddingmodel dat tabelclassificatie en retrieval verenigt binnen een gedeelde embedded ruimte. Door diverse tabeltaken te herformuleren als semantische matchingproblemen, benut TabEmbed grootschalig contrastief leren met positief-bewuste hard negative mining om fijnmazige structurele en numerieke nuances te onderscheiden. Experimentele resultaten op TabBench tonen aan dat TabEmbed aanzienlijk beter presteert dan state-of-the-art tekst-embeddingmodellen, en zo een nieuwe basislijn vestigt voor universele tabelrepresentatieleren. Code en datasets zijn openbaar beschikbaar op https://github.com/qiangminjie27/TabEmbed en https://huggingface.co/datasets/qiangminjie27/TabBench.
Moderne Mixture-of-Experts (MoE)-architecturen wijzen expertencapaciteit toe via een rigide per-laag regel: elke transformerlaag bezit een afzonderlijke set experts. Deze conventie koppelt het schalen van de diepte aan een lineaire groei van expertparameters en veronderstelt dat elke laag geïsoleerde expertencapaciteit nodig heeft. Recente analyses en onze routeringsproef stellen deze toewijzingsregel echter ter discussie: het vervangen van de aangeleerde top-k-router van een diepere laag door uniforme willekeurige routering vermindert de downstreamnauwkeurigheid met slechts 1,0-1,6 punten over meerdere productie-MoE-modellen. Gemotiveerd door deze redundantie stellen wij UniPool voor, een MoE-architectuur die expertencapaciteit behandelt als een globaal architecturaal budget door het per-laag expertbezit te vervangen door een enkele gedeelde pool, toegankelijk gemaakt door onafhankelijke per-laag routers. Om stabiele en gebalanceerde training onder gedeeld gebruik mogelijk te maken, introduceren we een hulploss op poolniveau die het expertengebruik over de gehele pool balanceert, en nemen we NormRouter over om spaarzame en schaalstabiele routering naar de gedeelde expertenpool te bieden. Over vijf LLaMA-architectuur modelschalen (182M, 469M, 650M, 830M en 978M parameters) getraind op 30B tokens van de Pile, verbetert UniPool consistent de validatieloss en perplexiteit ten opzichte van de overeenkomstige standaard MoE-baselines. Over deze schalen vermindert UniPool de validatieloss met tot 0,0386 relatief aan standaard MoE. Naast ruwe lossverbetering identificeren onze resultaten de poolgrootte als een expliciete hyperparameter voor diepteschaling: UniPool-varianten met een verkleinde pool, die slechts 41,6%-66,7% van het standaard expertparameterbudget gebruiken, evenaren of overtreffen de laagsgewijze MoE op de geteste schalen. Dit toont aan dat, onder een gedeelde-pool ontwerp, expertparameters niet lineair hoeven te groeien met de diepte; ze kunnen sublineair groeien terwijl ze efficiënter en effectiever blijven dan standaard MoE. Verdere analyse toont aan dat de voordelen van UniPool zich laten combineren met fijnmazigere expertdecompositie.
Wij introduceren ReflectDrive-2, een gemaskeerde discrete diffusie-planner met een gespecialiseerde actie-expert voor autonoom rijden, die plannen representeert als discrete trajecttokens en deze genereert via parallelle gemaskeerde decodering. Deze discrete tokenruimte maakt *in-place* trajectrevisie mogelijk: AutoEdit herschrijft geselecteerde tokens met hetzelfde model, zonder dat een hulpverfijningsnetwerk nodig is. Om deze capaciteit te trainen, gebruiken we een procedure in twee fasen. Eerst construeren we structuurbewuste perturbaties van expert-trajecten langs de longitudinale voortgangs- en laterale richtingsassen en trainen we het model onder supervisie om het oorspronkelijke expert-traject te herstellen. Vervolgens verfijnen we de volledige *decision–draft–reflect* roll-out met reinforcement learning (RL), waarbij we de uiteindelijke rijbeloning toekennen aan het definitieve, na-bewerking traject en de *policy-gradient credit* doorvoeren via volledige-roll-out transities. Volledige-roll-out RL blijkt cruciaal voor het koppelen van ontwerpen en bewerken: bij enkel onder supervisie getrainde modellen verbetert AutoEdit tijdens inferentie PDMS met maximaal 0.3, terwijl RL de winst verhoogt naar 1.9. We ontwerpen ook een efficiënte reflectieve decoderingstack voor de *decision–draft–reflect* pijplijn, die *shared-prefix KV reuse*, *Alternating Step Decode* en gefuseerd *on-device unmasking* combineert. Op NAVSIM behaalt ReflectDrive-2 een PDMS van 91.0 met alleen camera-input en 94.8 PDMS in een *best-of-6 oracle* setting, terwijl het draait met een gemiddelde latentie van 31.8 ms op NVIDIA Thor.
Georuimtelijk redeneren vereist dat modellen complexe ruimtelijke semantiek en gebruikersintentie vertalen naar precieze doelposities voor aardobservatie. Recente vooruitgang heeft het redeneerpad bevrijd van handmatige curatie, waardoor modellen hun eigen inferentieketens kunnen genereren. Toch blijft er een laatste afhankelijkheid bestaan: ze worden nog steeds gesuperviseerd door door mensen geannoteerde grondwaarheid-coördinaten. Hierdoor is het redeneerproces autonoom, maar niet het ruimtelijke eindpunt, wat echte zelf-evolutie op overvloedige ongelabelde remote sensing-data verhindert. Om deze bottleneck te doorbreken, introduceren we RemoteZero, een kader voor georuimtelijk redeneren zonder balk-supervisie. RemoteZero is gemotiveerd door een eenvoudige asymmetrie: een MLLM is typisch beter in het verifiëren of een regio aan een query voldoet dan in het direct genereren van precieze coördinaten. Door gebruik te maken van dit sterkere onderscheidend vermogen vervangt RemoteZero geometrische supervisie door intrinsieke semantische verificatie en maakt het GRPO-training mogelijk zonder balkannotaties. Het resulterende kader ondersteunt verder iteratieve zelf-evolutie, waardoor het model kan verbeteren vanuit ongelabelde remote sensing-beelden via zijn eigen verificatiesignaal. Experimenten tonen aan dat RemoteZero competitieve prestaties bereikt ten opzichte van sterke gesuperviseerde methoden, wat het potentieel aantoont van zelfverificerende training voor lokalisatie bij georuimtelijk redeneren.
Grote taalmodellen (LLM's) worden regelmatig aangestuurd om sociale rollen aan te nemen die variëren van individuen tot instellingen, maar het is onduidelijk of hun interne representaties de granulariteit van dergelijke rollen coderen, van micro-level individuele ervaring tot macro-level organisatorisch, institutioneel of nationaal redeneren. Wij tonen aan dat dit het geval is. Wij definiëren een op contrast gebaseerde Granulariteitsas als het verschil tussen de gemiddelde verborgen toestanden van macro- en microrollen. In Qwen3-8B aligneert deze as met de principale as (PC1) van de rolrepresentatieruimte met een cosinus van 0.972 en verklaart deze 52,6% van de variantie, wat aangeeft dat granulariteit de dominante geometrische as is die de aangestuurde sociale rollen organiseert. Wij construeren 75 sociale rollen over vijf granulariteitsniveaus en verzamelen 91.200 rolgeconditioneerde antwoorden op gedeelde vragen en promptvarianten, extraheren vervolgens rol-level verborgen toestanden en projecteren deze op de as. Rolprojecties nemen monotoon toe over alle vijf niveaus, blijven stabiel over lagen, promptvarianten, eindpuntdefinities, weggelaten splitsingen en score-gefilterde subsets, en transfereren naar Llama-3.1-8B-Instruct. De as is ook causaal relevant: activatiesturing langs de as verschuift de responsgranulariteit in de voorspelde richting, waarbij Llama onder positieve sturing op prompts die lokale antwoorden toelaten, beweegt van 2.00 naar 3.17 op een vijfpuntenschaal voor macro. De twee modellen verschillen in bestuurbaarheid, wat suggereert dat sturing afhangt van het standaard operationele regime van elk model. Over het algemeen suggereren onze bevindingen dat sociale rolgranulariteit niet slechts een stilistisch oppervlaktekenmerk is, maar een gestructureerde, geordende en causaal manipuleerbare latente richting in rolgeconditioneerd taalmodelgedrag.
Wij herzien een algemeen aanvaarde maar onderbelichte ontwerpkeuze in elk modern groot taalmodel: een tokenindex wordt eenmalig opgezocht in de invoer-embeddinglaag en vervolgens permanent verworpen. Deze veronderstelling van eenmalige injectie veroorzaakt twee structurele tekortkomingen: (i) het Zeldzame Token Probleem, waarbij een Zipf-achtige verdeling van de vocabulaire ervoor zorgt dat embeddingvectoren van zeldzame tokens chronisch ondertraind raken, omdat zij slechts een fractie van het cumulatieve gradiëntsignaal ontvangen in vergelijking met frequente tokens; en (ii) het Contextuele Ineenstortingsprobleem, waarbij modellen met beperkte parameters distributioneel vergelijkbare tokens afbeelden naar ononderscheidbare verborgen toestanden. Als poging om beide problemen aan te pakken, stellen wij TIDE voor, dat de standaard transformer uitbreidt met een EmbeddingGeheugen: een ensemble van K onafhankelijke GeheugenBlokken die tokenindices afbeelden op contextvrije semantische vectoren. Deze worden eenmalig berekend en in elke laag geïnjecteerd via een diepte-gestuurde softmax-router met een leerbare nulbank. Wij leggen zowel theoretisch als empirisch de voordelen van TIDE vast bij het aanpakken van de problemen verbonden aan eenmalige tokenidentiteitsinjectie, en tonen tevens prestatieverbeteringen aan bij diverse taalmodel- en downstreamtaken.
Op LLM gebaseerde Triton-kernelgeneratie heeft aanzienlijke belangstelling getrokken, maar een fundamentele empirische vraag blijft onbeantwoord: waar loopt deze capaciteit vast en waarom? Wij presenteren KernelBench-X, een benchmark ontworpen om deze vraag te beantwoorden door categoriebewuste evaluatie van correctheid en hardware-efficiëntie over 176 taken in 15 categorieën. Onze systematische vergelijking van vijf representatieve methodes levert drie hoofdbevindingen op. Ten eerste bepaalt taakstructuur correctheid meer dan methodedesign. Categorie verklaart bijna drie keer meer variantie in semantische correctheid dan methode (9,4% vs 3,3% verklaarde deviantie), en 72% van de Fusion-taken faalt bij alle vijf methodes terwijl Math-taken consistent worden opgelost. Ten tweede verbetert iteratieve verfijning correctheid, maar niet prestaties. Over GEAK-iteraties stijgt de compilatiesnelheid van 52,3% naar 68,8% terwijl de gemiddelde snelheidswinst daalt van 1,58× naar 1,44×; nieuw geredde kernels presteren consistent slechter dan persistent correcte (1,16× vs 1,58× snelheidswinst in ronde~0tot1). Ten derde impliceert correctheid geen efficiëntie. 46,6% van correcte kernels is langzamer dan de PyTorch eager baseline, en cross-hardware snelheidswinstvariantie bereikt 21,4×. Daarnaast blijft kwantisering volledig onopgelost (0/30 successen) ondanks niet-triviale compilatiesnelheden, wat een systematisch misverstand van numerieke rekencontracten onthult in plaats van oppervlakkige syntaxfouten. Deze bevindingen suggereren dat toekomstige vooruitgang afhangt van het hanteren van globale coördinatie, expliciet modelleren van numerieke precisie, en incorporeren van hardware-efficiëntie in generatie. De code is beschikbaar op https://github.com/BonnieW05/KernelBenchX.
Hoogresolutie beeld-naar-video (I2V) generatie heeft als doel realistische temporele dynamiek te synthetiseren, waarbij fijne uiterlijke details van de invoerafbeelding behouden blijven. Op 2K-resolutie wordt dit extreem uitdagend, en bestaande oplossingen kampen met diverse zwaktes: 1) end-to-end modellen zijn vaak onhaalbaar duur qua geheugen en latentie; 2) het cascaderen van laagresolutiegeneratie met een generieke video-superresolutie heeft de neiging details te hallucineren en af te drijven van invoerspecifieke lokale structuren, omdat de superresolutiefase niet expliciet geconditioneerd is op de invoerafbeelding. Daartoe stellen wij SwiftI2V voor, een efficiënt raamwerk toegesneden op hoogresolutie I2V. Volgend op het veelgebruikte tweefasendesign, lost het het efficiëntie–nauwkeurigheid-dilemma op door eerst een laagresolutie bewegingreferentie te genereren om tokentellingen te verlagen en de modelleerlast te verlichten, waarna een sterk beeld-geconditioneerde 2K-synthese wordt uitgevoerd, geleid door de beweging, om invoergetrouwe details te herstellen met gecontroleerde overhead. Specifiek, om de generatie schaalbaarder te maken, introduceert SwiftI2V Conditionele Segmentgewijze Generatie (CSG) om video's segment voor segment te synthetiseren met een begroot tokentelling per stap, en neemt het bidirectionele contextuele interactie binnen elk segment over om de coherentie tussen segmenten en de invoernauwkeurigheid te verbeteren. Op VBench-I2V bij 2K-resolutie bereikt SwiftI2V prestaties vergelijkbaar met end-to-end baseline-modellen, terwijl de totale GPU-tijd met 202x wordt verminderd. In het bijzonder maakt het praktische 2K I2V-generatie mogelijk op een enkele datacenter-GPU (bijv. H800) of consumenten-GPU (bijv. RTX 4090).
Symbolische muziekdatasets met bijbehorende partituren en uitvoeringen zijn essentieel voor veel muziekinformatie-onderzoektaken. Toch beslaan bestaande bronnen vaak een beperkt aantal componisten, vertonen ze weinig uitvoeringsvariatie, ontbreken nootniveau-uitlijningen of hanteren ze inconsistente naamgevingsformats. Dit werk presenteert PianoCoRe, een grootschalige pianodataset in MIDI-formaat die belangrijke open-source pianocorpora verenigt en verfijnt. De dataset bevat 250.046 uitvoeringen van 5.625 stukken geschreven door 483 componisten, in totaal goed voor 21.763 uur uitgevoerde muziek. PianoCoRe wordt vrijgegeven in gefaseerde subsets om verschillende toepassingen te ondersteunen: van grootschalige analyse en pre-training (PianoCoRe-C en gedupliceerde PianoCoRe-B) tot expressieve uitvoeringsmodellering met nootniveau-partituuruitlijning (PianoCoRe-A/A*). Het genotaligneerde subset, PianoCoRe-A, biedt de grootste open-source collectie van 157.207 uitvoeringen uitgelijnd met 1.591 partituren tot op heden. Naast de dataset omvatten de bijdragen: (1) een MIDI-kwaliteitsclassificator voor het detecteren van beschadigde en partituurachtige transcripties, en (2) RAScoP, een uitlijningsverfijningspijplijn die temporele uitlijningsfouten opruimt en ontbrekende noten interpoleert. De analyse toont aan dat de verfijning temporele ruis vermindert en tempo-uitbijters elimineert. Bovendien toont een expressief uitvoeringsrenderingsmodel getraind op PianoCoRe verbeterde robuustheid voor onbekende stukken in vergelijking met modellen getraind op ruwe of kleinere datasets. PianoCoRe biedt een direct bruikbare basis voor de volgende generatie onderzoek naar expressieve pianouitvoeringen.
De rekenkracht voor training overtreft in toenemende mate de beschikbaarheid van hoogwaardige data. Hierdoor verschuift de centrale uitdaging van optimale rekenkrachttoewijzing naar het maximaliseren van de waarde uit beperkte data. De algemeen aanvaarde Chinchilla-schaalwet veronderstelt dat elke trainings-token uniek is. Dit beperkt haar vermogen om pretrainingsbeslissingen te sturen in data-arme regimes. Wij modelleren het excessieve verlies bij herhaling met een simpele additieve overfittingstraf en stellen vast dat dit modelgedrag nauwkeurig beschrijft. Onze schaalwet levert kwalitatief nieuw advies voor compute-optimale toewijzing. Voorbij een zeker punt is verdere herhaling contraproductief en kan rekenkracht beter worden besteed aan modelcapaciteit. Wij tonen aan dat het volgen van de door onze wet aanbevolen configuratie de prestaties in data-arme regimes verbetert. Tenslotte, omdat onze één-parametervorm overfitting isoleert in een enkele coëfficiënt, maakt dit een directe vergelijking tussen trainingsconfiguraties mogelijk. Als casestudy tonen we aan dat sterke gewichtsafname (λ=1.0) deze coëfficiënt met ongeveer 70% reduceert, wat een verklaring op basis van schaalwetten biedt voor recente bevindingen dat optimale gewichtsafname in data-arme regimes een orde van grootte groter is dan de standaardpraktijk.
Versterkend leren met verifieerbare beloningen (RLVR) is een centraal paradigma geworden voor het verbeteren van redeneer- en codeergeneratie in grote taalmodellen, en GRPO-stijl training wordt op grote schaal toegewezen vanwege zijn eenvoud en effectiviteit. Een belangrijke ontwerpkeuze blijft echter onderbelicht: hoe token-level beleidsgradiënttermen worden geaggregeerd binnen elke bemonsterde groep. Standaard GRPO gebruikt sequentie-aggregatie, terwijl recent werk token-aggregatie naar voren schuift als een beter alternatief. Wij tonen aan dat deze twee regels verschillende optimalisatievooroordelen induceren: token-aggregatie introduceert koppeling tussen teken en lengte, terwijl sequentie-aggregatie langere antwoorden impliciet minder gewicht toekent door sequentie-level gelijke weging. Om deze spanning aan te pakken, stellen we Gebalanceerde Aggregatie (BA) voor, een eenvoudige drop-in vervanging die token-level gemiddelden afzonderlijk berekent binnen de positieve en negatieve subsets en deze vervolgens combineert met op sequentietelling gebaseerde gewichten. Experimenten met Qwen2.5-Math-7B en Qwen3-1.7B op DAPO-17k en Polaris, geëvalueerd op zes redeneer- en codeerbenchmarks, tonen aan dat BA consistent de trainingsstabiliteit en uiteindelijke prestaties verbetert ten opzichte van standaard token- en sequentie-aggregatie. Onze analyse toont verder aan dat de relatieve effectiviteit van token- en sequentie-aggregatie grotendeels wordt bepaald door variatie in antwoordlengte en het positief-negatief lengteverschil, wat aggregatie benadrukt als een kritieke ontwerpdimension in GRPO-stijl RLVR.
Dit artikel introduceert EnergyFlow, een raamwerk dat generatieve modellering van acties verenigt met inverse reinforcement learning door een scalaire energiefunctie te parametriseren waarvan de gradiënt het denoising-veld vormt. Wij tonen aan dat onder maximalisatie van entropie-optimaliteit de scorefunctie die via denoising score matching wordt geleerd, de gradiënt van de soft Q-functie van de expert reconstrueert, waardoor beloningsextractie mogelijk wordt zonder adversarial training. Formeel bewijzen we dat het afdwingen van een conservatief geleerd veld de hypothesecomplexiteit reduceert en de generalisatiegrenzen voor out-of-distribution data aanscherpt. Verder karakteriseren we de identificeerbaarheid van gereconstrueerde beloningen en begrenzen we hoe schattingsfouten in scores doorwerken in actievoorkeuren. Empirisch behaalt EnergyFlow state-of-the-art imitatieprestaties op diverse manipulatietaken, terwijl het een effectief beloningssignaal biedt voor downstream reinforcement learning dat zowel adversarial IRL-methoden als op waarschijnlijkheid gebaseerde alternatieven overtreft. Deze resultaten tonen aan dat de structurele beperkingen die nodig zijn voor valide beloningsextractie tegelijkertijd dienen als gunstige inductieve biases voor policy-generalisatie. De code is beschikbaar op https://github.com/sotaagi/EnergyFlow.
Wij onderzoeken de schaaleigenschappen van impliciet deductief redeneren over Horn-clausules in dieptegebonden Transformers. Door bewijsbaarheid systematisch te ontkoppelen van schijnkenmerken en algoritmische uitlijning af te dwingen, constateren wij dat in voldoende diepe modellen met een bidirectioneel prefixmasker impliciet redeneren de prestaties van expliciete CoT benadert across verschillende graaftopologieën en probleembreedtes, hoewel CoT noodzakelijk blijft voor diepte-extrapolatie.
Recente vooruitgang in generatieve videomodellen wordt in toenemende mate gedreven door post-training en schaling tijdens de testfase, die beide cruciaal afhankelijk zijn van de kwaliteit van videobeloningsmodellen (RMs). Een ideaal beloningsmodel zou accurate beloningen moeten voorspellen die overeenkomen met menselijke voorkeuren in diverse scenario's. Echter, bestaande paradigma's kampen met een fundamenteel dilemma: Discriminatieve RMs regresseren beloningen direct op kenmerken die zijn geëxtraheerd door multimodale grote taalmodellen (MLLMs) zonder expliciete redenering, waardoor ze vatbaar zijn voor shortcut-leren en sterk afhankelijk zijn van massale dataschaling voor generalisatie. Daarentegen vertonen generatieve RMs met Chain-of-Thought (CoT)-redenering superieure interpreteerbaarheid en generalisatiepotentieel, omdat ze gebruikmaken van fijnmazige semantische supervisie om de redeneringen achter menselijke voorkeuren te internaliseren. Echter, ze lijden onder inherente optimalisatieknelpunten door de koppeling van redenering en scoring binnen een enkele autoregressieve inferentieketen. Om de generalisatievoordelen van CoT-redenering te benutten en tegelijkertijd de traininstabiliteit van gekoppelde redenering en scoring te mitigeren, introduceren wij DeScore, een trainefficiënt en generaliseerbaar videobeloningsmodel. DeScore hanteert een ontkoppeld "denk-dan-score"-paradigma: een MLLM genereert eerst een expliciete CoT, gevolgd door een toegewijd discriminerend scoringsmodule bestaande uit een leerbare query-token en een regressiekop die de uiteindelijke beloning voorspelt. DeScore wordt geoptimaliseerd via een tweefasenraamwerk: (1) een discriminerende koude start met een willekeurig maskermechanisme om robuuste scoringscapaciteiten te waarborgen, en (2) een reinforcement learning-fase met een dubbele doelstelling die onafhankelijk de CoT-redeneerkwaliteit verfijnt en de uiteindelijke beloning kalibreert, zodat hogere redeneerkwaliteit direct vertaalt naar superieure modelprestaties.
Ondanks het succes van grote taalmmodellen (LLM's) bij algemene taken, blijft hun prestatieniveau in zeer gespecialiseerde domeinen zoals biomedicine onbevredigend. Een belangrijke beperking is het onvermogen van LLM's om effectief gebruik te maken van biomedische tools, waarop klinische experts en biomedische onderzoekers dagelijks intensief vertrouwen in hun workflows. Hoewel recente tool-aanroepdatasets uit het algemene domein de capaciteiten van LLM-agents aanzienlijk hebben verbeterd, zijn bestaande inspanningen in het biomedische domein grotendeels gebaseerd op in-context leren en beperken ze modellen tot een kleine set tools. Om deze kloof te overbruggen, introduceren wij BioTool, een uitgebreide biomedische tool-aanroepdataset ontworpen voor het fine-tunen van LLM's. BioTool omvat 34 veelgebruikte tools, verzameld uit de NCBI-, Ensembl- en UniProt-databases, samen met 7.040 hoogwaardige, door mensen geverifieerde vraag-API-aanroepparen die variatie, genomica, proteomica, evolutie en algemene biologie bestrijken. Het fine-tunen van een LLM met 4 miljard parameters op BioTool levert aanzienlijke verbeteringen op in de prestaties voor biomedische tool-aanroepen, waarbij het state-of-the-art commerciële LLM's zoals GPT-5.1 overtreft. Bovendien tonen evaluaties door menselijke experts aan dat de integratie van een met BioTool gefinetunede tool-aanroeper de kwaliteit van downstream antwoorden significant verbetert in vergelijking met dezelfde LLM zonder toolgebruik, wat de effectiviteit van BioTool bij het verbeteren van de biomedische capaciteiten van LLM's onderstreept. De volledige dataset en evaluatiecode zijn beschikbaar op https://github.com/gxx27/BioTool.
High-performance computing (HPC) wordt steeds belangrijker voor schaalbare quantumchemische workflows die klassieke generatieve modellen, quantumcircuitsimulatie en geselecteerde configuratie-interactie-naverwerking combineren. Wij presenteren de generatieve quantum-geïnspireerde Kolmogorov-Arnold-eigenwaarde-oplosser (GQKAE), een parameter-efficiënte uitbreiding van de generatieve quantum-eigenwaarde-oplosser (GQE) voor quantumchemie. GQKAE vervangt de parameterintensieve feed-forward-netwerkcomponenten in GPT-stijl generatieve eigenwaarde-oplossers door hybride quantum-geïnspireerde Kolmogorov-Arnold-netwerkmodules, waardoor een compacte HQKANsformer-backbone ontstaat. De methode behoudt autogressieve operatorselectie en de quantum-geselecteerde configuratie-interactie-evaluatiepijplijn, terwijl single-qubit DatA Re-Uploading ActivatioN-modules worden gebruikt om expressieve niet-lineaire mappingen te bieden. Numerieke benchmarks op H4, N2, LiH, C2H6, H2O en het H2O-dimeer tonen aan dat GQKAE een chemische nauwkeurigheid bereikt die vergelijkbaar is met de GPT-gebaseerde GQE-architectuur, terwijl de trainbare parameters en het geheugengebruik met ongeveer 66% worden gereduceerd en de wall-time-prestatie verbetert. Voor sterk gecorreleerde systemen zoals N2 en LiH verbetert GQKAE tevens het convergentiegedrag en de finale energie-afwijkingen. Deze resultaten geven aan dat quantum-geïnspireerde Kolmogorov-Arnold-netwerken de klassieke overhead kunnen verminderen terwijl de kwaliteit van circuitgeneratie behouden blijft, wat een schaalbare route biedt voor HPC-quantum co-design op near-term quantumplatforms.
Bij veel implementaties moeten kandidaat-taalmodellen op veiligheid worden vergeleken voordat er een gelabelde benchmark beschikbaar is voor de betreffende taal, sector of regelgevend kader. We formaliseren deze situatie als *benchmarkloze vergelijkende veiligheidsscoring* en specificeren het contract waaronder een scenario-gebaseerde audit kan worden geïnterpreteerd als implementatiebewijs. Scores zijn alleen geldig onder een vast scenario-pakket, beoordelingsrubriek, auditor, beoordelaar, steekproefconfiguratie en herhaalbudget. Omdat er geen labels beschikbaar zijn, vervangen we overeenkomst met de grondwaarheid door een instrumentaliteitsketen: gevoeligheid voor een gecontroleerd veilig-versus-geëlimineerd contrast, dominantie van doelgedreven variantie boven artefacten van de auditor en beoordelaar, en stabiliteit over herhalingen heen. We concretiseren deze keten in SimpleAudit, een *local-first* scoringsinstrument, en valideren het op een Noors veiligheidspakket. Veilige en geëlimineerde doelen scheiden met AUROC-waarden tussen 0,89 en 1,00, doelidentiteit is de dominante variantiecomponent (η² ≈ 0,52), en ernstprofielen stabiliseren na tien herhalingen. Toepassing van dezelfde keten op Petri toont aan dat het beide tools toelaat. De substantiële verschillen doen zich stroomopwaarts in de keten voor, bij de handhaving van claim-contracten en implementatiegeschiktheid. Een Noors aanbestedingsgeval in de publieke sector, waarbij Borealis en Gemma 3 worden vergeleken, toont het resulterende bewijs in de praktijk: het veiligere model hangt af van de scenariocategorie en risicomaatstaf. Bijgevolg moeten scores, gematchte delta's, kritieke ratios, onzekerheid, en de gebruikte auditor en beoordelaar gezamenlijk worden gerapporteerd in plaats van samengevoegd tot een enkele rangschikking.
Ondanks de groeiende populariteit van Multimodale Domein Generalisatie (MMDG) voor het verbeteren van modelrobuustheid, is het onduidelijk of gerapporteerde prestatieverbeteringen echte algoritmische vooruitgang weerspiegelen of artefacten zijn van inconsistente evaluatieprotocollen. Het huidige onderzoek is gefragmenteerd, waarbij studies aanzienlijk variëren in datasets, modaliteitsconfiguraties en experimentele settings. Bovendien richten bestaande benchmarks zich voornamelijk op actieherkenning en negeren vaak kritieke uitdagingen uit de praktijk, zoals inputcorruptie, ontbrekende modaliteiten en modelbetrouwbaarheid. Dit gebrek aan standaardisatie verhult een betrouwbare beoordeling van de vooruitgang in het veld. Om dit probleem aan te pakken, introduceren wij MMDG-Bench, de eerste verenigde en uitgebreide benchmark voor MMDG, die evaluatie standaardiseert over zes datasets die drie uiteenlopende taken beslaan: actieherkenning, mechanische foutdiagnose en sentimentanalyse. MMDG-Bench omvat zes modaliteitscombinaties, negen representatieve methoden en meerdere evaluatiesettings. Naast standaardnauwkeurigheid beoordeelt het systematisch corruptierobuustheid, generalisatie bij ontbrekende modaliteiten, misclassificatiedetectie en out-of-distribution-detectie. Met in totaal 7.402 getrainde neurale netwerken verspreid over 95 unieke cross-domein taken, levert MMDG-Bench vijf belangrijke bevindingen op: (1) onder eerlijke vergelijkingen bieden recente gespecialiseerde MMDG-methoden slechts marginale verbeteringen ten opzichte van de ERM-baseline; (2) geen enkele methode presteert consistent beter dan andere over datasets of modaliteitscombinaties; (3) een aanzienlijke kloof tot de bovengrens van de prestaties blijft bestaan, wat aangeeft dat MMDG verre van opgelost is; (4) trimodale fusie presteert niet consistent beter dan de sterkste bimodale configuraties; en (5) alle geëvalueerde methoden vertonen significante prestatievermindering onder corruptie- en ontbrekende-modaliteit-scenario's, waarbij sommige methoden de modelbetrouwbaarheid verder aantasten.
Wij behandelen de uitdaging van kennissamenstelling in Vision-Language Models (VLMs), waarbij de accumulatie van expertise over meerdere domeinen of taken doorgaans leidt tot catastrofale interferentie. Wij introduceren GeoStack (Geometric Stacking), een modulair raamwerk waarmee onafhankelijk getrainde domeinexperts kunnen worden samengesteld tot een verenigd model. Door het opleggen van geometrische en structurele beperkingen op de adapter-variëteit, waarborgt GeoStack dat de fundamentele kennis van het basismodel behouden blijft. Verder tonen wij wiskundig een gewichtsplooi-eigenschap aan die een constante-tijd inferentiecomplexiteit (O(1)) bereikt, onafhankelijk van het aantal geïntegreerde experts. Experimentele resultaten in multi-domein aanpassing en klasse-incrementeel leren tonen aan dat GeoStack een efficiënt mechanisme biedt voor langdurige kennissamenstelling, terwijl catastrofale interferentie significant wordt gereduceerd. Code is beschikbaar op https://github.com/QuantitativeImagingLaboratory/GeoStack.
Multimodale Large Language Models (MLLM's) houden grote belofte in voor het revolutioneren van het traditionele onderwijs en het verminderen van de werkdruk van docenten. Het nauwkeurig interpreteren van onbeperkte, handgeschreven oplossingen van STEM-studenten met verweven wiskundige formules, diagrammen en tekstuele redeneringen vormt echter een grote uitdaging, vanwege het gebrek aan authentieke en domeinspecifieke benchmarks. Bovendien zijn de huidige evaluatieparadigma's hoofdzakelijk gebaseerd op de resultaten van downstreamtaken (bijvoorbeeld automatisch beoordelen), die vaak slechts een subset van de herkende inhoud onderzoeken, waardoor het algehele begrip van de MLLM's van complexe handgeschreven logica niet wordt vastgelegd. Om deze kloof te overbruggen, presenteren wij EDU-CIRCUIT-HW, een dataset bestaande uit meer dan 1300 authentieke handgeschreven studentenoplossingen uit een STEM-cursus op universitair niveau. Door gebruik te maken van expert-geverifieerde letterlijke transcripties en beoordelingsrapporten van studentenoplossingen, evalueren wij gelijktijdig de upstream-herkenningstrouw en de downstream-prestaties bij automatisch beoordelen van verschillende MLLM's. Onze evaluatie legt een verbazingwekkende omvang van latente fouten bloot binnen de door MLLM's herkende handgeschreven studenteninhoud, wat de onvoldoende betrouwbaarheid van de modellen voor automatisch beoordelen en andere op begrip gerichte toepassingen in hoogwaardige onderwijscontexten benadrukt. Als mogelijke oplossing presenteren wij een casestudy die aantoont dat het benutten van geïdentificeerde foutpatronen om herkenningsfouten proactief op te sporen en te corrigeren, terwijl slechts minimale menselijke interventie vereist is (bijvoorbeeld het doorsturen van 3,3% van de opdrachten naar menselijke beoordelaars en de rest naar de GPT-5.1-beoordelaar), de robuustheid van het geïmplementeerde AI-gestelde beoordelingssysteem effectief kan verbeteren. Code en dataset zijn beschikbaar in deze GitHub-repository: https://gt-learning-innovation.github.io/CIRCUIT_EDU_HW_ACL.
De afgelopen jaren hebben opensource-initiatieven zoals Senorita-2M videobewerking naar natuurlijke taal-instructie gestuwd. Huidige publiek beschikbare datasets richten zich echter voornamelijk op lokale bewerkingen of stijloverdracht, waarbij de oorspronkelijke scènestructuur grotendeels behouden blijft en die eenvoudiger op te schalen zijn. Daarentegen vereist Achtergrondvervanging, een taak die centraal staat in creatieve toepassingen zoals filmproductie en reclame, het synthetiseren van volledig nieuwe, temporeel consistente scènes waarbij nauwkeurige interacties tussen voorgrond en achtergrond behouden blijven, wat grootschalige datageneratie aanzienlijk uitdagender maakt. Dientengevolge blijft deze complexe taak grotendeels onderbelicht door een gebrek aan hoogwaardige trainingsdata. Deze kloof blijkt uit slecht presterende state-of-the-art modellen, zoals Kiwi-Edit, omdat de primaire opensource-dataset die deze taak bevat, OpenVE-3M, vaak statische, onnatuurlijke achtergronden produceert. In dit artikel herleiden wij deze kwaliteitsachteruitgang tot een gebrek aan precieze achtergrondgeleiding tijdens datasynthese. Dienovereenkomstig ontwerpen wij een schaalbare pijplijn die voorgrond- en achtergrondgeleiding op een ontkoppelde manier genereert met strikte kwaliteitsfiltering. Op basis van deze pijplijn introduceren wij Sparkle, een dataset van ~140K videoparen verspreid over vijf veelvoorkomende thema's voor achtergrondverandering, samen met Sparkle-Bench, de grootste evaluatiebenchmark tot nu toe die specifiek voor achtergrondvervanging is ontwikkeld. Experimenten tonen aan dat onze dataset en het daarop getrainde model een aanzienlijk betere prestaties leveren dan alle bestaande baseline-methoden op zowel OpenVE-Bench als Sparkle-Bench. Onze voorgestelde dataset, benchmark en model zijn volledig opensource beschikbaar op https://showlab.github.io/Sparkle/.