Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Grote taalmodellen (LLM's) ontvangen doorgaans diverse natuurlijke-taalfeedback (NL-feedback) via interactie met de omgeving. Huidige reinforcement learning (RL) algoritmen vertrouwen echter uitsluitend op scalaire beloningen, waardoor de rijke informatie in NL-feedback onderbenut blijft en dit leidt tot inefficiënte exploratie. In dit werk stellen we GOLF voor, een RL-raamwerk dat expliciet gebruikmaakt van groepsniveau taalfeedback om gerichte exploratie te sturen via uitvoerbare verfijningen. GOLF aggregeert twee complementaire feedbackbronnen: (i) externe kritieken die fouten aanwijzen of gerichte oplossingen voorstellen, en (ii) intra-groep pogingen die alternatieve deelideeën en diverse foutpatronen aanleveren. Deze groepsniveau feedback wordt samengevoegd om hoogwaardige verfijningen te produceren, die adaptief worden geïnjecteerd in de training als off-policy steigers om gerichte begeleiding te bieden in regio's met schaarse beloning. Tegelijkertijd optimaliseert GOLF gezamenlijk de generatie en verfijning binnen een verenigde RL-lus, waardoor een vicieuze cirkel ontstaat die beide capaciteiten continu verbetert. Experimenten op zowel verifieerbare als niet-verifieerbare benchmarks tonen aan dat GOLF superieure prestaties en exploratie-efficiëntie bereikt, met een 2,2 keer verbetering in steekproefefficiëntie vergeleken met RL-methoden die uitsluitend op scalaire beloningen zijn getraind. Code is beschikbaar op https://github.com/LuckyyySTA/GOLF.
Elke agentinteractie genereert een next-state signaal, namelijk de gebruikersreactie, tooloutput, terminal- of GUI-toestandsverandering die volgt op elke actie, maar geen enkel bestaand agentief RL-systeem benut dit als een live, online leerbron. Wij presenteren OpenClaw-RL, een raamwerk gebaseerd op een eenvoudige observatie: next-state signalen zijn universeel, en een beleid kan van allemaal tegelijkertijd leren. Persoonlijke gesprekken, terminaluitvoeringen, GUI-interacties, SWE-taken en tool-call traces zijn geen afzonderlijke trainingsproblemen. Het zijn allemaal interacties die gebruikt kunnen worden om hetzelfde beleid in dezelfde lus te trainen. Next-state signalen coderen twee vormen van informatie: evaluatieve signalen, die aangeven hoe goed de actie presteerde en worden geëxtraheerd als scalaire beloningen via een PRM-beoordelaar; en directieve signalen, die aangeven hoe de actie anders had moeten zijn en worden hersteld door Hindsight-Guided On-Policy Distillation (OPD). Wij extraheren tekstuele hints uit de volgende staat, construeren een verbeterde docentcontext en voorzien token-level directioneel voordeel supervisie die rijker is dan enige scalaire beloning. Dankzij het asynchrone ontwerp verwerkt het model live verzoeken, beoordeelt de PRM doorlopende interacties, en update de trainer het beleid tegelijkertijd, zonder enige coördinatie-overhead tussen hen. Toegepast op persoonlijke agenten stelt OpenClaw-RL een agent in staat om simpelweg te verbeteren door gebruikt te worden, waarbij conversatiesignalen worden hersteld uit gebruikershervragen, correcties en expliciete feedback. Toegepast op algemene agenten ondersteunt dezelfde infrastructuur schaalbare RL over terminal-, GUI-, SWE- en tool-call settings, waar wij bovendien het nut van procesbeloningen aantonen. Code: https://github.com/Gen-Verse/OpenClaw-RL
K-means is historisch gezien voornamelijk gepositioneerd als een offline verwerkingsprimitive, typisch gebruikt voor datasetorganisatie of embedding-preprocessing, in plaats van als een eersteklas component in online systemen. In dit werk herzien we dit klassieke algoritme vanuit het perspectief van modern AI-systeemontwerp en maken we k-means mogelijk als een online primitive. Wij wijzen erop dat bestaande GPU-implementaties van k-means fundamenteel beperkt blijven door low-level systeembeperkingen in plaats van door theoretische algoritmische complexiteit. Specifiek lijdt de toewijzingsfase onder een ernstelijk I/O-knelpunt door de massale expliciete materialisatie van de N maal K afstandsmatrix in High Bandwidth Memory (HBM). Tegelijkertijd wordt de centroid-updatefase zwaar benadeeld door hardware-level atomic write contention, veroorzaakt door onregelmatige, scatter-style tokenaggregaties. Om deze prestatiekloof te overbruggen, stellen we flash-kmeans voor, een I/O-bewuste en contention-vrije k-means-implementatie voor moderne GPU-workloads. Flash-kmeans introduceert twee kerninnovatie op kernel-niveau: (1) FlashAssign, dat afstandsberekening fuseert met een online argmin om intermediare geheugenmaterialisatie volledig te omzeilen; (2) sort-inverse update, dat expliciet een inverse mapping construeert om hoog-conflict atomic scatters om te zetten in hoogbandbreedte, segment-level gelokaliseerde reducties. Verder integreren we algoritme-systeem co-designs, inclusief chunked-stream overlap en cache-aware compile heuristieken, om praktische deploybaarheid te garanderen. Uitgebreide evaluaties op NVIDIA H200 GPU's tonen aan dat flash-kmeans een end-to-end versnelling tot 17.9x bereikt ten opzichte van de beste baseline, terwijl het industristandaardbibliotheken zoals cuML en FAISS respectievelijk met 33x en meer dan 200x overtreft.
Op LLM gebaseerde tekst-embedders coderen typisch de semantische inhoud van hun invoer. Embeddingtaken vereisen echter het afbeelden van diverse invoeren op vergelijkbare uitvoeren. Normaal gesproken wordt deze invoer-uitvoerrelatie aangepakt door embeddingmodellen te trainen met gepaarde data via contrastief leren. In dit werk stellen we een nieuwe zelfgesuperviseerde aanpak voor, LLM2Vec-Gen, die een ander paradigma hanteert: in plaats van de invoer te coderen, leren we de potentiële respons van het model te representeren. Concreet voegen we trainbare speciale tokens toe aan de vocabulaire van de LLM, plakken deze vast aan de invoer, en optimaliseren ze om de respons van de LLM te representeren in een vaste-lengte sequentie. De training wordt gestuurd door de LLM's eigen voltooiing van de query, samen met een ongesuperviseerde embedding-leraar die distillatiedoelen verschaft. Deze formulering helpt de kloof tussen invoer en uitvoer te overbruggen en transfert LLM-capaciteiten zoals veiligheidsafstemming en redeneervermogen naar embeddingtaken. Cruciaal is dat de LLM-backbone bevroren blijft en de training alleen ongelabelde queries vereist. LLM2Vec-Gen behaalt state-of-the-art zelfgesuperviseerde prestaties op de Massive Text Embedding Benchmark (MTEB), met een verbetering van 9,3% ten opzichte van de beste ongesuperviseerde embedding-leraar. We observeren ook een reductie tot 43,2% in het ophalen van schadelijke content en een verbetering van 29,3% in redeneervermogen voor embeddingtaken. Ten slotte zijn de geleerde embeddings interpreteerbaar en kunnen ze worden gedecodeerd naar tekst om hun semantische inhoud te onthullen.
Hoewel grote taalmodellen (LLM's) sterke redeneervermogen vertonen, wordt hun prestaties op complexe taken vaak beperkt door de grenzen van hun interne kennis. Een veelbelovende aanpak om deze uitdaging te overwinnen, is het verrijken van deze modellen met externe tools – zoals Python-interpreters voor wiskundige berekeningen of zoekmachines voor het ophalen van feitelijke informatie. Het effectief leren gebruiken van deze tools door de modellen blijft echter een aanzienlijke uitdaging. Bestaande methoden zijn typisch gebaseerd op cold-start-pipelines die beginnen met supervised fine-tuning (SFT), gevolgd door reinforcement learning (RL). Deze benaderingen vereisen vaak aanzienlijke hoeveelheden gelabelde data voor SFT, wat duur is om te annoteren of te synthetiseren. In dit werk stellen we In-Context Reinforcement Learning (ICRL) voor, een RL-only raamwerk dat de noodzaak voor SFT elimineert door gebruik te maken van few-shot prompting tijdens de rollout-fase van RL. Concreet introduceert ICRL in-context voorbeelden binnen de rollout-prompts om het model te leren hoe het externe tools kan aanroepen. Verder wordt, naarmate de training vordert, het aantal in-context voorbeelden geleidelijk afgebouwd, uiteindelijk resulterend in een zero-shot setting waarin het model leert om tools onafhankelijk te gebruiken. We voeren uitgebreide experimenten uit op een reeks redeneer- en tool-use benchmarks. De resultaten tonen aan dat ICRL state-of-the-art prestaties bereikt, wat de effectiviteit aantoont als een schaalbare, data-efficiënte alternatief voor traditionele SFT-gebaseerde pipelines.
Naarmate belichaamde modellen krachtiger worden, zullen mensen in de toekomst op hun werkplek of thuis samenwerken met meerdere belichaamde AI-agenten. Om een betere communicatie tussen menselijke gebruikers en het multi-agent systeem te waarborgen, is het cruciaal om inkomende informatie van agenten parallel te interpreteren en voor elke vraag de juiste context te raadplegen. Bestaande uitdagingen zijn onder meer het effectief comprimeren en communiceren van grote hoeveelheden individuele sensorische input in de vorm van video, en het correct aggregeren van meerdere egocentrische video's om een systeemniveau-geheugen op te bouwen. In dit werk definiëren we eerst formeel een nieuw probleem: het begrijpen van meerdere egocentrische video's met een lange tijdsduur die gelijktijdig zijn verzameld van belichaamde agenten. Om onderzoek in deze richting te faciliteren, introduceren we MultiAgent-EgoQA (MA-EgoQA), een benchmark die is ontworpen om bestaande modellen in ons scenario systematisch te evalueren. MA-EgoQA biedt 1.700 vragen die uniek zijn voor meerdere egocentrische stromen, verdeeld over vijf categorieën: sociale interactie, taakcoördinatie, theory-of-mind, temporeel redeneren en omgevingsinteractie. We stellen verder een eenvoudig baseline-model voor voor MA-EgoQA, genaamd EgoMAS, dat gebruikmaakt van gedeeld geheugen tussen belichaamde agenten en dynamische retrievel per agent. Door middel van een uitgebreide evaluatie van diverse baselines en EgoMAS op MA-EgoQA, concluderen we dat huidige benaderingen niet in staat zijn effectief om te gaan met meerdere egocentrische stromen, wat de noodzaak onderstreept van toekomstige vooruitgang in systeemniveau-begrip tussen de agenten. De code en benchmark zijn beschikbaar op https://ma-egoqa.github.io.
Laagrangepasstukken (LoRA's) zijn een parameter-efficiënte fijnafstemmingstechniek die trainbare laagrangematrices injecteert in vooraf getrainde modellen om ze aan nieuwe taken aan te passen. Mixture-of-LoRA's-modellen breiden neurale netwerken efficiënt uit door elke laaginvoer door te sturen naar een kleine subset van gespecialiseerde LoRA's van de laag. Bestaande Mixture-of-LoRA's-routers kennen een geleerd routeringsgewicht toe aan elke LoRA om end-to-end training van de router mogelijk te maken. Ondanks hun empirische potentie merken we dat de routeringsgewichten in de praktijk typisch extreem onevenwichtig zijn over de LoRA's, waarbij vaak slechts één of twee LoRA's de routeringsgewichten domineren. Dit beperkt in wezen het aantal effectieve LoRA's en belemmert daardoor ernstig de expressieve kracht van bestaande Mixture-of-LoRA's-modellen. In dit werk schrijven we deze zwakte toe aan de aard van leerbare routeringsgewichten en heroverwegen we het fundamentele ontwerp van de router. Om dit kritieke probleem aan te pakken, stellen we een nieuwe routerontwerp voor dat we Reinforcement Routing for Mixture-of-LoRA's (ReMix) noemen. Ons kernidee is het gebruik van niet-leerbare routeringsgewichten om ervoor te zorgen dat alle actieve LoRA's even effectief zijn, zonder dat één LoRA de routeringsgewanten domineert. Onze routers kunnen echter niet direct worden getraind via gradient descent vanwege onze niet-leerbare routeringsgewichten. Daarom stellen we verder een zuivere gradientenschatter voor de router voor door gebruik te maken van de reinforce leave-one-out (RLOO) techniek, waarbij we de supervisieverlies beschouwen als de beloning en de router als het beleid in reinforcement learning. Onze gradientenschatter maakt het ook mogelijk de rekenkracht voor training op te schalen om de voorspellende prestaties van onze ReMix te verbeteren. Uitgebreide experimenten tonen aan dat onze voorgestelde ReMix state-of-the-art parameter-efficiënte fijnafstemmingsmethoden significant overtreft bij een vergelijkbaar aantal geactiveerde parameters.
LLM's die functioneren in dynamische real-world contexten komen vaak kennis tegen die continu evolueert of incrementeel opduikt. Om accuraat en effectief te blijven, moeten modellen zich ter plekke kunnen aanpassen aan nieuw binnenkomende informatie. Wij introduceren Online Adaptation to Continual Knowledge Streams (OAKS) om deze capaciteit te evalueren, en stellen daarmee een benchmark in voor online aanpassing aan gestroomlijnde, continu bijgewerkte kennis. Concreet is de benchmark gestructureerd als een reeks fijnmazige contextsegmenten waarin feiten dynamisch veranderen over tijdsintervallen. OAKS omvat twee datasets: OAKS-BABI en OAKS-Novel, waarin individuele feiten meerdere keren evolueren over de contextsegmenten heen. Deze datasets bevatten gedetailleerde annotaties om te meten of modellen veranderingen nauwkeurig bijhouden. Na evaluatie van 14 modellen met uiteenlopende inferentiebenaderingen, constateren we aanzienlijke beperkingen in de huidige methodologieën. Zowel state-of-the-art modellen als agent-geheugensystemen slagen er niet in zich robuust aan te passen op OAKS, wat wijst op vertragingen in het bijhouden van de toestand en gevoeligheid voor afleiding binnen stroomomgevingen.
Bestaande methoden voor videopersonalisatie behouden de visuele gelijkenis, maar behandelen video en audio gescheiden. Zonder toegang tot de visuele scène kunnen audiomodellen geluiden niet synchroniseren met acties op het scherm; en omdat klassieke stemkloningsmodellen uitsluitend conditioneren op een referentieopname, kan een tekstprompt de spreekstijl of akoestische omgeving niet sturen. Wij stellen ID-LoRA voor (Identity-Driven In-Context LoRA), dat het uiterlijk en de stem van een persoon gezamenlijk genereert in één model, waarbij een tekstprompt, een referentiebeeld en een korte audioclip beide modaliteiten samen sturen. ID-LoRA past de LTX-2 joint audio-video diffusion backbone aan via parameter-efficiënte In-Context LoRA en is, voor zover wij weten, de eerste methode die visueel uiterlijk en stem personaliseert in één generatieve stap. Twee uitdagingen doen zich voor. Referentie- en generatietokens delen dezelfde positionele coderingsruimte, waardoor ze moeilijk te onderscheiden zijn; dit lossen we op met negatieve temporele posities, waarbij we referentietokens in een gescheiden RoPE-regio plaatsen terwijl hun interne temporele structuur behouden blijft. Sprekerskenmerken hebben ook de neiging te vervagen tijdens denoisering; we introduceren identity guidance, een variant van classifier-free guidance die sprekerspecifieke kenmerken versterkt door voorspellingen met en zonder het referentiesignaal te contrasteren. In onderzoeken naar menselijke voorkeur wordt ID-LoRA door 73% van de beoordelaars verkozen boven Kling 2.6 Pro voor stemgelijkenis en door 65% voor spreekstijl. In cross-omgeving settings verbetert de sprekersgelijkenis met 24% ten opzichte van Kling, waarbij het verschil groter wordt naarmate de condities meer uiteenlopen. Een eerste gebruikersstudie suggereert verder dat gezamenlijke generatie een nuttige inductieve bias biedt voor fysiek ondersteunde geluidssynthese. ID-LoRA behaalt deze resultaten met slechts ~3K trainingsparen op een enkele GPU. Code, modellen en data zullen worden vrijgegeven.
Diffusion Transformers (DiTs) zijn een toonaangevende backbone geworden voor videogeneratie, maar hun kwadratische aandachtkosten vormen een grote bottleneck. Sparse aandacht vermindert deze kosten door slechts een subset van aandachtblokken te berekenen. Eerdere methoden laten de overige blokken echter vaak vallen, wat tot informatieverlies leidt, of vertrouwen op aangeleerde voorspellers om ze te benaderen, wat trainingsoverhead en mogelijke verschuivingen in de outputdistributie introduceert. In dit artikel tonen we aan dat de ontbrekende bijdragen zonder training kunnen worden hersteld: na semantische clustering vertonen sleutels en waarden binnen elk blok een sterke gelijkenis en kunnen ze goed worden samengevat door een kleine set clustercentroïden. Gebaseerd op deze observatie introduceren we SVG-EAR, een parametervrije lineaire compensatietak die de centroïde gebruikt om overgeslagen blokken te benaderen en hun bijdragen te herstellen. Hoewel centroïdecompensatie voor de meeste blokken accuraat is, kan ze falen voor een kleine subset. Standaard versparsing selecteert blokken typisch op basis van aandachtscores, die aangeven waar het model zijn aandachtsmassa plaatst, maar niet waar de benaderingsfout het grootst zou zijn. SVG-EAR voert daarom foutbewuste routing uit: een lichtgewicht probe schat de compensatiefout voor elk blok, en we berekenen exact de blokken met de hoogste fout-tot-kostenverhouding terwijl we de overgeslagen blokken compenseren. We bieden theoretische garanties die de aandachtreconstructiefout relateren aan clusteringkwaliteit, en tonen empirisch aan dat SVG-EAR de kwaliteit-efficiëntie-afweging verbetert en de doorvoer verhoogt bij dezelfde generatiefidelijkheid op videodiffusietaken. Al met al vestigt SVG-EAR een duidelijke Pareto-frontier ten opzichte van eerdere benaderingen, met snelheidswinsten tot 1,77x en 1,93x terwijl PSNR-waarden tot 29,759 en 31,043 worden gehandhaafd op respectievelijk Wan2.2 en HunyuanVideo.
Wanneer MLLM's falen in visueel redeneren binnen Science, Technology, Engineering en Mathematics (STEM), rijst een fundamentele vraag: komt dit door perceptuele tekortkomingen of door redeneerbeperkingen? Via een systematische schaalanalyse waarbij perceptie- en redeneercomponenten onafhankelijk worden opgeschaald, ontdekken we een cruciaal inzicht: het opschalen van perceptie presteert consistent beter dan het opschalen van redeneren. Dit onthult perceptie als de werkelijke hefboom die de huidige STEM visuele redeneervaardigheid beperkt. Gemotiveerd door dit inzicht richt ons werk zich op het systematisch verbeteren van de perceptiecapaciteiten van MLLM's door code te vestigen als een krachtig perceptiemedium – uitvoerbare code biedt precieze semantiek die natuurlijk aansluit bij de gestructureerde aard van STEM-visualisaties. Specifiek construeren we ICC-1M, een grootschalige dataset bestaande uit 1 miljoen Image-Caption-Code triplets die dit code-als-perceptie paradigma materialiseert via twee complementaire benaderingen: (1) Code-Gegronde Bijschriftgeneratie behandelt uitvoerbare code als grondwaarheid voor beeldbijschriften, waardoor de hallucinaties inherent aan bestaande kennisdistillatiemethoden worden geëlimineerd; (2) STEM Beeld-naar-Code Vertaling spoort modellen aan om reconstructiecode te genereren, waardoor de ambiguïteit van natuurlijke taal voor perceptieverbetering wordt verminderd. Om dit paradigma te valideren, introduceren we verder STEM2Code-Eval, een nieuwe benchmark die visuele perceptie in STEM-domeinen direct evalueert. In tegenstelling tot bestaand werk dat vertrouwt op nauwkeurigheid van probleemoplossing als proxy die alleen probleemrelevant begrip meet, vereist onze benchmark uitgebreid visueel begrip via de generatie van uitvoerbare code voor beeldreconstructie, wat een deterministische en verifieerbare beoordeling biedt. Code is beschikbaar op https://github.com/TongkunGuan/Qwen-CodePercept.
Op reinforcement learning (RL) getrainde agents op basis van grote taalmmodellen (LLM's) hebben een groot potentieel getoond voor complexe interactieve taken. Het standaard RL-paradigma geeft echter vaak de voorkeur aan statisch probleemoplossen boven continue aanpassing: agenten convergeren vaak naar suboptimale strategieën door onvoldoende exploratie, terwijl aangeleerde kennis impliciet in parameters blijft in plaats van expliciet opvraagbaar te zijn, wat effectief ervaringsleren beperkt. Om deze beperkingen aan te pakken, introduceren we RetroAgent, een online RL-framework dat agenten in staat stelt complexe interactieve omgevingen niet alleen te beheersen door problemen op te lossen, maar door te evolueren. Concreet beschikt RetroAgent over een zelfreflectiemechanisme met hindsight dat dubbele intrinsieke feedback produceert: (1) intrinsieke numerieke feedback die de incrementele subtask-voltooiing volgt ten opzichte van eerdere pogingen, waarbij veelbelovende verkenningen worden beloond, en (2) intrinsieke taalfeedback die herbruikbare lessen destilleert in een geheugenbuffer, opgehaald via onze voorgestelde Similarity & Utility-Aware Upper Confidence Bound (SimUtil-UCB)-strategie. Deze strategie balanceert relevantie, bruikbaarheid en exploratie om effectief gebruik te maken van eerdere ervaringen. Uitgebreide experimenten met twee modelfamilies op vier uitdagende agenttaken tonen aan dat RetroAgent bestaande methoden significant overtreft en state-of-the-art resultaten behaalt – bijvoorbeeld een verbetering van +18,3% op ALFWorld, +15,4% op WebShop, +27,1% op Sokoban en +8,9% op MineSweeper ten opzichte van met Group Relative Policy Optimization (GRPO) getrainde agenten – terwijl het sterke aanpassing tijdens testen en generalisatie naar out-of-distribution scenario's vertoont.
Prompt highlighting stuurt een groot taalmodel aan om gebruikersgespecificeerde tekstgedeeltes prioriteit te geven tijdens het genereren. Een belangrijke uitdaging is het extraheren van stuurrichtingen die het verschil vastleggen tussen relevante en irrelevante contexten, in plaats van gedeelde structurele patronen die bij beide voorkomen. Wij stellen PRISM-Δ voor (Projection-based Relevance-Informed Steering Method), dat het verschil ontleedt tussen positieve en negatieve kruiscovariantiematrices om discriminerende energie te maximaliseren terwijl gedeelde richtingen worden geëlimineerd. Elk aandachtshoofd ontvangt een continue softplus-belanggewicht, waardoor zwakke maar nuttige hoofden met verminderde sterkte kunnen bijdragen. Het framework breidt zich natuurlijk uit naar Value-representaties, waardoor signaal uit de inhoudskanalen wordt vastgelegd dat Key-only-methodes onbenut laten. Over vier benchmarks en vijf modellen heen, evenaart of overtreft PRISM-Δ de beste bestaande methode in 19 van de 20 configuraties, met relatieve winsten tot +10,6%, terwijl de vlotheidskosten van sturing worden gehalveerd. PRISM-Δ schaalt ook naar retrieval in lange contexten, en presteert tot +4,8% beter dan de beste bestaande methode. PRISM-Δ is compatibel met FlashAttention en voegt verwaarloosbare geheugenoverhead toe.
De laatste laag van neurale taalmmodellen projecteert uitvoerfeatures van dimensie D naar logits in dimensie V, de grootte van de vocabulaire, waarbij doorgaans D ≪ V. Deze mismatch staat bekend als een risicofactor voor beperkte expressiviteit in neurale taalmmodellen, wat een zogenaamd softmax-knelpunt creëert. Wij tonen aan dat het softmax-knelpunt niet alleen een expressiviteitsknelpunt is, maar ook een optimalisatieknelpunt. Het backpropageren van V-dimensionale gradienten door een lineaire laag met rang D induceert een onvermijdelijke compressie, waardoor de trainingsfeedback voor de overgrote meerderheid van de parameters wordt veranderd. Wij presenteren een theoretische analyse van dit fenomeen en meten empirisch dat 95-99% van de gradientnorm wordt onderdrukt door de uitvoerlaag, wat resulteert in sterk suboptimale updaterichtingen. Wij voeren gecontroleerde pretraining-experimenten uit die aantonen dat het gradientknelpunt triviale patronen onleerbaar maakt en de trainingsdynamiek van grote taalmmodellen drastisch beïnvloedt. Wij beargumenteren dat deze inherente tekortkoming bijdraagt aan trainingsinefficiënties op schaal, onafhankelijk van de modelarchitectuur, en de behoefte aan nieuwe ontwerpen voor de LM-uitvoerkop vergroot.
Bij Reinforcement Learning met Verifieerbare Beloningen (RLVR) is de constructie van een robuuste advantage-baseline cruciaal voor policy gradients, omdat deze het beleidsmodel effectief leidt om gewenst gedrag te versterken. Recent onderzoek heeft Generalistische Waardemodellen (zoals V₀) geïntroduceerd, die vooraf getrainde waarde-inschatting bereiken door modelcapaciteiten expliciet in-context te coderen, waardoor synchrone updates van het waardemodel naast het beleidsmodel overbodig worden. In dit artikel stellen we V₀.₅ voor, dat de door een dergelijk waardemodel voorspelde baseline (die als prior fungeert) adaptief samenvoegt met het empirische gemiddelde afgeleid van sparse rollouts. Dit construeert een robuuste baseline die computationele efficiëntie balanceert met een extreem lage variantie. Concreet introduceren we een real-time statistische toetsing en dynamische budgetallocatie. Dit balanceert de hoge variantie door sparse sampling tegen de systematische bias (of hallucinaties) inherent aan de prior van het waardemodel. Door een hypothesetoets te construeren die de betrouwbaarheid van de prior real-time evalueert, alloceert het systeem dynamisch extra rollout-budget op aanvraag. Dit mechanisme minimaliseert de Mean Squared Error (MSE) van de baseline-schatter en garandeert stabiele policy gradients, zelfs onder extreme sparse condities met een groepsgrootte van 4. Uitgebreide evaluaties op zes wiskundige redeneerbenchmarks tonen aan dat V₀.₅ significant beter presteert dan GRPO en DAPO, met een snellere convergentie en een prestatieverbetering van ongeveer 10%.
Diffusion Transformers hebben een nieuwe standaard gevestigd in beeldgeneratie, maar de hoge rekencost van iteratieve sampling belemmert hun praktische inzet aanzienlijk. Hoewel bestaande versnellingsmethoden zich vaak richten op het temporele domein, negeren ze de aanzienlijke ruimtelijke redundantie die inherent is aan het generatieve proces, waarbij globale structuren al lang voordat fijne details worden gevormd zichtbaar worden. De uniforme computationele behandeling van alle ruimtelijke regio's vormt een kritieke inefficiëntie. In dit artikel introduceren we Just-in-Time (JiT), een nieuw trainingsvrij raamwerk dat deze uitdaging aanpakt door versnelling in het ruimtelijke domein. JiT formuleert een ruimtelijk benaderde generatieve gewone differentiaalvergelijking (ODE) die de volledige latente tostandsevolutie aanstuurt op basis van berekeningen vanuit een dynamisch geselecteerde, schaarse subset van anker-tokens. Om naadloze overgangen te garanderen wanneer nieuwe tokens worden geïntegreerd om de dimensies van de latente toestand uit te breiden, stellen we een deterministische micro-flow voor, een eenvoudige en effectieve ODE met eindige tijd die zowel structurele coherentie als statistische correctheid behoudt. Uitgebreide experimenten met het state-of-the-art FLUX.1-dev-model tonen aan dat JiT een versnelling tot 7x bereikt met nagenoeg verliesloze prestaties, waardoor het bestaande versnellingsmethoden significant overtreft en een nieuwe en superieure balans vestigt tussen inferentiesnelheid en generatiefideliteit.
Grote taalmodellen (LLM's) worden steeds vaker gebruikt in de wetenschappelijke workflow, onder meer voor het opstellen van collegiale toetsingsrapporten (peer-review). Veel door AI gegenereerde reviews zijn echter oppervlakkig en onvoldoende actiegericht, waardoor auteurs geen concrete, uitvoerbare richtlijnen krijgen. Dit gemotiveert de leemte die dit werk adresseert. Wij stellen RbtAct voor, dat zich richt op het genereren van actiegerichte reviewfeedback en bestaande weerleggingen (rebuttals) van peer reviews centraal stelt bij het leren. Weerleggingen tonen aan welke beoordelaarsopmerkingen tot concrete revisies of specifieke plannen leidden, en welke alleen werden verdedigd. Voortbouwend op dit inzicht gebruiken wij de weerlegging als impliciete supervisie om een feedbackgenerator direct te optimaliseren voor actiegerichtheid. Om dit doel te ondersteunen, stellen wij een nieuwe taak voor, genaamd perspectief-geconditioneerde, segmentniveau reviewfeedbackgeneratie, waarbij het model een enkele gefocusseerde opmerking moet produceren op basis van het volledige artikel en een gespecificeerd perspectief, zoals experimenten en schrijfstijl. Wij bouwden ook een grote dataset genaamd RMR-75K, die reviewsegmenten koppelt aan de weerleggingssegmenten die deze adresseren, met perspectieflabels en impactcategorieën die de opname door de auteurs ordenen. Vervolgens trainden we het Llama-3.1-8B-Instruct model met supervised fine-tuning op reviewsegmenten, gevolgd door preference optimization met behulp van paren afgeleid uit weerleggingen. Experimenten met menselijke experts en LLM-as-a-judge tonen consistente verbeteringen in actiegerichtheid en specificiteit ten opzichte van sterke baseline-modellen, waarbij grondigheid en relevantie behouden blijven.
Gepersonaliseerde AI-assistenten moeten langetermijngebruikersgeheugen kunnen oproepen en hierover redeneren, wat van nature multimodaal is en afkomstig uit meerdere bronnen zoals afbeeldingen, video's en e-mails. Bestaande benchmarks voor Langetermijngeheugen richten zich echter voornamelijk op dialooggeschiedenis en slagen er niet in realistische, gepersonaliseerde referenties te vatten die geworteld zijn in ervaringen uit het dagelijks leven. Wij introduceren ATM-Bench, de eerste benchmark voor multimodale, multi-bron gepersonaliseerde referentiële Geheugen-QA. ATM-Bench bevat ongeveer vier jaar aan privacybeschermende persoonlijke geheugengegevens en door mensen geannoteerde vraag-antwoordparen met ondersteunend geheugenbewijs als grondwaarheid, waaronder vragen die het oplossen van persoonlijke referenties, redeneren met meerdere bewijsstukken uit meerdere bronnen en het hanteren van tegenstrijdig bewijs vereisen. Wij stellen Schema-Gestuurd Geheugen (SGM) voor om geheugenitems die uit verschillende bronnen ontstaan structureel weer te geven. In experimenten implementeren we 5 state-of-the-art geheugensystemen samen met een standaard RAG-baseline en evalueren we varianten met verschillende technieken voor geheugeninname, -opzoeken en antwoordgeneratie. Wij constateren slechte prestaties (minder dan 20% nauwkeurigheid) op de ATM-Bench-Hard set, en dat SGM de prestaties verbetert ten opzichte van Beschrijvend Geheugen, dat vaak in eerdere werken wordt gebruikt. Code beschikbaar op: https://github.com/JingbiaoMei/ATM-Bench
Versterkend Leren met Verifieerbare Beloningen (RLVR) heeft het redeneervermogen van Large Language Models (LLM's) aanzienlijk vooruitgeholpen. RLVR baseert zich echter uitsluitend op eindantwoorden als uitkomstbeloningen, waarbij de correctheid van tussenliggende redeneerstappen wordt verwaarloosd. Training op deze rollouts met een fout proces maar correcte uitkomst kan leiden tot hallucinatie en het kopiëren van antwoorden, wat de generalisatie en robuustheid van het model ernstig ondermijnt. Om dit aan te pakken, integreren we een Contrastief Leermechanisme in de Policy Optimalisatie (CLIPO) om het RLVR-proces te generaliseren. Door een contrastief verlies te optimaliseren over succesvolle rollouts, stuurt CLIPO de LLM aan om de invariante structuur vast te leggen die gedeeld wordt door correcte redeneerpaden. Dit biedt een robuustere regularisatie over trajecten heen dan het oorspronkelijke toezicht op enkelvoudige paden in RLVR, waardoor stapniveau-inconsistenties in het redeneren effectief worden verminderd en hallucinatoire artefacten worden onderdrukt. In experimenten verbetert CLIPO consistent meerdere RLVR-baselines op diverse redeneerbenchmarks, wat uniforme verbeteringen aantoont in generalisatie en robuustheid voor policy-optimalisatie van LLM's. Onze code en trainingsrecepten zijn beschikbaar op https://github.com/Qwen-Applications/CLIPO.
Grote Taalmodellen (LLM) als agenten kampen vaak met aanzienlijke krediettoewijzingsproblemen bij langetermijn, meerstappentaken vanwege schaarse beloningen. Bestaande waardevrije methoden, zoals Group Relative Policy Optimization (GRPO), stuiten op twee fundamentele knelpunten: onnauwkeurige schatting van Q-waarden op stapniveau en verkeerd uitgelijnde waardebaselines voor tussenliggende toestanden. Om deze beperkingen aan te pakken, introduceren wij HCAPO, het eerste raamwerk dat hindsight krediettoewijzing integreert in LLM-agenten. HCAPO benut het LLM zelf als een post-hoc criticus om Q-waarden op stapniveau te verfijnen via hindsight redenering. Verder voorziet HCAPO's multi-schaal voordeelmechanisme effectief in de onnauwkeurige waardebaselines bij kritieke beslissingstoestanden. Evaluaties over drie uitdagende benchmarks, waaronder WebShop en ALFWorld, tonen aan dat HCAPO consistent beter presteert dan state-of-the-art RL-methoden. Opmerkelijk is dat HCAPO een verbetering van 7,7% in succespercentage behaalt op WebShop en 13,8% op ALFWorld ten opzichte van GRPO bij gebruik van het Qwen2.5-7B-Instruct model. Deze resultaten geven aan dat HCAPO de verkennings efficiëntie aanzienlijk verbetert, beknopte besluitvorming bevordert en schaalbaarheid waarborgt in complexe, langetermijntaken.
Multimodale grote taalmodellen (MM-GTM's) hebben sterke prestaties getoond in medisch beeldbegrip en klinisch redeneren. Recente medische agentsystemen breiden deze uit met toolgebruik en multi-agent samenwerking, waardoor complexe besluitvorming mogelijk wordt. Deze systemen zijn echter vrijwel volledig afhankelijk van frontiermodellen (bijvoorbeeld GPT), waarvan API-gebaseerde implementatie hoge kosten, hoge latentie en privacyrisico's met zich meebrengt die in conflict zijn met on-premise klinische vereisten. Wij presenteren Meissa, een lichtgewicht medisch MM-GTM met 4B parameters dat agentmogelijkheden offline brengt. In plaats van statische antwoorden na te bootsen, leert Meissa zowel wanneer externe interactie moet worden aangegaan (strategieselectie) als hoe multi-staps interactie moet worden uitgevoerd (strategie-uitvoering) door gestructureerde trajecten te destilleren uit frontiermodellen. Concreet stellen wij voor: (1) Uniforme trajectmodellering: trajecten (redeneer- en actiesporen) worden weergegeven binnen een enkel staat-actie-waarnemingsformalisme, waardoor één model kan generaliseren over heterogene medische omgevingen. (2) Drielagige gestratificeerde supervisie: de eigen fouten van het model activeren een progressieve escalatie van direct redeneren naar tool-ondersteunde en multi-agent interactie, waarbij expliciet moeilijkheidsbewuste strategieselectie wordt aangeleerd. (3) Prospectief-retrospectieve supervisie: het koppelen van verkennende voorwaartse sporen aan achteraf gerationaliseerde uitvoeringssporen maakt stabiel leren van effectieve interactiebeleid mogelijk. Getraind op 40K gecureerde trajecten, evenaart of overtreft Meissa propriëtaire frontieragents in 10 van de 16 evaluatie-instellingen over 13 medische benchmarks voor radiologie, pathologie en klinisch redeneren. Met meer dan 25x minder parameters dan typische frontiermodellen zoals Gemini-3, opereert Meissa volledig offline met 22x lagere end-to-end latentie vergeleken met API-gebaseerde implementatie. Data, modellen en omgevingen zijn vrijgegeven op https://github.com/Schuture/Meissa.
Wij stellen een volledig geautomatiseerd AI-systeem voor dat korte komische video's produceert, vergelijkbaar met sketchprogramma's zoals Saturday Night Live. Uitgaande van karakterreferenties gebruikt het systeem een populatie van agents die losjes zijn gebaseerd op rollen uit een echte productiestudio, gestructureerd om de kwaliteit en diversiteit van ideeën en output te optimaliseren via iteratieve competitie, evaluatie en verbetering. Een belangrijke bijdrage is de introductie van LLM-critici die zijn afgestemd op de voorkeuren van echte kijkers door analyse van een corpus komische video's op YouTube om humor automatisch te evalueren. Onze experimenten tonen aan dat ons framework resultaten oplevert die de kwaliteit van professioneel geproduceerde sketches benaderen, terwijl het state-of-the-art prestaties demonstreert in videogeneratie.
Huidige geünificeerde multimodale modellen maken doorgaans gebruik van discrete visuele tokenizers om de modaliteitskloof te overbruggen. Discretisatie verliest echter onvermijdelijk fijnmazige semantische informatie, wat leidt tot suboptimale prestaties bij visuele begripstaken. Omgekeerd vormt het direct modelleren van continue semantische representaties (zoals CLIP, SigLIP) aanzienlijke uitdagingen voor hoogdimensionale generatieve modellering, met trage convergentie en trainingsinstabiliteit tot gevolg. Om dit dilemma op te lossen, introduceren we UniCom, een geünificeerd raamwerk dat multimodaal begrip en generatie harmoniseert via gecomprimeerde continue representatie. We tonen empirisch aan dat het verkleinen van de kanaaldimensie aanzienlijk effectiever is dan ruimtelijke downsampling voor zowel reconstructie als generatie. Dienovereenkomstig ontwerpen we een op aandacht gebaseerde semantische compressor om dichte kenmerken te destilleren tot een compacte geünificeerde representatie. Bovendien valideren we dat de transfusion-architectuur query-gebaseerde ontwerpen overtreft in convergentie en consistentie. Experimenten tonen aan dat UniCom state-of-the-art generatieprestaties bereikt onder geünificeerde modellen. Opmerkelijk is dat het door het behoud van rijke semantische priorijen uitzonderlijke bestuurbaarheid biedt bij beeldbewerking en beeldconsistentie handhaaft zelfs zonder afhankelijkheid van VAE.
Sparse autoencoders kunnen lokaliseren waar concepten zich bevinden in taalmodel(len), maar niet hoe ze tijdens meerstapsredenering interacteren. Wij stellen Causale Concept Grafen (CCG) voor: een gerichte acyclische graaf over sparse, interpreteerbare latente kenmerken, waarbij edges aangeleerde causale afhankelijkheden tussen concepten vastleggen. Wij combineren taak-geconditioneerde sparse autoencoders voor conceptontdekking met DAGMA-stijl differentieerbare structuurleren voor grafherstel en introduceren de Causale Fideliteitsscore (CFS) om te evalueren of graf-gestuurde interventies grotere downstream-effecten induceren dan willekeurige. Op ARC-Challenge, StrategyQA en LogiQA met GPT-2 Medium, over vijf seeds (n=15 gepaarde runs), behaalt CCG CFS=5.654±0.625, wat beter presteert dan ROME-stijl tracing (3.382±0.233), SAE-enkel ranking (2.479±0.196) en een willekeurige baseline (1.032±0.034), met p<0.0001 na Bonferroni-correctie. De aangeleerde grafen zijn sparse (5-6% edge-dichtheid), domeinspecifiek en stabiel over seeds heen.
Het genereren van muziek die temporeel is afgestemd op videogebeurtenissen vormt een uitdaging voor bestaande tekst-naar-muziekmodellen, die geen fijnmazige temporele controle bieden. Wij introduceren V2M-Zero, een zero-pair video-naar-muziek-generatiebenadering die tijdelijk uitgelijnde muziek voor video uitvoert. Onze methode is gemotiveerd door een belangrijke observatie: temporele synchronisatie vereist het afstemmen van wanneer en hoeveel verandering optreedt, niet wat er verandert. Hoewel muzikale en visuele gebeurtenissen semantisch verschillen, vertonen ze een gedeelde temporele structuur die onafhankelijk binnen elke modaliteit kan worden vastgelegd. Wij vangen deze structuur op via gebeurtenissencurves berekend uit intramodale gelijkenis met behulp van vooraf getrainde muziek- en video-encoders. Door temporele verandering binnen elke modaliteit onafhankelijk te meten, bieden deze curves vergelijkbare representaties tussen modaliteiten. Dit maakt een eenvoudige trainingsstrategie mogelijk: fine-tune een tekst-naar-muziekmodel op muziek-gebeurtenissencurves, vervang dan video-gebeurtenissencurves tijdens inferentie zonder cross-modale training of gepaarde data. Op OES-Pub, MovieGenBench-Music en AIST++ behaalt V2M-Zero aanzienlijke verbeteringen ten opzichte van baseline-methoden met gepaarde data: 5-21% hogere audiokwaliteit, 13-15% betere semantische afstemming, 21-52% verbeterde temporele synchronisatie en 28% hogere beatafstemming op dansvideo's. Wij vinden vergelijkbare resultaten via een grootschalige crowdsource subjectieve luistertest. Over het algemeen valideren onze resultaten dat temporele afstemming via intramodale kenmerken, in plaats van gepaarde cross-modale supervisie, effectief is voor video-naar-muziekgeneratie. Resultaten zijn beschikbaar op https://genjib.github.io/v2m_zero/.
Nauwkeurige, dichte diepteschatting is cruciaal voor robotperceptie, maar consumentensensoren leveren vaak schaarse of onvolledige metingen op vanwege hardwarebeperkingen. Bestaande RGBD-gefuseerde dieptecompleteringsmethoden leren priors gezamenlijk geconditioneerd op de RGB-trainingsdistributie en specifieke dieptepatronen, wat de domeingeneralizatie en robuustheid voor verschillende dieptepatronen beperkt. Recente inspanningen benutten monocular depth estimation (MDE)-modellen om domeingenerieke geometrische priors in te voeren, maar huidige tweestaps-integratiestrategieën die vertrouwen op expliciete relatieve-naar-metrische alignering veroorzaken extra rekenkosten en introduceren gestructureerde vervormingen. Daarom presenteren we Any2Full, een eentraps, domeingeneriek en patroon-agnostisch framework dat completering herformuleert als een scale-prompting-aanpassing van een voorgetraind MDE-model. Om variërende dieptesparsheidsniveaus en onregelmatige ruimtelijke verdelingen aan te pakken, ontwerpen we een Scale-Aware Prompt Encoder. Deze distilleert schaalaanwijzingen uit schaarse invoer tot verenigde schaalprompts, die het MDE-model leiden naar globaal schaalconsistente voorspellingen terwijl de geometrische priors behouden blijven. Uitgebreide experimenten tonen aan dat Any2Full superieure robuustheid en efficiëntie bereikt. Het overtreft OMNI-DC met 32,2% in gemiddelde AbsREL en levert een 1,4x snelheidswinst op ten opzichte van PriorDA met dezelfde MDE-backbone, waarmee een nieuw paradigma voor universele dieptecompletering wordt gevestigd. Code en checkpoints zijn beschikbaar op https://github.com/zhiyuandaily/Any2Full.
Recente vooruitgang in multi-agent reinforcement learning, met name Policy-Space Response Oracles (PSRO), heeft de berekening van benaderende speltheoretische evenwichten in steeds complexere domeinen mogelijk gemaakt. Deze methoden zijn echter afhankelijk van deep reinforcement learning orakels die 'black-box' neurale netwerk policies produceren, waardoor ze moeilijk te interpreteren, te vertrouwen of te debuggen zijn. Wij introduceren Code-Space Response Oracles (CSRO), een nieuw raamwerk dat deze uitdaging aanpakt door RL-orakels te vervangen door Large Language Models (LLM's). CSRO herformuleert de beste-responsberekening als een code-generatietaak, waarbij een LLM wordt aangezet om policies direct als mensleesbare code te genereren. Deze aanpak levert niet alleen inherent interpreteerbare policies op, maar benut ook de vooraf getrainde kennis van de LLM om complexe, mensachtige strategieën te ontdekken. Wij onderzoeken meerdere manieren om een op LLM gebaseerd orakel te construeren en te verbeteren: zero-shot prompting, iteratieve verfijning en AlphaEvolve, een gedistribueerd op LLM gebaseerd evolutionair systeem. Wij tonen aan dat CSRO prestaties levert die competitief zijn met baseline-methoden, terwijl het een diverse set verklaarbare policies produceert. Ons werk biedt een nieuw perspectief op multi-agent learning, waarbij de focus verschuift van het optimaliseren van ondoorzichtige policyparameters naar het synthetiseren van interpreteerbaar algoritmisch gedrag.
Video-generatieve modellen (VGMs) die zijn voorgetraind op grootschalige internetgegevens kunnen temporeel coherente roll-outvideo's produceren die rijke objectdynamiek vastleggen, wat een overtuigende basis biedt voor zero-shot robotmanipulatie. VGM's produceren echter vaak fysiek onrealistische roll-outs, en het omzetten van hun beweging in de pixelruimte naar robotacties via geometrisch hertargeting introduceert verder cumulatieve fouten door onnauwkeurige diepteschatting en keypoint-tracking. Om deze uitdagingen aan te pakken, presenteren wij , een data-vrij raamwerk dat VGM-uitvoer afstemt op compositionele beperkingen die gegenereerd worden door vision-language modellen (VLMs) tijdens inferentie. Het belangrijkste inzicht is dat VLMs een capaciteit bieden die complementair is aan VGM's: gestructureerd ruimtelijk redeneren dat de fysieke beperkingen kan identificeren die cruciaal zijn voor het succes en de veiligheid van de manipulatie-uitvoering. Gegeven een taalinstructie gebruikt een VLM om automatisch een reeks compositionele beperkingen te extraheren die taakspecifieke vereisten vastleggen. Deze worden vervolgens in twee fasen toegepast: (1) beperking-gestuurde roll-outselectie, die een batch VGM-roll-outs scoort en filtert om de meest fysiek plausibele kandidaat te behouden, en (2) beperking-gebaseerde trajectoptimalisatie, die de geselecteerde roll-out gebruikt als initialisatie en het robottraject onder dezelfde beperkingenset verfijnt om hertargetingfouten te corrigeren. Wij evalueren op zes real-robot manipulatietaken die precieze, beperking-gevoelige uitvoering vereisen, en verbeteren het algemene slagingspercentage met 43,3\%-punten ten opzichte van de sterkste baseline zonder enige taakspecifieke trainingsdata.
Vision Language Models (VLMs) vormen een brug tussen visuele perceptie en linguïstisch redeneren. In autonoom rijden (Autonomous Driving, AD) heeft deze synergie geleid tot Vision Language Action (VLA) modellen, die hoogwaardig multimodaal begrip vertalen naar rijgedrag, typisch voorgesteld als toekomstige trajecten. Echter, bestaande VLA-modellen genereren voornamelijk generieke, botsingsvrije trajecten. Naast het vermijden van botsingen is aanpassing aan diverse rijstijlen (bijv. sportief, comfortabel) essentieel voor gepersonaliseerd rijden. Bovendien behandelen veel methodes trajectgeneratie als een naïeve tokenvoorspelling, wat kinematisch onuitvoerbare acties kan opleveren. Om deze beperkingen aan te pakken, presenteren we StyleVLA, een physics-informed VLA-raamwerk voor het genereren van diverse en fysisch plausibele rijgedragingen. We introduceren een hybride verliesfunctie die een kinematische consistentiebeperking combineert met een continue regressie-head om de haalbaarheid van trajecten te verbeteren. Om StyleVLA, gebaseerd op Qwen3-VL-4B, te trainen, construeren we een grootschalige instructiedataset met meer dan 1.2k scenario's, 76k Bird's Eye View (BEV) samples en 42k First Person View (FPV) samples, met ground-truth trajecten voor vijf rijstijlen en natuurlijktaalinstructies. Experimenten tonen aan dat onze 4B-parameter StyleVLA significant beter presteert dan propriëtaire modellen (zoals Gemini-3-Pro) en state-of-the-art VLA-modellen. Gebruikmakend van een samengestelde rijscore die slagingspercentage, fysische haalbaarheid en stijltrouw meet, behaalt StyleVLA 0.55 op BEV en 0.51 op FPV, tegenover 0.32 en 0.35 voor Gemini-3-Pro. Deze resultaten tonen aan dat een gespecialiseerd, physics-informed, lichtgewicht model gesloten modellen kan overtreffen op domeinspecifieke taken.