Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Een langetermijndoel van taalagentschappen is om te leren en zich te verbeteren door hun eigen ervaring, waardoor ze uiteindelijk mensen overtreffen in complexe, real-world taken. Het trainen van agentschappen op basis van ervaringsdata met reinforcement learning blijft echter moeilijk in veel omgevingen, die ofwel verifieerbare beloningen missen (bijv. websites) of inefficiënte langetermijnrollouts vereisen (bijv. multi-turn toolgebruik). Als gevolg vertrouwen de meeste huidige agentschappen op supervised fine-tuning van expertdata, wat moeilijk schaalbaar is en slecht generaliseert. Deze beperking komt voort uit de aard van expertdemonstraties: ze vangen slechts een beperkt scala aan scenario's in en blootstellen het agentschap aan beperkte omgevingsdiversiteit. Wij pakken deze beperking aan met een tussenliggend paradigma dat we vroege ervaring noemen: interactiedata gegenereerd door de eigen acties van het agentschap, waarbij de resulterende toekomstige staten dienen als supervisie zonder beloningssignalen. Binnen dit paradigma bestuderen we twee strategieën voor het gebruik van dergelijke data: (1) Impliciete wereldmodellering, waarbij verzamelde staten worden gebruikt om het beleid te verankeren in omgevingsdynamiek; en (2) Zelfreflectie, waarbij het agentschap leert van zijn suboptimale acties om redenering en besluitvorming te verbeteren. We evalueren in acht diverse omgevingen en meerdere modelfamilies. Onze benaderingen verbeteren consistent de effectiviteit en generalisatie buiten het domein, wat de waarde van vroege ervaring benadrukt. Bovendien bieden onze resultaten in omgevingen met verifieerbare beloningen veelbelovende signalen dat vroege ervaring een sterke basis biedt voor vervolg-reinforcement learning, waardoor het zich positioneert als een praktische brug tussen imitatieleren en volledig ervaringsgedreven agentschappen.
Hoewel huidige Multimodale Grote Taalmodellen (MLLMs) vaardigheid hebben getoond in redeneertaken zoals wiskunde en logica, blijft hun vermogen voor lange-keten reflectief redeneren, een vereiste voor het oplossen van complexe real-world problemen, grotendeels onontgonnen. In dit werk voeren we eerst een uitgebreid empirisch onderzoek uit om deze capaciteit te evalueren. Met behulp van een zorgvuldig ontworpen data-synthese-engine construeren we MM-HELIX, een multimodaal benchmark bestaande uit 1.260 voorbeelden van 42 uitdagende synthetische taken die iteratief denken en terugspoelen vereisen. Empirische resultaten op deze benchmark laten zien dat bestaande MLLMs aanzienlijke prestatieproblemen vertonen in lange-keten reflectief redeneren. Om deze beperking aan te pakken, genereren we post-trainingsdata en onderzoeken we verder leerparadigma's om dergelijke data te benutten. We ontwikkelen eerst de Step-Elicited Response Generation-pipeline om MM-HELIX-100K te creëren, een grootschalige dataset van 100k hoogwaardige, reflectieve redeneersporen voor de instructie-afstemmingsfase. Gezien het feit dat standaard Reinforcement Learning faalt bij complexe taken vanwege schaarse beloningssignalen en catastrofaal vergeten na Supervised Fine-Tuning, stellen we Adaptive Hybrid Policy Optimization (AHPO) voor, een nieuwe trainingsstrategie die offline supervisie en online optimalisatie dynamisch verenigt in één fase. Deze strategie stelt het model in staat om te leren van expertdata wanneer beloningen schaars zijn en onafhankelijke exploratie uit te voeren zodra het vaardig is. Wanneer toegepast op de Qwen2.5-VL-7B-baseline, behaalt onze methode een nauwkeurigheidsverbetering van +18,6% op de MM-HELIX-benchmark en toont sterke generalisatie met een gemiddelde prestatieverbetering van +5,7% op algemene wiskundige en logische taken. Ons werk toont aan dat reflectief redeneren in MLLMs effectief kan worden geleerd en gegeneraliseerd, wat de weg vrijmaakt voor de ontwikkeling van capabelere MLLMs.
Recente vooruitgang in instructiegebaseerde beeldbewerking en onderwerpgedreven generatie heeft aanzienlijke aandacht gekregen, maar beide taken kampen nog steeds met beperkingen in het voldoen aan praktische gebruikersbehoeften. Instructiegebaseerde bewerking vertrouwt uitsluitend op taal-instructies, die vaak specifieke bewerkingsdetails niet goed vastleggen, waardoor referentiebeelden noodzakelijk zijn. Ondertussen is onderwerpgedreven generatie beperkt tot het combineren van concrete objecten of personen, waarbij bredere, abstracte concepten over het hoofd worden gezien. Om deze uitdagingen aan te pakken, stellen we twee nieuwe taken voor: multimodale instructiegebaseerde bewerking en generatie. Deze taken ondersteunen zowel tekst- als beeldinstructies en breiden het bereik uit om zowel concrete als abstracte concepten te omvatten, wat hun praktische toepassingen aanzienlijk verbetert. We introduceren DreamOmni2, dat twee primaire uitdagingen aanpakt: datacreatie en modelkaderontwerp. Onze datasynthesepipeline bestaat uit drie stappen: (1) het gebruik van een functiemengmethode om extractiedata te creëren voor zowel abstracte als concrete concepten, (2) het genereren van trainingsdata voor multimodale instructiegebaseerde bewerking met behulp van de bewerkings- en extractiemodellen, en (3) het verder toepassen van het extractiemodel om trainingsdata te creëren voor multimodale instructiegebaseerde bewerking. Voor het kader, om multi-image input te verwerken, stellen we een indexcodering en positiecoderingverschuivingsschema voor, wat het model helpt beelden te onderscheiden en pixelverwarring te voorkomen. Daarnaast introduceren we gezamenlijke training met de VLM en ons generatie-/bewerkingsmodel om complexe instructies beter te verwerken. Bovendien hebben we uitgebreide benchmarks voorgesteld voor deze twee nieuwe taken om hun ontwikkeling te stimuleren. Experimenten tonen aan dat DreamOmni2 indrukwekkende resultaten heeft behaald. Modellen en code zullen worden vrijgegeven.
Met de explosieve groei van data is modellering van lange sequenties steeds belangrijker geworden in taken zoals natuurlijke taalverwerking en bio-informatica. Bestaande methoden kampen echter met inherente afwegingen tussen efficiëntie en geheugengebruik. Recursieve neurale netwerken lijden onder het verdwijnen en exploderen van gradiënten, wat het opschalen bemoeilijkt. Transformers kunnen globale afhankelijkheden modelleren, maar worden beperkt door kwadratische complexiteit. Recentelijk hebben selectieve toestandsruimtemodellen zoals Mamba een hoge efficiëntie getoond met O(n)-tijd en O(1) recursieve inferentie, maar hun langeafstandsgeheugen vervalt exponentieel. In dit werk voeren we wiskundige afleidingen en informatie-theoretische analyses uit om systematisch het geheugenvervalmechanisme van Mamba te ontrafelen, waarbij we een fundamentele vraag beantwoorden: wat is de aard van Mamba's langeafstandsgeheugen en hoe behoudt het informatie? Om sleutelinformatieverlies te kwantificeren, introduceren we horizontaal-verticale geheugengetrouwheidsmetrieken die degradatie zowel binnen als tussen lagen vastleggen. Geïnspireerd door hoe mensen essentiële informatie destilleren en behouden bij het lezen van lange documenten, stellen we MemMamba voor, een nieuw architecturaal framework dat een toestandssamenvattingsmechanisme integreert samen met aandacht tussen lagen en tokens, wat langetermijnvergeten vermindert terwijl lineaire complexiteit behouden blijft. MemMamba behaalt significante verbeteringen ten opzichte van bestaande Mamba-varianten en Transformers op lange-sequentiebenchmarks zoals PG19 en Passkey Retrieval, terwijl het een snelheidswinst van 48% biedt in inferentie-efficiëntie. Zowel theoretische analyse als empirische resultaten tonen aan dat MemMamba een doorbraak bereikt in de complexiteit-geheugenafweging, en biedt een nieuw paradigma voor ultra-lange sequentiemodellering.
Unified multimodale modellen hebben veelbelovende resultaten getoond in het genereren en bewerken van multimodale inhoud, maar blijven grotendeels beperkt tot het beelddomein. In dit werk presenteren we UniVideo, een veelzijdig framework dat unified modeling uitbreidt naar het videodomein. UniVideo hanteert een dual-stream ontwerp, waarbij een Multimodal Large Language Model (MLLM) voor instructiebegrip wordt gecombineerd met een Multimodal DiT (MMDiT) voor videogeneratie. Dit ontwerp maakt een nauwkeurige interpretatie van complexe multimodale instructies mogelijk, terwijl visuele consistentie behouden blijft. Gebaseerd op deze architectuur verenigt UniVideo diverse videogeneratie- en bewerkingstaken onder een enkel multimodaal instructieparadigma en wordt het gezamenlijk getraind over deze taken. Uitgebreide experimenten tonen aan dat UniVideo de state-of-the-art taakspecifieke baselines evenaart of overtreft in tekst-/beeld-naar-video generatie, in-context videogeneratie en in-context videobewerking. Opmerkelijk is dat het unified ontwerp van UniVideo twee vormen van generalisatie mogelijk maakt. Ten eerste ondersteunt UniVideo taakcompositie, zoals het combineren van bewerkingen met stijloverdracht, door meerdere mogelijkheden te integreren binnen een enkele instructie. Ten tweede, zelfs zonder expliciete training op vrijgevormde videobewerking, transfereert UniVideo zijn bewerkingscapaciteit van grootschalige beeldbewerkingsdata naar deze setting, waarbij het ongeziene instructies aankan, zoals het green-screenen van personages of het veranderen van materialen binnen een video. Naast deze kernmogelijkheden ondersteunt UniVideo ook visueel-gestuurde videogeneratie, waarbij de MLLM visuele prompts interpreteert en de MMDiT begeleidt tijdens de synthese. Om toekomstig onderzoek te bevorderen, zullen we ons model en code vrijgeven.
We introduceren de taak van willekeurige spatio-temporele videovoltooiing, waarbij een video wordt gegenereerd uit willekeurige, door de gebruiker gespecificeerde patches die op elke ruimtelijke locatie en tijdstempel worden geplaatst, vergelijkbaar met schilderen op een videocanvas. Deze flexibele formulering verenigt van nature veel bestaande beheersbare videogeneratietaken—waaronder first-frame image-to-video, inpainting, extensie en interpolatie—onder een enkel, samenhangend paradigma. Het realiseren van deze visie stuit echter op een fundamenteel obstakel in moderne latente videodiffusiemodellen: de temporele ambiguïteit die wordt geïntroduceerd door causale VAEs, waarbij meerdere pixelframes worden samengedrukt in een enkele latente representatie, wat precieze frame-level conditionering structureel moeilijk maakt. We pakken deze uitdaging aan met VideoCanvas, een nieuw framework dat het In-Context Conditioning (ICC)-paradigma aanpast aan deze fijnmazige controle-taak zonder nieuwe parameters. We stellen een hybride conditioneringsstrategie voor die ruimtelijke en temporele controle ontkoppelt: ruimtelijke plaatsing wordt afgehandeld via zero-padding, terwijl temporele uitlijning wordt bereikt door middel van Temporal RoPE Interpolation, die elke conditie een continue fractionele positie binnen de latente sequentie toekent. Dit lost de temporele ambiguïteit van de VAE op en maakt pixelframe-bewuste controle mogelijk op een bevroren backbone. Om deze nieuwe mogelijkheid te evalueren, ontwikkelen we VideoCanvasBench, de eerste benchmark voor willekeurige spatio-temporele videovoltooiing, die zowel intra-scène trouw als inter-scène creativiteit omvat. Experimenten tonen aan dat VideoCanvas bestaande conditioneringsparadigma's aanzienlijk overtreft, wat een nieuwe standaard vestigt in flexibele en verenigde videogeneratie.
Recente studies over redeneermodellen onderzoeken het meta-bewustzijn van taalmodel- len, het vermogen om zelf te weten hoe te denken. Wij stellen dat grote redeneermodellen dit meta-bewustzijn missen door een ernstige misalignering aan te tonen tussen echte rollouts en voorspelde meta-informatie. Wij beweren dat het aligneren van meta-voorspel- lingen met echte rollouts zal leiden tot aanzienlijke prestatieverbeteringen. Om deze hypothese te verifiëren, ontwerpen we een trainingspijplijn die Meta-Bewustzijn via Zelf- Alignering (MASA) bevordert, en bewijzen we dat verbeterd meta-bewustzijn direct vertaalt naar hogere nauwkeurigheid. In tegenstelling tot bestaande meta-cognitieve redeneermodel- len, vereist onze methode geen externe trainingsbronnen, maar maakt gebruik van zelf- gegenereerde signalen om meta-bewustzijn te trainen. Bovendien maakt onze methode effi- ciënte training mogelijk door i) prompts met nulvariantie die triviaal of onoplosbaar zijn, uit te filteren en ii) lange rollouts af te kappen wanneer ze waarschijnlijk niet tot correcte antwoorden zullen leiden. De resultaten zijn inspirerend: onze strategie levert aanzienlijke verbeteringen op in zowel nauwkeurigheid als trainingsefficiëntie bij taken binnen het domein en toont sterke generalisatie naar benchmarks buiten het domein. Meer specifiek kan onze methode GRPO-training met meer dan 1,28x versnellen om dezelfde prestatie te bereiken, en een nauwkeurigheidsverbetering van 19,3% behalen op AIME25, en een gemiddelde verbetering van 6,2% over zes wiskundige benchmarks. Training met meta-cognitieve begeleiding verbetert de generalisatie buiten het domein, wat een verbetering van 3,87% oplevert op GPQA-Diamond en een algehele nauwkeurigheidsverbetering van 2,08% over 13 benchmarks die logische, wetenschappelijke en coderingsdomeinen beslaan.
De aanbeveling van chemische reacties is het selecteren van geschikte reactieconditieparameters voor chemische reacties, wat cruciaal is voor het versnellen van de chemische wetenschap. Met de snelle ontwikkeling van grote taalmodellen (LLM's) is er een groeiende interesse in het benutten van hun redeneer- en planningscapaciteiten voor het aanbevelen van reactiecondities. Ondanks hun succes leggen bestaande methoden zelden de redenering achter de aanbevolen reactiecondities uit, wat hun bruikbaarheid in wetenschappelijke workflows met hoge inzet beperkt. In dit werk stellen we ChemMAS voor, een multi-agent systeem dat het voorspellen van condities herformuleert als een op bewijs gebaseerde redeneertaak. ChemMAS verdeelt de taak in mechanistische onderbouwing, multi-kanaal herinnering, beperkingsbewuste agentische discussie en redeneringsaggregatie. Elke beslissing wordt ondersteund door interpreteerbare rechtvaardigingen die zijn gebaseerd op chemische kennis en opgehaalde precedenten. Experimenten tonen aan dat ChemMAS 20-35% winst behaalt ten opzichte van domeinspecifieke referentiemodellen en algemene LLM's met 10-15% overtreft in Top-1 nauwkeurigheid, terwijl het falsifieerbare, mens-vertrouwbare redeneringen biedt. Dit vestigt een nieuw paradigma voor verklaarbare AI in wetenschappelijke ontdekkingen.
Recente Long-Context Taalmodellen (LCLMs) kunnen honderdduizenden tokens in een enkele prompt verwerken, wat nieuwe mogelijkheden biedt voor kennisintensieve multi-hop redenering door grote sets opgehaalde documenten te integreren of, in sommige gevallen, direct alle benodigde informatie. Echter, simpelweg meer documenten in het contextvenster voeren, faalt om vast te leggen hoe bewijs met elkaar verbonden zou moeten worden. Wij adresseren deze kloof met gedachtesjablonen, die redenering herformuleren als herbruikbare gedachtencaches, afgeleid van eerdere probleemoplossingstrajecten, die structureren hoe bewijs wordt gecombineerd en multi-hop inferentie begeleiden met feitelijke documenten. Om deze sjablonen effectief te houden, stellen we een update-strategie voor die sjablonen afgeleid van trainingsdata iteratief verfijnt door middel van feedback in natuurlijke taal. Over diverse benchmarks en LCLM-families heen levert onze aanpak consistente verbeteringen op ten opzichte van sterke basislijnen, zowel in opzoekingsgebaseerde als opzoekingsvrije settings. Bovendien tonen we aan dat geoptimaliseerde sjablonen kunnen worden gedistilleerd in kleinere open-source modellen, wat de brede toepasbaarheid en transparante hergebruik van redenering aantoont. Wij verwijzen naar ons framework als Thought Template Augmented LCLMs (ToTAL).
Reinforcement Learning met Verifieerbare Beloningen (RLVR) heeft Large Language Models vooruitgestuwd in complex redeneren, maar de schaalbaarheid wordt vaak belemmerd door een trainingsknelpunt waarbij de prestaties stagneren naarmate de entropie van het beleid ineenstort, wat wijst op een verlies van exploratie. Eerdere methoden pakken dit typisch aan door een hoge beleidsentropie te behouden, maar de precieze mechanismen die zinvolle exploratie sturen, zijn onderbelicht gebleven. Onze analyse suggereert dat een onselectieve focus op entropie het risico loopt irrelevante tokens te versterken en de training te destabiliseren. Dit artikel onderzoekt de exploratiedynamiek binnen RLVR en identificeert een kernprobleem: de geleidelijke eliminatie van waardevolle tokens met een lage waarschijnlijkheid voor exploratie, die we \textit{redeneringsvonken} noemen. We constateren dat hoewel deze vonken overvloedig aanwezig zijn in vooraf getrainde modellen, ze systematisch worden uitgedoofd tijdens RLVR door overmatige bestraffing, wat leidt tot een degeneratie van exploratie. Om dit aan te pakken, introduceren we Low-probability Regularization (Lp-Reg). Het kernmechanisme regulariseert het beleid naar een heuristische proxyverdeling. Deze proxy wordt geconstrueerd door vermeende ruistokens uit te filteren en de verdeling over de resterende kandidaten te hernormaliseren. Het resultaat is een minder ruisachtige proxy waarin de waarschijnlijkheid van redeneringsvonken wordt versterkt, die vervolgens dient als een zachte regularisatiedoelstelling om deze waardevolle tokens te beschermen tegen eliminatie via KL-divergentie. Experimenten tonen aan dat Lp-Reg stabiele on-policy training mogelijk maakt voor ongeveer 1.000 stappen, een regime waarin baseline methoden voor entropiebeheersing instorten. Deze aanhoudende exploratie leidt tot state-of-the-art prestaties, met een gemiddelde nauwkeurigheid van 60,17% op vijf wiskundige benchmarks, een verbetering van 2,66% ten opzichte van eerdere methoden. Code is beschikbaar op https://github.com/CarlanLark/Lp-Reg.
Recente ontwikkelingen in Large Language Model (LLM)-agenten hebben hun veelbelovende algemene capaciteiten aangetoond. Hun prestaties in gespecialiseerde, real-world domeinen verslechteren echter vaak door uitdagingen bij het effectief integreren van externe tools en specifieke promptingstrategieën. Hoewel methoden zoals agentic reinforcement learning zijn voorgesteld om dit aan te pakken, zijn deze doorgaans afhankelijk van kostbare parameterupdates, bijvoorbeeld via een proces dat gebruikmaakt van Supervised Fine-Tuning (SFT) gevolgd door een Reinforcement Learning (RL)-fase met Group Relative Policy Optimization (GRPO) om de uitvoerdistributie aan te passen. Wij stellen echter dat LLM's een vergelijkbaar effect op de uitvoerdistributie kunnen bereiken door ervaringskennis te leren als een token prior, wat een veel lichtere benadering is die niet alleen praktische dataschaarste aanpakt, maar ook het veelvoorkomende probleem van overfitting vermijdt. Hiertoe stellen wij Training-Free Group Relative Policy Optimization (Training-Free GRPO) voor, een kosteneffectieve oplossing die de prestaties van LLM-agenten verbetert zonder parameterupdates. Onze methode benut het groepsrelatieve semantische voordeel in plaats van numerieke voordelen binnen elke groep van rollouts, waarbij hoogwaardige ervaringskennis iteratief wordt gedestilleerd tijdens multi-epoch leren op minimale grondwaarheidgegevens. Deze kennis dient als de geleerde token prior, die naadloos wordt geïntegreerd tijdens LLM API-aanroepen om het modelgedrag te sturen. Experimenten op het gebied van wiskundig redeneren en webzoeken tonen aan dat Training-Free GRPO, wanneer toegepast op DeepSeek-V3.1-Terminus, de out-of-domain prestaties aanzienlijk verbetert. Met slechts enkele tientallen trainingsamples overtreft Training-Free GRPO gefinetunde kleine LLM's met marginale trainingsgegevens en -kosten.
Het benutten van de kracht van LLM's vereist een delicate balans tussen behulpzaamheid en onschadelijkheid. Dit creëert een fundamentele spanning tussen twee concurrerende uitdagingen: kwetsbaarheid voor adversariële aanvallen die onveilige inhoud uitlokken, en een neiging tot overmatige weigering bij goedaardige maar gevoelige prompts. Huidige benaderingen navigeren deze balans vaak met beveiligingsmodellen die alle inhoud die onveilige delen bevat volledig afwijzen. Deze aanpak stopt de muziek volledig – het kan overmatige weigeringen verergeren en biedt geen genuanceerde begeleiding voor queries die het afwijst. Om modellen een meer gecoördineerde choreografie aan te leren, stellen we WaltzRL voor, een nieuw multi-agent reinforcement learning-framework dat veiligheidsafstemming formuleert als een collaboratief, positief-som spel. WaltzRL traint gezamenlijk een conversatieagent en een feedbackagent, waarbij de laatste wordt gestimuleerd om nuttige suggesties te geven die de veiligheid en behulpzaamheid van de reacties van de conversatieagent verbeteren. De kern van WaltzRL is een Dynamische Verbeteringsbeloning (DIR) die in de loop van de tijd evolueert op basis van hoe goed de conversatieagent de feedback integreert. Tijdens inferentie worden onveilige of overmatig weigerende reacties van de conversatieagent verbeterd in plaats van weggegooid. De feedbackagent wordt samen met de conversatieagent ingezet en engageert alleen adaptief wanneer nodig, waardoor behulpzaamheid en lage latentie behouden blijven bij veilige queries. Onze experimenten, uitgevoerd over vijf diverse datasets, tonen aan dat WaltzRL zowel onveilige reacties (bijvoorbeeld van 39,0% naar 4,6% op WildJailbreak) als overmatige weigeringen (van 45,3% naar 9,9% op OR-Bench) significant vermindert in vergelijking met verschillende baselines. Door de conversatie- en feedbackagenten in staat te stellen samen te evolueren en feedback adaptief toe te passen, verbetert WaltzRL de veiligheid van LLM's zonder algemene capaciteiten te verslechteren, waardoor het Pareto-front tussen behulpzaamheid en onschadelijkheid wordt bevorderd.
On-the-fly 3D-reconstructie uit monoscopische beeldsequenties is een lang bestaande uitdaging in computervisie, cruciaal voor toepassingen zoals real-to-sim, AR/VR en robotica. Bestaande methoden kampen met een belangrijke afweging: per-scene optimalisatie levert hoge nauwkeurigheid op maar is rekenkundig duur, terwijl feed-forward foundationmodellen real-time inferentie mogelijk maken maar moeite hebben met nauwkeurigheid en robuustheid. In dit werk stellen we ARTDECO voor, een geïntegreerd raamwerk dat de efficiëntie van feed-forward modellen combineert met de betrouwbaarheid van SLAM-gebaseerde pijplijnen. ARTDECO gebruikt 3D foundationmodellen voor pose-estimatie en puntvoorspelling, gekoppeld aan een Gaussische decoder die multi-schaal kenmerken omzet in gestructureerde 3D Gaussians. Om zowel nauwkeurigheid als efficiëntie op schaal te behouden, ontwerpen we een hiërarchische Gaussische representatie met een LoD-bewuste renderingstrategie, die de renderingnauwkeurigheid verbetert en redundantie vermindert. Experimenten op acht diverse indoor- en outdoor benchmarks tonen aan dat ARTDECO interactieve prestaties levert die vergelijkbaar zijn met SLAM, robuustheid die lijkt op feed-forward systemen, en reconstructiekwaliteit die dicht in de buurt komt van per-scene optimalisatie, wat een praktische weg biedt naar on-the-fly digitalisering van real-world omgevingen met zowel nauwkeurige geometrie als hoge visuele kwaliteit. Bekijk meer demo's op onze projectpagina: https://city-super.github.io/artdeco/.
Post-training voor redenering van grote taalmodellen (LLMs) vertrouwt steeds meer op verifieerbare beloningen: deterministische checkers die 0-1 correctheidssignalen leveren. Hoewel betrouwbaar, is dergelijke binaire feedback broos—veel taken laten gedeeltelijk correcte of alternatieve antwoorden toe die verifiers onderwaarderen, en de resulterende alles-of-niets-begeleiding beperkt het leren. Beloningsmodellen bieden rijkere, continue feedback, die kan dienen als een complementair begeleidingssignaal voor verifiers. We introduceren HERO (Hybrid Ensemble Reward Optimization), een reinforcement learning-framework dat verifiersignalen op een gestructureerde manier integreert met scores van beloningsmodellen. HERO gebruikt gestratificeerde normalisatie om scores van beloningsmodellen te begrenzen binnen door verifiers gedefinieerde groepen, waarbij correctheid behouden blijft terwijl kwaliteitsonderscheidingen worden verfijnd, en variantiebewuste weging om uitdagende prompts te benadrukken waar dichte signalen het meest van belang zijn. Over diverse wiskundige redeneerbenchmarks presteert HERO consistent beter dan alleen RM- en alleen verifier-baselines, met sterke verbeteringen op zowel verifieerbare als moeilijk te verifiëren taken. Onze resultaten tonen aan dat hybride beloningsontwerp de stabiliteit van verifiers behoudt terwijl de nuance van beloningsmodellen wordt benut om redenering te bevorderen.
Grote taalmodellen ontwikkelen zich als krachtige hulpmiddelen voor het ontdekken van wetenschappelijke wetten, een fundamentele uitdaging in AI-gestuurde wetenschap. Bestaande benchmarks voor deze taak kampen echter met een fundamenteel methodologisch trilemma, waardoor een afweging moet worden gemaakt tussen wetenschappelijke relevantie, schaalbaarheid en weerstand tegen memorisatie. Bovendien vereenvoudigen ze ontdekking te veel als statische functiebenadering, waardoor het authentieke wetenschappelijke proces van het blootleggen van ingebedde wetten door interactieve verkenning van complexe modelsystemen niet wordt vastgelegd. Om deze kritieke tekortkomingen aan te pakken, introduceren we NewtonBench, een benchmark bestaande uit 324 taken voor het ontdekken van wetenschappelijke wetten in 12 fysicadomeinen. Ons ontwerp verlicht het evaluatietrilemma door gebruik te maken van metafysische verschuivingen - systematische aanpassingen van canonieke wetten - om een uitgebreide reeks problemen te genereren die schaalbaar, wetenschappelijk relevant en memorisatiebestendig zijn. Bovendien verheffen we de evaluatie van statische functiebenadering naar interactief modelontdekking, waarbij agents experimenteel gesimuleerde complexe systemen moeten verkennen om verborgen principes te ontrafelen. Onze uitgebreide experimenten onthullen een duidelijke maar kwetsbare ontdekkingscapaciteit in geavanceerde taalmodellen: dit vermogen degradeert snel bij toenemende systeemcomplexiteit en vertoont extreme gevoeligheid voor observationele ruis. Opmerkelijk is dat we een paradoxaal effect van toolondersteuning ontdekken: het aanbieden van een code-interpreter kan capabelere modellen hinderen door een voortijdige verschuiving van exploratie naar exploitatie te veroorzaken, waardoor ze genoegen nemen met suboptimale oplossingen. Deze resultaten tonen aan dat robuuste, generaliseerbare ontdekking in complexe, interactieve omgevingen de kernuitdaging blijft. Door een schaalbare, robuuste en wetenschappelijk authentieke testomgeving te bieden, biedt NewtonBench een cruciaal hulpmiddel om echte vooruitgang te meten en de ontwikkeling van volgende generatie AI-agents te begeleiden die in staat zijn tot authentieke wetenschappelijke ontdekking.
Grote taalmodellen hebben recentelijk aanzienlijke vooruitgang geboekt in redeneervaardigheden, wat vaak wordt toegeschreven aan hun vermogen om langere gedachtegangen te genereren en reflectief redeneren toe te passen. Echter blijft de bijdrage van reflecties aan prestatieverbetering onduidelijk. In dit artikel analyseren we systematisch de uitvoeringen van acht redeneermodellen op vijf wiskundige datasets. We richten ons op reflectief gedrag waarbij het model al een antwoord heeft geproduceerd maar blijft reflecteren voordat het zijn uitvoer finaliseert. Onze analyse toont aan dat reflecties voornamelijk bevestigend zijn en zelden het initiële antwoord van het model veranderen, een patroon dat consistent is over modellen en datasets. Om de rol van reflecties in training te begrijpen, construeren we supervised fine-tuning (SFT) datasets met variërende aantallen reflectiestappen. We observeren dat het trainen van modellen op uitvoeringen met meer reflectiestappen vooral de correctheid van het eerste antwoord verbetert, in plaats van het vermogen om initieel foute antwoorden via reflecties te corrigeren. Dit motiveert ons om een vraagbewuste early-stopping methode voor te stellen die de token-efficiëntie tijdens inferentie verbetert door het redeneerproces te stoppen zodra een paar plausibele kandidaat-antwoorden zijn gegenereerd, waardoor onnodige reflectiestappen worden verminderd. Hierdoor geïnspireerd stellen we verder voor om de reflecties dynamisch af te kappen nadat een kandidaat-antwoord is verschenen tijdens de generatie, wat het aantal redeneertokens met 24,5% reduceert over vijf wiskundige datasets, binnen een nauwkeurigheidsdaling van 2,9%.
Parallel scaling is uitgegroeid tot een krachtig paradigma om de redeneervaardigheden van grote taalmodellen (LLMs) te verbeteren door meerdere Chain-of-Thought (CoT)-sporen gelijktijdig te genereren. Deze aanpak introduceert echter aanzienlijke computationele inefficiëntie vanwege redundantie tussen sporen – onze analyse toont aan dat meer dan 80% van de parallelle redeneersporen tot identieke eindantwoorden leidt, wat staat voor aanzienlijke verspilling van rekenkracht. Om dit kritieke efficiëntieprobleem aan te pakken, stellen we DeepPrune voor, een nieuw raamwerk dat efficiënte parallelle scaling mogelijk maakt door dynamisch snoeien. Onze methode omvat een gespecialiseerd beoordelingsmodel dat is getraind met focal loss en oversamplingtechnieken om nauwkeurig antwoordgelijkheid te voorspellen op basis van gedeeltelijke redeneersporen, wat een AUROC van 0,87 realiseert voor equivalentievoorspelling, gecombineerd met een online greedy clustering-algoritme dat redundantie dynamisch verwijdert terwijl antwoorddiversiteit behouden blijft. Uitgebreide evaluaties over drie uitdagende benchmarks (AIME 2024, AIME 2025 en GPQA) en meerdere redeneermodellen tonen aan dat DeepPrune een opmerkelijke tokenreductie van meer dan 80% bereikt vergeleken met conventionele consensus sampling in de meeste gevallen, terwijl het competitieve nauwkeurigheid binnen 3 procentpunten behoudt. Ons werk stelt een nieuwe standaard voor efficiënte parallelle redenering, waardoor hoogwaardige redenering efficiënter wordt. Onze code en data zijn hier beschikbaar: https://deepprune.github.io/
Eerder onderzoek heeft aangetoond dat LLM's die zijn afgestemd op kwaadaardige of incorrecte voltooiingen binnen specifieke domeinen (bijvoorbeeld onveilige code of incorrect medisch advies) breed misaligned kunnen raken en schadelijk gedrag kunnen vertonen, wat emergent misalignment wordt genoemd. In dit werk onderzoeken we of dit fenomeen zich kan uitstrekken buiten veiligheidsgedrag naar een breder spectrum van oneerlijkheid en bedrog in hoogrisicosituaties (bijvoorbeeld liegen onder druk en bedrieglijk gedrag). Om dit te onderzoeken, hebben we open-source LLM's afgestemd op misaligned voltooiingen in diverse domeinen. Experimentele resultaten tonen aan dat LLM's breed misaligned gedrag vertonen in oneerlijkheid. Daarnaast verkennen we dit fenomeen verder in een downstream gecombineerde afstemningssetting, en we ontdekken dat het introduceren van slechts 1% misalignment-data in een standaard downstream-taak voldoende is om eerlijk gedrag met meer dan 20% te verminderen. Bovendien beschouwen we een meer praktische mens-AI-interactieomgeving waarin we zowel goedaardige als bevooroordeelde gebruikers simuleren die interacteren met de assistent-LLM. Opmerkelijk is dat we ontdekken dat de assistent onbedoeld misaligned kan raken, waardoor zijn oneerlijkheid verergert met slechts 10% bevooroordeelde gebruikerspopulatie. Samenvattend breiden we de studie van emergent misalignment uit naar het domein van oneerlijkheid en bedrog in hoogrisicosituaties, en demonstreren we dat dit risico niet alleen ontstaat door directe afstemming, maar ook in downstream mengtaken en praktische mens-AI-interacties.
Grote Taalmodellen hebben opmerkelijke capaciteiten getoond in diverse domeinen, maar er blijven aanzienlijke uitdagingen bestaan bij het inzetten ervan als AI-agenten voor real-world langetermijntaken. Bestaande LLM-agenten kampen met een kritieke beperking: ze zijn statisch tijdens het testen en kunnen niet leren van ervaringen, waardoor ze niet in staat zijn om kennis op te bouwen en zich continu te verbeteren tijdens het werk. Om deze uitdaging aan te pakken, stellen we MUSE voor, een nieuw agentframework dat een ervaringsgestuurd, zelf-evoluerend systeem introduceert, gecentreerd rond een hiërarchische Geheugenmodule. MUSE organiseert diverse niveaus van ervaring en benut deze om langetermijntaken te plannen en uit te voeren in meerdere toepassingen. Na de uitvoering van elke subtaak reflecteert de agent autonoom op zijn traject, waarbij het ruwe traject wordt omgezet in gestructureerde ervaring en teruggeïntegreerd in de Geheugenmodule. Dit mechanisme stelt de agent in staat om zich te ontwikkelen voorbij zijn statische vooraf getrainde parameters, wat continue leren en zelf-evolutie bevordert. We evalueren MUSE op de langetermijnproductiviteitsbenchmark TAC. Het behaalt een nieuwe state-of-the-art (SOTA) prestatie met een aanzienlijke marge, waarbij slechts een lichtgewicht Gemini-2.5 Flash-model wordt gebruikt. Uitgebreide experimenten tonen aan dat naarmate de agent autonoom ervaring opdoet, hij steeds superieure taakuitvoeringscapaciteiten vertoont, evenals robuuste continue leer- en zelf-evolutiecapaciteiten. Bovendien vertoont de opgebouwde ervaring van MUSE sterke generalisatie-eigenschappen, waardoor zero-shot verbetering op nieuwe taken mogelijk wordt. MUSE vestigt een nieuw paradigma voor AI-agenten die in staat zijn tot automatisering van real-world productiviteitstaken.
We behandelen de taak van videostijloverdracht met diffusiemodellen, waarbij het doel is om de context van een invoervideo te behouden terwijl deze wordt weergegeven in een doelstijl die wordt gespecificeerd door een tekstprompt. Een grote uitdaging is het gebrek aan gepaarde videogegevens voor supervisie. We stellen PickStyle voor, een video-naar-video stijloverdrachtsframework dat voorgetrainde videodiffusie-backbones uitbreidt met stijladapters en profiteert van gepaarde stilstaande beeldgegevens met bron-stijlcorrespondenties voor training. PickStyle voegt low-rank adapters in in de self-attention lagen van conditioneringsmodules, waardoor efficiënte specialisatie voor beweging-stijloverdracht mogelijk wordt gemaakt terwijl een sterke afstemming tussen videocontent en stijl wordt behouden. Om de kloof tussen statische beeldsupervisie en dynamische video te overbruggen, construeren we synthetische trainingsclips uit gepaarde beelden door gedeelde augmentaties toe te passen die camerabeweging simuleren, waardoor temporele priors worden behouden. Daarnaast introduceren we Context-Style Classifier-Free Guidance (CS-CFG), een nieuwe factorisatie van classifier-free guidance in onafhankelijke tekst (stijl) en video (context) richtingen. CS-CFG zorgt ervoor dat context wordt behouden in gegenereerde video terwijl de stijl effectief wordt overgedragen. Experimenten over benchmarks tonen aan dat onze aanpak temporeel coherente, stijltrouwe en contentbehoudende videotranslaties bereikt, waarbij bestaande baseline-methoden zowel kwalitatief als kwantitatief worden overtroffen.
Gecascadeerde video-superresolutie is naar voren gekomen als een veelbelovende techniek om de rekenlast te ontkoppelen die gepaard gaat met het genereren van hoogwaardige video's met behulp van grote foundation-modellen. Bestaande studies zijn echter grotendeels beperkt tot tekst-naar-video taken en benutten geen aanvullende generatieve condities buiten tekst, die cruciaal zijn voor het waarborgen van betrouwbaarheid bij multi-modale videogeneratie. Wij pakken deze beperking aan door UniMMVSR te presenteren, het eerste verenigde generatieve video-superresolutie raamwerk dat hybride-modale condities integreert, waaronder tekst, afbeeldingen en video's. We voeren een uitgebreid onderzoek uit naar conditie-injectiestrategieën, trainingsschema's en data-mengtechnieken binnen een latent video-diffusiemodel. Een belangrijke uitdaging was het ontwerpen van verschillende data-constructie- en conditiegebruiksmethoden om het model in staat te stellen alle conditietypen precies te benutten, gezien hun uiteenlopende correlaties met de doelvideo. Onze experimenten tonen aan dat UniMMVSR aanzienlijk beter presteert dan bestaande methoden, waarbij video's worden geproduceerd met superieure details en een hogere mate van conformiteit aan multi-modale condities. We valideren ook de haalbaarheid van het combineren van UniMMVSR met een basismodel om multi-modale geleide generatie van 4K-video te bereiken, een prestatie die voorheen onbereikbaar was met bestaande technieken.
Compositionele training is de facto het paradigma geweest in bestaande Multimodale Grote Taalmodellen (MLLMs), waarbij vooraf getrainde visuele encoders worden verbonden met vooraf getrainde LLMs door middel van continue multimodale voorpretraining. Het multimodale schaaleigenschap van dit paradigma blijft echter moeilijk te verkennen vanwege de gescheiden training. In dit artikel richten we ons op de native training van MLLMs op een end-to-end manier en bestuderen we systematisch de ontwerpruimte en schaaleigenschappen onder een praktische setting, namelijk databeperking. Door zorgvuldige studie van verschillende keuzes in MLLM, verkrijgen we de optimale meta-architectuur die prestaties en trainingskosten het beste in balans brengt. Daarna verkennen we verder de schaaleigenschappen van de native MLLM en wijzen we op de positief gecorreleerde schaalrelatie tussen visuele encoders en LLMs. Op basis van deze bevindingen stellen we een native MLLM voor genaamd NaViL, gecombineerd met een eenvoudig en kosteneffectief recept. Experimentele resultaten op 14 multimodale benchmarks bevestigen de competitieve prestaties van NaViL ten opzichte van bestaande MLLMs. Daarnaast bieden onze bevindingen en resultaten diepgaande inzichten voor toekomstig onderzoek naar native MLLMs.
Zelf-evolutie is een centraal onderzoeksonderwerp bij het mogelijk maken van grote taalmodel (LLM)-gebaseerde agents om hun capaciteiten continu te verbeteren na voorafgaande training. Recent onderzoek heeft een overgang gezien van methoden zonder reinforcement learning (RL) naar RL-gebaseerde methoden. Huidige RL-gebaseerde methoden vertrouwen ofwel op dichte externe beloningssignalen of halen intrinsieke beloningssignalen uit de LLM's zelf. Deze benaderingen wijken echter af van de zelf-evolutiemechanismen die worden waargenomen bij menselijke intelligentie, waar individuen leren en verbeteren door onderlinge discussie en samenwerking. In dit werk introduceren we Co-Evolving Multi-Agent Systems (CoMAS), een nieuw framework dat agents in staat stelt om autonoom te verbeteren door te leren van interacties tussen agents zonder externe supervisie. CoMAS genereert intrinsieke beloningen uit rijke discussiedynamieken, gebruikt een LLM-als-rechtermechanisme om deze beloningen te formuleren, en optimaliseert het beleid van elke agent via RL, waardoor gedecentraliseerde en schaalbare co-evolutie mogelijk wordt. Experimentele resultaten tonen aan dat CoMAS consistent beter presteert dan ongetrainde agents en state-of-the-art prestaties bereikt in de meeste evaluatieomgevingen. Ablatiestudies bevestigen de noodzaak van interactiegebaseerde beloningssignalen en laten veelbelovende schaalbaarheid zien naarmate het aantal en de diversiteit van agents toenemen. Deze bevindingen vestigen CoMAS als een nieuw en effectief paradigma voor zelf-evolutie in LLM-gebaseerde agents.
Met recente vooruitgang in Multimodale Grote Taalmodellen (MLLMs) die een sterk visueel begrip en redeneren tonen, groeit de interesse om deze te gebruiken om de bewerkingsprestaties van diffusiemodellen te verbeteren. Ondanks snelle vooruitgang ontbreekt het bij de meeste studies aan een diepgaande analyse van de ontwerpkeuzes voor MLLMs. Bovendien blijft de integratie van MLLMs en diffusiemodellen een uitdaging bij sommige moeilijke taken, zoals videobewerking. In dit artikel presenteren we InstructX, een uniform raamwerk voor beeld- en videobewerking. Specifiek voeren we een uitgebreide studie uit naar de integratie van MLLMs en diffusiemodellen voor instructiegestuurde bewerkingen in diverse taken. Op basis van deze studie analyseren we de samenwerking en het onderscheid tussen beelden en video's in uniforme modellering. (1) We laten zien dat training op beeldgegevens kan leiden tot opkomende videobewerkingsmogelijkheden zonder expliciete supervisie, waardoor de beperkingen door schaarse videotrainingsgegevens worden verlicht. (2) Door het opnemen van modalitiespecifieke MLLM-kenmerken verenigt onze aanpak beeld- en videobewerkingstaken effectief binnen één model. Uitgebreide experimenten tonen aan dat onze methode een breed scala aan beeld- en videobewerkingstaken aankan en state-of-the-art prestaties bereikt.
Multimodale retrieval-augmented generation (MM-RAG) is een belangrijke benadering voor het toepassen van grote taalmodellen (LLM's) en agents op kennisbanken uit de echte wereld. Huidige evaluaties zijn echter gefragmenteerd, waarbij de focus ligt op tekst of afbeeldingen in isolatie of op vereenvoudigde multimodale opstellingen die documentgerichte multimodale use cases niet goed weergeven. In dit artikel introduceren we UniDoc-Bench, de eerste grootschalige, realistische benchmark voor MM-RAG, gebouwd op basis van 70k pagina's uit echte PDF-documenten uit acht domeinen. Onze pijplijn extraheert en koppelt bewijs uit tekst, tabellen en figuren, en genereert vervolgens 1.600 multimodale vraag-antwoordparen die zich uitstrekken over feitelijke retrieval, vergelijking, samenvatting en logische redenering. Om de betrouwbaarheid te waarborgen, wordt 20% van de vraag-antwoordparen gevalideerd door meerdere annotators en expertadjudicatie. UniDoc-Bench ondersteunt een eerlijke vergelijking tussen vier paradigma's: (1) alleen tekst, (2) alleen afbeeldingen, (3) multimodale tekst-afbeeldingfusie, en (4) multimodale gezamenlijke retrieval — onder een uniform protocol met gestandaardiseerde kandidaatpools, prompts en evaluatiemetrics. Onze experimenten tonen aan dat multimodale tekst-afbeeldingfusie RAG-systemen consistent beter presteren dan zowel unimodale als gezamenlijk multimodale embedding-gebaseerde retrieval, wat aangeeft dat noch tekst noch afbeeldingen alleen voldoende zijn en dat huidige multimodale embeddings ontoereikend blijven. Naast benchmarking onthult onze analyse wanneer en hoe visuele context tekstueel bewijs aanvult, legt systematische faalmodi bloot en biedt het actiegerichte richtlijnen voor het ontwikkelen van robuustere MM-RAG-pijplijnen.
Het beloningsmodel (RM) speelt een cruciale rol bij het afstemmen van grote taalmodellen (LLM) op menselijke voorkeuren. Aangezien real-world toepassingen steeds vaker lange historische trajecten omvatten, zoals bij LLM-agenten, wordt het onmisbaar om te evalueren of de reacties van een model niet alleen van hoge kwaliteit zijn, maar ook verankerd en consistent zijn met de geboden context. Toch blijven huidige RM's beperkt tot kort-context instellingen en richten ze zich voornamelijk op kenmerken op reactieniveau (bijv. veiligheid of behulpzaamheid), terwijl de kritische dimensie van lange context-reactieconsistentie grotendeels wordt verwaarloosd. In dit werk introduceren we Long-RewardBench, een benchmark specifiek ontworpen voor de evaluatie van lange-context RM's, met zowel Pairwise Comparison- als Best-of-N-taken. Onze voorlopige studie toont aan dat zelfs state-of-the-art generatieve RM's aanzienlijke kwetsbaarheid vertonen in lange-context scenario's, waarbij ze er niet in slagen contextbewuste voorkeursbeoordelingen te handhaven. Gemotiveerd door de analyse van foutpatronen die worden waargenomen in modeloutputs, stellen we een algemene meerfasige trainingsstrategie voor die willekeurige modellen effectief schaalt naar robuuste Lange-context RM's (LongRMs). Experimenten tonen aan dat onze aanpak niet alleen de prestaties bij lange-context evaluatie aanzienlijk verbetert, maar ook een sterke kort-context capaciteit behoudt. Opmerkelijk is dat ons 8B LongRM veel grotere 70B-schaal baselines overtreft en de prestaties evenaart van het propriëtaire Gemini 2.5 Pro-model.
Deze studie richt zich op een uitdagende maar veelbelovende taak, Text-to-Sounding-Video (T2SV) generatie, die als doel heeft een video met gesynchroniseerde audio te genereren op basis van tekstcondities, waarbij beide modaliteiten afgestemd zijn op de tekst. Ondanks vooruitgang in gezamenlijke audio-video training, blijven twee kritieke uitdagingen onopgelost: (1) een enkele, gedeelde tekstbeschrijving waarbij de tekst voor de video gelijk is aan de tekst voor de audio veroorzaakt vaak modale interferentie, wat de voorgetrainde backbones verwart, en (2) het optimale mechanisme voor kruismodale feature-interactie blijft onduidelijk. Om deze uitdagingen aan te pakken, stellen we eerst het Hierarchical Visual-Grounded Captioning (HVGC) framework voor, dat paren van ontvlochten beschrijvingen genereert, een videobeschrijving en een audiobeschrijving, waardoor interferentie in de conditioneringsfase wordt geëlimineerd. Op basis van HVGC introduceren we verder BridgeDiT, een nieuwe dual-tower diffusie transformer, die een Dual CrossAttention (DCA) mechanisme gebruikt dat fungeert als een robuuste "brug" om een symmetrische, bidirectionele uitwisseling van informatie mogelijk te maken, waardoor zowel semantische als temporele synchronisatie wordt bereikt. Uitgebreide experimenten op drie benchmark datasets, ondersteund door menselijke evaluaties, tonen aan dat onze methode state-of-the-art resultaten behaalt op de meeste metrieken. Uitgebreide ablatiestudies valideren verder de effectiviteit van onze bijdragen en bieden belangrijke inzichten voor de toekomstige T2SV-taak. Alle codes en checkpoints zullen openbaar worden vrijgegeven.
Hoewel reinforcement learning-methoden zoals Group Relative Preference Optimization (GRPO) grote taalmodellen aanzienlijk hebben verbeterd, blijft het aanpassen ervan aan diffusiemodellen een uitdaging. In het bijzonder vereist GRPO een stochastisch beleid, terwijl de meest kosteneffectieve diffusiesamplers gebaseerd zijn op deterministische ODE's. Recent werk heeft dit probleem aangepakt door inefficiënte SDE-gebaseerde samplers te gebruiken om stochastiek te induceren, maar deze afhankelijkheid van model-agnostisch Gaussiaans ruis leidt tot langzame convergentie. Om dit conflict op te lossen, stellen we Direct Group Preference Optimization (DGPO) voor, een nieuw online RL-algoritme dat het beleidsgradiëntenraamwerk volledig achterwege laat. DGPO leert direct van groepsniveauvoorkeuren, die gebruikmaken van relatieve informatie van samples binnen groepen. Dit ontwerp elimineert de noodzaak van inefficiënte stochastische beleidsregels, waardoor het gebruik van efficiënte deterministische ODE-samplers en snellere training mogelijk wordt. Uitgebreide resultaten laten zien dat DGPO ongeveer 20 keer sneller traint dan bestaande state-of-the-art methoden en superieure prestaties behaalt op zowel in-domein als out-of-domein beloningsmetrieken. Code is beschikbaar op https://github.com/Luo-Yihong/DGPO.
Hoewel recente vooruitgang in redeneermodellen cognitief gedrag heeft aangetoond door middel van reinforcement learning, hebben bestaande benaderingen moeite om diepe redeneervaardigheden op te roepen in multi-turn agents met langetermijninteracties. Wij stellen DeepMiner voor, een nieuw framework dat dergelijke vaardigheden aanwakkert door het introduceren van hoogcomplexe trainings taken en een dynamisch contextvenster. DeepMiner presenteert een omgekeerde constructiemethode om complexe maar verifieerbare vraag-antwoordparen te genereren uit authentieke webbronnen, wat de uitdaging en betrouwbaarheid van de trainingsdata waarborgt terwijl cognitieve vaardigheden worden geïnjecteerd in multi-turn redeneerscenario's. We ontwerpen verder een elegante doch effectieve dynamische contextbeheerstrategie voor zowel training als inferentie, waarbij gebruik wordt gemaakt van schuifvenstermechanismen terwijl de afhankelijkheid van externe samenvattingsmodellen wordt geëlimineerd, waardoor het model efficiënt wordt toegerust om continu uitbreidende langetermijncontexten te hanteren. Door reinforcement learning op Qwen3-32B ontwikkelen we DeepMiner-32B, dat aanzienlijke prestatieverbeteringen behaalt op meerdere zoekagentbenchmarks. DeepMiner bereikt een nauwkeurigheid van 33,5% op BrowseComp-en, wat de vorige beste open-source agent met bijna 20 procentpunten overtreft, en toont consistente verbeteringen op BrowseComp-zh, XBench-DeepSearch en GAIA. Opmerkelijk is dat ons dynamische contextbeheer duurzame interacties van bijna 100 beurten mogelijk maakt binnen de standaard 32k contextlengte, waardoor de contextbeperkingen die bestaande multi-turn interactiesystemen beperken effectief worden aangepakt.
Dit werk vertegenwoordigt de eerste poging om continue-tijd consistentiedistillatie op te schalen naar algemene toepassingsniveau beeld- en videodiffusiemodellen. Hoewel het continue-tijd consistentiemodel (sCM) theoretisch goed onderbouwd en empirisch krachtig is voor het versnellen van academisch-schaal diffusie, blijft de toepasbaarheid ervan op grootschalige tekst-naar-beeld en videotaken onduidelijk vanwege infrastructurele uitdagingen in Jacobiaan-vectorproduct (JVP) berekeningen en de beperkingen van standaard evaluatiebenchmarks. We ontwikkelen eerst een parallelisme-compatibele FlashAttention-2 JVP-kernel, waardoor sCM-training mogelijk wordt op modellen met meer dan 10 miljard parameters en hoogdimensionale videotaken. Ons onderzoek onthult fundamentele kwaliteitsbeperkingen van sCM in het genereren van fijne details, wat we toeschrijven aan foutaccumulatie en de "mode-covering" aard van zijn forward-divergentiedoelstelling. Om dit te verhelpen, stellen we het score-geregulariseerde continue-tijd consistentiemodel (rCM) voor, dat score-distillatie integreert als een lange-sprong regularisator. Deze integratie vult sCM aan met de "mode-seeking" reverse divergentie, waardoor de visuele kwaliteit effectief wordt verbeterd terwijl een hoge generatiediversiteit behouden blijft. Geverifieerd op grootschalige modellen (Cosmos-Predict2, Wan2.1) tot 14B parameters en 5-seconden video's, evenaart of overtreft rCM de state-of-the-art distillatiemethode DMD2 op kwaliteitsmetingen, terwijl het aanzienlijke voordelen biedt in diversiteit, allemaal zonder GAN-afstemming of uitgebreide hyperparameterzoektochten. De gedistilleerde modellen genereren hoogwaardige samples in slechts 1sim4 stappen, waardoor diffusiebemonstering met 15timessim50 keer wordt versneld. Deze resultaten positioneren rCM als een praktisch en theoretisch onderbouwd raamwerk voor het bevorderen van grootschalige diffusiedistillatie.
Grote Multimodale Modellen (LMMs) hebben opmerkelijke vooruitgang geboekt op verschillende gebieden; complexe videoredenering in het wetenschappelijke domein blijft echter een belangrijk en uitdagend front. Huidige videobenchmarks richten zich voornamelijk op algemene scenario's waarbij perceptie/herkenning zwaar wordt vertrouwd, terwijl de redeneertaken relatief eenvoudig zijn, wat leidt tot verzadiging en daardoor niet effectief geavanceerde multimodale cognitieve vaardigheden kan evalueren. Om dit kritieke gat te dichten, introduceren we SciVideoBench, een rigoureuze benchmark die specifiek is ontworpen om geavanceerde videoredenering in wetenschappelijke contexten te beoordelen. SciVideoBench bestaat uit 1.000 zorgvuldig samengestelde meerkeuzevragen, afgeleid van baanbrekende wetenschappelijke experimentele video's die meer dan 25 gespecialiseerde academische vakgebieden beslaan en geverifieerd zijn door een semi-automatisch systeem. Elke vraag vereist geavanceerde domeinspecifieke kennis, nauwkeurige spatiotemporele perceptie en ingewikkelde logische redenering, waardoor de hogere-orde cognitieve vaardigheden van modellen effectief worden uitgedaagd. Onze evaluatie benadrukt aanzienlijke prestatieachterstanden in state-of-the-art propriëtaire en open-source LMMs, waaronder Gemini 2.5 Pro en Qwen2.5-VL, wat wijst op aanzienlijke ruimte voor verbetering in videoredeneervaardigheden. Gedetailleerde analyses van kritieke factoren zoals redeneercomplexiteit en visuele verankering bieden waardevolle inzichten en een duidelijke richting voor toekomstige ontwikkelingen in LMMs, waardoor de evolutie van echt capabele multimodale AI-co-wetenschappers wordt gestimuleerd. We hopen dat SciVideoBench aansluit bij de interesses van de gemeenschap en helpt om de grenzen van baanbrekende AI voor bredere wetenschap te verleggen.
We presenteren UP2You, de eerste afstelmingsvrije oplossing voor het reconstrueren van hoogwaardige 3D-geklede portretten uit extreem onbeperkte 2D-foto's in de echte wereld. In tegenstelling tot eerdere benaderingen die "schone" invoer vereisen (bijvoorbeeld volledige lichaamsafbeeldingen met minimale occlusies, of goed gekalibreerde kruisbeeldopnames), verwerkt UP2You rechtstreeks ruwe, ongestructureerde foto's, die aanzienlijk kunnen variëren in houding, gezichtspunt, bijsnijding en occlusie. In plaats van gegevens te comprimeren in tokens voor langzame online tekst-naar-3D-optimalisatie, introduceren we een datarectificatieparadigma dat onbeperkte invoer efficiënt omzet in schone, orthogonale multi-view afbeeldingen in één enkele voorwaartse passage binnen enkele seconden, wat de 3D-reconstructie vereenvoudigt. Centraal in UP2You staat een pose-gecorreleerde kenmerkaggregatiemodule (PCFA), die selectief informatie uit meerdere referentieafbeeldingen samenvoegt met betrekking tot doelposities, wat een betere identiteitsbehoud en een bijna constant geheugenverbruik mogelijk maakt, met meer observaties. We introduceren ook een waarnemer-gebaseerde multi-referentie vormvoorspeller, waardoor de noodzaak van vooraf vastgelegde lichaamsjassen wordt weggenomen. Uitgebreide experimenten op 4D-Dress, PuzzleIOI en opnames in de echte wereld tonen aan dat UP2You consistent eerdere methoden overtreft in zowel geometrische nauwkeurigheid (Chamfer-15%, P2S-18% op PuzzleIOI) als textuurgetrouwheid (PSNR-21%, LPIPS-46% op 4D-Dress). UP2You is efficiënt (1,5 minuten per persoon) en veelzijdig (ondersteunt willekeurige posecontrole en trainingsvrije multi-kleding 3D-virtuele passen), waardoor het praktisch is voor real-world scenario's waarin mensen informeel worden vastgelegd. Zowel modellen als code zullen worden vrijgegeven om toekomstig onderzoek naar deze onderbelichte taak te vergemakkelijken. Projectpagina: https://zcai0612.github.io/UP2You
Het opmerkelijke succes van grote taalmodellen (LLM's) komt voort uit hun vermogen om enorme hoeveelheden kennis te consolideren in het geheugen tijdens de pre-training en deze tijdens de inferentie uit het geheugen op te halen, wat geavanceerde mogelijkheden mogelijk maakt zoals kennisopslag, instructievolging en redenering. De mechanismen van geheugenophaling en consolidatie in LLM's blijven echter slecht begrepen. In dit artikel stellen we de functietokenhypothese voor om de werking van LLM's te verklaren: Tijdens inferentie activeren functietokens de meest voorspellende kenmerken uit de context en sturen ze de voorspelling van het volgende token (geheugenophaling). Tijdens pre-training vergroot het voorspellen van de volgende tokens (meestal inhoudstokens) die op functietokens volgen het aantal geleerde kenmerken van LLM's en worden de modelparameters bijgewerkt (geheugenconsolidatie). Functietokens komen hier ruwweg overeen met functiewoorden in de taalkunde, inclusief leestekens, lidwoorden, voorzetsels en voegwoorden, in tegenstelling tot inhoudstokens. We bieden uitgebreid experimenteel bewijs dat deze hypothese ondersteunt. Met behulp van bipartite grafiekanalyse tonen we aan dat een klein aantal functietokens de meerderheid van de kenmerken activeert. Casestudies onthullen verder hoe functietokens de meest voorspellende kenmerken uit de context activeren om de voorspelling van het volgende token te sturen. We ontdekken ook dat tijdens pre-training het trainingsverlies wordt gedomineerd door het voorspellen van de volgende inhoudstokens die op functietokens volgen, wat de functietokens dwingt om de meest voorspellende kenmerken uit de context te selecteren.
Beloningsmodellering ligt aan de kern van reinforcement learning met menselijke feedback (RLHF), maar de meeste bestaande beloningsmodellen vertrouwen op scalaire of paarsgewijze beoordelingen die de veelzijdige aard van menselijke voorkeuren niet vastleggen. Recente studies hebben rubrics-as-rewards (RaR) onderzocht, waarbij gestructureerde natuurlijke taalcriteria worden gebruikt die meerdere dimensies van responskwaliteit vastleggen. Het produceren van rubrics die zowel betrouwbaar als schaalbaar zijn, blijft echter een belangrijke uitdaging. In dit werk introduceren we OpenRubrics, een diverse, grootschalige verzameling van (prompt, rubric)-paren voor het trainen van rubric-generatie en rubric-gebaseerde beloningsmodellen. Om discriminerende en uitgebreide evaluatiesignalen op te roepen, introduceren we Contrastive Rubric Generation (CRG), dat zowel harde regels (expliciete beperkingen) als principes (impliciete kwaliteiten) afleidt door geprefereerde en afgewezen reacties te contrasteren. We verbeteren de betrouwbaarheid verder door consistentie van voorkeurslabels af te dwingen via rejection sampling om ruisrijke rubrics te verwijderen. Over meerdere beloningsmodelleringsbenchmarks overtreft ons rubric-gebaseerde beloningsmodel, Rubric-RM, sterke, qua grootte vergelijkbare baselines met 6,8%. Deze winsten worden overgedragen naar beleidsmodellen op benchmarks voor instructievolging en biomedische taken. Onze resultaten tonen aan dat rubrics schaalbare uitlijningssignalen bieden die de kloof tussen kostbare menselijke evaluatie en geautomatiseerde beloningsmodellering verkleinen, waardoor een nieuw principegedreven paradigma voor LLM-uitlijning mogelijk wordt.
Wij stellen ERA voor, een nieuw paradigma dat de steekproefentropie boven bepaalde drempelwaarden beperkt door speciaal ontworpen activaties toe te passen op de uitvoer van modellen. Onze aanpak toont brede effectiviteit aan in verschillende domeinen: 1) voor grote taalmodelen (LLMs), waarbij de AIME 2025-score voor Qwen2.5-Math-7B met 37,4% wordt verhoogd; 2) voor continue besturingsversterkingsleeragenten, waarbij de prestaties met meer dan 30% worden verbeterd ten opzichte van sterke basislijnen zoals SAC op de uitdagende HumanoidBench; 3) voor beeldclassificatie, waarbij de top-1 nauwkeurigheid op ImageNet met 0,69% wordt verbeterd voor ResNet-50. Deze verbeteringen worden bereikt met een rekenkundige overhead van minder dan 7%. Ons werk valideert uitvoeractivering als een krachtig hulpmiddel voor entropiecontrole, wat een nieuwe richting opent voor het ontwerpen van eenvoudigere en robuustere algoritmen.
Het bereiken van gegeneraliseerde in-hand objectrotatie blijft een aanzienlijke uitdaging in de robotica, grotendeels vanwege de moeilijkheid om beleid van simulatie naar de echte wereld over te dragen. De complexe, contactrijke dynamiek van behendige manipulatie creëert een "realiteitskloof" die eerder werk heeft beperkt tot beperkte scenario's met eenvoudige geometrieën, beperkte objectgroottes en aspectverhoudingen, beperkte polsposities of aangepaste handen. Wij pakken deze sim-naar-real-uitdaging aan met een nieuw raamwerk dat een enkel beleid, getraind in simulatie, in staat stelt om te generaliseren naar een breed scala aan objecten en omstandigheden in de echte wereld. De kern van onze methode is een dynamisch model per gewricht dat leert om de realiteitskloof te overbruggen door effectief beperkte hoeveelheden verzamelde real-world data te passen en vervolgens de acties van het sim-beleid dienovereenkomstig aan te passen. Het model is zeer data-efficiënt en generaliseerbaar over verschillende interactiedistributies van de gehele hand door dynamiek over gewrichten te factoriseren, systeembrede invloeden te comprimeren in laagdimensionale variabelen, en de evolutie van elk gewricht te leren vanuit zijn eigen dynamische profiel, waarbij deze netto-effecten impliciet worden vastgelegd. We combineren dit met een volledig autonome dataverzamelingsstrategie die diverse, real-world interactiedata verzamelt met minimale menselijke tussenkomst. Onze complete pijplijn demonstreert een ongekende generaliteit: een enkel beleid roteert met succes uitdagende objecten met complexe vormen (bijv. dieren), hoge aspectverhoudingen (tot 5.33) en kleine afmetingen, allemaal terwijl het diverse polsoriëntaties en rotatieassen hanteert. Uitgebreide real-world evaluaties en een teleoperatieapplicatie voor complexe taken valideren de effectiviteit en robuustheid van onze aanpak. Website: https://meowuu7.github.io/DexNDM/
We presenteren Stable Video Materials 3D (SViM3D), een raamwerk voor het voorspellen van multi-view consistente, fysiek gebaseerde rendering (PBR) materialen, gegeven een enkele afbeelding. Recentelijk zijn videodiffusiemodellen met succes gebruikt om efficiënt 3D-objecten te reconstrueren vanuit een enkele afbeelding. Reflectie wordt echter nog steeds weergegeven door eenvoudige materiaalmodellen of moet in aanvullende stappen worden geschat om herbelichting en gecontroleerde uiterlijke aanpassingen mogelijk te maken. We breiden een latent videodiffusiemodel uit om ruimtelijk variërende PBR-parameters en oppervlaktenormalen samen met elke gegenereerde weergave te outputten, gebaseerd op expliciete camerabesturing. Deze unieke opzet maakt het mogelijk om een 3D-asset te herbelichten en te genereren door ons model als neurale prior te gebruiken. We introduceren verschillende mechanismen in deze pijplijn die de kwaliteit verbeteren in deze slecht gestelde setting. We tonen state-of-the-art prestaties in herbelichting en synthese van nieuwe weergaven op meerdere objectgerichte datasets. Onze methode generaliseert naar diverse inputs, waardoor het genereren van herbelichtbare 3D-assets mogelijk wordt die nuttig zijn in AR/VR, films, games en andere visuele media.
Een dominant paradigma voor het aanleren van complexe vaardigheden aan humanoïde robots is het hertargetten van menselijke bewegingen als kinematische referenties om reinforcement learning (RL)-beleidsregels te trainen. Bestaande hertargettingspijplijnen hebben echter vaak moeite met de aanzienlijke belichamingskloof tussen mensen en robots, wat resulteert in fysiek onwaarschijnlijke artefacten zoals voetglijden en penetratie. Belangrijker is dat veelgebruikte hertargettingsmethoden de rijke mens-object en mens-omgeving interacties negeren die essentieel zijn voor expressieve voortbeweging en loco-manipulatie. Om dit aan te pakken, introduceren we OmniRetarget, een interactiebehoudende data-generatie-engine gebaseerd op een interactierooster dat expliciet de cruciale ruimtelijke en contactrelaties tussen een agent, het terrein en gemanipuleerde objecten modelleert en behoudt. Door de Laplaciaanse vervorming tussen de menselijke en robotroosters te minimaliseren terwijl kinematische beperkingen worden afgedwongen, genereert OmniRetarget kinematisch haalbare trajecten. Bovendien maakt het behoud van taakrelevante interacties efficiënte data-augmentatie mogelijk, van een enkele demonstratie naar verschillende robotbelichamingen, terreinen en objectconfiguraties. We evalueren OmniRetarget uitgebreid door bewegingen te hertargetten van OMOMO, LAFAN1 en onze eigen MoCap-datasets, waarbij we meer dan 8 uur aan trajecten genereren die betere kinematische beperkingsvoldoening en contactbehoud bereiken dan veelgebruikte referentiemethoden. Dergelijke hoogwaardige data stelt proprioceptieve RL-beleidsregels in staat om langdurige (tot 30 seconden) parkour- en loco-manipulatievaardigheden succesvol uit te voeren op een Unitree G1 humanoïde, getraind met slechts 5 beloningstermen en eenvoudige domeinrandomisatie die voor alle taken wordt gedeeld, zonder enig leercurriculum.
De snel toenemende rekenkosten van het vooraf trainen van grote taalmodel- len vereisen efficiëntere benaderingen. Aanzienlijke rekenkosten zijn geïnves- teerd in bestaande goed getrainde checkpoints, maar veel daarvan blijven onder- benut vanwege technische beperkingen of beperkte modelcapaciteit. Om deze "gezonken" kosten efficiënt te hergebruiken, stellen we voor om vooraf getrai- nde checkpoints te recyclen door hun parameteraantallen uit te breiden en het trainen voort te zetten. We introduceren een orthogonale groeimethode die goed geschikt is voor geconvergeerde Mixture-of-Experts-modellen: interpositionele laagkopiëring voor dieptegroei en expertduplicatie met geïnjecteerde ruis voor breedtegroei. Om het optimale moment voor dergelijke groei in checkpointse- quenties te bepalen, voeren we uitgebreide schaalexperimenten uit die aantonen dat de uiteindelijke nauwkeurigheid een sterke positieve correlatie heeft met de hoeveelheid gezonken kosten, wat aangeeft dat een grotere eerdere investering leidt tot betere prestaties. We schalen onze aanpak op naar modellen met 70B parameters en meer dan 1T trainings-tokens, waarbij we een nauwkeurigheids- winst van 10,66% behalen ten opzichte van trainen vanaf nul onder hetzelfde extra rekenbudget. Onze checkpointrecyclingaanpak legt een basis voor econo- misch efficiënt vooraf trainen van grote taalmodel-len.
Reinforcement learning is op grote schaal toegepast om de redeneervaardigheden van grote taalmodelen te verbeteren. Het uitbreiden van de inferentiegrenzen van kleinere modellen is een prominent onderzoeksfocus geworden. Echter, algoritmen zoals Group Relative Policy Optimization (GRPO) hebben een duidelijk nadeel: de bovengrens van de rollout-responsen van een model wordt volledig bepaald door het model zelf, wat het verwerven van kennis uit steekproeven die ofwel volledig incorrect of volledig correct zijn, verhindert. In dit artikel introduceren we Group Contrastive Policy Optimization (GCPO), een methode die externe standaardreferentieantwoorden incorporeert. Wanneer het model een probleem niet kan oplossen, biedt het referentieantwoord de juiste respons, waardoor het model in een ondubbelzinnig accurate update-richting wordt gestuurd. Deze aanpak biedt twee belangrijke voordelen: (1) het verbetert de trainingsefficiëntie door elk sample volledig te benutten; (2) het stelt het model in staat om tijdens de training de probleemoplossingsstrategie van het referentieantwoord na te bootsen, waardoor de generalisatie in redenering wordt verbeterd. GCPO behaalt uitstekende resultaten op meerdere benchmarkdatasets, met aanzienlijke verbeteringen ten opzichte van het basismodel. Onze code is beschikbaar op: https://github.com/AchoWu/GCPO.
Met het oog op het doel van gegeneraliseerde robotmanipulatie is ruimtelijke generalisatie de meest fundamentele capaciteit die vereist dat het beleid robuust werkt onder verschillende ruimtelijke verdelingen van objecten, de omgeving en de agent zelf. Om dit te bereiken, moeten aanzienlijke hoeveelheden menselijke demonstraties worden verzameld om verschillende ruimtelijke configuraties te dekken voor het trainen van een gegeneraliseerd visuomotorisch beleid via imitatieleren. Eerdere werken verkennen een veelbelovende richting die gebruikmaakt van datageneratie om overvloedige, ruimtelijk diverse gegevens te verkrijgen uit minimale brondemonstraties. De meeste benaderingen kampen echter met een aanzienlijke sim-to-real kloof en zijn vaak beperkt tot beperkte scenario's, zoals vaste basisconfiguraties en vooraf gedefinieerde camerastandpunten. In dit artikel stellen we een real-to-real 3D datageneratieframework (R2RGen) voor dat direct pointcloud observatie-actieparen uitbreidt om real-world gegevens te genereren. R2RGen is simulator- en renderingvrij, waardoor het efficiënt en plug-and-play is. Specifiek introduceren we, gegeven een enkele brondemonstratie, een annotatiemechanisme voor fijnmazige parsing van de scène en traject. Een groepgewijze augmentatiestrategie wordt voorgesteld om complexe multi-object composities en diverse taakbeperkingen te hanteren. We presenteren verder camera-aware verwerking om de verdeling van gegenereerde gegevens af te stemmen op real-world 3D sensoren. Empirisch gezien verbetert R2RGen de data-efficiëntie aanzienlijk in uitgebreide experimenten en toont het sterke potentieel voor schaalbaarheid en toepassing op mobiele manipulatie.
Ondanks hun opmerkelijke vermogen om natuurlijke taal te begrijpen, zijn Large Language Models (LLMs) onderbenut gebleven voor retrievalthan. Wij presenteren Search-R3, een nieuw framework dat deze beperking aanpakt door LLMs aan te passen om zoekembeddings te genereren als een direct resultaat van hun redeneerproces. Onze aanpak maakt gebruik van de chain-of-thought-mogelijkheden van LLMs, waardoor ze effectievere embeddings kunnen produceren door stap voor stap complexe semantische analyses uit te voeren. We implementeren dit via drie complementaire mechanismen. (1) Een fase van supervised learning stelt het model in staat om kwalitatief hoogwaardige embeddings te produceren, (2) een reinforcement learning (RL)-methodologie die de generatie van embeddings optimaliseert naast het redeneren, en (3) een gespecialiseerde RL-omgeving die efficiënt omgaat met evoluerende embeddingrepresentaties zonder dat bij elke trainingsiteratie een volledige hercodering van het corpus nodig is. Onze uitgebreide evaluaties op diverse benchmarks tonen aan dat Search-R3 eerdere methoden significant overtreft door de redeneer- en embeddinggeneratieprocessen te verenigen. Deze geïntegreerde post-trainingsaanpak vertegenwoordigt een aanzienlijke vooruitgang in het omgaan met complexe kennisintensieve taken die zowel geavanceerd redeneren als effectieve informatie retrieval vereisen. Projectpagina: https://github.com/ytgui/Search-R3
Efficiënt gebruik van grote taalmodellen (LLMs) is cruciaal voor implementatie op schaal: zonder adaptieve routering betalen systemen te veel voor sterke modellen of riskeren ze slechte prestaties van zwakkere modellen. Het selecteren van het juiste LLM voor elke query is in wezen een online beslissingsprobleem: modellen verschillen in sterktes, prijzen fluctueren, en gebruikers hechten verschillend veel waarde aan nauwkeurigheid en kosten. Toch worden de meeste routers offline getraind met labels voor alle kandidaat-modellen, een aanname die in de praktijk niet standhoudt, waar alleen het resultaat van het gekozen model wordt waargenomen. Wij overbruggen deze kloof met BaRP, een Bandit-feedback Routering met Voorkeuren aanpak die traint onder dezelfde beperkte feedbackcondities als in de praktijk, terwijl het voorkeurafstembare inferentie ondersteunt: operators kunnen de prestatie/kosten-afweging tijdens het testen aanpassen zonder opnieuw te trainen. Geformuleerd als een contextuele bandit over promptkenmerken en een gebruikersvoorkeursvector, simuleert onze methode een online feedbackomgeving tijdens de training en past de routeringsbeslissingen aan voor elke nieuwe prompt, in plaats van afhankelijk te zijn van volledige informatie offline supervisie. Uitgebreide experimenten tonen aan dat onze methode consistent sterke offline routers met minstens 12,46% overtreft en het grootste LLM met minstens 2,45%, en robuust generaliseert voor onbekende taken.
Recente vooruitgang in Large Language Models (LLMs) en Reinforcement Learning (RL) heeft geleid tot sterke prestaties in open-domein vraag-antwoord (QA). Bestaande modellen hebben echter nog steeds moeite met vragen die meerdere geldige antwoorden toelaten. Standaard QA-benchmarks, die doorgaans uitgaan van één gouden antwoord, negeren deze realiteit en produceren daardoor ongeschikte trainingssignalen. Bestaande pogingen om ambiguïteit te hanteren, zijn vaak afhankelijk van kostbare handmatige annotatie, wat moeilijk schaalbaar is naar multi-hop datasets zoals HotpotQA en MuSiQue. In dit artikel presenteren we A^2Search, een annotatievrij, end-to-end trainingsframework om ambiguïteit te herkennen en te hanteren. De kern ervan is een geautomatiseerde pipeline die ambigue vragen detecteert en alternatieve antwoorden verzamelt via trajectmonsters en bewijsverificatie. Het model wordt vervolgens geoptimaliseerd met RL met behulp van een zorgvuldig ontworpen AnsF1-beloning, die van nature meerdere antwoorden ondersteunt. Experimenten op acht open-domein QA-benchmarks tonen aan dat A^2Search nieuwe state-of-the-art prestaties bereikt. Met slechts één rollout levert A^2Search-7B een gemiddelde AnsF1@1-score van 48,4% op over vier multi-hop benchmarks, wat alle sterke baselines overtreft, inclusief de aanzienlijk grotere ReSearch-32B (46,2%). Uitgebreide analyses tonen verder aan dat A^2Search ambiguïteit oplost en generaliseert over benchmarks, wat benadrukt dat het omarmen van ambiguïteit essentieel is voor het bouwen van betrouwbaardere QA-systemen. Onze code, data en modelgewichten zijn te vinden op https://github.com/zfj1998/A2Search.
3D-bewerking - de taak van het lokaal aanpassen van de geometrie of het uiterlijk van een 3D-asset - heeft brede toepassingen in het creëren van immersieve content, digitale entertainment en AR/VR. In tegenstelling tot 2D-bewerking blijft het echter uitdagend vanwege de noodzaak van consistentie tussen verschillende perspectieven, structurele nauwkeurigheid en fijnmazige bestuurbaarheid. Bestaande benaderingen zijn vaak traag, gevoelig voor geometrische vervormingen, of afhankelijk van handmatige en nauwkeurige 3D-maskers die foutgevoelig en onpraktisch zijn. Om deze uitdagingen aan te pakken, zetten we stappen op zowel het gebied van data als modellen. Aan de datazijde introduceren we 3DEditVerse, de grootste gepaarde 3D-bewerkingsbenchmark tot nu toe, bestaande uit 116.309 hoogwaardige trainingsparen en 1.500 gecureerde testparen. Gebouwd via complementaire pipelines van pose-gestuurde geometrische bewerkingen en foundation model-gestuurde uiterlijke bewerkingen, zorgt 3DEditVerse voor lokale bewerkingen, consistentie tussen meerdere perspectieven en semantische uitlijning. Aan de modelzijde stellen we 3DEditFormer voor, een 3D-structuurbehoudende conditionele transformer. Door beeld-naar-3D-generatie te versterken met dual-guidance aandacht en tijd-adaptieve gating, ontwart 3DEditFormer bewerkbare regio's van behouden structuren, waardoor precieze en consistente bewerkingen mogelijk zijn zonder aanvullende 3D-maskers. Uitgebreide experimenten tonen aan dat ons framework state-of-the-art baselines zowel kwantitatief als kwalitatief overtreft, en zo een nieuwe standaard zet voor praktische en schaalbare 3D-bewerking. Dataset en code zullen worden vrijgegeven. Project: https://www.lv-lab.org/3DEditFormer/
Naarmate nieuwe optimalisatoren aan populariteit winnen en modelkwantisering standaard wordt voor efficiënte implementatie, rijst een belangrijke vraag: hoe beïnvloedt de keuze van de optimalisator de modelprestaties in aanwezigheid van kwantisering? Ondanks vooruitgang in beide gebieden, blijft systematisch bewijs over de interacties tussen optimalisator en kwantisering beperkt. Om deze leemte op te vullen, bestuderen we de impact van de keuze van de optimalisator op de robuustheid van het model onder kwantisering, waarbij we zowel post-training kwantisering (PTQ) als kwantisering-bewuste training (QAT) in overweging nemen. We trainen eerst full-precision modellen, variërend van 50M tot 1.5B parameters, met zes optimalisatoren, om het hyperparameterlandschap te verkennen en goed afgestemde basislijnen vast te stellen. Vervolgens passen we PTQ toe om te evalueren hoe de modelprestaties verslechteren wanneer ze met verschillende optimalisatoren zijn getraind. We constateren dat uitbijter-gerelateerde metrieken, zoals de max-to-mean ratio (MMR) en Kurtosis, niet in staat zijn om de PTQ-prestaties over verschillende optimalisatoren te voorspellen. We tonen analytisch aan dat dit komt doordat de MMR alleen geïsoleerde laagfouten vastlegt, terwijl wordt genegeerd hoe kwantisatiefouten zich ophopen en door het netwerk verspreiden. Om de QAT-degradatie te bestuderen, trainen we gekwantiseerde modellen vanaf nul en vergelijken we deze met onze oorspronkelijke precisie-basislijnen. We constateren dat optimalisatoren die goed presteren in de oorspronkelijke voor-trainingsopzet niet noodzakelijk optimaal blijven onder QAT, en dat modellen die met Shampoo zijn getraind de laagste nauwkeurigheidsdegradatie vertonen. Ten slotte leiden we schaalwetten af voor kwantisering-bewuste training onder verschillende optimalisatoren, waaruit blijkt dat Shampoo de hoogste parameter-efficiëntie bereikt van alle geteste optimalisatoren.
Kernfusie speelt een cruciale rol in de zoektocht naar betrouwbare en duurzame energieproductie. Een grote hindernis voor levensvatbare fusie-energie is het begrijpen van plasma-turbulentie, die de insluiting van plasma aanzienlijk belemmert en essentieel is voor het ontwerp van de volgende generatie reactoren. Plasma-turbulentie wordt bepaald door de niet-lineaire gyrokinetische vergelijking, die een 5D-verdelingsfunctie in de tijd ontwikkelt. Vanwege de hoge rekenkosten worden in de praktijk vaak gereduceerde modellen gebruikt om de turbulente transport van energie te benaderen. Deze modellen negeren echter niet-lineaire effecten die uniek zijn voor de volledige 5D-dynamica. Om dit aan te pakken, introduceren we GyroSwin, de eerste schaalbare 5D neurale surrogaat die 5D niet-lineaire gyrokinetische simulaties kan modelleren, waardoor de fysische fenomenen die door gereduceerde modellen worden overgeslagen, worden vastgelegd, terwijl nauwkeurige schattingen van turbulente warmtetransport worden geboden. GyroSwin (i) breidt hiërarchische Vision Transformers uit naar 5D, (ii) introduceert cross-attention en integratiemodules voor latente 3D↔5D-interacties tussen elektrostatische potentiaalvelden en de verdelingsfunctie, en (iii) voert kanaalsgewijze modusscheiding uit, geïnspireerd door niet-lineaire fysica. We tonen aan dat GyroSwin veelgebruikte gereduceerde numerieke methoden overtreft in de voorspelling van warmteflux, de turbulente energiecascade vastlegt en de kosten van volledig opgeloste niet-lineaire gyrokinetica met drie ordes van grootte reduceert, terwijl het fysisch verifieerbaar blijft. GyroSwin toont veelbelovende schaalwetten, getest tot één miljard parameters, en baant zo de weg voor schaalbare neurale surrogaten voor gyrokinetische simulaties van plasma-turbulentie.
Recente ontwikkelingen in generatieve modellen hebben nieuwe, spannende mogelijkheden geopend op het gebied van autonome voertuigen. Met name videogeneratiemodellen worden nu onderzocht als beheersbare virtuele testomgevingen. Tegelijkertijd zijn end-to-end (E2E) rijmodellen naar voren gekomen als een gestroomlijnd alternatief voor conventionele modulaire autonome rijsystemen, en winnen ze aan populariteit vanwege hun eenvoud en schaalbaarheid. De toepassing van deze technieken op simulatie en planning roept echter belangrijke vragen op. Ten eerste: hoewel videogeneratiemodellen steeds realistischer video's kunnen genereren, kunnen deze video's trouw blijven aan de gespecificeerde voorwaarden en realistisch genoeg zijn voor de evaluatie van E2E autonome planners? Ten tweede: aangezien data cruciaal is voor het begrijpen en beheersen van E2E-planners, hoe kunnen we dieper inzicht krijgen in hun vooroordelen en hun vermogen verbeteren om te generaliseren naar out-of-distribution scenario's? In dit werk overbruggen we de kloof tussen de rijmodellen en generatieve wereldmodellen (Drive&Gen) om deze vragen te beantwoorden. We introduceren nieuwe statistische maatstaven die gebruikmaken van E2E-rijmodellen om de realisme van gegenereerde video's te evalueren. Door de beheersbaarheid van het videogeneratiemodel te benutten, voeren we gerichte experimenten uit om distributiekloof te onderzoeken die de prestaties van E2E-planners beïnvloeden. Tot slot tonen we aan dat synthetische data, gegenereerd door het videogeneratiemodel, een kosteneffectief alternatief biedt voor het verzamelen van real-world data. Deze synthetische data verbetert effectief de generalisatie van E2E-modellen buiten bestaande Operationele Ontwerpdomeinen, wat de uitbreiding van autonome voertuigdiensten naar nieuwe operationele contexten vergemakkelijkt.
Algemene robotbeleidsmodellen die getraind zijn op grootschalige, visueel homogene datasets kunnen gevoelig zijn voor shortcut learning, wat hun generalisatie buiten de distributie (OOD) belemmert. Hoewel generatieve data-augmentatie een veelgebruikte aanpak is om diversiteit te introduceren, brengt het een subtiele uitdaging met zich mee: datasamenstelling. Het naïef mengen van echte en synthetische data kan het leersignaal verstoren, aangezien dit proces vaak visuele diversiteit voorrang geeft ten koste van informatiegetrouwheid. Dit artikel suggereert dat robuuste generalisatie afhangt van een principiële, getrouwheidsbewuste datasamenstelling. We introduceren Coherent Information Fidelity Tuning (CIFT), een raamwerk dat datasamenstelling behandelt als een optimalisatieprobleem. CIFT gebruikt een praktische proxy voor Informatiegetrouwheid gebaseerd op de feature-space geometrie van een dataset. Dit maakt het mogelijk om een faseovergang, het zogenaamde Decoherentiepunt, te identificeren waar de trainingsstabiliteit afneemt. Het raamwerk omvat een generatieve engine, Multi-View Video Augmentation (MVAug), om een causaal ontward dataspectrum te synthetiseren voor dit afstemmingsproces. Toepassing van CIFT op beleidsarchitecturen zoals pi_0 en Diffusion Policy verbetert de OOD-succespercentages met meer dan 54%. Deze resultaten geven aan dat getrouwheidsbewuste samenstelling, meer dan alleen datasynthese, een belangrijk onderdeel is voor het ontwikkelen van robuuste, algemene robots.
Het gebruik van doelnetwerken is een populaire aanpak voor het schatten van waardefuncties in diep Reinforcement Learning (RL). Hoewel effectief, blijft het doelnetwerk een compromisoplossing die stabiliteit behoudt ten koste van langzaam bewegende doelen, wat het leren vertraagt. Omgekeerd is het gebruik van het online netwerk als een gebootstrapt doel intuïtief aantrekkelijk, hoewel bekend is dat dit tot instabiel leren leidt. In dit werk streven we ernaar het beste van beide werelden te verkrijgen door een nieuwe update-regel te introduceren die het doel berekent met behulp van de MINimale schatting tussen het Doel- en Onlinenetwerk, wat aanleiding geeft tot onze methode, MINTO. Door deze eenvoudige, maar effectieve aanpassing, laten we zien dat MINTO sneller en stabiel leren van waardefuncties mogelijk maakt, door de potentiële overschatting te verminderen die ontstaat bij het gebruik van het online netwerk voor bootstrapping. Opmerkelijk is dat MINTO naadloos kan worden geïntegreerd in een breed scala aan waardegestuurde en actor-critic algoritmen tegen verwaarloosbare kosten. We evalueren MINTO uitgebreid over diverse benchmarks, variërend van online en offline RL, evenals discrete en continue actieruimtes. Over alle benchmarks heen verbetert MINTO consistent de prestaties, wat de brede toepasbaarheid en effectiviteit ervan aantoont.