Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Ondanks de snelle vooruitgang in autonome AI-wetenschappers aangedreven door taalmodellen, blijft het genereren van publicatieklare illustraties een arbeidsintensief knelpunt in de onderzoekswerkflow. Om deze last te verlichten, introduceren wij PaperBanana, een agent-gebaseerd raamwerk voor de geautomatiseerde generatie van publicatieklare academische illustraties. Aangedreven door state-of-the-art VLMs en beeldgeneratiemodellen, coördineert PaperBanana gespecialiseerde agents om referenties op te halen, inhoud en stijl te plannen, beelden te renderen en iteratief te verfijnen via zelfkritiek. Om ons raamwerk rigoureus te evalueren, introduceren we PaperBananaBench, bestaande uit 292 testgevallen voor methodologie-diagrammen samengesteld uit NeurIPS 2025-publicaties, die diverse onderzoeksdomeinen en illustratiestijlen bestrijken. Uitgebreide experimenten tonen aan dat PaperBanana consistent beter presteert dan toonaangevende baseline-methoden op het gebied van nauwkeurigheid, beknoptheid, leesbaarheid en esthetiek. We tonen verder aan dat onze methode effectief uitbreidt naar de generatie van hoogwaardige statistische grafieken. Gezamenlijk baant PaperBanana de weg voor de geautomatiseerde generatie van publicatieklare illustraties.
Versterkend Leren met Verifieerbare Beloningen (RLVR) is een hoeksteen geworden voor het ontsluiten van complex redeneren in Grote Taalmodellen (LLM's). Toch wordt de opschaling van RL belemmerd door beperkte bestaande verifieerbare data, waarbij verbeteringen bij langdurige training steeds meer verzadigen. Om dit te overwinnen, stellen we Golden Goose voor, een eenvoudige truc om onbeperkte RLVR-taken te synthetiseren uit niet-verifieerbare internettekst door een meerkeuzevragenversie van de 'fill-in-the-middle'-taak te construeren. Gegeven een brontekst, laten we een LLM sleutelredeneerstappen identificeren en maskeren, en vervolgens een set diverse, plausibele afleiders genereren. Hierdoor kunnen we redenering-rijke, niet-verifieerbare corpora benutten die doorgaans werden uitgesloten bij eerdere RLVR-dataconstructie (bijvoorbeeld wetenschappelijke handboeken) om GooseReason-0.7M te synthetiseren, een grootschalige RLVR-dataset met meer dan 0,7 miljoen taken verspreid over wiskunde, programmeren en algemene wetenschappelijke domeinen. Empirisch gezien wekt GooseReason effectief modellen nieuw leven in die verzadigd zijn op bestaande RLVR-data, wat leidt tot robuuste, aanhoudende winst onder continue RL en nieuwe state-of-the-art resultaten oplevert voor 1.5B- en 4B-Instruct-modellen op 15 diverse benchmarks. Ten slotte implementeren we Golden Goose in een real-world setting, waarbij we RLVR-taken synthetiseren uit ruwe FineWeb-scrapes voor het cybersecurity-domein, waar geen eerdere RLVR-data bestaat. Het trainen van Qwen3-4B-Instruct op de resulterende data GooseReason-Cyber vestigt een nieuwe state-of-the-art in cybersecurity, en overtreft een 7B-domeingespecialiseerd model met uitgebreide domeinspecifieke pre-training en post-training. Dit benadrukt het potentieel van het automatisch opschalen van RLVR-data door gebruik te maken van overvloedige, redenering-rijke, niet-verifieerbare internettekst.
Grote taalmodellen (LLM's) worden steeds vaker ingezet als tool-augmented agents voor meerstaps besluitvorming, maar het trainen van robuuste tool-gebruikende agents blijft een uitdaging. Bestaande methoden vereisen nog steeds handmatige interventie, zijn afhankelijk van niet-verifieerbare gesimuleerde omgevingen, vertrouwen uitsluitend op supervised fine-tuning (SFT) of reinforcement learning (RL), en worstelen met stabiel leren over lange horizonten met meerdere beurten. Om deze uitdagingen aan te pakken, introduceren we ASTRA, een volledig geautomatiseerd end-to-end framework voor het trainen van tool-augmented taalmodel agents via schaalbare datasynthese en verifieerbare reinforcement learning. ASTRA integreert twee complementaire componenten. Ten eerste synthetiseert een pipeline die gebruikmaakt van de statische topologie van tool-aanroepgrafieken diverse, structureel onderbouwde trajecten, waarmee een brede en overdraagbare competentie in tool-gebruik wordt aangekweekt. Ten tweede zet een kader voor omgevingssynthese, dat de rijke, compositionele topologie van menselijke semantische redenering vastlegt, ontbonden vraag-antwoordsporen om in onafhankelijke, code-uitvoerbare en regel-verifieerbare omgevingen, waardoor deterministische meerbeurten-RL mogelijk wordt. Gebaseerd op deze methode ontwikkelen we een uniforme trainingsmethodologie die SFT integreert met online RL met behulp van trajectniveau beloningen om taakvoltooiing en interactie-efficiëntie in evenwicht te brengen. Experimenten op meerdere benchmarks voor agentisch tool-gebruik tonen aan dat met ASTRA getrainde modellen state-of-the-art prestaties bereiken op vergelijkbare schaal, waarbij ze gesloten bron systemen benaderen terwijl de kernredeneervaardigheid behouden blijft. We maken de volledige pipelines, omgevingen en getrainde modellen beschikbaar op https://github.com/LianjiaTech/astra.
Het NVFP4-lage-precisieformaat, dat hardwarematig wordt ondersteund door NVIDIA Blackwell GPU's, belooft voor het eerst end-to-end volledig gekwantiseerde pre-training van massieve modellen zoals LLM's mogelijk te maken. Toch offeren bestaande gekwantiseerde trainingsmethoden nog steeds een deel van de representatiecapaciteit van dit format op ten gunste van nauwkeurigere ongebaseerde gekwantiseerde gradientenschatting via stochastische afronding (SR), wat merkbare nauwkeurigheid kost ten opzichte van standaard FP16- en FP8-training. In dit artikel verbeteren we de state-of-the-art voor gekwantiseerde training in NVFP4 via een nieuwe ongebaseerde kwantiseringsroutine voor micro-schalige formaten, genaamd MS-EDEN, die meer dan 2x lagere kwantiseringsfout heeft dan SR. We integreren dit in een nieuw volledig-NVFP4-kwantiseringsschema voor lineaire lagen, genaamd Quartet II. We tonen analytisch aan dat Quartet II consistent betere gradientenschatting bereikt bij alle belangrijke matrixvermenigvuldigingen, zowel in de voorwaartse als in de terugwaartse passes. Daarnaast synergiseert ons voorstel goed met recente trainingsverbeteringen die specifiek op NVFP4 zijn gericht. We valideren Quartet II verder met end-to-end LLM-training met tot 1,9B parameters op 38B tokens. We bieden kernels voor uitvoering op NVIDIA Blackwell GPU's met tot 4,2x versnelling ten opzichte van BF16. Onze code is beschikbaar op https://github.com/IST-DASLab/Quartet-II.
Grote redeneermodellen (LRM's) behalen opmerkelijke prestaties door reinforcement learning (RL) in te zetten voor redeneertaken om lange ketens van redeneringen (chain-of-thought, CoT) te genereren. Deze overoptimalisatie benadrukt echter vaak compliantie, waardoor modellen kwetsbaar worden voor schadelijke prompts. Om deze veiligheidsachteruitgang tegen te gaan, vertrouwen recente benaderingen op externe teacher-distillatie, maar dit introduceert een distributionele discrepantie die het natuurlijke redeneervermogen aantast. Wij stellen ThinkSafe voor, een zelfgegenereerd aligneringsraamwerk dat veiligheidsalignatie herstelt zonder externe teachers. Onze belangrijkste inzicht is dat hoewel compliantie veiligheidsmechanismen onderdrukt, modellen vaak latente kennis behouden om schade te identificeren. ThinkSafe ontgrendelt dit via lichtgewicht refusal-sturing, waarbij het model wordt geleid om in-distribution veiligheidsredeneringstrajecten te genereren. Fine-tuning op deze zelfgegenereerde antwoorden aligneert het model effectief opnieuw, terwijl distributieverschuiving wordt geminimaliseerd. Experimenten met DeepSeek-R1-Distill en Qwen3 tonen aan dat ThinkSafe de veiligheid aanzienlijk verbetert terwijl de redeneervaardigheid behouden blijft. Opmerkelijk is dat het superieure veiligheid en vergelijkbare redeneerprestaties bereikt ten opzichte van GRPO, met aanzienlijk lagere computationele kosten. Code, modellen en datasets zijn beschikbaar op https://github.com/seanie12/ThinkSafe.git.
Hoewel Chain-of-Thought (CoT) de prestaties van Large Language Models (LLM's) aanzienlijk verbetert, introduceren expliciete redeneerketens aanzienlijke computationele redundantie. Recente latente redeneermethoden proberen dit te mitigeren door redeneerprocessen in de latente ruimte te comprimeren, maar lijden vaak onder ernstige prestatievermindering door een gebrek aan geschikte compressierichtlijnen. In deze studie stellen we Rendered CoT-Guided variational Latent Reasoning (ReGuLaR) voor, een eenvoudig maar nieuw latent leerparadigma dat dit probleem oplost. Fundamenteel formuleren we latent redeneren binnen het Variational Auto-Encoding (VAE) raamwerk, waarbij we de huidige latente redeneertoestand bemonsteren uit de posteriorverdeling, geconditioneerd op voorgaande toestanden. Specifiek, bij het aanleren van dit variational latent reasoning-model, renderen we expliciete redeneerketens als afbeeldingen, waaruit we dichte visueel-semantische representaties extraheren om de posteriorverdeling te regulariseren, waardoor efficiënte compressie met minimaal informatieverlies wordt bereikt. Uitgebreide experimenten tonen aan dat ReGuLaR zowel qua computationele efficiëntie als redeneereffectiviteit aanzienlijk beter presteert dan bestaande latente redeneermethoden, en zelfs CoT overstijgt door middel van multimodaal redeneren, wat een nieuwe en inzichtelijke oplossing biedt voor latent redeneren. Code: https://github.com/FanmengWang/ReGuLaR.
Test-Time Training biedt een veelbelovende manier om het redeneervermogen van grote taalmmodellen (LLM's) te verbeteren door het model aan te passen met alleen de testvragen. Bestaande methoden kampen echter met moeilijke redeneerproblemen om twee redenen: onbewerkte testvragen zijn vaak te moeilijk om hoogwaardige pseudo-labels op te leveren, en de beperkte omvang van testsets maakt continue online updates gevoelig voor instabiliteit. Om deze beperkingen aan te pakken, stellen wij TTCS voor, een co-evoluerend test-time training raamwerk. Concreet initialiseert TTCS twee beleidsregels vanuit hetzelfde voorgetrainde model: een vraag-synthesizer en een redeneer-oplosser. Deze beleidsregels evolueren door middel van iteratieve optimalisatie: de synthesizer genereert geleidelijk uitdagendere vraagvarianten, geconditioneerd op de testvragen, waardoor een gestructureerd curriculum ontstaat dat is afgestemd op de huidige capaciteit van de oplosser, terwijl de oplosser zichzelf bijwerkt met behulp van zelfconsistentie-beloningen berekend uit meerdere bemonsterde antwoorden op zowel originele test- als synthetische vragen. Cruciaal is dat de feedback van de oplosser de synthesizer leidt om vragen te genereren die aansluiten bij de huidige capaciteit van het model, en de gegenereerde vraagvarianten stabiliseren op hun beurt de test-time training van de oplosser. Experimenten tonen aan dat TTCS consistent het redeneervermogen op uitdagende wiskundige benchmarks versterkt en overdraagt naar algemene-domeintaken over verschillende LLM-backbones heen, wat een schaalbaar pad belicht naar het dynamisch construeren van test-time curricula voor zelf-evolutie. Onze code en implementatiedetails zijn beschikbaar op https://github.com/XMUDeepLIT/TTCS.
Dit werk benadrukt dat videowereldmodellering, samen met visie-taalvoorafscholing, een nieuwe en onafhankelijke basis vormt voor robotleren. Intuïtief bieden videowereldmodellen de mogelijkheid om de nabije toekomst te verbeelden door het causaliteitsverband tussen acties en visuele dynamiek te begrijpen. Geïnspireerd hierdoor introduceren wij LingBot-VA, een autoregressief diffusieraamwerk dat framevoorspelling en beleidsuitvoering gelijktijdig aanleert. Ons model kenmerkt zich door drie zorgvuldig ontworpen componenten: (1) een gedeelde latente ruimte die visie- en actietokens integreert, aangedreven door een Mixture-of-Transformers (MoT)-architectuur, (2) een gesloten feedbacklusmechanisme voor continue verwerving van omgevingsfeedback met grondwaarnemingen, (3) een asynchrone inferentiepijplijn die actievoorspelling en motorexecutie paralleliseert voor efficiënte controle. We evalueren ons model op zowel simulatiebenchmarks als real-world scenario's, waar het significante belofte toont in langetermijnmanipulatie, data-efficiëntie na training en sterke generaliseerbaarheid naar nieuwe configuraties. De code en het model zijn openbaar beschikbaar gesteld om de onderzoeksgemeenschap te faciliteren.
Langetermijn-agentisch redeneren vereist een effectieve compressie van groeiende interactiegeschiedenissen in een beperkte contextvensterruimte. De meeste bestaande geheugensystemen serialiseren geschiedenis als tekst, waarbij de token-kosten uniform zijn en lineair schalen met de lengte, waardoor vaak een schaars budget aan weinig waardevolle details wordt besteed. Daarom introduceren wij MemOCR, een multimodale geheugenagent die het langetermijnredeneren onder strikte contextbudgetten verbetert door geheugenruimte toe te wijzen met adaptieve informatiedichtheid via visuele lay-out. Concreet onderhoudt MemOCR een gestructureerd rich-text-geheugen (bijv. met kopteksten, markeringen) en rendert dit naar een afbeelding die de agent raadpleegt voor geheugentoegang, waarbij visueel cruciaal bewijsmateriaal wordt geprioriteerd en ondersteunende details agressief worden gecomprimeerd. Om robuustheid bij variërende geheugenbudgetten te garanderen, trainen wij MemOCR met reinforcement learning onder budgetbewuste doelstellingen die de agent blootstellen aan diverse compressieniveaus. Op langcontext-meerstaps- en enkelstaps vraag-antwoordbenchmarks overtreft MemOCR sterke tekstgebaseerde systemen en bereikt het effectievere contextbenutting onder extreme budgetten.
State-of-the-art embeddingmodellen worden steeds vaker afgeleid van decoder-only Large Language Model (LLM)-backbones die zijn aangepast via contrastief leren. Gezien de opkomst van redeneermodellen die zijn getraind via Reinforcement Learning with Verifiable Rewards (RLVR), rijst een voor de hand liggende vraag: vertaalt verbeterd redeneervermogen zich naar superieure semantische representaties wanneer deze modellen worden gebruikt als initialisatie voor embeddings? In tegenstelling tot de verwachting laat onze evaluatie op MTEB en BRIGHT een **nuleffect** zien: embeddingmodellen geïnitialiseerd vanuit RLVR-afgestemde backbones vertonen geen consistente prestatieverbetering ten opzichte van hun basis-tegenhangers wanneer identieke trainingstrajecten worden toegepast. Om deze paradox te ontleden, introduceren we **H**iërarchische **R**epresentatie-**S**imilariteits-**A**nalyse (HRSA), een raamwerk dat similariteit decomposeert op representatie-, geometrie- en functieniveau. HRSA toont aan dat hoewel RLVR een onomkeerbare reorganisatie van de lokale geometrie van de latente variëteit en een omkeerbare coördinaatbasisverschuiving induceert, het de globale variëteitsgeometrie en lineaire uitleesbaarheid behoudt. Als gevolg hiervan zorgt het daaropvolgende contrastieve leren voor een sterke uitlijning tussen de op basis- en redeneermodellen geïnitialiseerde modellen, een fenomeen dat wij **Variëteitsheruitlijning** noemen. Empirisch suggereren onze bevindingen dat, in tegenstelling tot Supervised Fine-Tuning (SFT), RLVR trajecten optimaliseert binnen een bestaand semantisch landschap in plaats van het landschap zelf fundamenteel te herstructureren.
Grote Taalmodellen (LLM's) worden doorgaans geëvalueerd op veiligheid onder single-shot of low-budget adversariële prompting, wat het reële risico onderschat. In de praktijk kunnen aanvallers grootschalige parallelle sampling exploiteren om een model herhaaldelijk te testen totdat een schadelijke respons wordt geproduceerd. Hoewel recent werk aantoont dat de aanvalssucceskans toeneemt bij herhaalde sampling, blijven principiële methoden voor het voorspellen van grootschalig adversarieel risico beperkt. Wij stellen een schaalingsbewuste Best-of-N risicoschatting voor, SABER genaamd, voor het modelleren van jailbreak-kwetsbaarheid onder Best-of-N sampling. We modelleren succeskansen op sampelniveau met behulp van een Beta-verdeling, de geconjugeerde prior van de Bernoulli-verdeling, en leiden een analytische schaalwet af die betrouwbare extrapolatie van grootschalige aanvalssuccespercentages (large-N) mogelijk maakt op basis van metingen met een klein budget. Met slechts n=100 samples voorspelt onze verankerde schatter ASR@1000 met een gemiddelde absolute fout van 1,66, vergeleken met 12,04 voor de baseline, wat een vermindering van de schattingsfout met 86,2% is. Onze resultaten onthullen heterogene risicoschalingsprofielen en tonen aan dat modellen die robuust lijken onder standaardevaluatie een snelle niet-lineaire risicoamplificatie kunnen ondergaan onder parallelle adversariële druk. Dit werk biedt een kosteneffectieve, schaalbare methodologie voor realistische veiligheidsbeoordeling van LLM's. Wij zullen onze code en evaluatiescripts vrijgeven na publicatie ter ondersteuning van toekomstig onderzoek.
Ondanks het niet-autoregressieve potentieel van diffusie-taalmmodellen (dLLM's) vertonen bestaande decodeerstrategieën positionele bias, waardoor het potentieel voor willekeurige generatie niet volledig wordt benut. In dit werk onderzoeken we de inherente spectrale kenmerken van dLLM's en presenteren we de eerste frequentiedomeinanalyse waaruit blijkt dat laagfrequente componenten in verborgen toestanden voornamelijk globale structurele informatie en lange-afstandsafhankelijkheden coderen, terwijl hoogfrequente componenten verantwoordelijk zijn voor het karakteriseren van lokale details. Gebaseerd op deze observatie stellen we FourierSampler voor, dat gebruikmaakt van een frequentiedomein-glijdend-venster-mechanisme om het model dynamisch te begeleiden naar een "structuur-naar-detail"-generatie. FourierSampler overtreft andere inferentieverbeteringsstrategieën op LLADA en SDAR, met relatieve verbeteringen van 20,4% op LLaDA1.5-8B en 16,0% op LLaDA-8B-Instruct. Het overtreft daarbij opmerkelijk genoeg vergelijkbaar grote autoregressieve modellen zoals Llama3.1-8B-Instruct.
Wij introduceren PaddleOCR-VL-1.5, een geüpgradet model dat een nieuwe state-of-the-art (SOTA) nauwkeurigheid van 94,5% behaalt op OmniDocBench v1.5. Om de robuustheid tegen real-world fysieke vervormingen, zoals scannen, scheefstand, vervorming, schermfotografie en belichting, rigoureus te evalueren, stellen we de Real5-OmniDocBench-benchmark voor. Experimentele resultaten tonen aan dat dit verbeterde model SOTA-prestaties bereikt op de nieuw samengestelde benchmark. Verder breiden we de capaciteiten van het model uit door de integratie van zegelherkenning en tekstspotting-taken, waarbij het een ultrakompact VLM van 0,9B met hoge efficiëntie blijft. Code: https://github.com/PaddlePaddle/PaddleOCR
Recente op GRPO-gebaseerde benaderingen, gebouwd op stroommatchingmodellen, hebben opmerkelijke verbeteringen getoond in de afstemming op menselijke voorkeuren voor tekst-naar-beeldgeneratie. Desalniettemin lijden zij nog steeds onder het probleem van schaarse beloning: de uiteindelijke beloning van de volledige ruisverwijderingstrajectorie wordt toegepast op alle tussenstappen, wat resulteert in een mismatch tussen de globale feedbacksignalen en de exacte fijnmazige bijdragen op tussenliggende ruisverwijderingsstappen. Om dit probleem aan te pakken, introduceren wij DenseGRPO, een nieuw kader dat menselijke voorkeuren afstemt met dichte beloningen, waarbij de fijnmazige bijdrage van elke ruisverwijteringsstap wordt geëvalueerd. Concreet omvat onze aanpak twee belangrijke componenten: (1) wij stellen voor om de stapsgewijze beloningstoename te voorspellen als dichte beloning voor elke ruisverwijderingsstap, waarbij een beloningsmodel wordt toegepast op de tussenliggende schone beelden via een op ODE's gebaseerde aanpak. Deze werkwijze zorgt voor een afstemming tussen feedbacksignalen en de bijdragen van afzonderlijke stappen, wat effectieve training vergemakkelijkt; en (2) op basis van de geschatte dichte beloningen wordt een mismatch-nadeel blootgelegd tussen de uniforme exploratie-instelling en de tijdvariërende ruisintensiteit in bestaande op GRPO gebaseerde methoden, wat leidt tot een ongeschikte exploratieruimte. Daarom stellen wij een beloningsbewust schema voor om de exploratieruimte te kalibreren door adaptief een tijdsstapspecifieke stochastische injectie aan te passen in de SDE-sampler, waardoor een geschikte exploratieruimte op alle tijdstappen wordt gegarandeerd. Uitgebreide experimenten op meerdere standaardbenchmarks tonen de effectiviteit van de voorgestelde DenseGRPO aan en benadrukken de cruciale rol van geldige dichte beloningen bij de afstemming van stroommatchingmodellen.
Recente studies hebben het gebruik van vooraf getrainde Vision Foundation Models (VFM's), zoals DINO, voor generatieve auto-encoders onderzocht en laten sterke generatieve prestaties zien. Helaas hebben bestaande benaderingen vaak te lijden onder beperkte reconstructienauwkeurigheid door het verlies van hoogfrequente details. In dit werk presenteren we de DINO Sferische Auto-encoder (DINO-SAE), een raamwerk dat semantische representatie en reconstructie op pixelniveau met elkaar verbindt. Onze belangrijkste inzicht is dat semantische informatie in contrastieve representaties voornamelijk is gecodeerd in de richting van de kenmerkvectoren, terwijl het afdwingen van strikte grootte-overeenkomst de encoder kan belemmeren in het behouden van fijne details. Om dit op te lossen, introduceren we een Hiërarchisch Convolutioneel Patch Embedding-module dat het behoud van lokale structuur en textuur verbetert, en een Cosine Similarity Alignment-doelstelling die semantische consistentie afdwingt terwijl het flexibele kenmerkgroottes toestaat voor detailbehoud. Verder, gebruikmakend van de observatie dat op Zelfsupervisie (SSL) gebaseerde foundation model-representaties intrinsiek op een hyper-sfeer liggen, gebruiken we Riemanniaanse Flow Matching om een Diffusion Transformer (DiT) direct op dit sferische latente manifold te trainen. Experimenten op ImageNet-1K tonen aan dat onze aanpak state-of-the-art reconstructiekwaliteit bereikt, met 0.37 rFID en 26.2 dB PSNR, terwijl een sterke semantische afstemming met de vooraf getrainde VFM behouden blijft. Opmerkelijk is dat onze op Riemanniaanse Flow Matching gebaseerde DiT een efficiënte convergentie vertoont, met een gFID van 3.47 na 80 epochs.
Karakterbeeldanimatie heeft als doel hoogfideliteitsvideo's te synthetiseren door beweging uit een bewegende sequentie over te dragen naar een statische referentieafbeelding. Ondanks recente vooruitgang kampen bestaande methoden met twee fundamentele uitdagingen: (1) suboptimale strategieën voor beweginginjectie die leiden tot een afweging tussen identiteitsbehoud en bewegingconsistentie, wat zich uit als een wip-effect, en (2) een overmatige afhankelijkheid van expliciete pose-priors (bijvoorbeeld skeletten), die complexe dynamiek onvoldoende vastleggen en de generalisatie naar willekeurige, niet-humanoid karakters belemmeren. Om deze uitdagingen aan te pakken, presenteren we DreamActor-M2, een universeel animatieraamwerk dat motion conditioning herdefinieert als een in-context leerprobleem. Onze aanpak volgt een tweefasenparadigma. Eerst overbruggen we de inputmodaliteitskloof door referentie-uiterlijk en bewegingssignalen te fuseren in een verenigde latente ruimte, waardoor het model gezamenlijk kan redeneren over ruimtelijke identiteit en temporele dynamiek door gebruik te maken van de generatieve prior van foundation-modellen. Ten tweede introduceren we een zelf-gestart data-synthesepijplijn die pseudo cross-identiteit trainingsparen samenstelt, wat een naadloze overgang mogelijk maakt van pose-afhankelijke controle naar directe, end-to-end RGB-gestuurde animatie. Deze strategie verbetert de generalisatie over diverse karakters en bewegingsscenario's aanzienlijk. Om een uitgebreide evaluatie te vergemakkelijken, introduceren we verder AW Bench, een veelzijdige benchmark die een breed spectrum aan karaktertypes en bewegingsscenario's omvat. Uitgebreide experimenten tonen aan dat DreamActor-M2 state-of-the-art prestaties bereikt, met superieure visuele kwaliteit en robuuste cross-domein generalisatie. Projectpagina: https://grisoon.github.io/DreamActor-M2/
Reinforcement Learning from Human Feedback (RLHF) is een cruciale techniek voor het afstemmen van grote taalmodellen (LLM's) op menselijke voorkeuren, maar het is vatbaar voor beloningsoveroptimalisatie. Hierbij passen beleidsmodellen zich te veel aan aan het beloningsmodel en benutten ze oppervlakkige beloningspatronen in plaats van de menselijke intentie correct te vatten. Bestaande tegenmaatregelen baseren zich voornamelijk op oppervlakkige semantische informatie en slagen er niet in de afwijking tussen het beloningsmodel (RM) en het beleidsmodel, veroorzaakt door continue verschuivingen in de beleidsverdeling, efficiënt aan te pakken. Dit leidt onvermijdelijk tot een toenemende beloningsdiscrepantie, wat beloningsoveroptimalisatie verergert. Om deze beperkingen aan te pakken, introduceren we R2M (Real-Time Aligned Reward Model), een nieuw lichtgewicht RLHF-raamwerk. R2M gaat verder dan standaard beloningsmodellen die uitsluitend afhankelijk zijn van de semantische representaties van een vooraf getraind LLM. In plaats daarvan benut het de evoluerende verborgen toestanden van het beleid (beleidsfeedback) om zich af te stemmen op de real-time verschuiving in de beleidsverdeling tijdens het RL-proces. Dit werk wijst een veelbelovende nieuwe richting aan voor het verbeteren van de prestaties van beloningsmodellen door real-time gebruik te maken van feedback van beleidsmodellen.
Versterkend leren met verifieerbare beloningen is naar voren gekomen als een krachtig paradigma voor het trainen van intelligente agenten. Bestaande methodes gebruiken echter typisch binaire beloningen die geen onderscheid kunnen maken tussen kwaliteitsverschillen van trajecten die hetzelfde resultaat bereiken, waardoor potentiële diversiteit binnen de oplossingsruimte over het hoofd wordt gezien. Geïnspireerd door het "sweet spot"-concept in tennis – het kerngebied van het racket dat optimale slageffecten produceert – introduceren wij Sweet Spot Learning (SSL), een nieuw raamwerk dat gedifferentieerde begeleiding biedt voor agentoptimalisatie. SSL volgt een eenvoudig maar effectief principe: progressief versterkte, gelaagde beloningen sturen beleid aan naar de sweet-spot regio van de oplossingsruimte. Dit principe past zich natuurlijk aan over diverse taken heen: visuele perceptietaken benutten afstandsgebaseerde gelaagde modellering om nabijheid te belonen, terwijl complexe redeneertaken incrementele vooruitgang naar veelbelovende oplossingen belonen. We tonen theoretisch aan dat SSL de volgorde van optimale oplossingen behoudt en de gradient signaal-ruisverhouding verbetert, waardoor meer gerichte optimalisatie wordt bevorderd. Uitgebreide experimenten over GUI-perceptie, kort-/langetermijnplanning en complexe redeneertaken laten consistente verbeteringen zien ten opzichte van sterke baseline-methodes op 12 benchmarks, met winsten in steekproefefficiëntie tot 2,5x en effectieve overdraagbaarheid tussen taken. Ons werk vestigt SSL als een algemeen principe voor het trainen van capabele en robuuste agenten.
Autoregressieve (AR) grote audiotalmodellen (LALMs) zoals Qwen-2.5-Omni hebben sterke prestaties bereikt op het gebied van audiobegrip en interactie, maar het opschalen ervan blijft kostbaar qua data en rekenkracht, en strikt sequentiële decodering beperkt de inferentie-efficiëntie. Diffusie grote taalmodelen (dLLMs) zijn recentelijk effectief gebleken in het benutten van beperkte trainingsdata, en eerder werk aan DIFFA toont aan dat het vervangen van een AR-backbone door een diffusie-equivalent het audiobegrip aanzienlijk kan verbeteren onder gelijke omstandigheden, zij het op een proof-of-concept-schaal zonder grootschalige instructie-afstemming, voorkeursoptimalisatie of praktische decoderingsschema's. Wij introduceren DIFFA-2, een praktisch diffusiegebaseerd LALM voor algemeen audiobegrip. DIFFA-2 upgradeert de spraakencoder, gebruikt duale semantische en akoestische adapters, en wordt getraind met een vierfasig curriculum dat semantische en akoestische alignering combineert met grootschalige supervised fine-tuning en variantie-gereduceerde voorkeursoptimalisatie, waarbij uitsluitend volledig open-source corpora worden gebruikt. Experimenten op MMSU, MMAU en MMAR tonen aan dat DIFFA-2 consistent verbetert ten opzichte van DIFFA en competitief is met sterke AR LALMs binnen praktische trainingsbudgetten, wat aantoont dat diffusiegebaseerde modellering een haalbare backbone is voor grootschalig audiobegrip. Onze code is beschikbaar op https://github.com/NKU-HLT/DIFFA.git.
Grote Taalmodellen (LLM's) vertonen opmerkelijke capaciteiten, maar hun stochastische voorspelling van volgende tokens veroorzaakt logische inconsistenties en 'reward hacking' die formele symbolische systemen vermijden. Om deze kloof te overbruggen, introduceren we een raamwerk geleid door formele logische verificatie dat dynamisch formele symbolische verificatie verweeft met het natuurlijke-taalgeneratieproces, waarbij het realtime feedback verschaft om fouten te detecteren en te herstellen zodra deze optreden. In tegenstelling tot eerdere neuro-symbolische methoden die beperkt worden door passieve achteraf-validatie, bestraft onze aanpak actief tussenliggende denkfouten tijdens de redeneerketen. We operationaliseren dit raamwerk via een nieuwe tweefasige trainingspijplijn die supervised fine-tuning en policy-optimalisatie synergistisch combineert onder begeleiding van formele logische verificatie. Uitgebreide evaluatie op zes benchmarks voor wiskundig, logisch en algemeen redeneren toont aan dat onze 7B- en 14B-modellen state-of-the-art-baselines gemiddeld verslaan met respectievelijk 10,4% en 14,2%. Deze resultaten valideren dat formele verificatie kan dienen als een schaalbaar mechanisme om de prestatiegrenzen van geavanceerd LLM-redeneren aanzienlijk te verleggen.
Op VQ gebaseerde beeldgeneratie volgt doorgaans een tweestappenpijplijn: een tokenizer codeert beelden om in discrete tokens, en een generatief model leert hun onderlinge afhankelijkheden voor reconstructie. Verbeterde tokenisatie in de eerste fase leidt echter niet noodzakelijk tot betere generatie in de tweede fase, omdat bestaande methoden de tokenafhankelijkheden niet kunnen afdwingen. Deze mismatch dwingt het generatieve model te leren uit ongeordende verdelingen, wat leidt tot vertekening en zwakke samenhang. Om dit op te lossen, stellen we native visuele tokenisatie voor, die causale afhankelijkheden afdwingt tijdens de tokenisatie. Voortbouwend op dit idee introduceren we NativeTok, een raamwerk dat efficiënte reconstructie bereikt terwijl het relationele beperkingen inbedt in tokenreeksen. NativeTok bestaat uit: (1) een Meta Image Transformer (MIT) voor latente beeldmodellering, en (2) een Mixture of Causal Expert Transformer (MoCET), waarbij elk lichtgewicht expertblok één token genereert op basis van voorgaande tokens en latente kenmerken. We ontwerpen verder een Hiërarchische Native Trainingsstrategie die alleen nieuwe expertblokken bijwerkt, wat de trainings efficiëntie garandeert. Uitgebreide experimenten tonen de effectiviteit van NativeTok aan.
Grote taalmmodellen (LLM's) kunnen tools effectief aanroepen, maar blijven broos in multi-turn uitvoering: na een toolaanroepfout vervallen kleinere modellen vaak in repetitieve ongeldige herroepingen, waarbij ze er niet in slagen foutfeedback te interpreteren en zichzelf te corrigeren. Deze broosheid belemmert een betrouwbare inzet in de praktijk, waar uitvoeringsfouten onvermijdelijk zijn tijdens toolinteractieprocedures. Wij identificeren een belangrijke beperking van huidige aanpakken: standaard reinforcement learning (RL) behandelt fouten als schaarse negatieve beloningen, zonder richting te geven over herstel, terwijl vooraf verzamelde synthetische foutcorrectiedatasets lijden onder distributiemismatch met de on-policy foutmodi van het model. Om deze kloof te overbruggen, stellen we Fission-GRPO voor, een framework dat uitvoeringsfouten omzet in corrigerende supervisie binnen de RL-trainingslus. Ons kernmechanisme splitst elke mislukte trajectorie in een nieuwe trainingsinstantie door deze aan te vullen met diagnostische feedback van een fijnafgestelde Foutsimulator, en vervolgens herstelrollouts on-policy te herbemonsteren. Hierdoor leert het model van de precieze fouten die het maakt tijdens exploratie, in plaats van uit statische, vooraf verzamelde foutgevallen. Op BFCL v4 Multi-Turn verbetert Fission-GRPO het foutherstelpercentage van Qwen3-8B met absoluut 5,7%, en levert cruciaal een algemene nauwkeurigheidswinst op van 4% (van 42,75% naar 46,75%) ten opzichte van GRPO, waarbij het gespecialiseerde tool-use agents overtreft.
Hoewel Large Language Models (LLM's) veelbelovend zijn in software engineering, blijft hun toepassing voor unittesting grotendeels beperkt tot geïsoleerde testgeneratie of orakelvoorspelling, waarbij de bredere uitdaging van testsuite-onderhoud wordt verwaarloosd. Wij introduceren TAM-Eval (Test Automated Maintenance Evaluation), een raamwerk en benchmark ontworpen om modelprestaties te evalueren in drie kernscenario's voor testonderhoud: het creëren, repareren en bijwerken van testsuites. In tegenstelling tot eerder werk dat beperkt bleef tot taken op functieniveau, opereert TAM-Eval op testbestandsniveau, met behoud van toegang tot de volledige repositorycontext tijdens geïsoleerde evaluatie, wat realistischere onderhoudswerkstromen weerspiegelt. Onze benchmark omvat 1.539 automatisch geëxtraheerde en gevalideerde scenario's uit Python-, Java- en Go-projecten. TAM-Eval ondersteunt systeemonafhankelijke evaluatie van zowel ruwe LLM's als agent-gebaseerde workflows, met behulp van een referentievrij protocol gebaseerd op testsuite-slagingspercentage, codecoveragedekking en mutatietesten. Empirische resultaten tonen aan dat state-of-the-art LLM's beperkte capaciteiten hebben in realistische testonderhoudsprocessen en slechts marginale verbeteringen in testefficiëntie opleveren. Wij geven TAM-Eval vrij als een open-source raamwerk om toekomstig onderzoek naar geautomatiseerd softwaretesten te ondersteunen. Onze data en code zijn openbaar beschikbaar op https://github.com/trndcenter/TAM-Eval.
Wij presenteren RM-RF, een lichtgewicht beloningsmodel voor de run-vrije evaluatie van automatisch gegenereerde unittesten. In plaats van kandidaat-testen herhaaldelijk te compileren en uit te voeren, voorspelt RM-RF uitsluitend op basis van bron- en testcode drie signaalwaarden die normaal gesproken via uitvoering worden verkregen: (1) of de uitgebreide testsuite succesvol compileert en draait, (2) of de gegenereerde testgevallen de codecoverage verhogen, en (3) of de gegenereerde testgevallen de mutatie-killratio verbeteren. Voor de training en evaluatie van RM-RF hebben we een meertalige dataset (Java, Python, Go) samengesteld van focale bestanden, testbestanden en gelabelde kandidaat-testtoevoegingen, gegenereerd door een op uitvoering gebaseerde pijplijn. Tevens publiceren we de bijbehorende dataset en methodologie voor vergelijkende evaluatie. We testten meerdere modelfamilies en afstelmethoden (zero-shot, volledige fine-tuning en PEFT via LoRA) en behaalden een gemiddelde F1-score van 0,69 over de drie doelwaarden. Vergeleken met conventionele compileer-en-uitvoer-instrumenten biedt RM-RF een aanzienlijk lagere latentie en infrastructuurkosten, terwijl het een competitieve voorspellingsnauwkeurigheid levert. Dit maakt snelle, schaalbare feedback mogelijk voor grootschalige testgeneratie en op reinforcement learning gebaseerde code-optimalisatie.
Hoewel multiagentsystemen veelbelovend zijn gebleken voor het aanpakken van complexe taken via specialisatie, kampt het gelijktijdig finetunen van meerdere agenten met twee belangrijke uitdagingen: (1) de toewijzing van verdienste (credit assignment) tussen agenten, en (2) de steekproefefficiëntie van kostelijke multiagent-rollouts. In dit werk stellen we voor om multiagentsystemen te finetunen met beloningen per actie op basis van AI-feedback (MAPPA) om beide problemen aan te pakken. Door verdienste toe te kennen aan individuele agentacties in plaats van alleen bij taakvoltooiing, maakt MAPPA gedetailleerd toezicht mogelijk zonder grondwaarheid-labels, terwijl het het maximale trainingssignaal uit elke rollout haalt. We demonstreren onze aanpak op wiskundige competitieproblemen en tool-ondersteunde data-analysetaken. Ongeziene wiskundeproblemen laat MAPPA een verbetering zien van +5,0–17,5 procentpunt op de AIME en +7,8–17,2 procentpunt op de AMC. Voor data-analysetaken verbetert onze methode het slagingspercentage met +12,5 procentpunt, terwijl kwaliteitsmetingen met tot 30% verbeteren. Dit valideert dat toezicht per actie kan leiden tot verbeteringen in verschillende multiagentsystemen en domeinen. Door deze uitdagingen aan te pakken, zet ons werk een eerste stap naar het schalen van multiagentsystemen voor complexe, langetermijntaken met minimale menselijke supervisie.
Diepzoekagenten, aangedreven door grote taalmodellen, hebben sterke capaciteiten getoond voor meerstapsretrieval, redenering en de uitvoering van taken met een lange tijdshorizon. Hun praktische fouten vinden echter vaak hun oorsprong in het ontbreken van mechanismen om redeneer- en retrievastoestanden te monitoren en reguleren naarmate taken zich onder onzekerheid ontwikkelen. Inzichten uit de cognitieve neurowetenschap suggereren dat menselijke metacognitie hiërarchisch georganiseerd is, waarbij snelle anomaliedetectie wordt geïntegreerd met selectief getriggerde, ervaringsgedreven reflectie. In dit werk stellen we Diep Zoeken met Meta-Cognitieve Monitoring (DS-MCM) voor, een diepzoekraamwerk versterkt met een expliciet hiërarchisch metacognitief monitoringsmechanisme. DS-MCM integreert een Snel Consistentie-Monitor, die lichtgewicht controles uitvoert op de afstemming tussen externe evidentie en intern redeneervertrouwen, en een Trage Ervaringsgedreven Monitor, die selectief geactiveerd wordt om corrigerende interventie te sturen op basis van ervaringsgeheugen uit historische agenttrajecten. Door monitoring direct in de redeneer-retrievallus in te bedden, bepaalt DS-MCM zowel wannéér interventie gerechtvaardigd is als hóé corrigerende acties moeten worden geïnformeerd door eerdere ervaring. Experimenten met verschillende diepzoekbenchmarks en backbone-modellen tonen aan dat DS-MCM consistent prestaties en robuustheid verbetert.
Probing onderzoekt welke informatie is gecodeerd in de bevroren laagrepresentaties van een LLM door een lichtgewicht voorspeller bovenop deze representaties te trainen. Naast analyse worden probes vaak operationeel gebruikt in probe-then-steer-pipelines: een aangeleerde conceptvector wordt uit een probe geëxtraheerd en geïnjecteerd via additieve activatiersturing door deze toe te voegen aan een laagrepresentatie tijdens de forward pass. De effectiviteit van deze pipeline hangt af van het schatten van conceptvectoren die accuraat, directioneel stabiel onder ablatie, en goedkoop te verkrijgen zijn. Gemotiveerd door deze wensen stellen we RAPTOR voor (Ridge-Adaptive Logistic Probe), een simpele L2-geregulariseerde logistische probe waarvan de op validatie afgestemde ridge-sterkte conceptvectoren oplevert uit genormaliseerde gewichten. In uitgebreide experimenten op instruction-getunde LLM's en door mensen geschreven conceptdatasets evenaart of overtreft RAPTOR sterke baselines in nauwkeurigheid, terwijl het competitieve directionele stabiliteit en aanzienlijk lagere trainingskosten bereikt; deze kwantitatieve resultaten worden ondersteund door kwalitatieve downstream-sturingdemonstraties. Ten slotte geven we, gebruikmakend van de Convex Gaussian Min-max Theorem (CGMT), een mechanistische karakterisering van ridge logistische regressie in een geïdealiseerd Gaussisch teacher-student-model in het hoogdimensionale few-shot-regime, waarbij we verklaren hoe strafsterkte de probe-nauwkeurigheid en conceptvectorstabiliteit bemiddelt en structurele voorspellingen oplevert die kwalitatief overeenkomen met trends waargenomen in echte LLM-embeddingen.
Chain-of-Thought (CoT) stelt grote taalmodellen (LLM's) in staat om complexe problemen aan te pakken, maar wordt nog steeds beperkt door de rekenkosten en het ineenstorten van redeneerpaden wanneer deze zijn verankerd in discrete tokenruimtes. Recente latente redeneerbenaderingen proberen de efficiëntie te optimaliseren door redenering uit te voeren binnen continue verborgen toestanden. Deze methoden functioneren echter doorgaans als ondoorzichtige end-to-end mapping van expliciete redeneerstappen naar latente toestanden en vereisen vaak een vooraf gedefinieerd aantal latente stappen tijdens de inferentie. In dit werk introduceren we PLaT (Planning with Latent Thoughts), een raamwerk dat latent redeneren herformuleert als planning door redenering fundamenteel te ontkoppelen van verbalisatie. Wij modelleren redeneren als een deterministisch traject van latente plannings-toestanden, terwijl een aparte Decoder deze gedachten indien nodig verankert in tekst. Deze ontkoppeling stelt het model in staat om dynamisch te bepalen wanneer het moet stoppen met redeneren, in plaats van te vertrouwen op vaste hyperparameters. Empirische resultaten op wiskundige benchmarks onthullen een duidelijke wisselwerking: hoewel PLaT een lagere 'greedy'-nauwkeurigheid bereikt dan de baseline-modellen, demonstreert het superieure schaalbaarheid wat betreft redeneerdiversiteit. Dit geeft aan dat PLaT een robuuste, bredere oplossingsruimte aanleert, wat een transparante en schaalbare basis biedt voor zoekstrategieën tijdens de inferentie.
Aangezien digitale omgevingen (datadistributie) voortdurend in beweging zijn, waarbij nieuwe GUI-gegevens in de tijd binnenkomen – wat nieuwe domeinen of resoluties introduceert – gaan de prestaties van agenten die op statische omgevingen zijn getraind achteruit. In dit werk introduceren we Continual GUI Agents, een nieuwe taak die GUI-agenten vereist om continu te leren onder veranderende domeinen en resoluties. Wij constateren dat bestaande methoden falen in het handhaven van stabiele positionering naarmate GUI-distributies in de tijd verschuiven, vanwege de diversiteit aan UI-interactiepunten en -regio's in fluctuerende scenario's. Om dit aan te pakken, introduceren wij GUI-Anchoring in Flux (GUI-AiF), een nieuw reinforcement fine-tuning raamwerk dat continu leren stabiliseert door middel van twee nieuwe beloningen: Anchoring Point Reward in Flux (APR-iF) en Anchoring Region Reward in Flux (ARR-iF). Deze beloningen sturen de agenten aan om zich af te stemmen op verschuivende interactiepunten en -regio's, waardoor de neiging van bestaande beloningsstrategieën om zich te veel aan te passen aan statische positioneringssignalen (zoals vaste coördinaten of elementschalen) wordt verminderd. Uitgebreide experimenten tonen aan dat GUI-AiF state-of-the-art baseline-methoden overtreft. Ons werk vestigt het eerste continu-leren raamwerk voor GUI-agenten en onthult het onbenutte potentieel van reinforcement fine-tuning voor continu lerende GUI-agenten.
Recente vooruitgang in diffusie- en flow matching-modellen heeft een verschuiving aangetoond in het voorkeursvoorspelingsdoel – van ruis (ε) en snelheid (v) naar directe data (x) voorspelling – met name in hoogdimensionale settings. Een formele verklaring waarom het optimale doel afhangt van de specifieke eigenschappen van de data ontbreekt echter nog. In dit werk presenteren we een theoretisch kader gebaseerd op een gegeneraliseerde voorspellingsformulering die willekeurige uitvoerdoelen omvat, waarvan ε-, v- en x-voorspelling speciale gevallen zijn. We leiden het analytische verband af tussen de geometrie van de data en het optimale voorspelingsdoel, wat een rigoureuze rechtvaardiging biedt voor waarom x-voorspelling superieur wordt wanneer de omringende dimensie de intrinsieke dimensie van de data significant overstijgt. Verder, hoewel onze theorie dimensionaliteit aanwijst als de bepalende factor voor het optimale voorspelingsdoel, is de intrinsieke dimensie van op een variëteit gebonden data in de praktijk typisch onberekenbaar. Om deze kloof te overbruggen, stellen we k-Diff voor, een kader dat een data-gedreven aanpak gebruikt om de optimale voorspellingsparameter k rechtstreeks uit data te leren, zonder expliciete dimensieschatting. Uitgebreide experimenten in zowel latent-space als pixel-space beeldgeneratie tonen aan dat k-Diff consistent beter presteert dan baseline-modellen met vaste doelen across verschillende architecturen en dataschaallen, wat een principekundige en geautomatiseerde aanpak biedt om generatieve prestaties te verbeteren.
Representatie-leren is essentieel voor vele downstreamtaken zoals zoeken, clustering, classificatie en herrangschikking. State-of-the-art sequentie-encoders comprimeren typisch een variabelengte-tokenreeks tot een enkele vector met behulp van een poolingoperator, meestal een speciaal [CLS]-token of mean pooling over token-embeddings. In dit artikel identificeren we systematische zwaktes van deze poolingstrategieën: [CLS] neigt informatie te concentreren naar de beginposities van de reeks en kan gedistribueerd bewijs ondervertegenwoordigen, terwijl mean pooling salientie lokale signalen kan verdunnen, wat soms leidt tot slechtere kort-contextprestaties. Om deze problemen aan te pakken, introduceren we Landmark (LMK) pooling, die een reeks opdeelt in segmenten, landmark-tokens tussen segmenten invoegt en de uiteindelijke representatie vormt door mean pooling toe te passen op de landmark-token-embeddings. Dit eenvoudige mechanisme verbetert lang-contextextrapolatie zonder in te boeten aan lokale salientie kenmerken, ten koste van het introduceren van een klein aantal speciale tokens. We tonen empirisch aan dat LMK pooling evenaart met bestaande methoden voor kort-contextretrievaltaken en aanzienlijke verbeteringen oplevert voor lang-contexttaken, waardoor het een praktisch en schaalbaar alternatief vormt voor bestaande poolingmethoden.
Kennisdistillatie (KD) wordt steeds vaker toegepast om capaciteiten van grote taalmodel(len) over te dragen naar kleinere modellen, wat aanzienlijke verbeteringen in efficiëntie en bruikbaarheid biedt en vaak de standaard fine-tuning overtreft. Naast prestaties wordt KD ook onderzocht als een privacybeschermend mechanisme om het risico op lekken van trainingsdata te verminderen. Hoewel het onthouden van trainingsdata uitgebreid is bestudeerd in standaard vooraf-trainen en fine-tuning settings, zijn de dynamieken ervan in een kennisdistillatie-opzet nog grotendeels onbegrepen. In dit werk bestuderen we het onthouden van data in de gehele KD-pijplijn met behulp van drie grote taalmodel-families (Pythia, OLMo-2, Qwen-3) en drie datasets (FineWeb, Wikitext, Nemotron-CC-v2). Wij constateren: (1) gedistilleerde modellen onthouden significant minder trainingsdata dan standaard fine-tuning (meer dan 50% reductie in onthouden data); (2) sommige voorbeelden zijn inherent makkelijker te onthouden en zijn verantwoordelijk voor een groot deel van het onthouden tijdens distillatie (meer dan ~95%); (3) het onthouden door het studentmodel is voorspelbaar vóór de distillatie met behulp van kenmerken gebaseerd op zlib-entropie, KL-divergentie en perplexiteit; en (4) hoewel zachte en harde distillatie vergelijkbare algemene percentages van onthouden data hebben, vormt harde distillatie een groter risico: het neemt 2,7 keer meer voorbeelden over die specifiek zijn voor het leraarmodel dan zachte distillatie. Over het geheel genomen tonen wij aan dat distillatie, vergeleken met standaard fine-tuning, zowel verbeterde generalisatie als verminderde risico's op het onthouden van data kan bieden.
Open-vocabulary grounding vereist nauwkeurige visie-taal-alignering onder zwak toezicht. Bestaande methodes vertrouwen echter óf op globale zin-embeddingen die fijnmazige expressiviteit missen, óf introduceren token-level-alignering met expliciet toezicht of complexe cross-attention-ontwerpen. Wij stellen ExpAlign voor, een theoretisch onderbouwd visie-taal-aligneringsraamwerk gebaseerd op een principekundige multiple instance learning-formulering. ExpAlign introduceert een Expectation Alignment Head die attention-gebaseerde soft MIL-pooling uitvoert op token-regio-overeenkomsten, waardoor impliciete token- en instantieselectie mogelijk wordt zonder extra annotaties. Om de aligneringsleer verder te stabiliseren, ontwikkelen we een op energie gebaseerd regularisatieschema voor multi-scale consistentie, inclusief een Top-K multi-positief contrastief doel en een Geometry-Aware Consistency Objective afgeleid van een door Lagrangian-constraints geminimaliseerde vrije energie. Uitgebreide experimenten tonen aan dat ExpAlign open-vocabulary-detectie en zero-shot instance segmentation consistent verbetert, vooral bij long-tail-categorieën. Opmerkelijk is dat het 36.2 AP_r behaalt op de LVIS minival-split, waarmee het andere state-of-the-art-methodes met vergelijkbare modelschaal overtreft, terwijl het lichtgewicht en inference-efficiënt blijft.
End-to-end autonoom rijden maakt in toenemende mate gebruik van zelfgesuperviseerde videopretraining om overdraagbare planningsrepresentaties te leren. Tot nu toe heeft het pretrainen van videowereldmodellen voor scènebegrip echter slechts beperkte verbeteringen opgeleverd. Deze beperking wordt versterkt door de inherente ambiguïteit van rijgedrag: elke scène biedt doorgaans slechts één menselijke trajectorie, waardoor het moeilijk is multimodale gedragingen aan te leren. In dit werk stellen we Drive-JEPA voor, een raamwerk dat Video Joint-Embedding Predictive Architecture (V-JEPA) integreert met multimodale trajectdistillatie voor end-to-end rijden. Ten eerste passen we V-JEPA aan voor end-to-end rijden door een ViT-encoder te pretrainen op grootschalige rijvideo's, om voorspellende representaties te creëren die zijn afgestemd op trajectplanning. Ten tweede introduceren we een proposal-gecentreerde planner die diverse door een simulator gegenereerde trajectorieën distilleren naast menselijke trajectorieën, met een momentum-aware selectiemechanisme om stabiel en veilig gedrag te bevorderen. Bij evaluatie op NAVSIM overtreft de V-JEPA-representatie gecombineerd met een eenvoudige op transformers gebaseerde decoder eerdere methoden met 3 PDMS in de perceptievrije setting. Het complete Drive-JEPA-raamwerk behaalt 93.3 PDMS op v1 en 87.8 EPDMS op v2, wat een nieuwe state-of-the-art vertegenwoordigt.
Bij het snoeien van neurale netwerken stelt de Loterijbriefhypothese dat grote netwerken spaarzame subnetwerken, of 'winnende loten', bevatten die geïsoleerd getraind kunnen worden om de prestaties van hun dichte tegenhangers te evenaren. De meeste bestaande benaderingen gaan echter uit van een enkel universeel winnend lot dat voor alle invoer geldt, waarbij de inherente heterogeniteit van real-world data wordt genegeerd. In dit werk introduceren we Routing the Lottery (RTL), een adaptief snoeiframework dat meerdere gespecialiseerde subnetwerken ontdekt, zogenaamde adaptieve loten, die elk zijn afgestemd op een klasse, semantische cluster of omgevingsconditie. Over uiteenlopende datasets en taken heen presteert RTL consistent beter dan single- en multi-model-baselines in gebalanceerde nauwkeurigheid en recall, terwijl het tot 10 keer minder parameters gebruikt dan onafhankelijke modellen en semantisch gealigneerd gedrag vertoont. Daarnaast identificeren we subnetworkcollapse, een prestatieverlies bij agressief snoeien, en introduceren we een similariteitsscore voor subnetwerken die labelvrije diagnose van oversparsificatie mogelijk maakt. Onze resultaten herdefiniëren snoeien als een mechanisme om modelstructuur af te stemmen op dataheterogeniteit, wat de weg effent naar meer modulair en contextbewust deep learning.
Multimodale Large Language Models (MLLM's) zijn een belangrijk aandachtspunt in recent AI-onderzoek. Het meeste eerdere werk richt zich echter op het begrijpen van statische beelden, terwijl hun vermogen om sequentiële audio-videogegevens te verwerken onderbelicht blijft. Deze leemte benadrukt de behoefte aan een hoogwaardige benchmark om MLLM-prestaties systematisch te evalueren in een realistische setting. Wij introduceren SONIC-O1, een uitgebreide, volledig door mensen geverifieerde benchmark die 13 realistische gespreksdomeinen omvat met 4.958 annotaties en demografische metadata. SONIC-O1 evalueert MLLM's op kern taken, waaronder open-einde samenvatting, meerkeuzevragen (MCQ) beantwoording en temporele lokalisatie met ondersteunende redeneringen. Experimenten met closed-source en open-source modellen onthullen beperkingen. Hoewel het prestatieverschil in MCQ-nauwkeurigheid tussen twee modelfamilies relatief klein is, observeren we een aanzienlijk prestatieverschil van 22,6% in temporele lokalisatie tussen de best presterende closed-source en open-source modellen. De prestaties verslechteren verder over demografische groepen heen, wat duidt op hardnekkige dispariteiten in modelgedrag. Over het geheel genomen biedt SONIC-O1 een open evaluatiesuite voor temporeel onderbouwde en sociaal robuuste multimodale begripsvorming. Wij geven SONIC-O1 vrij voor reproduceerbaarheid en onderzoek: Projectpagina: https://vectorinstitute.github.io/sonic-o1/ Dataset: https://huggingface.co/datasets/vector-institute/sonic-o1 Github: https://github.com/vectorinstitute/sonic-o1 Leaderboard: https://huggingface.co/spaces/vector-institute/sonic-o1-leaderboard
Wij introduceren KAPSO, een modulair raamwerk voor autonome programma-synthese en -optimalisatie. Gegeven een doelstelling in natuurlijke taal en een evaluatiemethode, voert KAPSO iteratief ideatie, codesynthese en -bewerking, uitvoering, evaluatie en leren uit om een uitvoerbaar artefact te verbeteren richting meetbare doelstellingen. In plaats van synthese als eindpunt te beschouwen, gebruikt KAPSO synthese als een operator binnen een optimalisatielus met een lange tijdshorizon, waarbij vooruitgang wordt gedefinieerd door de resultaten van de evaluator. KAPSO richt zich op veelvoorkomende fouten met een lange tijdshorizon bij coderende agents, zoals verloren experimentele staat, broos debuggen en zwak hergebruik van domeinkennis, door de integratie van drie nauw gekoppelde componenten. Ten eerste isoleert een git-native experimentatiemotor elke poging als een branch, wat reproduceerbare artefacten oplevert en de herkomst bewaart over iteraties heen. Ten tweede verwerkt een kennissysteem heterogene bronnen, waaronder repositories, interne playbooks en gecureerde externe bronnen zoals documentatie, wetenschappelijke artikelen en webzoekresultaten, en organiseert deze in een gestructureerde representatie die ondersteuning biedt voor retrieval van workflows, implementaties en omgevingsrestricties. Ten derde coördineert een cognitieve geheugenlaag de retrieval en onderhoudt een episodische opslag van herbruikbare lessen, gedistilleerd uit experimenttrajecten (uitvoeringslogboeken, diffs en evaluatorfeedback), waardoor herhaalde foutmodi worden verminderd en convergentie wordt versneld. Wij evalueerden KAPSO op MLE-Bench (Kaggle-stijl ML-wedstrijden) en ALE-Bench (AtCoder heuristische optimalisatie), en rapporteren de end-to-end prestaties. Code beschikbaar op: https://github.com/Leeroo-AI/kapso
Aandachtspatronen spelen een cruciale rol bij zowel de training als de inferentie van grote taalmodellen (LLM's). Eerdere studies hebben individuele patronen geïdentificeerd, zoals retrieval heads, sink heads en diagonale sporen, maar deze observaties blijven gefragmenteerd en missen een verenigende verklaring. Om deze kloof te overbruggen, introduceren wij Temporal Attention Pattern Predictability Analysis (TAPPA), een verenigend kader dat diverse aandachtspatronen verklaart door hun onderliggende wiskundige formuleringen te analyseren vanuit een tijdelijk continu perspectief. TAPPA verdiept niet alleen het begrip van aandachtgedrag, maar leidt ook inferentieversnellingsbenaderingen. Specifiek karakteriseert TAPPA aandachtspatronen als voorspelbare patronen met duidelijke regelmatigheden en onvoorspelbare patronen die effectief willekeurig lijken. Onze analyse onthult verder dat dit onderscheid verklaard kan worden door de graad van query-zelfsimilariteit langs de temporele dimensie. Met de focus op de voorspelbare patronen, geven we een gedetailleerde wiskundige analyse van drie representatieve gevallen via het gezamenlijke effect van queries, keys en Rotary Positional Embeddings (RoPE). We valideren TAPPA door de inzichten toe te passen op KV-cachecompressie en LLM-pruningtaken. Over deze taken heen verbetert een eenvoudige metriek geïnspireerd door TAPPA consistent de prestaties ten opzichte van baseline-methoden. De code is beschikbaar op https://github.com/MIRALab-USTC/LLM-TAPPA.
Wij introduceren de Visuele Personalisatie Turing Test (VPTT), een nieuw paradigma voor het evalueren van contextuele visuele personalisatie op basis van perceptuele ononderscheidbaarheid, in plaats van identiteitsreplicatie. Een model slaagt voor de VPTT als de output (afbeelding, video, 3D-asset, etc.) voor een menselijke of gekalibreerde VLM-beoordelaar niet te onderscheiden is van inhoud die een gegeven persoon plausibel zou kunnen creëren of delen. Om de VPTT operationeel te maken, presenteren we het VPTT Raamwerk, dat een benchmark met 10.000 persona's (VPTT-Bench), een visuele retrieval-augmented generator (VPRAG) en de VPTT Score integreert, een tekstuele metric die is gekalibreerd tegen menselijke en VLM-oordelen. Wij tonen een hoge correlatie aan tussen menselijke, VLM- en VPTT-evaluaties, wat de VPTT Score valideert als een betrouwbare perceptuele proxy. Experimenten tonen aan dat VPRAG de beste balans tussen afstemming en originaliteit bereikt, en biedt zo een schaalbare en privacyveilige basis voor gepersonaliseerde generatieve AI.
In het post-Dennardtijdperk vereist het optimaliseren van ingebedde systemen het navigeren door complexe afwegingen tussen energie-efficiëntie en latentie. Traditionele heuristische afstemming is vaak inefficiënt in dergelijke hoogdimensionale, niet-gladde landschappen. In dit werk stellen we een Bayesiaans Optimalisatiekader voor dat Gaussische Processen gebruikt om de zoektocht naar optimale planningsconfiguraties op heterogene multi-core architecturen te automatiseren. We pakken expliciet de multi-objectieve aard van het probleem aan door de Pareto-frontier tussen energie en tijd te benaderen. Verder bieden we, door het incorporeren van Sensitiviteitsanalyse (fANOVA) en het vergelijken van verschillende covariantiekernels (bijv. Matérn versus RBF), fysieke interpreteerbaarheid aan het black-box-model, waarbij de dominante hardwareparameters die de systeemprestaties sturen worden blootgelegd.
Kan een kleine hoeveelheid geverifieerde doelinformatie de kostbare zelfgesuperviseerde voorafgaande training van foundation models sturen? Standaard voorafgaande training optimaliseert een vaste proxy-doelstelling (bijvoorbeeld voorspelling van het volgende token), wat rekenkracht kan verplaatsen weg van downstream-capaciteiten van belang. Wij introduceren V-Pretraining: een waardegebaseerde, modaliteits-agnostische methode voor gecontroleerde voortgezette training waarin een lichtgewicht taakontwerper de voorafgaande trainingstaak hervormt om de waarde van elke gradientstap te maximaliseren. Beschouw bijvoorbeeld zelfgesuperviseerd leren (SSL) met sample-augmentatie. De V-Pretraining taakontwerper selecteert voorafgaande trainingstaken (bijvoorbeeld augmentaties) waarvoor de gradient van de voorafgaande trainingsverlies is uitgelijnd met een gradient berekend over een downstream-taak (bijvoorbeeld beeldsegmentatie). Dit helpt de voorafgaande training te sturen naar relevante downstream-capaciteiten. Opmerkelijk is dat het vooraf getrainde model nooit wordt bijgewerkt met downstream-taaklabels; deze worden alleen gebruikt om de voorafgaande trainingstaak te vormen. Onder gelijke updatebudgetten van de learner verbetert V-Pretraining van 0,5B–7B taalmodellen het redeneervermogen (GSM8K test Pass@1) met tot 18% relatief ten opzichte van standaard volgende-token-voorspelling, waarbij slechts 12% van de GSM8K-trainingsvoorbeelden als feedback wordt gebruikt. In visuele SSL verbeteren we de state-of-the-art resultaten op ADE20K met tot 1,07 mIoU en verminderen we NYUv2 RMSE terwijl we de ImageNet lineaire nauwkeurigheid verbeteren, en we leveren pilotbewijs van verbeterde token-efficiëntie in voortgezette voorafgaande training.