Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wat gebeurt er wanneer een verhalenverteller zijn eigen verhaal vergeet? Grote Taalmodellen (LLM's) kunnen nu verhalen genereren die tienduizenden woorden beslaan, maar slagen er vaak niet in om de consistentie te behouden. Bij het genereren van lange verhalen kunnen deze modellen hun eigen vastgestelde feiten, karaktereigenschappen en wereldregels tegenspreken. Bestaande benchmarks voor verhaalgeneratie richten zich voornamelijk op plotkwaliteit en vlotheid, waardoor consistentiefouten grotendeels ononderzoek blijven. Om deze leemte op te vullen, presenteren we ConStory-Bench, een benchmark die is ontworpen om narratieve consistentie te evalueren bij het genereren van lange verhalen. De benchmark bevat 2.000 prompts verdeeld over vier taalscenario's en definieert een taxonomie van vijf foutcategorieën met 19 fijnmazige subtypes. We ontwikkelden ook ConStory-Checker, een geautomatiseerde pipeline die tegenstrijdigheden detecteert en elk oordeel grondt in expliciet tekstueel bewijs. Door een reeks LLM's te evalueren aan de hand van vijf onderzoeksvragen, constateren we dat consistentiefouten duidelijke tendensen vertonen: ze komen het meest voor in feitelijke en temporele dimensies, hebben de neiging om halverwege verhalen voor te komen, verschijnen in tekstsegmenten met een hogere entropie op tokenniveau, en bepaalde fouttypes hebben de neiging samen voor te komen. Deze bevindingen kunnen toekomstige inspanningen om de consistentie in lange narratieve generatie te verbeteren, informeren. Onze projectpagina is beschikbaar op https://picrew.github.io/constory-bench.github.io/.
De ontwikkeling van ruimtelijke intelligentie is fundamenteel afhankelijk van toegang tot grootschalige, gedetailleerde 3D-data. Bestaande methoden construeren echter voornamelijk benchmarks voor ruimtelijk begrip door vraag-antwoordparen (QA-paren) te genereren vanuit een beperkt aantal handmatig geannoteerde datasets, in plaats van systematisch nieuwe grootschalige 3D-scènes te annoteren vanuit ruwe webdata. Hierdoor is hun schaalbaarheid ernstig beperkt, en wordt modelprestatie verder belemmerd door domeinkloven die inherent zijn aan deze nauwgezet samengestelde datasets. In dit werk presenteren we Holi-Spatial, de eerste volledig geautomatiseerde, grootschalige, ruimtelijk-bewuste multimodale dataset, geconstrueerd vanuit ruwe video-invoer zonder menselijke tussenkomst, gebruikmakend van de voorgestelde datacuratiepijplijn. Holi-Spatial ondersteunt multi-level ruimtelijke supervisie, variërend van geometrisch accurate 3D Gaussian Splatting (3DGS)-reconstructies met gerenderde dieptekaarten tot objectniveau- en relationele semantische annotaties, samen met bijbehorende ruimtelijke vraag-antwoordparen (QA-paren). Volgens een principiële en systematische pijplijn construeren we verder Holi-Spatial-4M, de eerste grootschalige, hoogwaardige 3D semantische dataset, die 12K geoptimaliseerde 3DGS-scènes, 1.3M 2D-maskers, 320K 3D-afgebakende gebieden (bounding boxes), 320K instantie-bijschriften, 1.2M 3D-grondingsinstanties en 1.2M ruimtelijke QA-paren bevat, welke diverse geometrische, relationele en semantische redeneertaken bestrijken. Holi-Spatial toont uitzonderlijke prestaties in de kwaliteit van datacuratie en overtreft bestaande feed-forward en per-scène geoptimaliseerde methoden aanzienlijk op datasets zoals ScanNet, ScanNet++ en DL3DV. Bovendien heeft het fine-tunen van Vision-Language Models (VLMs) voor ruimtelijke redeneertaken met behulp van deze dataset ook geleid tot substantiële verbeteringen in modelprestaties.
Feedforward geometrische foundation-modellen bereiken sterke reconstructie op korte termijn, maar het schalen naar minutenlange video's wordt beperkt door kwadratische aandachtcomplexiteit of beperkt effectief geheugen in recurrente ontwerpen. Wij presenteren LoGeR (Long-context Geometric Reconstruction), een nieuwe architectuur die dichte 3D-reconstructie schaalt naar extreem lange sequenties zonder post-optimalisatie. LoGeR verwerkt videostreams in segmenten en benut sterke bidirectionele priors voor hoogwaardige redenering binnen segmenten. Om de kritieke uitdaging van coherentie over segmentgrenzen heen te beheersen, stellen we een op leren gebaseerde hybride geheugenmodule voor. Dit dual-componentensysteem combineert een parametrisch Test-Time Training (TTT)-geheugen om het globale coördinatenstelsel te verankeren en schaal-drift te voorkomen, naast een niet-parametrisch Sliding Window Attention (SWA)-mechanisme om ongecomprimeerde context te behouden voor hoogprecieze aanliggende uitlijning. Opmerkelijk is dat deze geheugenarchitectuur LoGeR in staat stelt te worden getraind op sequenties van 128 frames, en te generaliseren tot duizenden frames tijdens inferentie. Geëvalueerd op standaardbenchmarks en een nieuw hergebruikte VBR-dataset met sequenties tot 19k frames, overtreft LoGeR eerdere state-of-the-art feedforward methoden aanzienlijk – het reduceert ATE op KITTI met meer dan 74% – en bereikt robuuste, globaal consistente reconstructie over ongekende horizons.
Onbewaakt reinforcement learning met verifieerbare beloningen (URLVR) biedt een weg om de training van grote taalmodelen voorbij het toezichtknelpunt op te schalen door beloningen af te leiden zonder grondwaarheid-labels. Recente onderzoeken benutten intrinsieke modelsignalen en tonen veelbelovende vroege resultaten, maar hun potentieel en beperkingen blijven onduidelijk. In dit werk herbezien we URLVR en presenteren een uitgebreide analyse die taxonomie, theorie en uitgebreide experimenten omvat. We classificeren URLVR-methoden eerst als intrinsiek versus extern op basis van hun beloningsbronnen, en stellen vervolgens een verenigd theoretisch kader op dat onthult dat alle intrinsieke methoden convergeren naar een verscherping van de initiële verdeling van het model. Dit verscherpingsmechanisme slaagt wanneer initieel vertrouwen overeenkomt met correctheid, maar faalt catastrofaal bij een mismatch. Door middel van systematische experimenten tonen we aan dat intrinsieke beloningen consequent een stijgend-dan-dalend patroon volgen across methoden, waarbij het tijdstip van instorting wordt bepaald door de modelprior in plaats van technische keuzes. Ondanks deze schaalbeperkingen blijken intrinsieke beloningen waardevol te blijven bij test-time training op kleine datasets, en we stellen de Modelinstortingsstap voor om de modelprior te meten, als praktische indicator voor RL-trainbaarheid. Ten slotte verkennen we externe beloningsmethoden die verificatie verankeren in computationele asymmetrieën, waarbij eerste aanwijzingen suggereren dat ze het vertrouwen-correctheid-plafond mogelijk kunnen ontlopen. Onze bevindingen schetsen grenzen voor intrinsieke URLVR en wijzen tegelijkertijd wegen naar schaalbare alternatieven.
Grote redeneermodellen hebben opmerkelijke prestaties getoond dankzij de vooruitgang in testtijd-schaleringstechnieken, die de voorspellingsnauwkeurigheid verbeteren door meerdere kandidaatantwoorden te genereren en het meest betrouwbare antwoord te selecteren. Hoewel eerder onderzoek heeft aangetoond dat interne modelsignalen zoals betrouwbaarheidsscores deels de juistheid van antwoorden kunnen aangeven en een distributionele correlatie vertonen met nauwkeurigheid, is dergelijke distributionele informatie nog niet volledig benut om antwoordselectie te sturen. Gemotiveerd door dit inzicht presenteren we DistriVoting, dat distributionele prioriteiten incorporeert als een aanvullend signaal naast betrouwbaarheid tijdens het stemmen. Onze methode (1) ontleedt eerst de gemengde betrouwbaarheidsverdeling in positieve en negatieve componenten met behulp van Gaussische Mengmodellen, (2) past vervolgens een afwijzingsfilter toe op basis van positieve/negatieve steekproeven om de overlap tussen de twee verdelingen te verminderen. Daarnaast introduceren we SelfStepConf om de overlap vanuit het verdelingsperspectief verder te verminderen, door stap-voor-stap-betrouwbaarheid te gebruiken om het inferentieproces dynamisch aan te passen, waardoor de scheiding tussen de twee verdelingen wordt vergroot om de betrouwbaarheid van scores tijdens het stemmen te verbeteren. Experimenten over 16 modellen en 5 benchmarks tonen aan dat onze methode state-of-the-art-benaderingen significant overtreft.
Recente vooruitgang in Unified Multimodal Models (UMM's) heeft tekst-naar-beeld-generatie (T2I) aanzienlijk verbeterd, met name door de integratie van Chain-of-Thought (CoT)-redenering. Bestaande CoT-gebaseerde T2I-methoden zijn echter grotendeels afhankelijk van abstracte planning in natuurlijke taal, wat de precisie mist die nodig is voor complexe ruimtelijke lay-outs, gestructureerde visuele elementen en dense tekstuele inhoud. In dit werk stellen we CoCo (Code-as-CoT) voor, een code-gestuurd redeneerkader dat het redeneerproces vertegenwoordigt als uitvoerbare code, waardoor expliciete en verifieerbare tussenplanning voor beeldgeneratie mogelijk wordt. Gegeven een tekstprompt genereert CoCo eerst uitvoerbare code die de structurele lay-out van de scène specificeert, die vervolgens wordt uitgevoerd in een gescheiden omgeving om een deterministisch conceptbeeld te renderen. Het model verfijnt dit concept vervolgens via fijnmazige beeldbewerking om het uiteindelijke hoogfideliteitsresultaat te produceren. Om dit trainingsparadigma te ondersteunen, construeren we CoCo-10K, een gecureerde dataset met gestructureerde concept-eindbeeldparen die is ontworpen om zowel gestructureerde conceptconstructie als correctieve visuele verfijning aan te leren. Empirische evaluaties op StructT2IBench, OneIG-Bench en LongText-Bench tonen aan dat CoCo verbeteringen behaalt van respectievelijk +68,83%, +54,8% en +41,23% ten opzichte van directe generatie, terwijl het ook andere generatiemethoden die door CoT worden aangedreven, overtreft. Deze resultaten tonen aan dat uitvoerbare code een effectief en betrouwbaar redeneerparadigma is voor precieze, controleerbare en gestructureerde tekst-naar-beeldgeneratie. De code is beschikbaar op: https://github.com/micky-li-hd/CoCo
Unified diffuseditieerders vertrouwen vaak op een vaste, gedeelde backbone voor uiteenlopende taken, wat leidt tot taakinterferentie en een slechte aanpassing aan heterogene eisen (bijv. lokaal vs. globaal, semantisch vs. fotometrisch). Met name gangbare ControlNet- en OmniControl-varianten combineren meerdere conditioneringssignalen (zoals tekst, maskers, referenties) via statische concatenatie of additieve adapters, die niet dynamisch conflicterende modaliteiten kunnen prioriteren of onderdrukken. Dit resulteert in artefacten zoals kleurverspreiding over maskergrenzen heen, identiteits- of stijldrift, en onvoorspelbaar gedrag bij multi-condition inputs. Om dit aan te pakken, stellen wij Condition-Aware Routing of Experts (CARE-Edit) voor, dat modelberekening afstemt op specifieke editiecompetenties. De kern is een lichtgewicht latent-attention router die gecodeerde diffusietokens toewijst aan vier gespecialiseerde experts – Tekst, Masker, Referentie en Basis – op basis van multimodale condities en diffusietijdstappen: (i) een Masker Repaint-module verfijnt eerst grove door de gebruiker gedefinieerde maskers voor precieze ruimtelijke begeleiding; (ii) de router past sparse top-K selectie toe om berekening dynamisch toe te wijzen aan de meest relevante experts; (iii) een Latent Mixture-module fuseert vervolgens de expertoutputs, waarbij semantische, ruimtelijke en stilistische informatie coherent wordt geïntegreerd in de basisafbeeldingen. Experimenten valideren de sterke prestaties van CARE-Edit bij contextuele edittaken, waaronder verwijdering, vervanging, tekstgestuurde aanpassingen en stijloverdracht. Empirische analyse onthult verder taakspecifiek gedrag van gespecialiseerde experts, wat het belang aantoont van dynamische, condition-aware verwerking om conflicten tussen meerdere condities te mitigeren.
Autoregressieve (AR) diffusie biedt een veelbelovend kader voor het genereren van video's van theoretisch oneindige lengte. Een grote uitdaging is echter het handhaven van temporele continuïteit en het voorkomen van de progressieve kwaliteitsachteruitgang veroorzaakt door foutenaccumulatie. Om continuïteit te waarborgen, conditioneren bestaande methoden typisch op sterk gedenoiseerde context; deze praktijk verspreidt echter voorspellingsfouten met hoge zekerheid, waardoor degradatie wordt verergerd. In dit artikel beargumenteren wij dat een zeer schone context onnodig is. Geïnspireerd door bidirectionele diffusiemodellen, die frames op een gedeeld ruisniveau denoiseren terwijl ze coherentie behouden, stellen wij voor dat conditionering op context op hetzelfde ruisniveau als het huidige blok voldoende signaal biedt voor temporele consistentie en tegelijkertijd foutpropagatie effectief vermindert. Voortbouwend op dit inzicht presenteren wij HiAR, een hiërarchisch denoiseringskader dat de conventionele generatievolgorde omkeert: in plaats van elk blok sequentieel te voltooien, voert het causale generatie uit over alle blokken bij elke denoiseringsstap, zodat elk blok altijd wordt geconditioneerd op context op hetzelfde ruisniveau. Deze hiërarchie maakt op natuurlijke wijze gepipelineerde parallelle inferentie mogelijk, wat een 1,8x snelheidswinst in wall-clock tijd oplevert in onze 4-staps configuratie. Wij observeren verder dat self-rollout-distillatie binnen dit paradigma een 'low-motion shortcut' versterkt die inherent is aan het moduszoekende reverse-KL-doel. Om dit tegen te gaan, introduceren wij een forward-KL-regularisator in bidirectionele-attentiemodus, die bewegingsdiversiteit behoudt voor causale inferentie zonder de distillatieloss te verstoren. Op VBench (20s generatie) behaalt HiAR de hoogste overall score en de laagste temporele drift van alle vergeleken methoden.
Naarmate taalmodellen (LM's) evolueren van chatassistenten naar langetermijnagenten die in staat zijn tot meerstapsredenering en gereedschpsgebruik, blijven bestaande benchmarks grotendeels beperkt tot gestructureerde of examengerichte taken die tekortschieten bij reële professionele eisen. Daarom introduceren wij \OneMillion-Bench OneMillion-Bench, een benchmark van 400 door experts samengestelde taken uit de rechterlijke macht, financiën, industrie, gezondheidszorg en natuurwetenschappen, ontwikkeld om agenten te evalueren in economisch relevante scenario's. In tegenstelling tot eerder werk vereist deze benchmark het raadplegen van gezaghebbende bronnen, het oplossen van tegenstrijdig bewijs, het toepassen van domeinspecifieke regels en het nemen van beperkte beslissingen, waarbij de juistheid evenzeer afhangt van het redeneerproces als van het uiteindelijke antwoord. Wij hanteren een op rubrieken gebaseerd evaluatieprotocol dat feitelijke nauwkeurigheid, logische samenhang, praktische haalbaarheid en professionele compliantie beoordeelt, gericht op expertniveauproblemen om zinvolle differentiatie tussen agenten te waarborgen. Samen biedt \$OneMillion-Bench een uniforme testomgeving voor het beoordelen van agentbetrouwbaarheid, professionele diepgang en praktische gereedheid in domeinintensieve scenario's.
Hoewel op autoregressie (AR) gebaseerde ASR-systemen met grote taalmodellen een hoge nauwkeurigheid bereiken, beperkt hun sequentiële decodering de parallelisatie en veroorzaakt het hoge latentie. Wij stellen NLE voor, een niet-autoregressieve (NAR) benadering die spraakherkenning formuleert als conditionele transcriptbewerking, wat volledig parallelle voorspelling mogelijk maakt. NLE extraheert akoestische embedding en een initiële hypothese van een voorgetrainde spraakencoder, en verfijnt vervolgens de hypothese met een bidirectionele LLM-editor die is getraind met een latent aligneringsdoel. Een intergeleaveerde opvulstrategie benut de identiteitsafbeeldingsbias van Transformers, waardoor het model zich kan concentreren op correcties in plaats van volledige reconstructie. Op het Open ASR-leaderboard behaalt NLE++ een gemiddelde WER van 5,67% met een RTFx (inverse real-time factor) van 1630. In scenario's met enkele uitingen bereikt NLE een 27x versnelling ten opzichte van de AR-baseline, wat het geschikt maakt voor real-time toepassingen.
Wij presenteren AutoResearch-RL, een raamwerk waarin een reinforcement learning-agent zonder menselijk toezicht open-ended onderzoek doet naar neurale netwerkarchitectuur en hyperparameters. Het proces draait voortdurend door totdat een stop-orakel convergentie of uitputting van resources signaleert. Bij elke stap stelt de agent een codewijziging voor een doel-trainingsscript voor, voert deze uit binnen een vast budget aan wandkloktijd, observeert een scalaire beloning afgeleid van de validatie bits-per-byte (val-bpb), en werkt zijn beleid bij via Proximal Policy Optimisation (PPO). Het belangrijkste ontwerp-inzicht is de scheiding van drie aspecten: (i) een bevroren omgeving (datapijplijn, evaluatieprotocol en constanten) die een eerlijke vergelijking tussen experimenten garandeert; (ii) een muteerbaar doelbestand (train.py) dat de bewerkbare staat van de agent vertegenwoordigt; en (iii) een meta-leerder (de RL-agent zelf) die een groeiende traject van experimentresultaten accumuleert en deze gebruikt om volgende voorstellen te informeren. Wij formaliseren dit als een Markov-beslissingsproces, leiden convergentiegaranties af onder milde aannames, en tonen empirisch aan op een nanochat pre-trainingsbenchmark met een enkele GPU dat AutoResearch-RL configuraties ontdekt die handmatig afgestelde basislijnen evenaren of overtreffen na ongeveer 300 nachtelijke iteraties, zonder menselijke tussenkomst.
Agentische systemen die opereren binnen grote tool-ecosystemen moeten workflows met een lange horizon plannen en uitvoeren onder zwakke of niet-verifieerbare supervisie. Hoewel frontier-modellen deze uitdagingen mitigeren door schaal en grote contextbudgetten, blijven kleine taalmodellen (SLM's) broos: gretig laden van tools verzadigt de context, uitvoeringsfouten stapelen zich op en schaarse beloningen beperken het leerproces. Wij introduceren ATLAS, een reinforcement finetuning-framework dat SLM's in staat stelt effectief te opereren in grootschalige toolspace-omgevingen door te leren hoe ze context moeten verwerven en acties moeten uitvoeren. Onze aanpak levert twee belangrijke bijdragen. Ten eerste behandelen we contextcontrole en uitvoeringsstructuur als leerbare beslissingen, waarbij we iteratief tool-laden combineren met programmatische tool-orchestratie om de contextgroei te begrenzen en trajecten met een lange horizon te stabiliseren. Ten tweede stellen we rubriekgebaseerde reinforcement finetuning voor, die tasksucces decomposeert in gestructureerde, task-uitgelijnde criteria en schaalbare training mogelijk maakt met behulp van kleine beoordelaarsmodellen. Op MCP-benchmarks leveren deze ontwerpkeuzes grote en consistente winsten op ten opzichte van generieke RL-baselines, waardoor een 4B-SLM de prestaties van frontier-agenten kan benaderen met aanzienlijk strengere parameter- en contextbudgetten.
Diffusiemodellen degraderen beelden door ruis toe te voegen, en het omkeren van dit proces onthult een informatiehiërarchie over de tijdstappen heen. De schaalruimtetheorie vertoont een vergelijkbare hiërarchie via laagdoorlaatfiltering. Wij formaliseren dit verband en tonen aan dat sterk verruiste diffusietoestanden niet meer informatie bevatten dan kleine, omlaag geschaalde beelden - wat de vraag oproept waarom ze op volledige resolutie verwerkt moeten worden. Om dit aan te pakken, integreren we schaalruimten in het diffusieproces door een familie van diffusiemodellen te formuleren met gegeneraliseerde lineaire degradaties en praktische implementaties. Het gebruik van downsampling als degradatie levert onze voorgestelde Scale Space Diffusion op. Om Scale Space Diffusion te ondersteunen, introduceren we Flexi-UNet, een UNet-variant die resolutiebehoudende en resolutieverhogende denoising uitvoert met alleen de noodzakelijke delen van het netwerk. We evalueren ons framework op CelebA en ImageNet en analyseren de schaalbaarheid over verschillende resoluties en netwerkdieptes. Onze projectwebsite ( https://prateksha.github.io/projects/scale-space-diffusion/ ) is openbaar beschikbaar.
Huidige grafische gebruikersinterface (GUI)-agenten opereren voornamelijk volgens een reactief paradigma: een gebruiker moet een expliciete instructie verstrekken om een taak uit te voeren. Een intelligente AI-assistent zou echter proactief moeten zijn, in staat om gebruikersintenties direct te anticiperen op basis van continue visuele invoer, zoals schermafbeeldingen van mobiele apparaten of desktops, en tijdige aanbevelingen te doen zonder expliciete aanwijzingen van de gebruiker. De overgang naar dit proactieve paradigma brengt aanzienlijke uitdagingen met zich mee. Schermactiviteit in de echte wereld is zelden lineair; het bestaat uit trajecten met een lange tijdshorizon vol ruisvol surfgedrag, betekenisloze acties en multithreaded taakwisselingen. Om deze kloof te dichten, introduceren we PIRA-Bench (Proactive Intent Recommendation Agent Benchmark), een nieuwe benchmark voor het evalueren van multimodale grote taalmodellen (MLLM's) op continue, zwak-gesuperviseerde visuele invoer. In tegenstelling tot reactieve datasets kenmerkt PIRA-Bench zich door complexe trajecten met meerdere verweven intenties en ruisvolle segmenten met diverse gebruikersprofielcontexten, wat agenten uitdaagt om actiegerichte gebeurtenissen te detecteren terwijl ze zich aanpassen aan gebruikersvoorkeuren. Verder stellen we de PIRF-basislijn voor, een geheugenbewust, statusvolgend framework dat algemene MLLM's in staat stelt om meerdere taakthreads te beheren en misleidende visuele invoer te verwerken. PIRA-Bench dient als een eerste stap naar robuuste en proactieve GUI-gebaseerde persoonlijke assistenten.
Huidige videogeneratiemodellen kampen met een hoge computationele latentie, waardoor realtime-toepassingen buitensporig kostbaar zijn. In dit artikel pakken we deze beperking aan door gebruik te maken van de temporele redundantie die inherent is aan latente videopatches. Hiertoe stellen we het Latent Inter-frame Pruning with Attention Recovery (LIPAR)-raamwerk voor, dat gedupliceerde latente patches detecteert en het opnieuw berekenen ervan overslaat. Daarnaast introduceren we een nieuwe Attention Recovery-mechanisme dat de aandachtswaarden van weggelaten tokens benadert, waardoor visuele artefacten worden verwijderd die ontstaan bij een naïeve toepassing van de pruning-methode. Empirisch verhoogt onze methode de doorvoer van videobewerking met een factor 1,45, met een gemiddelde prestatie van 12,2 FPS op een NVIDIA A6000 vergeleken met de baseline van 8,4 FPS. De voorgestelde methode gaat niet ten koste van de generatiekwaliteit en kan naadloos worden geïntegreerd in het model zonder extra training. Onze aanpak overbrugt effectief de kloof tussen traditionele compressie-algoritmen en moderne generatieve pijplijnen.
Het trainen van grote taalmodellen (LLM's) als autonome agenten begint vaak met imitatieleren, maar dit leert agenten alleen wat ze moeten doen zonder het waarom te begrijpen: agenten vergelijken succesvolle acties nooit met suboptimale alternatieven en missen daardoor besef van actiekwaliteit. Recente benaderingen proberen dit op te lossen door zelfreflectie-supervisie toe te voegen, afgeleid van contrasten tussen expert- en alternatieve acties. Het trainingsparadigma blijft echter fundamenteel imitatieleren: het model imiteert vooraf geconstrueerde reflectietekst in plaats van autonoom te leren redeneren. Wij stellen Agentic Critical Training (ACT) voor, een reinforcement learning-paradigma dat agenten traint om de beste actie tussen alternatieven te identificeren. Door te belonen of de beoordeling van het model correct is, stimuleert ACT het model om autonoom redeneren over actiekwaliteit te ontwikkelen, wat echte zelfreflectie oplevert in plaats van imitatie. Op drie uitdagende agentbenchmarks verbetert ACT consequent de agentprestaties in combinatie met verschillende post-trainingsmethoden. Het behaalt een gemiddelde verbetering van 5,07 punten ten opzichte van imitatieleren en 4,62 punten ten opzichte van reinforcement learning. Vergeleken met benaderingen die reflectievermogen injecteren via knowledge distillation, toont ACT ook duidelijke voordelen, met een gemiddelde verbetering van 2,42 punten. Bovendien maakt ACT sterke generalisatie buiten de verdeling mogelijk op agentbenchmarks en verbetert het de prestaties op algemene redeneerbenchmarks zonder specifieke trainingsdata voor redeneren, wat de waarde van onze methode onderstreept. Deze resultaten suggereren dat ACT een veelbelovende weg is naar de ontwikkeling van meer reflectieve en capabele LLM-agenten.
Grote Taalmodellen (LLM's) hebben sterke algemene capaciteiten getoond, maar hun inzet in de financiële sector blijft uitdagend vanwege de dichte domeinspecifieke terminologie, strenge eisen voor numeriek redeneren en een lage tolerantie voor feitelijke fouten. Wij voeren een gecontroleerde empirische studie uit waaruit blijkt dat in gespecialiseerde verticale domeinen de prestaties grotendeels worden bepaald door de kwaliteit en het moeilijkheids-/verifieerbaarheidsprofiel van post-trainingdata. Wij introduceren ODA-Fin-SFT-318k, geconstrueerd via multi-stapsdistillatie en -verificatie om hoogwaardige Chain-of-Thought-supervisie te produceren, en ODA-Fin-RL-12k, samengesteld voor moeilijke maar verifieerbare taken die beloningsprecisie en taakdiversiteit in evenwicht brengen. Met behulp van standaard SFT- en RL-pipelines tonen wij aan dat hoogwaardige CoT-distillatie een robuuste basis legt tijdens SFT, terwijl moeilijkheids- en verifieerbaarheidsbewuste steekproefvorming de RL-generaliseerbaarheid verbetert. Geëvalueerd op negen benchmarks voor algemene financiële taken, sentimentanalyse en numeriek redeneren, overtreft onze ODA-Fin-RL-8B consistent open-source state-of-the-art (SOTA) financiële LLM's van vergelijkbare grootte. Wij maken onze ODA-Fin-SFT-318k- en ODA-Fin-RL-12k-datasets, samen met getrainde modellen, openbaar om data-gedreven financieel AI-onderzoek te bevorderen.
Hoewel generatieve modellen met weinig stappen krachtige beeld- en videogeneratie tegen aanzienlijk lagere kosten mogelijk hebben gemaakt, blijven generieke paradigma's voor reinforcement learning (RL) voor modellen met weinig stappen een onopgelost probleem. Bestaande RL-benaderingen voor diffusiemodellen met weinig stappen zijn sterk afhankelijk van backpropagatie door differentieerbare beloningsmodellen, waardoor de meerderheid van belangrijke beloningssignalen uit de echte wereld wordt uitgesloten, zoals niet-differentieerbare beloningen zoals binaire voorkeuren van mensen, objectaantallen, enz. Om niet-differentieerbare beloningen correct te integreren om generatieve modellen met weinig stappen te verbeteren, introduceren we TDM-R1, een nieuw reinforcement learning-paradigma gebaseerd op een toonaangevend model met weinig stappen, Trajectory Distribution Matching (TDM). TDM-R1 ontkoppelt het leerproces in surrogaatbeloningsleren en generatorleren. Verder ontwikkelden we praktische methoden om per-stap beloningssignalen langs het deterministische generatietraject van TDM te verkrijgen, wat resulteert in een uniforme RL-natrainingsmethode die het vermogen van modellen met weinig stappen aanzienlijk verbetert met generieke beloningen. We voeren uitgebreide experimenten uit variërend van tekstweergave, visuele kwaliteit en voorkeursafstemming. Alle resultaten tonen aan dat TDM-R1 een krachtig reinforcement learning-paradigma is voor tekst-naar-beeldmodellen met weinig stappen, dat state-of-the-art reinforcement learning-prestaties behaalt op zowel in-domein als out-of-domein metrieken. Bovendien schaalt TDM-R1 effectief naar het recente sterke Z-Image-model en presteert het consistent beter dan zowel de 100-NFE- als de weinig-stappen varianten met slechts 4 NFE's. Projectpagina: https://github.com/Luo-Yihong/TDM-R1
Vision Transformers (ViTs) vertonen vaak prestatieverlies bij distributieverschuivingen omdat ze vertrouwen op valse correlaties, zoals achtergrondkenmerken, in plaats van semantisch betekenisvolle kenmerken. Bestaande regularisatiemethoden, die doorgaans gebruikmaken van eenvoudige voor- en achtergrondmaskers, slagen er niet in om de fijnmazige semantische concepten vast te leggen die een object definiëren (bijvoorbeeld "lange snavel" en "vleugels" voor een "vogel"). Hierdoor bieden deze methoden beperkte robuustheid tegen distributieverschuivingen. Om deze beperking aan te pakken, introduceren we een nieuw finetuning-framework dat modelredenering stuurt naar semantiek op conceptniveau. Onze aanpak optimaliseert de interne relevantiekaarten van het model om deze af te stemmen op ruimtelijk verankerde conceptmaskers. Deze maskers worden automatisch gegenereerd, zonder handmatige annotatie: klasse-relevante concepten worden eerst voorgesteld met behulp van een LLM-gebaseerde, labelvrije methode, en vervolgens gesegmenteerd met een VLM. Het finetuning-doel streeft naar afstemming van de relevantie met deze conceptregio's, terwijl tegelijkertijd de focus op valse achtergrondgebieden wordt onderdrukt. Opmerkelijk is dat dit proces slechts een minimale set afbeeldingen vereist en de helft van de datasetklassen gebruikt. Uitgebreide experimenten op vijf out-of-distribution benchmarks tonen aan dat onze methode de robuustheid verbetert voor meerdere ViT-gebaseerde modellen. Verder laten we zien dat de resulterende relevantiekaarten een sterkere afstemming vertonen met semantische objectonderdelen, wat een schaalbare weg biedt naar robuustere en interpreteerbare vision-modellen. Tot slot bevestigen we dat door concepten gestuurde maskers effectievere supervisie bieden voor modelrobuustheid dan conventionele segmentatiekaarten, wat onze centrale hypothese ondersteunt.
De koustart-initialisatiefase speelt een cruciale rol bij het trainen van Multimodale Grote Redeneermodellen (MLRM's), maar de onderliggende mechanismen zijn nog onvoldoende begrepen. Om deze fase te analyseren, introduceren we de Visuele Aandachtsscore (VAS), een op aandacht gebaseerde metriek die kwantificeert hoeveel een model zich op visuele tokens richt. Wij ontdekken dat redeneerprestaties sterk gecorreleerd zijn met VAS (r=0,9616): modellen met een hogere VAS bereiken aanzienlijk sterkere multimodale redeneervaardigheden. Verrassend genoeg slaagt een multimodale koustart er niet in de VAS te verhogen, wat resulteert in aandachtsverdelingen die dicht bij die van het basismodel liggen, terwijl een uitsluitend tekstuele koustart wel tot een duidelijke toename leidt. Wij duiden dit contra-intuïtieve fenomeen aan als Lui Aandachtslocalisatie. Om de causale rol ervan te valideren, ontwerpen we training-vrije interventies die direct de aandachtsallocatie tijdens inferentie moduleren, wat prestatieverbeteringen van 1-2% oplevert zonder enige hertraining. Voortbordurend op deze inzichten stellen we verder Aandacht-Gestuurd Visueel Verankeren en Reflectie (AVAR) voor, een uitgebreid koustart-raamwerk dat visueel-verankerde datasynthese, aandacht-gestuurde doelen en visueel-verankerde beloningsvorming integreert. Toegepast op Qwen2.5-VL-7B behaalt AVAR een gemiddelde winst van 7,0% over 7 multimodale redeneerbenchmarks. Ablatiestudies bevestigen verder dat elke component van AVAR stapsgewijs bijdraagt aan de algehele winst. De code, data en modellen zijn beschikbaar op https://github.com/lrlbbzl/Qwen-AVAR.
Bestaande conceptaanpassingsmethoden hebben opmerkelijke resultaten behaald in hoogwaardige en multi-concept aanpassing. Echter, ze negeren vaak de invloed op het oorspronkelijke gedrag en de capaciteiten van het model bij het aanleren van nieuwe gepersonaliseerde concepten. Om dit probleem aan te pakken, stellen wij PureCC voor. PureCC introduceert een nieuw ontkoppeld leerdoel voor conceptaanpassing, dat de impliciete begeleiding van het doelconcept combineert met de oorspronkelijke conditionele voorspelling. Deze gescheiden vorm stelt PureCC in staat om zich tijdens de training substantieel te concentreren op het oorspronkelijke model. Bovendien ontwerpt PureCC op basis van dit doel een dual-branch trainingspijplijn die een bevroren extractor omvat die gezuiverde doelconceptrepresentaties levert als impliciete begeleiding en een trainbaar flow-model dat de oorspronkelijke conditionele voorspelling produceert, gezamenlijk zuiver leren voor gepersonaliseerde concepten bereikend. Verder introduceert PureCC een nieuwe adaptieve begeleidingsschaal λ^star om de begeleidingssterkte van het doelconcept dynamisch aan te passen, waardoor aanpassingsgetrouwheid en modelbehoud in balans worden gebracht. Uitgebreide experimenten tonen aan dat PureCC state-of-the-art prestaties bereikt in het behouden van het oorspronkelijke gedrag en de capaciteiten, terwijl het hoogwaardige conceptaanpassing mogelijk maakt. De code is beschikbaar op https://github.com/lzc-sg/PureCC.
Het landschap van AI-codeerassistentie ondergaat een fundamentele verschuiving van complexe IDE-plugins naar veelzijdige, terminal-native agents. Door rechtstreeks te opereren waar ontwikkelaars broncodebeheer uitvoeren, builds draaien en omgevingen deployen, bieden CLI-gebaseerde agents een ongekende autonomie voor langetermijn-ontwikkelingstaken. In dit artikel presenteren we OPENDEV, een open-source, command-line codeeragent die specifiek is ontwikkeld voor dit nieuwe paradigma. Effectieve autonome assistentie vereist strikte veiligheidscontroles en uiterst efficiënte contextmanagement om contextvervuiling en redeneervermindering te voorkomen. OPENDEV overwint deze uitdagingen door een samengesteld AI-systeemarchitectuur met workload-gespecialiseerde modelroutering, een dual-agentarchitectuur die planning scheidt van uitvoering, lazy tool discovery en adaptieve contextcompressie die oudere observaties progressief reduceert. Verder gebruikt het een geautomatiseerd geheugensysteem om projectspecifieke kennis over sessies heen op te bouwen en gaat het instructievervaging tegen door middel van gebeurtenisgestuurde systeemherinneringen. Door expliciete redeneringsfasen af te dwingen en context efficiëntie te prioriteren, biedt OPENDEV een veilige, uitbreidbare basis voor terminal-first AI-assistentie, en presenteert het een blauwdruk voor robuuste autonome software-engineering.
Autoregressieve (AR) taalmodelen steunen op causale tokenisatie, maar het uitbreiden van dit paradigma naar visie blijft niet-triviaal. Huidige visuele tokenizers vouwen ofwel 2D-patches uit tot niet-causale reeksen, of leggen heuristische ordeningen op die niet in lijn liggen met het "volgende-token-voorspellingspatroon". Recente diffusie-auto-encoders schieten eveneens tekort: conditionering van de decoder op alle tokens mist causaliteit, terwijl het toepassen van een genest drop-out-mechanisme onevenwicht introduceert. Om deze uitdagingen aan te pakken, presenteren wij CaTok, een 1D causale beeldtokenizer met een MeanFlow-decoder. Door tokens te selecteren over tijdsintervallen en ze te binden aan het MeanFlow-doel, zoals geïllustreerd in Fig. 1, leert CaTok causale 1D-representaties die zowel snelle één-staps-generatie als hoogwaardige meerstaps-bemonstering ondersteunen, terwijl tegelijkertijd diverse visuele concepten natuurlijk worden vastgelegd over de tokenintervallen. Om de training verder te stabiliseren en te versnellen, stellen wij een eenvoudige regularisatie REPA-A voor, die encoderkenmerken afstemt op Vision Foundation Models (VFM's). Experimenten tonen aan dat CaTok state-of-the-art resultaten behaalt voor ImageNet-reconstructie, met een FID van 0.75, een PSNR van 22.53 en een SSIM van 0.674 bij minder trainingsepochs, en dat het AR-model prestaties bereikt die vergelijkbaar zijn met toonaangevende benaderingen.
Vision-language models (VLMs) zijn naar voren gekomen als een veelbelovende richting voor end-to-end autonoom rijden (AD) door visuele observaties, rijcontext en op taal gebaseerd redeneren gezamenlijk te modelleren. Bestaande op VLM gebaseerde systemen kampen echter met een afweging tussen hoogwaardig redeneren en motion planning: grote modellen bieden sterk semantisch begrip maar zijn kostbaar aan te passen voor precieze controle, terwijl kleine VLM-modellen efficiënt gefinetuned kunnen worden maar vaak zwakker redeneren vertonen. Wij stellen NaviDriveVLM voor, een ontkoppeld framework dat redeneren scheidt van actiegeneratie met behulp van een grootschalige Navigator en een lichtgewicht, trainbare Driver. Dit ontwerp behoudt redeneervermogen, verlaagt de trainingskosten en biedt een expliciete, interpreteerbare tussenrepresentatie voor downstream planning. Experimenten op de nuScenes-benchmark tonen aan dat NaviDriveVLM grote VLM-baselines overtreft in end-to-end motion planning.
CLIP-gebaseerde prompt-tuning stelt vooraf getrainde Vision-Language Models (VLM's) in staat om zich efficiënt aan te passen aan downstreamtaken. Hoewel bestaande studies aanzienlijke vooruitgang hebben geboekt, besteden zij beperkte aandacht aan veranderingen in de interne aandachtrepresentaties van VLM's tijdens het tuningproces. In dit artikel wijten we de faalmodi van prompt-tuningvoorspellingen aan verschuivingen in de voorgrondaandacht van de visuele encoder, en stellen we Foreground View-Guided Prompt Tuning (FVG-PT) voor, een adaptieve plug-and-play voorgrondaandachtsturingsmodule, om deze verschuivingen te verlichten. Concreet introduceert FVG-PT een leerbare Foreground Reliability Gate om automatisch de kwaliteit van het voorgrondbeeld te verbeteren, past het een Foreground Distillation Compensation-module toe om de visuele aandacht naar de voorgrond te sturen, en introduceert het verder een Prior Calibration-module om generalisatiedegradatie veroorzaakt door overmatige focus op de voorgrond te verminderen. Experimenten met meerdere backbone-modellen en datasets tonen de effectiviteit en compatibiliteit van FVG-PT aan. Code is beschikbaar op: https://github.com/JREion/FVG-PT
Het trainen van code-generatiemodellen voor de volgende generatie vereist hoogwaardige datasets, maar bestaande datasets kampen met moeilijkheidsongelijkheid, formaatinconsistentie en datakwaliteitsproblemen. Wij pakken deze uitdagingen aan via systematische gegevensverwerking en moeilijkheidsschaling. Wij introduceren een Dataverwerkingskader in vier fasen dat verzameling, verwerking, filtering en verificatie omvat, waarbij Automatische Moeilijkheidsfiltering wordt geïntegreerd via een op LLM gebaseerd predict-calibrate-select raamwerk. Dit raamwerk benut multidimensionele moeilijkheidsmetrieken over vijf gewogen dimensies om uitdagende problemen te behouden en simplistische te verwijderen. De resulterende MicroCoder-dataset omvat tienduizenden gecureerde echte competitieve programmeerproblemen van diverse platformen, met nadruk op actualiteit en moeilijkheidsgraad. Evaluaties op strikt onbekende LiveCodeBench tonen aan dat MicroCoder 3x grotere prestatieverbeteringen bereikt binnen 300 trainingsstappen vergeleken met veelgebruikte baseline-datasets van vergelijkbare omvang, met consistente voordelen onder zowel GRPO als variant-trainingsalgoritmen. De MicroCoder-dataset levert duidelijke verbeteringen op voor medium- en moeilijke problemen across verschillende modelgroottes, met relatieve winsten tot 17,2% in algehele prestaties waar modelcapaciteiten het meest worden belast. Deze resultaten valideren dat moeilijkheidsbewuste datacuratie de modelprestaties op uitdagende taken verbetert, en biedt meerdere inzichten voor datasetcreatie in codegeneratie.
Moderne codegeneratiemodellen vertonen langere outputs, versnelde capaciteitsgroei en gewijzigde trainingsdynamiek, waardoor traditionele trainingsmethodologieën, algoritmen en datasets niet langer effectief zijn voor het verbeteren van hun prestaties. Om deze trainingsknelpunten aan te pakken, stellen we MicroCoder-GRPO voor, een verbeterde Group Relative Policy Optimization-benadering met drie innovaties: conditionele truncatie-masking om het potentieel voor lange outputs te verbeteren met behoud van trainingsstabiliteit, diversiteit-gestuurde temperatuurselectie om outputdiversiteit te behouden en te stimuleren, en verwijdering van KL-verlies met hoge clipping-ratio's om oplossingsdiversiteit te vergemakkelijken. MicroCoder-GRPO behaalt tot 17,6% relatieve verbetering ten opzichte van sterke baseline-modellen op LiveCodeBench v6, met meer uitgesproken winst onder extended context-evaluatie. Daarnaast lanceren we MicroCoder-Dataset, een uitdagendere trainingscorpus die binnen 300 trainingsstappen een 3x grotere prestatieverbetering bereikt dan mainstream datasets op LiveCodeBench v6, en MicroCoder-Evaluator, een robuust raamwerk met ongeveer 25% verbeterde evaluatienauwkeurigheid en circa 40% snellere uitvoering. Door middel van uitgebreide analyse over meer dan dertig gecontroleerde experimenten onthullen we 34 trainingsinzichten over zeven hoofdaspecten, waarmee we aantonen dat goed getrainde modellen competitieve prestaties kunnen bereiken in vergelijking met grotere tegenhangers.
Halfgestructureerde N:M-sparsiteit en kwantisatie met weinig bits (zoals 1.58-bit BitNet) zijn twee veelbelovende benaderingen om de efficiëntie van grote taalmmodellen (LLM's) te verbeteren, maar ze zijn tot nu toe grotendeels afzonderlijk bestudeerd. In dit werk onderzoeken we hun interactie en tonen we aan dat 1.58-bit BitNet van nature compatibeler is met N:M-sparsiteit dan modellen met volledige precisie. Om dit effect te bestuderen, stellen we Sparse-BitNet voor, een uniform raamwerk dat voor het eerst gezamenlijk 1.58-bit-kwantisatie en dynamische N:M-sparsificatie toepast, waarbij een stabiele training wordt gegarandeerd. Over verschillende modelschalen en trainingsregimes (sparse pretraining en dense-to-sparse schema's) heen vertoont 1.58-bit BitNet consistent een kleinere prestatievermindering dan de basislijnen met volledige precisie bij dezelfde sparsiteitsniveaus, en kan het een hogere gestructureerde sparsiteit verdragen voordat de nauwkeurigheid ineenstort. Bovendien behaalt Sparse-BitNet, door gebruik te maken van onze aangepaste sparse tensor core, aanzienlijke snelheidswinsten in zowel training als inferentie, tot wel 1.30X. Deze resultaten benadrukken dat het combineren van extreem lage-bit-kwantisatie met halfgestructureerde N:M-sparsiteit een veelbelovende richting is voor efficiënte LLM's. Code beschikbaar op https://github.com/AAzdi/Sparse-BitNet
Naarmate de videocontentcreatie verschuift naar langere verhalende formats, wordt het samenstellen van korte clips tot samenhangende verhaallijnen steeds belangrijker. De heersende retrievalformuleringen blijven echter context-onafhankelijk tijdens inferentie, waarbij ze lokale semantische afstemming prioriteren ten koste van consistentie in toestand en identiteit. Om deze structurele beperking aan te pakken, formaliseren we de taak van Consistente Video Retrieval (CVR) en introduceren we een diagnostische benchmark die YouCook2, COIN en CrossTask omvat. Wij stellen CAST (Context-Aware State Transition) voor, een lichtgewicht, plug-and-play adapter die compatibel is met diverse bevroren vision-language embeddingruimten. Door een toestandsgeconditioneerde residu-update (Δ) te voorspellen uit de visuele geschiedenis, introduceert CAST een expliciete inductieve bias voor latente toestandsevolutie. Uitgebreide experimenten tonen aan dat CAST de prestaties op YouCook2 en CrossTask verbetert, competitief blijft op COIN en consistent beter presteert dan zero-shot baselines over diverse foundation backbones. Bovendien biedt CAST een nuttig herrangeringssignaal voor black-box videogeneratiekandidaten (bijvoorbeeld van Veo), wat temporeel coherentere vervolgen bevordert.
Autoregressieve (AR) taalmodellen vormen representaties incrementeel via links-naar-rechtsvoorspelling, terwijl diffusietaalmodellen (dLLM's) worden getraind via volledige-sequentie-denoising. Hoewel recente dLLM's de AR-prestaties evenaren, is het nog onduidelijk of diffusiedoelstellingen de interne representaties fundamenteel hervormen over de diepte heen. Wij voeren de eerste laag- en tokengewijze representatieanalyse uit, waarbij we native dLLM's (LLaDA), native AR-modellen (Qwen2.5) en AR-geïnitialiseerde dLLM's (Dream-7B) vergelijken. Wij constateren dat diffusiedoelstellingen leiden tot andere, meer hiërarchische abstracties met aanzienlijke redundantie in de vroege lagen en verminderde recency bias, terwijl AR-doelstellingen sterk gekoppelde, diepte-afhankelijke representaties produceren. Cruciaal is dat AR-geïnitialiseerde dLLM's AR-achtige representatiedynamiek behouden ondanks diffusietraining, wat een hardnekkige initialisatiebias onthult. Gebruikmakend van deze waargenomen representatieredundantie, introduceren we een statische, taakonafhankelijke laagoverslaanmethode tijdens inferentie, waarvoor geen architectuurwijzigingen of KV-cache-deling nodig zijn. Native dLLM's bereiken een FLOPs-reductie tot 18,75% terwijl ze meer dan 90% van hun prestaties behouden op redeneer- en codeergeneratiebenchmarks, terwijl AR-modellen sterk achteruitgaan onder vergelijkbaar overslaan. Deze resultaten koppelen trainingsdoelstellingen aan representatiestructuur en maken praktische, cache-orthogonale efficiëntiewinsten mogelijk.
Wij introduceren OfficeQA Pro, een benchmark voor het evalueren van AI-agenten op gegronde, multi-document redeneervaardigheden over een grote en heterogene documentencollectie. De collectie bestaat uit U.S. Treasury Bulletins die bijna 100 jaar beslaan, bestaande uit 89.000 pagina's en meer dan 26 miljoen numerieke waarden. OfficeQA Pro omvat 133 vragen die nauwkeurige documentparsing, retrieval en analytisch redeneren vereisen over zowel ongestructureerde tekst als tabelgegevens. Toonaangevende grote taalmodellen (LLM's), waaronder Claude Opus 4.6, GPT-5.4 en Gemini 3.1 Pro Preview, behalen een nauwkeurigheid van minder dan 5% op OfficeQA Pro wanneer zij vertrouwen op parametrische kennis, en minder dan 12% met aanvullende toegang tot het web. Zelfs wanneer zij rechtstreeks toegang krijgen tot de documentencollectie, hebben toonaangevende agenten nog steeds moeite met meer dan de helft van de vragen en scoren zij gemiddeld 34,1%. Wij constateren dat het verstrekken van een gestructureerde documentrepresentatie, gegenereerd door Databricks' ai_parse_document, een gemiddelde relatieve prestatieverbetering van 16,1% oplevert across agenten. Wij voeren aanvullende ablatiestudies uit om de effecten te onderzoeken van modelselectie, tabelrepresentatie, retrievalstrategie en test-time scaling op de prestaties. Ondanks deze verbeteringen blijft er een aanzienlijke marge over voordat agenten als betrouwbaar kunnen worden beschouwd voor gegronde redeneertaken op ondernemingsniveau.
Directe prompt-gebaseerde beeldbewerking faalt vaak bij complexe transformaties omdat vage en subjectieve prompts een genuanceerd begrip vereisen van wat er in de afbeelding moet worden gewijzigd. Onze kernintuïtie is dat het gebruik van compositionele beeldbewerkingsinstrumenten in plaats van directe prompting profiteert van gestructureerde planning op agentniveau met expliciete redenering, wat tot betere resultaten leidt. Dit gestructureerde planningsraamwerk maakt efficiënte offline RL-natraining mogelijk op kwaliteit-gescoorde trajecten om de prestaties te verbeteren. Wij presenteren een op instrumenten gebaseerd agentief RL-natrainingsraamwerk dat dit aanpakt via gestructureerde planning met chain-of-thought redenering. Onze belangrijkste bijdragen omvatten: (1) Een op instrumenten gebaseerde agentieve planningsmethodologie die een compositionele bibliotheek van orthogonale primitieve transformaties, gestructureerde contextrepresentatie en expliciete redenering per stap combineert om complexe stijling te decomponeren in interpreteerbare instrumentensequenties. (2) Een pijplijn voor synthetische datageneratie die drie grootschalige datasets produceert (elk simuleert 10K trajecten) met redeneerketens, plannen en kwaliteitsscores, aangezien bestaande datasets dergelijke supervisie niet bieden. Onze datasets en code zijn openbaar beschikbaar in de HuggingFace-repository. (3) Offline RL-trainingsmethoden voor het aanleren van planners met redenering als onze kern algoritmische bijdragen, die consistent verbeteren ten opzichte van de Edit-Only-basislijn in visuele kwaliteit en instructievolging. (4) Uitgebreide evaluatie over Qwen3-VL-modellen met 4B en 8B parameters, die aantoont dat onze methoden de meeste andere basislijnen overtreffen bij de meerderheid van de compositionele taken, gevalideerd door humane evaluaties.
Recente generatieve videowereldmodellen streven ernaar de evolutie van visuele omgevingen te simuleren, waardoor een waarnemer de scène interactief kan verkennen via camerabesturing. Ze gaan er echter impliciet van uit dat de wereld alleen evolueert binnen het gezichtsveld van de waarnemer. Zodra een object het blikveld verlaat, wordt zijn toestand "bevroren" in het geheugen, en het later opnieuw bezoeken van dezelfde regio weerspiegelt vaak niet de gebeurtenissen die in de tussentijd hadden moeten plaatsvinden. In dit werk identificeren en formaliseren we deze over het hoofd gezien beperking als het "out-of-sight dynamics"-probleem, dat videowereldmodellen verhindert een continu evoluerende wereld te representeren. Om dit probleem aan te pakken, stellen we LiveWorld voor, een nieuw raamwerk dat videowereldmodellen uitbreidt om persistente wereldevolutie te ondersteunen. In plaats van de wereld te behandelen als statisch observationeel geheugen, modelleert LiveWorld een persistente globale toestand bestaande uit een statische 3D-achtergrond en dynamische entiteiten die blijven evolueren, zelfs wanneer ze niet worden waargenomen. Om deze onzichtbare dynamiek te handhaven, introduceert LiveWorld een op monitors gebaseerd mechanisme dat autonoom de temporele voortgang van actieve entiteiten simuleert en hun geëvolueerde toestanden synchroniseert bij herbezoek, waardoor ruimtelijk coherente rendering wordt gegarandeerd. Voor evaluatie introduceren we verder LiveBench, een toegewijd benchmark voor de taak van het handhaven van out-of-sight dynamiek. Uitgebreide experimenten tonen aan dat LiveWorld persistente gebeurtenisevolutie en langetermijnsceneconsistentie mogelijk maakt, waardoor de kloof wordt overbrugd tussen bestaand 2D observatiegebaseerd geheugen en echte 4D dynamische wereldsimulatie. De baseline en benchmark zullen publiekelijk beschikbaar zijn op https://zichengduan.github.io/LiveWorld/index.html.
In dit artikel behandelen we het probleem van tactiele sim-naar-real policy transfer voor taken met veel contact. Bestaande methodes richten zich voornamelijk op op visie gebaseerde sensoren en benadrukken de kwaliteit van beeldweergave, terwijl ze te simplistische modellen voor kracht en afschuiving bieden. Dientengevolge vertonen deze modellen een grote sim-naar-real kloof voor veel behendigheidstaken. Hier presenteren we HydroShear, een niet-holonome hydro-elastische tactiele simulator die de stand-van-de-techniek vooruithelpt door het modelleren van: a) overgangen tussen vast- en glijgedrag (stick-slip), b) pad-afhankelijke opbouw van kracht en afschuiving, en c) volledige SE(3) object-sensor interacties. HydroShear breidt hydro-elastische contactmodellen uit met behulp van Signed Distance Functions (SDF's) om de verplaatsingen van de punten op het oppervlak van een indringer te volgen tijdens fysieke interactie met het sensormembraan. Onze aanpak genereert fysica-gebaseerde, computationeel efficiënte krachtvelden vanuit willekeurige waterdichte geometrieën, terwijl deze agnostisch blijft voor de onderliggende physics engine. In experimenten met GelSight Mini's reproduceert HydroShear de werkelijke tactiele afschuiving nauwkeuriger dan bestaande methodes. Deze nauwkeurigheid maakt zero-shot sim-naar-real transfer van reinforcement learning policies mogelijk voor vier taken: pen-invoeging, bin packing, het plaatsen van boeken op een plank voor insertie, en het trekken aan een lade voor fijne grijperregeling tijdens slippen. Onze methode behaalt een gemiddeld slagingspercentage van 93%, wat beter presteert dan policies getraind op tactiele beelden (34%) en alternatieve afschuivingssimulatiemethodes (58%-61%).
Foundationmodellen maken een transitie van offline voorspellers naar geïmplementeerde systemen die naar verwachting over lange tijdsperioden moeten functioneren. In echte implementaties zijn doelstellingen niet vastomlijnd: domeinen veranderen, gebruikersvoorkeuren evolueren en nieuwe taken duiken op nadat het model is vrijgegeven. Dit verheft continu leren en onmiddellijke personalisatie van optionele functies tot kernarchitectuurvereisten. Toch volgen de meeste aanpassingspijplijnen nog steeds een statisch gewichtsparadigma: na de training (of na elke aanpassingsstap) voert inferentie een enkele parametervector uit, ongeacht gebruikersintentie, domein of instantiespecifieke beperkingen. Dit behandelt het getrainde of aangepaste model als een enkel punt in de parameterruimte. In heterogene en continu evoluerende regimes kunnen verschillende doelstellingen gescheiden haalbare regio's over parameters induceren, waardoor elke gedeelde update gedwongen wordt tot compromis, interferentie of overspecialisatie. Als gevolg daarvan worden continu leren en personalisatie vaak geïmplementeerd als herhaaldelijk overschrijven van gedeelde gewichten, met het risico op degradatie van eerder aangeleerd gedrag. Wij stellen HY-WU (Weight Unleashing) voor, een geheugen-eerst aanpassingsraamwerk dat de aanpassingsdruk weg verschuift van het overschrijven van een enkel gedeeld parameterpunt. HY-WU implementeert functioneel (operator-niveau) geheugen als een neurale module: een generator die gewichts-updates on-the-fly synthetiseert op basis van de instantievoorwaarde, waardoor instantiespecifieke operatoren ontstaan zonder optimalisatie tijdens de testfase.
Dia's vormen een cruciaal medium voor het overbrengen van informatie in presentatiegerichte scenario's zoals de academische wereld, het onderwijs en het bedrijfsleven. Ondanks hun belang blijft het creëren van hoogwaardige presentatiedecks tijdrovend en cognitief veeleisend. Recente vooruitgang in generatieve modellen, zoals Nano Banana Pro, heeft geautomatiseerde dia-generatie steeds haalbaarder gemaakt. Bestaande evaluaties van dia-generatie zijn echter vaak grofkorrelig en steunen op holistische beoordelingen, waardoor het moeilijk is om modelcapaciteiten accuraat in te schatten of zinvolle vooruitgang in het vakgebied te volgen. In de praktijk vormt het gebrek aan fijnmazige, verifieerbare evaluatiecriteria een kritieke bottleneck voor zowel onderzoek als praktische implementatie. In dit artikel stellen wij PresentBench voor, een fijnmazige, op rubrieken gebaseerde benchmark voor het evalueren van geautomatiseerde dia-generatie voor de praktijk. Deze bevat 238 evaluatie-instanties, elk aangevuld met de benodigde achtergrondmaterialen voor het maken van dia's. Bovendien hebben wij handmatig gemiddeld 54.1 checklistitems per instantie ontworpen, elk geformuleerd als een binaire vraag, om een fijnmazige, instancespecifieke evaluatie van de gegenereerde presentatiedecks mogelijk te maken. Uitgebreide experimenten tonen aan dat PresentBench betrouwbaardere evaluatieresultaten oplevert dan bestaande methoden en een significant sterkere afstemming vertoont met menselijke voorkeuren. Verder laat onze benchmark zien dat NotebookLM significant beter presteert dan andere methoden voor dia-generatie, wat een substantiële recente vooruitgang in dit domein benadrukt.
Kennisdistillatie (KD) wordt veelvuldig toegepast bij semantische segmentatie om grote modellen te comprimeren, maar conventionele benaderingen richten zich voornamelijk op het behouden van nauwkeurigheid binnen het domein, terwijl ze generalisatie naar andere domeinen verwaarlozen. Dit laatste is echter essentieel bij distributieverschuivingen. Deze beperking wordt ernstiger met de opkomst van vision foundation models (VFM's): hoewel VFM's een sterke robuustheid vertonen op onzichtbare data, gaat dit vermogen vaak verloren wanneer men ze distilleert met conventionele KD. Wij stellen Generaliseerbare Kennisdistillatie (GKD) voor, een multi-stappen raamwerk dat generalisatie expliciet verbetert. GKD ontkoppelt representatieleren van taakleren. In de eerste fase verwerft de student domeinonafhankelijke representaties via selectieve feature-distillatie, en in de tweede fase worden deze representaties bevroren voor taakaanpassing, waardoor overfitting op zichtbare domeinen wordt tegengegaan. Om de transfer verder te ondersteunen, introduceren we een query-gebaseerd zacht distillatiemechanisme, waarbij studentfeatures als queries fungeren voor teacherrepresentaties om selectief overdraagbare ruimtelijke kennis uit VFM's op te halen. Uitgebreide experimenten op vijf benchmarks voor domeingeneralistie tonen aan dat GKD consistent superieur presteert aan bestaande KD-methoden, met gemiddelde winsten van +1,9% in foundation-to-foundation (F2F) en +10,6% in foundation-to-local (F2L) distillatie. De code zal beschikbaar zijn op https://github.com/Younger-hua/GKD.
Moderne taalmodellen blijven afhankelijk van vaste, vooraf gedefinieerde subwoord-tokenisaties. Zodra een tokenizer is getraind, kan het taalmodel alleen op dit vaste granulariteitsniveau opereren, wat vaak leidt tot broos en contra-intuïtief gedrag, zelfs in verder sterke redeneermodellen. Wij introduceren ByteFlow Net, een nieuwe hiërarchische architectuur die tokenizers volledig elimineert en in plaats daarvan modellen in staat stelt hun eigen segmentatie van ruwe bytestromen in semantisch betekenisvolle eenheden aan te leren. ByteFlow Net voert compressiegedreven segmentatie uit op basis van de coderingssnelheid van latente representaties, wat adaptieve grenzen oplevert terwijl een statische rekenstructuur behouden blijft via Top-K-selectie. In tegenstelling tot eerdere zelf-tokeniserende methoden die afhangen van broze heuristieken met door mensen ontworzen inductieve vooroordelen, past ByteFlow Net de granulariteit van zijn interne representatie aan aan de invoer zelf. Experimenten tonen aan dat deze op compressie gebaseerde chunking-strategie aanzienlijke prestatieverbeteringen oplevert, waarbij ByteFlow Net zowel BPE-gebaseerde Transformers als eerdere byteniveau-architecturen overtreft. Deze resultaten suggereren dat end-to-end, tokenizer-vrije modellering niet alleen haalbaar is, maar ook effectiever, wat een weg opent naar adaptievere en informatiegegronde taalmodellen.
Het handmatig optimaliseren van GPU-kernels is een uitdagende en tijdrovende taak. Met de snelle ontwikkeling van LLM's wordt geautomatiseerde GPU-kerneloptimalisatie geleidelijk aan een tastbare realiteit. Huidige, door LLM's aangedreven optimalisatiemethoden richten zich echter nauw op machine learning-toepassingen, zoals de optimalisatie van PyTorch-operatoren, en negeren bredere domeinen zoals sparse matrixoperaties in wetenschappelijk rekenen. Uitbreiding naar deze bredere toepassingen brengt nieuwe uitdagingen met zich mee voor de benchmark en het algoritme. Daarom is de ontwikkeling van een algemene, geautomatiseerde kerneloptimalisatiemethode onze primaire focus. In dit artikel pakken we het ontbreken van een systematische evaluatie voor multi-scenario-instellingen aan door MSKernelBench te introduceren, dat meerdere scenario's omspant, waaronder fundamentele algebraïsche bewerkingen, veelvoorkomende LLM-kernels, sparse matrixoperatoren en wetenschappelijke rekenroutines, die elk zowel FP32- als BF16-precisie ondersteunen. Op basis van deze benchmark introduceren we CUDAMaster, een multi-agent, hardwarebewust systeem voor kerneloptimalisatie dat profilinformatie benut en automatisch de volledige toolchain voor compilatie en uitvoering opzet. Experimentele resultaten tonen aan dat CUDAMaster aanzienlijke snelheidswinst boekt bij de meeste operatoren en Astra met ongeveer 35% verslaat. In verschillende gevallen evenaart of overtreft de prestaties die van sterk geoptimaliseerde, closed-source bibliotheken zoals cuBLAS. Een demo met de originele en geoptimaliseerde code voor elke operator is beschikbaar op https://hanyx2021.github.io/MSKernelBenchDemo/.
Flowmaps maken hoogwaardige beeldgeneratie mogelijk in een enkele voorwaartse doorloop. In tegenstelling tot iteratieve diffusiemodellen belemmert hun gebrek aan een expliciet samplingstraject echter het incorporeren van externe beperkingen voor conditionele generatie en het oplossen van inverse problemen. Wij presenteren Variational Flow Maps, een raamwerk voor conditionele sampling dat het perspectief van conditionering verschuift van het "geleiden van een samplingpad" naar het "leren van het juiste initiële ruis". Specifiek trachten wij, gegeven een observatie, een ruisadaptermodel te leren dat een ruisverdeling uitvoert, zodat na mapping naar de dataruimte via het flowmap, de samples de observatie en de data prior respecteren. Hiertoe ontwikkelen wij een principieel variationeel doel dat de ruisadapter en het flowmap gezamenlijk traint, waardoor de ruis-data-uitlijning verbetert, zodat sampling uit een complexe data posterior wordt bereikt met een eenvoudige adapter. Experimenten met diverse inverse problemen tonen aan dat VFM's goed gekalibreerde conditionele samples produceren in één (of enkele) stappen. Voor ImageNet bereikt VFM een competitieve kwaliteit terwijl de sampling met ordes van grootte wordt versneld in vergelijking met alternatieve iteratieve diffusie-/flowmodellen. Code is beschikbaar op https://github.com/abbasmammadov/VFM.
Het voorspellen van hoe cellen reageren op genetische perturbaties is fundamenteel voor het begrip van genfunctie, ziekte-mechanismen en de ontwikkeling van therapieën. Hoewel recente deep learning-benaderingen veelbelovend zijn gebleken in het modelleren van responsies op perturbaties in enkele cellen, hebben zij moeite met generaliseren over verschillende celtypen en perturbatiecontexten vanwege beperkte contextuele informatie tijdens de generatie. Wij introduceren PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation), een nieuw raamwerk dat Retrieval-Augmented Generation uitbreidt voorbij traditionele taalmodellentoepassingen naar de cellulaire biologie. In tegenstelling tot standaard RAG-systemen die zijn ontworpen voor tekstretrieval met vooraf getrainde LLM's, ontbreekt het bij perturbatieretrieval aan gevestigde similariteitsmetrieken en vereist het leren wat relevante context vormt, waardoor differentieerbare retrieval essentieel is. PT-RAG lost dit op via een tweestappenpijplijn: eerst worden kandidaat-perturbaties K opgehaald met behulp van GenePT-embeddingen, vervolgens wordt de selectie adaptief verfijnd door middel van Gumbel-Softmax discrete sampling, geconditioneerd op zowel de celstatus als de inputperturbatie. Deze differentieerbare retrieval, die rekening houdt met het celtype, maakt end-to-end optimalisatie van het retrieval-doel mogelijk, gezamenlijk met de generatie. Op de Replogle-Nadig single-gene perturbatie-dataset tonen wij aan dat PT-RAG beter presteert dan zowel STATE als standaard RAG onder identieke experimentele omstandigheden, met de sterkste verbeteringen in distributionele similariteitsmetrieken (W_1, W_2). Opmerkelijk is dat het dramatische falen van standaard RAG zelf een belangrijke bevinding is: het toont aan dat differentieerbare retrieval, die rekening houdt met het celtype, essentieel is in dit domein, en dat naïeve retrieval de prestaties actief kan schaden. Onze resultaten vestigen retrieval-augmented generation als een veelbelovend paradigma voor het modelleren van cellulaire responsies op genperturbatie. De code om onze experimenten te reproduceren is beschikbaar op https://github.com/difra100/PT-RAG_ICLR.
Moderne visie-taal-model (VLM) gebaseerde grafische gebruikersinterface (GUI) agenten worden niet alleen verwacht acties nauwkeurig uit te voeren, maar ook met lage latentie op gebruikersinstructies te reageren. Terwijl bestaand onderzoek naar GUI-agent beveiliging zich voornamelijk richt op het manipuleren van actienauwkeurigheid, blijven de veiligheidsrisico's met betrekking tot reactie-efficiëntie grotendeels onontgonnen. In dit artikel introduceren we SlowBA, een nieuwe backdoor-aanval die zich richt op de responsiviteit van VLM-gebaseerde GUI-agenten. De kernidee is om reactielatentie te manipuleren door excessief lange redeneerketens op te wekken onder specifieke triggervoorbeelden. Om dit te bereiken, stellen we een tweefasen backdoor-injectiestrategie op beloningsniveau (RBI) voor die eerst het langereactieformaat aligneert en vervolgens triggerbewuste activering aanleert door middel van reinforcement learning. Daarnaast ontwerpen we realistische pop-upvensters als triggers die natuurlijk voorkomen in GUI-omgevingen, wat de stealthiness van de aanval verbetert. Uitgebreide experimenten over meerdere datasets en baseline-methoden tonen aan dat SlowBA de reactielengte en latentie significant kan verhogen, terwijl de taaknauwkeurigheid grotendeels behouden blijft. De aanval blijft effectief, zelfs met een kleine vergiftigingsratio en onder verschillende verdedigingsinstellingen. Deze bevindingen onthullen een voorheen over het hoofd gezien beveiligingslek in GUI-agenten en benadrukken de noodzaak van verdedigingsmechanismen die zowel actienauwkeurigheid als reactie-efficiëntie in overweging nemen. Code is beschikbaar op https://github.com/tu-tuing/SlowBA.
Wij bestuderen de zelfdiffusioforese van een bolvormig, chemisch actief deeltje nabij een vlakke, ondoordringbare wand, met een focus op de invloed van de deeltjesoriëntatie op de voortstuwing. Wij analyseren een Janus-deeltje met asymmetrische chemische oppervlakteactiviteit, bestaande uit een klein inert gebied binnen een katalytisch actieve kap. Hoewel numerieke simulaties zijn gebruikt om dergelijke deeltjes te bestuderen, ondervinden deze moeilijkheden bij het oplossen van de stroming en het transport in het extreme nabij-veldregime als gevolg van geometrische beperkingen en steile gradiënten in de opgeloste stofconcentratie. Wij pakken deze beperking aan door middel van een asymptotische analyse in de limiet van nabij contact, waarbij de spleet tussen het deeltje en de wand smal is. In het bijzonder beschouwen wij de onderscheiden limiet waarin het inerte gebied asymptotisch vergelijkbaar is in grootte met het smeergebied. Wij analyseren een axiaal-symmetrische configuratie waarin het inerte gedeelte parallel aan de wand is georiënteerd en breiden de analyse uit naar licht gekantelde oriëntaties. Wij vinden dat de kanteling bepaalt of een gekanteld deeltje terugdraait naar de axiaal-symmetrische toestand of verder reoriënteert, waardoor de rotatiestabiliteit in het nabij-contactregime wordt gekarakteriseerd.
Diverse uitvoer in tekstgeneratie is essentieel voor effectieve verkenning bij complexe redeneertaken, zoals codegeneratie en wiskundig probleemoplossen. Zulke Pass@k-problemen hebben baat bij verschillende kandidaatoplossingen die de oplossingsruimte bestrijken. Traditionele steekproefmethoden verspillen echter vaak rekenresources aan repetitieve foutmodi. Hoewel Diffusion Language Models zijn opgekomen als een competitief alternatief voor het heersende autoregressieve paradigma, blijven zij vatbaar voor deze redundantie, waarbij onafhankelijke steekproeven vaak terugvallen in vergelijkbare modi. Om dit aan te pakken, stellen we een trainingsvrije, kostenefficiënte interventie voor om de generatieve diversiteit in Diffusion Language Models te verbeteren. Onze aanpak wijzigt tussenliggende steekproeven in een batch sequentieel, waarbij elke steekproef wordt afgestoten van de kenmerkruimte van voorgaande steekproeven, om redundantie actief te bestraffen. In tegenstelling tot eerdere methoden die hertraining of beam search vereisen, brengt onze strategie verwaarloosbare rekenkosten met zich mee, terwijl wordt gegarandeerd dat elke steekproef een uniek perspectief aan de batch bijdraagt. We evalueren onze methode op de HumanEval- en GSM8K-benchmarks met het LLaDA-8B-Instruct-model. Onze resultaten tonen een significant verbeterde diversiteit en Pass@k-prestatie bij verschillende temperatuurinstellingen. Als een eenvoudige aanpassing van het steekproefproces biedt onze methode een directe, kostenefficiënte verbetering voor huidige en toekomstige Diffusion Language Models bij taken die baat hebben bij een diverse oplossingszoektocht. Onze code is beschikbaar op https://github.com/sean-lamont/odd.
Stedelijke verkeersstromen worden bepaald door de complexe, niet-lineaire interactie tussen ruimtelijke ordening en ruimtelijk-temporeel heterogene mobiliteitsvraag. Conventionele globale regressie- en tijdreeksmodellen zijn niet in staat om deze multi-schaal dynamiek voor meerdere vervoerswijzen gelijktijdig te vangen. Deze studie stelt een GeoAI-hybride analytisch raamwerk voor dat opeenvolgend Multischaal Geografisch Gewogen Regressie (MGWR), Random Forest (RF) en Ruimtelijk-Temporeel Graf Convolutionele Netwerken (ST-GCN) integreert om de ruimtelijk-temporele heterogeniteit van verkeersstroompatronen en hun interactie met ruimtelijk gebruik te modelleren voor drie vervoerswijzen: gemotoriseerd verkeer, openbaar vervoer en actieve mobiliteit. Toepassing van het raamwerk op een empirisch gekalibreerde dataset van 350 verkeersanalysezones in zes steden met twee contrasterende stedelijke morfologieën levert vier belangrijke bevindingen op: (i) het GeoAI-hybride model behaalt een root mean squared error (RMSE) van 0,119 en een R² van 0,891, en presteert daarmee 23-62% beter dan alle benchmarks; (ii) SHAP-analyse identificeert menging van ruimtelijk gebruik als de sterkste voorspeller voor gemotoriseerde stromen en haltedichtheid als de sterkste voorspeller voor openbaar vervoer; (iii) DBSCAN-clustering identificeert vijf functioneel verschillende stedelijke verkeerstypologieën met een silhouette-score van 0,71, en de residuen van het GeoAI-hybride model vertonen een Moran's I=0,218 (p<0,001), een reductie van 72% ten opzichte van OLS-baselines; en (iv) kruisstedelijke transfer experimenten tonen een matige overdraagbaarheid binnen clusters (R²≥0,78) en een beperkte generaliseerbaarheid tussen clusters, wat het primaat van de stedelijke morfologische context onderstreept. Het raamwerk biedt planners en verkeerskundigen een interpreteerbare, schaalbare toolkit voor evidence-based multimodaal mobiliteitsmanagement en ontwerp van ruimtelijk ordeningsbeleid.
Het volgen van willekeurige punten (TAP) is een fundamentele maar uitdagende taak in de computer vision, waarvoor hoge precisie en langetermijnredenering over beweging vereist zijn. Recente pogingen om RGB-frames en eventstromen te combineren tonen potentie, maar ze baseren zich doorgaans op synchrone of niet-adaptieve fusie, wat leidt tot temporele uitlijningproblemen en ernstige prestatievermindering wanneer één modaliteit faalt. Wij introduceren TAPFormer, een transformer-gebaseerd framework dat asynchrone, temporeel consistente fusie van frames en events uitvoert voor robuuste en hoogfrequente tracking van willekeurige punten. Onze belangrijkste innovatie is een Transient Asynchronous Fusion (TAF)-mechanisme, dat de temporele evolutie tussen discrete frames expliciet modelleert via continue event-updates, waardoor de kloof tussen frames met een lage snelheid en events met een hoge snelheid wordt overbrugd. Daarnaast past een Cross-modal Locally Weighted Fusion (CLWF)-module de ruimtelijke aandacht adaptief aan volgens de betrouwbaarheid van de modaliteit, wat resulteert in stabiele en onderscheidende kenmerken, zelfs onder onscherpe of zwakke belichtingsomstandigheden. Om onze aanpak onder realistische omstandigheden te evalueren, construeren we een nieuwe real-world frame-event TAP-dataset onder diverse belichtings- en bewegingsomstandigheden. Onze methode overtreft bestaande puntvolgers en behaalt een verbetering van 28,2% in de gemiddelde pixelfout binnen de drempelwaarde. Bovendien behaalt onze tracker op standaard puntvolgbenchmarks consistent de beste prestaties. Projectwebsite: tapformer.github.io
Generatieve diffusiemodellen worden steeds vaker gebruikt voor data-augmentatie in medische beeldvorming, maar tekstprompts kunnen geen causale trainingsdata produceren. Opnieuw prompten herstart het volledige generatietraject, waarbij anatomie, textuur en achtergrond veranderen. Op inversie gebaseerde bewerkingsmethoden introduceren reconstructiefouten die structurele drift veroorzaken. Wij stellen MedSteer voor, een trainingsvrij activatie-stuurraamwerk voor endoscopische synthese. MedSteer identificeert een pathologievector voor elk contrastief promptpaar in de cross-attention lagen van een diffusietransformer. Tijdens inferentie stuurt het de beeldactivaties langs deze vector, waarbij tegenfactuele paren vanaf nul worden gegenereerd waarin het enige verschil het gestuurde concept is. Alle andere structuren worden door constructie behouden. Wij evalueren MedSteer in drie experimenten met Kvasir v3 en HyperKvasir. Bij tegenfactuele generatie over drie klinische conceptparen behaalt MedSteer flip rates van 0.800, 0.925 en 0.950, en overtreft daarmee de beste op inversie gebaseerde baseline in zowel concept flip rate als structureel behoud. Bij ontwarring van contrastvloeistof bereikt MedSteer 75% verwijdering tegenover 20% (PnP) en 10% (h-Edit). Bij downstream poliepdetectie bereikt augmentatie met MedSteer tegenfactuele paren een ViT AUC van 0.9755 versus 0.9083 voor kwantitatief gelijkwaardig opnieuw prompten, wat bevestigt dat tegenfactuele structuur de winst drijft. Code staat op https://github.com/phamtrongthang123/medsteer
Wereldmodellen maken planning mogelijk in een voorspelde, denkbeeldige toekomstige ruimte, en bieden zo een veelbelovend raamwerk voor belichaamde navigatie. Bestaande navigatiewereldmodellen missen echter vaak actie-geconditioneerde consistentie, waardoor visueel plausibele voorspellingen bij multi-step roll-out kunnen afdrijven en de planning verslechteren. Bovendien vereist efficiënte inzet inferentie met weinig diffusiestappen, maar bestaande distillatiemethoden behouden de roll-outconsistentie niet expliciet, wat een kloof tussen training en inferentie creëert. Om deze uitdagingen aan te pakken, stellen we MWM voor, een mobiel wereldmodel voor planning-gebaseerde beelddoelnavigatie. Concreet introduceren we een tweefasen-trainingsraamwerk dat structuurpretraining combineert met Actie-Geconditioneerde Consistentie (ACC) na-training om de actie-geconditioneerde roll-outconsistentie te verbeteren. Verder introduceren we Inference-Consistent State Distillation (ICSD) voor diffusiedistillatie met weinig stappen en verbeterde roll-outconsistentie. Onze experimenten op benchmark- en real-world taken tonen consistente verbeteringen aan in visuele kwaliteit, trajectnauwkeurigheid, planningssucces en inferentie-efficiëntie. Code: https://github.com/AIGeeksGroup/MWM. Website: https://aigeeksgroup.github.io/MWM.
Imitation Learning (IL) stelt robots in staat om manipulatievaardigheden aan te leren op basis van demonstraties door experts. Diffusion Policy (DP) modelleert multimodale expertgedragingen, maar lijdt onder prestatievermindering naarmate de observatiehorizon toeneemt, wat een beperking vormt voor manipulatie op lange termijn. Wij stellen Self-Evolving Gated Attention (SEGA) voor, een tijdelijk module die een zich in de tijd ontwikkelende latente toestand handhaaft via gated attention. Dit maakt efficiënte recurrent updates mogelijk die lange-termijn observaties comprimeren tot een representatie met vaste grootte, terwijl irrelevante temporele informatie wordt gefilterd. Integratie van SEGA in DP resulteert in Self-Evolving Diffusion Policy (SeedPolicy), wat het knelpunt in temporele modellering oplost en schaalbare horizonuitbreiding mogelijk maakt met een gematigde overhead. Op de RoboTwin 2.0-benchmark met 50 manipulatietaken presteert SeedPolicy beter dan DP en andere IL-baselines. Gemiddeld over zowel CNN- als Transformer-backbones behaalt SeedPolicy een relatieve verbetering van 36,8% in schone settings en een relatieve verbetering van 169% in uitdagende, gerandomiseerde settings ten opzichte van DP. Vergeleken met vision-language-action modellen zoals RDT met 1,2 miljard parameters, behaalt SeedPolicy vergelijkbare prestaties met één tot twee ordes van grootte minder parameters, wat sterke efficiëntie en schaalbaarheid aantoont. Deze resultaten positioneren SeedPolicy als een state-of-the-art imitation learning-methode voor robotmanipulatie op lange termijn. Code is beschikbaar op: https://github.com/Youqiang-Gui/SeedPolicy.