Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Recente ontwikkelingen in multimodale grote taalmodellen ontsluiten ongekende mogelijkheden voor GUI-automatisering. Een fundamentele uitdaging blijft echter bestaan: hoe hoogwaardige trainingsdata efficiënt te verkrijgen en tegelijk de betrouwbaarheid van annotaties te waarborgen? Wij introduceren een zelf-evoluerend trainingsproces aangedreven door het Calibrated Step Reward System, dat modelgegenereerde trajecten via trajectniveau-calibratie omzet in betrouwbare trainingssignalen, waarbij een annotatienauwkeurigheid van >90% wordt bereikt tegen 10-100x lagere kosten. Gebruikmakend van deze pijplijn introduceren we Step-GUI, een familie van modellen (4B/8B) die state-of-the-art GUI-prestaties levert (8B: 80.2% AndroidWorld, 48.5% OSWorld, 62.6% ScreenShot-Pro) en tegelijk robuuste algemene capaciteiten behoudt. Naarmate de capaciteiten van GUI-agenten verbeteren, vereist praktische implementatie gestandaardiseerde interfaces voor heterogene apparaten, waarbij de gebruikersprivacy wordt beschermd. Hiertoe stellen we GUI-MCP voor, het eerste Model Context Protocol voor GUI-automatisering met een hiërarchische architectuur die laagniveau atomaire operaties combineert met hoog-niveau taakdelegatie aan lokale specialistische modellen, waardoor uitvoering met hoge privacy mogelijk wordt waarbij gevoelige data on-device blijft. Ten slotte introduceren we, om te beoordelen of agenten authentiek dagelijks gebruik aankunnen, AndroidDaily: een benchmark gebaseerd op real-world mobiel gebruikspatronen met 3146 statische acties en 235 end-to-end taken in hoogfrequente dagelijkse scenario's (8B: statisch 89.91%, end-to-end 52.50%). Ons werk bevordert de ontwikkeling van praktische GUI-agenten en toont sterk potentieel voor real-world implementatie in alledaagse digitale interacties.
Efficiëntie, als een kritieke praktische uitdaging voor door LLM aangedreven agent- en redeneersystemen, wordt in toenemende mate beperkt door de inherente latentie van autoregressieve (AR) decodering. Speculatieve decodering vermindert deze kost door een draft-verify-schema, maar bestaande benaderingen steunen op AR-draftmodellen (ook wel drafters genoemd), die twee fundamentele problemen introduceren: (1) stapsgewijze onzekerheidsaccumulatie leidt tot een progressieve ineenstorting van het vertrouwen tussen het doelmodel en de drafter, en (2) inherent sequentiële decodering van AR-drafters. Samen veroorzaken deze factoren beperkte snelheidswinsten. In dit artikel tonen we aan dat een diffusion large language model (dLLM) drafter deze problemen van nature kan overwinnen door zijn fundamenteel verschillende probabilistische modellering en efficiënte parallelle decodeerstrategie. Gebaseerd op dit inzicht introduceren we DEER, een efficiënt speculatief decodeerkader dat draft met diffusion en verifieert met AR-modellen. Om hoogwaardige drafting mogelijk te maken, gebruikt DEER een tweefasig trainingsproces om de op dLLM gebaseerde drafters af te stemmen op het doel-AR-model, en past verder enkelstapsdecodering toe om lange draftsegmenten te genereren. Experimenten tonen aan dat DEER draftacceptatielengtes bereikt van tot 32 tokens, ver boven de 10 tokens die door EAGLE-3 worden gehaald. Bovendien behaalt DEER op HumanEval met Qwen3-30B-A3B een snelheidswinst van 5,54x, terwijl EAGLE-3 slechts 2,41x bereikt. Code, model, demo, enz. zullen beschikbaar zijn op https://czc726.github.io/DEER/.
Multi-token-generatie is naar voren gekomen als een veelbelovend paradigma voor het versnellen van inferentie op grote transformer-modellen. Recente inspanningen onderzoeken vooral diffusion Large Language Models (dLLM's) voor parallel decoderen om de inferentielatentie te verminderen. Om een generatiekwaliteit op AR-niveau te bereiken, passen veel technieken AR-modellen aan tot dLLM's om parallel decoderen mogelijk te maken. Deze lijden echter aan een beperkte versnelling in vergelijking met AR-modellen vanwege een mismatch tussen pretraining en posttraining. Concreet wijkt de gemaskeerde dataverdeling tijdens de posttraining significant af van de real-world dataverdeling gezien tijdens de pretraining, en dLLM's steunen op bidirectionele aandacht, wat botst met de causale prior die tijdens de pretraining is aangeleerd en de integratie van exacte KV-cache-hergebruik belemmert. Om dit aan te pakken, introduceren we Jacobi Forcing, een progressief distillatieparadigma waarbij modellen worden getraind op hun eigen gegenereerde parallelle decodeertrajecten. Dit verschuift AR-modellen soepel naar efficiënte parallelle decoders, waarbij hun voorgetrainde causale inferentie-eigenschap behouden blijft. De modellen die onder dit paradigma zijn getraind, de Jacobi Forcing Model, behaalt een 3,8x wall-clock versnelling op coderings- en wiskundige benchmarks met minimaal prestatieverlies. Gebaseerd op de trajectkenmerken van Jacobi Forcing Models, introduceren we multi-blok decodering met afwijzingsrecyclage, wat tot 4,5x hogere tokenacceptatie per iteratie en een bijna 4,0x wall-clock versnelling mogelijk maakt, waarbij effectief extra rekenkracht wordt ingewisseld voor lagere inferentielatentie. Onze code is beschikbaar op https://github.com/hao-ai-lab/JacobiForcing.
Huidige multimodale grote taalmodellen beschikken over sterke waarnemings- en redeneervermogens, maar hoge reken- en geheugeneisen maken directe implementatie in on-device omgevingen lastig. Hoewel kleinere modellen geleidelijk worden uitgerust met sterke algemene capaciteiten, blijven standaard Vision Transformer (ViT)-encoders een kritieke knelpunt, met excessieve latentie en geheugenverbruik bij het verwerken van hoogresolutie-invoeren. Om deze uitdagingen aan te pakken, introduceren we HyperVL, een efficiënt multimodaal groot taalmodel toegesneden op on-device inferentie. HyperVL hanteert een image-tiling strategie om piekgeheugengebruik te begrenzen en bevat twee nieuwe technieken: (1) een Visuele Resolutie Compressor (VRC) die adaptief optimale coderingsresoluties voorspelt om redundante berekeningen te elimineren, en (2) Dual Consistency Learning (DCL), dat multi-scale ViT-encoders uitlijnt binnen een uniform raamwerk, waardoor dynamisch schakelen tussen visuele takken onder een gedeelde LLM mogelijk wordt. Uitgebreide experimenten tonen aan dat HyperVL state-of-the-art prestaties bereikt onder modellen van vergelijkbare grootte op meerdere benchmarks. Bovendien vermindert het latentie en stroomverbruik aanzienlijk op echte mobiele apparaten, wat de praktische bruikbaarheid voor on-device multimodale inferentie aantoont.
Recente reinforcement learning (RL)-benaderingen zoals outcome-supervised GRPO hebben keten-van-gedachte-redenering in Vision Language Models (VLMs) verbeterd, maar belangrijke problemen blijven bestaan: (i) afhankelijkheid van kostbare en rumoerige handmatig samengestelde annotaties of externe verifiers; (ii) vlakke en schaarse beloningsschema's in GRPO; en (iii) logische inconsistentie tussen de redenering van een keten en het uiteindelijke antwoord. Wij presenteren Puzzle Curriculum GRPO (PC-GRPO), een supervisievrije methode voor RL met Verifieerbare Beloningen (RLVR) die visuele redenering in VLMs versterkt zonder annotaties of externe verifiers. PC-GRPO vervangt labels door drie zelf-gesuperviseerde puzzelomgevingen: PatchFit, Rotatie (met binaire beloningen) en Jigsaw (met gegradeerde deelpunten die de beloningsschaarste verzachten). Om vlakke beloningen en verdwijnende groep-gerelateerde voordelen tegen te gaan, introduceren we een moeilijkheidsgraad-bewust curriculum dat samples dynamisch weegt en een piek bereikt bij medium moeilijkheidsgraad. We monitoren verder Reasoning-Answer Consistency (RAC) tijdens post-training: in lijn met rapporten voor standaard GRPO in LLMs, stijgt RAC typisch vroeg en degradeert dan; ons curriculum vertraagt deze daling, en consistentie-afdwingende beloningsschema's verhogen RAC verder. RAC correleert met downstream-nauwkeurigheid. Over diverse benchmarks en op Qwen-7B en Qwen-3B backbones heen, verbetert PC-GRPO de redeneerkwaliteit, trainstabiliteit en eindtaaknauwkeurigheid, en biedt zo een praktisch pad naar schaalbare, verifieerbare en interpreteerbare RL-post-training voor VLMs.
Universele transformers (UT's) worden veelvuldig ingezet voor complexe redeneertaken zoals ARC-AGI en Sudoku, maar de specifieke bronnen van hun prestatieverbeteringen blijven onderbelicht. In dit werk analyseren we systematisch varianten van UT's en tonen we aan dat verbeteringen op ARC-AGI voornamelijk voortkomen uit de recurrent inductive bias en sterke niet-lineaire componenten van de Transformer, in plaats van uit uitgekiende architecturale ontwerpen. Gemotiveerd door deze bevinding stellen we het Universal Reasoning Model (URM) voor, dat de UT versterkt met korte convolutie en afgekapte backpropagatie. Onze aanpak verbetert de redeneerprestaties aanzienlijk, met state-of-the-art resultaten van 53,8% pass@1 op ARC-AGI 1 en 16,0% pass@1 op ARC-AGI 2. Onze code is beschikbaar op https://github.com/zitian-gao/URM.
Recente visuele generatieve modellen hebben vaak moeite met consistentie tijdens beeldbewerking vanwege de verweven aard van rasterafbeeldingen, waarbij alle visuele inhoud wordt samengesmolten tot een enkel canvas. Daarentegen gebruiken professionele ontwerptools gelaagde representaties, waardoor geïsoleerde bewerkingen mogelijk zijn terwijl de consistentie behouden blijft. Gemotiveerd door dit inzicht presenteren we Qwen-Image-Layered, een end-to-end diffusiemodel dat een enkele RGB-afbeelding ontleedt in meerdere semantisch ontvlochten RGBA-lagen. Dit maakt inherente bewerkbaarheid mogelijk, waarbij elke RGBA-laag onafhankelijk gemanipuleerd kan worden zonder andere inhoud te beïnvloeden. Om ontleding met variabele laagaantallen te ondersteunen, introduceren we drie kerncomponenten: (1) een RGBA-VAE om de latente representaties van RGB- en RGBA-afbeeldingen te unificeren; (2) een VLD-MMDiT-architectuur (Variable Layers Decomposition MMDiT) die in staat is een variabel aantal beeldlagen te ontbinden; en (3) een meerfasen-trainingsstrategie om een vooraf getraind beeldgeneratiemodel aan te passen tot een multilayer-beeldontleder. Verder ontwikkelen we, om het gebrek aan hoogwaardige multilayer-trainingsbeelden aan te pakken, een pijplijn om multilayer-beelden te extraheren en annoteren uit Photoshop-documenten (PSD). Experimenten tonen aan dat onze methode bestaande benaderingen significant overtreft in ontledingskwaliteit en een nieuw paradigma vestigt voor consistente beeldbewerking. Onze code en modellen zijn vrijgegeven op https://github.com/QwenLM/Qwen-Image-Layered.
Wij presenteren IC-Effect, een instructiegestuurd, op DiT gebaseerd raamwerk voor few-shot video VFX-bewerking dat complexe effecten (zoals vlammen, deeltjes en tekenfilmpersonages) synthetiseert, waarbij ruimtelijke en temporele consistentie strikt behouden blijft. Video VFX-bewerking is zeer uitdagend omdat geïnjecteerde effecten naadloos moeten samensmelten met de achtergrond, de achtergrond volledig onveranderd moet blijven en effectpatronen efficiënt geleerd moeten worden uit beperkte gepaarde data. Bestaande videobewerkingsmodellen voldoen echter niet aan deze vereisten. IC-Effect benut de bronvideo als schone contextuele condities, waarbij de contextuele leer-capaciteit van DiT-modellen wordt geëxploiteerd om precieze achtergrondbehoud en natuurlijke effectinjectie te bereiken. Een tweefasen-trainingsstrategie, bestaande uit algemene bewerkings-adaptatie gevolgd door effectspecifiek leren via Effect-LoRA, zorgt voor sterk instructievolgend gedrag en robuuste effectmodellering. Om de efficiëntie verder te verbeteren, introduceren we spatiotemporele sparse tokenisatie, waardoor hoge kwaliteit mogelijk is met aanzienlijk gereduceerde rekenkosten. Wij publiceren ook een gepaarde VFX-bewerkingsdataset met 15 hoogwaardige visuele stijlen. Uitgebreide experimenten tonen aan dat IC-Effect hoogwaardige, controleerbare en temporeel consistente VFX-bewerking levert, wat nieuwe mogelijkheden opent voor videocreatie.
Ruimtelijk begrip van continue visuele input is cruciaal voor MLLM's om zich te ontwikkelen tot algemene assistenten in fysieke omgevingen. Toch ontbreekt het nog steeds aan een uitgebreide benchmark die de voortgang naar dit doel holistisch beoordeelt. In dit werk introduceren we MMSI-Video-Bench, een volledig door mensen geannoteerde benchmark voor op video gebaseerde ruimtelijke intelligentie in MLLM's. Het operationaliseert een raamwerk met vier niveaus – Waarneming, Planning, Voorspelling en Redeneren over Video's Heen – door middel van 1.106 vragen gebaseerd op 1.278 fragmenten uit 25 datasets en interne video's. Elk item is zorgvuldig ontworpen en beoordeeld door 3DV-experts met verklarende redeneringen om een precieze, eenduidige gronding te garanderen. Door de diverse databronnen en holistische taakdekking ondersteunt MMSI-Video-Bench ook drie domeingerichte subbenchmarks (Indoor Scene Perception Bench, Robot Bench en Grounding Bench) voor gerichte capaciteitsbeoordeling. We evalueren 25 sterke open-source en propriëtaire MLLM's, wat een opvallende kloof tussen mens en AI aan het licht brengt: veel modellen presteren bijna op kansniveau, en het beste redeneermodel loopt bijna 60% achter op mensen. Verder constateren we dat ruimtelijk gefinetunede modellen nog steeds falen om effectief te generaliseren op onze benchmark. Fijnmazige foutenanalyse legt systematische fouten bloot in geometrisch redeneren, het gronden van beweging, voorspelling over lange termijn en correspondentie tussen video's. We tonen ook aan dat typische frame-bemonsteringsstrategieën zich slecht vertalen naar onze reasoning-intensieve benchmark, en dat noch 3D-ruimtelijke aanwijzingen noch chain-of-thought prompting tot betekenisvolle verbeteringen leiden. We verwachten dat onze benchmark een solide testomgeving zal vormen voor de vooruitgang van op video gebaseerde ruimtelijke intelligentie.
Het misbruik van AI-gestuurde videogeneratietechnologieën heeft ernstige maatschappelijke zorgen doen rijzen, wat de dringende behoefte aan betrouwbare AI-gegenereerde videodetectors benadrukt. De meeste bestaande methoden zijn echter beperkt tot binaire classificatie en ontberen de nodige uitleg voor menselijke interpretatie. In dit artikel presenteren we Skyra, een gespecialiseerd multimodaal groot taalmodel (MLLM) dat door mensen waarneembare visuele artefacten in AI-gegenereerde video's identificeert en deze als gefundeerd bewijsmateriaal gebruikt voor zowel detectie als uitleg. Om dit doel te ondersteunen, construeren we ViF-CoT-4K voor Supervised Fine-Tuning (SFT), de eerste grootschalige dataset van AI-gegenereerde video-artefacten met fijnmazige menselijke annotaties. Vervolgens ontwikkelen we een tweefasentrainingsstrategie die systematisch het spatio-temporele artefactperceptievermogen, de uitlegcapaciteit en de detectienauwkeurigheid van ons model verbetert. Om Skyra uitgebreid te evalueren, introduceren we ViF-Bench, een benchmark bestaande uit 3K hoogwaardige samples gegenereerd door meer dan tien state-of-the-art videogeneratoren. Uitgebreide experimenten tonen aan dat Skyra de bestaande methoden op meerdere benchmarks overtreft, terwijl onze evaluatie waardevolle inzichten oplevert voor de vooruitgang van verklaarbare AI-gegenereerde videodetectie.
Generatieve modellen kunnen hoogrealistische content synthetiseren, zogenaamde deepfakes, die reeds op grote schaal worden misbruikt om de authenticiteit van digitale media te ondermijnen. Huidige deepfake-detectiemethoden zijn onbetrouwbaar om twee redenen: (i) het onderscheiden van niet-authentieke content achteraf is vaak onmogelijk (bijvoorbeeld bij gememoriseerde samples), wat leidt tot een onbegrensde false positive rate (FPR); en (ii) detectie mist robuustheid, aangezien aanvallers zich met minimale rekenresources kunnen aanpassen aan bekende detectors met bijna perfecte nauwkeurigheid. Om deze beperkingen aan te pakken, stellen we een hersynthese-raamwerk voor om te bepalen of een sample authentiek is of dat de authenticiteit ervan aannemelijk kan worden ontkend. We leveren twee belangrijke bijdragen gericht op de setting met hoge precisie en lage recall tegen efficiënte (d.w.z. rekenbeperkte) aanvallers. Ten eerste tonen we aan dat onze gekalibreerde hersynthese-methode de meest betrouwbare aanpak is voor het verifiëren van authentieke samples, terwijl beheersbare, lage FPRs worden gehandhaafd. Ten tweede laten we zien dat onze methode adversariële robuustheid bereikt tegen efficiënte aanvallers, terwijl eerdere methoden onder identieke rekenbudgets eenvoudig worden omzeild. Onze aanpak ondersteunt meerdere modaliteiten en maakt gebruik van state-of-the-art inversietechnieken.
Als mensen zijn we van nature redeneerders met een variabel tijdsbereik - we kunnen bijvoorbeeld iteratief door lange video's scrollen of korte video's volledig bekijken, afhankelijk van wat een taak vereist. Gezien dit gegeven zou men verwachten dat videoredeneermodellen flexibel kunnen redeneren over verschillende tijdsduren. State-of-the-art-modellen worden echter nog steeds getraind om antwoorden in één keer te voorspellen terwijl ze een groot aantal frames verwerken, vergelijkbaar met het bekijken van een volledige lange video, wat aanzienlijke resources vereist. Dit roept de vraag op: Is het mogelijk om hoogwaardige videoredeneersystemen met een variabel tijdsbereik te ontwikkelen? Geïnspireerd door menselijk gedrag stellen we allereerst SAGE voor, een agentsysteem dat multi-turn redeneren toepast op lange video's, terwijl het eenvoudigere problemen in één keer aanpakt. Ten tweede introduceren we een eenvoudige pijplijn voor het genereren van synthetische data met Gemini-2.5-Flash om de orchestrator, SAGE-MM, die de kern van SAGE vormt, te trainen. We stellen verder een effectief RL-post-trainingrecept voor dat essentieel is om SAGE-MM het vermogen tot redeneren met een variabel tijdsbereik aan te leren. Ten derde stellen we SAGE-Bench samen, met een gemiddelde duur van meer dan 700 seconden, om het videoredeneervermogen te evalueren in real-world entertainment use cases. Tot slot valideren we empirisch de effectiviteit van ons systeem, de data en het RL-recept, waarbij we aanzienlijke verbeteringen waarnemen van tot 6,1% bij open-einde videoredeneertaken, en een indrukwekkende verbetering van 8,2% bij video's langer dan 10 minuten.
In recent multimodaal onderzoek is het diffusieparadigma naar voren gekomen als een veelbelovend alternatief voor het autoregressieve paradigma (AR), vanwege zijn unieke decodeervoordelen. Vanwege de capaciteitsbeperkingen van het basale diffusie-taalmodel blijft de prestaties van het diffusie vision-language model (dVLM) echter aanzienlijk achter bij die van mainstream modellen. Dit leidt tot een eenvoudige maar fundamentele vraag: Is het mogelijk om dVLM's te bouwen op basis van bestaande krachtige AR-modellen? Als antwoord hierop stellen wij DiffusionVL voor, een dVLM-familie die kan worden vertaald vanuit elk krachtig AR-model. Door middel van eenvoudige fine-tuning passen we met succes vooraf getrainde AR-modellen aan naar het diffusieparadigma. Deze aanpak levert twee belangrijke observaties op: (1) De paradigmaverschuiving van AR-gebaseerde multimodale modellen naar diffusie is opmerkelijk effectief. (2) Directe conversie van een AR-taalmodel naar een dVLM is eveneens haalbaar, waarbij prestaties worden bereikt die concurrerend zijn met LLaVA-stijl visuele-instructie-afstemming. Verder introduceren wij een blokdecodeerontwerp in dVLM's dat generatie van willekeurige lengte ondersteunt en hergebruik van KV-cache mogelijk maakt, wat een aanzienlijke versnelling van de inferentie oplevert. Wij voeren een groot aantal experimenten uit. Ondanks training met minder dan 5% van de data die eerdere methoden vereisen, behaalt DiffusionVL een algehele prestatieverbetering – een winst van 34,4% op de MMMU-Pro (vision) benchmark en 37,5% winst op de MME (Cog.) benchmark – naast een 2x snellere inferentie. Het model en de code zijn vrijgegeven op https://github.com/hustvl/DiffusionVL.
Versterkend leren is essentieel geworden voor het verbeteren van de redeneervermogen van grote taalmodel(len), maar huidige verkenningmechanismen zijn fundamenteel niet afgestemd op hoe deze modellen daadwerkelijk leren. Entropiebonussen en externe semantische vergelijkers stimuleren variatie op oppervlakteniveau, maar bieden geen garantie dat bemonsterde trajecten verschillen in de update-richtingen die de optimalisatie vormgeven. Wij stellen G2RL voor, een gradient-gestuurd versterkend leerframework waarin verkenning niet wordt aangedreven door externe heuristieken, maar door de eigen eerste-orde-updategeometrie van het model. Voor elk antwoord construeert G2RL een sequentieniveaukenmerk uit de gevoeligheid van de laatste laag van het model, verkrijgbaar tegen verwaarloosbare kosten via een standaard forward pass, en meet het hoe elk traject het beleid zou hervormen door deze kenmerken binnen een bemonsterde groep te vergelijken. Trajecten die nieuwe gradient-richtingen introduceren, krijgen een begrensde multiplicatieve beloningsschaler, terwijl redundante of 'off-manifold'-updates worden afgezwakt. Dit levert een zelf-referentieel verkenning signaal op dat van nature is afgestemd op PPO-stabiliteit en KL-regeling. Op wiskundige en algemene redeneerbenchmarks (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) met Qwen3 base 1.7B- en 4B-modellen, verbetert G2RL consistent de pass@1, maj@16 en pass@k ten opzichte van op entropie gebaseerde GRPO en externe embedding-methoden. Analyse van de geïnduceerde geometrie toont aan dat G2RL de verkenning uitbreidt naar aanzienlijk meer orthogonale en vaak tegenovergestelde gradient-richtingen, terwijl de semantische samenhang behouden blijft. Dit onthult dat de eigen update-ruimte van een beleid een veel betrouwbaarder en effectievere basis biedt voor het sturen van verkenning bij versterkend leren voor grote taalmodel(len).
Recente ontwikkelingen op het gebied van meertalige herkenning van benoemde entiteiten (NER) tonen aan dat grote taalmodelen (LLM's) effectieve synthetische supervisie kunnen bieden. Toch zijn dergelijke datasets vooral als bijproducten van bredere experimenten verschenen, in plaats van als systematische, herbruikbare bronnen. Wij introduceren FiNERweb, een pijplijn voor het creëren van datasets die het teacher-student-paradigma opschaalt naar 91 talen en 25 schriftsystemen. Voortbouwend op FineWeb-Edu traint onze aanpak regressiemodellen om NER-relevante passages te identificeren en annoteert deze met meertalige LLM's, wat resulteert in ongeveer 225.000 passages met 235.000 unieke entiteit-labels. Onze experimenten tonen aan dat het regressiemodel een F1-score van meer dan 84 behaalt, en dat modellen getraind op FiNERweb vergelijkbare of verbeterde prestaties leveren in zero-shot transfer settings voor Engels, Thai en Swahili, ondanks dat ze zijn getraind met 19x minder data dan sterke baseline-modellen. Daarnaast beoordelen we de annotatiekwaliteit met LLM-as-a-judge en observeren we consistente hoge scores voor zowel trouw aan de bron (3.99 van de 5) als volledigheid (4.05 van de 5), wat duidt op betrouwbare en informatieve annotaties. Verder publiceren we de dataset met zowel Engelse labels als vertaalde labelsets in de respectievelijke doeltalen, omdat we vaststellen dat de prestaties van huidige state-of-the-art modellen met 0.02 tot 0.09 F1-punten dalen wanneer ze worden geëvalueerd met doeltaallabels in plaats van Engelse labels. Wij geven FiNERweb, samen met alle bijbehorende artefacten, vrij aan de onderzoeksgemeenschap om effectievere teacher-student training voor meertalige herkenning van benoemde entiteiten te faciliteren.
Grote taalmodellen (LLM's) worden steeds vaker gebruikt om synthetische datasets te genereren voor de evaluatie en training van downstream-modellen. Eerder onderzoek heeft echter aangetoond dat dergelijke gegenereerde data een gebrek aan diversiteit vertoont. In dit artikel introduceren we Voyager, een nieuwe principiële aanpak om diverse datasets te genereren. Onze aanpak is iteratief en optimaliseert direct een wiskundige grootheid die de diversiteit van de dataset maximaliseert met behulp van de methodiek van determinantaal puntprocessen. Bovendien is onze aanpak trainingsvrij, toepasbaar op modellen met gesloten broncode en schaalbaar. Naast een theoretische onderbouwing van de werking van onze methode, tonen we via uitgebreide experimenten aan dat Voyager aanzienlijk beter presteert dan populaire baseline-benaderingen door een 1,5 tot 3 keer grotere diversiteit te bieden.
Autoregressieve videodiffusiemodellen zijn veelbelovend voor wereldsimulatie, maar zijn kwetsbaar voor exposure bias die ontstaat door een mismatch tussen training en testen. Hoewel recente onderzoeken dit aanpakken via post-training, baseren zij zich doorgaans op een bidirectioneel leraarmodel of een online discriminator. Voor een end-to-end oplossing introduceren wij Resampling Forcing, een leraarvrij raamwerk dat het mogelijk maakt autoregressieve videomodellen vanaf nul en op grote schaal te trainen. Centraal in onze aanpak staat een zelf-hersamplingschema dat modelfouten tijdens inferentie simuleert op historieframes tijdens de training. Geconditioneerd op deze gedegradeerde historieën, dwingt een sparse causaal masker temporele causaliteit af terwijl parallelle training met frame-level diffusieverlies mogelijk blijft. Om efficiënte langetermijngeneratie te vergemakkelijken, introduceren wij verder history routing, een parameterloos mechanisme dat dynamisch de top-k meest relevante historieframes ophaalt voor elke query. Experimenten tonen aan dat onze aanpak prestaties bereikt die vergelijkbaar zijn met op distillatie gebaseerde baseline-methoden, terwijl zij superieure temporele consistentie vertoont op langere video's dankzij training op originele lengte.
Autonoom rijden heeft lange tijd vertrouwd op modulaire "Perceptie-Beslissing-Actie" pijplijnen, waarbij handmatig gemaakte interfaces en op regels gebaseerde componenten vaak falen in complexe of 'long-tailed' scenario's. Hun cascade-ontwerp zorgt er verder voor dat perceptiefouten worden doorgegeven, wat de downstream planning en controle aantast. Vision-Action (VA)-modellen adresseren enkele beperkingen door directe mapping van visuele input naar acties aan te leren, maar ze blijven ondoorzichtig, gevoelig voor distributieverschuivingen en missen gestructureerd redeneervermogen of de mogelijkheid om instructies te volgen. Recente vooruitgang in Large Language Models (LLM's) en multimodaal leren heeft de opkomst gemotiveerd van Vision-Language-Action (VLA)-raamwerken, die perceptie integreren met op taal gebaseerde besluitvorming. Door visueel begrip, linguïstisch redeneren en actiegerichte output te verenigen, bieden VLA's een weg naar meer interpreteerbare, generaliseerbare en op de mens afgestemde rijbeleid. Dit werk biedt een gestructureerde karakterisering van het opkomende VLA-landschap voor autonoom rijden. We volgen de evolutie van vroege VA-benaderingen naar moderne VLA-raamwerken en organiseren bestaande methoden in twee hoofdparadigma's: End-to-End VLA, dat perceptie, redeneren en planning integreert binnen een enkel model, en Dual-System VLA, dat trage deliberatie (via VLM's) scheidt van snelle, veiligheidskritieke uitvoering (via planners). Binnen deze paradigma's onderscheiden we verder subklassen, zoals tekstuele versus numerieke actiegeneratoren en expliciete versus impliciete begeleidingsmechanismen. We vatten ook representatieve datasets en benchmarks samen voor het evalueren van VLA-gebaseerde rijsystemen en belichten belangrijke uitdagingen en open onderzoeksrichtingen, waaronder robuustheid, interpreteerbaarheid en instructietrouw. Over het geheel genomen beoogt dit werk een samenhangende basis te leggen voor de verdere ontwikkeling van menscompatibele autonome rijsystemen.
Recente vooruitgang in videogeneratie is opmerkelijk, waardoor modellen visueel aantrekkelijke video's met gesynchroniseerde audio kunnen produceren. Hoewel bestaande benchmarks voor videogeneratie uitgebreide metrieken bieden voor visuele kwaliteit, ontbreekt het hen aan overtuigende evaluaties voor audio-videogeneratie, vooral voor modellen die gericht zijn op het genereren van gesynchroniseerde audio-video-uitvoer. Om deze leemte op te vullen, introduceren we VABench, een uitgebreid en multidimensionaal benchmarkraamwerk dat is ontworpen om de mogelijkheden van synchrone audio-videogeneratie systematisch te evalueren. VABench omvat drie primaire taaktypen: tekst-naar-audio-video (T2AV), beeld-naar-audio-video (I2AV) en stereoscopische audio-videogeneratie. Het stelt verder twee belangrijke evaluatiemodules vast die 15 dimensies beslaan. Deze dimensies beoordelen specifiek paarsgewijze overeenkomsten (tekst-video, tekst-audio, video-audio), audio-video-synchronisatie, liip-spraakconsistentie, en zorgvuldig samengestelde audio- en video-vraag-antwoordparen (QA-paren), onder andere. Bovendien behandelt VABench zeven belangrijke inhoudscategorieën: dieren, menselijke geluiden, muziek, omgevingsgeluiden, synchrone fysieke geluiden, complexe scènes en virtuele werelden. Wij bieden een systematische analyse en visualisatie van de evaluatieresultaten, met als doel een nieuwe standaard te vestigen voor het beoordelen van videogeneratiemodellen met synchrone audiomogelijkheden en om de algehele vooruitgang van het vakgebied te bevorderen.
Op het meest fundamentele niveau zijn pixels de bron van de visuele informatie waarmee we de wereld waarnemen. Pixels bevatten informatie op alle niveaus, van laag-niveau attributen tot hoog-niveau concepten. Auto-encoders vormen een klassiek en al lang bestaand paradigma voor het leren van representaties vanuit pixels of andere ruwe invoer. In dit werk tonen we aan dat zelfgesuperviseerd leren op basis van auto-encoders ook vandaag competitief blijft en sterke representaties kan produceren voor downstreamtaken, terwijl het eenvoudig, stabiel en efficiënt blijft. Ons model, met de codenaam "Pixio", is een verbeterde gemaskeerde auto-encoder (MAE) met uitdagendere pre-trainingtaken en krachtigere architecturen. Het model wordt getraind op 2B web-gespiderde afbeeldingen met een zelf-curatiestrategie met minimale menselijke curatie. Pixio presteert competitief op een breed scala aan downstreamtaken in de praktijk, waaronder monocular depth estimation (bijvoorbeeld Depth Anything), feed-forward 3D-reconstructie (MapAnything), semantische segmentatie en robotleren, en overtreft of evenaart DINOv3 dat op vergelijkbare schaal is getraind. Onze resultaten suggereren dat zelfgesuperviseerd leren in de pixelruimte een veelbelovend alternatief en een aanvulling kan zijn op benaderingen in de latente ruimte.
De snelle evolutie van tekst-naar-beeldgeneratiemodellen heeft een revolutie teweeggebracht in de creatie van visuele content. Hoewel commerciële producten zoals de Nano Banana Pro aanzienlijke aandacht hebben gekregen, blijft hun potentieel als generalistische oplossers voor traditionele low-level visuele uitdagingen grotendeels onontgonnen. In deze studie onderzoeken we de kritische vraag: Is de Nano Banana Pro een Allrounder voor Low-Level Vision? We voerden een uitgebreide zero-shot evaluatie uit over 14 verschillende low-level taken, verspreid over 40 uiteenlopende datasets. Door eenvoudige tekstuele prompts te gebruiken zonder fine-tuning, vergeleken we de Nano Banana Pro met state-of-the-art gespecialiseerde modellen. Onze uitgebreide analyse onthult een duidelijke prestatie-dichotomie: hoewel de Nano Banana Pro superieure subjectieve visuele kwaliteit demonstreert en vaak geloofwaardige hoogfrequente details hallucineert die gespecialiseerde modellen overtreffen, blijft het achter op traditionele, op referentie gebaseerde kwantitatieve metrieken. Wij schrijven deze discrepantie toe aan de inherente stochasticiteit van generatieve modellen, die moeite hebben om de strikte pixelconsistentie te handhaven die door conventionele metrieken wordt vereist. Dit rapport identificeert de Nano Banana Pro als een capabele zero-shot kandidaat voor low-level visietaken, maar benadrukt tegelijkertijd dat het bereiken van de hoge nauwkeurigheid van domeinspecialisten een aanzienlijke horde blijft.
Wij introduceren FrontierCS, een benchmark met 156 open-einde problemen uit diverse gebieden van de informatica, ontworpen en beoordeeld door experts, waaronder informatica-promovendi en topdeelnemers en probleemstellers uit de competitieve programmering. In tegenstelling tot bestaande benchmarks die zich richten op taken met bekende optimale oplossingen, richt FrontierCS zich op problemen waar de optimale oplossing onbekend is, maar de kwaliteit van een oplossing objectief kan worden geëvalueerd. Modellen lossen deze taken op door uitvoerbare programma's te implementeren in plaats van een direct antwoord te geven. FrontierCS omvat algoritmische problemen, vaak NP-moeilijke varianten van competitieve programmeerproblemen met objectieve gedeeltelijke scoring, en onderzoeksproblemen met dezelfde eigenschap. Voor elk probleem bieden wij een expert-referentieoplossing en een automatische evaluator. Door de combinatie van open-einde ontwerp, meetbare vooruitgang en expertcuratie biedt FrontierCS een benchmark aan de frontlinie van de informatica-moeilijkheidsgraad. Empirisch constateren wij dat frontier-redeneermodellen nog ver achterblijven bij menselijke experts op zowel de algoritmische als de onderzoekslijn, dat het verhogen van de rekenbudgetten alleen deze kloof niet dicht, en dat modellen vaak overoptimaliseren voor het genereren van slechts werkbare code in plaats van het ontdekken van hoogwaardige algoritmen en systeemontwerpen.
De computationele en geheugenoverhead die gepaard gaat met het vergroten van het contextvenster van LLM's beperkt de schaalbaarheid ervan aanzienlijk. Een opmerkelijke oplossing is visie-tekstcompressie (VTC), geïllustreerd door frameworks zoals DeepSeek-OCR en Glyph, die lange teksten omzetten in dense 2D-visuele representaties, waardoor tokencompressieratio's van 3x-20x worden bereikt. De impact van deze hoge informatiedichtheid op de kernmogelijkheden voor lange context in visie-taalmodellen (VLM's) blijft echter onderbelicht. Om deze leemte aan te pakken, introduceren we de eerste benchmark voor VTC en beoordelen we systematisch de prestaties van VLM's in drie instellingen voor lang-contextbegrip: VTC-Retrieval, dat het vermogen van het model evalueert om informatie op te halen en te aggregeren; VTC-Redeneren, dat van modellen vereist om latente associaties af te leiden om feiten te lokaliseren met minimale lexicale overlap; en VTC-Geheugen, dat uitgevraagde antwoorden meet binnen een langetermijndialooggeheugen. Verder stellen we de VTCBench-Wild in om diverse inputscenario's te simuleren. We evalueren uitgebreid toonaangevende open-source en propriëtaire modellen op onze benchmarks. De resultaten tonen aan dat, ondanks het feit dat ze tekstuele informatie (bijv. OCR) goed kunnen decoderen, de meeste VLM's een verrassend zwak lang-contextbegrip vertonen met VTC-gecomprimeerde informatie, waarbij ze er niet in slagen lange associaties of afhankelijkheden in de context vast te leggen. Deze studie biedt een diepgaand inzicht in VTC en dient als basis voor het ontwerpen van efficiëntere en beter schaalbare VLM's.
Large Language Model (LLM)-agents worden steeds vaker ingezet in omgevingen die massieve, dynamische contexten genereren. Er blijft echter een kritieke bottleneck bestaan: hoewel agents toegang hebben tot deze context, ontbreekt het hun statische prompts aan mechanismen om deze effectief te beheren, wat leidt tot terugkerende Correctieve en Verbeteringsfouten. Om deze capaciteitskloof te adresseren, introduceren we SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE benadert contextmanagement als een online optimalisatieprobleem en synthetiseert richtlijnen uit uitvoeringstraces om de prompt van de agent automatisch te laten evolueren. We stellen een Dual-Stream-mechanisme voor dat tactische specificiteit (het oplossen van directe fouten) in evenwicht brengt met strategische algemeenheid (het ontwikkelen van langetermijnprincipes). Verder introduceren we Perspective-Driven Exploration om de strategiedekking te maximaliseren, waardoor de kans groter wordt dat de agent over de juiste strategie beschikt voor een bepaalde taak. Experimenten op de HLE-benchmark tonen aan dat SCOPE de taaksuccespercentages verbetert van 14,23% naar 38,64% zonder menselijke tussenkomst. Onze code is openbaar beschikbaar op https://github.com/JarvisPei/SCOPE.
Het Automatic Identification System (AIS) maakt datagestuurde maritieme surveillance mogelijk, maar kampt met betrouwbaarheidsproblemen en onregelmatige intervallen. Wij pakken de schatting van de bestemming van schepen aan met behulp van AIS-data op wereldwijde schaal door een gedifferentieerde aanpak voor te stellen die lange trajecten van haven tot haven herformuleert als een geneste sequentiestructuur. Door gebruik te maken van ruimtelijke rasters vermindert deze methode ruimtelijk-temporele bias terwijl de gedetailleerde resolutie behouden blijft. Wij introduceren een nieuwe deep learning-architectuur, WAY, die ontworpen is om deze herformuleerde trajecten te verwerken voor de schatting van de bestemming op lange termijn, dagen tot weken van tevoren. WAY bestaat uit een trajectrepresentatielaag en Channel-Aggregative Sequential Processing (CASP) blokken. De representatielaag genereert meerkanalen vectorsequenties uit kinematische en niet-kinematische kenmerken. CASP-blokken gebruiken multi-headed channel- en self-attention voor aggregatie en sequentiële informatieoverdracht. Daarnaast stellen wij een taakspecifieke Gradient Dropout (GD)-techniek voor om many-to-many training op enkele labels mogelijk te maken, waarbij bevooroordeelde feedbackpieken worden voorkomen door stochastisch de gradientstroom te blokkeren op basis van de steekproeflengte. Experimenten met 5-jarige AIS-data tonen de superioriteit van WAY aan ten opzichte van conventionele op ruimtelijke rasters gebaseerde benaderingen, ongeacht de trajectprogressie. Resultaten bevestigen verder dat de adoptie van GD leidt tot prestatieverbeteringen. Ten slotte onderzoeken wij het potentieel van WAY voor praktische toepassing via multitask learning voor ETA-schatting.
De prestaties van reinforcement learning (RL)-agenten zijn in kritieke mate afhankelijk van de kwaliteit van de onderliggende feature-representaties. Hyperbolische feature-ruimten zijn hier bijzonder geschikt voor, omdat ze van nature hiërarchische en relationele structuren weergeven die vaak aanwezig zijn in complexe RL-omgevingen. Het benutten van deze ruimten wordt echter vaak geconfronteerd met optimalisatie-uitdagingen als gevolg van de non-stationariteit van RL. In dit werk identificeren we de belangrijkste factoren die het succes en falen bepalen bij het trainen van hyperbolische deep RL-agenten. Door de gradiënten van kernoperaties in de Poincaré-bal- en hyperboloïde-modellen van hyperbolische geometrie te analyseren, tonen we aan dat embeddings met een grote norm op gradient-gebaseerde training destabiliseren, wat leidt tot schendingen van het vertrouwensgebied (trust-region) in proximal policy optimization (PPO). Gebaseerd op deze inzichten introduceren we Hyper++, een nieuwe hyperbolische PPO-agent die uit drie componenten bestaat: (i) stabiele criticus-training door een categorisch waarde-verlies in plaats van regressie; (ii) feature-regularisatie die gegarandeerd begrensde normen biedt, terwijl de dimensionaliteitsvloek van clipping wordt vermeden; en (iii) het gebruik van een optimalisatievriendelijkere formulering van hyperbolische netwerklagen. In experimenten met ProcGen tonen we aan dat Hyper++ stabiel leren garandeert, eerdere hyperbolische agenten overtreft en de wall-clock tijd met ongeveer 30% reduceert. Op Atari-5 met Double DQN presteert Hyper++ aanzienlijk beter dan Euclidische en hyperbolische baseline-methoden. Onze code is vrijgegeven op https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
Kleine taalmodellen (SLM's) worden veel gebruikt voor taken die lage latentie en lichtgewicht implementatie vereisen, met name classificatie. Omdat interpreteerbaarheid en robuustheid aan belang winnen, is explanation-guided learning naar voren gekomen als een effectief raamwerk door op attributie gebaseerd toezicht tijdens de training te introduceren; het afleiden van algemene en betrouwbare attributie-priors blijft echter een grote uitdaging. Via een analyse van representatieve attributiemethoden in classificatieomgevingen stellen we vast dat hoewel deze methoden betrouwbaar klasse-relevante tokens kunnen benadrukken, ze zich vaak richten op veelvoorkomende trefwoorden die worden gedeeld door semantisch vergelijkbare klassen. Omdat dergelijke klassen onder standaardtraining al moeilijk te onderscheiden zijn, bieden deze attributies onvoldoende onderscheidende signalen, wat hun vermogen om modeldifferentiatie te verbeteren beperkt. Om deze beperking te overwinnen, stellen we Class-Aware Attribution Prior (CAP) voor, een nieuw raamwerk voor het extraheren van attributie-priors dat taalmodellen leidt naar het vastleggen van fijnmazige klasseonderscheidingen en het produceren van meer saliënte, onderscheidende attributie-priors. Voortbouwend op dit idee introduceren we verder CAP Hybrid, dat priors van CAP combineert met die van bestaande attributietechnieken om een uitgebreider en evenwichtiger toezichtsignaal te vormen. Door de zelf-attributie van een model af te stemmen op deze verrijkte priors, stimuleert onze aanpak het leren van diverse, beslissingsrelevante kenmerken. Uitgebreide experimenten in scenario's met volledige gegevens, few-shot en adversarial scenario's tonen aan dat onze methode consistent zowel de interpreteerbaarheid als de robuustheid verbetert.
Mixture of Experts (MoE)-modellen zijn naar voren gekomen als de de facto architectuur voor het opschalen van taalmodelmodellen zonder de rekenkosten significant te verhogen. Recente MoE-modellen tonen een duidelijke trend richting hoge expertgranulariteit (kleinere expert-intermediaire dimensie) en hogere sparseheid (constant aantal geactiveerde experts met een hoger totaal aantal experts), wat de modelkwaliteit per FLOP verbetert. Fijngranulaire MoE's leiden echter tot een groter geheugenverbruik voor activeringen en een verminderde hardware-efficiëntie door hogere IO-kosten, terwijl sparsere MoE's te maken hebben met verspilde berekeningen door padding in gegroepeerde GEMM-kernels. Als antwoord hierop stellen wij een geheugenefficiënt algoritme voor voor de forward- en backwardpassen van MoE's met minimale caching van activeringen voor de backwardpass. We ontwerpen ook GPU-kernels die geheugen-IO overlappen met berekeningen, wat alle MoE-architecturen ten goede komt. Ten slotte introduceren we een nieuwe "token rounding"-methode die de verspilde rekenkracht door padding in gegroepeerde GEMM-kernels minimaliseert. Hierdoor reduceert onze methode, SonicMoE, het activeringsgeheugen met 45% en behaalt een 1,86x verbetering in rekendoorvoer op Hopper-GPU's in vergelijking met ScatterMoE's BF16 MoE-kernel voor een fijngranulair 7B MoE. Concreet behaalt SonicMoE op 64 H100's een trainingsdoorvoer van 213 miljard tokens per dag, vergelijkbaar met ScatterMoE's 225 miljard tokens per dag op 96 H100's voor de training van een 7B MoE-model met FSDP-2 met behulp van de lm-engine codebase. Onder instellingen met hoge MoE-sparseheid levert ons tile-aware token rounding-algoritme een extra 1,16x versnelling op in kerneluitvoeringstijd in vergelijking met standaard top-K-routering, met behoud van vergelijkbare downstreamprestaties. We maken al onze kernels open source om snellere training van MoE-modellen mogelijk te maken.
Een gepersonaliseerd LLM moet gebruikersfeiten onthouden, deze correct toepassen en zich in de loop van de tijd aanpassen om reacties te geven die de gebruiker prefereert. Bestaande benchmarks voor LLM-personalisatie zijn grotendeels gericht op twee assen: het nauwkeurig onthouden van gebruikersinformatie en het nauwkeurig toepassen van onthouden informatie in downstream-taken. Wij beargumenteren dat een derde as, *likability* (aantrekkelijkheid), zowel subjectief als centraal is voor de gebruikerservaring, maar ondergemeten wordt door huidige benchmarks. Om likability holistisch te meten, introduceren we LikeBench, een multi-sessie, dynamisch evaluatieraamwerk dat likability over meerdere dimensies meet door te kijken in hoeverre een LLM zich in de loop van de tijd kan aanpassen aan de voorkeuren van een gebruiker om aantrekkelijkere reacties te geven. In LikeBench voeren de LLM's gesprekken met een gesimuleerde gebruiker en leren voorkeuren uitsluitend uit de lopende dialoog. Naarmate de interactie vordert, proberen modellen zich aan te passen aan reacties, en na elke zet worden ze geëvalueerd op likability over zeven dimensies door dezelfde gesimuleerde gebruiker. Voor zover wij weten, zijn wij de eersten die likability opdelen in meerdere diagnostische metrieken: emotionele aanpassing, formaliteitsafstemming, kennisaanpassing, referentiebegrip, gesprekslengte-afstemming, humor-afstemming en callback, wat het gemakkelijker maakt om te pinpointen waar een model tekortschiet. Om de gesimuleerde gebruiker realistischer en onderscheidender te maken, gebruikt LikeBench fijnmazige, psychologisch onderbouwde beschrijvende persona's in plaats van de grove op hoge/lage eigenschapsscores gebaseerde persona's die in eerder werk werden gebruikt. Onze benchmark laat zien dat sterke geheugenprestaties geen hoge likability garanderen: DeepSeek R1, met een lagere geheugennauwkeurigheid (86%, 17 feiten/profiel), presteerde 28% beter op de likability-score dan Qwen3, ondanks de hogere geheugennauwkeurigheid van Qwen3 (93%, 43 feiten/profiel). Zelfs SOTA-modellen zoals GPT-5 passen zich goed aan in korte uitwisselingen, maar tonen slechts beperkte robuustheid in langere, meer rumoerige interacties.
Robotmanipulatie vereist zowel rijke multimodale perceptie als effectieve leerframeworks om complexe taken in de echte wereld aan te kunnen. Door-de-huid-zien (STS) sensoren, die tactiele en visuele perceptie combineren, bieden veelbelovende waarnemingsmogelijkheden, terwijl moderne imitatieleren krachtige tools biedt voor het verwerven van beleid. Echter, bestaande STS-ontwerpen missen gelijktijdige multimodale perceptie en lijden onder onbetrouwbare tactiele tracking. Bovendien is het integreren van deze rijke multimodale signalen in op leren gebaseerde manipulatiewerkstromen een onopgeloste uitdaging. Wij introduceren TacThru, een STS-sensor die gelijktijdige visuele perceptie en robuuste extractie van tactiele signalen mogelijk maakt, en TacThru-UMI, een imitatieleerframework dat deze multimodale signalen benut voor manipulatie. Onze sensor kenmerkt zich door een volledig transparant elastomeer, persistente belichting, nieuwe keyline-markeringen en efficiënte tracking, terwijl ons leersysteem deze signalen integreert via een op Transformer gebaseerd Diffusion Policy. Experimenten met vijf uitdagende taken in de echte wereld tonen aan dat TacThru-UMI een gemiddeld slagingspercentage van 85,5% behaalt, wat significant beter is dan de baseline-methoden van afwisselend tactiel-visueel (66,3%) en visie-alleen (55,4%). Het systeem presteert uitstekend in kritieke scenario's, inclusief contactdetectie met dunne en zachte objecten en precisiemanipulatie die multimodale coördinatie vereist. Dit werk toont aan dat het combineren van gelijktijdige multimodale perceptie met moderne leerframeworks nauwkeurigere, aanpasbare robotmanipulatie mogelijk maakt.
Menselijke gesprekken bestaan uit continue uitwisselingen van spraak en non-verbale signalen, zoals hoofdknikken, blikveranderingen en gezichtsuitdrukkingen, die aandacht en emotie overbrengen. Het modelleren van deze bidirectionele dynamiek in 3D is essentieel voor het creëren van expressieve avatars en interactieve robots. Bestaande frameworks behandelen praten en luisteren echter vaak als onafhankelijke processen of zijn afhankelijk van niet-causale modellering van volledige sequenties, wat de temporele coherentie tussen gespreksbeurten belemmert. Wij presenteren TIMAR (Turn-level Interleaved Masked AutoRegression), een causaal framework voor 3D-conversatiehoofdgeneratie dat dialoog modelleert als vervlochten audiovisuele contexten. Het fuseert multimodale informatie binnen elke gespreksbeurt en past causale aandacht op beurtniveau toe om conversatiegeschiedenis op te bouwen, terwijl een lichtgewicht diffusiehoofd continue 3D-hoofddynamiek voorspelt die zowel coördinatie als expressieve variabiliteit vastlegt. Experimenten op de DualTalk-benchmark tonen aan dat TIMAR de Fréchet-afstand en MSE op de testset met 15-30% vermindert en vergelijkbare verbeteringen behaalt op out-of-distribution data. De broncode zal worden vrijgegeven in de GitHub-repository https://github.com/CoderChen01/towards-seamleass-interaction.