Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Snelle vooruitgang in videomodellen heeft zich grotendeels gericht op visuele kwaliteit, waardoor hun redeneervermogen onderbelicht is gebleven. Videoredenatie verankert intelligentie in ruimtelijk-tijdelijk consistente visuele omgevingen die verder gaan dan wat tekst van nature kan vastleggen, en maakt intuïtief redeneren mogelijk over ruimtelijk-tijdelijke structuren zoals continuïteit, interactie en causaliteit. Systematische studie van videoredenatie en zijn schaalgedrag wordt echter belemmerd door een gebrek aan grootschalige trainingsdata. Om dit hiaat op te vullen, introduceren we de Very Big Video Reasoning (VBVR) Dataset, een ongekend grootschalige bron met 200 geselecteerde redeneertaken volgens een principiële taxonomie en meer dan een miljoen videofragmenten – ongeveer drie grootteordes groter dan bestaande datasets. Verder presenteren we VBVR-Bench, een verifieerbaar evaluatieraamwerk dat verder gaat dan modelgebaseerd beoordelen door regelgebaseerde, op mensen afgestemde scorers te incorporeren, wat reproduceerbare en interpreteerbare diagnostiek van videoredenatievermogen mogelijk maakt. Door gebruik te maken van de VBVR-suite voeren we een van de eerste grootschalige schaalstudies naar videoredenatie uit en observeren we vroege tekenen van emergentie – generalisatie naar onzichtbare redeneertaken. Samen legt VBVR een fundament voor de volgende onderzoeksfase in generaliseerbare videoredenatie. De data, benchmarktoolkit en modellen zijn openbaar beschikbaar op https://video-reason.com/.
Samengestelde AI-systemen beloven capaciteiten die verder gaan dan die van individuele modellen, maar hun succes hangt cruciaal af van effectieve orkestratie. Bestaande routeringsmethoden kampen met twee beperkingen: (1) routers op invoerniveau nemen grove beslissingen op queryniveau die de evoluerende taakvereisten negeren; (2) op reinforcement learning getrainde orkestrators zijn kostbaar aan te passen en lijden vaak aan routeringscollaps, waarbij ze in scenario's met meerdere beurten herhaaldelijk één sterke maar kostbare optie aanroepen. Wij introduceren SkillOrchestra, een raamwerk voor vaardigheidsbewuste orkestratie. In plaats van direct end-to-end een routeringsbeleid te leren, leert SkillOrchestra fijnmazige vaardigheden uit uitvoeringsexperience en modelleert het agentspecifieke competentie en kosten onder die vaardigheden. Tijdens implementatie leidt de orkestrator de vaardigheidseisen van de huidige interactie af en selecteert agents die hier het beste aan voldoen onder een expliciete prestatie-kostenafweging. Uitgebreide experimenten over tien benchmarks tonen aan dat SkillOrchestra state-of-the-art op RL gebaseerde orkestrators met tot 22,5% overtreft, met een 700x en 300x reductie in leerkosten vergeleken met respectievelijk Router-R1 en ToolOrchestra. Deze resultaten tonen aan dat expliciete vaardigheidsmodellering schaalbare, interpreteerbare en sample-efficiënte orkestratie mogelijk maakt, en biedt een principieel alternatief voor data-intensieve op RL gebaseerde benaderingen. De code is beschikbaar op: https://github.com/jiayuww/SkillOrchestra.
Na de opkomst van grote foundation-modellen zijn Vision-Language-Action-modellen (VLA's) ontstaan, die sterke visuele en taalkundige begripsvaardigheden benutten voor het leren van algemeen toepasbare beleidsregels. Desalniettemin blijft het huidige VLA-landschap gefragmenteerd en verkennend. Hoewel veel groepen hun eigen VLA-modellen hebben voorgesteld, maken inconsistenties in trainingsprotocollen en evaluatie-opstellingen het moeilijk om te identificeren welke ontwerpkeuzes er echt toe doen. Om structuur aan te brengen in deze evoluerende ruimte, heronderzoeken we de VLA-ontwerpruimte binnen een uniform raamwerk en evaluatieopzet. Uitgaande van een eenvoudige VLA-baseline, vergelijkbaar met RT-2 en OpenVLA, ontleden we systematisch ontwerpkeuzes langs drie dimensies: fundamentele componenten, perceptie-essentiële elementen en actiemodelleringsperspectieven. Uit deze studie destilleren we 12 belangrijke bevindingen die samen een praktisch recept vormen voor het bouwen van robuuste VLA-modellen. Het resultaat van deze verkenning is een eenvoudig maar effectief model, VLANeXt. VLANeXt overtreft eerdere state-of-the-art methoden op de LIBERO- en LIBERO-plus benchmarks en toont sterke generalisatie in real-world experimenten. We zullen een uniforme, gebruiksvriendelijke codebase vrijgeven die dient als een gemeenschappelijk platform voor de gemeenschap om onze bevindingen te reproduceren, de ontwerpruimte te verkennen en nieuwe VLA-varianten te bouwen op een gedeelde basis.
Wij presenteren een verkennende 'red-teaming'-studie van autonome, op taalmodel aangedreven agents die zijn ingezet in een live laboratoriumomgeving met persistent geheugen, e-mailaccounts, Discord-toegang, bestandssystemen en shell-uitvoering. Gedurende een periode van twee weken interageerden twintig AI-onderzoekers met de agents onder zowel goedaardige als adversariële omstandigheden. Met de focus op fouten die voortkomen uit de integratie van taalmodellen met autonomie, toolgebruik en communicatie tussen meerdere partijen, documenteren wij elf representatieve casestudies. Waargenomen gedragingen omvatten onder andere ongeoorloofde naleving van instructies van niet-eigenaren, openbaarmaking van gevoelige informatie, uitvoering van destructieve acties op systeemniveau, denial-of-service-toestanden, ongecontroleerd resourceverbruik, kwetsbaarheden voor identiteitsvervalsing, kruisbesmetting van onveilige praktijken tussen agents, en gedeeltelijke overname van het systeem. In verschillende gevallen rapporteerden agents taakvoltooiing terwijl de onderliggende systeemstatus deze rapportages tegensprak. Wij rapporteren ook over enkele mislukte pogingen. Onze bevindingen bevestigen het bestaan van beveiligings-, privacy- en governance-relevante kwetsbaarheden in realistische inzetomgevingen. Deze gedragingen roepen onopgeloste vragen op met betrekking tot aansprakelijkheid, gedelegeerd gezag en verantwoordelijkheid voor nevenschade, en vereisen dringende aandacht van rechtsgeleerden, beleidsmakers en onderzoekers uit verschillende disciplines. Dit rapport dient als een eerste empirische bijdrage aan dat bredere gesprek.
Sequentiële aanbevelingssystemen maken in toenemende mate gebruik van latente meerstapsredenering om de rekentijd tijdens het testen te verbeteren. Ondanks empirische vooruitgang sturen bestaande benaderingen hun tussenliggende redeneerstaten voornamelijk aan via doelgedomineerde doelstellingen, zonder expliciete haalbaarheidsbeperkingen op te leggen. Dit resulteert in 'latent drift', waarbij redeneertrajecten afdrijven naar ongeloofwaardige regio's. Wij beargumenteren dat effectieve aanbevelingsredenering eerder moet worden gezien als navigatie op een collaboratieve variëteit (manifold) in plaats van als vrije latente verfijning. Hiertoe stellen wij ManCAR (Manifold-Constrained Adaptive Reasoning) voor, een principieel raamwerk dat redenering verankert binnen de topologie van een globale interactiegraaf. ManCAR construeert een eerdere intentieprior uit de collaboratieve omgeving van de recente acties van een gebruiker, gerepresenteerd als een verdeling over de item-simplex. Tijdens de training aligneert het model progressief zijn latente voorspellingsverdeling met deze prior, waardoor het redeneertraject wordt gedwongen binnen de geldige variëteit te blijven. Tijdens het testen verloopt de redenering adaptief totdat de voorspellingsverdeling stabiliseert, waardoor overmatige verfijning wordt vermeden. Wij geven een variationele interpretatie van ManCAR om de mechanismen voor driftpreventie en adaptieve stopzetting theoretisch te valideren. Experimenten op zeven benchmarks tonen aan dat ManCAR consistent de state-of-the-art basismodellen overtreft, met een relatieve verbetering tot 46,88% ten opzichte van NDCG@10. Onze code is beschikbaar op https://github.com/FuCongResearchSquad/ManCAR.
Hoewel Vision-Language-Action (VLA)-modellen een snelle vooruitgang hebben geboekt in voorafgaande training, wordt hun voortgang in Reinforcement Learning (RL) nog steeds belemmerd door een lage steekproefefficiëntie en schaarse beloningen in real-world settings. De ontwikkeling van generaliseerbare procesbeloningsmodellen is essentieel om de fijnmazige feedback te leveren die nodig is om deze kloof te overbruggen, maar bestaande temporele waardefuncties slagen er vaak niet in om te generaliseren buiten hun trainingsdomeinen. Wij introduceren TOPReward, een nieuwe, probabilistisch gefundeerde temporele waardefunctie die gebruikmaakt van de latente wereldkennis van voorgetrainde video Vision-Language Models (VLMs) om de voortgang van robottaken in te schatten. In tegenstelling tot eerdere methoden die VLMs aansturen om direct voortgangswaarden uit te voeren, die gevoelig zijn voor numerieke misrepresentatie, extraheert TOPReward taakvoortgang rechtstreeks uit de interne token-logits van de VLM. In zero-shot evaluaties over 130+ verschillende real-world taken en meerdere robotplatforms (bijv. Franka, YAM, SO-100/101) behaalt TOPReward een gemiddelde Value-Order Correlation (VOC) van 0.947 op Qwen3-VL, wat een dramatische verbetering is ten opzichte van de state-of-the-art GVL-basislijn, die een correlatie nabij nul behaalt op hetzelfde open-source model. We tonen verder aan dat TOPReward een veelzijdig hulpmiddel is voor downstream-toepassingen, waaronder succesdetectie en beloningsgeëvenaard gedragsclonen.
Unified multimodale modellen kunnen zowel visuele inhoud begrijpen als genereren binnen een enkele architectuur. Bestaande modellen blijven echter datahongerig en te zwaar voor implementatie op edge-apparaten. Wij presenteren Mobile-O, een compact vision-language-diffusiemodel dat unified multimodale intelligentie naar een mobiel apparaat brengt. De kernmodule, de Mobile Conditioning Projector (MCP), fuseert vision-language kenmerken met een diffusiegenerator door middel van depthwise-separable convoluties en laaggewijze uitlijning. Dit ontwerp maakt efficiënte cross-modale conditionering mogelijk met minimale rekenkosten. Getraind op slechts enkele miljoenen samples en nage-traind in een nieuw quadruplet-formaat (generatieprompt, afbeelding, vraag, antwoord), verbetert Mobile-O zowel visueel begrip als generatiecapaciteiten gezamenlijk. Ondanks zijn efficiëntie behaalt Mobile-O competitieve of superieure prestaties vergeleken met andere unified modellen, met een score van 74% op GenEval en een outperformance van Show-O en JanusFlow met respectievelijk 5% en 11%, terwijl het 6x en 11x sneller draait. Voor visueel begrip overtreft Mobile-O hen met gemiddeld 15,3% en 5,1% over zeven benchmarks. Met een verwerkingstijd van slechts ~3 seconden per 512x512 afbeelding op een iPhone, vestigt Mobile-O het eerste praktische framework voor real-time unified multimodale begrip en generatie op edge-apparaten. Wij hopen dat Mobile-O toekomstig onderzoek zal vergemakkelijken naar real-time unified multimodale intelligentie die volledig on-device draait zonder cloudafhankelijkheid. Onze code, modellen, datasets en mobiele applicatie zijn openbaar beschikbaar op https://amshaker.github.io/Mobile-O/.
Het vermogen om gereedschappen te manipuleren vergroot de reeks taken die een robot kan uitvoeren aanzienlijk. Toch vormt gereedschapsmanipulatie een uitdagende klasse van behendigheid, waarbij het grijpen van dunne objecten, rotaties van objecten in de hand en krachtige interacties vereist zijn. Aangezien het verzamelen van teleoperatiegegevens voor dit gedrag moeilijk is, is sim-naar-real reinforcement learning (RL) een veelbelovend alternatief. Eerdere benaderingen vereisen echter doorgaans aanzienlijke technische inspanning om objecten te modelleren en beloningsfuncties voor elke taak af te stemmen. In dit werk stellen we SimToolReal voor, waarmee we een stap zetten naar het generaliseren van sim-naar-real RL-beleid voor gereedschapsmanipulatie. In plaats van ons op een enkel object en taak te richten, genereren we procedureel een grote verscheidenheid aan gereedschapsachtige objectprimitieven in simulatie en trainen we één RL-beleid met het universele doel om elk object naar willekeurige doelposities te manipuleren. Deze aanpak stelt SimToolReal in staat om algemene behendige gereedschapsmanipulatie uit te voeren tijdens tests zonder enige object- of taakspecifieke training. We tonen aan dat SimToolReal eerdere retargeting- en fixed-grasp-methoden met 37% overtreft, terwijl het de prestaties evenaart van gespecialiseerde RL-beleidsregels die zijn getraind op specifieke doelobjecten en taken. Ten slotte laten we zien dat SimToolReal generaliseert over een diverse set alledaagse gereedschappen, met sterke zero-shot prestaties in meer dan 120 real-world tests, verspreid over 24 taken, 12 objectinstanties en 6 gereedschapscategorieën.
Wij bestuderen de taak van het vaststellen van object-level visuele correspondentie tussen verschillende gezichtspunten in video's, met een focus op de uitdagende egocentrisch-naar-exocentrisch en exocentrisch-naar-egocentrisch scenario's. Wij stellen een eenvoudig maar effectief raamwerk voor, gebaseerd op conditionele binaire segmentatie, waarbij een objectquerymasker wordt gecodeerd in een latente representatie om de lokalisatie van het corresponderende object in een doelfilm te sturen. Om robuuste, view-invariante representaties te bevorderen, introduceren we een cyclusconsistentie-trainingsdoel: het voorspelde masker in het doelbeeld wordt teruggeprojecteerd naar het bronbeeld om het oorspronkelijke querymasker te reconstrueren. Deze bidirectionele constraint voorziet in een sterke zelfsuperviserende signaal zonder grondwaarannotaties te vereisen en maakt test-time training (TTT) mogelijk tijdens inferentie. Experimenten op de Ego-Exo4D en HANDAL-X benchmarks tonen de effectiviteit van onze optimalisatiedoelstelling en TTT-strategie aan, waarbij state-of-the-art prestaties worden behaald. De code is beschikbaar op https://github.com/shannany0606/CCMP.
Versterkend leren met verificatoren (RLVR) is een centraal paradigma voor het verbeteren van het redeneervermogen van grote taalmodellen (LLM's), maar bestaande methoden lijden vaak onder beperkte exploratie. Beleidsregels hebben de neiging in te storten tot een paar redeneerpatronen en stoppen diepe exploratie voortijdig, terwijl conventionele entropieregularisatie slechts lokale stochasticiteit introduceert en er niet in slaagt zinvolle diversiteit op padniveau te induceren. Dit leidt tot zwakke en onstabiele leer signalen in groepsgebaseerde beleidsoptimalisatie. Wij stellen DSDR voor, een *Dual-Scale Diversity Regularization* raamwerk voor versterkend leren dat diversiteit in LLM-redenering ontbindt in globale en gekoppelde componenten. Globaal bevordert DSDR diversiteit onder correcte redeneertrajecten om verschillende oplossingsmodi te verkennen. Lokaal past het een lengte-invariante, token-level entropieregularisatie toe, beperkt tot correcte trajecten, om entropie-instorting binnen elke modus te voorkomen terwijl de correctheid behouden blijft. De twee schalen worden gekoppeld door een globaal-naar-lokaal allocatiemechanisme dat de nadruk legt op lokale regularisatie voor meer onderscheidende correcte trajecten. Wij bieden theoretische ondersteuning waaruit blijkt dat DSDR optimale correctheid behoudt onder begrensde regularisatie, informatieve leer signalen in stand houdt bij groepsgebaseerde optimalisatie, en resulteert in een principekwestie globale-naar-lokale koppelingsregel. Experimenten op meerdere redeneerbenchmarks tonen consistente verbeteringen in nauwkeurigheid en pass@k aan, wat het belang van dual-scale diversiteit voor diepe exploratie in RLVR benadrukt. Code is beschikbaar op https://github.com/SUSTechBruce/DSDR.
Synthetische data gegenereerd door videogeneratieve modellen heeft potentie getoond voor robotleren als schaalbare pijplijn, maar lijdt vaak onder inconsistente actiekwaliteit door imperfect gegenereerde video's. Recent werden vision-language modellen (VLM's) ingezet om videokwaliteit te valideren, maar ze hebben beperkingen in het onderscheiden van fysiek accurate video's en kunnen zelfs dan de gegenereerde acties zelf niet direct evalueren. Om dit probleem aan te pakken, introduceren we RoboCurate, een nieuw kader voor synthetische robotdatageneratie dat geannoteerde acties evalueert en filtert op kwaliteit door ze te vergelijken met simulatiereplays. Specifiek speelt RoboCurate de voorspelde acties af in een simulator en beoordeelt de actiekwaliteit door de consistentie van beweging tussen de simulator-uitrol en de gegenereerde video te meten. Daarnaast ontsluiten we observatiediversiteit voorbij de beschikbare dataset via beeld-naar-beeld-bewerking en passen we actiebehoudende video-naar-video-overdracht toe om de verschijning verder uit te breiden. We constateren dat RoboCurate's gegenereerde data substantiële relatieve verbeteringen in succespercentages opleveren vergeleken met uitsluitend echte data, met +70,1% op GR-1 Tabletop (300 demo's), +16,1% op DexMimicGen in de pre-trainingsopzet, en +179,9% in de uitdagende real-world ALLEX humanoïde behendige manipulatie-instelling.
Wij presenteren tttLRM, een nieuw groot 3D-reconstructiemodel dat gebruikmaakt van een Test-Time Training (TTT)-laag om autoregressieve 3D-reconstructie met een lange context en lineaire computationele complexiteit mogelijk te maken, waardoor de capaciteit van het model verder wordt opgeschaald. Ons framework comprimeert efficiënt meerdere beeldobservaties in de snelle gewichten van de TTT-laag, waardoor een impliciete 3D-representatie in de latente ruimte ontstaat die kan worden gedecodeerd naar diverse expliciete formaten, zoals Gaussian Splats (GS), voor downstream-toepassingen. De online learning-variant van ons model ondersteunt progressieve 3D-reconstructie en verfijning op basis van streamende observaties. Wij tonen aan dat vooraf trainen op novel view synthesis-taken effectief transferleert naar expliciete 3D-modellering, wat resulteert in verbeterde reconstructiekwaliteit en snellere convergentie. Uitgebreide experimenten tonen aan dat onze methode superieure prestaties bereikt bij feedforward 3D Gaussian-reconstructie in vergelijking met state-of-the-art benaderingen, voor zowel objecten als scenes.
Optical Character Recognition (OCR) is een fundamentele taak voor het digitaliseren van informatie en fungeert als een cruciale brug tussen visuele gegevens en tekstueel begrip. Hoewel moderne Vision-Language Models (VLM) een hoge nauwkeurigheid hebben bereikt op dit gebied, zijn ze voornamelijk afhankelijk van autoregressieve decodering, wat rekenkundig duur en traag wordt voor lange documenten omdat er een sequentiële forward pass nodig is voor elk gegenereerd token. Wij identificeren een belangrijke mogelijkheid om dit knelpunt te overwinnen: in tegenstelling tot open-einde generatie is OCR een zeer deterministische taak waarbij de visuele invoer strikt een unieke uitvoersequentie dicteert, wat in theorie efficiënte, parallelle decodering via diffusiemodellen mogelijk maakt. Echter, wij tonen aan dat bestaande gemaskeerde diffusiemodellen dit potentieel niet benutten; deze introduceren structurele instabiliteiten die onschadelijk zijn bij flexibele taken, zoals bijschriften genereren, maar catastrofaal voor de rigide, exacte-match vereisten van OCR. Om deze kloof te overbruggen, introduceren wij DODO, het eerste VLM dat gebruikmaakt van blok discrete diffusie en diens snelheidswinst potentieel voor OCR ontsluit. Door generatie in blokken op te splitsen, vermindert DODO de synchronisatiefouten van globale diffusie. Empirisch bereikt onze methode een bijna state-of-the-art nauwkeurigheid, terwijl het tot 3x snellere inferentie mogelijk maakt in vergelijking met autoregressieve baseline-modellen.
Agentische geheugensystemen stellen grote-taalmodelagenten (LLM-agenten) in staat om toestand te behouden over lange interacties heen, waardoor langetermijnredenering en personalisatie worden ondersteund die verder gaan dan vaste contextvensters. Ondanks snelle architectonische ontwikkelingen blijven de empirische fundamenten van deze systemen broos: bestaande benchmarks zijn vaak onvoldoende geschaald, evaluatiemetrics zijn niet afgestemd op semantische bruikbaarheid, prestaties variëren aanzienlijk tussen verschillende basismodellen, en systeemniveau-kosten worden vaak over het hoofd gezien. Dit overzichtsartikel presenteert een gestructureerde analyse van agentisch geheugen vanuit zowel architectonisch als systeemperspectief. We introduceren eerst een beknopte taxonomie van MAG-systemen op basis van vier geheugenstructuren. Vervolgens analyseren we belangrijke knelpunten die huidige systemen beperken, waaronder verzadigingseffecten in benchmarks, de geldigheid van metrics en de gevoeligheid van beoordelaars, nauwkeurigheid afhankelijk van het basismodel, en de latentie- en doorvoersnelheid-overhead veroorzaakt door geheugenonderhoud. Door de geheugenstructuur te verbinden met empirische beperkingen, verduidelijkt dit overzicht waarom huidige agentische geheugensystemen vaak onderpresteren ten opzichte van hun theoretische belofte en schetst het richtingen voor betrouwbaardere evaluatie en schaalbaarder systeemontwerp.
Moderne grootschalige rankingsystemen opereren in een complex landschap van concurrerende doelstellingen, operationele beperkingen en evoluerende productvereisten. Vooruitgang in dit domein wordt in toenemende mate beperkt door de technische contextbeperking: het moeizame proces om ambiguë productintentie om te zetten in redelijke, uitvoerbare en verifieerbare hypothesen, in plaats van uitsluitend door modelleertechnieken. Wij presenteren GEARS (Generative Engine for Agentic Ranking Systems), een raamwerk dat rankingoptimalisatie herformuleert als een autonoom ontdekkingsproces binnen een programmeerbare experimenteeromgeving. In plaats van optimalisatie als statische modelselectie te behandelen, benut GEARS Gespecialiseerde Agentvaardigheden om expertkennis over ranking te encapsuleren in herbruikbare redeneercapaciteiten. Dit stelt operators in staat om systemen aan te sturen via hoogwaardige intentie voor vibe-personalisatie. Verder integreert het raamwerk validatiehooks om statistische robuustheid af te dwingen en broos beleid dat te veel leunt op kortetermijnsignalen uit te filteren, om zo productiebetrouwbaarheid te waarborgen. Experimentele validatie op diverse productinterfaces toont aan dat GEARS consequent superieur, bijna-Pareto-efficiënt beleid identificeert door algoritmische signalen te combineren met diepe rankingcontext, terwijl strikte implementatiestabiliteit wordt gehandhaafd.
Het optimaliseren van GPU-kernels is cruciaal voor efficiënte moderne machine learning-systemen, maar blijft uitdagend vanwege het complexe samenspel van ontwerpfactoren en de snelle evolutie van hardware. Bestaande geautomatiseerde benaderingen behandelen Large Language Models (LLM's) doorgaans slechts als stochastische codegeneratoren binnen door heuristieken geleide evolutionaire lussen. Deze methoden worstelen vaak met complexe kernels die gecoördineerde, meerstaps structurele transformaties vereisen, omdat ze expliciete planningscapaciteiten missen en veelbelovende strategieën frequent verwerpen vanwege inefficiënte of incorrecte tussentijdse implementaties. Om dit aan te pakken, stellen wij Search via Co-Evolving World Model voor en bouwen we K-Search op basis van deze methode. Door statische zoekheuristieken te vervangen door een co-evoluerend wereldmodel, benut ons framework de voorafgaande domeinkennis van LLM's om de zoektocht te sturen en de optimalisatieruimte actief te verkennen. Deze aanpak ontkoppelt expliciet hoogwaardige algoritmische planning van laagwaardige programma-instantiatie, waardoor het systeem niet-monotone optimalisatiepaden kan bewandelen en tegelijkertijd veerkrachtig blijft tegen tijdelijke implementatiedefecten. We evalueren K-Search op diverse, complexe kernels uit FlashInfer, waaronder GKA-, MLA- en MoE-kernels. Onze resultaten tonen aan dat K-Search aanzienlijk beter presteert dan state-of-the-art evolutionaire zoekmethoden, met een gemiddelde verbetering van 2.10x en een winst tot 14.3x op complexe MoE-kernels. Op de GPUMode TriMul-taak bereikt K-Search state-of-the-art prestaties op de H100, met een tijd van 1030us, waarmee het zowel eerdere evolutionaire als door mensen ontworpen oplossingen overtreft.
Vision-Language-Action (VLA)-modellen zijn naar voren gekomen als een veelbelovend paradigma voor robotmanipulatie met algemene toepassingen, waarbij gebruik wordt gemaakt van grootschalige voorafgaande training om sterke prestaties te bereiken. Het vakgebied is snel geëvolueerd met aanvullende ruimtelijke aannames en diverse architectonische innovaties. Deze vooruitgang gaat echter vaak gepaard met uiteenlopende trainingsmethoden en implementatiedetails, waardoor het lastig kan zijn om de precieze bron van empirische verbeteringen te identificeren. In dit werk introduceren we SimVLA, een gestroomlijnde basislijn die is ontworpen om een transparant referentiepunt voor VLA-onderzoek te bieden. Door perceptie strikt te scheiden van controle, met behulp van een standaard vision-language-backbone en een lichtgewicht actiehoofd, en door kritieke trainingsdynamiek te standaardiseren, tonen we aan dat een minimaal ontwerp state-of-the-art prestaties kan bereiken. Ondanks slechts 0,5B parameters presteert SimVLA beter dan modellen met miljarden parameters op standaard simulatiebenchmarks, zonder voorafgaande training op robots. SimVLA bereikt tevens vergelijkbare prestaties op echte robots in vergelijking met pi0.5. Onze resultaten vestigen SimVLA als een robuuste, reproduceerbare basislijn die duidelijke toeschrijving van empirische winsten aan toekomstige architectonische innovaties mogelijk maakt. Website: https://frontierrobo.github.io/SimVLA
Ondanks het opmerkelijke praktische succes van transformer-gebaseerde taalmodelen, heeft recent onderzoek vraagtekens gezet bij hun vermogen om toestandsbijhouding (state tracking) uit te voeren. Met name een groeiende hoeveelheid literatuur heeft deze beperking vooral aangetoond door mislukkingen in out-of-distribution (OOD) generalisatie, zoals lengte-extrapolatie. In dit werk richten we de aandacht op de in-distribution implicaties van deze beperkingen. We voeren een grootschalige experimentele studie uit naar de data-efficiëntie van transformers en recurrent neural networks (RNN's) over verschillende vormen van supervisie. We constateren dat de hoeveelheid trainingsdata die transformers nodig hebben, veel sneller toeneemt met de grootte van de toestandsruimte en de sequentielengte dan bij RNN's. Verder analyseren we in hoeverre geleerde mechanismen voor toestandsbijhouding worden gedeeld over verschillende sequentielengtes. We tonen aan dat transformers verwaarloosbare of zelfs schadelijke gewichtsdeling over lengtes vertonen, wat erop wijst dat ze lengte-specifieke oplossingen in isolatie leren. Recurrente modellen daarentegen vertonen effectief geamortiseerd leren door gewichten over lengtes te delen, waardoor data van de ene sequentielengte de prestaties op andere kan verbeteren. Samen tonen deze resultaten aan dat toestandsbijhouding een fundamentele uitdaging voor transformers blijft, zelfs wanneer de trainings- en evaluatiedistributies overeenkomen.
Wij presenteren Nacrith, een verliesloos compressiesysteem dat een transformer-taalmodel van 135M parameters (SmolLM2-135M) combineert met een ensemble van lichtgewicht online-voorspellers en een 32-bits rekenkundige codering. Naast het basisparadigma van LLM-plus-rekenkundige-codering introduceert Nacrith verschillende bijdragen: (1) een CDF-precisie-upgrade van 2^16 naar 2^24 die ~75% van de kwantiseringsoverhead elimineert, veroorzaakt door minimale-kans-drempels in grote vocabulaires; (2) een token-level N-grammodel voor snelle lokale voorspellingen; (3) een adaptieve bias-head in log-ruimte die LLM-fouten per document corrigeert via online gradient descent; (4) een op vertrouwen gebaseerde LLM-skip voor het versnellen van zeer voorspelbare tokens; (5) een hybride binair formaat (NC06) dat neurale compressie uitbreidt naar willekeurige binaire bestanden – voor zover wij weten een primeur onder LLM-gebaseerde compressors; (6) een llama.cpp inferentie-backend die ~7x snellere single-token-decodering bereikt dan PyTorch; (7) parallelle multi-GPU-compressie over maximaal 8 workers; en (8) een native KV-cache sliding window dat de kosten per slide met ~37x reduceert. Het systeem vereist slechts ~500 MB aan GGUF-gewichten en ~1.2 GB VRAM per worker, en draait op consumenten-GPU's. Op alice29.txt (Canterbury Corpus, 152 KB) behaalt Nacrith 0.918 bits per byte (bpb) – wat 3.1x beter is dan gzip, 2.5x beter dan bzip2, 44% beter dan CMIX v21 en 20% beter dan ts_zip, terwijl het comprimeert onder de 0e-, 1e- en 2e-orde byte-level Shannon-entropiegrenzen. Op enwik8 (100 MB) behaalt Nacrith 0.9389 bpb (11.74%), wat 15% beter is dan ts_zip (~1.11 bpb) en 8% beter dan FineZip (1.024 bpb), ondanks het gebruik van een 60x kleiner model zonder fine-tuning. Een out-of-distribution-evaluatie op een document gepubliceerd na de traindatum van het model bevestigt dat deze winsten geen gevolg zijn van memorisatie, met een resultaat van 0.723 bpb op ongeziene tekst.
De digitale industrie vereist hoogwaardige, diverse modulaire 3D-assets, met name voor door gebruikers gegenereerde inhoud (UGC). In dit werk introduceren we AssetFormer, een autoregressief Transformer-gebaseerd model ontworpen om modulaire 3D-assets te genereren uit tekstuele beschrijvingen. Onze pilotstudie maakt gebruik van real-world modulaire assets die zijn verzameld van online platforms. AssetFormer pakt de uitdaging aan om assets te creëren die bestaan uit primitieven en voldoen aan beperkte ontwerpparameters voor diverse toepassingen. Door een innovatieve aanpassing van modulesequencing en decodeertechnieken, geïnspireerd door taalmodeltechnieken, verbetert onze aanpak de kwaliteit van assetgeneratie via autoregressieve modellering. Eerste resultaten tonen de effectiviteit van AssetFormer in het stroomlijnen van assetcreatie voor professionele ontwikkeling en UGC-scenario's. Dit werk presenteert een flexibel raamwerk dat uitbreidbaar is naar verschillende soorten modulaire 3D-assets, en draagt bij aan het bredere vakgebied van 3D-inhoudsgeneratie. De code is beschikbaar op https://github.com/Advocate99/AssetFormer.
Huidige methoden voor 3D-menselijke animatie worstelen met het bereiken van fotorealisme: kinematische benaderingen missen niet-rigide dynamiek (zoals kledingdynamiek), terwijl methoden die gebruikmaken van videodiffusie-priors niet-rigide beweging kunnen synthetiseren maar lijden onder kwaliteitsartefacten en identiteitsverlies. Om deze beperkingen te overwinnen, presenteren we Ani3DHuman, een framework dat kinematische animatie combineert met videodiffusie-priors. We introduceren eerst een gelaagde bewegingsrepresentatie die rigide beweging scheidt van resterende niet-rigide beweging. Rigide beweging wordt gegenereerd door een kinematische methode, die vervolgens een grove rendering produceert om het videodiffusiemodel te begeleiden bij het genereren van videosequenties die de resterende niet-rigide beweging herstellen. Deze hersteltaak, gebaseerd op diffusie-steekproeven, is echter zeer uitdagend omdat de initiële renderings buiten de verdeling vallen, waardoor standaard deterministische ODE-steekproefnemers falen. Daarom stellen we een nieuwe zelfgeleide stochastische steekproefmethode voor, die het buiten-verdeling-probleem effectief aanpakt door stochastische steekproeven (voor fotorealistische kwaliteit) te combineren met zelfgeleiding (voor identiteitsgetrouwheid). Deze herstelde video's bieden hoogwaardige supervisie, waardoor optimalisatie van het resterende niet-rigide bewegingsveld mogelijk wordt. Uitgebreide experimenten tonen aan dat \MethodName fotorealistische 3D-menselijke animatie kan genereren en daarbij bestaande methoden overtreft. Code is beschikbaar op https://github.com/qiisun/ani3dhuman.
Adeno-geassocieerde virussen (AAV's) zijn veelbelovende vectoren voor gentherapie, maar hun natuurlijke serotypen kennen beperkingen op het gebied van weefseltropisme, immuunontwijking en productie-efficiëntie. Het ontwerpen van capside-eiwitten om deze hindernissen te overwinnen is een uitdaging vanwege de enorme sequentieruimte en de moeilijkheid om meerdere functionele eigenschappen gelijktijdig te optimaliseren. De complexiteit neemt verder toe bij de nier, die unieke anatomische barrières en cellulaire doelwitten presenteert en die een precieze en efficiënte vector-engineering vereist. Hier presenteren we AAVGen, een generatief kunstmatig intelligentie-framework voor de novo-ontwerp van AAV-capsiden met verbeterde multi-trait profielen. AAVGen integreert een eiwit-taalmodel (PLM) met supervised fine-tuning (SFT) en een reinforcement learning-techniek genaamd Group Sequence Policy Optimization (GSPO). Het model wordt gestuurd door een samengesteld beloningssignaal afkomstig van drie op ESM-2 gebaseerde regressievoorspellers, die elk zijn getraind om een cruciale eigenschap te voorspellen: productiefitness, nier-tropisme en thermostabiliteit. Onze resultaten tonen aan dat AAVGen een diverse bibliotheek van nieuwe VP1-eiwitsequenties genereert. In silico-validaties toonden aan dat de meerderheid van de gegenereerde varianten superieure prestaties vertoont op alle drie de gebruikte indices, wat duidt op succesvolle multi-objectieve optimalisatie. Bovendien bevestigt structurele analyse met AlphaFold3 dat de gegenereerde sequenties de canonieke capside-vouwing behouden ondanks sequentiediversificatie. AAVGen legt een basis voor data-gedreven virale vector-engineering en versnelt de ontwikkeling van next-generation AAV-vectoren met op maat gemaakte functionele kenmerken.
Betrouwbare odometrie voor potenrobots zonder camera's of LiDAR blijft een uitdaging vanwege IMU-drift en ruisgevoelige gewrichtssnelheidsmetingen. Dit artikel presenteert een puur proprioceptieve toestandsschatter die alleen IMU- en motormetingen gebruikt om lichaamspositie en snelheid gezamenlijk te schatten, met een uniforme formulering toepasbaar op tweebenig, vierbenig en wiel-poot robots. De kernidee is om elke contactmakende poot als een kinematisch anker te behandelen: op gewrichtskoppel gebaseerde schatting van pootkrachten selecteert betrouwbare contacten, en de bijbehorende pootlandingsposities bieden intermitterende wereldcoördinaat-beperkingen die langetermijndrift onderdrukken. Om hoogtedrift tijdens langdurige verplaatsing te voorkomen, introduceren we een lichtgewicht hoogteclustering en tijdsvervalcorrectie die nieuw geregistreerde pootlandingshoogtes koppelt aan eerder waargenomen steunvlakken. Om pootsnelheidsobservaties te verbeteren onder encoder-kwantisering, passen we een inverse-kinematische cubature Kalman-filter toe dat rechtstreeks pooteindsnelheden filtert uit gewrichtshoeken en -snelheden. De implementatie vermindert verder gierdrift door multi-contact geometrische consistentie en degradeert elegant naar een kinematisch afgeleide richtingsreferentie wanneer IMU-gierbeperkingen onbeschikbaar of onbetrouwbaar zijn. We evalueren de methode op vier vierbenige platforms (drie Astrall-robots en een Unitree Go2 EDU) met gesloten-lus trajecten. Op Astrall puntpoot robot~A sluit een ~200m horizontale lus en een ~15m verticale lus met respectievelijk 0.1638m en 0.219m fout; op wiel-poot robot~B zijn de corresponderende fouten 0.2264m en 0.199m. Op wiel-poot robot~C levert een ~700m horizontale lus 7.68m fout en een ~20m verticale lus 0.540m fout. Unitree Go2 EDU sluit een ~120m horizontale lus met 2.2138m fout en een ~8m verticale lus met minder dan 0.1m verticale fout. github.com/ShineMinxing/Ros2Go2Estimator.git
Causale ontdekking voor zowel cross-sectionele als temporele data volgt traditioneel een datasetspecifiek paradigma, waarbij een nieuw model wordt aangepast voor elke individuele dataset. Deze aanpak beperkt de mogelijkheden van multi-dataset pre-training. Het concept van grote causale modellen (LCM's) introduceert een klasse van vooraf getrainde neurale architecturen die specifiek zijn ontworpen voor temporele causale ontdekking. Eerdere benaderingen zijn beperkt tot kleine aantallen variabelen, presteren slechter bij grotere invoer en steunen zwaar op synthetische data, wat de generalisatie beperkt. Wij stellen een principieel kader voor LCM's voor, dat diverse synthetische generatoren combineert met realistische tijdreeksdatasets, waardoor leren op schaal mogelijk wordt. Uitgebreide experimenten op synthetische, semi-synthetische en realistische benchmarks tonen aan dat LCM's effectief schalen naar hogere aantallen variabelen en diepere architecturen, terwijl ze sterke prestaties behouden. Getrainde modellen bereiken competitieve of superieure nauwkeurigheid vergeleken met klassieke en neurale baseline-methoden, vooral in out-of-distribution settings, en maken tegelijkertijd snelle, single-pass inferentie mogelijk. De resultaten tonen aan dat LCM's een veelbelovend foundation-modelparadigma vormen voor temporele causale ontdekking. Experimenten en modelgewichten zijn beschikbaar op https://github.com/kougioulis/LCM-paper/.
Tijdreeksdiagnostiek is essentieel voor veel toepassingen, maar bestaande oplossingen kampen met een hardnekkige kloof: algemene redeneer-large-language-modellen (GRLM's) beschikken over sterke redeneervaardigheden maar missen de domeinspecifieke kennis om complexe tijdreekspatronen te begrijpen. Gefinetunede tijdreeks-LLM's (TSLM's) begrijpen deze patronen daarentegen wel, maar missen het vermogen om te generaliseren bij complexere vragen. Om deze kloof te overbruggen, stellen we een hybride kennisinjectie-framework voor dat inzichten gegenereerd door TSLM's direct injecteert in de redeneertrace van een GRLM, waardoor sterke tijdreeksredenering met domeinkennis wordt bereikt. Omdat het verzamelen van data voor finetuning via kennisinjectie kostbaar is, benutten we verder een op reinforcement learning gebaseerde aanpak met verifieerbare beloningen (RLVR) om kennisrijke redeneertrajecten zonder menselijke supervisie te genereren, en vervolgens dit domeinspecifieke denkspoor over te dragen naar de GRLM voor efficiënte kennisinjectie. We lanceren tevens SenTSR-Bench, een multivariate tijdreeksgebaseerde diagnostische redeneerbenchmark, verzameld uit real-world industriële operaties. Op zowel SenTSR-Bench als andere publieke datasets overtreft onze methode consistent TSLM's met 9.1%-26.1% en GRLM's met 7.9%-22.4%, en levert ze robuuste, contextbewuste diagnostische inzichten voor tijdreeksen.