Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Computer-use agents (CUAs) bieden grote belofte voor het automatiseren van complexe desktopwerkstromen, maar de vooruitgang naar algemene agents wordt belemmerd door het gebrek aan continue, hoogwaardige demonstratievideo's van menselijke gebruikers. Recent onderzoek benadrukt dat continue video, en niet losse schermafbeeldingen, de cruciale ontbrekende component is voor het opschalen van deze agents. De grootste bestaande open dataset, ScaleCUA, bevat echter slechts 2 miljoen schermafbeeldingen, wat overeenkomt met minder dan 20 uur video. Om dit knelpunt aan te pakken, introduceren we CUA-Suite, een grootschalig ecosysteem van expert-videodemonstraties en gedetailleerde annotaties voor professionele desktop computer-use agents. De kern hiervan is VideoCUA, dat ongeveer 10.000 door mensen uitgevoerde taken verspreid over 87 diverse applicaties biedt, met continue schermopnames van 30 fps, kinematische cursorsporen en gelaagde redeneerannotaties, in totaal ongeveer 55 uur en 6 miljoen frames aan expertvideo. In tegenstelling tot beperkte datasets die alleen uiteindelijke klikcoördinaten vastleggen, behouden deze continue videostreams de volledige temporele dynamiek van menselijke interactie, en vormen zo een superset van informatie die verliesvrij kan worden omgezet naar de formaten die vereist zijn door bestaande agent-frameworks. CUA-Suite biedt verder twee complementaire bronnen: UI-Vision, een rigoureus benchmark voor het evalueren van gronding- en planningscapaciteiten in CUAs, en GroundCUA, een grootschalige grondingsdataset met 56K geannoteerde schermafbeeldingen en meer dan 3,6 miljoen UI-elementannotaties. Een eerste evaluatie toont aan dat huidige foundation action-modellen aanzienlijk moeite hebben met professionele desktopapplicaties (~60% taakfoutpercentage). Naast evaluatie ondersteunt de rijke multimodale corpus van CUA-Suite opkomende onderzoeksrichtingen, waaronder algemene schermparsing, continue ruimtelijke controle, video-gebaseerde beloningsmodellering en visuele wereldmodellen. Alle data en modellen zijn openbaar vrijgegeven.
Videobegrip met multimodale grote taalmodellen (MLLM's) blijft een uitdaging vanwege de lange tokenreeksen van video's, die uitgebreide temporele afhankelijkheden en redundante frames bevatten. Bestaande benaderingen behandelen MLLM's doorgaans als passieve herkenners die volledige video's of uniform bemonsterde frames verwerken zonder adaptieve redenering. Recente agent-gebaseerde methoden introduceren externe tools, maar zijn nog steeds afhankelijk van handmatig ontworpen workflows en perceptie-eerst strategieën, wat leidt tot inefficiëntie bij lange video's. Wij presenteren EVA, een efficiënt reinforcement learning-raamwerk voor end-to-end video-agenten, dat planning-voor-perceptie mogelijk maakt door iteratieve samenvatting-planning-actie-reflectie redenering. EVA beslist autonoom wat te bekijken, wanneer te bekijken en hoe te bekijken, waardoor query-gedreven en efficiënt videobegrip wordt bereikt. Om dergelijke agenten te trainen, ontwerpen we een eenvoudig maar effectief driestaps leerproces - bestaande uit supervised fine-tuning (SFT), Kahneman-Tversky Optimalisatie (KTO) en Generalized Reward Policy Optimalisatie (GRPO) - dat supervised imitatie en reinforcement learning verbindt. We construeren verder hoogwaardige datasets voor elke fase, die stabiele en reproduceerbare training ondersteunen. We evalueren EVA op zes videobegrip benchmarks, waarbij de veelzijdige capaciteiten worden gedemonstreerd. Vergeleken met bestaande baseline-methoden behaalt EVA een substantiële verbetering van 6-12% ten opzichte van algemene MLLM-baselines en een verdere winst van 1-3% ten opzichte van eerdere adaptieve agentmethoden. Onze code en model zijn beschikbaar op https://github.com/wangruohui/EfficientVideoAgent.
Hoewel eerdere red-teaming-inspanningen zich richtten op het ontlokken van schadelijke tekstoutput van grote taalmodellen (LLM's), slagen dergelijke benaderingen er niet in om agentspecifieke kwetsbaarheden te vangen die ontstaan tijdens multi-step tool-uitvoering, met name in snelgroeiende ecosystemen zoals het Model Context Protocol (MCP). Om dit hiaat te adresseren, stellen we een trajectbewuste evolutionaire zoekmethode voor, T-MAP, die uitvoeringstrajecten benut om de ontdekking van adversariële prompts te sturen. Onze aanpak maakt de automatische generatie van aanvallen mogelijk die niet alleen veiligheidsmaatregelen omzeilen, maar ook betrouwbaar schadelijke doelstellingen realiseren door daadwerkelijke toolinteracties. Empirische evaluaties in diverse MCP-omgevingen tonen aan dat T-MAP baseline-methoden aanzienlijk overtreft in de aanvalsrealisatieratio (ARR) en effectief blijft tegen frontiermodellen, waaronder GPT-5.2, Gemini-3-Pro, Qwen3.5 en GLM-5, waardoor voorheen onderbelichte kwetsbaarheden in autonome LLM-agents aan het licht worden gebracht.
Autonome mobiele GUI-agenten hebben steeds meer aandacht gekregen dankzij de vooruitgang in Multimodale Large Language Models (MLLM's). Bestaande methoden kampen echter nog steeds met inefficiënt leren van mislukte trajecten en onduidelijke toerekening van credits onder schaarse beloningen voor langetermijn GUI-taken. Daartoe stellen wij UI-Voyager voor, een nieuwe, tweefasige, zelf-evoluerende mobiele GUI-agent. In de eerste fase passen wij Rejection Fine-Tuning (RFT) toe, wat de continue co-evolutie van data en modellen in een volledig autonome lus mogelijk maakt. De tweede fase introduceert Group Relative Self-Distillation (GRSD), dat kritieke keuzepunten in groep rollouts identificeert en dichte, stap-voor-stap supervisie construeert vanuit succesvolle trajecten om mislukte trajecten te corrigeren. Uitgebreide experimenten op AndroidWorld tonen aan dat ons 4B-model een slagingspercentage van 81,0% voor Pass@1 bereikt, wat tal van recente baseline-methoden overtreft en de menselijke prestatieniveau overschrijdt. Ablatie- en casestudies bevestigen verder de effectiviteit van GRSD. Onze methode vertegenwoordigt een significante sprong voorwaarts richting efficiënte, zelf-evoluerende en hoogwaardige mobiele GUI-automatisering zonder dure handmatige data-annotatie.
Zelfdistillatie is naar voren gekomen als een effectief paradigma voor nafinetuning van grote taalmodelen, waarbij vaak de prestaties verbeteren terwijl de redeneersporen worden verkort. In wiskundig redeneren stellen we echter vast dat het de antwoordlengte kan verkorten terwijl de prestaties verslechteren. Wij herleiden deze achteruitgang tot de onderdrukking van epistemische verbalisatie – de uitdrukking van onzekerheid door het model tijdens het redeneren. Via gecontroleerde experimenten waarbij de rijkdom van de conditionerende context en de taakdekking worden gevarieerd, tonen we aan dat conditionering van de leraar op rijke informatie de onzekerheidsuitdrukking onderdrukt. Dit maakt snelle optimalisatie binnen het domein mogelijk bij beperkte taakdekking, maar schaadt de prestaties buiten het domein (out-of-distribution, OOD), waar ongeziene problemen baat hebben bij het uiten van onzekerheid en het dienovereenkomstig aanpassen. Bij Qwen3-8B, DeepSeek-Distill-Qwen-7B en Olmo3-7B-Instruct observeren we prestatieverliezen tot 40%. Onze bevindingen benadrukken dat het blootleggen van passende niveaus van onzekerheid cruciaal is voor robuust redeneren en onderstrepen het belang van het optimaliseren van redeneergedrag, verder dan het louter versterken van correcte antwoordsporen.
Multimodale LLM's worden steeds vaker ingezet als perceptuele ruggengraat voor autonome agents in 3D-omgevingen, van robotica tot virtuele werelden. Deze toepassingen vereisen dat agents snelle statusveranderingen waarnemen, acties aan de juiste entiteiten toeschrijven en kunnen redeneren over gelijktijdig gedrag van meerdere agents vanuit een first-person perspectief; capaciteiten die door bestaande benchmarks niet adequaat worden geëvalueerd. Wij introduceren GameplayQA, een raamwerk voor het evalueren van agent-gerichte perceptie en redenering door middel van videobegrip. Concreet annoteren we multiplayer 3D-gameplayvideo's dicht (1.22 labels/seconde) met gesynchroniseerde, gelijktijdige bijschriften van statussen, acties en gebeurtenissen, gestructureerd rond een triadisch systeem van Zelf, Andere Agents en de Wereld – een natuurlijke decompositie voor multi-agent omgevingen. Op basis van deze annotaties verfijnden we 2.4K diagnostische QA-paren, ingedeeld in drie niveaus van cognitieve complexiteit, vergezeld van een gestructureerde taxonomie van afleiders die een fijnmazige analyse mogelijk maakt van waar modellen hallucineren. Evaluatie van state-of-the-art MLLM's toont een aanzienlijke kloof met menselijke prestaties, met veelvoorkomende fouten in temporele en cross-videolokalisatie, toeschrijving van agentrollen en het verwerken van de beslissingsdichtheid van het spel. Wij hopen dat GameplayQA toekomstig onderzoek op het snijvlak van embodied AI, agentische perceptie en wereldmodellering stimuleert.
Recente vooruitgang in multimodale grote taalmodellen heeft geleid tot sterke prestaties bij redeneertaken, maar deze verbeteringen zijn grotendeels afhankelijk van hoogwaardige geannoteerde data of distillatie van leraarmodellen, beide kostbaar en moeilijk op te schalen. Om dit aan te pakken, stellen we een onbewaakt zelf-evolutie trainingsraamwerk voor voor multimodaal redeneren dat stabiele prestatieverbeteringen bereikt zonder gebruik te maken van door mensen geannoteerde antwoorden of externe beloningsmodellen. Voor elke invoer bemonsteren we meerdere redeneertrajecten en modelleren gezamenlijk hun structuur binnen de groep. We gebruiken de zelfconsistentie van de Actor als een trainingsprior en introduceren een gemoduleerde modulatie op basis van een begrensde Judge om trajecten van verschillende kwaliteit continu opnieuw te wegen. We modelleren de gemoduleerde scores verder als een distributie op groepsniveau en zetten absolute scores om in relatieve voordelen binnen elke groep, wat robuustere beleidsupdates mogelijk maakt. Getraind met Group Relative Policy Optimization (GRPO) op ongelabelde data, verbetert onze methode consistent de redeneerprestaties en generalisatie op vijf wiskundige redeneerbenchmarks, en biedt zo een schaalbare weg naar zelf-evoluerende multimodale modellen. De code is beschikbaar op https://github.com/OPPO-Mente-Lab/LLM-Self-Judge.
Generatieve optimalisatie gebruikt grote taalmodellen (LLM's) om artefacten (zoals code, workflows of prompts) iteratief te verbeteren met behulp van uitvoeringsfeedback. Het is een veelbelovende benadering voor het bouwen van zelfverbeterende agents, maar blijft in de praktijk broos: ondanks actief onderzoek gebruikte slechts 9% van de onderzochte agents enige geautomatiseerde optimalisatie. Wij stellen dat deze broosheid ontstaat omdat een ingenieur om een leerlus op te zetten ``verborgen'' ontwerpkeuzes moet maken: Wat kan de optimalisator bewerken en wat is het "juiste" leerbewijs om bij elke update te verschaffen? Wij onderzoeken drie factoren die de meeste toepassingen beïnvloeden: het startartefact, de krediethorizon voor uitvoeringstrajecten, en het bundelen van trials en errors tot leerbewijs. Via casestudies in MLAgentBench, Atari en BigBench Extra Hard stellen we vast dat deze ontwerpbeslissingen kunnen bepalen of generatieve optimalisatie slaagt, maar dat ze zelden expliciet worden gemaakt in eerder werk. Verschillende startartefacten bepalen welke oplossingen bereikbaar zijn in MLAgentBench, afgekapte trajecten kunnen Atari-agents nog steeds verbeteren, en grotere minibatches verbeteren de generalisatie op BBEH niet monotoon. Wij concluderen dat het ontbreken van een eenvoudige, universele manier om leerlussen op te zetten over domeinen heen een grote hindernis is voor productisering en adoptie. Wij geven praktische richtlijnen voor het maken van deze keuzes.
Hoewel recente generatieve videomodellen een opmerkelijke visuele realisme hebben bereikt en worden verkend als wereldmodellen, vereist echte fysische simulatie het beheersen van zowel ruimte als tijd. Huidige modellen kunnen visueel vloeiende kinematica produceren, maar ze missen een betrouwbare interne bewegingspuls om deze bewegingen te verankeren in een consistente, realistische tijdschaal. Deze temporele ambiguïteit vindt zijn oorsprong in de gangbare praktijk om ongericht te trainen op video's met sterk uiteenlopende real-world snelheden, waardoor deze worden gedwongen in gestandaardiseerde framesnelheden. Dit leidt tot wat wij chronometrische hallucinatie noemen: gegenereerde sequenties vertonen ambiguë, onstabiele en oncontroleerbare fysische bewegingssnelheden. Om dit aan te pakken, stellen wij Visual Chronometer voor, een voorspeller die de Physical Frames Per Second (PhyFPS) direct herleidt uit de visuele dynamiek van een invoervideo. Onze methode, getraind via gecontroleerde temporele hermonstering, schat de werkelijke tijdschaal in die wordt gesuggereerd door de beweging zelf, waarbij onbetrouwbare metadata worden omzeild. Om dit probleem systematisch te kwantificeren, stellen we twee benchmarks in: PhyFPS-Bench-Real en PhyFPS-Bench-Gen. Onze evaluaties onthullen een harde realiteit: state-of-the-art videogeneratoren lijden onder ernstige PhyFPS-misalignering en temporele instabiliteit. Ten slotte tonen we aan dat het toepassen van PhyFPS-correcties de door mensen waargenomen natuurlijkheid van AI-gegenereerde video's significant verbetert. Onze projectpagina is https://xiangbogaobarry.github.io/Visual_Chronometer/.
3D Gaussian Splatting (3DGS) maakt real-time, fotorealistische synthese van nieuwe gezichtspunten mogelijk, wat het een zeer aantrekkelijke representatie maakt voor modelgebaseerde videotracking. Het benutten van de differentieerbaarheid van de 3DGS-renderer "in het wild" blijft echter berucht fragiel. Een fundamenteel knelpunt ligt in de compacte, lokale ondersteuning van de Gauss-primitieven. Standaard fotometrische doelstellingen zijn impliciet afhankelijk van ruimtelijke overlap; als ernstige cameramisalignering het gerenderde object buiten het lokale bereik van het doel plaatst, verdwijnen de gradiënten volledig, waardoor de optimalisator stranden. Wij introduceren SpectralSplats, een robuust trackingraamwerk dat dit "verdwijnende-gradiënten"-probleem oplost door de optimalisatiedoelstelling te verleggen van het ruimtelijke domein naar het frequentiedomein. Door de gerenderde afbeelding te sturen via een set van globale complexe sinusvormige kenmerken (Spectrale Momenten), construeren we een globaal aantrekkingsbekken. Dit garandeert dat er een geldige, directionele gradiënt naar het doel bestaat over het gehele beelddomein, zelfs wanneer pixeloverlap volledig afwezig is. Om dit globale bekken te benutten zonder periodieke lokale minima geassocieerd met hoge frequenties te introduceren, leiden we een principieel Frequentie-Uitdovingsschema af vanuit eerste principes. Dit laat de optimalisator soepel transitioneren van globale convexiteit naar precieze ruimtelijke alignering. Wij tonen aan dat SpectralSplats fungeert als een naadloze, drop-in vervanging voor ruimtelijke verliesfuncties across diverse deformatie-parameterisaties (van MLPs tot sparse controlepunten), en complexe deformaties succesvol herstelt, zelfs vanaf ernstig misaligneerde initialisaties waarbij standaard op uiterlijk gebaseerde tracking catastrofaal faalt.
Wij introduceren 4DGS360, een diffusievrij raamwerk voor 360°-reconstructie van dynamische objecten uit monovideo's van willekeurige kwaliteit. Bestaande methoden slagen er vaak niet in om een consistente 360°-geometrie te reconstrueren, omdat hun sterke afhankelijkheid van 2D-inherente prioren ervoor zorgt dat initiële punten overfitten op het zichtbare oppervlak in elke trainingsweergave. 4DGS360 lost deze uitdaging op door een geavanceerde 3D-inherente initialisatie die de geometrische ambiguïteit van verborgen regio's vermindert. Onze voorgestelde 3D-tracker, AnchorTAP3D, produceert versterkte 3D-punttrajectorieën door gebruik te maken van betrouwbare 2D-volgpunten als ankers, waardoor drift wordt onderdrukt en een betrouwbare initialisatie wordt geboden die de geometrie in verborgen regio's behoudt. Deze initialisatie, gecombineerd met optimalisatie, resulteert in samenhangende 360° 4D-reconstructies. Verder presenteren wij iPhone360, een nieuwe benchmark waarbij testcamera's tot 135° van de trainingsweergaven worden geplaatst, wat een 360°-evaluatie mogelijk maakt die bestaande datasets niet kunnen bieden. Experimenten tonen aan dat 4DGS360 state-of-the-art prestaties bereikt op de iPhone360-, iPhone- en DAVIS-datasets, zowel kwalitatief als kwantitatief.
Multimodale agent-gebaseerde pijplijnen transformeren de mens-computerinteractie door efficiënte en toegankelijke automatisering van complexe, real-world taken mogelijk te maken. Recente inspanningen hebben zich echter gericht op kortetermijn- of algemene toepassingen (bijvoorbeeld mobiele of desktopinterfaces), waardoor langetermijnautomatisering voor domeinspecifieke systemen, met name in de gezondheidszorg, grotendeels onontgonnen blijft. Om dit aan te pakken, introduceren we CareFlow, een hoogwaardige, door mensen geannoteerde benchmark bestaande uit complexe, langetermijnsoftwareworkflows binnen medische annotatietools, DICOM-viewers, EPD-systemen en laboratoriuminformatiesystemen. Op deze benchmark presteren bestaande vision-language modellen (VLM's) slecht; ze worstelen met langetermijnredenering en meerstapsinteracties in medische contexten. Om dit te overwinnen, stellen we CarePilot voor, een multi-agent framework gebaseerd op het actor-critic paradigma. De Actor integreert tool grounding met duale geheugenmechanismen (langetermijn- en kortetermijnervaring) om de volgende semantische actie te voorspellen op basis van de visuele interface en systeemstatus. De Critic evalueert elke actie, werkt het geheugen bij op basis van waargenomen effecten, en voert de actie uit of geeft corrigerende feedback om de workflow te verfijnen. Door iteratieve agent-simulatie leert de Actor robuustere en redeneringsbewuste voorspellingen te maken tijdens inferentie. Onze experimenten tonen aan dat CarePilot state-of-the-art prestaties bereikt, en sterke closed-source en open-source multimodale baseline-modellen verslaat met respectievelijk ongeveer 15,26% en 3,38% op onze benchmark en out-of-distribution dataset.
Het evalueren van grote taalmodellen (LLM's) op open vragen is moeilijk omdat de kwaliteit van het antwoord afhangt van de context van de vraag. Binaire scores en statische beoordelingsrubrieken slagen er niet in om deze contextafhankelijke vereisten vast te leggen. Bestaande methoden definiëren criteria op datasetniveau of genereren deze in één keer, wat hun vermogen beperkt om de evaluatieruimte die elke vraag impliceert te verkennen. Wij introduceren One-Question-One-World (Qworld), een methode die vragen-specifieke evaluatiecriteria genereert met behulp van een recursieve expansieboom. Gegeven een vraag ontleedt Qworld deze in scenario's, perspectieven en fijnmazige binaire criteria via gestructureerde hiërarchische en horizontale expansie. De resulterende criteria specificeren wat een hoogwaardig antwoord voor die vraag moet behandelen. Op HealthBench dekt Qworld 89% van de door experts opgestelde criteria en genereert het 79% nieuwe criteria die door menselijke experts zijn gevalideerd. Experts beoordelen Qworld-criteria hoger in inzicht en granulariteit dan criteria gegenereerd door eerdere methoden. Wanneer toegepast op 11 frontier-LLM's op HealthBench en Humanity's Last Exam, onthult Qworld capaciteitsverschillen in dimensies zoals langetermijnimpact, billijkheid, foutafhandeling en interdisciplinair redeneren die grove rubrieken niet onderscheiden. Door criteriumgeneratie te formuleren als gestructureerde dekking van vraag-geïmpliceerde evaluatie-assen, stelt Qworld evaluatie in staat die zich aanpast aan elke vraag in plaats van te vertrouwen op vaste criteria op taakniveau.
Recent onderzoek heeft aangetoond dat neurale netwerken 3D-taken zoals Novel View Synthesis (NVS) kunnen uitvoeren zonder expliciete 3D-reconstructie. Desalniettemin stellen wij dat sterke 3D-inductieve biases nog steeds nuttig zijn bij het ontwerp van dergelijke netwerken. Wij tonen dit aan door LagerNVS te introduceren, een encoder-decoder neuraal netwerk voor NVS dat voortbouwt op '3D-bewuste' latente features. De encoder wordt geïnitialiseerd vanuit een 3D-reconstructienetwerk dat vooraf is getraind met expliciete 3D-supervisie. Dit wordt gecombineerd met een lichtgewicht decoder, en end-to-end getraind met fotometrische verliesfuncties. LagerNVS behaalt state-of-the-art deterministische feed-forward Novel View Synthesis (inclusief 31.4 PSNR op Re10k), met en zonder bekende camera's, rendert in realtime, generaliseert naar in-the-wild data, en kan worden gecombineerd met een diffusion decoder voor generatieve extrapolatie.
Grote taalmmodellen (LLM's) hebben de ontwikkeling mogelijk gemaakt van agentische systemen die kunnen redeneren, plannen en handelen bij complexe taken, maar het is onduidelijk of ze effectief middelen kunnen toewijzen onder onzekerheid. In tegenstelling tot kortetermijnbeslissingen op basis van reacties, vereist toewijzing het inzetten van schaarse middelen over langere tijd, waarbij concurrerende doelstellingen moeten worden afgewogen en flexibiliteit voor toekomstige behoeften behouden moet blijven. Wij introduceren EnterpriseArena, de eerste benchmark voor het evalueren van agents op het gebied van langetermijnmiddelentoewijzing in ondernemingen. Het instantieert CFO-achtige besluitvorming in een 132-maanden ondernemingssimulator die bedrijfsbrede financiële gegevens, geanonimiseerde bedrijfsdocumenten, macro-economische en branchesignalen, en door experts gevalideerde operationele regels combineert. De omgeving is gedeeltelijk observeerbaar en onthult de toestand alleen via gebudgetteerde organisatorische hulpmiddelen, waardoor agents gedwongen worden informatieverwerving af te wegen tegen het behoud van schaarse middelen. Experimenten met elf geavanceerde LLM's tonen aan dat deze setting zeer uitdagend blijft: slechts 16% van de runs overleeft de volledige tijdsduur, en grotere modellen presteren niet consistent beter dan kleinere. Deze resultaten identificeren langetermijnmiddelentoewijzing onder onzekerheid als een duidelijk vermogensgat voor huidige LLM-agents.
Hoewel propriëtaire systemen zoals Seedance-2.0 opmerkelijke successen hebben geboekt in alomvattende videogeneratie, blijven open-source alternatieven aanzienlijk achter. De meeste academische modellen zijn sterk gefragmenteerd, en de weinige bestaande inspanningen voor uniforme videogeneratie worstelen nog steeds om diverse taken naadloos te integreren binnen één enkel raamwerk. Om deze kloof te overbruggen, stellen wij OmniWeaving voor, een alomvattend videogeneratiemodel met krachtige multimodale compositie- en redeneercapaciteiten. Door gebruik te maken van een grootschalige pretrainingsdataset die diverse compositionele en redenering-versterkte scenario's omvat, leert OmniWeaving om door elkaar heen lopende tekst-, multi-beeld- en video-inputs temporeel te verbinden, terwijl het fungeert als een intelligente agent om complexe gebruikersintenties af te leiden voor geavanceerde videocreatie. Verder introduceren wij IntelligentVBench, de eerste uitgebreide benchmark die ontworpen is om next-level intelligente uniforme videogeneratie rigoureus te beoordelen. Uitgebreide experimenten tonen aan dat OmniWeaving state-of-the-art prestaties bereikt onder open-source uniforme modellen. De code en het model zullen binnenkort openbaar beschikbaar worden gesteld. Projectpagina: https://omniweaving.github.io.
Videogeneratiemodellen hebben een sterk potentieel getoond als wereldmodellen voor autonome rijsimulatie. Bestaande methoden worden echter voornamelijk getraind op real-world rijdatasets, die vooral natuurlijke en veilige rijsituaties bevatten. Hierdoor falen huidige modellen vaak wanneer ze worden geconditioneerd op uitdagende of contrafeitelijke trajecten – zoals imperfecte trajecten gegenereerd door simulators of planningssystemen – wat leidt tot video's met ernstige fysieke inconsistenties en artefacten. Om deze beperking aan te pakken, stellen we PhyGenesis voor, een wereldmodel ontworpen om rijvideo's te genereren met hoge visuele kwaliteit en sterke fysieke consistentie. Ons raamwerk bestaat uit twee kerncomponenten: (1) een fysieke conditiegenerator die potentieel ongeldige trajectinvoer omzet in fysiek plausibele condities, en (2) een fysica-versterkte videogenerator die hoogwaardige multi-view rijvideo's produceert onder deze condities. Om deze componenten effectief te trainen, construeren we een grootschalige, fysica-rijke heterogene dataset. Specifiek genereren we, naast real-world rijvideo's, diverse uitdagende rijsituaties met behulp van de CARLA-simulator, waaruit we supervisiesignalen afleiden die het model begeleiden om gefundeerde fysieke dynamiek onder extreme omstandigheden te leren. Deze leerstrategie voor uitdagende trajecten maakt trajectcorrectie mogelijk en bevordert fysiek consistente videogeneratie. Uitgebreide experimenten tonen aan dat PhyGenesis consistent state-of-the-art methoden overtreft, vooral op uitdagende trajecten. Onze projectpagina is beschikbaar op: https://wm-research.github.io/PhyGenesis/.
Diffusietransformers hebben opmerkelijke mogelijkheden getoond bij het genereren van video's. Hun praktische inzet wordt echter ernstig beperkt door hoog geheugengebruik en hoge rekencosten. Kwantisatie na training biedt een praktische manier om het geheugengebruik te verminderen en de rekensnelheid te verhogen. Bestaande kwantiseringsmethoden passen typisch een statische bitbreedte-toewijzing toe, waarbij de kwantisatiemoeilijkheid van activeringen over diffusietijdstappen heen wordt genegeerd, wat leidt tot een suboptimale afweging tussen efficiëntie en kwaliteit. In dit artikel stellen we een NVFP4/INT8 mixed-precision kwantiseringsraamwerk voor tijdens de inferentiefase. Wij ontdekken een sterke lineaire correlatie tussen het invoer-uitvoerverschil van een blok en de kwantisatiegevoeligheid van zijn interne lineaire lagen. Gebaseerd op dit inzicht ontwerpen we een lichtgewicht voorspeller die dynamisch NVFP4 toewijst aan temporeel stabiele lagen om geheugencompressie te maximaliseren, terwijl selectief INT8 behouden blijft voor vluchtige lagen om robuustheid te garanderen. Deze adaptieve precisiestrategie maakt agressieve kwantisatie mogelijk zonder in te boeten op generatiekwaliteit. Daarnaast observeren we dat het residu tussen de invoer en uitvoer van een Transformer-blok een hoge temporele consistentie vertoont over tijdstappen heen. Gebruikmakend van deze temporele redundantie introduceren we een Temporal Delta Cache (TDC) om berekeningen voor deze invariante blokken over te slaan, wat de rekencosten verder verlaagt. Uitgebreide experimenten tonen aan dat onze methode een 1,92x end-to-end versnelling en een 3,32x geheugenreductie bereikt, waarmee een nieuwe standaard wordt gezet voor efficiënte inferentie in Video DiT's.
Applications such as embodied intelligence rely on a real-time perception-decision-action closed loop, posing stringent challenges for streaming video understanding. However, current agents suffer from fragmented capabilities, such as supporting only offline video understanding, lacking long-term multimodal memory mechanisms, or struggling to achieve real-time reasoning and proactive interaction under streaming inputs. These shortcomings have become a key bottleneck for preventing them from sustaining perception, making real-time decisions, and executing actions in real-world environments. To alleviate these issues, we propose StreamingClaw, a unified agent framework for streaming video understanding and embodied intelligence. It is also an OpenClaw-compatible framework that supports real-time, multimodal streaming interaction. StreamingClaw integrates five core capabilities: (1) It supports real-time streaming reasoning. (2) It supports reasoning about future events and proactive interaction under the online evolution of interaction objectives. (3) It supports multimodal long-term storage, hierarchical evolution, and efficient retrieval of shared memory across multiple agents. (4) It supports a closed-loop of perception-decision-action. In addition to conventional tools and skills, it also provides streaming tools and action-centric skills tailored for real-world physical environments. (5) It is compatible with the OpenClaw framework, allowing it to fully leverage the resources and support of the open-source community. With these designs, StreamingClaw integrates online real-time reasoning, multimodal long-term memory, and proactive interaction within a unified framework. Moreover, by translating decisions into executable actions, it enables direct control of the physical world, supporting practical deployment of embodied interaction.
Bestaande Multimodale Grote Taalmodellen (MLLM's) hebben moeite met 3D-ruimtelijk redeneren, omdat zij er niet in slagen gestructureerde abstracties te construeren van de 3D-omgeving die in videobeelden wordt afgebeeld. Om deze kloof te overbruggen, en geïnspireerd door cognitieve theorieën over allocentrisch ruimtelijk redeneren, onderzoeken we hoe MLLM's in staat gesteld kunnen worden om op tekst gebaseerde ruimtelijke representaties van video te modelleren en ermee te redeneren. Concreet introduceren we TRACE (Textual Representation of Allocentric Context from Egocentric Video), een promptmethode die MLLM's aanzet om op tekst gebaseerde representaties van 3D-omgevingen te genereren als tussenliggende redeneersporen voor nauwkeurigere beantwoording van ruimtelijke vragen. TRACE codeert metacontext, cameratrajecten en gedetailleerde objectentiteiten om gestructureerd ruimtelijk redeneren over egocentrische video's te ondersteunen. Uitgebreide experimenten op VSI-Bench en OST-Bench tonen aan dat TRACE aanzienlijke en consistente verbeteringen oplevert ten opzichte van eerdere promptstrategieën, over een diverse reeks MLLM-architecturen heen, die verschillende parameterschalen en trainingsschema's omvatten. Verder presenteren we ablatiestudies om onze ontwerpkeuzes te valideren, samen met gedetailleerde analyses die de knelpunten van 3D-ruimtelijk redeneren in MLLM's onderzoeken.
Wij tonen aan dat PLDR-LLM's die zijn voorgetraind op zelfgeorganiseerd kritikaliteit, redeneervermogen vertonen tijdens inferentie. De kenmerken van de deductieve uitvoer van PLDR-LLM's bij kritikaliteit zijn vergelijkbaar met tweedegraads faseovergangen. Bij kritikaliteit divergeert de correlatielengte en bereiken de deductieve uitvoeren een metastabiele evenwichtstoestand. Het gedrag in deze evenwichtstoestand suggereert dat de deductieve uitvoeren representaties leren die equivalent zijn aan schalingsfuncties, universaliteitsklassen en hernormalisatiegroepen uit de trainingsdataset, wat leidt tot generalisatie- en redeneervermogen in het proces. Vervolgens kunnen we een ordeparameter definiëren op basis van de globale statistieken van de deductieve uitvoerparameters van het model tijdens inferentie. Het redeneervermogen van een PLDR-LLM is beter wanneer zijn ordeparameter bij kritikaliteit dicht bij nul ligt. Deze observatie wordt ondersteund door de benchmarkscores van de modellen die zijn getraind bij bijna-kritikaliteit en sub-kritikaliteit. Onze resultaten bieden een zelfstandige verklaring voor hoe redeneren zich manifesteert in grote taalmodellen, en het vermogen tot redeneren kan uitsluitend worden gekwantificeerd vanuit de globale modelparameterwaarden van de deductieve uitvoeren in de evenwichtstoestand, zonder enige noodzaak voor evaluatie van samengestelde benchmarkdatasets via inductieve uitvoer voor redeneren en begrip.
Functionele segmentatie in 3D-scènes vereist dat een agent impliciete natuurlijke-taalinstructies verankert in precieze maskers van fijnmazige interactieve elementen. Bestaande methoden zijn gebaseerd op gefragmenteerde pijplijnen die lijden onder visuele blindheid tijdens de initiële taakparsing. Wij observeren dat deze methoden worden beperkt door enkelvoudige, passieve en heuristische frameselectie. Wij presenteren UniFunc3D, een uniform en trainingsvrij raamwerk dat het multimodale groottaalmodel behandelt als een actieve waarnemer. Door semantisch, temporeel en ruimtelijk redeneren te consolideren in een enkele voorwaartse pass, voert UniFunc3D gezamenlijk redeneren uit om taakdecompositie te verankeren in direct visueel bewijs. Onze aanpak introduceert actieve ruimtelijk-temporele verankering met een coarse-to-fine strategie. Hierdoor kan het model adaptief de juiste videoframes selecteren en zich concentreren op interactieve onderdelen met hoog detail, terwijl de globale context behouden blijft die nodig is voor disambiguatie. Op SceneFun3D behaalt UniFunc3D state-of-the-art prestaties, waarbij het zowel trainingsvrije als trainingsgebaseerde methoden met een grote marge overtreft met een relatieve verbetering van 59,9% mIoU, zonder enige taakspecifieke training. Code zal worden vrijgegeven op onze projectpagina: https://jiaying.link/unifunc3d.