Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Wij introduceren DeepSeek-V3.2, een model dat hoge computationele efficiëntie combineert met superieure redeneer- en agentprestaties. De belangrijkste technische doorbraken van DeepSeek-V3.2 zijn als volgt: (1) DeepSeek Sparse Attention (DSA): Wij introduceren DSA, een efficiënt aandachtmechanisme dat de computationele complexiteit aanzienlijk reduceert terwijl de modelprestaties in lang-context scenario's behouden blijven. (2) Schaalbaar Reinforcement Learning Framework: Door implementatie van een robuust reinforcement learning-protocol en schaling van post-training compute, presteert DeepSeek-V3.2 vergelijkbaar met GPT-5. Opmerkelijk is dat onze high-compute variant, DeepSeek-V3.2-Speciale, GPT-5 overtreft en redeneervaardigheid vertoont die gelijk is aan Gemini-3.0-Pro, met gouden-medailleprestaties in zowel de Internationale Wiskunde Olympiade (IWO) 2025 als de Internationale Olympiade in Informatica (IOI). (3) Grootschalige Agent Task Synthese Pipeline: Om redeneren te integreren in tool-use scenario's, ontwikkelden we een nieuwe synthesepipeline die systematisch trainingsdata op schaal genereert. Deze methodologie faciliteert schaalbare agentische post-training, wat aanzienlijke verbeteringen oplevert in generalisatie en instructievolg-robuustheid binnen complexe, interactieve omgevingen.
Grote taalmodellen zijn krachtige generalisten, maar het oplossen van diepe en complexe problemen zoals die van de 'Humanity's Last Exam' (HLE) blijft zowel conceptueel uitdagend als rekenkundig kostbaar. Wij tonen aan dat kleine orchestrators die andere modellen en een verscheidenheid aan tools beheren, zowel de bovengrens van intelligentie kunnen verleggen als de efficiëntie bij het oplossen van moeilijke agent-taken kunnen verbeteren. Wij introduceren ToolOrchestra, een methode voor het trainen van kleine orchestrators die intelligente tools coördineren. ToolOrchestra gebruikt expliciet reinforcement learning met beloningen die rekening houden met uitkomsten, efficiëntie en gebruikersvoorkeuren. Met ToolOrchestra produceren wij Orchestrator, een 8B-model dat een hogere nauwkeurigheid bereikt tegen lagere kosten dan eerdere toolgebruikende agents, en dat tegelijkertijd afstemt op gebruikersvoorkeuren over welke tools voor een bepaalde query moeten worden gebruikt. Op HLE behaalt Orchestrator een score van 37,1%, waarmee het GPT-5 (35,1%) overtreft terwijl het 2,5x efficiënter is. Op tau2-Bench en FRAMES overtreft Orchestrator GPT-5 met een ruime marge terwijl het slechts ongeveer 30% van de kosten gebruikt. Uitgebreide analyse toont aan dat Orchestrator de beste balans bereikt tussen prestaties en kosten volgens meerdere metrieken, en robuust generaliseert naar onbekende tools. Deze resultaten tonen aan dat het samenstellen van diverse tools met een lichtgewicht orchestratiemodel zowel efficiënter als effectiever is dan bestaande methoden, waardoor de weg wordt geëffend voor praktische en schaalbare tool-augmented redeneersystemen.
Huidige videogeneratietechnieken blinken uit in het maken van enkelvoudige clips, maar hebben moeite met het produceren van narratieve multi-shot video's. Deze vereisen flexibele shotopbouw, samenhangende narratieve structuur en bestuurbaarheid die verder gaat dan tekstprompts. Om deze uitdagingen aan te pakken, presenteren wij MultiShotMaster, een raamwerk voor hoogst bestuurbare multi-shot videogeneratie. We breiden een voorgetraind enkel-shot model uit door de integratie van twee nieuwe varianten van RoPE. Ten eerste introduceren we Multi-Shot Narrative RoPE, dat een expliciete faseverschuiving toepast bij shotovergangen. Dit maakt flexibele shotarrangementen mogelijk terwijl de temporele narratieve volgorde behouden blijft. Ten tweede ontwerpen we Spatiotemporal Position-Aware RoPE om referentietokens en grondingssignalen op te nemen, waardoor spatiotemporeel-gegrond referentie-injectie mogelijk wordt. Daarnaast richten we, om dataschaarste te overwinnen, een geautomatiseerde pijplijn voor data-annotatie op om multi-shot video's, bijschriften, cross-shot grondingssignalen en referentiebeelden te extraheren. Ons raamwerk benut de intrinsieke architecturale eigenschappen om multi-shot videogeneratie te ondersteunen, met kenmerken als tekstgestuurde consistentie tussen shots, gepersonaliseerde onderwerpen met bewegingscontrole en een achtergrond-gestuurde gepersonaliseerde scène. Zowel het aantal shots als de duur zijn flexibel configureerbaar. Uitgebreide experimenten tonen de superieure prestaties en uitstekende bestuurbaarheid van ons raamwerk aan.
Wij presenteren MG-Nav (Memory-Guided Navigation), een dual-scale raamwerk voor zero-shot visuele navigatie dat wereldwijde, geheugengestuurde planning verenigt met lokale, geometrie-gestuurde controle. De kern wordt gevormd door de Sparse Spatial Memory Graph (SMG), een compact, regio-centrisch geheugen waarin elke node multi-view keyframe- en objectsemantiek aggregeert, zowel het uiterlijk als de ruimtelijke structuur vastlegt en viewpoint-diversiteit behoudt. Op globaal niveau wordt de agent gelokaliseerd op de SMG en wordt een doel-geconditioneerd nodepad gepland via een hybride image-to-instance retrieval, wat een reeks bereikbare waypoints produceert voor lange-termijn begeleiding. Op lokaal niveau voert een navigatiefoundation-beleid deze waypoints uit in point-goal modus met obstacle-aware controle, en schakelt het over naar image-goal modus bij de navigatie van de laatste node naar het visuele doel. Om de viewpoint-uitlijning en doelherkenning verder te verbeteren, introduceren we de VGGT-adapter, een lichtgewicht geometrische module gebouwd op het vooraf getrainde VGGT-model, die observatie- en doelkenmerken uitlijnt in een gedeelde 3D-aware ruimte. MG-Nav voert wereldwijde planning en lokale controle uit op verschillende frequenties, waarbij periodieke herlocalisatie wordt gebruikt om fouten te corrigeren. Experimenten op de HM3D Instance-Image-Goal en MP3D Image-Goal benchmarks tonen aan dat MG-Nav state-of-the-art zero-shot prestaties bereikt en robuust blijft onder dynamische herschikkingen en onbekende scène-omstandigheden.
Dit artikel presenteert DualCamCtrl, een nieuw end-to-end diffusiemodel voor cameragestuurde videogeneratie. Recente werken hebben dit veld vooruitgebracht door cameraposes als op stralen gebaseerde condities weer te geven, maar ze vertonen vaak onvoldoende scènebegrip en geometrisch bewustzijn. DualCamCtrl richt zich specifiek op deze beperking door een dual-branch raamwerk te introduceren dat onderling cameraconsistente RGB- en dieptesequenties genereert. Om deze twee modaliteiten te harmoniseren, stellen we verder het Semantic Guided Mutual Alignment (SIGMA)-mechanisme voor, dat RGB-dieptefusie uitvoert op een semantisch geleide en wederzijds versterkte manier. Deze ontwerpen stellen DualCamCtrl gezamenlijk in staat om modellering van verschijning en geometrie beter te ontwarren, waardoor video's worden gegenereerd die trouwer de gespecificeerde cameratrajecten volgen. Daarnaast analyseren en onthullen we de distinctieve invloed van diepte en cameraposes over de denoiseringsstadia heen en tonen we verder aan dat vroege en late stadia een complementaire rol spelen bij het vormen van de globale structuur en het verfijnen van lokale details. Uitgebreide experimenten tonen aan dat DualCamCtrl consistentere cameragestuurde videogeneratie bereikt, met een reductie van meer dan 40% in camerabewegingsfouten in vergelijking met eerdere methoden. Onze projectpagina: https://soyouthinkyoucantell.github.io/dualcamctrl-page/
Zelfevolutie van AI wordt al lang gezien als een pad naar superintelligentie, waarbij modellen autonoom kennis verwerven, verfijnen en internaliseren vanuit hun eigen leerervaringen. In de praktijk bereiken onbegeleide zelf-evoluerende systemen echter vaak snel een plateau of degraderen ze zelfs naarmate de training vordert. Deze mislukkingen ontstaan door problemen zoals conceptdrift, diversiteitscollaps en mis-evolutie, waarbij modellen hun eigen vooroordelen versterken en convergeren naar gedrag met lage entropie. Om modellen in staat te stellen op een stabiele en controleerbare manier te evolueren, met minimale afhankelijkheid van menselijk toezicht, introduceren we R-Few: een begeleid Self-Play Challenger-Solver raamwerk dat lichte menselijke supervisie integreert via in-context grounding en gemengde training. Bij elke iteratie bemonstert de Challenger een kleine set door mensen gelabelde voorbeelden om de synthetische vraaggeneratie te sturen, terwijl de Solver gezamenlijk traint op menselijke en synthetische voorbeelden volgens een online, op moeilijkheidsgraad gebaseerd curriculum. Op wiskundige en algemene redeneerbenchmarks behaalt R-Few consistente en iteratieve verbeteringen. Zo verbetert Qwen3-8B-Base met +3,0 punten ten opzichte van R-Zero op wiskundetaken en presteert het even goed als General-Reasoner, ondanks dat de laatste getraind is met 20 keer meer menselijke data. Ablatiestudies bevestigen de complementaire bijdragen van grounded challenger-training en curriculum-gebaseerde solver-training, en verdere analyse toont aan dat R-Few drift vermindert, wat leidt tot stabielere en beter controleerbare co-evolutionaire dynamiek.
Ondanks recente vooruitgang in multimodale agent-systemen, behandelen bestaande benaderingen beeldmanipulatie en webzoeken vaak als gescheiden capaciteiten, vertrouwen ze zwaar op kostbare reinforcement learning, en ontbreekt het hen aan planning gebaseerd op echte tool-uitvoeringstraces. Om deze beperkingen aan te pakken, presenteren wij Skywork-R1V4, een multimodaal agent-model van 30B (A3B) parameters dat multimodale planning, actieve beeldmanipulatie ("denken met beelden"), diepgaand multimodaal zoeken, en cruciaal, onderling verweven redeneren dat dynamisch afwisselt tussen visuele operaties en externe kennisretrieval verenigt. Uitsluitend getraind via supervised fine-tuning op minder dan 30.000 hoogwaardige, planning-uitvoering-consistente trajecten en gevalideerd door stapsgewijze consistentiefiltering, behaalt Skywork-R1V4 state-of-the-art resultaten op perceptie- en multimodale zoekbenchmarks: het scoort 66,1 op MMSearch en 67,2 op FVQA, en overtreft Gemini 2,5 Flash op alle 11 metrieken. Skywork-R1V4 vertoont emergent langetermijnredeneren tijdens inferentie, waarbij het met succes meer dan 10 tool-aanroepen coördineert om complexe, meerstaps taken op te lossen. Onze resultaten tonen aan dat geavanceerde multimodale agent-intelligentie bereikt kan worden via zorgvuldig samengesteld supervised learning alleen, zonder enige afhankelijkheid van reinforcement learning.
Het bereiken van volledig autonome rijsystemen vereist het leren van rationele beslissingen in een breed scala aan scenario's, inclusief veiligheidskritieke en out-of-distribution situaties. Dergelijke gevallen zijn echter ondervertegenwoordigd in de real-world datasets die door menselijke experts zijn verzameld. Om het gebrek aan datadiversiteit aan te vullen, introduceren we een nieuw en schaalbaar simulatiekader dat in staat is om massaal ongeziene toestanden te synthetiseren op basis van bestaande rijlogs. Onze pijplijn maakt gebruik van geavanceerde neural rendering met een reactieve omgeving om hoogfidelity multi-view observaties te genereren die worden gestuurd door een verstoord ego-traject. Verder ontwikkelen we een mechanisme voor het genereren van pseudo-expert trajecten voor deze nieuw gesimuleerde toestanden om actiesupervisie te bieden. Op basis van de gesynthetiseerde data constateren we dat een eenvoudige co-trainingsstrategie op zowel real-world als gesimuleerde samples kan leiden tot significante verbeteringen in robuustheid en generalisatie voor verschillende planningsmethoden op uitdagende real-world benchmarks, tot +6.8 EPDMS op navhard en +2.9 op navtest. Belangrijker nog, een dergelijke verbetering van het beleid schaalt soepel door alleen de simulatiegegevens te vergroten, zelfs zonder extra real-world datastromen. We onthullen verder enkele cruciale bevindingen van een dergelijk sim-real leersysteem, dat we SimScale noemen, waaronder het ontwerp van pseudo-experts en de schaaleigenschappen voor verschillende beleidsarchitecturen. Onze simulatiegegevens en code zullen worden vrijgegeven.
LLM's en agents hebben indrukwekkende vooruitgang geboekt in codegeneratie, wiskundig redeneren en wetenschappelijke ontdekking. Bestaande benchmarks meten echter voornamelijk de correctheid, waarbij de diversiteit aan methoden achter oplossingen over het hoofd wordt gezien. Echte innovatie hangt niet alleen af van het produceren van correcte antwoorden, maar ook van de originaliteit van de aanpak. Wij presenteren InnoGym, de eerste benchmark en raamwerk die zijn ontworpen om het innovatiepotentieel van AI-agents systematisch te evalueren. InnoGym introduceert twee complementaire metrieken: prestatieverbetering, die de verbetering ten opzichte van de best bekende oplossingen meet, en nieuwheid, die methodologische verschillen met eerdere aanpakken vaststelt. De benchmark omvat 18 zorgvuldig geselecteerde taken uit echte technische en wetenschappelijke domeinen, elk gestandaardiseerd via resourcefiltering, evaluatorvalidatie en oplossingsverzameling. Daarnaast bieden wij iGym, een uniforme uitvoeringsomgeving voor reproduceerbare en langetermijnevaluaties. Uitgebreide experimenten tonen aan dat hoewel sommige agents nieuwe aanpakken produceren, hun gebrek aan robuustheid de prestatieverbetering beperkt. Deze resultaten belichten een belangrijke kloof tussen creativiteit en effectiviteit, wat de noodzaak onderstreept van benchmarks die beide aspecten evalueren.
Diffusiemodellen hebben opmerkelijke successen geboekt in beeldgeneratie, maar hun inzet wordt nog steeds beperkt door de hoge rekencapaciteit en de behoefte aan talrijke inferentiestappen. Eerdere pogingen tot distillatie met minder stappen probeerden overbodige stappen over te slaan door compacte studentmodellen te trainen, maar lijden vaak onder hoge hertraingskosten en verminderde generalisatie. In dit werk nemen we een ander perspectief: we versnellen slim, niet gelijkmatig, door kleinere versnellingen toe te passen op vroege semantische fasen en grotere op latere redundante fasen. We concretiseren deze fasebewuste strategie met twee experts die gespecialiseerd zijn in langzame en snelle denoiseringsfasen. Verrassend genoeg, in plaats van enorme inspanning te steken in het hertrainen van studentmodellen, ontdekken we dat het simpelweg uitrusten van het basismodel met lichtgewicht LoRA-adapters zowel efficiënte versnelling als sterke generalisatie bereikt. We verwijzen naar deze twee adapters als Slow-LoRA en Fast-LoRA. Door uitgebreide experimenten bereikt onze methode een versnelling tot 5x ten opzichte van het basismodel, terwijl een vergelijkbare visuele kwaliteit wordt gehandhaafd across diverse benchmarks. Opmerkelijk is dat de LoRA-experts met slechts 1% van de samples worden getraind op een enkele V100 binnen één uur, maar de resulterende modellen generaliseren sterk op onbekende prompts.
Ondanks vooruitgang in video-naar-audio-generatie richt het vakgebied zich voornamelijk op mono-uitvoer, wat ruimtelijke immersie mist. Bestaande binaurale benaderingen blijven beperkt door een pijplijn in twee fasen die eerst mono-audio genereert en vervolgens spatialisatie uitvoert, wat vaak leidt tot foutaccumulatie en spatio-temporele inconsistenties. Om deze beperking aan te pakken, introduceren we de taak van end-to-end binaurale ruimtelijke audiogeneratie rechtstreeks vanuit stille video. Om deze taak te ondersteunen, presenteren we de BiAudio-dataset, bestaande uit ongeveer 97K video-binaurale audioparen die diverse real-world scènes en camerarotatietrajecten omvatten, opgebouwd via een semi-gestandaardiseerde pijplijn. Verder stellen we ViSAudio voor, een end-to-end raamwerk dat conditionele flow matching gebruikt met een dual-branch audiogeneratie-architectuur, waarin twee toegewijde takken de audio latente flows modelleren. Geïntegreerd met een conditionele ruimtetijdmodule, balanceert het de consistentie tussen kanalen terwijl onderscheidende ruimtelijke kenmerken behouden blijven, waardoor een precieze spatio-temporele uitlijning tussen audio en de invoervideo wordt gegarandeerd. Uitgebreide experimenten tonen aan dat ViSAudio superieur presteert ten opzichte van bestaande state-of-the-art methoden in zowel objectieve metrieken als subjectieve evaluaties, en hoogwaardige binaurale audio genereert met ruimtelijke immersie die effectief adapteert aan viewpointveranderingen, geluidsbronbeweging en diverse akoestische omgevingen. Projectwebsite: https://kszpxxzmc.github.io/ViSAudio-project.
Recente vooruitgang in videogrote-taalmodellen heeft sterke capaciteiten getoond voor het begrijpen van korte clips. Het opschalen ervan naar video's van uren of dagen blijft echter zeer uitdagend vanwege beperkte contextcapaciteit en het verlies van kritieke visuele details tijdens abstractie. Bestaande, met geheugen versterkte methoden verlichten dit door gebruik te maken van tekstuele samenvattingen van videosegmenten, maar ze zijn sterk afhankelijk van tekst en slagen er niet in visueel bewijsmateriaal te benutten bij het redeneren over complexe scènes. Bovendien beperkt het ophalen van informatie uit vaste temporele schalen hun flexibiliteit verder bij het vastleggen van gebeurtenissen die variabele tijdsduren beslaan. Om dit aan te pakken, introduceren we WorldMM, een nieuwe multimodale geheugenagent die meerdere complementaire geheugens aanmaakt en raadpleegt, zowel tekstuele als visuele representaties omvattend. WorldMM bestaat uit drie soorten geheugen: episodisch geheugen indexeert feitelijke gebeurtenissen over meerdere temporele schalen, semantisch geheugen werkt continu hoogwaardige conceptuele kennis bij, en visueel geheugen bewaart gedetailleerde informatie over scènes. Tijdens inferentie selecteert een adaptieve ophaalagent iteratief de meest relevante geheugenbron en benut hij meerdere temporele granulariteiten op basis van de query, waarbij hij doorgaat totdat hij bepaalt dat voldoende informatie is verzameld. WorldMM presteert aanzienlijk beter dan bestaande baseline-methoden op vijf benchmarks voor vraagbeantwoording over lange video's, met een gemiddelde prestatieverbetering van 8,4% ten opzichte van eerdere state-of-the-art methoden, wat de effectiviteit ervan aantoont voor redeneren over lange video's.
Vision-language-action (VLA)-modellen hebben opmerkelijke capaciteiten getoond bij robotmanipulatie, maar hun prestaties zijn gevoelig voor de actiebroklengte (horizon) die tijdens de training wordt gebruikt. Onze empirische studie onthult een inherente afweging: langere horizons bieden een sterker globaal vooruitzicht maar verslechteren de fijnmazige nauwkeurigheid, terwijl kortere horizons de lokale controle aanscherpen maar moeite hebben met langetermijntaken. Dit impliceert dat een vaste keuze voor een enkele horizon suboptimaal is. Om deze afweging te mitigeren, stellen we een mixture of horizons (MoH)-strategie voor. MoH herstructureert de actiebrok in verschillende segmenten met verschillende horizons, verwerkt deze parallel met een gedeelde actie-transformer en fuseert de uitvoeren met een lichtgewicht lineaire poort. Het heeft drie aantrekkelijke voordelen. 1) MoH benut zowel langetermijnvooruitzicht als kortetermijnprecisie gezamenlijk binnen één model, wat zowel de prestaties als de generaliseerbaarheid naar complexe taken verbetert. 2) MoH is plug-and-play voor actiemodules met volledige aandacht (full-attention) met minimale training- of inferentie-overhead. 3) MoH maakt dynamische inferentie met adaptieve horizons mogelijk, die stabiele acties selecteert via consensus tussen horizons, wat een 2,5 keer hogere doorvoer bereikt dan de baseline-methoden terwijl superieure prestaties behouden blijven. Uitgebreide experimenten met op stroming gebaseerde beleidsfuncties π_0, π_{0,5} en een één-stap regressiebeleid π_{reg} tonen aan dat MoH consistente en significante verbeteringen oplevert bij zowel simulaties als taken in de echte wereld. Opmerkelijk is dat π_{0,5} met MoH onder een gemengde taakopzet een nieuwe state-of-the-art bereikt met een gemiddeld slagingspercentage van 99% op LIBERO na slechts 30k trainingsiteraties. Projectpagina: https://github.com/Timsty1/MixtureOfHorizons
Kwantisatie naar lage bitbreedtes is een standaardaanpak voor het implementeren van grote taalmodel(len), maar een paar extreme gewichten en activaties vergroten het dynamisch bereik en verminderen de effectieve resolutie van de kwantiseerder. Een gebruikelijke oplossingsstrategie is het toepassen van vaste orthogonale transformaties, zoals Hadamard-matrices, vóór de kwantisatie, wat doorgaans het dynamisch bereik verkleint. Deze transformaties houden echter geen rekening met de statistieken van de data, en hun optimaliteit is momenteel niet begrepen. In dit werk leiden we voor het eerst gesloten, optimale lineaire blokgewijze transformaties af voor gezamenlijke gewichts-activeringskwantisatie met behulp van standaard data-vrije kwantiseerders voor veelvoorkomende numerieke formaten. Specifiek presenteren we afleidingen van de optimale adaptieve (data-afhankelijke) transformaties voor 'round-to-nearest' (RTN) en AbsMax-geschaalde blokkwantiseerders voor zowel integer- als floating-point-formaten. De resulterende constructie, die we WUSH noemen, combineert een Hadamard-backbone met een data-afhankelijke component gebaseerd op tweede-ordemomenten, wat resulteert in een niet-orthogonale transformatie die onder milde aannames bewezen optimaal is en gestructureerd blijft voor efficiënte implementatie. Eerste experimentele resultaten tonen aan dat onze aanpak consequent verbetert ten opzichte van de Hadamard-transformatie voor gangbare formaten.
Latent-space-modellering is de standaardbenadering voor Diffusion Transformers (DiT's). Deze methode berust echter op een tweestaps pijplijn waarbij de vooraf getrainde auto-encoder een verliesgevende reconstructie introduceert, wat leidt tot foutaccumulatie en gezamenlijke optimalisatie belemmert. Om deze problemen aan te pakken, stellen we PixelDiT voor, een eentraps, end-to-end model dat de auto-encoder overbodig maakt en het diffusieproces rechtstreeks in de pixelruimte aanleert. PixelDiT hanteert een volledig op transformers gebaseerde architectuur met een tweeledig ontwerp: een patch-level DiT die globale semantiek vastlegt en een pixel-level DiT die textuurdetails verfijnt, waardoor efficiënte training van een pixelruimte-diffusiemodel mogelijk wordt terwijl fijne details behouden blijven. Onze analyse toont aan dat effectieve modellering van pixel-level tokens essentieel is voor het succes van pixeldiffusie. PixelDiT behaalt een FID van 1.61 op ImageNet 256x256, waarmee het bestaande pixelgeneratieve modellen met een grote marge overtreft. We breiden PixelDiT verder uit naar tekst-naar-beeldgeneratie en pretrainen het op een resolutie van 1024x1024 in de pixelruimte. Het behaalt 0.74 op GenEval en 83.5 op DPG-bench, waarmee het de beste latent-diffusiemodellen benadert.
Recente audio-videogeneratieve systemen suggereren dat de koppeling van modaliteiten niet alleen ten goede komt aan audio-videosynchronisatie, maar ook aan de videomodaliteit zelf. Wij stellen een fundamentele vraag: Verbetert gezamenlijke audio-video denoisingtraining de videogeneratie, zelfs wanneer we alleen in videokwaliteit geïnteresseerd zijn? Om dit te onderzoeken, introduceren we een parameter-efficiënte Audio-Video Full DiT (AVFullDiT)-architectuur die gebruikmaakt van vooraf getrainde tekst-naar-video (T2V) en tekst-naar-audio (T2A) modules voor gezamenlijke denoising. We trainen (i) een T2AV-model met AVFullDiT en (ii) een uitsluitend T2V-equivalent onder identieke omstandigheden. Onze resultaten leveren het eerste systematische bewijs dat gezamenlijke audio-video denoising meer kan opleveren dan alleen synchronisatie. We observeren consistente verbeteringen op uitdagende subsets met grote bewegingen en objectcontact. Wij veronderstellen dat het voorspellen van audio fungeert als een geprivilegieerd signaal, dat het model aanmoedigt om causale relaties tussen visuele gebeurtenissen en hun akoestische gevolgen te internaliseren (bijvoorbeeld dat botsingstijden het geluid beïnvloeden), wat op zijn beurt de videodynamiek regulariseert. Onze bevindingen suggereren dat cross-modale cotraining een veelbelovende aanpak is voor de ontwikkeling van sterkere, meer fysiek gefundeerde wereldmodellen. Code en dataset zullen openbaar worden gemaakt.
Analogieën vormen de kern van het menselijk denken en zijn een belangrijke basis voor diverse intellectuele activiteiten. Hoewel eerder onderzoek heeft aangetoond dat grote taalmodelen (LLM's) taakpatronen en oppervlakkige concepten kunnen weergeven, is het nog onduidelijk of deze modellen hoogwaardige relationele concepten kunnen coderen en via gestructureerde vergelijkingen toepassen op nieuwe situaties. In dit werk onderzoeken we dit fundamentele aspect met behulp van proportionele en verhaalkundige analogieën, en identificeren we drie belangrijke bevindingen. Ten eerste coderen LLM's effectief de onderliggende relaties tussen analoge entiteiten; zowel attributieve als relationele informatie verspreidt zich door de midden- tot bovenste lagen bij correcte gevallen, terwijl denkfouten het ontbreken van relationele informatie in deze lagen weerspiegelen. Ten tweede hebben LLM's, anders dan mensen, vaak niet alleen moeite wanneer relationele informatie ontbreekt, maar ook bij pogingen deze toe te passen op nieuwe entiteiten. In dergelijke gevallen kan het strategisch bijwerken van verborgen representaties op cruciale tokenposities de informatieoverdracht tot op zekere hoogte vergemakkelijken. Tot slot wordt succesvolle analogische redenering in LLM's gekenmerkt door een sterke structurele afstemming tussen analoge situaties, terwijl mislukkingen vaak een verslechterde of verkeerde afstemming weerspiegelen. Over het geheel genomen tonen onze bevindingen aan dat LLM's opkomende maar beperkte capaciteiten vertonen in het coderen en toepassen van hoogwaardige relationele concepten, wat zowel parallellen als hiaten met de menselijke cognitie benadrukt.
Grote taalmodellen (LLM's) zijn in rap tempo geëvolueerd van tekstgeneratoren tot krachtige probleemoplossers. Toch vereisen veel open taken kritisch denken, multi-bronevaluatie en verifieerbare resultaten, wat verder gaat dan enkelvoudige prompting of standaard retrieval-augmented generation. Recentelijk hebben talrijke studies Deep Research (DR) onderzocht, dat als doel heeft de redeneervermogens van LLM's te combineren met externe tools, zoals zoekmachines, om zo LLM's in staat te stellen als onderzoeksagenten complexe, open-eindtaken te voltooien. Dit overzichtsartikel biedt een uitgebreid en systematisch overzicht van deep research-systemen, inclusief een duidelijke routekaart, fundamentele componenten, praktische implementatietechnieken, belangrijke uitdagingen en toekomstige richtingen. Specifiek zijn onze belangrijkste bijdragen als volgt: (i) we formaliseren een driestappen routekaart en onderscheiden deep research van verwante paradigma's; (ii) we introduceren vier kerncomponenten: queryplanning, informatieverwerving, geheugenbeheer en antwoordgeneratie, elk voorzien van fijnmazige sub-taxonomieën; (iii) we vatten optimalisatietechnieken samen, waaronder prompting, supervised fine-tuning en agentic reinforcement learning; en (iv) we consolideren evaluatiecriteria en open uitdagingen, met als doel toekomstige ontwikkeling te begeleiden en te vergemakkelijken. Aangezien het vakgebied van deep research zich snel blijft ontwikkelen, zijn wij vastberaden dit overzicht continu bij te werken om de nieuwste voortgang op dit gebied te weerspiegelen.
In dit artikel presenteren wij CUDA-L2, een systeem dat grote taalmmodellen (LLM's) en reinforcement learning (RL) combineert om Half-precision General Matrix Multiply (HGEMM) CUDA-kernels automatisch te optimaliseren. Door de CUDA-uitvoersnelheid als RL-beloning te gebruiken, optimaliseert CUDA-L2 automatisch HGEMM-kernels over 1.000 configuraties. CUDA-L2 presteert systematisch beter dan de belangrijkste matmul-basislijnen tot op heden, van de veelgebruikte {\it torch.matmul} tot state-of-the-art gesloten bibliotheken van Nvidia, namelijk {\it cuBLAS} en {\it cuBLASLt}. In de offline modus, waar kernels opeenvolgend worden uitgevoerd zonder tijdsintervallen, behaalt CUDA-L2 gemiddeld een verbetering van +22,0\% ten opzichte van {\it torch.matmul}; +19,2\% ten opzichte van {\it cuBLAS} met de optimale layoutconfiguratie (normaal-normaal NN en getransponeerd-normaal TN); +16,8\% ten opzichte van {\it cuBLASLt-heuristic}, die de {\it cuBLASLt}-bibliotheek raadpleegt en het algoritme selecteert op basis van de suggestie van de heuristiek; en +11,4\% ten opzichte van het meest competitieve {\it cuBLASLt-AutoTuning}-model, dat het snelste algoritme selecteert uit maximaal 100 kandidaten uit de suggesties van {\it cuBLASLt}. In de servermodus, waar kernels met willekeurige tussenpozen worden uitgevoerd om real-time inferentie te simuleren, nemen de snelheidswinsten verder toe tot respectievelijk +28,7\%, +26,0\%, +22,4\% en +15,9\% voor {\it torch.matmul}, {\it cuBLAS}, {\it cuBLASLt-heuristic} en {\it cuBLASLt-AutoTuning}. CUDA-L2 toont aan dat zelfs de meest prestatiekritieke, zwaar geoptimaliseerde kernels zoals HGEMM kunnen worden verbeterd door LLM-gestuurde RL-automatisering, door configuratieruimtes op een schaal te verkennen die onpraktisch is voor mensen. Het project en de code zijn te vinden op github.com/deepreinforce-ai/CUDA-L2.
Vision-Language-Action (VLA)-modellen die zijn getraind met flow matching hebben indrukwekkende prestaties getoond bij robotmanipulatietaken. Hun prestaties verslechteren echter vaak onder distributieverschuiving en bij complexe meerstappentaken, wat suggereert dat de geleerde representaties mogelijk niet robuust taakrelevante semantiek vastleggen. Wij introduceren DiG-Flow, een principieel raamwerk dat de robuustheid van VLA verbetert door geometrische regularisatie. Onze belangrijkste inzicht is dat de distributionele discrepantie tussen observatie- en actie-embeddings een betekenisvol geometrisch signaal levert: een lagere transportkost duidt op compatibele representaties, terwijl een hogere kost potentiële uitlijningfouten suggereert. DiG-Flow berekent een discrepantiemaat tussen de empirische verdelingen van observatie- en actie-embeddings, vertaalt deze via een monotone functie naar een modulatiegewicht, en past residuele updates toe op de observatie-embeddings vóór flow matching. Cruciaal is dat deze interventie opereert op representatieniveau zonder het flow matching-pad of het target-vectorveld aan te passen. Wij bieden theoretische garanties die aantonen dat discrepantie-gestuurd trainen het trainingsobjectief aantoonbaar verlaagt, en dat gestuurde inferentieverfijning convergeert met contractie. Empirisch gezien integreert DiG-Flow in bestaande VLA-architecturen met verwaarloosbare overhead en verbetert het consistent de prestaties, met bijzonder uitgesproken winst op complexe meerstappentaken en onder beperkte trainingsdata.
Recente vooruitgang in videogeneratie heeft de synthese van video's met sterke temporele consistentie en indrukwekkende visuele kwaliteit mogelijk gemaakt, wat een cruciale stap betekent richting visuele foundation-modellen. Om deze videogeneratiemodellen te evalueren, richten bestaande benchmarks zich voornamelijk op factoren gerelateerd aan visuele perceptie en begrip, zoals visuele esthetiek, instructienaleving en temporele coherentie. De op regels gebaseerde redeneervaardigheden van videogeneratiemodellen blijven echter grotendeels ononderzocht. Hoewel recente studies voorlopige verkenningen hebben uitgevoerd naar de vraag of videomodellen kunnen dienen als zero-shot learners, ontbreekt het hen nog steeds aan een fijnmazige decompositie van redeneervaardigheden en een uitgebreid evaluatieprotocol. Om deze leemte op te vullen, introduceren we RULER-Bench, een benchmark ontworpen om de redeneervaardigheid van videogeneratiemodellen te evalueren vanuit het perspectief van cognitieve regels. Gebaseerd op twee fundamentele paradigma's – tekst-naar-video en beeld-naar-video – omvat RULER-Bench 40 representatieve taken verspreid over zes regelcategorieën met 622 hoogwaardig geannoteerde instanties. Voor de evaluatie van elke gegenereerde video construeren we een checklist met vier metrieken en benutten we GPT-4o om scores toe te kennen aan elke vraag, waarbij 85% overeenstemming met menselijke beoordelingen wordt bereikt. Uitgebreide experimenten tonen aan dat het state-of-the-art model slechts 48,87% behaalt op de regelcoherentiemetriek, wat duidt op aanzienlijke verbeteringsmogelijkheden in de redeneervaardigheid van videomodellen van het volgende niveau. We verwachten dat de inzichten verkregen uit RULER-Bench de verdere ontwikkeling van reasoning-aware videogeneratie zullen vergemakkelijken, en videogeneratiemodellen richting vision foundation intelligence zullen voortstuwen.
Tabelherkenning (TR) heeft als doel om tabelafbeeldingen om te zetten in semi-gestructureerde representaties, zoals HTML of Markdown. Als kernonderdeel van documentparsing heeft TR lange tijd vertrouwd op supervised learning, waarbij recente inspanningen worden gedomineerd door het fine-tunen van vision-language modellen (VLM's) met gelabelde data. Hoewel VLM's TR naar een hoger niveau hebben getild, vereist het verder opvoeren van de prestaties grootschalige gelabelde data die kostbaar is om te verkrijgen. Hierdoor lopen open-source modellen, die vaak met beperkte middelen worden getraind en in de praktijk voor velen de enige haalbare optie zijn vanwege privacyregelgeving, nog ver achter op propriëtaire modellen die de prestatiegrens continu verleggen. Om deze kloof te overbruggen, introduceren we TRivia, een zelfgesuperviseerde fine-tuning methode die voorgetrainde VLM's in staat stelt om TR rechtstreeks te leren van ongelabelde tabelafbeeldingen uit de praktijk. Gebaseerd op Group Relative Policy Optimization, identificeert TRivia automatisch ongelabelde samples die het leren het meest effectief faciliteren en elimineert het de noodzaak voor menselijke annotaties via een op vraag-antwoord gebaseerd beloningsmechanisme. Een op aandacht geleide module genereert diverse vragen voor elke tabelafbeelding, en het vermogen om de herkenningsresultaten te interpreteren en deze correct te beantwoorden, geeft feedback om het TR-model te optimaliseren. Dit gesloten proces stelt het TR-model in staat om autonoom te leren tabellen te herkennen, structureren en redeneren zonder gelabelde data. Gebruikmakend van deze pijplijn, presenteren we TRivia-3B, een open-source, compact en state-of-the-art TR-model dat superieure prestaties levert ten opzichte van bestaande systemen (zoals Gemini 2.5 Pro, MinerU2.5) op drie populaire benchmarks. Model en code zijn vrijgegeven op: https://github.com/opendatalab/TRivia
Wij presenteren MagicQuill V2, een nieuw systeem dat een gelaagd compositieparadigma introduceert voor generatieve beeldbewerking, en zo de kloof overbrugt tussen de semantische kracht van diffusiemodellen en de gedetailleerde controle van traditionele grafische software. Hoewel diffusietransformers uitblinken in holistische generatie, faalt hun gebruik van enkelvoudige, monolithische prompts om onderscheiden gebruikersintenties voor inhoud, positie en uiterlijk te ontwarren. Om dit te overwinnen, deconstrueert onze methode creatieve intentie in een stapel van controleerbare visuele aanwijzingen: een inhoudslaag voor *wat* er gecreëerd moet worden, een ruimtelijke laag voor *waar* het geplaatst moet worden, een structurele laag voor *hoe* het gevormd is, en een kleurlaag voor het palet. Onze technische bijdragen omvatten een gespecialiseerde pijplijn voor datageneratie voor contextbewuste integratie van inhoud, een uniforme controlemodule om alle visuele aanwijzingen te verwerken, en een verfijnde ruimtelijke tak voor precieze lokale bewerking, inclusief objectverwijdering. Uitgebreide experimenten valideren dat deze gelaagde aanpak de kloof in gebruikersintentie effectief oplost, waardoor makers directe, intuïtieve controle over het generatieve proces krijgen.
Wij onderzoeken hoe verschillende Chain-of-Thought (CoT) ontwerpen de verwerving van generaliseerbare visuele redeneervaardigheid in visie-taalmodellen (VLM's) beïnvloeden. Hoewel CoT-data, met name lange of visuele CoT zoals 'denken met beeld', veelvuldig worden gebruikt om tussenliggende redenering te superviseren, is het onduidelijk waarom specifieke CoT-ontwerpen helpen en welke daadwerkelijk generaliseerbaar redeneren ondersteunen. Om dit systematisch te evalueren, richten we ons op een gecontroleerd doolhof-oplossend benchmark waarbij de redeneerregels volledig visueel zijn, de moeilijkheidsgraad kan worden afgestemd via rastergrootte, en alle tussenstappen automatisch gegenereerd kunnen worden. Met Qwen2.5-VL-7B in een standaard SFT-then-RL pijplijn vergelijken we drie representatieve CoT-formaten: Taal-CoT, Grounding-CoT (met ruimtelijke coördinaattrajecten) en Visuele-CoT (met beeldmanipulaties). Onze experimenten tonen aan dat visuele en langere CoT voornamelijk de convergentie versnellen maar de uiteindelijke prestatieplafonds niet verhogen; beknopte CoT die alleen essentiële grounding-stappen bevat presteert beter dan langere sporen; en, opvallend genoeg, generaliseert CoT die alleen de minimale grounding-resultaten behoudt het beste over verschillende doolhofgroottes. Wij valideren deze inzichten verder op andere visie-centrische taken. Deze bevindingen benadrukken een "kort is lang" effect en bieden praktische richtlijnen voor het construeren van meer generaliseerbare SFT-datasets voor visueel redeneren.
Physical AI streeft naar de ontwikkeling van modellen die real-world dynamiek kunnen waarnemen en voorspellen; echter, de mate waarin huidige multimodale large language modellen en videogeneratieve modellen deze vaardigheden ondersteunen, is onvoldoende begrepen. Wij introduceren Physical AI Bench (PAI-Bench), een uniforme en uitgebreide benchmark die waarnemings- en voorspellingscapaciteiten evalueert op het gebied van videogeneratie, conditionele videogeneratie en videobegrip. De benchmark omvat 2.808 real-world gevallen met taakgerichte metrieken die zijn ontworpen om fysieke plausibiliteit en domeinspecifiek redeneren vast te leggen. Onze studie biedt een systematische evaluatie van recente modellen en toont aan dat videogeneratieve modellen, ondanks sterke visuele geloofwaardigheid, vaak moeite hebben om fysiek coherente dynamiek te behouden, terwijl multimodale large language modellen beperkte prestaties vertonen in voorspelling en causale interpretatie. Deze observaties suggereren dat huidige systemen zich nog in een vroeg stadium bevinden wat betreft het omgaan met de waarnemings- en voorspellingsvereisten van Physical AI. Samenvattend legt PAI-Bench een realistische basis voor de evaluatie van Physical AI en benadrukt het cruciale tekortkomingen die toekomstige systemen moeten aanpakken.
Wij onderzoeken of videogeneratieve modellen visuospatiale intelligentie kunnen vertonen – een vermogen dat centraal staat in de menselijke cognitie – uitsluitend gebruikmakend van visuele data. Hiertoe presenteren we Video4Spatial, een raamwerk dat aantoont dat videodiffusiemodellen, uitsluitend getraind op op video gebaseerde context, complexe ruimtelijke taken kunnen uitvoeren. We valideren dit aan de hand van twee taken: scènenavigatie – het volgen van camerapose-instructies terwijl consistent wordt gebleven met de 3D-geometrie van de scène – en objectlokalisatie, wat semantische lokalisatie, instructievolging en planning vereist. Beide taken gebruiken uitsluitend video-input, zonder aanvullende modaliteiten zoals diepte-informatie of poses. Door eenvoudige maar effectieve ontwerpkeuzes in het raamwerk en datacuratie demonstreert Video4Spatial een sterk ruimtelijk begrip vanuit videocontext: het plant navigatie en lokaliseert doelobjecten end-to-end, volgt camerapose-instructies terwijl ruimtelijke consistentie behouden blijft, en generaliseert naar lange contexten en omgevingen buiten de trainingsdistributie. Gezamenlijk zetten deze resultaten videogeneratieve modellen een stap verder in de richting van algemeen visuospatieel redeneren.
Hoewel door LLM/VLM aangedreven AI-agenten snel zijn gevorderd op gebieden zoals wiskunde, programmeren en computergebruik, blijven hun toepassingen in complexe fysieke en sociale omgevingen uitdagend. Het bouwen van agenten die kunnen overleven en gedijen in de echte wereld (bijvoorbeeld door autonoom inkomen te genereren of een bedrijf te runnen) vereist grootschalige interactie, redenering, training en evaluatie in uiteenlopende belichaamde scenario's. Bestaande wereldsimulators voor dergelijke ontwikkeling schieten echter tekort: ze zijn vaak gebaseerd op beperkte handmatig gemaakte omgevingen, simuleren vereenvoudigde game-achtige fysica en sociale regels, en missen native ondersteuning voor LLM/VLM-agenten. Wij introduceren SimWorld, een nieuwe simulator gebouwd op Unreal Engine 5, ontworpen voor het ontwikkelen en evalueren van LLM/VLM-agenten in rijke, realistische omgevingen. SimWorld biedt drie kernmogelijkheden: (1) realistische, open-ended wereldsimulatie, inclusief accurate fysieke en sociale dynamiek en taalgestuurde procedurele omgevingsgeneratie; (2) een rijke interface voor LLM/VLM-agenten, met multimodale wereldinput en open-vocabulary acties op verschillende abstractieniveaus; en (3) diverse en uitbreidbare fysieke en sociale redeneerscenario's die eenvoudig door gebruikers kunnen worden aangepast. We demonstreren SimWorld door geavanceerde LLM-agenten (zoals GPT-4o, Gemini-2.5-Flash, Claude-3.5 en DeepSeek-Prover-V2) in te zetten voor langetermijn multi-agent bezorgtaken met strategische samenwerking en competitie. De resultaten onthullen duidelijke redeneerpatronen en beperkingen tussen modellen. We maken SimWorld open-source en hopen dat het een fundamenteel platform wordt voor het bevorderen van real-world agent-intelligentie across disciplines: https://simworld.org.
Vision-Language-Action (VLA)-modellen, gebouwd op vooraf getrainde Vision-Language Models (VLM's), tonen een groot potentieel, maar hun praktische inzetbaarheid wordt beperkt door het grote aantal parameters. Om dit probleem te verlichten, is het gebruik van een lichtgewicht VLM onderzocht, maar dit gaat ten koste van spatiotemporeel redeneervermogen. Hoewel sommige methoden suggereren dat het incorporeren van aanvullende 3D-input kan helpen, zijn deze meestal afhankelijk van grote VLM's om 3D- en 2D-input te fuseren en ontbreekt het hen nog steeds aan temporeel begrip. Daarom stellen wij SwiftVLA voor, een architectuur die een compact model versterkt met 4D-begrip, terwijl de ontwerp efficiëntie behouden blijft. Concreet kenmerkt onze aanpak zich door een vooraf getrainde 4D-visuele geometrie-transformer met een tijdelijke cache die 4D-features uit 2D-beelden extraheert. Vervolgens introduceren we, om het vermogen van de VLM om zowel 2D-beelden als 4D-features te benutten te verbeteren, Fusion Tokens: een set leerbare tokens die getraind zijn met een toekomstvoorspellingsdoel om verenigde representaties voor actiegeneratie te produceren. Ten slotte introduceren we een masker-en-reconstrueer strategie die 4D-input naar de VLM maskeert en de VLA traint om deze te reconstrueren. Hierdoor kan de VLM effectieve 4D-representaties leren en kan de 4D-tak tijdens de inferentie worden weggelaten met minimaal prestatieverlies. Experimenten in reële en gesimuleerde omgevingen tonen aan dat SwiftVLA lichtgewicht baseline-modellen overtreft en kan concurreren met VLA's die tot 7 keer groter zijn. Het bereikt vergelijkbare prestaties op edge-apparaten, terwijl het 18 keer sneller is en de geheugenvoetafdruk met 12 keer vermindert.
Hoewel diffusiemodellen voor audiogestuurde avatarvideogeneratie aanzienlijke vooruitgang hebben geboekt in het synthetiseren van lange sequenties met natuurlijke audio-visuele synchronisatie en identiteitsconsistentie, blijft de generatie van muziekuitvoeringsvideo's met camerabewegingen grotendeels onontgonnen gebied. Wij presenteren YingVideo-MV, het eerste gecascadeerde framework voor muziekgestuurde lange-videogeneratie. Onze aanpak integreert audio-semantische analyse, een interpreteerbare shotplanningsmodule (MV-Director), temporeel-bewuste diffusie-Transformer-architecturen en modellering van lange-sequentieconsistentie om automatische synthese van hoogwaardige muziekuitvoeringsvideo's vanuit audiosignalen mogelijk te maken. We construeren een grootschalige Music-in-the-Wild-dataset door webdata te verzamelen om diverse, hoogkwalitatieve resultaten te ondersteunen. Omdat we observeerden dat bestaande methoden voor lange-videogeneratie expliciete camerabewegingscontrole missen, introduceren we een camera-adaptermodule die cameraposes in latente ruis inbedt. Om de continuïteit tussen clips tijdens lange-sequentie-inferentie te verbeteren, stellen we verder een tijd-bewuste dynamische vensterbereikstrategie voor die denoiseringsbereiken adaptief aanpast op basis van audio-embedding. Uitgebreide benchmarktests tonen aan dat YingVideo-MV uitstekende prestaties levert in het genereren van coherente en expressieve muziekvideo's, en precieze muziek-beweging-camera-synchronisatie mogelijk maakt. Meer video's zijn beschikbaar op onze projectpagina: https://giantailab.github.io/YingVideo-MV/.
Wij introduceren Ovis-Image, een 7B tekst-naar-beeld model specifiek geoptimaliseerd voor hoogwaardige tekstweergave, ontworpen om efficiënt te functioneren onder strikte computationele beperkingen. Gebouwd op ons eerdere Ovis-U1 raamwerk, integreert Ovis-Image een op diffusie gebaseerde visuele decoder met de sterkere Ovis 2.5 multimodale backbone, gebruikmakend van een tekstgerichte trainingspijplijn die grootschalige pre-training combineert met zorgvuldig afgestemde post-training verfijningen. Ondanks zijn compacte architectuur bereikt Ovis-Image tekstweergaveprestaties die vergelijkbaar zijn met aanzienlijk grotere open modellen zoals Qwen-Image en benadert het closed-source systemen zoals Seedream en GPT4o. Cruciaal is dat het model inzetbaar blijft op een enkele high-end GPU met beperkt geheugen, waardoor de kloof tussen topniveau tekstweergave en praktische implementatie wordt verkleind. Onze resultaten tonen aan dat het combineren van een sterke multimodale backbone met een zorgvuldig ontworpen, tekstgericht trainingsrecept voldoende is om betrouwbare tweetalige tekstweergave te bereiken zonder toevlucht te nemen tot overgedimensioneerde of propriëtaire modellen.
Het genereren van minutenlange video's is een cruciale stap in de ontwikkeling van wereldmodellen, en vormt de basis voor realistische uitgebreide scènes en geavanceerde AI-simulators. Het opkomende semi-autoregressieve paradigma (block diffusion) combineert de sterke punten van diffusie- en autoregressieve modellen, waardoor videogeneratie van willekeurige lengte mogelijk wordt en de inferentie-efficiëntie verbetert via KV-caching en parallelle sampling. Desalniettemin kampt het met twee hardnekkige uitdagingen: (i) foutaccumulatie over lange tijdshorizons veroorzaakt door KV-caching, en (ii) het ontbreken van fijnmazige benchmarks voor lange video's en coherentiebewuste metrieken. Om deze beperkingen te overwinnen, presenteren we BlockVid, een nieuw block diffusion-framework voorzien van semantisch-bewuste sparse KV-cache, een effectieve trainingsstrategie genaamd Block Forcing, en specifieke chunk-gewijze noise scheduling en shuffling om foutpropagatie te verminderen en temporele consistentie te verbeteren. We introduceren verder LV-Bench, een fijnmazige benchmark voor minutenlange video's, voorzien van nieuwe metrieken die lange-afstandscoherentie evalueren. Uitgebreide experimenten op VBench en LV-Bench tonen aan dat BlockVid consistent superieure prestaties levert bij het genereren van hoogwaardige, coherente minutenlange video's. Het behaalt met name een verbetering van 22,2% op VDE Subject en 19,4% op VDE Clarity in LV-Bench ten opzichte van state-of-the-art methoden. Projectwebsite: https://ziplab.co/BlockVid. Inferix (Code): https://github.com/alibaba-damo-academy/Inferix.
Tegenwoordig kunnen mensen eenvoudig gedenkwaardige momenten vastleggen, zoals concerten, sportevenementen, lezingen, familiebijeenkomsten en verjaardagsfeestjes, met behulp van meerdere consumentencamera's. Het synchroniseren van deze beelden van verschillende camera's blijft echter een uitdaging. Bestaande methoden gaan uit van gecontroleerde omstandigheden, specifieke doelen, handmatige correctie of dure hardware. Wij presenteren VisualSync, een optimalisatiekader gebaseerd op multi-view dynamica dat niet-geposeerde, niet-gesynchroniseerde video's uitlijnt met een nauwkeurigheid van milliseconden. Onze belangrijkste inzicht is dat elk bewegend 3D-punt, wanneer het zichtbaar is in twee camera's, epipolar constraints volgt zodra het correct gesynchroniseerd is. Om dit te benutten, maakt VisualSync gebruik van kant-en-klare 3D-reconstructie, kenmerkenmatching en dichte tracking om tracklets, relatieve poses en cross-view correspondenties te extraheren. Vervolgens minimaliseert het gezamenlijk de epipolar fout om de tijdsverschuiving van elke camera te schatten. Experimenten op vier diverse, uitdagende datasets tonen aan dat VisualSync de baseline-methoden overtreft, met een mediane synchronisatiefout van minder dan 50 ms.
3D-reconstructie op basis van meerdere beelden is een centrale uitdaging in de computer vision. Recent zijn feed-forward-methoden naar voren gekomen als efficiënte en robuuste alternatieven voor traditionele, per-scène optimalisatietechnieken. Onder hen benutten state-of-the-art modellen zoals de Visual Geometry Grounding Transformer (VGGT) volledige zelf-attentie over alle beeldtokens om globale relaties vast te leggen. Deze aanpak heeft echter een slechte schaalbaarheid vanwege de kwadratische complexiteit van zelf-attentie en het grote aantal tokens dat gegenereerd wordt in lange beeldsequenties. In dit werk introduceren we FlashVGGT, een efficiënt alternatief dat dit knelpunt aanpakt via een op descriptoren gebaseerd aandachtmechanisme. In plaats van dichte globale aandacht toe te passen op alle tokens, comprimeert FlashVGGT ruimtelijke informatie van elk frame in een compacte set descriptortokens. Globale aandacht wordt vervolgens berekend als kruis-attentie tussen de volledige set beeldtokens en deze kleinere descriptorset, wat de rekenkosten aanzienlijk verlaagt. Bovendien stelt de compactheid van de descriptors online-inferentie over lange sequenties mogelijk via een chunk-recursief mechanisme dat eerder gecachte descriptors hergebruikt. Experimentele resultaten tonen aan dat FlashVGGT een reconstructienauwkeurigheid bereikt die vergelijkbaar is met VGGT, terwijl de inferentietijd wordt teruggebracht tot slechts 9,3% van die van VGGT voor 1.000 beelden, en efficiënt schaalt naar sequenties van meer dan 3.000 beelden. Onze projectpagina is beschikbaar op https://wzpscott.github.io/flashvggt_page/.
Autoregressieve (AR) taalmodellen en Diffusion Language Models (DLM's) vormen de twee belangrijkste paradigma's van grote taalmodellen. Beide paradigma's hebben echter te kampen met onvoldoende redeneervermogen. Menselijk redeneren berust van nature op causaal weten en denken, wat zich weerspiegelt in natuurlijke taal. Maar in het AR-paradigma wordt taal gemodelleerd als voorspelling van het volgende token (een strikt links-naar-rechts, token-voor-token volgorde), terwijl natuurlijke taal zelf flexibelere causale structuren vertoont. In het DLM-paradigma is het attention-mechanisme volledig verbonden, wat de causale volgorde volledig negeert. Om deze kloof te dichten, stellen wij een **C**ausaal **C**oncept-Gestuurd **D**iffusie **T**aal**m**odel (C²DLM) voor. Uitgaande van de volledig verbonden attention van DLM's, verkrijgt C²DLM eerst een causaal graaf op conceptniveau van het leraarmodel, en leidt vervolgens de attention expliciet om causale relaties tussen concepten aan te leren. Door zich te richten op causale relaties en interferentie van moeilijke subdoelen met causale inversie te vermijden, verbetert C²DLM met 12% bij een ongeveer 3,2 keer snellere trainingssnelheid in de COT-OrderPerturb-taak, en behaalt het een gemiddelde winst van 1,31% over zes downstream redeneertaken. Meer details in de repository ~https://github.com/Kairong-Han/C-2-DLM{hier}.
Gemaskerde diffusie-taalmmodellen (MDLM's) zijn recent naar voren gekomen als een veelbelovend alternatief voor autoregressieve taalmmodellen (ARLM's). Zij maken gebruik van een denoiseringsdoelstelling die in principe een gelijkmatigere gebruik van context zou moeten mogelijk maken. In dit werk onderzoeken we het contextbegrip van MDLM's en leggen we twee belangrijke beperkingen bloot. Ten eerste vertonen MDLM's, ondanks hun meer globale trainingsdoelstelling en bidirectioneel aandachtmechanisme, net als ARLM's een sterke lokaliteitsvooringenomenheid: de prestaties zijn zeer gevoelig voor de positie van relevante informatie binnen de invoer, waarbij lokale context de voorkeur geniet boven verre context. Ten tweede tonen we aan dat het toevoegen van een groot aantal maskertokens—die nodig zijn voor generatie—het contextbegrip aanzienlijk kan verslechteren. Door middel van systematische ablatiestudies constateren we dat deze maskers fungeren als afleiders, wat het vermogen van het model om relevante informatie te verwerken vermindert. Om dit aan te pakken, introduceren we een masker-agnostische verliesfunctie die voorspellingen aanmoedigt invariant te blijven voor het aantal toegevoegde maskers. Fine-tuning met dit doel vermindert het afleidende effect van maskers aanzienlijk en verbetert de robuustheid van MDLM's. Over het geheel genomen onthullen onze bevindingen kritieke beperkingen van het huidige MDLM-trainingsparadigma en bieden ze bruikbare inzichten voor het bouwen van diffusiegebaseerde taalmmodellen met een sterker contextbegrip.
Agentische vision-language-modellen worden steeds vaker getraind om te "denken met beelden" door beeldoperaties aan te roepen. Wij tonen echter aan dat een hoge nauwkeurigheid van het eindantwoord vaak onbetrouwbaar visueel redeneren verbergt: modellen kunnen tools aanroepen op irrelevante regio's of tooluitkomsten volledig negeren, en toch het juiste antwoord raden. In dit werk stellen we eerst een evaluatieprotocol voor betrouwbaarheid voor dat meet of tussenliggende visuele tooluitkomsten (bijv. uitsneden) daadwerkelijk het opgevraagde bewijs bevatten. Dit onthult dat recente visuele agents weliswaar een hoge eindantwoordnauwkeurigheid bereiken, maar lage percentages van betrouwbaar toolgebruik vertonen op benchmarks voor visueel zoeken. Vervolgens introduceren we CodeV, een code-gebaseerde visuele agent getraind met Tool-Aware Policy Optimization (TAPO). TAPO is een RL-raamwerk op procesniveau dat GRPO uitbreidt met dichte beloningen die direct zijn gedefinieerd op visuele toolinputs en -outputs, in plaats van op chain-of-thought tokens, waardoor supervisie gemakkelijker te verifiëren is en minder vatbaar voor reward hacking. CodeV representeert visuele tools als uitvoerbare Python-code, en TAPO kent stapsgewijze beloningen toe uitsluitend gebaseerd op de vraag en tooloutput, wat zowel noodzakelijk als bewijsconsistent toolgebruik aanmoedigt. In een pijplijn met twee fasen (SFT+RL) bereikt CodeV een concurrerende of superieure nauwkeurigheid, terwijl het de percentages van betrouwbaar toolgebruik aanzienlijk verhoogt op gerelateerde benchmarks voor visueel zoeken. Naast visueel zoeken behaalt CodeV sterke prestaties op een reeks multimodale redeneer- en wiskundige benchmarks, wat suggereert dat expliciete supervisie van tussenliggend toolgedrag cruciaal is voor het bouwen van betrouwbare, agentische visuele redeneersystemen.
Geautomatiseerd stellingenbewijzen in de Euclidische meetkunde, met name voor problemen op het niveau van de Internationale Wiskunde Olympiade (IMO), blijft een grote uitdaging en een belangrijk onderzoeksfocus binnen de Kunstmatige Intelligentie. In dit artikel presenteren we een zeer efficiënte methode voor het bewijzen van meetkundestellingen die volledig op CPU's draait zonder gebruik te maken van op neurale netwerken gebaseerde inferentie. Onze eerste studie toont aan dat een eenvoudige willekeurige strategie voor het toevoegen van hulppunten een menselijke prestatie op zilverenmedaille-niveau van de IMO kan bereiken. Voortbouwend hierop stellen we HAGeo voor, een heuristiek-gebaseerde methode voor het toevoegen van hulpconstructies in meetkundige deductie, die 28 van de 30 problemen op de IMO-30 benchmark oplost. Hiermee bereikt het een prestatie op goudenmedaille-niveau en overtreft het AlphaGeometry, een competitieve op neurale netwerken gebaseerde aanpak, met een aanzienlijke marge. Om onze methode en bestaande benaderingen uitgebreider te evalueren, construeren we verder HAGeo-409, een benchmark bestaande uit 409 meetkundeproblemen met door mensen beoordeelde moeilijkheidsgraden. In vergelijking met de veelgebruikte IMO-30 biedt onze benchmark grotere uitdagingen en voorziet deze in een nauwkeurigere evaluatie, waarmee een hogere lat wordt gezet voor geautomatiseerd stellingenbewijzen in de meetkunde.
De volgende grens voor videogeneratie ligt in de ontwikkeling van modellen die in staat zijn tot zero-shot redeneren, waarbij begrip van wetenschappelijke wetten uit de echte wereld cruciaal is voor accurate modellering van fysieke uitkomsten onder diverse omstandigheden. Bestaande videobenchmarks zijn echter gebaseerd op gezond verstand over fysica en bieden beperkt inzicht in het wetenschappelijk redeneervermogen van videomodellen. Wij introduceren VideoScience-Bench, een benchmark ontworpen om begrip van wetenschap op bachelorniveau in videomodellen te evalueren. Elke prompt codeert een samengesteld wetenschappelijk scenario dat begrip en redenering over meerdere wetenschappelijke concepten vereist om het juiste fenomeen te genereren. De benchmark omvat 200 zorgvuldig samengestelde prompts verspreid over 14 onderwerpen en 103 concepten in natuurkunde en scheikunde. Wij voeren expert-geannoteerde evaluaties uit over zeven state-of-the-art videomodellen in T2V- en I2V-instellingen langs vijf dimensies: Promptconsistentie, Fenomeencongruentie, Correcte Dynamiek, Onveranderlijkheid en Ruimtelijk-temporele Continuïteit. Door een VLM-as-a-Judge te gebruiken om videogeneraties te beoordelen, observeren we een sterke correlatie met menselijke beoordelingen. Voor zover wij weten is VideoScience-Bench de eerste benchmark die videomodellen niet alleen evalueert als generators maar ook als reasoners, waarbij hun generaties wetenschappelijk begrip moeten demonstreren dat consistent is met verwachte fysieke en chemische fenomenen. Onze data en evaluatiecode zijn beschikbaar op: https://github.com/hao-ai-lab/VideoScience.
Het bewerken van portretvideo's is een uitdagende taak die flexibele maar precieze controle vereist over een breed scala aan wijzigingen, zoals uiterlijke veranderingen, expressie-aanpassingen of het toevoegen van objecten. De grootste moeilijkheid schuilt in het behouden van het oorspronkelijke temporele gedrag van het onderwerp, wat vereist dat elk bewerkt frame precies gesynchroniseerd blijft met het corresponderende bronframe. Wij presenteren Sync-LoRA, een methode voor het bewerken van portretvideo's die hoogwaardige visuele wijzigingen bereikt met behoud van frame-perfecte synchronisatie en identiteitsconsistentie. Onze aanpak gebruikt een image-to-video diffusiemodel, waarbij de bewerking wordt gedefinieerd door het eerste frame aan te passen en deze vervolgens naar de gehele sequentie door te voeren. Om nauwkeurige synchronisatie mogelijk te maken, trainen we een in-context LoRA met gepaarde video's die identieke bewegingspatronen vertonen maar verschillen in uiterlijk. Deze paren worden automatisch gegenereerd en geselecteerd via een op synchronisatie gebaseerd filterproces dat alleen de meest temporeel uitgelijnde voorbeelden voor training selecteert. Deze trainingsopzet leert het model om bewegingsinformatie uit de bronvideo te combineren met de visuele veranderingen die in het bewerkte eerste frame zijn aangebracht. Getraind op een compacte, zorgvuldig geselecteerde set gesynchroniseerde menselijke portretten, generaliseert Sync-LoRA naar onbekende identiteiten en diverse bewerkingen (bijvoorbeeld het aanpassen van uiterlijk, toevoegen van objecten of veranderen van achtergronden), waarbij het robuust omgaat met variaties in houding en expressie. Onze resultaten tonen een hoge visuele kwaliteit en sterke temporele coherentie, waardoor een robuuste balans wordt bereikt tussen bewerkingsgetrouwheid en precieze bewegingsoverdracht.
Met de snelle vooruitgang van krachtige multimodale modellen zoals GPT-4o, Nano Banana en Seedream 4.0 op het gebied van beeldbewerking, wordt de prestatiekloof tussen closed-source en open-source modellen groter. Dit komt voornamelijk door de schaarste aan grootschalige, hoogwaardige trainingsdata en uitgebreide benchmarks die modelzwaktes kunnen diagnosticeren bij diverse bewerkingsgedragingen. Bestaande methoden voor dataconstructie kampen met een schaal-kwaliteit-afweging: menselijke annotaties zijn hoogwaardig maar niet schaalbaar, terwijl geautomatiseerde pijplijnen lijden onder foutpropagatie en ruis. Om dit aan te pakken, introduceren we een lichtgewicht datapijplijn die multi-toolchains vervangt door een end-to-end model en een uniforme post-verificatiefase. Voor schaalbare kwaliteitscontrole trainen we een 7B dual-task expertmodel, Qwen-Verify, voor efficiënte foutdetectie en herschrijving van instructies. Deze pijplijn resulteert in UnicEdit-10M, een dataset van 10 miljoen items die diverse basale en complexe bewerkingstaken omspant. We stellen ook UnicBench voor, een algemene benchmark die verder gaat dan basisbewerkingen om expliciet ruimtelijk en kennisdrijvend redeneren te beoordelen. Om fijnmazige diagnose mogelijk te maken, introduceren we nieuwe metrieken, waaronder Non-edit Consistentie en Redeneernauwkeurigheid. Onze analyse van mainstream modellen op UnicBench onthult hun beperkingen en biedt duidelijke richtingen voor toekomstig onderzoek.
Met de snelle ontwikkeling van grootschalige visueel-taalkundige modellen verschuift de focus van grafische gebruikersinterface (GUI)-agenttaken van enkelvoudige schermtaken naar complexe schermnavigatie-uitdagingen. Echter, real-world GUI-omgevingen, zoals PC-software en mobiele apps, zijn vaak complex en propriëtair, waardoor het moeilijk is om de uitgebreide omgevingsinformatie te verkrijgen die nodig is voor agenttraining en -evaluatie. Deze beperking hindert een systematisch onderzoek en benchmarken van navigatiecapaciteiten van agents. Om deze beperking aan te pakken, introduceren wij GUI Exploration Lab, een simulatie-omgevingmotor voor GUI-agentnavigatieonderzoek die flexibele definitie en samenstelling van schermen, iconen en navigatiegrafen mogelijk maakt, terwijl volledige toegang tot omgevingsinformatie wordt geboden voor uitgebreide agenttraining en -evaluatie. Door middel van uitgebreide experimenten ontdekken wij dat supervised fine-tuning effectieve memorisatie van fundamentele kennis mogelijk maakt, wat dient als cruciale basis voor vervolgtraining. Hierop voortbordurend verbetert single-turn reinforcement learning de generalisatie naar onbekende scenario's verder. Ten slotte stimuleert multi-turn reinforcement learning de ontwikkeling van exploratiestrategieën door interactieve trial-and-error, wat leidt tot verdere verbeteringen in schermnavigatieprestaties. Wij valideren onze methoden op zowel statische als interactieve benchmarks, waarbij wordt aangetoond dat onze bevindingen effectief generaliseren naar real-world scenario's. Deze bevindingen demonstreren de voordelen van reinforcement learning-benaderingen bij GUI-navigatie en bieden praktische richtlijnen voor het bouwen van capabelere en beter generaliseerbare GUI-agents.
Grote multimodale modellen hebben aanzienlijke vooruitgang geboekt in zowel begrip als generatie. Recente inspanningen richten zich op verenigde multimodale modellen die heterogene componenten integreren om beide capaciteiten binnen één raamwerk te ondersteunen. Deze eenmaking introduceert echter inferentie-inefficiënties; specifieke taken of voorbeelden vereisen mogelijk niet de volledige kennis of capaciteit van het verenigde model. Een systematisch begrip van hoe deze inefficiënties zich manifesteren across verschillende componenten blijft echter beperkt. In dit werk voeren we eerst een systematische analyse uit van componenten van verenigde multimodale modellen met behulp van trainingsvrije pruning als onderzoeksmethode, waarbij we zowel depth-pruning als width-reductie overwegen. Onze studie toont aan dat de begripscomponent aanzienlijke comprimeerbaarheid vertoont bij zowel begrips- als generatietaken, wat meer uitgesproken is bij de laatste. Daarentegen zijn de generatiecomponenten zeer gevoelig voor compressie, waarbij de prestaties sterk verslechteren zelfs onder matige compressieverhoudingen. Om deze beperking aan te pakken, stellen we de Mixture-of-Experts (MoE)-adaptatie voor, geïnspireerd door de waargenomen dynamische activeringspatronen across verschillende voorbeelden. Deze aanpak verdeelt de generatiemodule in meerdere experts en maakt sparse activering mogelijk om de generatiekwaliteit te herstellen. We valideren de effectiviteit van sparse activering door expert- bevroren fine-tuning en tonen verder aan dat een volledig trainbare adaptatie extra winst oplevert. Hierdoor bereikt het aangepaste BAGEL-model prestaties vergelijkbaar met het volledige model terwijl slechts ongeveer de helft van zijn parameters wordt geactiveerd. De code is vrijgegeven op https://github.com/Shwai-He/SparseUnifiedModel.
Recente reinforcement learning-frameworks voor visueel-perceptiebeleid beginnen tussenliggende redeneerketens in natuurlijke taal te incorporeren. Empirische observaties tonen aan dat dergelijke puur linguïstische tussenredeneringen de prestaties op perceptietaken vaak verminderen. Wij beargumenteren dat het kernprobleem niet ligt in het redeneren zelf, maar in de vorm van de redenering: terwijl deze ketens semantisch redeneren in een ongestructureerde linguïstische ruimte, vereist visuele perceptie redeneren in een ruimtelijke en object-gecentreerde ruimte. Als antwoord hierop introduceren wij Artemis, een raamwerk voor het leren van perceptiebeleid dat gestructureerd, op voorstellen gebaseerd redeneren uitvoert, waarbij elke tussenstap wordt gerepresenteerd als een (label, begrenzingskader)-paar dat een verifieerbare visuele staat vastlegt. Dit ontwerp maakt expliciete tracking van tussenstaten mogelijk, direct toezicht op de kwaliteit van de voorstellen, en vermijdt de ambiguïteit die door op taal gebaseerd redeneren wordt geïntroduceerd. Artemis is gebouwd op Qwen2.5-VL-3B, behaalt sterke prestaties op taken voor grounding en detectie, en vertont aanzienlijke generalisatie naar taken voor tellen en geometrische perceptie. De consistente verbeteringen in deze uiteenlopende settings bevestigen dat het afstemmen van redenering op ruimtelijke representaties het leren van perceptiebeleid verbetert. Vanwege de versterkte visuele redeneervaardigheid behaalt Artemis ook competitieve prestaties op algemene MLLM-benchmarks, wat illustreert dat ruimtelijk verankerd redeneren een principiële route biedt naar schaalbare en algemene perceptiebeleidsregels.
De globalisering van het onderwijs en de snelle groei van online leren hebben het lokaliseren van educatieve content tot een cruciale uitdaging gemaakt. Lesmateriaal is van nature multimodaal: het combineert gesproken audio met visuele dia's, wat systemen vereist die meerdere invoermodaliteiten kunnen verwerken. Om een toegankelijke en complete leerervaring te bieden, moeten vertalingen alle modaliteiten behouden: tekst om te lezen, dia's voor visueel begrip en spraak voor auditief leren. Wij presenteren BOOM, een multimodale, meertalige lecture companion die lesaudio en -dia's gezamenlijk vertaalt om gesynchroniseerde uitvoer te produceren over drie modaliteiten: vertaalde tekst, gelokaliseerde dia's met behouden visuele elementen en gesynthetiseerde spraak. Deze end-to-end aanpak stelt studenten in staat om colleges in hun moedertaal te volgen, met als doel de originele content in zijn geheel te behouden. Onze experimenten tonen aan dat dia-bewuste transcripties ook cascaderende voordelen opleveren voor downstreamtaken zoals samenvatting en vraagbeantwoording. Wij geven onze Slide Translation-code vrij op https://github.com/saikoneru/image-translator en integreren deze in Lecture Translator op https://gitlab.kit.edu/kit/isl-ai4lt/lt-middleware/ltpipeline}\footnote{Alle vrijgegeven code en modellen zijn gelicentieerd onder de MIT-licentie.}
State-of-the-art Video Scene Graph Generation (VSGG)-systemen bieden een gestructureerd visueel begrip, maar functioneren als gesloten, voorwaartse pijplijnen zonder de mogelijkheid om menselijke begeleiding te incorporeren. Daarentegen maken promptbare segmentatiemodellen zoals SAM2 precieze gebruikersinteractie mogelijk, maar ontbreekt het hen aan semantisch of relationeel redeneervermogen. Wij introduceren Click2Graph, het eerste interactieve framework voor Panoptic Video Scene Graph Generation (PVSG) dat visuele prompting verenigt met ruimtelijk, temporeel en semantisch begrip. Vanuit een enkele gebruikersaanwijzing, zoals een klik of bounding box, segmenteert en volgt Click2Graph het onderwerp in de tijd, ontdekt autonoom interagerende objecten, en voorspelt <onderwerp, object, predikaat>-triples om een temporeel consistente scènegraaf te vormen. Ons framework introduceert twee kerncomponenten: een Dynamic Interaction Discovery Module die onderwerp-geconditioneerde objectprompts genereert, en een Semantic Classification Head die gezamenlijke entiteits- en predikaatredenering uitvoert. Experimenten op de OpenPVSG-benchmark tonen aan dat Click2Graph een sterke basis legt voor gebruikersgestuurde PVSG, en aantonen hoe menselijke prompting gecombineerd kan worden met panoptische grounding en relationele inferentie om een controleerbaar en interpreteerbaar video-scènebegrip mogelijk te maken.