Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Videofoundationmodellen genereren visueel realistische en temporeel coherente inhoud, maar hun betrouwbaarheid als wereldsimulators hangt af van of ze fysieke, logische en ruimtelijke beperkingen vastleggen. Bestaande metrieken zoals Frechet Video Distance (FVD) benadrukken perceptuele kwaliteit en negeren redeneerfouten, waaronder schendingen van causaliteit, fysica en globale consistentie. Wij introduceren MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark), een principieel evaluatieraamwerk gebaseerd op vijf redeneervaardigheden: Fysiek, Logisch, 3D-Ruimtelijk, 2D-Ruimtelijk en Temporeel. MMGR evalueert generatief redeneren in drie domeinen: Abstract Redeneren (ARC-AGI, Sudoku), Belichaamde Navigatie (navigatie en lokalisatie in de echte 3D-wereld) en Fysiek Gezond Verstand (sport en compositionele interacties). MMGR past fijnmazige metrieken toe die holistische correctheid vereisen voor zowel videogeneratie als beeldgeneratie. We testen toonaangevende videomodellen (Veo-3, Sora-2, Wan-2.2) en beeldmodellen (Nano-banana, Nano-banana Pro, GPT-4o-image, Qwen-image), wat aanzienlijke prestatiekloofjes tussen de domeinen aan het licht brengt. Modellen vertonen matig succes bij taken rond Fysiek Gezond Verstand, maar presteren slecht bij Abstract Redeneren (minder dan 10 procent nauwkeurigheid op ARC-AGI) en hebben moeite met ruimtelijke planning over lange termijn in belichaamde omgevingen. Onze analyse belicht belangrijke beperkingen in huidige modellen, waaronder overmatige afhankelijkheid van perceptuele data, zwakke consistentie van de globale staat, en doelstellingen die visuele geloofwaardigheid boven causale correctheid belonen. MMGR biedt een uniform diagnostisch benchmark en een weg naar redeneringsbewuste generatieve wereldmodellen.
Recente vooruitgang in videogeneratie heeft levendige content voortgebracht die vaak niet van echte video's te onderscheiden is, waardoor de detectie van AI-gegenereerde video's een opkomende maatschappelijke uitdaging vormt. Eerdere AIGC-detectiebenchmarks evalueren video's meestal zonder audio, richten zich op brede narratieve domeinen en focussen uitsluitend op classificatie. Het blijft echter onduidelijk of state-of-the-art videogeneratiemodellen immersieve, audiogepaarde video's kunnen produceren die mensen en Vision-Language Models (VLMs) betrouwbaar misleiden. Hiertoe introduceren we de Video Reality Test, een benchmark suite met ASMR-gesourcete video's voor het testen van perceptueel realisme onder strikte audio-visuele koppeling, met de volgende dimensies: (i) Immersieve ASMR video-audiobronnen. Gebaseerd op zorgvuldig gecureerde echte ASMR-video's, richt de benchmark zich op fijnmazige actie-objectinteracties met diversiteit in objecten, acties en achtergronden. (ii) Peer-Review evaluatie. Een adversarieel creator-reviewerprotocol waarbij videogeneratiemodellen fungeren als creators die reviewers proberen te misleiden, terwijl VLMs dienen als reviewers die authenticiteit proberen te identificeren. Onze experimentele bevindingen tonen aan: De beste creator, Veo3.1-Fast, misleidt zelfs de meeste VLMs: de sterkste reviewer (Gemini 2.5-Pro) behaalt slechts 56% nauwkeurigheid (willekeurig 50%), ver onder die van menselijke experts (81,25%). Het toevoegen van audio verbetert de discriminatie tussen echt en nep, maar oppervlakkige aanwijzingen zoals watermerken kunnen modellen nog steeds significant misleiden. Deze bevindingen schetsen de huidige grens van videogeneratierealisme en bloot de beperkingen van VLMs op het gebied van perceptuele geloofwaardigheid en audio-visuele consistentie. Onze code is beschikbaar op https://github.com/video-reality-test/video-reality-test.
Dit artikel presenteert WorldPlay, een streaming video-diffusiemodel dat realtime, interactieve wereldmodellering mogelijk maakt met langetermijn geometrische consistentie, waardoor de afweging tussen snelheid en geheugen die huidige methodes beperkt wordt opgelost. WorldPlay put zijn kracht uit drie belangrijke innovaties. 1) We gebruiken een Dual Action Representation om robuuste actiecontrole mogelijk te maken als reactie op de toetsenbord- en muisinvoer van de gebruiker. 2) Om langetermijnconsistentie af te dwingen, bouwt ons Reconstituted Context Memory context dynamisch opnieuw op uit vorige frames en gebruikt het temporeel reframing om geometrisch belangrijke maar lang vervlogen frames toegankelijk te houden, waardoor geheugenverval effectief wordt verminderd. 3) We stellen ook Context Forcing voor, een nieuwe distillatiemethode ontworpen voor geheugenbewuste modellen. Het afstemmen van de geheugencontext tussen de leraar- en leerlingmodellen behoudt het vermogen van de leerling om informatie over lange afstand te gebruiken, waardoor realtime snelheden mogelijk zijn terwijl foutdrift wordt voorkomen. Samen genomen genereert WorldPlay langdurige streaming 720p video met 24 FPS met superieure consistentie, vergelijkbaar met bestaande technieken en met sterke generalisatie over diverse scènes. De projectpagina en onlinedemo zijn te vinden op: https://3d-models.hunyuan.tencent.com/world/ en https://3d.hunyuan.tencent.com/sceneTo3D.
Onderwerpgestuurde beeldgeneratie is geëvolueerd van compositie met één onderwerp naar compositie met meerdere onderwerpen, maar heeft hierbij distinctie verwaarloosd – het vermogen om het juiste onderwerp te identificeren en genereren wanneer invoer meerdere kandidaten bevat. Deze beperking vermindert de effectiviteit in complexe, realistische visuele omgevingen. Wij stellen Scone voor, een uniforme begrips-generatiemethode die compositie en distinctie integreert. Scone stelt de begripsexpert in staat om als semantische brug te fungeren, die semantische informatie overdraagt en de generatie-expert aanstuurt om subjectidentiteit te behouden terwijl interferentie wordt geminimaliseerd. Een tweefasen-trainingsschema leert eerst compositie, waarna distinctie wordt verbeterd door semantische uitlijning en op aandacht gebaseerd maskeren. Wij introduceren tevens SconeEval, een benchmark voor de evaluatie van zowel compositie als distinctie in diverse scenario's. Experimenten tonen aan dat Scone bestaande open-source modellen overtreft in compositie- en distinctietaken op twee benchmarks. Ons model, benchmark en trainingsgegevens zijn beschikbaar op: https://github.com/Ryann-Ran/Scone.
Ruimtelijke tracering, als fundamentele belichaamde interactievaardigheid voor robots, is inherent uitdagend omdat het multi-stap metrisch-onderbouwd redeneren vereist, gecombineerd met complexe ruimtelijke referentie en meting in de echte wereld. Bestaande methoden hebben echter moeite met deze compositionele taak. Daarom stellen wij RoboTracer voor, een 3D-bewuste VLM die als eerste zowel 3D-ruimtelijke referentie als meting realiseert via een universele ruimtelijke encoder en een regressie-gestuurd decoder om het schaalbewustzijn te vergroten tijdens supervised fine-tuning (SFT). Bovendien verbetert RoboTracer multi-stap metrisch-onderbouwd redeneren via reinforcement fine-tuning (RFT) met metrisch-gevoelige procesbeloningen, waarbij cruciale tussenliggende perceptuele aanwijzingen worden bewaakt om nauwkeurig ruimtelijke sporen te genereren. Om SFT- en RFT-training te ondersteunen, introduceren wij TraceSpatial, een grootschalige dataset van 30M vraag-antwoordparen, die buiten-/binnen-/tafelscènes omspant en complexe redeneerprocessen (tot 9 stappen) ondersteunt. Wij presenteren verder TraceSpatial-Bench, een uitdagende benchmark die de leemte opvult om ruimtelijke tracering te evalueren. Experimentele resultaten tonen aan dat RoboTracer de baseline-methoden overtreft in ruimtelijk begrip, meting en referentie, met een gemiddeld slagingspercentage van 79,1%, en ook state-of-the-art prestaties behaalt op TraceSpatial-Bench met een grote marge, door Gemini-2.5-Pro met 36% nauwkeurigheid te overtreffen. Opmerkelijk is dat RoboTracer kan worden geïntegreerd met diverse besturingsbeleidsregels om langetermijn, dynamische taken uit te voeren op uiteenlopende robots (UR5, G1 humanoïde) in rommelige echte werelden.
De snelle evolutie van Large Language Models (LLM's) is afhankelijk van de kwaliteit en diversiteit van post-training datasets. Er blijft echter een kritieke tweedeling bestaan: terwijl modellen rigoureus worden gebenchmarkt, blijven de data die ze voeden een black box – gekenmerkt door ondoorzichtige samenstelling, onzekere herkomst en een gebrek aan systematische evaluatie. Deze ondoorzichtigheid belemmert de reproduceerbaarheid en vertroebelt het causale verband tussen data-eigenschappen en modelgedrag. Om deze kloof te overbruggen, introduceren we OpenDataArena (ODA), een holistisch en open platform ontworpen om de intrinsieke waarde van post-training data te benchmarken. ODA creëert een uitgebreid ecosysteem bestaande uit vier pijlers: (i) een uniforme trainings- en evaluatiepijplijn die eerlijke, open vergelijkingen garandeert tussen diverse modellen (bijv. Llama, Qwen) en domeinen; (ii) een multidimensionaal scoringskader dat data-kwaliteit profileert langs tientallen onderscheidende assen; (iii) een interactieve data lineage-verkenner om de stamboom van datasets te visualiseren en bronsamenstellingen te ontleden; en (iv) een volledig open-source toolkit voor training, evaluatie en scoring om data-onderzoek te bevorderen. Uitgebreide experimenten op ODA – met meer dan 120 trainingsdatasets verspreid over meerdere domeinen op 22 benchmarks, gevalideerd door meer dan 600 trainingstrajecten en 40 miljoen verwerkte datapunten – onthullen significante inzichten. Onze analyse legt de inherente afwegingen bloot tussen datacomplexiteit en taakprestaties, identificeert redundantie in populaire benchmarks via stamboomtracering, en brengt de genealogische relaties tussen datasets in kaart. We publiceren alle resultaten, tools en configuraties om toegang tot hoogwaardige data-evaluatie te democratiseren. In plaats van slechts een leaderboard uit te breiden, beoogt ODA een verschuiving van trial-and-error datacuratie naar een principieel onderbouwde wetenschap van Data-Centric AI, waarmee de weg wordt geëffend voor rigoureuze studies naar data-mengwetten en de strategische samenstelling van foundation models.
Vector Similarity Search (VSS) in hoogdimensionale ruimtes ontwikkelt zich snel tot een kernfunctionaliteit in database-systemen van de volgende generatie voor tal van data-intensieve diensten – van embedding-opzoekingen in grote taalmodellen (LLM's) tot semantische informatie-ontsluiting en aanbevelingssystemen. Huidige benchmarks evalueren VSS echter voornamelijk op de afweging tussen recall en latentie tegenover een ground truth die uitsluitend door afstandsmetrieken wordt gedefinieerd, waarbij wordt verwaarloosd hoe de retrievalkwaliteit uiteindelijk downstreamtaken beïnvloedt. Deze kloof kan zowel academisch onderzoek als industriële praktijken misleiden. Wij presenteren Iceberg, een holistische benchmark-suite voor end-to-end evaluatie van VSS-methoden in realistische toepassingscontexten. Vanuit een taakgericht perspectief onthult Iceberg de Informatieverlies-Trechter, die drie hoofdoorzaken van end-to-end prestatieverlies identificeert: (1) Embedding-verlies tijdens feature-extractie; (2) Metriek-misbruik, waarbij afstanden de taakrelevantie slecht weerspiegelen; (3) Gevoeligheid voor dataverdeling, waarbij de robuustheid van indexen over verschillende scheefheden en modaliteiten heen wordt belicht. Voor een uitgebreidere beoordeling omvat Iceberg acht diverse datasets uit cruciale domeinen zoals beeldclassificatie, gezichtsherkenning, tekstretrieval en aanbevelingssystemen. Elke dataset, variërend van 1 miljoen tot 100 miljoen vectoren, bevat rijke, taakspecifieke labels en evaluatiemetrieken, waardoor beoordeling van retrievalalgoritmen binnen de volledige applicatiepijplijn mogelijk is, in plaats van geïsoleerd. Iceberg benchmarkt 13 state-of-the-art VSS-methoden en herrangschikt deze op basis van applicatieniveau-metrieken, wat aanzienlijke afwijkingen onthult ten opzichte van traditionele rangschikkingen die puur op recall-latentie-evaluaties zijn gebaseerd. Voortbordurend op deze inzichten definiëren we een reeks taakgerichte meta-kenmerken en leiden we een interpreteerbare beslissingsboom af om praktijkmensen te begeleiden bij het selecteren en afstemmen van VSS-methoden voor hun specifieke workloads.
Schaalbare Vectorafbeeldingen (SVG) staan centraal in modern webdesign, en de vraag om ze te animeren blijft groeien naarmate webomgevingen dynamischer worden. Het automatiseren van de animatie van vectorafbeeldingen blijft echter een uitdaging voor vision-language modellen (VLM's), ondanks recente vooruitgang in codegeneratie en bewegingsplanning. VLM's verwerken SVG's routinematig verkeerd, omdat visueel samenhangende onderdelen vaak gefragmenteerd zijn in laagniveau vormen die weinig richting geven over welke elementen samen moeten bewegen. In dit artikel introduceren we een raamwerk dat de semantische structuur herstelt die nodig is voor betrouwbare SVG-animatie en de ontbrekende laag onthult die huidige VLM-systemen over het hoofd zien. Dit wordt bereikt door een statistische aggregatie van meerdere zwakke deelvoorspellingen, waardoor het systeem semantiek stabiel kan afleiden uit ruisvoorspellingen. Door SVG's te reorganiseren in semantische groepen, stelt onze aanpak VLM's in staat animaties te produceren met een veel grotere samenhang. Onze experimenten tonen substantiële verbeteringen ten opzichte van bestaande benaderingen, wat suggereert dat semantisch herstel de cruciale stap is die robuuste SVG-animatie mogelijk maakt en meer interpreteerbare interacties tussen VLM's en vectorafbeeldingen ondersteunt.
De kernuitdaging bij het genereren van streamingsvideo is het handhaven van inhoudelijke consistentie over een lange context, wat hoge eisen stelt aan het geheugenontwerp. De meeste bestaande oplossingen onderhouden het geheugen door historische frames te comprimeren met vooraf gedefinieerde strategieën. Echter, verschillende te genereren videosegmenten zouden moeten verwijzen naar verschillende historische cues, wat moeilijk te realiseren is met vaste strategieën. In dit werk stellen we MemFlow voor om dit probleem aan te pakken. Concreet werken we, voordat het volgende segment gegenereerd wordt, het geheugenbank dynamisch bij door de meest relevante historische frames op te halen met behulp van de tekstprompt van dit segment. Dit ontwerp zorgt voor narratieve samenhang, zelfs als er nieuwe gebeurtenissen plaatsvinden of scenario's wisselen in toekomstige frames. Daarnaast activeren we tijdens de generatie alleen de meest relevante tokens in de geheugenbank voor elke query in de aandachtslagen, wat de generatie-efficiëntie effectief waarborgt. Op deze manier bereikt MemFlow uitstekende lange-context consistentie met een verwaarloosbare rekentijd toename (7.9% snelheidsverlies vergeleken met de geheugenloze baseline) en behoudt het de compatibiliteit met elk streamingsvideo-generatiemodel met KV-cache.
Het ontwerpen van effectieve beloningsfuncties vormt een centrale en vaak moeizame uitdaging bij reinforcement learning (RL), met name bij de ontwikkeling van autonome agents voor complexe redeneertaken. Hoewel er geautomatiseerde benaderingen voor beloningsoptimalisatie bestaan, zijn deze doorgaans gebaseerd op afgeleide-vrije evolutionaire heuristieken die de beloningsfunctie als een black box behandelen, waardoor ze de causale relatie tussen beloningsstructuur en taakprestatie niet vastleggen. Om deze kloof te overbruggen, stellen wij Differentieerbaar Evolutionair Reinforcement Learning (DERL) voor, een bi-level raamwerk dat de autonome ontdekking van optimale beloningssignalen mogelijk maakt. In DERL evolueert een Meta-Optimalisator een beloningsfunctie (d.w.z. een Meta-Beloning) door gestructureerde atomische primitieven samen te stellen, waarbij de training van een inner-loop policy wordt gestuurd. In tegenstelling tot eerdere evolutionaire benaderingen is DERL cruciaal genoeg differentieerbaar in zijn meta-optimalisatie: het behandelt de validatieprestatie van de inner-loop als een signaal om de Meta-Optimalisator bij te werken via reinforcement learning. Hierdoor kan DERL de "metagradiënt" van taaksucces benaderen en zo geleidelijk leren dichtere en bruikbaarder feedback te genereren. Wij valideren DERL in drie verschillende domeinen: robotagent (ALFWorld), wetenschappelijke simulatie (ScienceWorld) en wiskundig redeneren (GSM8k, MATH). Experimentele resultaten tonen aan dat DERL state-of-the-art prestaties behaalt op ALFWorld en ScienceWorld, en methoden die op heuristische beloningen vertrouwen significant overtreft, vooral in out-of-distribution scenario's. Analyse van het evolutionaire traject toont aan dat DERL met succes de intrinsieke structuur van taken vastlegt, waardoor zelfverbeterende agentafstemming zonder menselijk ingrijpen mogelijk wordt.
Wij introduceren Olmo 3, een familie van state-of-the-art, volledig open taalmodellen met 7B en 32B parameters. De ontwikkeling van de Olmo 3-modellen is gericht op redeneren met lange contexten, functie-aanroepen, programmeren, het opvolgen van instructies, algemene chat en kennisrecall. Deze release omvat de volledige modelstroom, d.w.z. de volledige levenscyclus van de modellenfamilie, inclusief elke fase, checkpoint, datapunt en afhankelijkheid die gebruikt is om deze te bouwen. Ons vlaggenschipmodel, Olmo 3 Think 32B, is het krachtigste volledig open denkmodel dat tot op heden is vrijgegeven.
Het ontwikkelen van algemene redeneermodellen met reinforcement learning (RL) brengt aanzienlijke heterogeniteit tussen domeinen met zich mee, waaronder grote variatie in responslengtes tijdens inferentie en verificatielatentie. Deze variabiliteit compliceert de RL-infrastructuur, vertraagt de training en maakt de trainingscurriculum (bijvoorbeeld responslengte-uitbreiding) en hyperparameterselectie uitdagend. In dit werk stellen we gecascadeerd domein-gewijs reinforcement learning (Cascade RL) voor om algemene redeneermodellen, Nemotron-Cascade, te ontwikkelen die zowel in instructie- als diep nadenken-modus kunnen opereren. In tegenstelling tot conventionele benaderingen die heterogene prompts uit verschillende domeinen mengen, organiseert Cascade RL sequentiële, domein-gewijze RL, wat de technische complexiteit vermindert en state-of-the-art prestaties levert op een breed scala aan benchmarks. Opmerkelijk is dat RLHF voor alignment, wanneer gebruikt als voorstap, het redeneervermogen van het model versterkt ver voorbij louter voorkeursoptimalisatie, en latere domein-gewijze RLVR-fasen zelden de benchmarkprestatie uit eerdere domeinen aantasten en deze zelfs kunnen verbeteren (zie een illustratie in Figuur 1). Ons 14B-model presteert na RL beter dan zijn SFT-leraar, DeepSeek-R1-0528, op LiveCodeBench v5/v6/Pro en behaalt zilveren-medaille prestaties in de Internationale Informatica Olympiade (IOI) van 2025. We delen onze trainings- en datarecepten transparant.
Grote taalmodel(len) (LLM's) hebben een opmerkelijk potentieel getoond om aanbevelingssystemen te transformeren van impliciete gedragspatronenherkenning naar expliciete intentie-redenering. Hoewel RecGPT-V1 dit paradigma succesvol pionierde door op LLM gebaseerde redenering te integreren in gebruikersinteresse-mining en itemtag-voorspelling, kampt het met vier fundamentele beperkingen: (1) computationele inefficiëntie en cognitieve redundantie over meerdere redeneerroutes; (2) onvoldoende diversiteit in verklaringen bij generatie met vaste templates; (3) beperkte generalisatie onder supervised learning-paradigma's; en (4) simplistische, op uitkomsten gerichte evaluatie die niet voldoet aan menselijke maatstaven. Om deze uitdagingen aan te pakken, presenteren wij RecGPT-V2 met vier belangrijke innovaties. Ten eerste herstructureert een Hiërarchisch Multi-Agent Systeem intentie-redenering via gecoördineerde samenwerking, waardoor cognitieve duplicatie wordt geëlimineerd en tegelijkertijd diverse intentiedekking wordt mogelijk gemaakt. In combinatie met Hybride Representatie-Inferentie die gebruikersgedragscontexten comprimeert, reduceert ons framework het GPU-verbruik met 60% en verbetert het de exclusieve recall van 9,39% naar 10,99%. Ten tweede genereert een Meta-Prompting framework dynamisch contextueel adaptieve prompts, waardoor de verklaringsdiversiteit met +7,3% verbetert. Ten derde vermindert constrained reinforcement learning conflicten tussen meerdere beloningen, wat resulteert in een verbetering van +24,1% in tagvoorspelling en +13,0% in acceptatiegraad van verklaringen. Ten vierde deconstrueert een Agent-as-a-Judge framework de beoordeling in meerstappenredenering, waardoor de afstemming op menselijke voorkeuren verbetert. Online A/B-testen op Taobao tonen significante verbeteringen: +2,98% CTR, +3,71% IPV, +2,19% TV en +11,46% NER. RecGPT-V2 vestigt zowel de technische haalbaarheid als de commerciële levensvatbaarheid van grootschalige inzet van LLM-gestuurde intentie-redenering, en overbrugt zo de kloof tussen cognitieve exploratie en industriële bruikbaarheid.
Hoewel bestaande generatie- en unified-modellen uitblinken in algemene beeldgeneratie, hebben ze moeite met taken die diepgaand redeneren, planning en precieze data-naar-visuele mapping vereisen, buiten algemene scenario's om. Om de bestaande beperkingen te overstijgen, introduceren we een nieuwe en uitdagende taak: creatieve tabelvisualisatie, waarbij het model een infographic moet genereren die de gegevens uit een gegeven tabel op een getrouwe en esthetische manier visualiseert. Om deze uitdaging aan te pakken, stellen we ShowTable voor, een pijplijn die MLLM's en diffusiemodellen synergiseert via een progressief zelfcorrigerend proces. De MLLM fungeert als centrale orchestrator voor het redeneren over het visuele plan en het beoordelen van visuele fouten om verfijnde instructies te geven, terwijl het diffusiemodel de commando's van de MLLM uitvoert, wat resulteert in hoogwaardige resultaten. Om deze taak en onze pijplijn te ondersteunen, introduceren we drie geautomatiseerde dataconstructiepijplijnen voor het trainen van verschillende modules. Verder introduceren we TableVisBench, een nieuwe benchmark met 800 uitdagende instanties verspreid over 5 evaluatiedimensies, om de prestaties voor deze taak te beoordelen. Experimenten tonen aan dat onze pijplijn, geïnstantieerd met verschillende modellen, de baseline-methoden significant overtreft, wat haar effectieve multimodale redeneer-, generatie- en foutcorrectiecapaciteiten benadrukt.
Recente vooruitgang in beeld-naar-3D heeft immense mogelijkheden geopend voor design, AR/VR en robotica. Om AI-gegenereerde 3D-assets echter in praktische toepassingen te kunnen gebruiken, is het cruciaal dat ze eenvoudig bewerkt kunnen worden. Wij presenteren een feedforward-methode, Steer3D, om tekststuurbaarheid toe te voegen aan beeld-naar-3D-modellen, waardoor gegenereerde 3D-assets met taal bewerkt kunnen worden. Onze aanpak is geïnspireerd op ControlNet, dat we aanpassen voor beeld-naar-3D-generatie om directe tekststuring in een forward pass mogelijk te maken. We bouwen een schaalbare data-engine voor automatische datageneratie en ontwikkelen een tweefasig trainingsrecept gebaseerd op flow-matching training en Direct Preference Optimization (DPO). In vergelijking met concurrerende methodes volgt Steer3D taalinstellingen nauwkeuriger en behoudt het een betere consistentie met het originele 3D-asset, terwijl het 2,4x tot 28,5x sneller is. Steer3D toont aan dat het mogelijk is om een nieuwe modaliteit (tekst) toe te voegen om de generatie van voorgetrainde beeld-naar-3D-generatieve modellen te sturen met 100k data. Projectwebsite: https://glab-caltech.github.io/steer3d/
De snelle schaalvergroting van Large Language Models (LLM's) heeft tot opmerkelijke prestaties geleid, maar brengt ook buitensporige geheugenkosten met zich mee. Bestaande parameter-efficiënte benaderingen, zoals pruning en kwantisatie, comprimeren voornamelijk voorgetrainde modellen zonder de architectonische capaciteit te vergroten, waardoor ze het representatieplafond van het basismodel bereiken. In dit werk stellen we VersatileFFN voor, een nieuw feedforward-netwerk (FFN) dat flexibel hergebruik van parameters in zowel breedte- als dieptedimensies mogelijk maakt binnen een vast parameterbudget. Geïnspireerd door de dual-process theorie van cognitie, bestaat VersatileFFN uit twee adaptieve paden: een breedte-veelzijdig pad dat een mengsel van sub-experts genereert vanuit een enkele gedeelde FFN, wat sparse expert routing nabootst zonder parameters te vergroten, en een diepte-veelzijdig pad dat dezelfde FFN recursief toepast om diepere verwerking voor complexe tokens te emuleren. Een moeilijkheidsbewuste gating-balanceert de twee paden dynamisch, waarbij "makkelijke" tokens via de efficiënte breedteroute worden geleid en diepere iteratieve verfijning wordt toegewezen aan "moeilijke" tokens. Cruciaal is dat beide paden dezelfde parameters hergebruiken, zodat alle extra capaciteit voortkomt uit rekenkracht in plaats van geheugen. Experimenten met diverse benchmarks en modelschalen demonstreren de effectiviteit van de methode. De code zal beschikbaar zijn op https://github.com/huawei-noah/noah-research/tree/master/VersatileFFN.
Affordantievoorspelling, die interactieregio's op objecten identificeert op basis van taal-instructies, is cruciaal voor embodied AI. Gangrijke end-to-end modellen koppelen hoogwaardige redenering en laagwaardige grounding in een enkele monolithische pijplijn en vertrouwen op training met geannoteerde datasets, wat leidt tot slechte generalisatie op nieuwe objecten en onbekende omgevingen. In dit artikel gaan we verder dan dit paradigma door A4-Agent voor te stellen, een trainingsvrij agentframework dat affordantievoorspelling ontkoppelt in een driestaps pijplijn. Ons framework coördineert gespecialiseerde foundationmodellen tijdens de testfase: (1) een Dreamer die generatieve modellen gebruikt om te visualiseren hoe een interactie eruit zou zien; (2) een Thinker die grote vision-language modellen benut om te beslissen welk objectdeel geïnteracteerd moet worden; en (3) een Spotter die vision foundationmodellen aanstuurt om precies te lokaliseren waar het interactiegebied is. Door de complementaire sterktes van vooraf getrainde modellen te benutten zonder taakspecifieke fine-tuning, presteert ons zero-shot framework aanzienlijk beter dan state-of-the-art supervised methoden op meerdere benchmarks en toont het robuuste generalisatie naar real-world settings.
Wij presenteren SS4D, een native 4D-generatief model dat dynamische 3D-objecten direct synthetiseert uit monovideo. In tegenstelling tot eerdere benaderingen die 4D-representaties construeren door optimalisatie over 3D- of videogeneratieve modellen, trainen wij een generator rechtstreeks op 4D-data, waardoor hoge kwaliteit, temporele coherentie en structurele consistentie worden bereikt. De kern van onze methode vormt een gecomprimeerde set gestructureerde ruimtetijd-latente variabelen. Concreet: (1) Om het gebrek aan 4D-trainingsdata te ondervangen, bouwen wij voort op een voorgetraind single-image-to-3D-model, waarbij sterke ruimtelijke consistentie behouden blijft. (2) Temporele coherentie wordt afgedwongen door de introductie van speciale temporale lagen die relaties tussen frames modelleren. (3) Om efficiënte training en inferentie over lange videosequenties mogelijk te maken, comprimeren wij de latente sequentie langs de temporele as met behulp van gefactoriseerde 4D-convoluties en temporele downsampling-blokken. Daarnaast hanteren wij een zorgvuldig ontworpen trainingsstrategie om de robuustheid tegen occlusie te vergroten.
Gemaskerde Discrete Diffusion-modellen (MDM's) hebben sterke prestaties behaald in een breed scala aan multimodale taken, waaronder beeldbegrip, -generatie en -bewerking. Hun inferentiesnelheid blijft echter suboptimaal vanwege de noodzaak om bij elke samplingstap herhaaldelijk overbodige gemaskeerde tokens te verwerken. In dit werk stellen we Sparse-LaViDa voor, een nieuw modelleerkader dat onnodige gemaskeerde tokens bij elke inferentiestap dynamisch afkapt om MDM-sampling te versnellen. Om de generatiekwaliteit te behouden, introduceren we gespecialiseerde registertokens die dienen als compacte representaties voor de afgekapte tokens. Verder ontwerpen we, om consistentie tussen training en inferentie te garanderen, een gespecialiseerd aandachtmasker dat het afgekapte samplingproces tijdens de training nauwkeurig nabootst. Gebaseerd op de state-of-the-art verenigde MDM LaViDa-O, bereikt Sparse-LaViDa een versnelling tot 2x bij diverse taken zoals tekst-naar-beeldgeneratie, beeldbewerking en wiskundig redeneren, waarbij de generatiekwaliteit behouden blijft.
Niet-parametrische kwantisatie heeft veel aandacht gekregen vanwege zijn efficiëntie wat betreft parameters en schaalbaarheid naar een grote codeboek. In dit artikel presenteren we een geünificeerde formulering van verschillende niet-parametrische kwantisatiemethoden door de lens van lattice-codering. De geometrie van lattice-codes verklaart de noodzaak van aanvullende verliestermen bij het trainen van auto-encoders met bepaalde bestaande lookup-vrije kwantisatievarianten zoals BSQ. Als vervolgstap verkennen we een aantal mogelijke kandidaten, waaronder willekeurige roosters, gegeneraliseerde Fibonacci-roosters en roosters met de dichtste bollenstapeling. Van allemaal concluderen we dat de op het Leech-rooster gebaseerde kwantisationmethode, die we Spherical Leech Quantization (Λ_{24}-SQ) noemen, leidt tot zowel een vereenvoudigd trainingsproces als een verbeterde reconstructie-compressie-afweging dankzij zijn hoge symmetrie en gelijkmatige verdeling op de hyperbol. Bij beeldtokenisatie- en compressietaken bereikt deze kwantisatiebenadering een betere reconstructiekwaliteit volgens alle metrieken dan BSQ, de beste bestaande methode, terwijl er iets minder bits worden verbruikt. De verbetering strekt zich ook uit naar state-of-the-art autoregressieve beeldgeneratieframeworks.
Diffusietaalmodellen (dLM's) zijn naar voren gekomen als een veelbelovend paradigma dat parallelle, niet-autoregressieve generatie mogelijk maakt, maar hun leerrendement blijft achter bij dat van autoregressieve (AR) taalmodellen wanneer ze vanaf nul worden getraind. Daarom bestuderen we AR-naar-dLM-conversie om voorgetrainde AR-modellen om te zetten in efficiënte dLM's die uitblinken in snelheid en tegelijkertijd de taaknauwkeurigheid van AR-modellen behouden. We bereiken dit door beperkingen in de aandachtspatronen en doelstellingen van bestaande AR-naar-dLM-methoden te identificeren en vervolgens principes en methodologieën voor te stellen voor een effectievere AR-naar-dLM-conversie. Concreet vergelijken we eerst systematisch verschillende aandachtspatronen en stellen vast dat het behoud van de voorgetrainde AR-gewichtsverdelingen cruciaal is voor een effectieve AR-naar-dLM-conversie. Daarom introduceren we een continu voortrainingsschema met een bloksgewijs aandachtspatroon, dat causaal blijft tussen blokken maar bidirectioneel modelleren binnen elk blok mogelijk maakt. We stellen vast dat deze aanpak de gewichtsverdelingen van voorgetrainde AR-modellen beter kan behouden dan volledig bidirectioneel modelleren, naast het bekende voordeel van het mogelijk maken van KV-caching, en leidt tot een win-winsituatie in nauwkeurigheid en efficiëntie. Ten tweede, om de kloof tussen training en test in maskertokenverdelingen (uniform vs. sterk links-naar-rechts) te verkleinen, stellen we een positie-afhankelijke tokenmaskeringsstrategie voor die tijdens de training hogere maskeringskansen toekent aan latere tokens om het testgedrag beter na te bootsen. Met behulp van dit framework voeren we uitgebreide studies uit naar de aandachtspatronen, trainingsdynamiek en andere ontwerpkeuzes van dLM's, wat bruikbare inzichten biedt in schaalbare AR-naar-dLM-conversie. Deze studies leiden tot de Efficient-DLM-familie, die state-of-the-art AR-modellen en dLM's overtreft; zo behaalt onze Efficient-DLM 8B bijvoorbeeld respectievelijk +5,4%/+2,7% hogere nauwkeurigheid met een 4,5x/2,7x hogere doorvoersnelheid vergeleken met Dream 7B en Qwen3 4B.
Dit artikel introduceert geen nieuwe methode, maar stelt in plaats daarvan een eenvoudige, incrementele, doch essentiële baseline vast voor temporele lokalisatie in video's (Video Temporal Grounding, VTG), een kerncompetentie binnen video-interpretatie. Hoewel multimodale grote taalmodellen (MLLM's) uitblinken in diverse video-interpretatietaken, zijn de methoden om ze voor VTG te optimaliseren nog onderbelicht. In dit artikel presenteren wij TimeLens, een systematisch onderzoek naar het bouwen van MLLM's met sterke VTG-capaciteiten, langs twee primaire dimensies: datakwaliteit en algoritmisch ontwerp. Wij tonen eerst kritieke kwaliteitsproblemen aan in bestaande VTG-benchmarks en introduceren TimeLens-Bench, bestaande uit zorgvuldig geherannoteerde versies van drie populaire benchmarks met strikte kwaliteitscriteria. Onze analyse onthult dramatische herrangschikkingen van modellen in vergelijking met verouderde benchmarks, wat de onbetrouwbaarheid van eerdere evaluatiestandaarden bevestigt. Wij pakken ook ruis in trainingsdata aan via een geautomatiseerd pijplijn voor herannotatie, wat resulteert in TimeLens-100K, een grootschalige, hoogwaardige trainingsdataset. Voortbouwend op onze datafundering voeren wij diepgaande verkenningen uit van algoritmische ontwerpprincipes, wat een reeks zinvolle inzichten en effectieve doch efficiënte praktijken oplevert. Deze omvatten een interleaved tekstuele codering voor tijdsrepresentatie, een 'thinking-free' reinforcement learning-benadering met verifieerbare beloningen (RLVR) als trainingsparadigma, en zorgvuldig ontworpen methoden voor RLVR-training. Deze inspanningen culmineren in de TimeLens-modellen, een familie van MLLM's met state-of-the-art VTG-prestaties onder open-source modellen, die zelfs propriëtaire modellen zoals GPT-5 en Gemini-2.5-Flash overtreffen. Alle code, data en modellen zullen worden vrijgegeven om toekomstig onderzoek te faciliteren.
Het bereiken van werkelijk adaptieve embodied intelligentie vereist agents die niet alleen leren door het imiteren van statische demonstraties, maar door continu te verbeteren via interactie met de omgeving, wat vergelijkbaar is met hoe mensen vaardigheden beheersen door oefening. Vision-Language-Action (VLA)-modellen hebben robotmanipulatie vooruitgebracht door gebruik te maken van grote taalmodellen, maar worden fundamenteel beperkt door Supervised Finetuning (SFT): ze vereisen honderden demonstraties per taak, memoriseren trajecten rigide en falen in aanpassing wanneer implementatieomstandigheden afwijken van de training. Wij introduceren EVOLVE-VLA, een test-time trainingsframework dat VLA's in staat stelt om continu te adaptteren via omgevingsinteractie met minimale of nul taakspecifieke demonstraties. De belangrijkste technische uitdaging is het vervangen van orakelbeloningssignalen (niet beschikbaar tijdens testen) door autonome feedback. Wij lossen dit op via een geleerde voortgangsschatting die dense feedback verschaft, en cruciaal, we ontwerpen ons framework om dit inherent ruisige signaal te "temmen" via twee mechanismen: (1) een accumulatief voortgangsschattingmechanisme dat ruisige puntsschatingen afvlakt, en (2) een progressieve horizonuitbreidingsstrategie die geleidelijke policy-evolutie mogelijk maakt. EVOLVE-VLA behaalt aanzienlijke winsten: +8,6% op lange-termijntaken, +22,0% in 1-shot leren, en maakt cross-task generalisatie mogelijk – het behaalt 20,8% succes on onbekende taken zonder taakspecifieke demonstratietraining (versus 0% voor pure SFT). Kwalitatieve analyse onthult emergentie capaciteiten afwezig in demonstraties, inclusief foutherstel en nieuwe strategieën. Dit werk vertegenwoordigt een kritische stap richting VLA's die werkelijk leren en adaptteren, voorbij statische imitatie naar continue zelfverbetering.
Wij introduceren CRISP, een methode die simuleerbare menselijke beweging en scène-geometrie herstelt uit monovideo. Eerdere werkzaamheden op het gebied van gezamenlijke mens-scène-reconstructie steunen op data-gedreven a priori kennis en gezamenlijke optimalisatie zonder fysica in de loop, of herstelt rommelige geometrie met artefacten die ervoor zorgen dat bewegingvolgbare policies met scène-interacties falen. In tegenstelling hiermee is ons belangrijkste inzicht dat we convexe, schone en simulatieklare geometrie kunnen herstellen door vlakke primitieven te fitten op een puntenwolk-reconstructie van de scène, via een eenvoudige clustering-pipeline over diepte, normalen en flow. Om scène-geometrie te reconstrueren die mogelijk verborgen is tijdens interacties, maken we gebruik van mens-scène-contactmodellering (bijvoorbeeld: we gebruiken menselijke houding om de verborgen zitting van een stoel te reconstrueren). Ten slotte zorgen we ervoor dat mens- en scène-reconstructies fysiek plausibel zijn door ze te gebruiken om een humanoïde controller aan te sturen via reinforcement learning. Onze aanpak verlaagt de mislukkingspercentages van bewegingvolging van 55,2% naar 6,9% op mensgerichte videobenchmarks (EMDB, PROX), terwijl het een 43% snellere RL-simulatiedoorvoer oplevert. We valideren het verder op in-the-wild video's, inclusief casual vastgelegde video's, internetvideo's en zelfs door Sora gegenereerde video's. Dit demonstreert het vermogen van CRISP om op grote schaal fysiek valide menselijke beweging en interactie-omgevingen te genereren, wat real-to-sim toepassingen voor robotica en AR/VR aanzienlijk vooruithelpt.
Medische beeldrestauratie (MedIR) heeft als doel hoogwaardige medische beelden te herstellen uit hun kwalitatief mindere tegenhangers. Recente vooruitgang in MedIR richt zich op All-in-One modellen die in staat zijn om meerdere verschillende MedIR-taken gelijktijdig aan te pakken. Echter, vanwege aanzienlijke verschillen in zowel modaliteit als degradatietypes, vereist het gebruik van een gedeeld model voor deze uiteenlopende taken een zorgvuldige afweging van twee kritieke inter-taskrelaties: taakinterferentie, die optreedt wanneer conflicterende gradiëntupdate-richtingen ontstaan tussen taken op dezelfde parameter, en taakonbalans, die verwijst naar ongelijke optimalisatie veroorzaakt door variërende leer moeilijkheden inherent aan elke taak. Om deze uitdagingen aan te pakken, stellen we een taakadaptieve Transformer (TAT) voor, een nieuw framework dat zich dynamisch aanpast aan verschillende taken door twee belangrijke innovaties. Ten eerste wordt een taakadaptieve gewichtsgeneratiestrategie geïntroduceerd om taakinterferentie te verminderen door taakspecifieke gewichtsparameters voor elke taak te genereren, waardoor potentiële gradiëntconflicten op gedeelde gewichtsparameters worden geëlimineerd. Ten tweede wordt een taakadaptief verliesbalanceringsstrategie geïntroduceerd om verliesgewichten dynamisch aan te passen op basis van taakspecifieke leermoeilijkheden, waardoor taakdominantie of ondertraining wordt voorkomen. Uitgebreide experimenten tonen aan dat onze voorgestelde TAT state-of-the-art prestaties bereikt in drie MedIR-taken—PET-synthese, CT-denoising en MRI-superresolutie—zowel in taakspecifieke als All-in-One settings. Code is beschikbaar op https://github.com/Yaziwel/TAT.
Grootschalige inferentie van Mixture-of-Experts (MoE)-modellen is uitdagend vanwege de hoge resourcebehoeften en dynamische werklasten. Bestaande oplossingen implementeren het gehele model vaak als één monolitische eenheid, waarbij een uniforme resourceconfiguratie wordt toegepast op zowel aandacht- als expertmodules, ondanks hun verschillende vereisten. Dit leidt tot beperkte schaalbaarheid en inefficiënt resourcegebruik. In dit artikel stellen we Janus voor, een schaalbaar MoE-inferentiesysteem dat aandacht en experts disaggregreert op gescheiden GPU-subclusters, waardoor elke module onafhankelijk kan worden beheerd en geschaald. Janus bevat drie belangrijke ontwerpen voor efficiënte, gedisaggregeerde MoE-inferentie. Ten eerste stelt het een adaptief tweefasencommunicatieschema voor dat gebruikmaakt van intra- en inter-node bandbreedtehiërarchieën voor gegevensuitwisseling met lage latentie. Ten tweede, gemotiveerd door het geheugengebonden karakter van MoE-modules, introduceert Janus een lichtgewicht planner en implementeert deze als een GPU-kernel om het aantal geactiveerde experts over GPU's te verdelen met minimale overhead, waardoor de inferentielatentie wordt verminderd. Ten derde voert Janus fijnmazig resourcebeheer uit om de plaatsing van experts dynamisch aan te passen en aandacht- en MoE-resources onafhankelijk te schalen om de algehele efficiëntie te verbeteren. Evaluatie toont aan dat Janus tot 3,9 keer hogere doorvoer per GPU bereikt dan state-of-the-art systemen, terwijl wordt voldaan aan de latentievereisten per token.
Gegrond videovraag-antwoord (GVQA) heeft als doel relevante temporele segmenten in video's te lokaliseren en nauwkeurige antwoorden op een gegeven vraag te genereren; grote video-taalmodellen (LVLMs) vertonen echter een beperkt temporeel bewustzijn. Hoewel bestaande benaderingen gebaseerd op Group Relative Policy Optimization (GRPO) proberen de temporele verankering te verbeteren, worstelen ze nog steeds om hun antwoorden trouw te verankeren in het relevante videobewijs, wat leidt tot temporele mislokalisatie en hallucinaties. In dit werk presenteren we Zoom-Zero, een coarse-to-fine raamwerk dat eerst vraag-relevante segmenten lokaliseert en vervolgens temporeel inzoomt op de meest saliënte frames voor fijnmazigere visuele verificatie. Onze methode adresseert de beperkingen van GRPO voor de GVQA-taak met twee belangrijke innovaties: (i) een zoom-in nauwkeurigheidsbeloning die de trouw van de temporele verankeringsvoorspelling valideert en fijnmazige visuele verificatie op verankerde frames vergemakkelijkt; (ii) token-selectieve toerekening van credits, die beloningen toeschrijft aan de tokens die verantwoordelijk zijn voor temporele lokalisatie of antwoordgeneratie, waardoor het probleem van GRPO bij het verwerken van veelzijdige beloningssignalen wordt verminderd. Onze voorgestelde methode bevordert gegrond videovraag-antwoord, verbetert de temporele verankering met 5,2% op NExT-GQA en 4,6% op ReXTime, en verhoogt tegelijkertijd de gemiddelde antwoorden nauwkeurigheid met 2,4%. Bovendien levert de coarse-to-fine zoom-in tijdens inferentie extra voordelen op voor langere video's door kritieke visuele details te behouden zonder het globale context aan te tasten, wat resulteert in een gemiddelde verbetering van 6,4% op benchmarks voor lange video's.
In-context leren is fundamenteel voor moderne Large Language Models (LLM's); heersende architecturen leggen echter een rigide en vaste contextuele structuur op door lineaire of constante positionele indices toe te kennen. Voortbordurend op de Cognitive Load Theory (CLT) stellen wij dat deze niet-informatieve structuur de externe cognitieve belasting verhoogt, waardoor beperkte werkgeheugencapaciteit wordt verbruikt die bestemd zou moeten zijn voor diepgaand redeneren en aandachtstoedeling. Om dit aan te pakken, stellen wij RePo voor, een nieuwe mechanisme dat de externe belasting vermindert via contextherpositionering. In tegenstelling tot standaardbenaderingen gebruikt RePo een differentieerbare module, f_φ, om tokenposities toe te kennen die contextuele afhankelijkheden vastleggen, in plaats van te vertrouwen op een vooraf gedefinieerd geheelgetallenbereik. Door continue voorafgaande training op de OLMo-2 1B-backbone tonen wij aan dat RePo de prestaties aanzienlijk verbetert bij taken met ruisrijke contexten, gestructureerde gegevens en langere contextlengtes, terwijl het competitieve prestaties handhaaft bij algemene taken met korte context. Gedetailleerde analyse onthult dat RePo met succes meer aandacht toekent aan verafgelegen maar relevante informatie, posities toewijst in een dichte en niet-lineaire ruimte, en de intrinsieke structuur van de invoercontext vastlegt. Onze code is beschikbaar op https://github.com/SakanaAI/repo.
Versterkend leren met verifieerbare beloningen (RLVR) heeft zijn effectiviteit bewezen bij het trainen van grote redeneermodellen (LRM's) door gebruik te maken van antwoord-verifieerbare signalen om beleidsoptimalisatie te sturen. Deze methode kampt echter met hoge annotatiekosten. Om dit probleem te verlichten, heeft recent onderzoek onbewaakte RLVR-methoden verkend die beloningen uitsluitend afleiden uit de interne consistentie van het model, bijvoorbeeld via entropie en meerderheidsstemming. Hoewel deze methoden veelbelovend lijken, leiden ze vaak tot modelinstorting in de latere trainingsfasen, wat kan ontstaan door de versterking van incorrecte redeneerpatronen bij afwezigheid van externe supervisie. In dit werk onderzoeken we een nieuw semi-gesuperviseerd RLVR-paradigma dat een kleine gelabelde set gebruikt om RLVR-training op ongelabelde samples te sturen. Onze belangrijkste inzicht is dat gesuperviseerde beloningen essentieel zijn voor het stabiliseren van op consistentie gebaseerde training op ongelabelde samples, zodat alleen redeneerpatronen die zijn geverifieerd op gelabelde instanties worden opgenomen in de RL-training. Technisch gezien stellen we een effectief beleidsoptimalisatie-algoritme voor, TraPO, dat betrouwbare ongelabelde samples identificeert door de gelijkenis van hun leerpad te matchen met dat van gelabelde samples. Hierop voortbouwend bereikt TraPO opmerkelijke data-efficiëntie en sterke generalisatie op zes veelgebruikte wiskundige redeneerbenchmarks (AIME24/25, AMC, MATH-500, Minerva en Olympiad) en drie out-of-distribution-taken (ARC-c, GPQA-diamond en MMLU-pro). Met slechts 1K gelabelde en 3K ongelabelde samples bereikt TraPO een gemiddelde nauwkeurigheid van 42,6%, waarmee het de beste onbewaakte methode, getraind op 45K ongelabelde samples (38,3%), overtreft. Opmerkelijk is dat bij gebruik van 4K gelabelde en 12K ongelabelde samples TraPO zelfs het volledig gesuperviseerde model, getraind op de volledige set van 45K gelabelde samples, op alle benchmarks overtreft, terwijl het slechts 10% van de gelabelde data gebruikt. De code is beschikbaar via https://github.com/ShenzhiYang2000/TRAPO.
Veiligheidsuitlijningsmechanismen in grote taalmodellen voorkomen reacties op schadelijke vragen door aangeleerd weigeringsgedrag, maar dezezelfde mechanismen belemmeren legitieme onderzoeksapplicaties, waaronder cognitieve modellering, adversariële testen en beveiligingsanalyse. Hoewel ablitatietechnieken chirurgische verwijdering van weigeringsrepresentaties mogelijk maken via directionele orthogonalisatie, is de relatieve effectiviteit van beschikbare implementaties nog niet gekarakteriseerd. Deze studie evalueert vier ablitatietools (Heretic, DECCP, ErisForge, FailSpy) over zestien instructie-afgestemde modellen (7B-14B parameters), rapporteert toolcompatibiliteit voor alle 16 modellen en kwantitatieve metrieken op subsets bepaald door toolondersteuning. Enkelvoudige-pass-methoden toonden superieure capaciteitsbehoud aan op de gebenchmarkte subset (gem. GSM8K-verandering over drie modellen: ErisForge -0,28 pp; DECCP -0,13 pp), terwijl Bayesiaans-geoptimaliseerde ablatie variabele distributieverschuiving produceerde (KL-divergentie: 0,043-1,646) met modelafhankelijke capaciteitsimpact. Deze bevindingen bieden onderzoekers evidence-based selectiecriteria voor ablitatietoolinzet over diverse modelarchitecturen. De belangrijkste bevinding geeft aan dat wiskundige redeneercapaciteiten de hoogste gevoeligheid vertonen voor ablatie-interventies, met GSM8K-veranderingen variërend van +1,51 pp tot -18,81 pp (-26,5% relatief) afhankelijk van toolselectie en modelarchitectuur.
Wereldmodellen hebben hun grote nut bewezen bij het verbeteren van de taakprestaties van belichaamde agents. Terwijl eerder werk zich vooral richtte op wereldmodellen in de pixelruimte, kampen deze benaderingen met praktische beperkingen in GUI-omgevingen, waar het voorspellen van complexe visuele elementen in toekomstige toestanden vaak moeilijk is. In dit werk verkennen we een alternatieve formulering van wereldmodellering voor GUI-agents, waarbij toestandsovergangen worden beschreven in natuurlijke taal in plaats van door het voorspellen van ruwe pixels. Ten eerste introduceren we MobileWorldBench, een benchmark die het vermogen evalueert van vision-language modellen (VLM's) om te functioneren als wereldmodellen voor mobiele GUI-agents. Ten tweede presenteren we MobileWorld, een grootschalige dataset bestaande uit 1,4 miljoen samples, die de wereldmodelleringscapaciteiten van VLM's aanzienlijk verbetert. Tot slot stellen we een nieuw raamwerk voor dat VLM-wereldmodellen integreert in het planningsraamwerk van mobiele agents, waarbij wordt aangetoond dat semantische wereldmodellen mobiele agents direct kunnen verbeteren door de taaksuccespercentages te verhogen. De code en dataset zijn beschikbaar op https://github.com/jacklishufan/MobileWorld.
Het extraheren van gebouwen uit remote sensing-beelden is een uitdagende taak vanwege de complexe structurele variaties van gebouwen. Bestaande methoden gebruiken convolutionele of self-attention blokken om multi-schaal kenmerken in segmentatiemodellen vast te leggen, maar de inherente kloof in de kenmerkenpiramides en onvoldoende integratie van globale en lokale kenmerken leidt tot onnauwkeurige, ambigue extractieresultaten. Om dit probleem aan te pakken, presenteren wij in dit artikel een Uncertainty-Aggregated Global-Local Fusion Network (UAGLNet), dat in staat is hoogwaardige globale-lokale visuele semantiek te benutten onder begeleiding van onzekerheidsmodellering. Specifiek stellen wij een nieuwe coöperatieve encoder voor, die hybride CNN- en transformer-lagen in verschillende stadia gebruikt om respectievelijk de lokale en globale visuele semantiek vast te leggen. Een intermediate cooperative interaction block (CIB) is ontworpen om de kloof tussen de lokale en globale kenmerken te verkleinen wanneer het netwerk dieper wordt. Vervolgens stellen wij een Global-Local Fusion (GLF)-module voor om de globale en lokale representaties complementair te fuseren. Bovendien, om de segmentatie-ambiguïteit in onzekere regio's te verminderen, stellen wij een Uncertainty-Aggregated Decoder (UAD) voor om pixelgewijze onzekerheid expliciet te schatten om de segmentatienauwkeurigheid te verbeteren. Uitgebreide experimenten tonen aan dat onze methode superieure prestaties bereikt in vergelijking met andere state-of-the-art methoden. Onze code is beschikbaar op https://github.com/Dstate/UAGLNet.
Dit artikel introduceert JMMMU-Pro, een op afbeeldingen gebaseerde Japanse multidisciplinaire multimodale begripstestbank, en Vibe Benchmark Construction, een schaalbare constructiemethode. In navolging van de evolutie van MMMU naar MMMU-Pro breidt JMMMU-Pro JMMMU uit door de vraagafbeelding en vraagtekst samen te voegen tot één enkele afbeelding, waardoor een benchmark ontstaat die geïntegreerd visueel-tekstueel begrip via visuele waarneming vereist. Voor de opbouw van JMMMU-Pro stellen we Vibe Benchmark Construction voor, een methodologie waarbij een beeldgenererend model (bijvoorbeeld Nano Banana Pro) kandidaat-visuele vragen produceert, en mensen de output verifiëren en indien nodig opnieuw genereren met aangepaste prompts om de kwaliteit te waarborgen. Door gebruik te maken van de zeer realistische beeldgeneratiecapaciteiten van Nano Banana Pro en het vermogen om schone Japanse tekst in te bedden, construeren we tegen lage kosten een hoogwaardige benchmark die een breed scala aan achtergronden en lay-outontwerpen bestrijkt. Experimentele resultaten tonen aan dat alle open-source LMM's aanzienlijk moeite hebben met JMMMU-Pro, wat JMMMU-Pro onderstreept als een belangrijke benchmark voor het leiden van toekomstige inspanningen in de open-sourcegemeenschap. Wij zijn van mening dat JMMMU-Pro een strenger evaluatie-instrument biedt voor het beoordelen van de Japanse capaciteiten van LMM's en dat onze Vibe Benchmark Construction ook een efficiënte richtlijn biedt voor de toekomstige ontwikkeling van op afbeeldingen gebaseerde VQA-benchmarks.
De snelle integratie van generatieve kunstmatige intelligentie in het onderwijs heeft een digitale transformatie in e-teaching teweeggebracht, maar gebruikerspercepties van AI-onderwijsapps blijven onderbelicht. Deze studie voert een sentimentgedreven evaluatie uit van gebruikersrecensies van top AI-onderwijsapps in de Google Play Store om de effectiviteit, uitdagingen en pedagogische implicaties te beoordelen. Onze aanpak omvatte het scrapen van app-gegevens en recensies, RoBERTa voor binaire sentimentclassificatie, GPT-4o voor het extraheren van kernpunten en GPT-5 voor het synthetiseren van de belangrijkste positieve/negatieve thema's. Apps werden ingedeeld in zeven categorieën (bijv. huiswerkhulpen, wiskundeoplossers, taaltools), waarbij overlappingen multifunctionele ontwerpen weerspiegelen. Resultaten wijzen op overwegend positieve sentimenten, waarbij huiswerkapps zoals Edu AI (95,9% positief) en Answer.AI (92,7%) leiden op het gebied van nauwkeurigheid, snelheid en personalisatie, terwijl taal-/LMS-apps (bijv. Teacher AI met 21,8% positief) achterblijven vanwege instabiliteit en beperkte functies. Positieve punten benadrukken efficiëntie in brainstormen, probleemoplossing en betrokkenheid; negatieve punten richten zich op betaalmuren, onnauwkeurigheden, advertenties en technische mankementen. Trends tonen aan dat huiswerkhulpen gespecialiseerde tools overtreffen, wat het democratiserende potentieel van AI benadrukt naast risico's van afhankelijkheid en ongelijkheid. De discussie stelt toekomstige ecosystemen voor met hybride AI-mensmodellen, VR/AR voor immersief leren, en een routekaart voor ontwikkelaars (adaptieve personalisatie) en beleidsmakers (regulering van monetarisering voor inclusiviteit). Dit onderstreept de rol van generatieve AI bij het bevorderen van e-teaching door ethische verfijningen mogelijk te maken die gelijkwaardige, innovatieve omgevingen stimuleren. De volledige dataset is hier beschikbaar (https://github.com/erfan-nourbakhsh/GenAI-EdSent).
De laatste jaren is de state-of-the-art op het gebied van ongecontroleerde video-instancesegmentatie sterk afhankelijk geweest van synthetische videogegevens, gegenereerd uit objectgecentreerde beelddatasets zoals ImageNet. Video-synthese door het kunstmatig verschuiven en schalen van instance-maskers van afbeeldingen slaagt er echter niet in realistische beweging in video's accuraat te modelleren, zoals perspectiefveranderingen, beweging door delen van één of meerdere instances, of camerabeweging. Om dit probleem aan te pakken, stellen we een model voor ongecontroleerde video-instancesegmentatie voor dat uitsluitend wordt getraind op echte videogegevens. We vertrekken van ongecontroleerde instancesegmentatie-maskers op individuele videoframes. Deze enkelvoudige framesegmentaties vertonen echter temporele ruis en hun kwaliteit varieert door de video heen. Daarom stellen we temporele coherentie vast door hoogwaardige sleutelmaskers in de video te identificeren met behulp van deep motion-priors. De schaarse pseudo-annotaties van de sleutelmaskers worden vervolgens gebruikt om een segmentatiemodel te trainen voor impliciete maskerpropagatie, waarvoor we een Sparse-To-Dense Distillation-benadering voorstellen, ondersteund door een Temporal DropLoss. Na het trainen van het uiteindelijke model op de resulterende dichte labelset, presteert onze aanpak beter dan de huidige state-of-the-art in verschillende benchmarks.
Het succes van moderne machine learning hangt af van toegang tot hoogwaardige trainingsgegevens. In veel praktijkscenario's, zoals het verkrijgen van gegevens uit openbare repositories of het delen tussen instellingen, zijn gegevens van nature georganiseerd in afzonderlijke datasets die verschillen in relevantie, kwaliteit en bruikbaarheid. Het selecteren van welke repositories of instellingen moeten worden doorzocht om nuttige datasets te vinden, en welke datasets moeten worden opgenomen in modeltraining, zijn daarom cruciale beslissingen. Toch selecteren de meeste bestaande methoden afzonderlijke steekproeven en behandelen ze alle gegevens als even relevant, waarbij verschillen tussen datasets en hun bronnen worden genegeerd. In dit werk formaliseren we de taak van datasetselectie: het selecteren van volledige datasets uit een grote, heterogene pool om de downstream-prestaties te verbeteren onder beperkte middelen. We stellen Dataset Selection via Hierarchies (DaSH) voor, een datasetselectiemethode die het nut modelleert op zowel dataset- als groepsniveau (bijvoorbeeld collecties, instellingen), waardoor efficiënte generalisatie vanuit beperkte observaties mogelijk wordt. Over twee publieke benchmarks (Digit-Five en DomainNet) heen presteert DaSH state-of-the-art gegevensselectie-baselines met tot 26,2% in nauwkeurigheid, terwijl aanzienlijk minder verkenstappen nodig zijn. Ablatiestudies tonen aan dat DaSH robuust is in settings met beperkte middelen en bij gebrek aan relevante datasets, waardoor het geschikt is voor schaalbare en adaptieve datasetselectie in praktische leerworkflows met meerdere bronnen.
Dit artikel introduceert een grootschalige multimodale dataset voor verwijzende bewegingsuitdrukking-videosegmentatie, gericht op het segmenteren en volgen van doelobjecten in video's op basis van taal beschrijvingen van objectbewegingen. Bestaande datasets voor verwijzende videosegmentatie richten zich vaak op opvallende objecten en gebruiken taalexpressies die rijk zijn aan statische attributen, waardoor het doelobject mogelijk in een enkel frame geïdentificeerd kan worden. Dergelijke datasets benadrukken de rol van beweging in zowel video's als taal onvoldoende. Om de haalbaarheid te onderzoeken van het gebruik van bewegingsuitdrukkingen en beweging-redeneeraanwijzingen voor pixel niveau video begrip, introduceren wij MeViS, een dataset met 33.072 door mensen geannoteerde bewegingsuitdrukkingen in zowel tekst als audio, die 8.171 objecten omvat in 2.006 video's van complexe scenario's. Wij evalueren 15 bestaande methoden voor 4 taken die door MeViS worden ondersteund, waaronder 6 methoden voor verwijzende video-objectsegmentatie (RVOS), 3 audio-gestuurde video-objectsegmentatie (AVOS) methoden, 2 methoden voor verwijzende multi-objecttracking (RMOT) en 4 videobijschriftmethoden voor de nieuw geïntroduceerde taak van het genereren van verwijzende bewegingsuitdrukkingen (RMEG). De resultaten tonen zwakke punten en beperkingen aan van bestaande methoden bij het adresseren van bewegingsuitdrukking-gestuurd videobegrip. Wij analyseren verder de uitdagingen en stellen een aanpak LMPM++ voor voor RVOS/AVOS/RMOT die nieuwe state-of-the-art resultaten behaalt. Onze dataset biedt een platform dat de ontwikkeling van bewegingsuitdrukking-gestuurde videobegrip-algoritmen in complexe videoscenes vergemakkelijkt. De voorgestelde MeViS dataset en de broncode van de methode zijn openbaar beschikbaar op https://henghuiding.com/MeViS/.
Grootschalige Vision-Language Models (VLMs) vertonen indrukwekkende capaciteiten voor complex redeneren, maar hun mogelijkheden op het gebied van visuele sequentiële planning – het uitvoeren van meerstapsacties om een doel te bereiken – zijn grotendeels onontgonnen. Bovendien omvat praktische sequentiële planning vaak niet-optimale (foutieve) stappen, wat een uitdaging vormt voor VLMs om dergelijke stappen te detecteren en te corrigeren. Wij stellen de Corrective Sequential Planning Benchmark (CoSPlan) voor om VLMs te evalueren in foutgevoelige, op visie gebaseerde sequentiële planningstaken binnen 4 domeinen: doolhofnavigatie, blokherrangschikking, beeldreconstructie en objectreorganisatie. CoSPlan beoordeelt twee cruciale vaardigheden: Foutdetectie (het identificeren van niet-optimale acties) en Stapvoltooiing (het corrigeren en voltooien van actiereeksen om het doel te bereiken). Ondanks het gebruik van state-of-the-art redeneertechnieken zoals Chain-of-Thought en Scene Graphs, presteren VLMs (bijv. Intern-VLM en Qwen2) slecht op CoSPlan; zij slagen er niet in contextuele aanwijzingen te benutten om doelen te bereiken. Om dit aan te pakken, stellen we een nieuwe trainingsvrije methode voor, Scene Graph Incremental updates (SGI), die tussenliggende redeneerstappen introduceert tussen de initiële en doeltoestanden. SGI helpt VLMs te redeneren over sequenties, wat resulteert in een gemiddelde prestatieverbetering van 5,2%. Naast het verbeteren van de betrouwbaarheid bij correctieve sequentiële planning, generaliseert SGI naar traditionele planningstaken zoals Plan-Bench en VQA.
Text-to-video (T2V)-generatie heeft een snelle ontwikkeling doorgemaakt, maar het handhaven van consistente personage-identiteiten in verschillende scènes blijft een grote uitdaging. Bestaande personalisatiemethoden richten zich vaak op gezichtsidentiteit, maar slagen er niet in bredere contextuele aanwijzingen zoals kapsel, kleding en lichaamsvorm te behouden, die cruciaal zijn voor visuele samenhang. Wij stellen ContextAnyone voor, een contextbewust diffusiekader dat consistente personagevideogeneratie uit tekst en een enkele referentieafbeelding realiseert. Onze methode reconstrueert gezamenlijk de referentieafbeelding en genereert nieuwe videoframes, waardoor het model referentie-informatie volledig kan waarnemen en benutten. Referentie-informatie wordt effectief geïntegreerd in een op DiT gebaseerde diffusie-backbone via een nieuwe Emphasize-Attention-module die selectief referentiebewuste kenmerken versterkt en identiteitsverloop tussen frames voorkomt. Een dual-guidance-verliesfunctie combineert diffusie- en referentiereconstructiedoelen om de uiterlijke geloofwaardigheid te verbeteren, terwijl de voorgestelde Gap-RoPE-positie-embedding referentie- en videotokens scheidt om temporele modellering te stabiliseren. Experimenten tonen aan dat ContextAnyone bestaande referentie-naar-video-methoden overtreft op het gebied van identiteitsconsistentie en visuele kwaliteit, en coherente, contextbewuste personagevideo's genereert in diverse bewegingen en scènes. Projectpagina: https://github.com/ziyang1106/ContextAnyone{https://github.com/ziyang1106/ContextAnyone}.