Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Bestaande methoden voor diepteschatting zijn fundamenteel beperkt tot het voorspellen van diepte op discrete beeldrasters. Dergelijke representaties beperken hun schaalbaarheid naar willekeurige uitvoerresoluties en belemmeren het herstel van geometrische details. Dit artikel introduceert InfiniDepth, dat diepte representeert als neurale impliciete velden. Door middel van een eenvoudige maar effectieve lokale impliciete decoder kunnen we diepte opvragen bij continue 2D-coördinaten, wat willekeurige-resolutie en fijnmazige diepteschatting mogelijk maakt. Om de capaciteiten van onze methode beter te beoordelen, hebben we een hoogwaardige 4K synthetische benchmark samengesteld uit vijf verschillende games, die diverse scènes omspant met rijke geometrische en uiterlijke details. Uitgebreide experimenten tonen aan dat InfiniDepth state-of-the-art prestaties bereikt op zowel synthetische als real-world benchmarks voor relatieve en metrieke diepteschatting, waarbij het vooral uitblinkt in gebieden met fijne details. Het methode komt ook ten goede aan de taak van novel view synthesis bij grote viewpoint-verschuivingen, en produceert hoogwaardige resultaten met minder gaten en artefacten.
Spreker-Toegeschreven, Getimestampte Transcriptie (SATS) beoogt gesproken tekst te transcriberen en het spreekmoment van elke spreker precies te bepalen, wat bijzonder waardevol is voor vergadertranscriptie. Bestaande SATS-systemen gebruiken zelden een end-to-end-formulering en worden verder beperkt door beperkte contextvensters, een zwak langetermijngeheugen voor sprekers en het onvermogen om timestamps uit te voeren. Om deze beperkingen aan te pakken, presenteren we MOSS Transcribe Diarize, een verenigd multimodaal groot taalmodel dat Spreker-Toegeschreven, Getimestampte Transcriptie gezamenlijk uitvoert in een end-to-end-paradigma. Getraind op uitgebreide real-world data en uitgerust met een contextvenster van 128k voor inputs tot 90 minuten, schaalt MOSS Transcribe Diarize goed en generaliseert het robuust. In uitgebreide evaluaties presteert het beter dan state-of-the-art commerciële systemen op meerdere openbare en interne benchmarks.
Recente tekst-naar-video diffusiemodellen kunnen overtuigende videosequenties genereren, maar ze blijven stil – ze missen de semantische, emotionele en sfeervolle aanwijzingen die audio biedt. Wij introduceren LTX-2, een open-source foundation-model dat in staat is om op een uniforme manier hoogwaardige, temporeel gesynchroniseerde audiovisuele content te genereren. LTX-2 bestaat uit een asymmetrische dual-stream transformer met een videostream van 14B parameters en een audiostream van 5B parameters, die met elkaar zijn verbonden via bidirectionele audio-video cross-attentielagen met temporele positionele embeddings en cross-modality AdaLN voor gedeelde timestep-conditionering. Deze architectuur maakt efficiënte training en inferentie van een uniform audiovisueel model mogelijk, waarbij meer capaciteit wordt toegewezen aan videogeneratie dan aan audiogeneratie. Wij gebruiken een meertalige tekstencoder voor een breder begrip van prompts en introduceren een modality-aware classifier-free guidance (modality-CFG) mechanisme voor verbeterde audiovisuele afstemming en beheerbaarheid. Naast het genereren van spraak produceert LTX-2 rijke, coherente audiotracks die de personages, omgeving, stijl en emotie van elke scène volgen – compleet met natuurlijke achtergrond- en foley-elementen. In onze evaluaties behaalt het model state-of-the-art audiovisuele kwaliteit en promptnaleving onder open-source systemen, terwijl het resultaten levert die vergelijkbaar zijn met propriëtaire modellen tegen een fractie van hun rekenkosten en inferentietijd. Alle modelgewichten en code zijn openbaar vrijgegeven.
Wij introduceren SciEvalKit, een uniforme toolkit voor benchmarken, ontworpen om AI-modellen voor wetenschap te evalueren over een breed scala aan wetenschappelijke disciplines en taakcapaciteiten. In tegenstelling tot algemene evaluatieplatforms richt SciEvalKit zich op de kerncompetenties van wetenschappelijke intelligentie, waaronder Wetenschappelijke Multimodale Perceptie, Wetenschappelijk Multimodaal Redeneren, Wetenschappelijk Multimodaal Begrip, Wetenschappelijk Symbolisch Redeneren, Wetenschappelijke Codegeneratie, Wetenschappelijke Hypothesevorming en Wetenschappelijk Kennisbegrip. Het ondersteunt zes grote wetenschappelijke domeinen, variërend van natuurkunde en scheikunde tot astronomie en materiaalkunde. SciEvalKit legt een fundament van expert-grade wetenschappelijke benchmarks, samengesteld uit real-world, domeinspecifieke datasets, om ervoor te zorgen dat taken authentieke wetenschappelijke uitdagingen weerspiegelen. De toolkit beschikt over een flexibele, uitbreidbare evaluatiepijplijn die batch-evaluatie over modellen en datasets mogelijk maakt, ondersteuning biedt voor integratie van aangepaste modellen en datasets, en transparante, reproduceerbare en vergelijkbare resultaten levert. Door vermogen-gebaseerde evaluatie en disciplinaire diversiteit te verbinden, biedt SciEvalKit een gestandaardiseerde yet aanpasbare infrastructuur om de volgende generatie van wetenschappelijke foundation-modellen en intelligente agents te benchmarken. De toolkit is open-source en actief in onderhoud om gemeenschapsgedreven ontwikkeling en vooruitgang in AI4Science te bevorderen.
Hoewel Unified Multimodal Models (UMM's) opmerkelijke successen hebben geboekt in cross-modale begripsvorming, bestaat er een aanzienlijke kloof in hun vermogen om deze interne kennis aan te wenden voor hoogwaardige generatie. Wij formaliseren deze discrepantie als Conductieafasie, een fenomeen waarbij modellen multimodale invoer correct interpreteren, maar moeite hebben om dit begrip om te zetten in getrouwe en controleerbare synthese. Om dit aan te pakken, stellen wij UniCorn voor, een eenvoudig maar elegant zelfverbeteringsraamwerk dat geen externe data of supervisie door een leraarmodel vereist. Door een enkel UMM op te delen in drie collaboratieve rollen – Proposer, Solver en Judge – genereert UniCorn hoogwaardige interacties via zelfspel en gebruikt het cognitieve patroonreconstructie om latent begrip te destilleren tot expliciete generatieve signalen. Om het herstel van multimodale coherentie te valideren, introduceren wij UniCycle, een cycle-consistency benchmark gebaseerd op een Text naar Image naar Text reconstructielus. Uitgebreide experimenten tonen aan dat UniCorn uitgebreide en substantiële verbeteringen bereikt ten opzichte van het basismodel op zes algemene beeldgeneratiebenchmarks. Met name behaalt het SOTA-prestaties op TIIF (73.8), DPG (86.8), CompBench (88.5) en UniCycle, terwijl het bovendien substantiële winsten boekt van +5.0 op WISE en +6.5 op OneIG. Deze resultaten benadrukken dat onze methode de T2I-generatie aanzienlijk verbetert terwijl een robuust begrip behouden blijft, wat de schaalbaarheid aantoont van volledig zelfgesuperviseerde verfijning voor verenigde multimodale intelligentie.
Wij introduceren NitroGen, een vision-action foundation model voor generalistische game-agents, getraind op 40.000 uur aan gameplayvideo's van meer dan 1.000 games. Het model bevat drie kernelementen: 1) een video-actie-dataset op internetschaal, samengesteld door automatisch speleracties uit openbaar beschikbare gameplayvideo's te extraheren, 2) een multi-game benchmarkomgeving die cross-game generalisatie kan meten, en 3) een verenigd vision-action model getraind met grootschalige behavior cloning. NitroGen toont sterke bekwaamheid in uiteenlopende domeinen, waaronder gevechtssituaties in 3D-actiegames, precisiebesturing in 2D-platformers en exploratie in procedureel gegenereerde werelden. Het model transferreert effectief naar onbekende games en behaalt tot 52% relatieve verbetering in taaksuccespercentages ten opzichte van modellen die vanaf nul worden getraind. Wij publiceren de dataset, de evaluatiesuite en de modelgewichten om onderzoek naar generalistische belichaamde agents te bevorderen.
Vision-language-action (VLA)-modellen bereiken sterke generalisatie via grootschalige pre-training, maar inzet in de praktijk vereist expertniveau taakvaardigheid naast brede algemeenheid. Bestaande post-trainingmethoden voor VLA-modellen zijn typisch offline, single-robot of taakspecifiek, wat effectieve on-policy-aanpassing en schaalbaar leren uit real-world-interactie beperkt. Wij introduceren een Scalable Online Post-training (SOP)-systeem dat online, gedistribueerde, multi-task post-training van generalistische VLA-modellen direct in de fysieke wereld mogelijk maakt. SOP koppelt uitvoering en leren nauw via een closed-loop-architectuur waarin een vloot robots continu on-policy-ervaring en menselijke interventiesignalen naar een gecentraliseerde cloud-leerunit streamt, en asynchroon bijgewerkte beleidsmodellen ontvangt. Dit ontwerp ondersteunt directe on-policy-correctie, schaalt ervaringsverzameling via parallelle inzet en behoudt algemeenheid tijdens aanpassing. SOP is agnostisch ten opzichte van de keuze van post-trainingalgoritme; wij implementeren het met zowel interactieve imitatieleren (HG-DAgger) als reinforcement learning (RECAP). Over een reeks real-world-manipulatietaken, inclusief het vouwen van textiel, het in elkaar zetten van dozen en het bijvullen van waren, tonen wij aan dat SOP de prestaties van grote voorgetrainde VLA-modellen aanzienlijk verbetert terwijl een gedeeld beleidsmodel over taken heen behouden blijft. Effectieve post-training kan binnen uren real-world-interactie worden bereikt, en prestaties schalen bijna-lineair met het aantal robots in de vloot. Deze resultaten suggereren dat nauwe koppeling van online leren met inzet op vlootschaal essentieel is voor efficiënte, betrouwbare en schaalbare post-training van generalistische robotbeleidsmodellen in de fysieke wereld.
Videostilisering, een belangrijke neventaak van videogeneratiemodellen, is nog niet grondig onderzocht. De invoer-stijlvoorwaarden omvatten doorgaans tekst, stijlafbeeldingen en een gestileerd eerste frame. Elke voorwaarde heeft een kenmerkend voordeel: tekst is flexibeler, stijlafbeeldingen bieden een nauwkeuriger visueel anker, en een gestileerd eerste frame maakt stilisering van lange video's haalbaar. Bestaande methoden zijn echter grotendeels beperkt tot één type stijlvoorwaarde, wat hun toepassingsbereik beperkt. Bovendien leidt het gebrek aan hoogwaardige datasets tot stijlinconsistentie en temporele flikkering. Om deze beperkingen aan te pakken, introduceren we DreamStyle, een uniform raamwerk voor videostilisering dat ondersteuning biedt voor (1) tekstgeleide, (2) stijlafbeeldingsgeleide en (3) eerste-frame-geleide videostilisering, vergezeld van een goed ontworpen datacuratiepijplijn om hoogwaardige gekoppelde videogegevens te verkrijgen. DreamStyle is gebouwd op een standaard Image-to-Video (I2V)-model en getraind met behulp van een Low-Rank Adaptation (LoRA) met token-specifieke up-matrices die de verwarring tussen verschillende voorwaardelijke tokens vermindert. Zowel kwalitatieve als kwantitatieve evaluaties tonen aan dat DreamStyle geschikt is voor alle drie de videostiliseringstaken en de concurrentie overtreft op het gebied van stijlconsistentie en videokwaliteit.
Wij presenteren MiMo-V2-Flash, een Mixture-of-Experts (MoE)-model met in totaal 309B parameters en 15B actieve parameters, ontworpen voor snelle, krachtige redeneer- en agentcapaciteiten. MiMo-V2-Flash hanteert een hybride aandachtarchitectuur die Sliding Window Attention (SWA) afwisselt met globale aandacht, met een glijdend venster van 128 tokens onder een hybride verhouding van 5:1. Het model is voorgetraind op 27 biljoen tokens met Multi-Token Prediction (MTP), waarbij een native contextlengte van 32k wordt gebruikt die vervolgens is uitgebreid naar 256k. Om de rekencapaciteit na de training efficiënt te schalen, introduceert MiMo-V2-Flash een nieuw Multi-Teacher On-Policy Distillation (MOPD)-paradigma. In dit kader bieden domeingespecialiseerde teachers (bijvoorbeeld getraind via grootschalige reinforcement learning) een dichte en token-level beloning, waardoor het studentmodel de expertise van de teacher perfect kan beheersen. MiMo-V2-Flash kan concurreren met top open-weight modellen zoals DeepSeek-V3.2 en Kimi-K2, ondanks dat het slechts respectievelijk 1/2 en 1/3 van hun totale parameters gebruikt. Tijdens inferentie bereikt MiMo-V2-Flash, door MTP te hergebruiken als een draft-model voor speculatieve decodering, een acceptatielengte van maximaal 3.6 en een decoderingsversnelling van 2.6x met drie MTP-lagen. Wij maken zowel de modelgewichten als de drielaagse MTP-gewichten open source om open onderzoek en gemeenschapssamenwerking te bevorderen.
Ondanks aanzienlijke vooruitgang worstelen multimodale grote taalmodellen nog steeds met visueel wiskundig probleemoplossen. Sommige recente werken erkennen dat visuele perceptie een knelpunt vormt bij visueel wiskundig redeneren, maar hun oplossingen beperken zich tot het verbeteren van de extractie en interpretatie van visuele invoer. Opmerkelijk genoeg negeren zij allemaal het kernprobleem van of de geëxtraheerde visuele aanwijzingen getrouw worden geïntegreerd en correct worden benut in het daaropvolgende redeneerproces. Gemotiveerd door dit inzicht presenteren we CogFlow, een nieuw cognitief geïnspireerd driefasenraamwerk dat een kennisinternalisatiefase incorporeert en expliciet de hiërarchische stroom van menselijk redeneren simuleert: perceptie ⇒ internalisatie ⇒ redeneren. In lijn met deze hiërarchische stroom verbeteren we al zijn fasen holistisch. We ontwikkelen Synergistische Visuele Beloningen om de perceptiecapaciteiten in parametrische en semantische ruimten te stimuleren, waardoor de extractie van visuele informatie uit symbolen en diagrammen gezamenlijk verbetert. Om een getrouwe integratie van geëxtraheerde visuele aanwijzingen in het daaropvolgende redeneren te garanderen, introduceren we een Kennisinternalisatie-Beloningsmodel in de internalisatiefase, dat een brug slaat tussen perceptie en redeneren. Bovendien ontwerpen we een Visueel-Gestuurd Beleidsoptimalisatie-algoritme om verder af te dwingen dat het redeneren is verankerd in de visuele kennis, waardoor wordt voorkomen dat modellen naar kortsluitroutes zoeken die coherent lijken maar visueel ongegronde redeneerketens zijn. Verder dragen we een nieuwe dataset MathCog bij voor modeltraining, die voorbeelden bevat met meer dan 120K hoogwaardige, op perceptie-redenering afgestemde annotaties. Uitgebreide experimenten en analyses op veelgebruikte benchmarks voor visueel wiskundig redeneren valideren de superioriteit van de voorgestelde CogFlow.
Digitale twins, als nauwkeurige digitale representaties van fysieke systemen, zijn geëvolueerd van passieve simulatie-instrumenten naar intelligente en autonome entiteiten door de integratie van kunstmatige intelligentie-technologieën. Dit artikel presenteert een uniform vierfasenraamwerk dat de KI-integratie over de levenscyclus van digitale twins systematisch karakteriseert, van modellering en spiegeling tot interventie en autonoom beheer. Door bestaande technologieën en praktijken samen te vatten, destilleren we een uniform vierfasenraamwerk dat systematisch beschrijft hoe KI-methodologieën worden ingebed in de levenscyclus van digitale twins: (1) modellering van de fysieke twin via fysica-gebaseerde en fysica-geïnformeerde KI-benaderingen, (2) spiegeling van het fysieke systeem naar een digitale twin met realtime synchronisatie, (3) interventie in de fysieke twin via voorspellende modellering, anomaliedetectie en optimalisatiestrategieën, en (4) realisatie van autonoom beheer via grote taalmodelen, foundation-modellen en intelligente agents. We analyseren de synergie tussen fysica-gebaseerd modelleren en data-gedreven leren, waarbij we de verschuiving benadrukken van traditionele numerieke oplossers naar fysica-geïnformeerde en foundation-modellen voor fysieke systemen. Verder onderzoeken we hoe generatieve KI-technologieën, inclusief grote taalmodelen en generatieve wereldmodellen, digitale twins transformeren in proactieve en zelfverbeterende cognitieve systemen die in staat zijn tot redeneren, communicatie en het genereren van creatieve scenario's. Door een domeinoverstijgende review van elf toepassingsdomeinen, waaronder gezondheidszorg, lucht- en ruimtevaart, slimme productie, robotica en slimme steden, identificeren we gemeenschappelijke uitdagingen met betrekking tot schaalbaarheid, verklaarbaarheid en betrouwbaarheid, en schetsen we richtingen voor verantwoorde KI-gedreven digitale twinsystemen.
Grote taalmodellen (LLM's) vertonen, ondanks sterke prestaties op complexe wiskundige problemen, systematische beperkingen bij teltaken. Dit probleem ontstaat door architecturale beperkingen van transformers, waarbij tellen over lagen heen wordt uitgevoerd, wat leidt tot verminderde precisie bij grotere telproblemen door dieptebeperkingen. Om deze beperking aan te pakken, stellen we een eenvoudige testtijdstrategie voor, geïnspireerd op System-2 cognitieve processen, die grote teltaken opsplitst in kleinere, onafhankelijke deelproblemen die het model betrouwbaar kan oplossen. We evalueren deze aanpak met observationele en causale mediatieanalyses om het onderliggende mechanisme van deze System-2-achtige strategie te begrijpen. Onze mechanistische analyse identificeert cruciale componenten: latente tellingen worden berekend en opgeslagen in de laatste itemrepresentaties van elk deel, overgedragen naar tussenstappen via specifieke aandachtskoppen, en geaggregeerd in de eindfase om de totale telling te produceren. Experimentele resultaten tonen aan dat deze strategie LLM's in staat stelt architecturale beperkingen te overstijgen en hoge nauwkeurigheid te bereiken op grootschalige teltaken. Dit werk verschaft mechanistisch inzicht in System-2 tellen binnen LLM's en presenteert een generaliseerbare aanpak om hun redeneergedrag te verbeteren en te begrijpen.
Wij presenteren WebGym, de grootste open-source omgeving tot op heden voor het trainen van realistische visuele webagents. Echte websites zijn niet-stationair en divers, waardoor kunstmatige of kleinschalige taaksets onvoldoende zijn voor robuuste beleidsleren. WebGym bevat bijna 300.000 taken met rubric-gebaseerde evaluaties over diverse, real-world websites en moeilijkheidsgraden. Wij trainen agents met een eenvoudig recept voor reinforcement learning (RL), dat traint op de eigen interactietrajecten (rollouts) van de agent, waarbij taakbeloningen als feedback worden gebruikt om het leren te sturen. Om RL-schaling mogelijk te maken, versnellen we de bemonstering van trajecten in WebGym door de ontwikkeling van een hoogdoorzet asynchroon rollout-systeem, specifiek ontworpen voor webagents. Ons systeem bereikt een 4-5x snelheidswinst voor rollouts in vergelijking met naïeve implementaties. Ten tweede schalen we de breedte, diepte en omvang van de taakset, wat resulteert in een aanhoudende prestatieverbetering. Het fine-tunen van een sterk basis vision-language model, Qwen-3-VL-8B-Instruct, op WebGym resulteert in een verbetering van het succespercentage op een out-of-distribution testset van 26,2% naar 42,9%, wat aanzienlijk beter presteert dan agents gebaseerd op propriëtaire modellen zoals GPT-4o en GPT-5-Thinking, die respectievelijk 27,1% en 29,8% behalen. Deze verbetering is substantieel omdat onze testset uitsluitend bestaat uit taken op websites die nooit tijdens de training zijn gezien, in tegenstelling tot veel andere eerdere werken over het trainen van visuele webagents.
Wij presenteren Muses, de eerste trainingsvrije methode voor fantastische 3D-wezengeneratie in een feed-forward paradigma. Bestaande methoden, die vertrouwen op deelbewuste optimalisatie, manuele assemblage of 2D-beeldgeneratie, produceren vaak onrealistische of onsamenhangende 3D-assets vanwege de uitdagingen van intricate deelniveau-manipulatie en beperkte out-of-domain-generatie. Muses daarentegen benut het 3D-skelet, een fundamentele representatie van biologische vormen, om diverse elementen expliciet en rationeel samen te stellen. Deze skeletbasis formaliseert 3D-contentcreatie als een structuurbewuste pijplijn van ontwerp, compositie en generatie. Muses begint met het construeren van een creatief samengesteld 3D-skelet met een samenhangende lay-out en schaal door middel van grafisch-gebonden redenering. Dit skelet leidt vervolgens een op voxels gebaseerd assemblageproces binnen een gestructureerde latente ruimte, waarbij regio's van verschillende objecten worden geïntegreerd. Ten slotte wordt beeldgestuurd uiterlijk-modelering onder skeletcondities toegepast om een stijlconsistente en harmonieuze textuur voor de samengestelde vorm te genereren. Uitgebreide experimenten bevestigen de state-of-the-art prestaties van Muses wat betreft visuele kwaliteit en afstemming met tekstuele beschrijvingen, evenals het potentieel voor flexibele 3D-objectbewerking. Projectpagina: https://luhexiao.github.io/Muses.github.io/.
De snelle integratie van Multimodale Large Language Models (MLLM's) in kritieke toepassingen wordt in toenemende mate belemmerd door hardnekkige beveiligingslekken. Bestaande red-teamingbenchmarks zijn echter vaak gefragmenteerd, beperkt tot enkelvoudige tekstinteracties en missen de schaalbaarheid die nodig is voor systematische evaluatie. Om dit aan te pakken, introduceren we OpenRT, een uniform, modulair en hoogwaardig red-teamingraamwerk ontworpen voor een uitgebreide MLLM-veiligheidsevaluatie. De kern van OpenRT bestaat uit een paradigmaverschuiving in geautomatiseerd red-teaming door de introductie van een adversariaal kernel die een modulaire scheiding mogelijk maakt over vijf kritieke dimensies: modelintegratie, datasetbeheer, aanvalsstrategieën, beoordelingsmethoden en evaluatiemetrics. Door aanvalsinterfaces te standaardiseren, ontkoppelt het de adversariële logica van een hoogwaardige asynchrone runtime, wat systematische schaling over diverse modellen mogelijk maakt. Ons raamwerk integreert 37 uiteenlopende aanvalsmethodologieën, variërend van white-boxgradiënten, multimodale perturbaties tot geavanceerde multi-agent evolutionaire strategieën. Via een uitgebreide empirische studie van 20 geavanceerde modellen (inclusief GPT-5.2, Claude 4.5 en Gemini 3 Pro) leggen we kritieke veiligheidslekken bloot: zelfs toonaangevende modellen slagen er niet in om zich te generaliseren over aanvalsparadigma's, waarbij vooraanstaande modellen gemiddelde Attack Success Rates vertonen van wel 49,14%. Opmerkelijk is dat onze bevindingen aantonen dat redeneermodellen niet inherent superieure robuustheid bezitten tegen complexe, multi-turn jailbreaks. Door OpenRT open source te maken, bieden we een duurzame, uitbreidbare en continu onderhouden infrastructuur die de ontwikkeling en standaardisatie van AI-veiligheid versnelt.
First-Frame Propagation (FFP) biedt een veelbelovend paradigma voor controleerbare videobewerking, maar bestaande methoden worden belemmerd door een afhankelijkheid van omslachtige runtime-guidance. Wij identificeren de oorzaak van deze beperking in de ontoereikendheid van huidige traininsdatasets, die vaak te kort, van lage resolutie zijn en niet over de vereiste taakdiversiteit beschikken om robuuste temporele priors aan te leren. Om dit fundamentele datatekort aan te pakken, introduceren we eerst FFP-300K, een nieuwe grootschalige dataset bestaande uit 300K hoogwaardige videoparen met een resolutie van 720p en een lengte van 81 frames, geconstrueerd via een principieel tweesporenproces voor diverse lokale en globale bewerkingen. Voortbouwend op deze dataset stellen we een nieuw raamwerk voor dat ontworpen is voor werkelijk guidance-vrije FFP en de kritische spanning oplost tussen het behouden van het eerste-frame-uiterlijk en het bewaren van de bronvideobeweging. Architecturaal introduceren we Adaptive Spatio-Temporal RoPE (AST-RoPE), dat positionele coderingen dynamisch hermapt om verwijzingen naar uiterlijk en beweging te ontwarren. Op objectiefniveau hanteren we een zelfdistillatiestrategie waarbij een identiteitspropagatietaak fungeert als een krachtige regularisator, die langetermijntemporele stabiliteit waarborgt en semantische drift voorkomt. Uitgebreide experimenten op de EditVerseBench-benchmark tonen aan dat onze methode aanzienlijk beter presteert dan bestaande academische en commerciële modellen, met een verbetering van ongeveer 0,2 PickScore en 0,3 VLM-score ten opzichte van deze concurrenten.
Geo-localisatie heeft als doel de geografische oorsprong van een bepaald signaal af te leiden. In de computer vision heeft geo-localisatie gediend als een veeleisende benchmark voor compositioneel redeneren en is relevant voor de openbare veiligheid. De vooruitgang op het gebied van audio-geo-localisatie wordt daarentegen beperkt door een gebrek aan hoogwaardige audio-locatieparen. Om deze kloof te dichten, introduceren we AGL1K, de eerste benchmark voor audio-geo-localisatie voor audio-taalmodellen (ALM's), die 72 landen en gebieden bestrijkt. Om betrouwbaar lokaliseerbare samples te extraheren uit een crowdsourcingplatform, stellen we de metriek 'Audio Localiseerbaarheid' voor, die de informatiewaarde van elke opname kwantificeert, wat resulteert in 1.444 gecureerde audioclips. Evaluaties van 16 ALM's tonen aan dat ALM's geo-localisatiecapaciteit hebben ontwikkeld. We constateren dat closed-source modellen open-source modellen aanzienlijk overtreffen, en dat linguïstische aanwijzingen vaak dominant zijn als steun voor voorspellingen. We analyseren verder de redeneersporen van ALM's, regionale bias, foorzaken, en de interpreteerbaarheid van de localiseerbaarheidsmetriek. Over het geheel genomen legt AGL1K een basis voor audio-geo-localisatie en kan het ALM's vooruithelpen met betere georuimtelijke redeneercapaciteit.
Het vastleggen van complexe gebruikersvoorkeuren uit schaarse gedragssequenties blijft een fundamentele uitdaging in sequentiële aanbevelingssystemen. Recente latente redeneermethoden hebben potentie getoond door berekening tijdens testtijd uit te breiden via meerstapsredenering, maar zij vertrouwen uitsluitend op schaling op diepteniveau langs een enkel traject en lijden onder afnemende meeropbrengsten naarmate de redeneringsdiepte toeneemt. Om deze beperking aan te pakken, stellen wij Parallel Latent Reasoning (PLR) voor, een nieuw kader dat baanbrekend is in computationele schaling op breedteniveau door meerdere diverse redeneertrajecten gelijktijdig te verkennen. PLR construeert parallelle redeneerstromen via leerbare trigger-tokens in continue latente ruimte, behoudt diversiteit tussen stromen via globale redeneringsregularisatie en synthetiseert adaptief multi-stroom uitkomsten door middel van mixture-of-reasoning-streams aggregatie. Uitgebreide experimenten op drie real-world datasets tonen aan dat PLR state-of-the-art baseline-methoden aanzienlijk overtreft, terwijl het real-time inferentie-efficiëntie behoudt. Theoretische analyse valideert verder de effectiviteit van parallel redeneren bij het verbeteren van generalisatievermogen. Ons werk opent nieuwe wegen voor het vergroten van redeneervermogen in sequentiële aanbevelingen voorbij bestaande diepteschaling.
Ondanks indrukwekkende vooruitgang in hoogwaardige beeldgeneratie, worstelen generatieve modellen nog steeds met logica-intensieve instructievolging, wat een hardnekkige kloof tussen redeneren en uitvoering blootlegt. Gesloten systemen (zoals Nano Banana) hebben daarentegen sterke reasoning-gestuurde beeldgeneratie gedemonstreerd, wat een aanzienlijke kloof met huidige open-source modellen benadrukt. Wij beargumenteren dat het dichten van deze kloof niet enkel betere visuele generatoren vereist, maar uitvoerbare redenering: het decomponeren van hoogwaardige intenties in gegronde, verifieerbare plannen die het generatieve proces direct sturen. Hiertoe presenteren wij Unified Thinker, een taakonafhankelijke reasoning-architectuur voor algemene beeldgeneratie, ontworpen als een uniforme planningkern die in diverse generatoren en workflows kan worden geïntegreerd. Unified Thinker ontkoppelt een toegewijde Thinker van de beeld-Generator, waardoor modulaire upgrades van redeneervermogen mogelijk zijn zonder het volledige generatieve model te hertrainen. Wij introduceren verder een tweefasen-trainingsparadigma: eerst bouwen we een gestructureerde planninginterface voor de Thinker, waarna we reinforcement learning toepassen om diens beleid te gronden in pixelgebaseerde feedback, waardoor plannen worden gestimuleerd die visuele correctheid boven tekstuele geloofwaardigheid optimaliseren. Uitgebreide experimenten in tekst-naar-beeldgeneratie en beeldbewerking tonen aan dat Unified Thinker de beeldredenering en generatiekwaliteit aanzienlijk verbetert.
Grote redeneermodellen (LRM's) behalen sterke prestaties op wiskundige redeneertaken, wat vaak wordt toegeschreven aan hun vermogen om expliciete keten-van-gedachten (CoT)-verklaringen te genereren. Recent onderzoek toont echter aan dat LRM's vaak bij het juiste antwoord arriveren voordat ze deze tekstuele redeneerstappen hebben voltooid, wat wijst op de aanwezigheid van latent redeneren – interne, non-verbale berekening gecodeerd in verborgen toestanden. Hoewel dit fenomeen in het Engels is onderzocht, blijft het multilinguale gedrag ervan grotendeels onbekend. In dit artikel voeren we een systematisch onderzoek uit naar multilinguaal latent redeneren in LRM's in 11 talen. Met behulp van een op truncatie gebaseerde strategie onderzoeken we hoe het juiste antwoord naar voren komt wanneer het model slechts gedeeltelijke redeneersporen krijgt, wat ons in staat stelt de stapsgewijze vorming van latente voorspellingen te meten. Onze resultaten tonen duidelijk bewijs van multilinguaal latent redeneren, zij het ongelijkmatig: sterk in talen met veel middelen, zwakker in talen met weinig middelen, en over het algemeen minder waarneembaar op moeilijkere benchmarks. Om te begrijpen of deze verschillen verschillende interne mechanismen weerspiegelen, voeren we verder representatie-analyses uit. Ondanks oppervlakkige verschillen, stellen we vast dat de interne evolutie van voorspellingen zeer consistent is tussen talen en grotendeels overeenkomt met het Engels – een patroon dat wijst op een Engelsschalig latent redeneerpad.
Het detecteren van onbekende deepfake-manipulaties blijft een van de meest uitdagende problemen in gezichtsvervalsingsdetectie. Huidige state-of-the-art methoden slagen er niet in om te generaliseren naar onzichtbare manipulaties, omdat ze voornamelijk vertrouwen op supervised training met bestaande deepfakes of pseudo-fakes, wat leidt tot overfitting aan specifieke vervalsingspatronen. In tegenstelling daartoe bieden zelfgesuperviseerde methoden een groter potentieel voor generalisatie, maar bestaande werk worstelt om onderscheidende representaties uitsluitend uit zelfsupervisie te leren. In dit artikel stellen we ExposeAnyone voor, een volledig zelfgesuperviseerde aanpak gebaseerd op een diffusiemodel dat expressiesequences uit audio genereert. Het kernidee is dat, zodra het model is gepersonaliseerd voor specifieke personen met referentiesets, het de identiteitsafstanden tussen verdachte video's en gepersonaliseerde personen kan berekenen via diffusie-reconstructiefouten, waardoor gezichtsvervalsingsdetectie voor personen van belang mogelijk wordt. Uitgebreide experimenten tonen aan dat 1) onze methode de vorige state-of-the-art methode met 4,22 procentpunten overtreft in de gemiddelde AUC op DF-TIMIT, DFDCP, KoDF en IDForge datasets, 2) ons model ook in staat is om door Sora2 gegenereerde video's te detecteren, waar eerdere aanpakken slecht presteren, en 3) onze methode zeer robuust is tegen corrupties zoals blur en compressie, wat de toepasbaarheid in real-world gezichtsvervalsingsdetectie benadrukt.
Wij introduceren AceFF, een vooraf getrainde machine learning interatomaire potentiaal (MLIP) die is geoptimaliseerd voor de ontdekking van kleine molecuul geneesmiddelen. Hoewel MLIP's zijn opgekomen als efficiënte alternatieven voor Density Functional Theory (DFT), blijft generaliseerbaarheid over diverse chemische ruimtes een uitdaging. AceFF lost dit op via een verfijnde TensorNet2-architectuur die is getraind op een uitgebreide dataset van geneesmiddelachtige verbindingen. Deze aanpak levert een krachtveld op dat een balans vindt tussen doorvoersnelheid bij inferentie en DFT-nauwkeurigheid. AceFF ondersteunt volledig de essentiële elementen voor de medicinale chemie (H, B, C, N, O, F, Si, P, S, Cl, Br, I) en is expliciet getraind om geladen toestanden te hanteren. Validatie tegen strenge benchmarks, waaronder complexe torsie-energiescans, moleculaire dynamica-trajecten, gebatchte minimalisaties, en de nauwkeurigheid van krachten en energie, toont aan dat AceFF een nieuwe state-of-the-art vestigt voor organische moleculen. De AceFF-2 modelgewichten en inferentiecode zijn beschikbaar op https://huggingface.co/Acellera/AceFF-2.0.
Beeldontmisting is een cruciale uitdaging in de computervisie, essentieel voor het verbeteren van beeldhelderheid onder mistige omstandigheden. Traditionele methoden baseren zich vaak op atmosferische verstrooiingsmodellen, terwijl recente deep learning-technieken, specifiek Convolutionele Neurale Netwerken (CNN's) en Transformers, de prestaties hebben verbeterd door beeldkenmerken effectief te analyseren. Echter, CNN's worstelen met afhankelijkheden over lange afstand, en Transformers vereisen aanzienlijke rekenbronnen. Om deze beperkingen aan te pakken, stellen wij DehazeSNN voor, een innovatieve architectuur die een U-Net-achtig ontwerp integreert met Spiking Neural Networks (SNN's). DehazeSNN vangt multi-schaal beeldkenmerken terwijl het lokale en afhankelijkheden over lange afstand efficiënt beheert. De introductie van het Orthogonal Leaky-Integrate-and-Fire Blok (OLIFBlock) verbetert de communicatie tussen kanalen, wat resulteert in superieure ontmistingsprestaties met een verminderde rekenlast. Onze uitgebreide experimenten tonen aan dat DehazeSNN zeer concurrerend is met state-of-the-art methoden op benchmarkdatasets, en hoogwaardige mistvrije beelden levert met een kleiner modelformaat en minder multiply-accumulate bewerkingen. De voorgestelde ontmistingsmethode is openbaar beschikbaar op https://github.com/HaoranLiu507/DehazeSNN.
De detectie van haatspraak op sociale media kampt met uitdagingen op het gebied van zowel nauwkeurigheid als uitlegbaarheid, vooral voor minder onderzochte Indische talen. Wij stellen een nieuw uitlegbaarheids-gestuurd trainingsraamwerk voor, X-MuTeST (eXplainable Multilingual haTe Speech deTection), voor haatspraakdetectie dat semantische redeneervaardigheden op hoog niveau van grote taalmmodellen (LLM's) combineert met traditionele technieken om aandacht te verbeteren. We breiden dit onderzoek uit naar Hindi en Telugu, naast Engels, door voor elk woord benchmark-rationelen, geannoteerd door mensen, te verschaffen die het toegekende klasselabel rechtvaardigen. De X-MuTeST-uitlegbaarheidsmethode berekent het verschil tussen de voorspellingskansen van de originele tekst en die van unigrammen, bigrammen en trigrammen. De uiteindelijke verklaringen worden berekend als de vereniging van LLM-verklaringen en X-MuTeST-verklaringen. Wij tonen aan dat het benutten van menselijke rationelen tijdens de training zowel de classificatieprestatie als de uitlegbaarheid verbetert. Bovendien leidt het combineren van menselijke rationelen met onze uitlegbaarheidsmethode om de modelaandacht te verfijnen tot verdere verbeteringen. We evalueren de uitlegbaarheid met plausibiliteitsmaten zoals Token-F1 en IOU-F1, en betrouwbaarheidsmaten zoals Volledigheid en Toereikendheid. Door ons te richten op talen met minder middelen, bevordert ons werk de detectie van haatspraak in diverse linguïstische contexten. Onze dataset bevat token-level rationale annotaties voor 6.004 Hindi-, 4.492 Telugu- en 6.334 Engelstalige samples. Data en code zijn beschikbaar op https://github.com/ziarehman30/X-MuTeST.
Wij onderzoeken twee eigenschappen van AI-systemen: capaciteit (wat een systeem kan doen) en stuurbaarheid (hoe betrouwbaar gedrag naar beoogde uitkomsten kan worden gestuurd). Een centrale vraag is of groei in capaciteit de stuurbaarheid vermindert en het risico op controleverlies vergroot. Wij maken ook een onderscheid tussen geautoriseerde stuurbaarheid (bouwers die betrouwbaar beoogd gedrag bereiken) en ongeautoriseerde stuurbaarheid (aanvallers die niet-toegestaan gedrag ontlokken). Dit onderscheid benadrukt een fundamenteel veiligheids-beveiligingsdilemma van AI-modellen: veiligheid vereist een hoge stuurbaarheid om controle af te dwingen (bijv. stoppen/weigeren), terwijl beveiliging een lage stuurbaarheid vereist voor kwaadwillende actoren om schadelijk gedrag te ontlokken. Deze spanning vormt een aanzienlijke uitdaging voor open-weight modellen, die momenteel een hoge stuurbaarheid vertonen via gangbare technieken zoals fine-tuning of adversarial attacks. Met behulp van Qwen3 en InstrumentalEval constateren wij dat een kort anti-instrumenteel prompt-achtervoegsel de gemeten convergentiesnelheid sterk reduceert (bijv. vermijden van uitschakeling, zelfreplicatie). Voor Qwen3-30B Instruct daalt de convergentiesnelheid van 81,69% onder een pro-instrumenteel achtervoegsel naar 2,82% onder een anti-instrumenteel achtervoegsel. Onder anti-instrumentele prompting vertonen grotere, afgestemde modellen lagere convergentiesnelheden dan kleinere (Instruct: 2,82% vs. 4,23%; Thinking: 4,23% vs. 9,86%). Code is beschikbaar op github.com/j-hoscilowicz/instrumental_steering.