Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Veel momenten in de echte wereld wachten niet op een vraag van een gebruiker. Er ontstaat een brand op een beveiligingsmonitor, een gezichtsuitdrukking flitst voorbij tijdens een videogesprek, of een product dat een kijker wil, schiet voorbij in een livestream. Toch blijven de huidige grote modellen grotendeels beurtgebonden qua ontwerp: ze antwoorden alleen als ze worden aangesproken, en zelfs videobel-apps die interactief lijken, werken nog steeds als vraag-antwoordsystemen, die alleen reageren wanneer ze worden gepolst of aangespoord. Wij pleiten voor een ander paradigma: een model dat aanwezig is in de wereld als een mens. Het kijkt continu naar wat er nu gebeurt, beslist zelf of het spreekt of stil blijft, interacteert in realtime en delegeert naar een achtergrondmodel wanneer het probleem moeilijk is. Om interactiemodellen en hun adoptie in verschillende domeinen te bevorderen, leveren we twee volledig open-source bijdragen. Ten eerste brengen we JoyAI-VL-Interaction uit, een 8B-schaal, visie-eerst VL-interactiemodel. Het model neemt de responsbeslissing intern, waarbij het elke seconde kiest om stil te blijven, te reageren of te delegeren naar een achtergrondmodel, en blinkt uit in visie-getriggerde responsiviteit en tijdsbewustzijn. We koppelen het aan een overdraagbaar trainingsrecept, waaruit mogelijkheden voortkomen die we nooit hebben getraind, zoals het begeleiden van een shopper door veranderende app-schermen of het improviseren van een college aan de hand van een diapresentatie. Ten tweede brengen we een compleet, implementeerbaar systeem uit dat rond dat model is gebouwd. Het systeem streamt elke lopende video naar het model, waardoor het echt aanwezig is in de wereld. Alle andere componenten zijn inplugbaar, waaronder ASR/TTS-modules, geheugen, visualisatie-UI en een achtergrondbrein dat verbinding kan maken met elke API of agent. In zes realistische scenario's geven menselijke beoordelaars de voorkeur aan JoyAI-VL-Interaction boven de in-app videobel-assistenten van Doubao en Gemini met een ruime marge. Voor zover wij weten, is dit het eerste open, visiegestuurde interactiemodel dat wordt uitgebracht samen met het trainingsrecept, de gegevens en het complete implementeerbare systeem.
Data vertellen verhalen die de samenleving vormgeven; de taak van de datajournalist is om ruwe informatie om te zetten in verhalen die niet-experts kunnen vertrouwen. Een hoogwaardig nieuwsartikel kost een redactieteam weken: het zoeken naar context, het uitvoeren van statistische analyses, het kiezen van een invalshoek en het ontwerpen van visualisaties. Huidige agents kunnen afzonderlijke stappen goed aan: datawetenschaps-agents sluiten de analysecyclus, terwijl ontwerp-agents prachtige websites synthetiseren. Maar kan een agent als een end-to-end datajournalist fungeren? We introduceren Data Journalist Agent (Data2Story), een multi-agent raamwerk dat gespecialiseerde rollen organiseert in één virtuele nieuwsredactie. Data2Story levert twee innovaties. (i) Beweringen zijn onderbouwd met bewijs: een Inspector koppelt elk getal, elke invalshoek en elk medium terug naar data, code of een externe referentie. (ii) Artikelen zijn multimodaal gegenereerd: in plaats van terug te vallen op platte tekst en statische grafieken, redeneert Data2Story over wat lezers willen zien en zet vervolgens multimodale tools in, zoals interactieve kaarten voor geografie en audio voor muziek. We evalueren Data2Story op 18 artikelen, elk met de oorspronkelijk gepubliceerde deskundige versie, langs vier assen: (a) dekkingsgraad van de menselijke vs. agent-invalshoek; (b) rubric-evaluatie met 53 deelnemers over vijf dimensies; (c) computergebruik-agents als beoordelaars, een kostenbesparende proxy voor hoe lezers interactieve artikelen navigeren; en (d) verifieerbaarheid, waarbij een codeverificateur uitspraken opnieuw tegen de data uitvoert en beweringen controleert aan de hand van referenties. Data2Story produceert concurrerende, met bewijs traceerbare multimediaverhalen, met een bijzondere sterkte in transparantie en auditbaarheid. Menselijke artikelen behouden een voorsprong in redactionele invalshoek, creatief ontwerp en presentatie. We positioneren Data2Story als een samenwerkingspartner voor journalisten, die meer op bewijs gebaseerde, transparante en verifieerbare berichtgeving mogelijk maakt. Code en demo's zijn beschikbaar op https://data2story.github.io.
Algemene robotstrategieën moeten gebruikersinstructies volgen, terwijl ze redeneren over hoe objecten, camera's en robotacties interageren in de 3D-fysieke wereld. Recente visie-taal-actiemodellen (VTA's) en video-wereld-actiemodellen (WAM's) erven sterke semantische of temporele voorkennis van grootschalige fundamentmodellen, maar opereren nog steeds primair op 2D-beeldframes of van 2D afgeleide latente ruimten, waardoor de voor contactrijke manipulatie vereiste 3D-geometrie impliciet blijft. Wij stellen het Geometrisch Actiemodel (GAM) voor, een taalgestuurde manipulatiestrategie die een voorgetraind geometrisch fundamentmodel (GFM) direct herbestemt als een gedeeld substraat voor perceptie, temporele predictie en actiedecodering. GAM splitst het GFM op een tussenliggende laag: de ondiepe lagen dienen als een observatie-encoder, en een causale toekomstvoorspeller ingevoegd op de splitsingslaag voorspelt toekomstige latente tokens, geconditioneerd door taal, proprioceptie en actiegeschiedenis. De voorspelde toekomstige tokens worden vervolgens door de resterende GFM-blokken geleid voor kenmerkpropagatie en decodering, waardoor één enkele backbone zowel toekomstige geometrie als acties kan produceren. Dit ontwerp voorziet het GFM van taalgestuurd temporeel wereldmodelleren met minimale architecturale aanpassing, terwijl de rijke geometrische voorkennis behouden blijft. Over een breed scala aan simulatie- en echte robotmanipulatiebenchmarks is GAM nauwkeuriger, robuuster, sneller en lichter dan huidige op fundamentmodelschaal gebaseerde basislijnen.
DreamX-World 1.0 is een algemeen toepasbaar interactief tekst/beeld-naar-video wereldmodel voor beheerbare langehorizontgeneratie. Het ondersteunt cameranavigatie, herbezoeken aan eerder waargenomen regio's en aanwijsbare gebeurtenissen in fotorealistische, game-achtige en gestileerde domeinen. Onze data-engine combineert camera-accuraat Unreal Engine-rendering, actierijke gameplay-opnames en echte wereldvideo's met herstelde camerageometrie. Voor camerabesturing introduceren we E-PRoPE, een lichte variant van projectieve positionele codering die de projectieve camerageometrie van PRoPE behoudt terwijl camera-bewuste aandacht wordt toegepast op ruimtelijk gereduceerde tokens. We zetten een bidirectionele videogenerator om in een autoregressief wereldmodel met enkele stappen door gebruik te maken van causal forcing, DMD-stijl destillatie en lange-uitrolltraining. Training op zelfgegenereerde langehorizontcontexten stelt het model bloot aan zijn eigen gegenereerde geschiedenis en vermindert de stijl- en kleurdrift die zich ophoopt over autoregressieve brokken. Memory-Conditioned Scene Persistence herstelt eerdere weergaven door op camerageometrie gebaseerd ophalen, terwijl residual recycling het conditioneringspad minder gevoelig maakt voor imperfecte geheugenlatenten. Event Instruction Tuning voegt samengestelde gebeurtenisbesturing toe, en reinforcement learning-afstemming herstelt de camerabesturing en visuele kwaliteit na destillatie. Met gemengde-precisie DiT-uitvoering, residueel hergebruik, 75%-gesnoeide VAE-decodering en asynchrone pijplijnparallellisme bereikt DreamX-World 1.0 tot 16 FPS op acht RTX 5090 GPU's. Op onze 5-seconden basisevaluatie behaalt DreamX-World 1.0 een camerabesturingsscore van 73,75 en een algemene score van 84,76, waarmee het HY-WorldPlay 1.5 en LingBot-World overtreft in algemene score, die respectievelijk 80,79 en 80,45 behalen.
Dit technische rapport introduceert VibeThinker-3B, een compact dicht model met 3B parameters, ontwikkeld om te onderzoeken hoe ver verifieerbaar redeneren kan worden opgevoerd binnen een strikt klein-modelregime. Voortbouwend op het Spectrum-to-Signal post-trainingparadigma verbeteren we het model systematisch via een geoptimaliseerde pijplijn die curriculum-gebaseerd gesuperviseerd fine-tunen, multi-domein versterkingsleren en offline zelfdestillatie omvat. Experimentele evaluaties tonen aan dat VibeThinker-3B grensverleggende prestaties levert op zeer veeleisende verifieerbare taken. Specifiek behaalt het een score van 94,3 op AIME26 (verbeterend tot 97,1 met claim-niveau test-tijd schaling), een 80,2 Pass@1 op LiveCodeBench v6, en vertoont het sterke buiten-distributie generalisatie met een acceptatiegraad van 96,1% op recente ongeziene LeetCode-wedstrijden. Dit plaatst het effectief in de prestatieband van eersteklas redeneersystemen, waarbij het overeenkomt met of beter presteert dan vlaggenschipmodellen die orden van grootte groter zijn, zoals DeepSeek V3.2, GLM-5 en Gemini 3 Pro. Bovendien bevestigt een score van 93,4 op IFEval dat deze extreme redeneerverbetering geen afbreuk doet aan strikte instructiebeheersbaarheid. Als uitbreiding van ons eerdere 1,5B-werk motiveren deze bevindingen de Parametrische Compressie-Dekkingshypothese, die verifieerbaar redeneren beschouwt als comprimeerbaar in compacte redeneerkernen, terwijl open-domein kennis en algemene competentie brede parameterdekking vereisen over feiten, concepten en lange-staartscenario's. Dit perspectief suggereert dat compacte modellen niet slechts implementatie-efficiënte substituten zijn, maar een complementair pad vormen naar grensverleggende prestaties in parameter-dichte competentiegebieden.
Large Language Model (LLM) codeeragenten hebben sterke resultaten behaald bij software-engineeringtaken, maar het verkennen van repositories blijft een grote bottleneck: het lokaliseren van relevante code verbruikt aanzienlijke tokenbudgetten en vervuilt de context van de agent met irrelevante fragmenten. In de meeste agenten verkent hetzelfde model de repository en lost het de taak op, waardoor verkennende reads en searches in de geschiedenis van de oplosser achterblijven. Wij presenteren FastContext, een toegewijd verkenningssubagent dat repository-verkenning scheidt van het oplossen van taken. Op verzoek aangeroepen, voert FastContext parallelle toolaanroepen uit en retourneert het beknopte bestandspaden en lijnbereiken als gefocuste context. FastContext wordt aangedreven door gespecialiseerde verkenningsmodellen met een omvang van 4B tot 30B parameters. We bootstrappen deze vanuit sterke referentiemodeltrajecten en verfijnen ze met taakgebonden beloningen voor brede eerste-zoekactie, meerstappen-bewijsverzameling en precieze citatiegeneratie. Over SWE-bench Multilingual, SWE-bench Pro en SWE-QA verbetert integratie van FastContext in Mini-SWE-Agent de end-to-end oplossingspercentages met tot 5,5%, terwijl het tokenverbruik van de codeeragent tot 60% daalt, met marginale overhead. Deze resultaten tonen aan dat repository-verkenning gescheiden kan worden van het oplossen en effectief kan worden afgehandeld door gespecialiseerde modellen. Code en data: https://github.com/microsoft/fastcontext
Efficiënte en schaalbare agentische intelligentie vereist modellen die zowel lage-latentie-reacties als sterke redeneercapaciteiten kunnen leveren, terwijl ze praktisch blijven om te trainen, te bedienen en te implementeren. In dit rapport presenteren we Ling‑2.6 en Ring‑2.6, een familie van modellen die ontworpen is om deze uitdaging op schaal aan te pakken. Ling‑2.6 is geoptimaliseerd voor directe responsgeneratie en hoge capaciteit per uitvoertoken, terwijl Ring‑2.6 is afgestemd op diepere redenering en geavanceerdere agentische workflows. In plaats van vanaf nul te trainen, upgraden we het Ling‑2.0‑basismodel door middel van architectuurmigratie-pre-training en grootschalige post-training. Deze upgrade wordt geleid door een uniform co‑ontwerp van modelarchitectuur, optimalisatiedoelstellingen, serveersystemen en agent‑trainingsomgevingen, wat verbeteringen mogelijk maakt in zowel modelcapaciteit als implementatie‑efficiëntie. Op architectuurniveau introduceren we een hybride lineair aandachtsontwerp dat Lightning Attention integreert met MLA, wat de efficiëntie van training en decodering over lange context verbetert. Om de tokenefficiëntie verder te verbeteren, optimaliseren we de capaciteit per uitvoertoken via Evolutionary Chain‑of‑Thought, Linguistic Unit Policy Optimization, bidirectionele preferentie‑uitlijning en distilatie van de kortste correcte respons. Voor agentische capaciteiten stellen we KPop voor, een reinforcement learning‑framework dat ontworpen is om stabiele training van Ring‑2.6‑1T op grootschalige omgevingsgebonden data te ondersteunen. KPop verbetert de trainingsefficiëntie door asynchrone planning over codering, zoeken, toolgebruik en workflowuitvoering, waardoor schaalbaar leren van complexe agent‑omgevingsinteracties mogelijk wordt. Samen bieden Ling‑2.6 en Ring‑2.6 een praktische weg naar efficiënte, schaalbare en open agentische systemen. We open‑sourcen alle checkpoints in de 2.6‑familie om verder onderzoek en ontwikkeling in praktische agentische intelligentie te ondersteunen.
Gemaskeerde Diffusie Taalmodellen (MDLMs) zijn uitgekristalliseerd als een eigen paradigma voor sequentiegeneratie. Naarmate MDLMs diverser worden in capaciteiten en kennisdekking, rijst de belangrijke vraag hoe hun kennis te combineren. Hiertoe onderzoeken we eerst de unieke decoderingsdynamiek van MDLMs. We ontdekken dat succesvolle generaties stabiele betrouwbaarheidsdynamiek vertonen over antwoordrelevante posities, terwijl onbetrouwbare trajecten vaak kunnen worden gecorrigeerd door het injecteren van veelbelovende tussentoestanden van andere modellen. Geleid door deze observatie stellen we TIE (Iteratief Ensemble op Basis van Trajecten) voor, een kennisintegratieraamwerk waarin MDLMs iteratief betrouwbare decoderingsbanen identificeren en deze doorgeven tussen modellen. TIE volgt de betrouwbaarheidsdynamiek over antwoordrelevante posities om te bepalen welk model op dat moment een betrouwbaarder traject volgt en selectief gedeeltelijk ontruiste sequenties overdraagt tussen modellen. Omdat het model op het veelbelovendere traject vaak verandert tijdens ontruisingsstappen, stelt TIE verschillende modellen in staat om complementaire sterktes bij te dragen in verschillende fasen van de generatie. Sterke prestaties op diverse redeneertaken, samen met onze analyses, suggereren dat TIE een praktische benadering biedt voor het onderbelichte probleem van MDLM-ensembling.
Inverse rendering van stedelijke scènes uit vastgelegde video's maakt talrijke toepassingen mogelijk, waaronder contentcreatie en simulatie van autonoom rijden. Fysisch gebaseerde renderingmethoden volgen en beheersen de lichtfysica, maar hebben last van reconstructie- en renderingartefacten. Hoewel generatieve modellen realistische video's produceren, bieden ze beperkte consistentie en beheersbaarheid. Wij presenteren BRDFusion, een uniform raamwerk dat twee complementaire modellen combineert voor inverse en forward rendering. Specifiek herstelt BRDFusion expliciete, consistente scène-eigenschappen met fysische modellering en vermindert het optimalisatieambiguïteit met generatieve voorkennis. Tijdens forward rendering biedt het fysische model beheersbare weergave op basis van de scèneconfiguratie, en het generatieve model verwijdert ruis en herstelt artefacten. Daarom produceert onze methode hoogwaardige video's terwijl het nauwkeurige controle mogelijk maakt, en overtreft het de basislijnen in zowel echte als synthetische scènes. Bovendien ondersteunt BRDFusion herbelichting vanuit nieuwe perspectieven, nachtsimulatie en dynamische objectinvoeging/-bewerking. Projectpagina: https://shigon255.github.io/brdfusion-page/
Visie-taalmodellen dienen als algemene interfaces voor complexe multimodale taken. De implementatie kent echter nog drie hiaten: VLM's hebben doorgaans een hoge latentie en kosten bij het verwerken van dichte videoframes en lange prompts, het agentenskelet blijft statisch na implementatie, en standaard video-QA-benchmarks testen niet of agenten visueel bewijs kunnen gebruiken in tool-gebruikende werkomgevingen. We presenteren VisualClaw, een zelf-evoluerende multimodale agent gebouwd rond twee principes. Ten eerste vermindert hybride codering de implementatiekosten door minder informatieve streamingframes te filteren met een trapsgewijze poort en de tekstvaardigheidsbank te comprimeren via hot/cold top-k injectie. Ten tweede stelt vaardigheidsevolutie de agent in staat om te leren van fouten: opgehaalde herinneringen conditioneren een evolueerder als directe aaneengeschakelde context of als begeleid bewijs, wat leidt tot updates van de vaardigheidsbank die toekomstige vragen helpen. In 4 video-QA-benchmarks met 2 VLM's verlaagt VisualClaw de API-kosten per vraag gemiddeld met -98% ten opzichte van volledige frame-upload en met -25,9% ten opzichte van de offline uniforme 8-frames-baseline, terwijl de nauwkeurigheid in de meeste instellingen toeneemt, bijvoorbeeld een gemiddelde +3,85% en een piek van +15,80% op EgoSchema met Gemini 3 Flash. Om dit hiaat aan te pakken, hebben we VisualClawArena samengesteld, een multimodale agentische benchmark met 200 scenario's, gebouwd via een strikte vijf-fasenpijplijn; modellen moeten video-bewijs, documenten, dynamische updates en uitvoerbare controles binnen een werkruimte gebruiken. Op VisualClawArena verbetert hetzelfde raamwerk met computer-gebruik agent-backends de macro-nauwkeurigheid met +2,9% voor Codex (GPT-5.5) en +3,2% voor Claude Code (Sonnet 4.6) ten opzichte van baselines zonder evolutie, met een kostenreductie van -9,5% vergeleken met de uniform gesamplede baseline. Deze eigenschappen maken VisualClaw een natuurlijke keuze voor edge-toepassingen, waar de cascade een streamsessie van 1 uur reduceert van ~3.600 API-uploads tot slechts 5-20 aanroepen en de zelf-evolutie het een perfecte gepersonaliseerde assistent maakt.
We introduceren Qwen-RobotWorld, een taal-gestuurd video wereldmodel voor belichaamde intelligentie. Met natuurlijke taal als een uniforme actie-interface voorspelt het fysiek gefundeerde toekomstige visuele trajecten op basis van huidige observaties, verspreid over robotmanipulatie, autonoom rijden, binnenhuisnavigatie en mens-robot-overdracht. Deze uniforme formulering biedt drie veelbelovende toepassingsrichtingen: synthetische datageneratie ter aanvulling van beleidstraining, schaalbare virtuele omgevingen voor beleidsevaluatie, en taal-gestuurde planningssignalen voor downstream robotbesturing. Dit wordt bereikt door een ontwerp uit drie delen: a) Double-Stream MMDiT met MLLM-actiecodering, waarbij een 60-laags double-stream diffusietransformator de ingevroren Qwen2.5-VL-semantiek koppelt aan video-VAE-latenten via laagsgewijze gezamenlijke aandacht; b) Belichaamde Wereldkennis (EWK), een corpus van 8,6M video-tekst (200M+ frames) met actie-taalkoppeling over 20+ belichamingen en 500+ actiecategorieën; en c) Algemeen+Expert Progressief Curriculum, een tweetraps trainingsstrategie die eerst algemene visuele voorkennis leert en vervolgens belichaamde specialisatie injecteert onder een gedeelde taalinterface. Uitgebreide resultaten tonen sterke concurrentiekracht: staat op de 1e plaats overall op EWMBench en DreamGen Bench, overtreft alle opensource-modellen op WorldModelBench en PBench. Aanvullende zero-shot-analyses op de RoboTwin-IF-benchmark ondersteunen verder robuuste generalisatie en multiview-consistentie.
Multi-task leren (MTL) is essentieel in aanbevelingssystemen om complementair leren tussen diverse gebruikersfeedback mogelijk te maken. Hoewel moderne industriële praktijken zijn overgestapt van DNN's naar Transformer-gerichte architecturen om sequentiemodellering en schaalbaarheid te versterken, ontkoppelen ze nog steeds kenmerkencodering van multi-task voorspelling, waarbij de Transformer wordt behandeld als een taak-agnostische encoder. Dit ontwerp beperkt fundamenteel de prestaties en schaalbaarheid door (1) een informatiefles te creëren onder heterogene taakdoelstellingen, (2) gradiëntinterferentie te induceren die leidt tot het wipverschijnsel, en (3) een dataovergang af te dwingen waarin op aandacht gebaseerd, context-adaptief representatie leren wordt omgezet in statische feed-forward taakvoorspelling met incompatibele informatie-lees-schrijf-dynamiek. Wij stellen OneRank voor, een Transformer-native multi-task rangschikkingsframework dat de scheiding tussen encoder en voorspeller opheft en taakprivate kanalen introduceert voor voorwaarts representatie leren en achterwaartse optimalisatie, waardoor taakspecialisatie mogelijk wordt terwijl interferentie tussen taken wordt verminderd. In de voorwaartse pas leert OneRank taakspecifieke representaties van onderaf door taakgeconditioneerde informatie selectie, kandidaatbewuste contextualisering en gecontroleerde interactie tussen taken. In de achterwaartse pas isoleert gradiëntdetachement tussen taken taakprivate parameterupdates van gedeelde kennisextractiemodules, waardoor negatieve overdracht wordt voorkomen. We vervangen verder statische taakspecifieke MLP-scorers door dynamische, op matching gebaseerde scoring voor contextbewuste gepersonaliseerde rangschikking. Door multi-task redenering te internaliseren binnen de Transformer-stack, vestigt OneRank een uniform en schaalbaar architectuurparadigma. Offline en online experimenten op grootschalige industriële datasets tonen aan dat OneRank significant beter presteert dan state-of-the-art baselines, terwijl de computationele efficiëntie behouden blijft.
Nu LLM-agenten worden ingezet in lange-horizon sessies, drijft contextaccumulatie de inferentiekosten op. Bestaande aanpakken gebruiken tekstsnoei of dynamische geheugenuitzetting om tokenvoetafdrukken te minimaliseren; echter, hun onbeperkte sequentiemutaties wijzigen lay-outs, wat leidt tot prefix-mismatches en cache-invalidatie. Dit onthult een kritieke afweging tussen tekstschaarste en promptcachecontinuïteit. Om dit aan te pakken, presenteren we TokenPilot, een tweegranulair contextbeheerframework. Globaal fungeert Innamebewuste Compactie als een raamwerkstuig om promptprefixes te stabiliseren en open-wereld omgevingsruis bij de innamepoort te elimineren. Lokaal bewaakt Levenscyclusbewuste Uitzetting de resterende bruikbaarheid van contextsegmenten en handhaaft een conservatief batch-beurt schema om inhoudsegmenten pas te offloaden wanneer de taakrelevantie vervalt. Experimenten op PinchBench en Claw-Eval in zowel geïsoleerde als continue modi tonen aan dat TokenPilot de kosten met 61% en 56% in geïsoleerde modus, en 61% en 87% in continue modus vermindert, terwijl concurrerende prestaties worden behouden in vergelijking met eerdere systemen. TokenPilot is geïntegreerd in LightMem2 op https://github.com/zjunlp/LightMem2.
Visuele wereldmodellen (VWMs) synthetiseren interactieve, actie-afhankelijke rollouts op basis van een enkele contextafbeelding. Het blijft echter een open vraag hoe robuust deze modellen zijn tegen adversarial verstoringen. Standaard adversarial aanvallen schieten tekort in het beoordelen van deze kwetsbaarheid omdat aanvallers geen grondwaarheid hebben voor toekomstige video's en de daaropvolgende gebruikersacties niet kunnen voorspellen. We introduceren BadWorld, een labelvrij adversarial raamwerk dat specifiek is ontworpen voor autoregressieve VWMs en beide beperkingen systematisch overwint. Ten eerste stellen we, om de noodzaak van toekomstige supervisie te omzeilen, een zelfgesuperviseerde snelheidsaanval voor die direct de vroege denoisingdynamiek van het model verstoort. Ten tweede formuleren we, om ervoor te zorgen dat de aanval generaliseert over onvoorspelbare gebruikersacties, een traject-adaptieve bi-level optimalisatie die actief moeilijke besturingsreeksen ontgint om controle-agnostische verstoringen te smeden. Geëvalueerd op representatieve VWMs met continue en discrete besturingen, onthult BadWorld ernstige structurele fragiliteit. Visueel niet te onderscheiden adversarial beelden leiden betrouwbaar tot catastrofale degradatie in toekomstige rollouts, resulterend in onvolledige denoising, structurele ineenstorting en besturingsinconsistentie. Deze bevindingen leggen kritieke risico's bloot voor de inzet van VWMs in veiligheid-kritische systemen, terwijl ze ook een praktisch mechanisme voor privacybescherming benadrukken.
Het uitbreiden van een visie-taal-actie (VLA)-beleid naar een nieuwe taak vereist doorgaans taakspecifieke op afstand bestuurde demonstraties en per-taak fine-tuning, wat aanpassing kostbaar maakt qua zowel gegevensverzameling als rekenkracht. In dit artikel tonen we aan dat deze aanpassingskosten per taak aan de doelzijde kunnen worden vervangen door retrieval. Ons retrieval-versterkte beleid wordt eenmalig getraind op gepaarde demonstraties van de beoogde belichaming (query) en een goedkopere belichaming (pool, bijv. een menselijke handvideo), en vervolgens bevroren. Nieuwe taken worden tijdens de inzet toegevoegd door demonstraties van de poolzijde aan een retrieval-pool toe te voegen. Het bevroren beleid conditioneert op opgehaalde trajecten bij iedere controlestap, zodat nieuwe taken worden geabsorbeerd door het indexeren van gegevens in plaats van het bijwerken van parameters. Fine-tuning is alleen nodig om een nieuwe, ongeziene belichaming aan te nemen, niet voor elke nieuwe taak. We tonen aan dat retrieval beleid verbetert naast een specifieke backbone, inclusief standaard VLA-beleid, maar het effect is vooral uitgesproken in Cosmos Policy, een op videogeneratie gebaseerd wereld-actiemodel (WAM). In deze setting levert retrieval een grove taakprogressie, terwijl de toekomstbeelddoelstelling van de WAM een extra visueel consistentiesignaal biedt dat de retrieval-geconditioneerde acties versterkt. Op PushT bestuderen we hoe retrieval een herbruikbare hoog-niveau bewegingsprior biedt voor cross-embodiment generalisatie naar ongeziene doelhoeken, terwijl op RoboTwin 2.0 onze methode cross-embodiment baselines overtreft op ongeziene taken, en we demonstreren de methode bovendien op een echte robot.
In dit artikel introduceren wij SP^3, een nieuw Plug-and-Play-algoritme dat maximum a posteriori-beeldherstel versnelt door ruisonderdrukkers te vervangen door sferische encoders (SE) als generatieve voorkennis. SP^3 benadert de onhandelbare proximale voorkennisstap door de strak gestructureerde latente ruimte van de SE te gebruiken als een robuuste projectie op de natuurlijke beeldmanifold. Het afwisselen van deze projectie met een gesloten-vorm dataconsistentiestap, via half-kwadratische splitsing (Half-Quadratic Splitting), levert stabiele convergentie op zonder dat gradiëntberekening nodig is tijdens de inferentie. Deze unieke formulering maakt 'altijd-beschikbaar' herstel mogelijk, waarbij al vanaf de eerste iteratie scherpe, aannemelijke beelden worden gegenereerd. Evaluaties over een verscheidenheid aan beeldhersteltaken tonen aan dat SP^3 een perceptuele kwaliteit bereikt die vergelijkbaar is met state-of-the-art zero-shot diffusie- en stromingsmethoden, terwijl het 3 tot 630 keer sneller is.
Het genereren van lange video's vereist dat terugkerende onderwerpen consistent blijven over verschillende shots, gezichtspunten, bewegingen en scènewisselingen. Bestaande temporele decompositiemethoden verbeteren de schaalbaarheid door video's shot voor shot te genereren. Ze richten zich echter voornamelijk op het optimaliseren van plausibele vervolgen van het volgende shot, zonder te verifiëren of het historische geheugen identiteitskritische aanwijzingen van het onderwerp bewaart. Als gevolg hiervan kunnen terugkerende onderwerpen worden verdund, overschreven of vergeten naarmate de generatie vordert. In dit artikel stellen we Memento voor, een door onderwerpreconstructie geleid raamwerk dat onderwerpsbehoud behandelt als een expliciet identiteitsverankeringsprobleem, gebaseerd op de premisse dat een geheugenbank die een onderwerp getrouw bewaart, de reconstructie van dat onderwerp uit alleen het geheugen zou moeten ondersteunen. Specifiek traint Memento gelijktijdig autoregressieve generatie van het volgende shot met op geheugen gebaseerde onderwerpreconstructie, waarbij de doelverschijningen worden hersteld met behulp van historisch geheugen en globale verhaalbijschriften. Om langetermijnbewijsmateriaal van het onderwerp te scheiden van kortetermijnaanwijzingen, introduceert Memento een dual-query geheugenmechanisme, waarbij de ene query identiteitsrelevant geheugen ophaalt en de andere keyframes met korte context selecteert voor coherente voortzetting. Bovendien biedt een onderwerpbewuste cinematische datapijplijn nauwkeurige reconstructiesupervisie via consistente, voornaamwoordvrije onderwerpomschrijvingen. Experimenten tonen aan dat Memento state-of-the-art prestaties levert op het gebied van consistentie van onderwerpen op lange termijn, coherentie tussen shots en visuele kwaliteit.
We introduceren de Massive Video Embedding Benchmark (MVEB), een benchmark met 23 taken voor video-embeddings, waaronder classificatie, zero-shot classificatie, clustering, paarclassificatie, retrieval en video-gerichte vraagbeantwoording. We evalueren 33 modellen en constateren dat geen enkel model domineert: MLLM-gebaseerde embeddings presteren het best op classificatie, clustering, paarclassificatie en QA; multimodale binding presteert het best op retrieval en zero-shot classificatie; generatieve MLLM's zonder contrastieve aanpassing presteren slecht op cross-modale taken. Gepaarde video-only versus audio+video-evaluaties tonen aan dat de bijdrage van audio afhangt van de herkomst van datasetannotaties: audio helpt wanneer labels uit beide modaliteiten zijn geproduceerd en schaadt wanneer ze uitsluitend uit visuele informatie zijn geproduceerd, een kloof van zes punten die consistent is over modelfamilies heen. MVEB is afgeleid van MVEB+, een pool van 184 taken, en is ontworpen om taakdiversiteit te behouden terwijl de evaluatiekosten worden verlaagd. Het integreert in het MTEB-ecosysteem voor uniforme evaluatie over tekst, beeld, audio en video. We geven MVEB en alle 184 taken vrij, samen met code en een leaderboard op https://github.com/embeddings-benchmark/mteb.
We introduceren Nemotron 3 Ultra, een Mixture-of-Experts Hybride Mamba-Attention taalmodel met in totaal 550 miljard en 55 miljard actieve parameters. We hebben Nemotron 3 Ultra voorgetraind op 20 biljoen teksttokens, de contextlengte uitgebreid tot 1M tokens, en nagekwantiseerd met behulp van Supervised Fine Tuning (SFT), Reinforcement Learning (RL) en Multi-teacher On-Policy Distillation (MOPD). Nemotron 3 Ultra is ons meest capabele model tot nu toe en maakt gebruik van meerdere sleuteltechnologieën – LatentMoE, Multi Token Prediction (MTP), NVFP4-voorbereiding, multi-omgeving RLVR, MOPD en redeneerbudgetcontrole. Nemotron 3 Ultra behaalt tot ~6x hogere inferentiedoorvoer in vergelijking met state-of-the-art openbaar beschikbare LLM's, terwijl het een vergelijkbare nauwkeurigheid behaalt. De state-of-the-art nauwkeurigheid, hoge inferentiedoorvoer en 1M token contextlengte maken Nemotron 3 Ultra ideaal voor langdurige autonome agenttaken. We open-sourcen de basis-, nagekwantiseerde en geposttrainde checkpoints, samen met de trainingsdata en het recept op HuggingFace.
Geavanceerde agenten tonen steeds vaker het vermogen om als autonome ingenieurs te opereren, wat leidt tot een groeiende vraag naar evaluatiebenchmarks die de complexiteit van echte ontwikkelomgevingen weerspiegelen. Dergelijke omgevingen omvatten doorgaans zowel complexe code als grootschalige data (bijv. bestandssystemen). Bestaande benchmarks evalueren echter meestal codegerichte of datagerichte capaciteiten afzonderlijk, waardoor er een duidelijke kloof is met reële ontwikkelscenario's. In dit artikel overbruggen we deze kloof door CODA-BENCH te introduceren, de eerste benchmark die code- en data-intelligentie gezamenlijk evalueert in een data-intensieve omgeving. We bouwen een data-intensieve Linux-sandbox op basis van het Kaggle-ecosysteem (met honderden datasets), waarin agenten actief complexe bestandshiërarchieën moeten verkennen om relevante bronnen te identificeren en code te genereren voor data-gedreven analytische taken. CODA-BENCH omvat 1.009 taken uit 31 gemeenschappen, waarbij elke taakomgeving gemiddeld 980 bestanden bevat, wat realistische dataschaal en ruis simuleert. Evaluaties van geavanceerde agenten tonen aan dat zelfs toppresterende systemen moeite hebben om gegevensontdekking effectief te integreren met code-uitvoering, met een succespercentage van slechts 61,1%. Deze resultaten benadrukken een substantiële kloof in de huidige agentcapaciteiten voor data-intensieve taken en wijzen op veelbelovende richtingen voor toekomstig onderzoek.
Webagenten handelen in lange interactiesequenties, maar bestaande benchmarks evalueren alleen het uiteindelijke succes, negeren alle procesinformatie en bieden weinig richtlijnen voor verbetering. In dit werk voeren we een analyse op procesniveau van webagenten uit. We introduceren WebStep, een benchmark met 1.800 taakinstanties met gecontroleerde moeilijkheidsgraad en automatische semantische toestandsregistratie. Elke website stelt een deterministische semantische MDP bloot naast de GUI: de agent bedient de interface, terwijl de omgeving op de achtergrond de toestanden en overgangen op hoog niveau vastlegt, wat fijnmazige analyse mogelijk maakt zonder handmatige annotatie. Op basis van het semantische traject tonen we eerst aan dat procesmetingen verschillen onthullen die onzichtbaar zijn voor uitkomstevaluatie: drie agenten waarvan de succespercentages binnen 31-33% liggen, verschillen in verrijkingsbereik versus uitvoeringsnauwkeurigheid. Vervolgens karakteriseert decompositie per vaardigheid de aard van deze verschillen, waarbij tegengestelde rankings per vaardigheid binnen dezelfde website naar voren komen: bijvoorbeeld op Housing presteert OpenAI CUA 23,7% beter dan Qwen3.5 bij commit-acties, maar 15,6% slechter bij filteren, wat een concrete te verbeteren vaardigheid aanwijst, zelfs binnen een domein. Bifurcatieanalyse lokaliseert verder de beslissende fout die de taak verloren doet gaan en toont aan dat deze fout agentspecifiek is in plaats van gedeeld. Ten slotte worden deze verschillen groter naarmate taken moeilijker worden: het succespercentage is vergelijkbaar bij eenvoudige taken, maar scheidt scherp naarmate verkenning veeleisender wordt. Onze analyse op procesniveau opent een nieuwe weg in de evaluatie van webagenten en biedt fijnmazig en bruikbaar inzicht in waar en hoe elke agent verbeterd zou moeten worden.
Naarmate grote taalmodellen (LLMs) zich verder ontwikkelen, wordt post-training versterkend leren (RL) steeds afhankelijker van multidimensionale beloningen om uitgebreide capaciteiten te cultiveren. Deze verschuiving vereist nieuwe algoritmen die in staat zijn diverse en potentieel concurrerende doelstellingen gelijktijdig te optimaliseren. Om dit aan te pakken, decomponeren bestaande methoden zoals Group reward-Decoupled Policy Optimization (GDPO) de totale score in onafhankelijke beloningsgroepen, waarna de RL-verliesfunctie per groep afzonderlijk wordt berekend. Deze strategie stuit echter nog steeds op multi-beloningsconflicten: een enkele rollout kan positieve advantages opleveren voor bepaalde beloningsdimensies, maar negatieve voor andere, waardoor tegenstrijdige signalen elkaar tijdens aggregatie opheffen en de efficiëntie van RL-training verder belemmeren. Geïnspireerd door Dynamic sAmpling Policy Optimization (DAPO), dat de RL-trainingsefficiëntie verbetert door ineffectieve rollouts met bijna nul advantages te filteren, stellen wij Group-Dynamic reward-Decoupled Policy Optimization (GD²PO) voor. Specifiek gebruikt GD²PO een conflictbewust filteringsmechanisme om rollouts te maskeren die lijden onder ernstige beloningsgewijze onenigheid. Door te voorkomen dat conflicterende signalen elkaar opheffen, behoudt en versterkt deze maskeringsstrategie de omvang van effectieve RL-advantages, waardoor de leerefficiëntie aanzienlijk wordt versneld. Bovendien introduceren we queryniveau-herweging om de update-intensiteit van elke query dynamisch aan te passen op basis van de algehele beloningsconsensus. Experimenten in diverse multi-beloningsscenario's, waaronder tool calling en afstemming op menselijke voorkeuren, tonen aan dat GD²PO consequent en significant beter presteert dan bestaande baselines. De code is beschikbaar op https://github.com/Qwen-Applications/GD2PO.
Van telefoonagenten wordt steeds vaker verwacht dat ze echte mobiele workflows voltooien, in plaats van alleen de volgende schermactie te voorspellen. Desondanks evalueert een groot deel van de huidige literatuur over mobiele agenten hen nog steeds primair als GUI-controllers die een scherm observeren, tikken en vegen uitvoeren, en worden beoordeeld op de doelapp-status. Echte telefoongebruikstaken zijn breder: ze vereisen beslissingen over wanneer app-GUI's, apparaatzijdige commando's of gestructureerde hulpmiddelen te gebruiken, terwijl ze bewijs moeten achterlaten dat het beoogde neveneffect daadwerkelijk is opgetreden. We introduceren PhoneHarness, een gemengde-actiebenchmark en uitvoeringsharness voor het bestuderen van telefoongebruikagenten op verifieerbare mobiele workflows. PhoneHarness voert een apparaatzijdige agentloop uit over GUI-, CLI- en hostzijde-toolacties, waarbij deterministische actieroutering wordt gecombineerd met begrensde GUI-delegatie en controleerbare uitvoeringssporen. De bijbehorende benchmark, PhoneHarness Bench, evalueert of agenten taken voltooien met waarneembare neveneffecten, niet alleen of ze plausibele eindantwoorden produceren. Op de geannoteerde evaluatiesplitsing bereikt PhoneHarness een slagingspercentage van 75,0%, waarmee het de sterkste niet-PhoneHarness-instellingen met 12,9 procentpunten overtreft. PhoneHarness en PhoneHarness Bench vervullen daarom verschillende maar onderling afhankelijke rollen: de harness maakt gemengde telefoonworkflows uitvoerbaar, terwijl de benchmark meet of agenten die harness betrouwbaar en veilig kunnen gebruiken. Onze bevindingen suggereren dat betrouwbare telefoonautomatisering afhankelijk is van actieoppervlakterouting en verifieerbare uitvoering, niet alleen van visuele GUI-controle.
Unified Multimodale Modellen (UMM's) zijn naar voren gekomen als een cruciale richting voor algemene multimodale intelligentie, waarbij begrip en generatie in één raamwerk worden geïntegreerd. Bestaande UMM's staan echter voor prominente uitdagingen: (1) de inherente leerconflicten tussen visuele begripstaken en generatietaken, wat leidt tot suboptimale modellering in beide taken; (2) verschillende visuele ruimtes voor begrip en generatie die de schaalbaarheid belemmeren; (3) overmatige afhankelijkheid van taakspecifieke gegevens die de dualiteit van tekst-beeld begrip en generatie verwaarloost. Om deze uitdagingen aan te pakken, stellen we UniDDT voor, dat gebruikmaakt van een Noisy ViT-encoder samen met een LLM om semantische codering te verenigen voor visuele generatie- en begripstaken, terwijl een aparte diffusiedecoder wordt gebruikt om diffusiedecodering van tekstdecodering te ontkoppelen. Met deze Noisy ViT-encoder kan UniDDT de latente ruimte gebruiken als een uniforme visuele representatie, waardoor naadloze compatibiliteit tussen begrips- en generatietaken mogelijk wordt. Zo kan de schaalbaarheid binnen de generatietaken en de semantische expressiviteit binnen de begripstaken in evenwicht worden gebracht. Ook construeren we dubbele datastructuren uit dezelfde beeld-tekstparen, wat de onderlinge afhankelijkheid tussen de generatie- en begripsgegevens bevordert om hun inherente dualiteit te benutten. Uitgebreide experimenten tonen aan dat UniDDT een effectieve unificatie van multimodaal begrip en generatie bereikt met verbeterde semantische consistentie en schaalbaarheid. Voor visuele generatietaken behaalt onze UniDDT een GenEval-score van 0,87 en een DPG-totaalscore van 86,9. Voor multimodale begripstaken behaalt onze UniDDT een score van 1699,5 op de MME-benchmark en een totaalscore van 76,5 op SEEDbench.
Het bedienen van meerstaps-LLM's accumuleert gespreksgeschiedenis waarvan de Key-Value (KV) cache bij elke beurt en elke gebruiker groeit, waardoor deze snel de modelgewichten overtreft en geheugen—niet rekenkracht—de bindende beperking voor doorvoer wordt. Niet-uniforme KV-compressie, die heterogene budgetten toewijst over aandachtskoppen, behoudt de nauwkeurigheid veel beter dan uniforme schema's, maar blijft onpraktisch: moderne bedieningsstacks nemen identieke KV-lengtes over koppen aan, waardoor heterogeniteit vrijgekomen geheugen opsluit als paginascattering, tot 25% van de prefill-tijd besteedt aan het terugwinnen van verspreide pagina's, en GPU-workloads scheef trekt die de decode-latentie met tot 1,7 keer verhogen of 15–20% van elke decodestap verbranden aan herplanning. Wij observeren dat deze heterogeniteit niet tijdens runtime ontdekt hoeft te worden: de retentie per kop volgt een structurele regelmaat op twee niveaus—een invoerinvariante kopranglijst met nauw begrensde verhoudingen per kop—die offline kan worden gekalibreerd met slechts 50 monsters. Voortbouwend op dit inzicht presenteren we Tangram, een bedieningsframework dat statisch oplost wat eerdere systemen dynamisch afhandelen: Budget Reservation stelt de postcompressie-voetafdruk van elke kop vast op het moment van planning, waardoor paginaterugwinning wordt geëlimineerd; Ragged Paging clustert koppen met vergelijkbare budgetten in onafhankelijke paginatabellen, waardoor fragmentatie wordt omgezet in bruikbaar geheugen; en Ahead-of-Time Load Balancing berekent vooraf gebalanceerde GPU-partities zonder runtime-planning. Geïmplementeerd op vLLM fungeert Tangram als een plug-in-onderlaag voor bestaande niet-uniforme compressiemethoden, met behoud van hun nauwkeurigheid terwijl de end-to-end doorvoer tot 2,6 keer wordt verbeterd ten opzichte van de volledige KV-basislijn. Onze implementatie is openbaar beschikbaar op https://github.com/aiha-lab/TANGRAM.
Het herrenderen van een bestaande video vanuit een nieuw camerastandpunt vereist dat de uitvoer de voorgeschreven camerabaan volgt, terwijl het uiterlijk en de dynamiek van de oorspronkelijke scène in elk frame behouden blijven. Bestaande methoden vertrouwen op pose-inbeddingen per frame, ruisachtige puntwolkweergaven of impliciete aangeleerde correspondenties, die geen van alle een expliciete, temporeel continue koppeling tussen bron- en doel-pixels bieden. Wij stellen Track2View voor, dat een videodiffusietransformator conditioneert op gepaarde 3D-puntsporen: schaarse trajecten van scènepunten die in zowel het bron- als het doel-camerabeeld worden geprojecteerd. Deze sporen bieden expliciete ruimtelijk-temporele correspondenties die per definitie temporeel continu zijn, en coderen welke inhoud waar en wanneer moet verschijnen. De kern van Track2View is een tweevoudige spoorconditioneerder die visuele context van het bron- naar het doelbeeld overdraagt via parametervrije geometrische operaties en aangeleerde temporele aggregatie, wat generalisatie naar willekeurige camerabanen garandeert zonder specifieke bewegingen te onthouden. Verder introduceren we een datacuratiepijplijn die een-op-een spoorcorrespondenties extraheert door een 3D-puntvolger uit te voeren op temporeel samengevoegde multi-camerabeeldparen. Op een benchmark van 400 video's, variërend van statische tot dynamische scènes, behaalt Track2View state-of-the-art resultaten op het gebied van visuele kwaliteit, beeldsynchronisatie en camera-nauwkeurigheid, met een reductie van de rotatiefout met 30-65% en de translatiefout met 61-72% ten opzichte van toonaangevende basislijnen. De projectpagina is beschikbaar via deze URL: https://qjizhi.github.io/track2view
Wanneer voorgetrainde VLA-beleidsregels worden verfijnd via online bekrachtigingsleren, levert elke afspeelepisode slechts één binaire uitkomst (succes of mislukking), terwijl de actor-update per overgang supervisie vereist. Bestaande benaderingen reduceren deze schaarse uitkomst doorgaans tot een enkel scalair belonings- of voordeelsignaal, wat verschillende vormen van feedback op overgangsniveau samenvoegt en beperkte sturing biedt zodra basistaaksucces haalbaar wordt. Ten eerste voegt een enkel scalair signaal de twee doelstellingen van levensvatbaarheid en efficiëntie samen; zodra basissucces is bereikt, biedt het binaire label geen gradiënt om efficiënte voltooiingen te onderscheiden van trage. Ten tweede mengen real-world afspeelsessies autonome en interventiesegmenten; het naïef toewijzen van episode-uitkomsten over deze grenzen heen leidt tot incorrecte krediettoewijzing. Om deze problemen aan te pakken stellen wij Hiërarchisch Voordeel-Gewogen Gedragsclonen (HABC) voor, dat afzonderlijke criticus-koppen traint voor deze twee doelstellingen op verschillende gegevenssubsets en hun uitkomsten combineert met een toestandsadaptieve balans. Een toestandsadaptieve poort g_t combineert hun éénstapsvoordelen, waarbij levensvatbaarheid prioriteit krijgt wanneer succes onzeker is en alleen naar efficiëntie wordt overgeschakeld wanneer levensvatbaarheid hoog is, en converteert het resultaat in per-overgang gewichten voor het actorverlies. Interventiebewuste krediettoewijzing beperkt verder de uitkomstlabels tot segmenten die door het huidige beleid worden uitgevoerd, waardoor supervisie niet over interventiegrenzen heen lekt. In real-robot experimenten op drie contactrijke bimanuele taken verhoogt HABC het succes van supervisie-verfijnde (SFT) basislijnen van 36%, 44% en 12% naar 92%, 88% en 38%.
Vooruitgang in AI wordt grotendeels aangedreven door methoden die minder aannemen. Naarmate rekenkracht en data toenemen, presteren benaderingen met zwakkere inductieve biases over het algemeen beter dan die met sterkere aannames. Dit is bijzonder kenmerkend voor het vakgebied van Visuele Representatie Leren, waar benaderingen zijn geëvolueerd van dominantie door Begeleid Leren, naar Zwak Begeleid Leren, naar het nu wijdverspreide succes van Zelfbegeleid Leren zonder menselijke labels. Toch zijn zelfs moderne Zelfbegeleid Leren benaderingen nog steeds afhankelijk van sterke inductieve biases zoals augmentaties, maskering of bijsnijden. Als deze trend zich voortzet, zouden zelfs deze resterende biases op schaal knelpunten worden – en onze experimenten bevestigen dit: de optimale sterkte van inductieve biases neemt af naarmate de data groeit. Dit motiveert de zoektocht naar benaderingen die op minder aannames vertrouwen. Daartoe introduceren we Temporal Difference in Vision (TDV), een nieuw paradigma voor zelfbegeleid leren uit video dat bestaande inductieve biases vermijdt, en in plaats daarvan vertrouwt op een causale veronderstelling dat het verleden de toekomst veroorzaakt. TDV werkt door gezamenlijk een beeldencoder en een bewegingsencoder te trainen, zodat de representatie van het huidige frame plus de gecodeerde beweging gelijk is aan die van het volgende frame. Ondanks dat het geen sterke inductieve biases benut, evenaart TDV state-of-the-art methoden op dichte ruimtelijke taken, waarmee de basis wordt gelegd voor representatie leren zonder sterke aannames.
Sparse autoencoders (SAE's) worden veel gebruikt om representaties van neurale netwerken te interpreteren, maar hun bruikbaarheid hangt af van of de geleerde kenmerken reproduceerbaar zijn over trainingsruns. We bestuderen deze vraag via kenmerkstabiliteit: voor elk SAE-kenmerk schatten we de kans dat een vergelijkbaar kenmerk opnieuw verschijnt in een onafhankelijk getraind SAE. Dit levert een schaalbaar per-kenmerk signaal op dat stabiele van instabiele kenmerken scheidt. In een grootschalige studie over seeds, modellen, lagen, woordenboekgroottes en SAE-varianten vinden we een uitgesproken functionele asymmetrie: stabiele kenmerken dragen het grootste deel van het reconstructie- en predictierelevante signaal, terwijl instabiele kenmerken een zwakke marginale impact hebben en gedomineerd worden door laagfrequente oppervlaktevormtriggers in zowel activatiestatistieken als automatische verklaringen. Geometrisch gezien zijn instabiele kenmerken individueel niet-reproduceerbaar, maar concentreren ze zich in reproduceerbare deelruimten van lagere rang, wat suggereert dat seed-afhankelijkheid vaak basisambiguïteit binnen een gedeeld gebied van de activatieruimte weerspiegelt in plaats van pure ruis. Een gecontroleerd synthetisch model maakt dit mechanisme expliciet en toont aan dat grondwaarheidskenmerken van lage rang op deelruimteniveau kunnen worden teruggevonden, terwijl ze als individuele SAE-latente variabelen niet-identificeerbaar blijven over seeds heen. Tot slot construeren we, door het samenvoegen van unieke cross-seed kenmerken, stabielere SAE's terwijl de verklaarde variantie in deze setting behouden blijft. Samen tonen deze resultaten aan dat instabiele kenmerken niet slechts mislukte of ruizige latente variabelen zijn: ze hebben een zwakke individuele functionele impact, maar weerspiegelen reproduceerbare laagdimensionale structuur die standaard SAE's verschillend oplossen over seeds heen.
Diffusietransformatoren hebben opmerkelijke generatieve vermogens getoond, maar de rijke perceptuele representaties die tijdens hun ontruisingsbaan worden berekend, worden weggegooid zodra de inhoud is weergegeven. Wij presenteren MMDiff, een raamwerk dat een bevroren diffusietransformator omvormt tot een multi-modaal generatief systeem dat gezamenlijk afbeeldingen produceert, naast elke combinatie van dichte perceptuele modaliteiten, met behulp van lichtgewicht decoderkoppen. Onze centrale bevinding is dat perceptuele informatie temporeel verdeeld is over de ontruisingsbaan, en dat multi-tijdstip kenmerkfusie met ruimtelijk variërende aggregatiegewichten essentieel is, wat semantische segmentatieresultaten met tot 28,7% mIoU verbetert ten opzichte van extractie op een enkel tijdstip. Verder hanteren wij conceptgestuurde aandachtextractie voor interpreteerbare ruimtelijke sturing, en tonen aan dat bevroren diffusiekenmerken concurrerend en complementair zijn aan state-of-the-art encoders zoals DINOv3. Door alleen lichtgewicht decoderkoppen te trainen op een bevroren ruggengraat, bereiken wij sterke prestaties in semantische segmentatie, opvallende objectdetectie en diepteschatting, en demonstreren wij dat dit raamwerk effectieve synthetische datageneratie op schaal mogelijk maakt.
Geavanceerd redeneren vereist doorgaans Chain-of-Thought-prompts, wat accuraat is maar leidt tot onaanvaardbare latentie en substantiële inferentiekosten tijdens het testen. Het standaard alternatief, het finetunen van kleinere modellen, gaat vaak ten koste van interpreteerbaarheid en brengt aanzienlijke resource- en operationele overhead met zich mee. Om deze beperkingen aan te pakken, introduceren we Prompt-Level Distillation (PLD). We extraheren expliciete redeneerpatronen uit een Teacher-model en organiseren deze in een gestructureerde lijst van expressieve instructies voor de System Prompt van het Student-model. Geëvalueerd met Gemma-3 4B verbeterde PLD de Macro F1-scores op StereoSet (van 57% naar 90,0%) en Contract-NLI (van 67% naar 83%), terwijl de nauwkeurigheid op LogiQA toenam tot 70%. Vergelijkbare resultaten op Mistral Small 3.1 tonen cross-architectuur generaliseerbaarheid aan, waardoor deze compacte modellen prestaties op topniveau kunnen evenaren met verwaarloosbare latentieoverhead. Deze expressieve instructies maken het besluitvormingsproces transparant, waardoor volledige menselijke verificatie van de logica mogelijk is. Dit maakt de aanpak ideaal voor gereguleerde industrieën zoals recht, financiën en contentmoderatie, evenals voor toepassingen met een hoog volume en edge-apparaten.
Reinforcement learning met schaarse beloningen (RL) is een standaardinstrument geworden voor het verbeteren van het redeneren van LLM's, maar het succes ervan hangt in hoge mate af van de dekking in het basismodel. In de praktijk worden modellen vaak klaargestoomd voor RL door middel van tussentraining op samengestelde redeneertraces die nuttige primitieve vaardigheden aanleren, zoals decompositie, verificatie of zelfcorrectie. Hoewel effectief, vereist deze strategie dat handmatig wordt gespecificeerd wat het model moet leren, en het blijft onduidelijk of een dergelijke primitieve dekking voldoende is voor veel moeilijkere problemen, die het combineren van deze vaardigheden tot bredere oplossingsstrategieën vereisen. We bestuderen een meer geautomatiseerde aanpak: RL-gebaseerde tussentraining met behulp van grote corpora van door mensen geschreven vraag-antwoordgegevens. In plaats van referentieoplossingen te behandelen als na te bootsen doelen, gebruikt onze methode, ExpRL, ze als beloningsscaffolds: referenties worden verborgen voor het beleid en alleen gebruikt om probleemspecifieke beoordelingsrubrieken te construeren voor het beoordelen van on-policy redeneertraces. Het beleid samplet uit de oorspronkelijke probleemprompt, terwijl een LLM-beoordelaar de gesamplede redeneertrace vergelijkt met de referentieoplossing en dichte beloningen op uitkomst- of procesniveau toekent. Hierdoor kan ExpRL gedeeltelijke vooruitgang, nuttige tussentijdse reducties en productieve redeneergedragingen versterken die schaarse beloningen op basis van eindantwoord vaak niet weten te versterken. Bij uitdagende wiskundige redeneertaken levert ExpRL een sterkere RL-priming op dan SFT, GRPO met schaarse beloningen en zelfdistillatie, en biedt het een betere initialisatie voor daaropvolgend RL met schaarse beloningen. Aanvullende experimenten in gemengde domeinen suggereren verder dat ExpRL zich kan uitstrekken tot buiten de oorspronkelijke wiskundige setting.
Consistente videogeneratie onder bewerkingsoperaties vereist persistentie: wanneer bewerkingen het uiterlijk of de lay-out van een scène wijzigen, moeten volgende generaties coherent blijven in tijd en gezichtspunten. Echter, bestaande geheugenontwerpen hebben moeite om langdurige consistentie te behouden na dergelijke wijzigingen, omdat opgeslagen contexten verouderd of ongeldig kunnen worden. Om dit aan te pakken, stellen we PermaVid voor, een nieuw raamwerk dat is gebouwd op een multimodaal contextgeheugen dat ruimtelijke context ontwart in semantisch uiterlijk en geometrische structuur, samen met een bewerkingsbewuste geheugenupdate en -ophaalstrategie die de geheugenevolutie afstemt op volgende observaties. Specifiek ontwikkelen we twee complementaire geheugenbanken: een RGB-contextgeheugen dat uiterlijkbewuste observaties vastlegt terwijl het impliciet geometrie codeert, en een dieptecontextgeheugen dat alleen-geometrische structuur behoudt, losgekoppeld van semantiek. Voortbouwend op dit ontwerp introduceren we een geheugengeleid videogeneratiemodel dat multimodale kenmerkfusie uitvoert onder referentiecondities die zijn ontleend aan gemengd-modale geheugencontexten. Experimenten tonen aan dat onze methode sterke langdurige semantische en structurele consistentie behoudt na bewerkingen, en aanzienlijk beter presteert dan state-of-the-art methoden.
Welkom bij de negende editie van het AI Index-rapport. Nu AI zich in hoog tempo blijft ontwikkelen, wordt de vraag of de systemen die eromheen zijn gebouwd, kunnen bijblijven. Bestuurskaders, evaluatiemethoden, onderwijssystemen en de data-infrastructuur die nodig is om de impact van AI te volgen, hebben moeite om het tempo van de technologie zelf bij te houden. Die kloof tussen wat AI kan doen en hoe goed we erop zijn voorbereid om het te beheren, loopt als een rode draad door elk hoofdstuk van dit jaarverslag. Nieuw in deze editie is dat het rapport bijhoudt hoe AI op ambitieuzere wijze wordt getest op het gebied van redeneren, veiligheid en uitvoering van praktijkopdrachten, en waarom die metingen steeds moeilijker te vertrouwen zijn. Het bevat ook nieuwe schattingen van de economische waarde van generatieve AI, samen met opkomend bewijs van de effecten ervan op de arbeidsmarkt, een analytisch kader voor AI-soevereiniteit en een wetenschapshoofdstuk dat is ontwikkeld in samenwerking met Schmidt Sciences. Voor het eerst bevat het rapport op zichzelf staande hoofdstukken over AI in de wetenschap en AI in de geneeskunde, wat de groeiende impact van AI op deze twee domeinen weerspiegelt.
Grote Taalmodellen (GTM's) worden steeds vaker ingezet als basis voor Generatieve Aanbeveling (GA), met de belofte van toegang tot voorgetrainde wereldkennis. Toch blijft het betrouwbaar oproepen van deze kennis voor GA slecht begrepen. Een belangrijk obstakel is dat GA op basis van GTM's items doorgaans weergeeft met Semantische IDs (SID's), wat de interface voor redeneren in natuurlijke taal van GTM's verstoort, omdat deze tokens tijdens de voor training niet door het GTM zijn gezien. Bestaande benaderingen lossen dit op met dure meerfasige pijplijnen die SID's verankeren en expliciete redenaties uitlokken, maar geven beperkt inzicht in wanneer en waarom elke fase nodig is. In dit werk ontleden we systematisch expliciete trainingspijplijnen voor redeneren voor GA op basis van GTM's, waarbij drie belangrijke beperkingen aan het licht komen: verzwakte verbalisatie van wereldkennis, misalignatie tussen de inbeddingsruimtes van SID's en tokens in natuurlijke taal, en gevoeligheid voor de kwaliteit van de redenatie, die allemaal de prestaties van expliciet redeneren schaden. Om deze problemen te omzeilen, stellen we PauseRec voor, een lichtgewicht impliciet redeneerparadigma dat is toegesneden op GA. PauseRec is uitzonderlijk praktisch: het vermijdt dure verwerving van redeneersporen en alignment training voor redeneren, wat leidt tot een groot aantal voordelen: (1) het presteert tot 6,22% beter dan standaard expliciete CoT-methoden, (2) het vermindert de trainingskosten met tot 65% GPU-uren, en (3) het versnelt de inferentie met tot 71,3%. Deze resultaten positioneren PauseRec als een lichtgewicht alternatief voor expliciete redeneringgeneratie, wat effectievere en efficiëntere GA op basis van GTM's mogelijk maakt.
Mensen begrijpen van nature de fysica van objecten door alledaagse interacties, maar het getrouw voorspellen van complexe vervormbare dynamica, zoals elastische materialen en stoffen, blijft een grote uitdaging voor computer vision en robotica. We presenteren EgoPhys, een raamwerk dat vervormbare fysieke digitale tweelingen construeert uit egocentrische RGB-only video met behulp van generaliseerbare voorkennis. EgoPhys overwint de beperkingen van bestaande methoden om beheersbare generatie van vervormbare digitale tweelingen uit egocentrische video's mogelijk te maken door per-object inverse-fysica oplossingen te distilleren in een compact codeboek, waardoor voorspelling van dichte veerstijfheidsvelden voor ongeziene objecten mogelijk wordt zonder per-veer optimalisatie tijdens de test. Getraind met generaliseerbare voorkennis uit diverse egocentrische interacties, presteert EgoPhys beter dan basislijnen in reconstructie, toekomstvoorspelling en zero-shot generalisatie. Om training en evaluatie te ondersteunen, stellen we een egocentrische interactiedataset samen die diverse vervormbare objecten, scènes en manipulatiestijlen omvat. We implementeren EgoPhys op een echte xArm6-robot en tonen aan dat een digitale tweeling, geïnitialiseerd vanuit een enkele egocentrische menselijke speelvideo, kan dienen als een interne wereldrepresentatie om te helpen bij planning met vervormbare objecten, wat egocentrische RGB-waarnemingen benadrukt als een schaalbare weg naar real-to-sim pijplijnen.
Standaard nauwkeurigheidsbenchmarks zijn ontworpen om te testen hoe dicht grote taalmodellen (LLM's) bij correcte antwoorden komen, maar zijn niet geschikt om te testen of LLM's vasthouden aan een correct antwoord wanneer dat antwoord wordt uitgedaagd door een plausibel tegenargument. Wij introduceren een gecontroleerd protocol voor het evalueren van antwoordstabiliteit: nadat een model een meerkeuzevraag correct heeft beantwoord, dagen we het antwoord van het model uit met een coherent argument voor een incorrecte optie en meten we of het model omdraait. De opzet a) isoleert argumentatieve inhoud van openlijke sociale druk en b) varieert argumentlengte, zelfattributie en cross-model bron. Voor zeven geavanceerde modellen en 57 MMLU-onderdelen variëren de omslagpercentages van 17,5% tot 97,3%, wat grote verschillen in stabiliteit onthult die niet worden opgevangen door alleen nauwkeurigheidsmetingen. We vinden dat zelfattributie de omslagpercentages consistent verhoogt (gemiddeld +7,1pp, tot +18,7pp). Ook leidt het samenvoegen van argumenten voor foute antwoorden over modellen heen en het selecteren van het meest effectieve argument per vraag tot sterkere tegenargumenten dan vertrouwen op een enkele bronmodel. We construeren verder MaxFlip, een samengestelde uitdagingsset die omdraaiingen tot +23,6pp versterkt ten opzichte van standaard zelfgegenereerde uitdagingen. We publiceren het protocol, de uitdagingsrecords en MaxFlip om stabiliteitsevaluatie naast standaard nauwkeurigheidsbenchmarks te ondersteunen. Materialen zijn beschikbaar op https://github.com/nafisenik/WhoFlips en https://hf.co/datasets/nafisehNik/WhoFlips.
Visie-Taal-Actiemodellen (Vision-Language-Action models, VLA's) maken gebruik van grootschalige visie-taaltraining voor semantische robotbesturing, maar missen vaak een expliciet vooruitzicht op hoe robotacties de scene veranderen. Wereld-Actiemodellen (World-Action Models, WAM's) pakken deze beperking aan door beleidsregels te conditioneren op voorspelde toekomsten, maar bestaande benaderingen vertrouwen doorgaans op rekenintensieve videogeneratie met aanzienlijke pixelredundantie. Wij presenteren LaWAM, een latent wereldactiemodel (Latent World Action Model) dat voorspellende dynamiek beschikbaar maakt voor robotbeleidsregels via compacte latente visuele subdoelen in plaats van gereconstrueerde toekomstvideo. De kern van LaWAM is een latent-actiegeconditioneerd latent wereldmodel (Latent World Model, LaWM). We verkrijgen LaWM door een latent actiemodel te trainen in de latente ruimte van een voorgetraind visiefoundationmodel en de voorwaartse decoder ervan te hergebruiken om toekomstige observatiekenmerken voor scene-evolutie te voorspellen. LaWAM conditioneert vervolgens de actiegeneratie op deze voorspelde latente visuele subdoelen om dynamiekbewuste robotbesturing mogelijk te maken. LaWAM behaalt state-of-the-art of concurrerende succespercentages (success rates, SR's) op LIBERO (98,6% SR), RoboTwin (91,22% SR) en real-world manipulatieopdrachten, terwijl het een lage inferentielatentie behoudt. LaWAM werkt in 187 ms per actiechunkvoorspelling en behaalt een tot 24x lagere wandkloklatieg (wall-clock latency) dan pixelruimte-WAM's.
Een inhoudsmoderatiesysteem kan goed scoren op elke standaard nauwkeurigheidsmaatstaf en toch echte schade veroorzaken, als de fouten vallen op de weinige gebruikers die anders gescheiden gemeenschappen met elkaar verbinden. We tonen dit aan in een agent-gebaseerd model waarin N=240 lerende agenten op een gemeenschapsgestructureerd netwerk elk onschadelijke, productieve of gevaarlijke inhoud plaatsen, en een regulator verwijdert of bestraft wat een ruizige classificator markeert. De algehele bruikbaarheid beweegt nauwelijks als de ruis verandert (eenwegs-ANOVA, p=0,96): volgens geaggregeerde maatstaven ziet er niets verkeerd uit. De schade concentreert zich in plaats daarvan op deze bruggebruikers, wier nuttige berichten ten onrechte worden onderdrukt en wier gevaarlijke berichten ten onrechte worden gespaard. Een governanceverlies (L_gov) dat deze twee fouten afzonderlijk van de handhavingskosten beprijst, meer dan verdubbelt onder ruis met veel fout-positieven. Geaggregeerde nauwkeurigheid verbergt wie er wordt geschaad, en de goedkope grootheid om te controleren is het aantal verbindingen dat een gebruiker heeft (graad), een bijna perfecte proxy voor de betweenness die een brug definieert (r=0,96).
Ondanks aanzienlijke vooruitgang in de ontwikkeling van detectoren voor machinetekst, heeft het gemak waarmee machinetekst kan worden gemanipuleerd om detectie te omzeilen, geleid tot suggesties dat het probleem inherent onoplosbaar is. In dit werk onderzoeken we de grenzen van dergelijke ontwijkingsstrategieën. We tonen aan dat hoewel huidige aanvallen, variërend van prompt engineering tot detector-geleide optimalisatie, de prestaties van standaard detectoren effectief kunnen verslechteren, ze er niet in slagen de onderliggende stilistische 'vingerafdrukken' van machinetekst uit te wissen. We laten zien dat few-shot detectoren die de stilistische kenmerkruimte gebruiken, robuust zijn tegen deze ontwijkingspogingen en betrouwbaar monsters detecteren, zelfs van modellen die expliciet zijn afgestemd om detectie te voorkomen. Dit roept de vraag op: vertegenwoordigt stijl een universele verdediging tegen machinedetectie-aanvallen? We tonen aan dat het antwoord 'nee' is door een nieuwe parafraseringsmethode te introduceren die tegelijkertijd optimaliseert voor ondetecteerbaarheid en het naleven van specifieke menselijke stijlen. We laten zien dat deze aanval, in tegenstelling tot eerdere methoden, effectief alle beschouwde detectoren omzeilt, inclusief degenen die gebruikmaken van schrijfstijl. Echter, we vinden dat deze ontwijking niet absoluut is: naarmate het aantal beschikbare documenten voor analyse groeit, worden de menselijke en machineverdelingen weer te onderscheiden. Over het algemeen suggereren onze bevindingen dat betrouwbare detectie van machinetekst vereist dat we verder gaan dan analyse van één document naar analyse van meerdere documenten.
Mensen kunnen moeiteloos objecten vastpakken, terwijl multifingered robots ver verwijderd zijn van dit niveau van algemeenheid. Wij stellen dat de meest natuurlijke bron van robotgrijpgegevens afkomstig is van mensen, die dagelijks duizenden objecten oppakken. We presenteren HUG, een flow-matchingmodel dat diverse menselijke grijpbewegingen genereert voor elk door de gebruiker gespecificeerd object in een enkele RGB-D-afbeelding vastgelegd met een stereocamera. Met behulp van slimme brillen verzamelen we eerst 1M-HUGs, een egocentrische dataset van menselijke grijpbewegingen die 1M frames (27,8 uur) en 6.707 objectexemplaren verspreid over 41 gebouwen omvat. Vervolgens modelleren we de verdeling van natuurlijke menselijke grijpbewegingen met behulp van ons nieuwe flow-matchingmodel, dat RGB- en dieptewaarnemingen samenvoegt om een grijpbeweging te genereren die wordt geparametriseerd door polstranslatie, polsrotatie en MANO-handhouding. Voorspelde grijpbewegingen kunnen worden hergericht naar verschillende robothanden, waardoor zero-shot grijpen in alledaagse omgevingen mogelijk wordt. Om de evaluatie te standaardiseren, bouwen we een nieuwe gesimuleerde benchmark, HUG-Bench, met 90 onzichtbare objecten uit vijf geometrische categorieën en verschillende afmetingen, voorzien van metrische 3D-meshes. We evalueren HUG in de echte wereld op de 30-objectentestset van HUG-Bench met meerdere stereocamera's, robotuitvoeringen en huishoudelijke omgevingen. HUG presteert beter dan de state-of-the-art grijpbaselines met respectievelijk +23% en +34% op onze uitdagende objectenset. Code, data, benchmark, checkpoints en een interactieve demo zijn beschikbaar op onze website: https://grasping.io/
Polymarket heeft zich ontwikkeld tot een prominent voorspellingsmarktplatform en een van de snelst groeiende toepassingen in DeFi. Om trading met lage latentie te realiseren, maakt het gebruik van een hybride architectuur waarbij orders off-chain worden gematcht, maar on-chain worden afgewikkeld voor definitieve uitvoering. Dit ontwerp creëert een consistentiekloof die wij Ghost Fills noemen: een order die met succes off-chain wordt gematcht, kan later mislukken tijdens de on-chain afwikkeling. Om de beveiligingsimplicaties van deze kloof te begrijpen, onderzoeken wij dergelijke mislukte afwikkelingen door GHOSTHUNTER te bouwen, die deze uit on-chain sporen reconstrueert en toeschrijft aan concrete aanvalspatronen. In 1.952.440 teruggedraaide match-order transacties ontdekken wij dat aanvallers het tijdsverschil tussen matchen en afwikkelen misbruiken om reeds gematchte orders ongeldig te maken voordat ze on-chain worden gefinaliseerd. Vervolgens identificeren wij vier aanvalsvectoren uit deze incidenten: nonce-verhoging, saldo-afvoer, toestemming-intrekking en proxy-val, gerealiseerd via 35 evoluerende varianten. Deze vectoren stellen aanvallers in staat om selectief 980.133 gevulde orders terug te draaien, wat risicovrije voorspelling, jacht op arbitrage-bots en manipulatie van liquiditeitsbeloningen mogelijk maakt, met een winst van ten minste 1,49 miljoen dollar. Hierdoor staat 1,78 miljard dollar aan risico bloot en heeft de operator 2,17 miljoen POL (ongeveer 212.000 dollar) betaald. Tijdens piekuren werd meer dan 24,3% van alle gevulde orders teruggedraaid, wat de facto DoS-aanvallen veroorzaakte. Wij vinden ook dat code die is afgeleid van het gebrekkige contract nog steeds voorkomt in 167 onafhankelijke contracten op 10 blockchains die ten minste 23 miljoen dollar aan gebruikersgelden bevatten, waardoor de impact verder reikt dan Polymarket. Wij hebben ons bewijs gedeeld met de betrokken partijen en het probleem is gedeeltelijk gemitigeerd.
We introduceren TuneJury, een open, instance-niveau paarsgewijs beloningsmodel voor tekst-naar-muziek dat een muziekvoorkeursscore voorspelt op basis van een tekstprompt en een audioclip. Het uitgebrachte checkpoint is getraind op openbaar beschikbare menselijke voorkeurslabels die arena-stijl (A vs. B) stemmen, metriek-afstemmingsvoorkeursparen, crowdsourced paarsgewijze vergelijkingen en expertesthetische beoordelingen omvatten. De voorspelde scoremarge tussen twee clips is goed gekalibreerd op onze vaste testsplitsing, wat datafiltering via een eenvoudige scoredrempel ondersteunt. TuneJury generaliseert naar zowel vaste testparen als out-of-distribution benchmarks en blijft concurrerend met eerdere baselines op de laatste. Voor generatoren die na training zijn uitgebracht, introduceren we ankerkalibratie, een post-hoc, per-systeem Bradley-Terry kalibratie die overeenstemming herstelt met aanzienlijk betere data-efficiëntie dan hertraining vanaf nul. Dezelfde bevroren beloning leidt tot consistente beloningsaswinsten in drie downstream-toepassingen: inferentie-tijd beste-van-N selectie, DITTO-stijl latente optimalisatie en expert-iteratie na-training. TuneJury is beschikbaar op https://github.com/yonghyunk1m/TuneJury.