Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het paradigma van "Denken met Tekst" en "Denken met Beelden" verbetert het redeneervermogen van grote taalmodel(len) (LLM's) en visie-taalmodel(len) (VLM's) aanzienlijk. Deze paradigma's hebben echter inherente beperkingen. (1) Beelden leggen slechts enkele momenten vast en slagen er niet in dynamische processen of continue veranderingen weer te geven, en (2) De scheiding van tekst en visie als afzonderlijke modaliteiten belemmert een uniforme multimodale interpretatie en generatie. Om deze beperkingen te overwinnen, introduceren wij "Denken met Video", een nieuw paradigma dat videogeneratiemodellen, zoals Sora-2, benut om visueel en tekstueel redeneren te verbinden in een uniform temporeel kader. Om deze verkenning te ondersteunen, ontwikkelden we de Video Thinking Benchmark (VideoThinkBench). VideoThinkBench omvat twee taakcategorieën: (1) visiegerichte taken (bijv. Eyeballing Puzzles), en (2) tekstgerichte taken (bijv. subsets van GSM8K, MMMU). Onze evaluatie positioneert Sora-2 als een bekwaam redeneerder. Op visiegerichte taken is Sora-2 over het algemeen vergelijkbaar met state-of-the-art (SOTA) VLM's, en overtreft het VLM's zelfs bij verschillende taken, zoals Eyeballing Games. Op tekstgerichte taken behaalt Sora-2 een nauwkeurigheid van 92% op MATH en 75,53% op MMMU. Verder analyseren wij systematisch de bron van deze vermogens. We stellen ook vast dat self-consistency en in-context learning de prestaties van Sora-2 kunnen verbeteren. Samenvattend tonen onze bevindingen aan dat het videogeneratiemodel het potentiële uniforme multimodale interpretatie- en generatiemodel is, en positioneren "denken met video" als een uniform multimodaal redeneerparadigma.
Het in staat stellen van grote multimodale modellen (LMM's) om beeldinteractie diep te integreren met redeneervaardigheden over lange tijdshorizons blijft een langdurige uitdaging in dit vakgebied. Recente vooruitgang in visie-gestuurd redeneren verkent een veelbelovend "Denken met Beelden"-paradigma voor LMM's, wat een verschuiving markeert van beeld-ondersteund redeneren naar beeld-interactief denken. Hoewel deze mijlpaal modellen in staat stelt zich te concentreren op fijnmazige beeldregio's, wordt vooruitgang nog steeds beperkt door beperkte visuele toolruimten en taakspecifieke workflowontwerpen. Om deze kloof te overbruggen, presenteren wij V-Thinker, een algemene multimodale redeneerassistent die interactief, visie-gestuurd denken mogelijk maakt door end-to-end reinforcement learning. V-Thinker bestaat uit twee kernelementen: (1) een Data Evolution Flywheel die automatisch interactieve redeneerdatasets synthetiseert, evolueert en verifieert langs drie dimensies—diversiteit, kwaliteit en moeilijkheidsgraad; en (2) een Visueel Progressief Trainingscurriculum dat eerst de perceptie afstemt via puntniveau-supervisie, en vervolgens interactief redeneren integreert door een reinforcement learning raamwerk in twee fasen. Verder introduceren wij VTBench, een expert-geverifieerde benchmark gericht op visie-gestuurde interactieve redeneertaken. Uitgebreide experimenten tonen aan dat V-Thinker consistent sterke LMM-gebaseerde baseline-methoden overtreft in zowel algemene als interactieve redeneerscenario's, wat waardevolle inzichten biedt voor het bevorderen van beeld-interactieve redeneertoepassingen.
Hoewel reinforcement learning (RL) grote taalmodel (LLM) agenten kan versterken door zelfverbetering via interactie mogelijk te maken, blijft de praktische toepassing ervan een uitdaging vanwege kostelijke rollouts, beperkte taakdiversiteit, onbetrouwbare beloningssignalen en infrastructurele complexiteit, wat allemaal de verzameling van schaalbare ervaringsdata belemmert. Om deze uitdagingen aan te pakken, introduceren we DreamGym, het eerste verenigde raamwerk dat ontworpen is om diverse ervaringen te synthetiseren met schaalbaarheid in gedachten, om effectieve online RL-training voor autonome agenten mogelijk te maken. In plaats van te vertrouwen op dure rollouts in echte omgevingen, destilleert DreamGym omgevingsdynamica in een op redenering gebaseerd ervaringsmodel dat consistente toestandsovergangen en feedbacksignalen afleidt via stapsgewijze redenering, waardoor schaalbare verzameling van agent-rollouts voor RL mogelijk wordt. Om de stabiliteit en kwaliteit van overgangen te verbeteren, benut DreamGym een ervaringsreplaybuffer die geïnitialiseerd is met offline real-world data en continu verrijkt wordt met nieuwe interacties om de agenttraining actief te ondersteunen. Om kennisverwerving te verbeteren, genereert DreamGym adaptief nieuwe taken die het huidige agent-beleid uitdagen, waardoor effectiever online curriculum learning mogelijk wordt. Experimenten in diverse omgevingen en met verschillende agent-architecturen tonen aan dat DreamGym de RL-training aanzienlijk verbetert, zowel in volledig synthetische settings als in sim-to-real transfer scenario's. Voor niet-RL-gereed taken zoals WebArena presteert DreamGym meer dan 30% beter dan alle baseline-methoden. En in RL-gereed maar kostelijke settings evenaart het de prestaties van GRPO en PPO met uitsluitend synthetische interacties. Bij het overdragen van een beleid dat puur op synthetische ervaringen getraind is naar RL in een echte omgeving, levert DreamGym significante extra prestatieverbeteringen op terwijl het veel minder real-world interacties vereist, wat een schaalbare warm-startstrategie biedt voor algemeen toepasbare RL.
Wij beargumenteren dat vooruitgang in ware multimodale intelligentie een verschuiving vereist van reactieve, taakgedreven systemen en brute-force lange context naar een breder paradigma van superwaarneming. Wij definiëren ruimtelijke superwaarneming als vier fasen voorbij uitsluitend talig begrip: semantische perceptie (benoemen wat wordt gezien), streaming gebeurteniscognitie (geheugen onderhouden over continue ervaringen), impliciete 3D-ruimtelijke cognitie (de wereld achter pixels afleiden) en voorspellende wereldmodellering (interne modellen creëren die informatie filteren en organiseren). Huidige benchmarks testen grotendeels alleen de vroege fasen, bieden een smalle dekking van ruimtelijke cognitie en dagen modellen zelden uit op manieren die echte wereldmodellering vereisen. Om vooruitgang in ruimtelijke superwaarneming te stimuleren, presenteren wij VSI-SUPER, een benchmark bestaande uit twee delen: VSR (langetermijn visueel ruimtelijk geheugen) en VSC (continu visueel ruimtelijk tellen). Deze taken vereisen willekeurig lange video-invoer, maar zijn bestand tegen brute-force contextuitbreiding. Vervolgens testen wij de grenzen van dataschaal door VSI-590K samen te stellen en Cambrian-S te trainen, wat een absolute verbetering van +30% op VSI-Bench oplevert zonder algemene capaciteiten op te offeren. Desalniettemin blijft de prestaties op VSI-SUPER beperkt, wat aangeeft dat schaal alleen onvoldoende is voor ruimtelijke superwaarneming. Wij stellen voorspellende waarneming voor als een weg vooruit, en presenteren een proof-of-concept waarin een zelfgesuperviseerde volgende-latente-frame-voorspeller verrassing (voorspellingsfout) benut om geheugen en gebeurtenissegmentatie aan te sturen. Op VSI-SUPER presteert deze aanpak aanzienlijk beter dan toonaangevende propriëtaire baseline-modellen, wat aantoont dat ruimtelijke superwaarneming modellen vereist die niet alleen waarnemen, maar ook ervaring anticiperen, selecteren en organiseren.
Wij introduceren Nemotron Nano V2 VL, het nieuwste model van de Nemotron vision-language-reeks, dat is ontworpen voor een sterk begrip van echte documenten, langdurige videocomprehensie en redeneertaken. Nemotron Nano V2 VL laat significante verbeteringen zien ten opzichte van ons vorige model, Llama-3.1-Nemotron-Nano-VL-8B, op alle visuele en tekstuele domeinen door grote verbeteringen in de modelarchitectuur, datasets en trainingsmethoden. Nemotron Nano V2 VL bouwt voort op Nemotron Nano V2, een hybride Mamba-Transformer LLM, en innovatieve tokenreductietechnieken om een hogere inferentiedoorvoer te bereiken in scenario's met lange documenten en video's. Wij maken modelcheckpoints vrij in BF16-, FP8- en FP4-formaten en delen grote delen van onze datasets, methoden en trainingscode.
De sterke loterijbiljet-hypothese (SLTH) veronderstelt dat hoogpresterende subnetwerken, genaamd sterke loterijbiljetten (SLT's), verborgen zitten in willekeurig geïnitialiseerde neurale netwerken. Hoewel recente theoretische studies de SLTH voor diverse neurale architecturen hebben aangetoond, ontbreekt het nog aan een theoretisch begrip van de SLTH voor transformer-architecturen. In het bijzonder houdt de huidige theorie van de SLTH nog geen rekening met het multi-head attention-mechanisme (MHA), een kernonderdeel van transformers. Om dit hiaat te adresseren, introduceren wij een theoretische analyse van het bestaan van SLT's binnen MHA's. Wij bewijzen dat, als een willekeurig geïnitialiseerde MHA van H heads en invoerdimensie d een verborgen dimensie van O(dlog(Hd^{3/2})) heeft voor de key en value, deze met hoge waarschijnlijkheid een SLT bevat die een willekeurige MHA met dezelfde invoerdimensie benadert. Voorts breiden wij, door gebruik te maken van deze theorie voor MHA's, de SLTH uit naar transformers zonder normalisatielagen. Wij valideren onze theoretische bevindingen empirisch en tonen aan dat de benaderingsfout tussen de SLT binnen een bronsmodel (MHA en transformer) en een benaderd doelmodel exponentieel afneemt door de verborgen dimensie van het bronsmodel te vergroten.
Wij introduceren GUI-360°, een grootschalige, uitgebreide dataset en benchmark-suite ontworpen om computergebruikende agents (CUA's) verder te ontwikkelen. CUA's brengen unieke uitdagingen met zich mee en worden beperkt door drie hardnekkige tekortkomingen: een schaarste aan realistische CUA-taken, het ontbreken van geautomatiseerde pipelines voor het verzamelen en annoteren van multimodale trajecten, en de afwezigheid van een uniforme benchmark die GUI-gronding, schermparsing en actievoorspelling gezamenlijk evalueert. GUI-360° lost deze tekortkomingen op met een door LLM's (Large Language Models) versterkte, grotendeels geautomatiseerde pipeline voor queryverzameling, omgevingssjabloonconstructie, taakinstantiatie, gebatchte uitvoering en LLM-gestuurde kwaliteitsfiltering. De vrijgegeven corpus bevat meer dan 1,2 miljoen uitgevoerde actiestappen verspreid over duizenden trajecten in populaire Windows-kantoortoepassingen, en omvat schermafbeeldingen in volledige resolutie, beschikbare toegankelijkheidsmetadata, geïnstantieerde doelen, tussenliggende redeneersporen, en zowel succesvolle als mislukte actietrajecten. De dataset ondersteunt drie klassieke taken: GUI-gronding, schermparsing en actievoorspelling, en een hybride GUI+API-actieruimte die moderne agentontwerpen weerspiegelt. Het benchmarken van state-of-the-art vision-language-modellen op GUI-360° toont aanzienlijke tekortkomingen 'out-of-the-box' op het gebied van gronding en actievoorspelling; supervised fine-tuning en reinforcement learning leveren significante verbeteringen op maar dichten de kloof met de betrouwbaarheid van menselijk niveau niet. Wij geven GUI-360° en bijbehorende code vrij om reproduceerbaar onderzoek te vergemakkelijken en de vooruitgang naar robuuste desktop-CUA's te versnellen. De volledige dataset is openbaar gemaakt op https://huggingface.co/datasets/vyokky/GUI-360.
Recente vooruitgang in Vision-Language Models (VLMs) heeft state-of-the-art prestaties bereikt op tal van benchmarktaken. Het gebruik van internet-schaal, vaak propriëtaire, voor-trainingscorpora roept echter een kritieke zorg op voor zowel praktijkmensen als gebruikers: opgeblazen prestaties als gevolg van testset-lekkage. Hoewel eerdere werken mitigatiestrategieën hebben voorgesteld, zoals decontaminatie van voor-trainingsdata en benchmarkherontwerp voor LLMs, blijft de complementaire richting van het ontwikkelen van detectiemethoden voor gecontamineerde VLMs onderbelicht. Om dit hiaat aan te pakken, contamineren we opzettelijk open-source VLMs op populaire benchmarks en tonen we aan dat bestaande detectiebenaderingen ofwel volledig falen of inconsistente gedragingen vertonen. Vervolgens stellen we een nieuwe, eenvoudige maar effectieve detectiemethode voor op basis van multi-modale semantische perturbatie, waarbij we aantonen dat gecontamineerde modellen er niet in slagen te generaliseren onder gecontroleerde perturbaties. Ten slotte valideren we onze aanpak over meerdere realistische contaminatiestrategieën, wat de robuustheid en effectiviteit ervan bevestigt. De code en de verstoorde dataset zullen openbaar worden vrijgegeven.
Robuste benchmarks zijn cruciaal voor de evaluatie van Multimodale Large Language Models (MLLM's). Toch stellen wij vast dat modellen veel multimodale benchmarks kunnen 'kraken' zonder een sterk visueel begrip, door in plaats daarvan gebruik te maken van biases, linguïstische aannames en oppervlakkige patronen. Dit is vooral problematisch voor visie-centrische benchmarks die juist visuele input vereisen. Wij hanteren een diagnostisch principe voor benchmark-ontwerp: als een benchmark te manipuleren is, zal dat ook gebeuren. Ontwerpers moeten daarom proberen hun eigen benchmarks eerst te 'manipuleren' door middel van diagnostische en debiasing-procedures om niet-visuele biases systematisch te identificeren en te mitigeren. Effectieve diagnose vereist direct 'trainen op de testset' – het onderzoeken van de vrijgegeven testset op haar intrinsieke, uitbuitbare patronen. Wij operationaliseren deze standaard met twee componenten. Ten eerste diagnosticeren we de gevoeligheid van een benchmark met behulp van een "Test-set Stress-Test" (TsT) methodologie. Ons primaire diagnostische instrument bestaat uit het fine-tunen van een krachtige Large Language Model via k-fold kruisvalidatie, uitsluitend op de niet-visuele, tekstuele inputs van de testset, om shortcut-prestaties bloot te leggen en elk sample een bias-score s(x) toe te kennen. Dit vullen we aan met een lichtgewicht, op Random Forest gebaseerde diagnostiek die werkt op handmatig gemaakte kenmerken voor snelle, interpreteerbare auditing. Ten tweede zuiveren we benchmarks van bias door samples met een hoge bias eruit te filteren met een "Iteratieve Bias Snoei" (IBP) procedure. Door dit raamwerk toe te passen op vier benchmarks – VSI-Bench, CV-Bench, MMMU en VideoMME – leggen wij alomtegenwoordige niet-visuele biases bloot. Als casestudy passen we ons volledige raamwerk toe om VSI-Bench-Debiased te creëren, wat een verminderde niet-visuele oplosbaarheid en een grotere prestatiekloof met visie-uitgeschakelde modellen demonstreert vergeleken met het origineel.
Opkomende systeempatronen voor Large Language Models (LLM's), zoals gedisaggregeerde inferentie, Mixture-of-Experts (MoE)-routering en asynchrone reinforcement fine-tuning, vereisen flexibele point-to-point communicatie die verder gaat dan eenvoudige collectieve operaties. Bestaande implementaties zijn gekoppeld aan specifieke netwerkinterfacecontrollers (NIC's), wat integratie in inferentie-engines en portabiliteit tussen hardwareleveranciers belemmert. Wij presenteren TransferEngine, dat de functionaliteit van gangbare NIC's overbrugt om een uniforme interface bloot te leggen. TransferEngine biedt one-sided WriteImm-operaties met een ImmCounter-primitief voor voltooiingsmelding, zonder ordeningsaannames van netwerktransport, en beheert transparant meerdere NIC's per GPU. We demonstreren een piekdoorvoer van 400 Gbps op zowel NVIDIA ConnectX-7 als AWS Elastic Fabric Adapter (EFA). We tonen TransferEngine aan de hand van drie productiesystemen: (1) KvCache-overdracht voor gedisaggregeerde inferentie met dynamische schaling, (2) RL-gewichtupdates die 1,3 seconden bereiken voor modellen met een biljoen parameters, en (3) een MoE dispatch/combine-implementatie die de DeepEP-decodeerlatentie op ConnectX-7 overtreft, met de eerste haalbare latenties op EFA. We tonen aan dat onze draagbare point-to-point communicatie collectieve operaties aanvult terwijl vendor lock-in wordt vermeden.
Wij stellen EVTAR voor, een End-to-End Virtual Try-on model met Additionele Referentie, dat het doelkledingstuk direct op de persoon in de afbeelding past terwijl het referentiebeelden integreert om de pasnauwkeurigheid te verbeteren. De meeste bestaande virtuele pas-aanpakken vertrouwen op complexe invoer, zoals agnostische persoonafbeeldingen, menselijke houding, densepose of lichaamskeypoints, wat ze arbeidsintensief en onpraktisch maakt voor realistische toepassingen. EVTAR daarentegen hanteert een tweefasetrainingsstrategie, waardoor eenvoudige inferentie mogelijk is met alleen de bronafbeelding en het doelkledingstuk als invoer. Ons model genereert pasresultaten zonder maskers, densepose of segmentatiekaarten. Bovendien benut EVTAR aanvullende referentiebeelden van verschillende personen die dezelfde kleding dragen om de textuur van het kledingstuk en fijngranulaire details beter te behouden. Dit mechanisme is vergelijkbaar met hoe mensen referentiemodellen overwegen bij het kiezen van outfits, waardoor een realistischer en hoogwaardiger kledingeffect wordt gesimuleerd. Wij verrijken de trainingsgegevens met aanvullende referenties en niet-gepaarde persoonafbeeldingen om deze mogelijkheden te ondersteunen. We evalueren EVTAR op twee veelgebruikte benchmarks en diverse taken, en de resultaten valideren consistent de effectiviteit van onze aanpak.
Ondanks indrukwekkend hoogwaardige videocomprehensie hebben multimodale taalmodellen moeite met ruimtelijk redeneren in tijd en ruimte. Hoewel huidige ruimtelijke trainingsmethoden vertrouwen op real-world videogegevens, blijft het verkrijgen van diverse beelden met precieze ruimtelijke annotaties een knelpunt. Om dit knelpunt te verlichten, presenteren we SIMS-V – een systematisch datageneratieraamwerk dat gebruikmaakt van de geprivilegieerde informatie van 3D-simulators om ruimtelijk rijke videotrainingsdata voor multimodale taalmodellen te creëren. Met dit raamwerk onderzoeken we welke eigenschappen van gesimuleerde data effectieve real-world transfer teweegbrengen door middel van systematische ablatiestudies van vraagtypen, -mengsels en -schalen. We identificeren een minimale set van drie vraagcategorieën (metrische meting, perspectiefafhankelijk redeneren en temporeel volgen) die het meest effectief blijken voor het ontwikkelen van overdraagbare ruimtelijke intelligentie, waarbij ze uitgebreide dekking overtreffen ondanks het gebruik van minder vraagtypen. Deze inzichten maken zeer efficiënte training mogelijk: ons 7B-parameter videotaalmodel, gefinetuned op slechts 25.000 gesimuleerde voorbeelden, presteert beter dan de grotere 72B-basislijn en behaalt competitieve prestaties met propriëtaire modellen op rigoureuze real-world ruimtelijke redeneerbenchmarks. Onze aanpak demonstreert robuuste generalisatie, waarbij de prestaties op algemeen videobegrip behouden blijven terwijl er aanzienlijke verbeteringen worden getoond op belichaamde en real-world ruimtelijke taken.
De automatische evaluatie van spraak-naar-tekst-vertaalsystemen (ST) gebeurt doorgaans door vertaalahypothesen te vergelijken met één of meer referentievertalingen. Hoewel deze aanpak tot op zekere hoogte effectief is, erft ze de beperking van referentiegebaseerde evaluatie waarbij waardevolle informatie uit de broninvoer wordt genegeerd. Bij machinaal vertalen (MT) heeft recente vooruitgang aangetoond dat neurale metrieken die de brontekst incorporeren een sterkere correlatie met menselijke beoordelingen bereiken. Deze gedachte doortrekken naar ST is echter niet triviaal, omdat de bron audio is in plaats van tekst, en betrouwbare transcripties of aligneringen tussen bron en referenties vaak ontbreken. In dit werk voeren we de eerste systematische studie uit naar bronbewuste metrieken voor ST, met bijzondere aandacht voor realistische operationele omstandigheden waarbij brontranscripties niet beschikbaar zijn. We onderzoeken twee complementaire strategieën voor het genereren van tekstuele benaderingen van de invoeraudio: automatische spraakherkenning (ASR)-transcripties en terugvertalingen van de referentievertaling, en introduceren een nieuw tweestaps cross-lingual hersegmenteringsalgoritme om het aligneringsverschil tussen synthetische bronnen en referentievertalingen aan te pakken. Onze experimenten, uitgevoerd op twee ST-referentiepunten met 79 taalparen en zes ST-systemen met uiteenlopende architecturen en prestatieniveaus, tonen aan dat ASR-transcripties een betrouwbaardere synthetische bron vormen dan terugvertalingen wanneer de woordfoutenfrequentie onder de 20% ligt, terwijl terugvertalingen altijd een rekenkundig goedkopere maar nog steeds effectieve alternatief vertegenwoordigen. Bovendien stelt ons cross-linguale hersegmenteringsalgoritme een robuust gebruik van bronbewuste MT-metrieken in ST-evaluatie mogelijk, waarmee de weg wordt geëffend naar nauwkeurigere en meer principiële evaluatiemethodologieën voor spraakvertaling.
Humanoïd voetbal vormt een representatieve uitdaging voor belichaamde intelligentie, waarbij robots moeten functioneren binnen een sterk gekoppelde perceptie-actielus. Bestaande systemen vertrouwen echter doorgaans op ontkoppelde modules, wat leidt tot vertraagde reacties en onsamenhangend gedrag in dynamische omgevingen, terwijl beperkingen in de werkelijke waarneming deze problemen verder verergeren. In dit werk presenteren we een uniforme, op reinforcement learning gebaseerde controller die humanoïde robots in staat stelt reactieve voetbalvaardigheden te verwerven door directe integratie van visuele perceptie en bewegingscontrole. Onze aanpak breidt Adversarial Motion Priors uit naar perceptuele settings in dynamische real-world omgevingen, waardoor een brug wordt geslagen tussen bewegingsobservatie en visueel verankerde dynamische controle. We introduceren een encoder-decoderarchitectuur gecombineerd met een virtueel perceptiesysteem dat visuele kenmerken van de echte wereld modelleert, waardoor het beleid in staat is geprivilegieerde toestanden te herleiden uit imperfecte observaties en een actieve coördinatie tussen perceptie en actie tot stand te brengen. De resulterende controller toont sterke reactiviteit en voert consistent samenhangend en robuust voetbalgedrag uit in diverse scenario's, inclusief echte RoboCup-wedstrijden.
Wij introduceren SAIL-RL, een raamwerk voor reinforcement learning (RL) na de training, dat de redeneercapaciteiten van multimodale grote taalmodellen (MLLM's) verbetert door hen te leren wanneer en hoe ze moeten denken. Bestaande benaderingen worden beperkt door enkelvoudige uitkomstsupervisie, die correcte antwoorden beloont zonder een degelijke redenering te garanderen, en door uniforme denkstrategieën, die vaak leiden tot overdreven nadenken bij eenvoudige taken en te weinig nadenken bij complexe taken. SAIL-RL lost deze problemen op met een dubbel beloningssysteem: de Denkbeloning, die de redeneerkwaliteit evalueert op basis van feitelijke onderbouwing, logische samenhang en antwoordconsistentie, en de Beoordelingsbeloning, die adaptief bepaalt of diep nadenken of direct antwoorden gepast is. Experimenten met de state-of-the-art SAIL-VL2 tonen aan dat SAIL-RL de prestaties verbetert op redeneer- en multimodale begripsbenchmarks op zowel 4B- als 8B-schaal, competitieve prestaties bereikt ten opzichte van commerciële closed-source modellen zoals GPT-4o, en hallucinaties aanzienlijk vermindert. Dit vestigt SAIL-RL als een principieel raamwerk voor het bouwen van betrouwbaardere en adaptievere MLLM's. De code zal beschikbaar zijn op https://github.com/BytedanceDouyinContent/SAIL-RL.