Dagelijks geselecteerde AI onderzoekspapers met vertalingen
We introduceren InternVL 2.5, een geavanceerd multimodaal groot taalmodel (MLLM) serie die voortbouwt op InternVL 2.0, waarbij het kernmodelarchitectuur behouden blijft en significante verbeteringen introduceert in trainings- en teststrategieën, evenals gegevenskwaliteit. In dit werk duiken we in de relatie tussen model schaling en prestaties, systematisch de prestatietrends verkennend in visuele encoders, taalmodellen, datasetgroottes, en testtijdconfiguraties. Door uitgebreide evaluaties op een breed scala van benchmarks, inclusief multidisciplinair redeneren, documentbegrip, multi-beeld/video begrip, begrip van de echte wereld, multimodale hallucinatiedetectie, visuele verankering, meertalige mogelijkheden, en pure taalverwerking, vertoont InternVL 2.5 competitieve prestaties, wedijverend met toonaangevende commerciële modellen zoals GPT-4o en Claude-3.5-Sonnet. Opmerkelijk is dat ons model het eerste open-source MLLM is dat meer dan 70% behaalt op de MMMU benchmark, met een verbetering van 3,7 punten door Chain-of-Thought (CoT) redenering en een sterke potentie laat zien voor schaling op testtijd. We hopen dat dit model bijdraagt aan de open-source gemeenschap door nieuwe normen te stellen voor het ontwikkelen en toepassen van multimodale AI-systemen. HuggingFace demo zie https://huggingface.co/spaces/OpenGVLab/InternVL
Dit technische rapport introduceert de EXAONE 3.5 instructie-afgestemde taalmodellen, ontwikkeld en uitgebracht door LG AI Research. De EXAONE 3.5 taalmodellen worden aangeboden in drie configuraties: 32B, 7.8B en 2.4B. Deze modellen hebben verschillende opvallende mogelijkheden: 1) uitzonderlijke instructievolgcapaciteiten in realistische scenario's, waarbij de hoogste scores worden behaald over zeven benchmarks, 2) uitstekend begrip van lange context, met de beste prestaties in vier benchmarks, en 3) concurrerende resultaten in vergelijking met toonaangevende open modellen van vergelijkbare groottes over negen algemene benchmarks. De EXAONE 3.5 taalmodellen zijn open voor iedereen voor onderzoeksdoeleinden en kunnen worden gedownload van https://huggingface.co/LGAI-EXAONE. Voor commercieel gebruik kunt u contact opnemen met het officiële contactpunt van LG AI Research: contact_us@lgresearch.ai.
Recente ontwikkelingen in tekst-naar-video (T2V) generatieve modellen hebben indrukwekkende mogelijkheden laten zien. Echter, deze modellen zijn nog steeds ontoereikend in het afstemmen van gesynthetiseerde video's op menselijke voorkeuren (bijv. het nauwkeurig weergeven van tekstbeschrijvingen), wat bijzonder moeilijk is aan te pakken, aangezien menselijke voorkeuren inherent subjectief zijn en moeilijk te formaliseren als objectieve functies. Daarom stelt dit artikel LiFT voor, een nieuw fine-tuning methode die menselijke feedback benut voor de afstemming van T2V modellen. Specifiek construeren we eerst een dataset voor Menselijke Beoordelingsannotaties, LiFT-HRA, bestaande uit ongeveer 10k menselijke beoordelingen, elk met een score en de bijbehorende rechtvaardiging. Op basis hiervan trainen we een beloningsmodel LiFT-Critic om effectief de beloningsfunctie te leren, die dient als een proxy voor menselijk oordeel, waarbij de afstemming tussen gegeven video's en menselijke verwachtingen wordt gemeten. Ten slotte benutten we de geleerde beloningsfunctie om het T2V model af te stemmen door de beloningsgewogen waarschijnlijkheid te maximaliseren. Als casestudie passen we ons proces toe op CogVideoX-2B, waarbij we aantonen dat het gefinetunede model beter presteert dan de CogVideoX-5B op alle 16 metrieken, waarbij het potentieel van menselijke feedback wordt benadrukt in het verbeteren van de afstemming en kwaliteit van gesynthetiseerde video's.
Open-source multimodale grote taalmodellen (MLLM's) hebben aanzienlijk potentieel getoond in een breed scala van multimodale taken. Echter, hun redeneervermogen blijft beperkt door bestaande instructie-afstemmingsdatasets, die voornamelijk hergebruikt zijn van academische datasets zoals VQA, AI2D, en ChartQA. Deze datasets richten zich op eenvoudige taken en bieden alleen antwoorden op zinsniveau zonder enige tussenliggende rationales. Om deze uitdagingen aan te pakken, introduceren we een schaalbare en kosteneffectieve methode om een grootschalige multimodale instructie-afstemmingsdataset te construeren met rijke tussenliggende rationales die zijn ontworpen om CoT-redenering op te wekken. Met behulp van alleen open modellen creëren we een dataset met 12M instructie-antwoordparen om diverse, redeneringsintensieve taken te bestrijken met gedetailleerde en trouwe rationales. Experimenten tonen aan dat het trainen van MLLM's op deze dataset het redeneervermogen aanzienlijk verbetert, met het behalen van state-of-the-art prestaties op benchmarks zoals MathVerse (+8,1%), MMMU-Pro (+7%) en MuirBench (+13,3%). Bovendien vertoont het model opmerkelijke verbeteringen tot 4% op niet-redeneringsgebaseerde benchmarks. Ablatiestudies benadrukken verder het belang van sleutelcomponenten, zoals herschrijven en zelffiltering, in het datasetconstructieproces.
Recente ontwikkelingen in tekstgestuurde beeldbewerking stellen gebruikers in staat om beeldbewerkingen uit te voeren via eenvoudige tekstinvoer, waarbij gebruik wordt gemaakt van de uitgebreide voorkennis van op diffusie gebaseerde tekst-naar-beeldmodellen met meerdere stappen. Deze methoden schieten echter vaak tekort aan de snelheidseisen die nodig zijn voor real-world en on-device toepassingen vanwege het kostbare multi-stap inversie- en bemonsteringsproces dat ermee gepaard gaat. Als reactie hierop introduceren we SwiftEdit, een eenvoudige maar zeer efficiënte bewerkingstool die directe tekstgestuurde beeldbewerking mogelijk maakt (in 0.23s). De vooruitgang van SwiftEdit ligt in zijn twee nieuwe bijdragen: een éénstaps inversiekader dat éénstaps beeldreconstructie mogelijk maakt via inversie en een bewerkingstechniek met maskergeleiding met ons voorgestelde aandachtherkalibratiemechanisme om gelokaliseerde beeldbewerking uit te voeren. Uitgebreide experimenten worden uitgevoerd om de effectiviteit en efficiëntie van SwiftEdit te demonstreren. In het bijzonder maakt SwiftEdit directe tekstgestuurde beeldbewerking mogelijk, die extreem sneller is dan eerdere multi-stap methoden (minstens 50 keer sneller) terwijl het een concurrerende prestatie behoudt in bewerkingsresultaten. Onze projectpagina is te vinden op: https://swift-edit.github.io/
Grote taalmodellen (LLM's) staan bekend om hun intensieve geheugengebruik tijdens training, vooral met de populaire AdamW-optimalisator. Deze geheugenlast vereist het gebruik van meer of geavanceerdere GPU's of het verkleinen van batchgroottes, wat de schaalbaarheid en doorvoer van training beperkt. Om dit aan te pakken, zijn verschillende geheugenefficiënte optimalisatoren voorgesteld om het geheugengebruik van de optimalisator te verminderen. Ze worden echter geconfronteerd met kritieke uitdagingen: (i) afhankelijkheid van kostbare SVD-operaties; (ii) aanzienlijke prestatieafwegingen in vergelijking met AdamW; en (iii) nog steeds aanzienlijke geheugenoverhead van de optimalisator om concurrerende prestaties te behouden. In dit werk identificeren we dat de leersnelheidsaanpassingsregel van AdamW effectief kan worden verfijnd als een gestructureerde leersnelheidsupdate. Op basis van deze inzichten stellen we Approximated Gradient Scaling voor voor Geheugenefficiënte LLM-optimalisatie (APOLLO), die leersnelheidsverandering benadert met behulp van een hulpoptimalisatorstaat met lage rang gebaseerd op pure willekeurige projectie. Deze gestructureerde leersnelheidsupdate-regel maakt APOLLO zeer tolerant voor verdere geheugenvermindering terwijl het vergelijkbare pre-training prestaties levert. Zelfs de rank-1 variant, APOLLO-Mini, behaalt superieure pre-training prestaties in vergelijking met AdamW met SGD-niveau geheugenkosten. Uitgebreide experimenten tonen aan dat de APOLLO-serie op gelijke hoogte presteert of beter dan AdamW, terwijl het grotere geheugenbesparingen behaalt door bijna de optimalisatorstaten van AdamW te elimineren. Deze besparingen bieden aanzienlijke systeemvoordelen: (1) Verbeterde Doorvoer: 3x doorvoer op een 8xA100-80GB opstelling in vergelijking met AdamW door ondersteuning van 4x grotere batchgroottes. (2) Verbeterde Model Schaalbaarheid: Pre-training LLaMA-13B met naïeve DDP op A100-80GB GPU's zonder systeemniveau-optimalisaties. (3) Pre-training Vriendelijk voor GPU's met lage specificaties: Pre-training LLaMA-7B op een enkele GPU met minder dan 12 GB geheugen met gewichtskwantisering.
Recente ontwikkelingen in Grote Taalmodellen die vooraf zijn getraind op uitgebreide corpora hebben aanzienlijk succes laten zien in verschillende natuurlijke taalverwerkingstaken met minimaal fijnafstemming. Dit succes biedt nieuwe belofte voor robotica, die lange tijd beperkt is geweest door de hoge kosten van actie-gelabelde gegevens. We vragen ons af: gezien de overvloed aan videogegevens met interactiegerelateerde kennis die beschikbaar is als een rijk "corpus", kan een vergelijkbare generatieve vooraf trainingsbenadering effectief worden toegepast om robotleren te verbeteren? De belangrijkste uitdaging is om een effectieve representatie te identificeren voor autoregressieve vooraf training die ten goede komt aan robot manipulatietaken. Geïnspireerd door de manier waarop mensen nieuwe vaardigheden leren door dynamische omgevingen te observeren, stellen we dat effectief robotleren de nadruk moet leggen op bewegingsgerelateerde kennis, die nauw verbonden is met laag-niveau acties en hardware-agnostisch is, waardoor de overdracht van geleerde bewegingen naar daadwerkelijke robotacties wordt vergemakkelijkt. Met dit doel introduceren we Moto, die videomateriaal omzet in latente Bewegingstokenreeksen door een Latente Bewegingstokenizer, waarbij een verbindende "taal" van beweging wordt geleerd uit video's op een onbewaakte manier. We trainen Moto-GPT voor met behulp van bewegingstoken-autoregressie, waardoor het diverse visuele bewegingskennis kan vastleggen. Na de vooraf training toont Moto-GPT veelbelovende mogelijkheden om semantisch interpreteerbare bewegingstokens te produceren, plausibele bewegingstrajecten te voorspellen en traject rationaliteit te beoordelen via outputwaarschijnlijkheid. Om geleerde bewegingsprioriteiten over te dragen naar echte robotacties, implementeren we een co-fijnafstemmingsstrategie die naadloos latente bewegingstokenvoorspelling en daadwerkelijke robotbesturing verbindt. Uitgebreide experimenten tonen aan dat de fijnafgestemde Moto-GPT superieure robuustheid en efficiëntie vertoont op robot manipulatie-benchmarks, waarbij de effectiviteit ervan wordt benadrukt bij het overdragen van kennis van videogegevens naar downstream visuele manipulatietaken.
Modellen voor tekst-naar-video generatie hebben de afgelopen jaren aanzienlijke vooruitgang geboekt. Echter, ze hebben nog steeds moeite met het genereren van complexe dynamische scènes op basis van compositorische tekst prompts, zoals attribuutbinding voor meerdere objecten, temporele dynamiek geassocieerd met verschillende objecten, en interacties tussen objecten. Onze belangrijkste motivatie is dat complexe taken kunnen worden opgesplitst in eenvoudigere taken, elk behandeld door een rol-gespecialiseerde MLLM-agent. Meerdere agenten kunnen samenwerken om collectieve intelligentie te bereiken voor complexe doelen. Wij stellen GenMAC voor, een iteratief, multi-agent framework dat compositorische tekst-naar-video generatie mogelijk maakt. De samenwerkingsworkflow omvat drie fasen: Ontwerp, Generatie, en Herontwerp, met een iteratieve lus tussen de Generatie en Herontwerp fasen om de gegenereerde video's progressief te verifiëren en verfijnen. De Herontwerp fase is de meest uitdagende fase die tot doel heeft de gegenereerde video's te verifiëren, correcties voor te stellen, en de tekst prompts, frame-gerichte lay-outs, en begeleidingschalen te herontwerpen voor de volgende iteratie van generatie. Om hallucinatie van een enkele MLLM-agent te vermijden, splitsen we deze fase op in vier sequentieel uitgevoerde MLLM-gebaseerde agenten: verificatieagent, suggestieagent, correctieagent, en output-structureringsagent. Bovendien, om diverse scenario's van compositorische tekst-naar-video generatie aan te pakken, ontwerpen we een zelfrouteringsmechanisme om adaptief de juiste correctieagent te selecteren uit een verzameling correctieagenten die elk gespecialiseerd zijn voor één scenario. Uitgebreide experimenten tonen de effectiviteit van GenMAC aan, met het behalen van state-of-the-art prestaties in compositorische tekst-naar-video generatie.
In hoeverre kunnen Multimodale Grote Taalmodellen (MLLM's) samengestelde afbeeldingen begrijpen? Samengestelde afbeeldingen (CIs) zijn synthetische visuele elementen die worden gecreëerd door meerdere visuele elementen samen te voegen, zoals grafieken, posters of schermafbeeldingen, in plaats van rechtstreeks door een camera te worden vastgelegd. Hoewel CIs veel voorkomen in praktische toepassingen, hebben recente MLLM-ontwikkelingen zich voornamelijk gericht op het interpreteren van natuurlijke afbeeldingen (NIs). Ons onderzoek onthult dat huidige MLLM's aanzienlijke uitdagingen ondervinden bij het nauwkeurig begrijpen van CIs, waarbij ze vaak moeite hebben om informatie te extraheren of complexe redeneringen uit te voeren op basis van deze afbeeldingen. We constateren dat bestaande trainingsgegevens voor CIs voornamelijk zijn opgemaakt voor vraag-antwoordtaken (bijv. in datasets zoals ChartQA en ScienceQA), terwijl hoogwaardige afbeelding-onderschrift datasets, essentieel voor een robuuste visueel-talige afstemming, alleen beschikbaar zijn voor NIs. Om deze kloof te overbruggen, introduceren we Samengestelde Onderschriften (CompCap), een flexibel raamwerk dat gebruikmaakt van Grote Taalmodellen (LLM's) en automatiseringstools om CIs te synthetiseren met nauwkeurige en gedetailleerde onderschriften. Met behulp van CompCap stellen we CompCap-118K samen, een dataset met 118K afbeelding-onderschrift paren over zes CI-types. We valideren de effectiviteit van CompCap-118K door toezichtgehouden fijnafstemming van MLLM's van drie groottes: xGen-MM-inst.-4B en LLaVA-NeXT-Vicuna-7B/13B. Empirische resultaten tonen aan dat CompCap-118K aanzienlijk de begrip van MLLM's van CIs verbetert, met gemiddelde winsten van respectievelijk 1.7%, 2.0% en 2.9% over elf benchmarks.
3D Gaussian Splatting heeft opmerkelijk succes aangetoond in grootschalige scène reconstructie, maar er blijven uitdagingen bestaan vanwege het hoge geheugengebruik tijdens training en de opslagoverhead. Hybride representaties die impliciete en expliciete kenmerken integreren, bieden een manier om deze beperkingen te verminderen. Echter, wanneer toegepast in parallelle bloksgewijze training, ontstaan twee kritieke problemen aangezien de reconstructie nauwkeurigheid verslechtert door verminderde gegevensdiversiteit bij het afzonderlijk trainen van elk blok, en parallelle training beperkt het aantal verdeelde blokken tot het beschikbare aantal GPU's. Om deze problemen aan te pakken, stellen wij Momentum-GS voor, een nieuw benadering die gebruikmaakt van op momentum gebaseerde zelf-distantiëring om consistentie en nauwkeurigheid over de blokken te bevorderen terwijl het aantal blokken losgekoppeld wordt van het fysieke aantal GPU's. Onze methode behoudt een leraar-Gaussische decoder die bijgewerkt wordt met momentum, wat zorgt voor een stabiele referentie tijdens training. Deze leraar biedt elk blok globale begeleiding op een zelf-distantiëringsmanier, wat ruimtelijke consistentie in reconstructie bevordert. Om verdere consistentie over de blokken te waarborgen, nemen we blokgewicht mee, waarbij elk blok dynamisch wordt aangepast op basis van zijn reconstructienauwkeurigheid. Uitgebreide experimenten op grootschalige scènes tonen aan dat onze methode consequent beter presteert dan bestaande technieken, met een verbetering van 12.8% in LPIPS ten opzichte van CityGaussian met veel minder verdeelde blokken en het vestigen van een nieuwe state of the art. Projectpagina: https://jixuan-fan.github.io/Momentum-GS_Page/
Multimodale AI heeft het potentieel om documentbegripstaken aanzienlijk te verbeteren, zoals het verwerken van bonnetjes, begrijpen van workflows, data extraheren uit documenten en rapporten samenvatten. Codegeneratietaken die lange gestructureerde uitvoer vereisen, kunnen ook worden verbeterd door multimodaliteit. Ondanks dit is hun gebruik in commerciële toepassingen vaak beperkt vanwege beperkte toegang tot trainingsgegevens en beperkende licenties, wat open toegang belemmert. Om deze beperkingen aan te pakken, introduceren we BigDocs-7.5M, een hoogwaardige, open-access dataset bestaande uit 7,5 miljoen multimodale documenten over 30 taken. We gebruiken een efficiënt gegevenscuratieproces om ervoor te zorgen dat onze gegevens van hoge kwaliteit zijn en licentie-toestaand. Ons proces benadrukt verantwoording, verantwoordelijkheid en transparantie door filterregels, traceerbare metadata en zorgvuldige inhoudsanalyse. Daarnaast introduceren we BigDocs-Bench, een benchmark suite met 10 nieuwe taken waarbij we datasets creëren die real-world use cases weerspiegelen die redeneren over Graphical User Interfaces (GUI) en codegeneratie uit afbeeldingen omvatten. Onze experimenten tonen aan dat training met BigDocs-Bench de gemiddelde prestaties tot 25,8% verbetert ten opzichte van het closed-source GPT-4o bij documentredenering en gestructureerde uitvoertaken zoals Screenshot2HTML of Image2Latex-generatie. Ten slotte toonden menselijke evaluaties een voorkeur voor uitvoer van modellen getraind op BigDocs boven GPT-4o. Dit suggereert dat BigDocs zowel academici als de open-source gemeenschap kunnen helpen bij het benutten en verbeteren van AI-tools om multimodale mogelijkheden en documentredenering te verbeteren. Het project is gehost op https://bigdocs.github.io.
Echte video's bestaan uit opeenvolgingen van gebeurtenissen. Het genereren van dergelijke opeenvolgingen met nauwkeurige temporele controle is onhaalbaar met bestaande videogeneratoren die vertrouwen op een enkele alinea tekst als invoer. Wanneer ze belast worden met het genereren van meerdere gebeurtenissen beschreven met een enkele prompt, negeren dergelijke methoden vaak sommige van de gebeurtenissen of slagen ze er niet in om ze in de juiste volgorde te plaatsen. Om deze beperking aan te pakken, presenteren we MinT, een multi-gebeurtenis video-generator met temporele controle. Ons belangrijk inzicht is om elke gebeurtenis te koppelen aan een specifieke periode in de gegenereerde video, waardoor het model zich op één gebeurtenis tegelijk kan concentreren. Om tijdsbewuste interacties tussen gebeurtenisbijschriften en videotokens mogelijk te maken, ontwerpen we een op tijd gebaseerde positionele coderingsmethode, genaamd ReRoPE. Deze codering helpt bij het sturen van de kruislingse aandachtsoperatie. Door een vooraf getrainde video-diffusietransformer af te stemmen op temporeel gefundeerde gegevens, produceert onze benadering samenhangende video's met soepel verbonden gebeurtenissen. Voor het eerst in de literatuur biedt ons model controle over de timing van gebeurtenissen in gegenereerde video's. Uitgebreide experimenten tonen aan dat MinT bestaande open-source modellen veruit overtreft.
In dit artikel presenteren we PanoDreamer, een nieuw methode voor het produceren van een coherente 360^circ 3D scène vanuit een enkele invoerafbeelding. In tegenstelling tot bestaande methoden die de scène sequentieel genereren, kaderen wij het probleem als enkelvoudige-afbeelding panorama en diepteschatting. Zodra de coherente panoramische afbeelding en de bijbehorende diepte zijn verkregen, kan de scène worden gereconstrueerd door het opvullen van kleine verduisterde gebieden en ze te projecteren in 3D-ruimte. Onze belangrijkste bijdrage is het formuleren van enkelvoudige-afbeelding panorama en diepteschatting als twee optimalisatietaken en het introduceren van afwisselende minimalisatiestrategieën om hun doelstellingen effectief op te lossen. We tonen aan dat onze benadering bestaande technieken overtreft in enkelvoudige-afbeelding 360^circ scène reconstructie wat betreft consistentie en algehele kwaliteit.
De reconstructie van binnenruimtes blijft uitdagend vanwege de inherente complexiteit van ruimtelijke structuren en de prevalentie van textureloze gebieden. Recente ontwikkelingen in 3D Gaussisch Splatting hebben de synthese van nieuwe weergaven verbeterd met versnelde verwerking, maar hebben nog geen vergelijkbare prestaties geleverd in oppervlaktereconstructie. In dit artikel introduceren we 2DGS-Room, een nieuwe methode die gebruikmaakt van 2D Gaussisch Splatting voor hoogwaardige reconstructie van binnenruimtes. Specifiek maken we gebruik van een zaadgestuurd mechanisme om de verdeling van 2D Gaussians te controleren, waarbij de dichtheid van zaadpunten dynamisch wordt geoptimaliseerd door middel van adaptieve groei- en snoeimechanismen. Om de geometrische nauwkeurigheid verder te verbeteren, nemen we monoculaire diepte- en normaalpriora aan om beperkingen te bieden voor details en textureloze gebieden respectievelijk. Daarnaast worden multi-view consistentiebeperkingen toegepast om artefacten te verminderen en de reconstructiekwaliteit verder te verbeteren. Uitgebreide experimenten op de ScanNet en ScanNet++ datasets tonen aan dat onze methode state-of-the-art prestaties behaalt in de reconstructie van binnenruimtes.
Grote taalmodellen (LLM's) hebben van dialoog een van de centrale modi van mens-machine-interactie gemaakt, wat heeft geleid tot de accumulatie van enorme hoeveelheden gesprekslogs en een toenemende vraag naar dialooggeneratie. Een conversatielevenscyclus strekt zich uit van de Prelude via de Interlocutie naar de Epiloog, waarbij verschillende elementen worden omvat. Ondanks het bestaan van talrijke studies over dialogen, ontbreekt het aan benchmarks die uitgebreide dialoogelementen omvatten, wat een nauwkeurige modellering en systematische evaluatie belemmert. Om deze kloof te overbruggen, introduceren we een innovatieve onderzoekstaak Dialoog Element Modellering, met inbegrip van Element Bewustzijn en Dialoog Agent Interactie, en stellen we een nieuwe benchmark voor, DEMO, ontworpen voor een uitgebreide dialoogmodellering en -evaluatie. Geïnspireerd door imitatieleren, bouwen we verder de agent die over de bekwame vaardigheid beschikt om dialoogelementen te modelleren op basis van de DEMO benchmark. Uitgebreide experimenten tonen aan dat bestaande LLM's nog steeds aanzienlijk potentieel hebben voor verbetering, en onze DEMO-agent presteert superieur in zowel in-domein als uit-domein taken.
Beloningen blijven een oninterpreteerbare manier om taken te specificeren voor Reinforcement Learning, aangezien mensen vaak niet in staat zijn om het optimale gedrag van een gegeven beloningsfunctie te voorspellen, wat leidt tot slecht beloningsontwerp en beloningsexploitaties. Taal biedt een aantrekkelijke manier om intenties aan agenten over te brengen en beloningsontwerp te omzeilen, maar eerdere inspanningen om dit te doen zijn beperkt door kostbare en niet-schaalbare labelingsinspanningen. In dit werk stellen we een methode voor als een volledig ongesuperviseerd alternatief om taalinstructies op een zero-shot manier te gronden om beleidslijnen te verkrijgen. We presenteren een oplossing die de vorm aanneemt van verbeelden, projecteren en imiteren: De agent verbeeldt de observatievolgorde die overeenkomt met de taalbeschrijving van een taak, projecteert de verbeelde volgorde naar ons doeldomein en grondt deze in een beleid. Video-taalmodellen stellen ons in staat om taakbeschrijvingen te verbeelden die gebruikmaken van kennis van taken die zijn geleerd uit video-tekstkoppelingen op internet-schaal. De uitdaging blijft om deze generaties te gronden in een beleid. In dit werk tonen we aan dat we een zero-shot taal-naar-gedragsbeleid kunnen bereiken door eerst de verbeelde sequenties te gronden in echte observaties van een ongesuperviseerde RL-agent en een gesloten oplossing te gebruiken voor imitatieleren die de RL-agent in staat stelt om de gegrondveste observaties na te bootsen. Onze methode, RLZero, is naar ons weten de eerste die zero-shot taal-naar-gedragsgeneratievaardigheden laat zien zonder enige supervisie op een verscheidenheid aan taken op gesimuleerde domeinen. We tonen verder aan dat RLZero ook beleidslijnen zero-shot kan genereren van cross-embodied video's zoals die zijn verzameld van YouTube.