Dagelijks geselecteerde AI onderzoekspapers met vertalingen
De introductie van grote taalmodellen heeft codegeneratie aanzienlijk vooruitgebracht. Open-source modellen ontberen echter vaak de uitvoeringsmogelijkheden en iteratieve verfijning van geavanceerde systemen zoals de GPT-4 Code Interpreter. Om dit aan te pakken, introduceren we OpenCodeInterpreter, een familie van open-source codesystemen die zijn ontworpen voor het genereren, uitvoeren en iteratief verfijnen van code. Ondersteund door Code-Feedback, een dataset met 68K multi-turn interacties, integreert OpenCodeInterpreter uitvoering en menselijke feedback voor dynamische codeverfijning. Onze uitgebreide evaluatie van OpenCodeInterpreter op belangrijke benchmarks zoals HumanEval, MBPP en hun verbeterde versies van EvalPlus toont zijn uitzonderlijke prestaties. Opmerkelijk is dat OpenCodeInterpreter-33B een nauwkeurigheid behaalt van 83,2 (76,4) op de gemiddelde (en plus versies) van HumanEval en MBPP, wat dicht in de buurt komt van GPT-4's 84,2 (76,2) en verder stijgt tot 91,6 (84,6) met gesynthetiseerde menselijke feedback van GPT-4. OpenCodeInterpreter verkleint de kloof tussen open-source codegeneratiemodellen en propriëtaire systemen zoals GPT-4 Code Interpreter.
Hoewel Transformers enorme vooruitgang hebben mogelijk gemaakt in verschillende toepassingsgebieden, blijven dergelijke architecturen achter bij traditionele symbolische planners bij het oplossen van complexe besluitvormingstaken. In dit werk demonstreren we hoe Transformers kunnen worden getraind om complexe planningsproblemen op te lossen en presenteren we Searchformer, een Transformermodel dat voorheen onbekende Sokoban-puzzels in 93,7% van de gevallen optimaal oplost, terwijl het tot 26,8% minder zoekstappen gebruikt dan standaard A*-zoeken. Searchformer is een encoder-decoder Transformermodel dat is getraind om de zoekdynamiek van A* te voorspellen. Dit model wordt vervolgens verfijnd via expertiteraties om minder zoekstappen te gebruiken dan A*-zoeken, terwijl het nog steeds een optimaal plan genereert. In onze trainingsmethode wordt de zoekdynamiek van A* uitgedrukt als een tokenreeks die beschrijft wanneer taaktoestanden worden toegevoegd en verwijderd uit de zoekboom tijdens symbolisch plannen. In onze ablatiestudies over navigatie in doolhoven constateren we dat Searchformer aanzienlijk beter presteert dan baseline-modellen die het optimale plan direct voorspellen, met een 5-10 keer kleiner model en een 10 keer kleinere trainingsdataset. We demonstreren ook hoe Searchformer schaalt naar grotere en complexere besluitvormingstaken zoals Sokoban, met een verbeterd percentage opgeloste taken en verkorte zoekdynamiek.
In de zoektocht naar meer inclusieve Vision-Language Models (VLMs) introduceert deze studie een groot meertalig multimodaal model genaamd Palo. Palo biedt visuele redeneervaardigheden in 10 belangrijke talen, waaronder Engels, Chinees, Hindi, Spaans, Frans, Arabisch, Bengaals, Russisch, Urdu en Japans, die samen ongeveer 5 miljard mensen beslaan (65% van de wereldbevolking). Onze aanpak omvat een semi-geautomatiseerde vertaalbenadering om de multimodale instructiedataset van het Engels aan te passen aan de doeltalen met behulp van een fijn afgestemd Large Language Model, waardoor een hoge linguïstische betrouwbaarheid wordt gegarandeerd terwijl schaalbaarheid mogelijk blijft door minimale handmatige inspanning. De integratie van diverse instructiesets helpt ons de algehele prestaties over meerdere talen te verbeteren, vooral voor ondervertegenwoordigde talen zoals Hindi, Arabisch, Bengaals en Urdu. De resulterende modellen zijn getraind op drie schalen (1,7B, 7B en 13B parameters) om de generalisatie en schaalbaarheid te demonstreren, waarbij we aanzienlijke verbeteringen waarnemen in vergelijking met sterke baseline-modellen. We stellen ook de eerste meertalige multimodale benchmark voor om toekomstige benaderingen te evalueren op hun visueel-taalkundige redeneervaardigheden over verschillende talen. Code: https://github.com/mbzuai-oryx/PALO.
We presenteren het TinyLLaVA-framework, dat een uniform perspectief biedt voor het ontwerpen en analyseren van kleinschalige Large Multimodal Models (LMMs). We bestuderen empirisch de effecten van verschillende vision-encoders, verbindingsmodules, taalmodelen, trainingsdata en trainingsrecepten. Onze uitgebreide experimenten toonden aan dat een betere kwaliteit van data, gecombineerd met betere trainingsrecepten, ervoor zorgt dat kleinere LMMs consistent vergelijkbare prestaties kunnen behalen in vergelijking met grotere LMMs. Binnen ons framework trainen we een familie van kleinschalige LMMs. Ons beste model, TinyLLaVA-3.1B, behaalt een betere algehele prestatie in vergelijking met bestaande 7B-modellen zoals LLaVA-1.5 en Qwen-VL. We hopen dat onze bevindingen kunnen dienen als basislijnen voor toekomstig onderzoek op het gebied van datascaling, trainingsopstellingen en modelselectie. Onze modelgewichten en code zullen openbaar worden gemaakt.
Transformer-gebaseerde vision-modellen tokeniseren doorgaans afbeeldingen in vaste, vierkante patches als invoereenheden, wat de aanpassingsmogelijkheid aan de beeldinhoud beperkt en de inherente pixelgroeperingsstructuur over het hoofd ziet. Geïnspireerd door de subwoord-tokenisatie die veel wordt gebruikt in taalmodellen, stellen we een beeld-tokenizer voor op subobjectniveau, waarbij de subobjecten worden vertegenwoordigd door semantisch betekenisvolle beeldsegmenten die worden verkregen via segmentatiemodellen (bijvoorbeeld 'segment anything'-modellen). Om een leersysteem te implementeren dat gebaseerd is op subobject-tokenisatie, introduceerden we eerst een Sequence-to-sequence AutoEncoder (SeqAE) om subobjectsegmenten van verschillende groottes en vormen te comprimeren tot compacte embeddingvectoren, waarna de subobject-embeddings werden ingevoerd in een groot taalmodel voor vision-taal-leren. Empirische resultaten toonden aan dat onze tokenisatie op subobjectniveau het efficiënt leren van het vertalen van afbeeldingen naar object- en attribuutbeschrijvingen aanzienlijk vergemakkelijkt in vergelijking met de traditionele patch-niveau-tokenisatie. Codes en modellen zullen worden openbaar gemaakt op https://github.com/ChenDelong1999/subobjects.
Over het brede landschap van experimenteel ontwerp is regressie een krachtig instrument geweest om de uitkomstmetingen van een systeem of model nauwkeurig te voorspellen op basis van een set parameters, maar was het traditioneel beperkt tot methoden die alleen toepasbaar zijn op een specifieke taak. In dit artikel stellen we OmniPred voor, een raamwerk voor het trainen van taalmodelen als universele end-to-end regressoren over (x,y)-evaluatiedata uit diverse real-world experimenten. Met behulp van data afkomstig van Google Vizier, een van de grootste blackbox-optimalisatiedatabases ter wereld, tonen onze uitgebreide experimenten aan dat taalmodelen, door alleen tekstuele representaties van wiskundige parameters en waarden, in staat zijn tot zeer precieze numerieke regressie, en dat ze, indien de mogelijkheid krijgen om over meerdere taken te trainen, traditionele regressiemodellen significant kunnen overstijgen.
Met de snelle vooruitgang van Large Language Models (LLMs) is er aanzienlijke vooruitgang geboekt in multi-agenttoepassingen. De complexiteit bij het coördineren van samenwerking tussen agents en de wisselende prestaties van LLMs vormen echter aanzienlijke uitdagingen bij het ontwikkelen van robuuste en efficiënte multi-agenttoepassingen. Om deze uitdagingen aan te pakken, stellen we AgentScope voor, een ontwikkelaarsgericht multi-agentplatform met berichtuitwisseling als kerncommunicatiemechanisme. Samen met uitgebreide syntactische tools, ingebouwde bronnen en gebruiksvriendelijke interacties, vermindert ons communicatiemechanisme de drempels voor zowel ontwikkeling als begrip aanzienlijk. Voor robuuste en flexibele multi-agenttoepassingen biedt AgentScope zowel ingebouwde als aanpasbare fouttolerantiemechanismen, terwijl het ook is uitgerust met systeemniveau-ondersteuning voor de generatie, opslag en overdracht van multimodale data. Daarnaast hebben we een actor-gebaseerd distributiekader ontworpen, dat een eenvoudige conversie tussen lokale en gedistribueerde implementaties mogelijk maakt en automatische parallelle optimalisatie zonder extra inspanning. Met deze functies stelt AgentScope ontwikkelaars in staat om toepassingen te bouwen die het volledige potentieel van intelligente agents benutten. We hebben AgentScope vrijgegeven op https://github.com/modelscope/agentscope, en hopen dat AgentScope bredere deelname en innovatie uitnodigt in dit snel evoluerende veld.
Dataschaarste in talen met beperkte bronnen kan worden aangepakt met woord-voor-woord vertalingen van gelabelde taakgegevens uit talen met veel bronnen, waarbij tweetalige woordenlijsten worden gebruikt. Echter, tweetalige woordenlijsten hebben vaak een beperkte lexicale overlap met taakgegevens, wat resulteert in slechte vertaaldekking en benutting van de woordenlijst. Wij stellen lexicon-geconditioneerde datageneratie (LexC-Gen) voor, een methode die classificatietaakgegevens in talen met beperkte bronnen op grote schaal genereert. Specifiek gebruikt LexC-Gen eerst woorden uit talen met veel bronnen uit tweetalige woordenlijsten om lexicon-compatibele taakgegevens te genereren, en vertaalt deze vervolgens naar talen met beperkte bronnen met behulp van tweetalige woordenlijsten via woordvertaling. Over 17 extreem laag-resource talen is de door LexC-Gen gegenereerde data vergelijkbaar met door experts vertaalde gouden data, en levert gemiddeld 5,6 en 8,9 punten verbetering op ten opzichte van bestaande lexicon-gebaseerde woordvertaalmethoden voor sentimentanalyse en onderwerpsclassificatietaken respectievelijk. We tonen aan dat conditionering op tweetalige woordenlijsten het sleutelelement van LexC-Gen is. LexC-Gen is ook praktisch – het heeft slechts één GPU nodig om data op grote schaal te genereren. Het werkt goed met open-access LLM's, en de kosten ervan zijn een vijfde van de kosten van GPT4-gebaseerde meertalige datageneratie.
Sampling uit diffusion probabilistische modellen (DPM's) is vaak kostbaar voor het genereren van hoogwaardige afbeeldingen en vereist doorgaans veel stappen met een groot model. In dit artikel introduceren we Trajectory Stitching T-Stitch, een eenvoudige maar efficiënte techniek om de samplingefficiëntie te verbeteren met weinig of geen verlies in generatiekwaliteit. In plaats van uitsluitend een groot DPM te gebruiken voor het volledige samplingtraject, maakt T-Stitch eerst gebruik van een kleiner DPM in de initiële stappen als een goedkope vervanging van het grotere DPM en schakelt over naar het grotere DPM in een later stadium. Onze belangrijkste inzicht is dat verschillende diffusion modellen vergelijkbare coderingen leren onder dezelfde trainingsdatadistributie en kleinere modellen in staat zijn om goede globale structuren te genereren in de vroege stappen. Uitgebreide experimenten tonen aan dat T-Stitch training-vrij is, algemeen toepasbaar voor verschillende architecturen, en de meeste bestaande snelle samplingtechnieken aanvult met flexibele snelheids- en kwaliteitsafwegingen. Op DiT-XL, kan bijvoorbeeld 40% van de vroege tijdstappen veilig worden vervangen door een 10x snellere DiT-S zonder prestatieverlies bij klasse-conditionele ImageNet-generatie. We laten verder zien dat onze methode ook kan worden gebruikt als een drop-in techniek om niet alleen de populaire voorgetrainde stable diffusion (SD) modellen te versnellen, maar ook de promptafstemming van gestileerde SD-modellen uit de publieke modelzoo te verbeteren. Code is vrijgegeven op https://github.com/NVlabs/T-Stitch.
De integratie van Large Language Models (LLMs) in ontwikkelomgevingen (IDEs) is een belangrijk aandachtspunt geworden in moderne softwareontwikkeling. LLMs zoals OpenAI GPT-3.5/4 en Code Llama bieden de mogelijkheid om de productiviteit van ontwikkelaars aanzienlijk te vergroten door te fungeren als intelligente, chat-gestuurde programmeerassistenten. Het direct gebruiken van LLMs zonder aanpassingen is echter waarschijnlijk niet optimaal voor een specifiek scenario. In plaats daarvan vereist elk systeem dat de LLM wordt afgestemd op een set heuristieken om de beste prestaties te garanderen. In dit artikel introduceren we de Copilot-evaluatieharness: een verzameling gegevens en tools voor het evalueren van LLM-gestuurde IDE-interacties, die verschillende programmeerscenario's en talen omvat. Wij stellen onze metrieken voor als een robuustere en informatie-intensievere evaluatie dan eerdere state-of-the-art evaluatiesystemen. We ontwerpen en berekenen zowel statische als op uitvoering gebaseerde succescriteria voor scenario's die een breed scala aan ontwikkelaarstaken omvatten, waaronder codegeneratie vanuit natuurlijke taal (generate), documentatiegeneratie vanuit code (doc), testcasegeneratie (test), bugfixing (fix), en werkruimtebegrip en queryoplossing (workspace). Deze succescriteria zijn ontworpen om de prestaties van LLMs binnen een bepaalde IDE en de bijbehorende parameterruimte te evalueren. Onze inzichten uit het evalueren van drie veelgebruikte LLMs met behulp van deze metrieken kunnen de ontwikkeling en validatie van toekomstige scenario's in LLM-gestuurde IDEs informeren.
Grote taalmodelen (LLMs) zijn krachtige hulpmiddelen voor contentmoderatie, maar hun inferentiekosten en latentie maken ze ongeschikt voor incidenteel gebruik op grote datasets, zoals de Google Ads-repository. Deze studie stelt een methode voor om LLM-beoordelingen voor contentmoderatie in Google Ads op te schalen. Eerst gebruiken we heuristieken om kandidaten te selecteren via filtering en het verwijderen van duplicaten, en creëren we clusters van advertenties waarvoor we één representatieve advertentie per cluster selecteren. Vervolgens gebruiken we LLMs om alleen de representatieve advertenties te beoordelen. Ten slotte verspreiden we de LLM-beslissingen voor de representatieve advertenties terug naar hun clusters. Deze methode reduceert het aantal beoordelingen met meer dan 3 ordes van grootte, terwijl een 2x hogere recall wordt bereikt vergeleken met een baseline-model zonder LLM. Het succes van deze aanpak hangt sterk samen met de representaties die worden gebruikt bij het clusteren en het doorgeven van labels; we ontdekten dat cross-modale gelijkenisrepresentaties betere resultaten opleveren dan uni-modale representaties.
In dit werk pakken we het uitdagende probleem aan van het denoizen van hand-objectinteracties (HOI). Gegeven een foutieve interactiesequentie, is het doel om de onjuiste handtrajectorie te verfijnen om interactie-artefacten te verwijderen voor een perceptueel realistische sequentie. Deze uitdaging omvat complexe interactieruis, waaronder onnatuurlijke handposities en incorrecte hand-objectrelaties, naast de noodzaak voor robuuste generalisatie naar nieuwe interacties en diverse ruispatronen. We gaan deze uitdagingen aan via een nieuwe aanpak, GeneOH Diffusion, die twee belangrijke ontwerpen omvat: een innovatieve contact-gerichte HOI-representatie genaamd GeneOH en een nieuw domeingeneraliseerbaar denoisingschema. De contact-gerichte representatie GeneOH parameteriseert het HOI-proces informatief, wat een verbeterde generalisatie over verschillende HOI-scenario's mogelijk maakt. Het nieuwe denoisingschema bestaat uit een canoniek denoisingmodel dat is getraind om ruizige data-monsters vanuit een gebleekte ruisruimte naar een schone datamanifold te projecteren, en een "denoising via diffusie"-strategie die invoertrajectorieën met diverse ruispatronen kan verwerken door ze eerst te diffunderen om ze uit te lijnen met de gebleekte ruisruimte en vervolgens te reinigen via de canonieke denoiser. Uitgebreide experimenten op vier benchmarks met significante domeinvariaties demonstreren de superieure effectiviteit van onze methode. GeneOH Diffusion toont ook belofte voor diverse downstream-toepassingen. Projectwebsite: https://meowuu7.github.io/GeneOH-Diffusion/.
Grootschalige tekst-naar-beeldmodellen maken een breed scala aan beeldbewerkingstechnieken mogelijk, waarbij tekstprompts of zelfs ruimtelijke controles worden gebruikt. Het toepassen van deze bewerkingsmethoden op multi-view afbeeldingen die één scène weergeven, leidt echter tot 3D-inconsistente resultaten. In dit werk richten we ons op geometrische manipulaties gebaseerd op ruimtelijke controle en introduceren we een methode om het bewerkingsproces over verschillende views te consolideren. We bouwen voort op twee inzichten: (1) het behouden van consistente kenmerken gedurende het generatieve proces helpt om consistentie in multi-view bewerking te bereiken, en (2) de queries in self-attention-lagen hebben een aanzienlijke invloed op de beeldstructuur. Daarom stellen we voor om de geometrische consistentie van de bewerkte beelden te verbeteren door de consistentie van de queries af te dwingen. Hiertoe introduceren we QNeRF, een neural radiance field dat getraind is op de interne query-kenmerken van de bewerkte beelden. Eenmaal getraind kan QNeRF 3D-consistente queries renderen, die vervolgens zachtjes terug worden geïnjecteerd in de self-attention-lagen tijdens de generatie, wat de multi-view consistentie aanzienlijk verbetert. We verfijnen het proces door middel van een progressieve, iteratieve methode die queries beter consolideert over de diffusietijdstappen. We vergelijken onze methode met een reeks bestaande technieken en tonen aan dat het betere multi-view consistentie en een hogere trouw aan de inputscène kan bereiken. Deze voordelen stellen ons in staat om NeRFs te trainen met minder visuele artefacten, die beter zijn afgestemd op de doelgeometrie.
De opkomst van 3D Gaussian Splatting (3DGS) heeft recentelijk een revolutie teweeggebracht in het veld van neurale rendering, waardoor hoogwaardige renderings in realtime mogelijk zijn geworden. Echter, 3DGS is sterk afhankelijk van het geïnitialiseerde puntenwolk dat wordt geproduceerd door Structure-from-Motion (SfM) technieken. Bij het aanpakken van grootschalige scènes die onvermijdelijk textuurloze oppervlakken bevatten, slagen SfM-technieken er vaak niet in om voldoende punten op deze oppervlakken te produceren en kunnen ze geen goede initialisatie bieden voor 3DGS. Als gevolg hiervan kampt 3DGS met moeilijke optimalisatie en renderings van lage kwaliteit. In dit artikel, geïnspireerd door klassieke multi-view stereo (MVS) technieken, stellen we GaussianPro voor, een nieuwe methode die een progressieve propagatiestrategie toepast om de verdichting van de 3D Gaussians te begeleiden. In vergelijking met de eenvoudige split- en clone-strategieën die in 3DGS worden gebruikt, maakt onze methode gebruik van de aannames van de bestaande gereconstrueerde geometrieën van de scène en patch matching technieken om nieuwe Gaussians te produceren met nauwkeurige posities en oriëntaties. Experimenten op zowel grootschalige als kleinschalige scènes valideren de effectiviteit van onze methode, waarbij onze methode 3DGS aanzienlijk overtreft op de Waymo-dataset, met een verbetering van 1.15dB in termen van PSNR.
Recent onderzoek heeft aangetoond dat transformers, met name lineaire aandachtmodellen, impliciet algoritmen die lijken op gradient descent uitvoeren op gegevens die in-context worden aangeboden tijdens hun forward inferentiestap. Hun vermogen om complexere problemen aan te pakken, blijft echter onontgonnen. In dit artikel bewijzen we dat elke lineaire transformer een impliciet lineair model behoudt en kan worden geïnterpreteerd als het uitvoeren van een variant van voorwaardelijke gradient descent. We onderzoeken ook het gebruik van lineaire transformers in een uitdagend scenario waarbij de trainingsgegevens zijn vervuild met verschillende niveaus van ruis. Opmerkelijk genoeg tonen we aan dat lineaire transformers voor dit probleem een ingewikkeld en zeer effectief optimalisatiealgoritme ontdekken, dat de prestaties van veel redelijke baselines overtreft of evenaart. We reverse-engineeren dit algoritme en laten zien dat het een nieuwe aanpak is die momentum en adaptieve herschaling op basis van ruisniveaus omvat. Onze bevindingen tonen aan dat zelfs lineaire transformers de verrassende capaciteit hebben om geavanceerde optimalisatiestrategieën te ontdekken.
Als veelbelovende 3D-generatietechniek heeft multiview-diffusie (MVD) veel aandacht gekregen vanwege de voordelen op het gebied van generaliseerbaarheid, kwaliteit en efficiëntie. Door vooraf getrainde grote beelddiffusiemodellen te finetunen met 3D-gegevens, genereren MVD-methoden eerst meerdere aanzichten van een 3D-object op basis van een afbeelding of tekstprompt en reconstrueren vervolgens 3D-vormen met multiview 3D-reconstructie. De schaarse aanzichten en inconsistente details in de gegenereerde afbeeldingen maken 3D-reconstructie echter uitdagend. Wij presenteren MVD^2, een efficiënte 3D-reconstructiemethode voor multiview-diffusie (MVD) afbeeldingen. MVD^2 aggregeert beeldkenmerken in een 3D-kenmerkvolume door projectie en convolutie en decodeert vervolgens volumetrische kenmerken in een 3D-mesh. We trainen MVD^2 met 3D-vormcollecties en MVD-afbeeldingen die worden gegenereerd door gerenderde aanzichten van 3D-vormen. Om het verschil tussen de gegenereerde multiview-afbeeldingen en de grondwaarheid-aanzichten van de 3D-vormen aan te pakken, ontwerpen we een eenvoudig maar efficiënt aanzichtafhankelijk trainingsschema. MVD^2 verbetert de 3D-generatiekwaliteit van MVD en is snel en robuust voor verschillende MVD-methoden. Na training kan het efficiënt 3D-meshes decoderen uit multiview-afbeeldingen binnen één seconde. We trainen MVD^2 met Zero-123++ en het ObjectVerse-LVIS 3D-dataset en demonstreren de superieure prestaties in het genereren van 3D-modellen uit multiview-afbeeldingen gegenereerd door verschillende MVD-methoden, waarbij zowel synthetische als echte afbeeldingen als prompts worden gebruikt.
We introduceren CyberDemo, een nieuwe benadering voor robotische imitatieleren die gebruikmaakt van gesimuleerde menselijke demonstraties voor taken in de echte wereld. Door uitgebreide data-augmentatie toe te passen in een gesimuleerde omgeving, presteert CyberDemo beter dan traditionele in-domain demonstraties uit de echte wereld wanneer het wordt overgedragen naar de echte wereld, waarbij het diverse fysieke en visuele omstandigheden aankan. Ondanks de betaalbaarheid en het gemak van dataverzameling, overtreft CyberDemo baseline-methoden wat betreft slagingspercentages bij verschillende taken en toont het generaliseerbaarheid met voorheen onbekende objecten. Het kan bijvoorbeeld nieuwe tetra- en pentakleppen draaien, ondanks dat menselijke demonstraties alleen driekleppen betroffen. Ons onderzoek toont het aanzienlijke potentieel van gesimuleerde menselijke demonstraties voor behendige manipulatietaken in de echte wereld. Meer details zijn te vinden op https://cyber-demo.github.io.
Imitation learning leert een beleid aan de hand van demonstraties zonder dat handmatig ontworpen beloningsfuncties nodig zijn. Bij veel robotische taken, zoals autonoom racen, moeten geïmiteerde beleidsmodellen complexe omgevingsdynamiek en menselijke besluitvorming modelleren. Sequentiële modellering is zeer effectief in het vastleggen van ingewikkelde patronen in bewegingssequenties, maar heeft moeite om zich aan te passen aan nieuwe omgevingen of distributieverschuivingen die veel voorkomen in real-world robotische taken. Daarentegen kan Adversarial Imitation Learning (AIL) dit effect verminderen, maar worstelt het met sample-efficiëntie en het omgaan met complexe bewegingspatronen. Daarom stellen we BeTAIL voor: Behavior Transformer Adversarial Imitation Learning, dat een Behavior Transformer (BeT)-beleid op basis van menselijke demonstraties combineert met online AIL. BeTAIL voegt een AIL-residubeleid toe aan het BeT-beleid om het sequentiële besluitvormingsproces van menselijke experts te modelleren en te corrigeren voor out-of-distribution toestanden of verschuivingen in omgevingsdynamiek. We testen BeTAIL op drie uitdagingen met expertniveau-demonstraties van echt menselijk spel in Gran Turismo Sport. Ons voorgestelde residu-BeTAIL vermindert omgevingsinteracties en verbetert de raceprestaties en stabiliteit, zelfs wanneer de BeT vooraf is getraind op verschillende banen dan de downstream learning. Video's en code zijn beschikbaar op: https://sites.google.com/berkeley.edu/BeTAIL/home.