Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Visie-taalmodellen (VLM's) hebben uitgeblonken in multimodale taken, maar het aanpassen ervan aan besluitvorming in open-wereldomgevingen stelt uitdagingen. Een belangrijk probleem is de moeilijkheid om individuele entiteiten in laag-niveau observaties soepel te verbinden met abstracte concepten die nodig zijn voor planning. Een veelvoorkomende aanpak om dit probleem aan te pakken is door het gebruik van hiërarchische agenten, waarbij VLM's dienen als hoog-niveau redeneerders die taken opsplitsen in uitvoerbare subtaken, meestal gespecificeerd met behulp van taal en denkbeeldige observaties. Echter, taal slaagt er vaak niet in om ruimtelijke informatie effectief over te brengen, terwijl het genereren van toekomstige beelden met voldoende nauwkeurigheid een uitdaging blijft. Om deze beperkingen aan te pakken, stellen we visueel-temporele contextprompting voor, een nieuw communicatieprotocol tussen VLM's en beleidsmodellen. Dit protocol maakt gebruik van objectsegmentatie van zowel eerdere als huidige observaties om beleidsomgevingsinteracties te begeleiden. Met behulp van deze aanpak trainen we ROCKET-1, een laag-niveau beleid dat acties voorspelt op basis van geconcateneerde visuele observaties en segmentatiemaskers, met realtime objecttracking geleverd door SAM-2. Onze methode ontsluit het volledige potentieel van de visueel-taalredeneervaardigheden van VLM's, waardoor ze complexe creatieve taken kunnen oplossen, vooral die sterk afhankelijk zijn van ruimtelijk begrip. Experimenten in Minecraft tonen aan dat onze aanpak agenten in staat stelt om eerder onbereikbare taken uit te voeren, waarbij de effectiviteit van visueel-temporele contextprompting in besluitvorming in een omgeving wordt benadrukt. Codes en demonstraties zullen beschikbaar zijn op de projectpagina: https://craftjarvis.github.io/ROCKET-1.
Het succes van autoregressieve transformer modellen met discrete tokens heeft geleid tot kwantiseringsgebaseerde benaderingen voor continue modaliteiten, hoewel deze vaak de reconstructiekwaliteit beperken. We introduceren daarom SALAD, een per-token latente diffusie model voor zero-shot tekst-naar-spraak, dat werkt met continue representaties. SALAD bouwt voort op de recent voorgestelde expressieve diffusie kop voor beeldgeneratie en breidt deze uit om variabele lengte-uitvoer te genereren. Onze benadering maakt gebruik van semantische tokens voor het verstrekken van contextuele informatie en het bepalen van de stopvoorwaarde. We stellen drie continue varianten voor onze methode voor, die populaire discrete spraaksynthesetechnieken uitbreiden. Daarnaast implementeren we discrete baselines voor elke variant en voeren een vergelijkende analyse uit van discrete versus continue spraakmodelleringstechnieken. Onze resultaten tonen aan dat zowel continue als discrete benaderingen zeer competent zijn, en dat SALAD een superieure verstaanbaarheidsscore behaalt terwijl het spraakkwaliteit en sprekersgelijkenis op het niveau van de grondwaarheidsaudio verkrijgt.
Het elektrocardiogram (ECG) is een essentieel niet-invasief diagnostisch hulpmiddel voor het beoordelen van hartcondities. Bestaande automatische interpretatiemethoden kampen met beperkte generaliseerbaarheid, richten zich op een beperkt scala aan hartcondities en zijn doorgaans afhankelijk van ruwe fysiologische signalen, die mogelijk niet direct beschikbaar zijn in omgevingen met beperkte middelen waar alleen geprinte of digitale ECG-afbeeldingen toegankelijk zijn. Recente ontwikkelingen in multimodale grote taalmodellen (MLLM's) bieden veelbelovende mogelijkheden om deze uitdagingen aan te pakken. De toepassing van MLLM's op ECG-afbeeldingsinterpretatie blijft echter uitdagend vanwege het gebrek aan instructie-afstemmingsdatasets en goed gevestigde ECG-afbeeldingsbenchmarks voor kwantitatieve evaluatie. Om deze uitdagingen aan te pakken, introduceren we ECGInstruct, een uitgebreide ECG-afbeeldingsinstructie-afstemmingsdataset van meer dan één miljoen voorbeelden, die een breed scala aan ECG-gerelateerde taken uit diverse gegevensbronnen bestrijkt. Met behulp van ECGInstruct ontwikkelen we PULSE, een MLLM op maat gemaakt voor ECG-afbeeldingsbegrip. Daarnaast cureren we ECGBench, een nieuwe evaluatiebenchmark die vier belangrijke ECG-afbeeldingsinterpretatietaken bestrijkt over negen verschillende datasets. Onze experimenten tonen aan dat PULSE een nieuwe state-of-the-art neerzet, waarbij het algemene MLLM's overtreft met een gemiddelde nauwkeurigheidsverbetering van 15% tot 30%. Dit werk benadrukt het potentieel van PULSE om de ECG-interpretatie in de klinische praktijk te verbeteren.
In dit artikel presenteren we \textit{FasterCache}, een innovatieve strategie zonder training ontworpen om de inferentie van video diffusiemodellen met hoogwaardige generatie te versnellen. Door de analyse van bestaande cache-gebaseerde methoden, observeren we dat het direct hergebruiken van kenmerken van aangrenzende stappen de videokwaliteit vermindert als gevolg van het verlies van subtiele variaties. We voeren verder een baanbrekend onderzoek uit naar het versnellingspotentieel van classifier-vrije begeleiding (CFG) en onthullen significante redundantie tussen conditionele en onvoorwaardelijke kenmerken binnen dezelfde tijdstap. Profiterend van deze observaties introduceren we FasterCache om aanzienlijk de generatie van video's op basis van diffusie te versnellen. Onze belangrijkste bijdragen omvatten een dynamische kenmerkhergebruikstrategie die zowel kenmerkonderscheid als temporele continuïteit behoudt, en CFG-Cache die optimaliseert het hergebruik van conditionele en onvoorwaardelijke uitvoer om de inferentiesnelheid verder te verbeteren zonder de videokwaliteit in gevaar te brengen. We evalueren FasterCache empirisch op recente video diffusiemodellen. Experimentele resultaten tonen aan dat FasterCache de videogeneratie aanzienlijk kan versnellen (bijv. 1,67 keer versnelling op Vchitect-2.0) terwijl de videokwaliteit vergelijkbaar blijft met de basislijn, en consequent bestaande methoden overtreft in zowel inferentiesnelheid als videokwaliteit.
Het vermogen om audio te begrijpen - waaronder spraak, niet-spraak geluiden en muziek - is cruciaal voor AI-agenten om effectief te kunnen interageren met de wereld. We presenteren MMAU, een nieuw benchmark ontworpen om multimodale audio begripmodellen te evalueren op taken die expertniveau kennis en complex redeneren vereisen. MMAU bestaat uit 10k zorgvuldig samengestelde audioclips gekoppeld aan door mensen geannoteerde natuurlijke taalvragen en antwoorden die spraak, omgevingsgeluiden en muziek beslaan. Het omvat vragen over informatie-extractie en redeneren, waarbij modellen 27 verschillende vaardigheden moeten aantonen over unieke en uitdagende taken. In tegenstelling tot bestaande benchmarks benadrukt MMAU geavanceerde perceptie en redeneren met domeinspecifieke kennis, waarbij modellen worden uitgedaagd om taken aan te pakken vergelijkbaar met die waarmee experts worden geconfronteerd. We beoordelen 18 open-source en eigen (Grote) Audio-Taalmodellen, waarbij de aanzienlijke uitdagingen van MMAU worden aangetoond. Opmerkelijk genoeg behaalt zelfs het meest geavanceerde Gemini Pro v1.5 slechts 52,97% nauwkeurigheid, en het toonaangevende open-source Qwen2-Audio behaalt slechts 52,50%, waarbij aanzienlijke ruimte voor verbetering wordt benadrukt. We geloven dat MMAU de audio- en multimodale onderzoeksgemeenschap zal stimuleren om geavanceerdere audiobegripmodellen te ontwikkelen die in staat zijn complexe audio taken op te lossen.
Vision-Language Modellen (VLM's) hebben recentelijk aanzienlijke vooruitgang geboekt, maar de beperkte omvang en kwaliteit van open-source instructiedata belemmeren hun prestaties in vergelijking met gesloten-source modellen. In dit werk pakken we deze beperking aan door Infinity-MM te introduceren, een grootschalige multimodale instructiedataset met 40 miljoen voorbeelden, verbeterd door rigoureuze kwaliteitsfiltering en deduplicatie. We stellen ook een synthetische instructiegeneratiemethode voor op basis van open-source VLM's, met gedetailleerde afbeeldingsannotaties en diverse vraaggeneratie. Met behulp van deze gegevens hebben we een 2 miljard parameters tellend VLM, Aquila-VL-2B, getraind, wat resulteerde in state-of-the-art (SOTA) prestaties voor modellen van vergelijkbare omvang. Dit toont aan dat het uitbreiden van instructiedata en het genereren van synthetische data de prestaties van open-source modellen aanzienlijk kan verbeteren.
De proliferatie van grote taalmodellen (LLM's) heeft geleid tot de adoptie van Mixture-of-Experts (MoE) architecturen die dynamisch gespecialiseerde subnetswerken benutten voor verbeterde efficiëntie en prestaties. Ondanks hun voordelen ondervinden MoE-modellen aanzienlijke uitdagingen tijdens inferentie, waaronder inefficiënt geheugenbeheer en suboptimale batchverwerking, als gevolg van niet-uitgelijnde ontwerpkeuzes tussen de modelarchitectuur en de systeembeleidsregels. Bovendien wordt de conventionele aanpak van het trainen van MoE's vanaf nul steeds meer belemmerd door de kosten. In dit artikel stellen we een nieuw framework, Read-ME, voor dat vooraf getrainde dichte LLM's transformeert naar kleinere MoE-modellen (in tegenstelling tot het "upcyclen" van generalistische MoE's), waarbij de hoge kosten vanaf de basis trainen worden vermeden. Onze aanpak maakt gebruik van activatieschaarste om experts te extraheren. Om experts samen te stellen, onderzoeken we het veelgebruikte laagsgewijze routerontwerp en tonen we de redundantie ervan aan, en introduceren we daarom de voorpoortrouter die losgekoppeld is van de MoE-ruggengraat en die systeemvriendelijk voorberekenen en lookahead-planning vergemakkelijkt, waardoor expert-bewuste batchverwerking en caching worden verbeterd. Onze codesign pakt daarom kritieke hiaten aan op zowel het algoritmische als het systeemfront, en biedt een schaalbaar en efficiënt alternatief voor LLM-inferentie in omgevingen met beperkte middelen. Read-ME presteert beter dan andere populaire open-source dichte modellen van vergelijkbare omvang, met verbeteringen tot wel 10,1% op MMLU en een verbetering van de gemiddelde end-to-end latentie tot wel 6,1%. De codes zijn beschikbaar op: https://github.com/VITA-Group/READ-ME.
NLP-benchmarks vertrouwen op gestandaardiseerde datasets voor het trainen en evalueren van modellen en zijn cruciaal voor de vooruitgang van het vakgebied. Traditioneel zorgen expertannotaties voor labels van hoge kwaliteit; echter, de kosten van expertannotatie schalen niet goed mee met de groeiende vraag naar grotere datasets die nodig zijn voor moderne modellen. Hoewel crowd-sourcing een meer schaalbare oplossing biedt, gaat dit vaak ten koste van de precisie en consistentie van de annotaties. Recente ontwikkelingen in grote taalmodellen (LLM's) bieden nieuwe mogelijkheden om het annotatieproces te verbeteren, met name voor het detecteren van labelfouten in bestaande datasets. In dit werk bekijken we de recente benadering van LLM-als-beoordelaar, waarbij een ensemble van LLM's wordt ingezet om potentieel verkeerd gelabelde voorbeelden aan te duiden. Via een casestudy van vier datasets van de TRUE benchmark, die verschillende taken en domeinen bestrijken, analyseren we empirisch de kwaliteit van de labeling van bestaande datasets, en vergelijken we expert-, crowd-sourced- en onze LLM-gebaseerde annotaties wat betreft overeenkomst, labelkwaliteit en efficiëntie, waarbij we de sterke en zwakke punten van elke annotatiemethode aantonen. Onze bevindingen onthullen een aanzienlijk aantal labelfouten, die, wanneer gecorrigeerd, een aanzienlijke verbetering in de gerapporteerde modelprestaties teweegbrengen. Dit suggereert dat veel van de zogenaamde fouten van de LLM's te wijten zijn aan labelfouten in plaats van echte modelmislukkingen. Daarnaast bespreken we de implicaties van verkeerd gelabelde gegevens en stellen we methoden voor om deze tijdens de training te verminderen om de modelprestaties te verbeteren.
Transformers, de ruggengraat van moderne grote taalmodellen (LLM's), worden geconfronteerd met inherente architectonische beperkingen die hun redeneervermogen belemmeren. In tegenstelling tot recurrente netwerken missen Transformers terugkerende verbindingen, waardoor ze beperkt zijn tot berekeningen met constante diepte. Deze beperking plaatst ze in de complexiteitsklasse TC^0, waardoor ze theoretisch niet in staat zijn taken op te lossen die steeds diepere redenering vereisen naarmate de invoerlengte groter wordt. Tellen, een fundamenteel onderdeel van veel redeneertaken, vereist ook dat de redeneerdiepte lineair toeneemt om inductief te worden uitgevoerd. Hoewel eerdere studies de bovengrens van het telvermogen in op expertmodellen gebaseerde Transformers hebben vastgesteld (d.w.z. modellen die specifiek zijn getraind voor tel-taken), strekken deze bevindingen zich niet direct uit tot algemene LLM's vanwege verschillen in redeneermechanismen. Recente onderzoeken hebben benadrukt hoe Chain of Thought (CoT) redeneren kan helpen om enkele van de architectonische beperkingen van Transformers bij tel-taken te verlichten. Er is echter weinig aandacht besteed aan de rol van tokenisatie in deze modellen. In tegenstelling tot expertmodellen die vaak karakterniveau-tokenisatie gebruiken, vertrouwen LLM's doorgaans op byte-niveau (BPE) tokenizers, wat fundamenteel de manier verandert waarop redenering wordt verwerkt. Ons onderzoek onderzoekt de impact van tokenisatie op het telvermogen van LLM's, waarbij aanzienlijke prestatievariaties worden blootgelegd op basis van verschillen in invoertokenisatie. We bieden zowel theoretische als experimentele analyses, waarbij inzichten worden geboden in hoe keuzes in tokenisatie modellen theoretische berekenbaarheid kunnen ondermijnen, waardoor het ontwerpen van nieuwe tokenisatiemethoden wordt gestimuleerd om redenering in LLM's te verbeteren.
Het leren van menselijke feedback heeft de afstemming van taalmodellen (LM's) op menselijke voorkeuren mogelijk gemaakt. Direct menselijke voorkeuren verzamelen kan echter duur, tijdrovend en variabel zijn. Een aantrekkelijk alternatief is om voorkeuren te destilleren uit LM's als een bron van synthetische annotaties, omdat deze consistenter, goedkoper en schaalbaarder zijn dan menselijke annotaties; echter zijn ze ook vatbaar voor vooroordelen en fouten. In dit werk introduceren we een routeringsframework dat inputs van mensen en LM's combineert om een betere annotatiekwaliteit te bereiken, terwijl de totale kosten van menselijke annotatie worden verlaagd. De kern van onze aanpak is het identificeren van voorkeursinstanties die baat zullen hebben bij menselijke annotaties. We formuleren dit als een optimalisatieprobleem: gegeven een voorkeursdataset en een evaluatiemaatstaf, trainen we een prestatievoorspellingsmodel om de prestatie van een beloningsmodel te voorspellen op een willekeurige combinatie van menselijke en LM-annotaties en passen we een routeringsstrategie toe die een combinatie selecteert die de voorspelde prestatie maximaliseert. We trainen het prestatievoorspellingsmodel op MultiPref, een nieuwe voorkeursdataset met 10K instanties gekoppeld aan menselijke en LM-labels. We tonen aan dat de geselecteerde hybride mix van LM- en directe menselijke voorkeuren met behulp van ons routeringsframework een betere prestatie van het beloningsmodel behaalt in vergelijking met het exclusief gebruik van elk van beide. We simuleren selectieve menselijke voorkeursverzameling op drie andere datasets en tonen aan dat onze methode goed generaliseert naar alle drie. We analyseren kenmerken van het routeringsmodel om eigenschappen van instanties te identificeren die baat kunnen hebben bij menselijke feedback, bijvoorbeeld prompts met een matige veiligheidszorg of matige intentiecomplexiteit. We stellen de dataset, annotatieplatform en broncode die in dit onderzoek zijn gebruikt beschikbaar om efficiëntere en nauwkeurigere voorkeursverzameling in de toekomst te bevorderen.
Recente studies hebben één verergerende factor van LLM-hallucinaties geïdentificeerd als de kennisinconsistentie tussen voorafgaande training en fijnafstemming, waar onbekende fijnafstemmingsgegevens de LLM misleiden om plausibele maar onjuiste resultaten te produceren. In dit artikel stellen we een nieuwe fijnafstemmingsstrategie voor genaamd Prereq-Tune om deze kennisinconsistentie aan te pakken en hallucinaties te verminderen. Fundamenteel gezien ontrafelt Prereq-Tune het leren van vaardigheden en kennis, zodat het model alleen de taakvaardigheden leert zonder beïnvloed te worden door de kennisinconsistentie. Om dit te bereiken, introduceert Prereq-Tune een aanvullende voorwaardelijke leerfase om de noodzakelijke kennis voor SFT te leren, waardoor daaropvolgende SFT zich alleen kan richten op taakvaardigheden. Prereq-Tune kan ook gecombineerd worden met fictieve synthetische gegevens om de verankering van LLM-resultaten aan hun interne kennis te verbeteren. Experimenten tonen aan dat Prereq-Tune bestaande baselines overtreft in het verbeteren van de feitelijkheid van LLM's bij korte QA en langere generatietaken. Het opent ook nieuwe mogelijkheden voor door kennis gecontroleerde generatie in LLM's. Onze code is beschikbaar op https://github.com/UCSB-NLP-Chang/Prereq_tune.git.
Grote taalmodellen (LLM's) kunnen een aanzienlijke hoeveelheid feitelijke kennis opslaan in hun parameters. Echter, hun parametrische kennis kan in conflict zijn met de informatie die wordt verstrekt in de context. Dergelijke conflicten kunnen leiden tot ongewenst modelgedrag, zoals het vertrouwen op verouderde of onjuiste informatie. In dit werk onderzoeken we of LLM's kennisconflicten kunnen identificeren en of het mogelijk is om te weten op welke bron van kennis het model zal vertrouwen door de reststroom van de LLM te analyseren. Via probingtaken vinden we dat LLM's intern het signaal van kennisconflict kunnen registreren in de reststroom, wat nauwkeurig kan worden gedetecteerd door de tussenliggende modelactivaties te onderzoeken. Dit stelt ons in staat om conflicten binnen de reststroom te detecteren voordat de antwoorden worden gegenereerd zonder de invoer of modelparameters aan te passen. Bovendien vinden we dat de reststroom aanzienlijk verschillende patronen vertoont wanneer het model vertrouwt op contextuele kennis versus parametrische kennis om conflicten op te lossen. Dit patroon kan worden gebruikt om het gedrag van LLM's te schatten wanneer er een conflict optreedt en om onverwachte antwoorden te voorkomen voordat de antwoorden worden geproduceerd. Onze analyse biedt inzicht in hoe LLM's intern kennisconflicten beheren en vormt een basis voor het ontwikkelen van methoden om de kennisselectieprocessen te controleren.
Video's van robots die interageren met objecten bevatten rijke informatie over de dynamiek van de objecten. Bestaande benaderingen voor video voorspelling houden echter meestal geen rekening met de 3D-informatie uit video's, zoals robotacties en de 3D-toestanden van objecten, waardoor hun bruikbaarheid in robottoepassingen in de echte wereld beperkt is. In dit werk introduceren we een raamwerk om objectdynamiek rechtstreeks te leren van multi-view RGB-video's door expliciet rekening te houden met de actietrajecten van de robot en hun effecten op de scènedynamiek. We maken gebruik van de 3D Gaussische representatie van 3D Gaussische Splatting (3DGS) om een op deeltjes gebaseerd dynamisch model te trainen met behulp van Grafische Neurale Netwerken. Dit model werkt met schaarse besturingsdeeltjes die zijn gedownsampled van de dichtbij gevolgde 3D Gaussische reconstructies. Door het neurale dynamische model te leren op offline robotinteractiegegevens, kan onze methode objectbewegingen voorspellen onder variërende initiële configuraties en ongeziene robotacties. De 3D-transformaties van Gaussiërs kunnen worden geïnterpoleerd uit de bewegingen van besturingsdeeltjes, waardoor het voorspellen van toekomstige objecttoestanden mogelijk is en het realiseren van actie-geconditioneerde videovoorspelling. Het dynamische model kan ook worden toegepast op modelgebaseerde planningskaders voor objectmanipulatietaken. We voeren experimenten uit op verschillende soorten vervormbare materialen, waaronder touwen, kleding en knuffeldieren, waarbij we de mogelijkheid van ons raamwerk aantonen om complexe vormen en dynamiek te modelleren. Onze projectpagina is beschikbaar op https://gs-dynamics.github.io.
Het vermogen om overtuigingen of gedrag aan te passen als reactie op onverwachte uitkomsten, reflectie genoemd, is fundamenteel voor de interactie van intelligente systemen met de wereld. Vanuit een cognitief-wetenschappelijk perspectief dient dit als een kernprincipe van intelligentie dat van toepassing is op zowel menselijke als AI-systemen. Om het debat over de intelligentie van grote taalmodellen (LLM's) aan te pakken, stellen we Reflection-Bench voor, een uitgebreide benchmark bestaande uit 7 taken die kern cognitieve functies omvatten die cruciaal zijn voor reflectie, waaronder waarneming, geheugen, geloofsupdatering, besluitvorming, voorspelling, tegenfeitelijke denken en meta-reflectie. We evalueren de prestaties van 13 prominente LLM's zoals OpenAI o1, GPT-4, Claude 3.5 Sonnet, enz. De resultaten geven aan dat huidige LLM's nog steeds tekortschieten in reflectievermogen. We bespreken de onderliggende oorzaken van deze resultaten en suggereren mogelijke richtingen voor toekomstig onderzoek. Tot slot biedt Reflection-Bench zowel evaluatietools als inspiratie voor de ontwikkeling van AI die in staat is om betrouwbaar te interacteren met de omgeving. Onze data en code zijn beschikbaar op https://github.com/YabYum/ReflectionBench.
Het beoordelen van vooringenomenheid van nieuwsbronnen is van essentieel belang voor professionals, organisaties en onderzoekers die vertrouwen op waarheidsgetrouwe bewijzen voor het verzamelen en rapporteren van informatie. Hoewel bepaalde vooringenomenheidsindicatoren duidelijk zijn uit contentanalyse, vormen beschrijvingen zoals politieke vooringenomenheid en nepnieuws grotere uitdagingen. In dit artikel stellen we een uitbreiding voor op een recent gepresenteerde methode voor het schatten van de betrouwbaarheid van nieuwsmedia, die zich richt op het modelleren van bronnen en hun longitudinale webinteracties. Concreet beoordelen we de classificatieprestaties van vier versterkend leren strategieën op een groot nieuwsmedia hyperlinkgrafiek. Onze experimenten, gericht op twee uitdagende vooringenomenheidsbeschrijvingen, feitelijke rapportage en politieke vooringenomenheid, toonden een aanzienlijke prestatieverbetering op het niveau van de bronmedia. Daarnaast valideren we onze methoden in de CLEF 2023 CheckThat! Lab-uitdaging, waarbij we de gerapporteerde resultaten overtreffen op zowel de F1-score als de officiële MAE-metriek. Bovendien dragen we bij door het vrijgeven van de grootste geannoteerde dataset van nieuwsmedia, gecategoriseerd met labels voor feitelijke rapportage en politieke vooringenomenheid. Onze bevindingen suggereren dat het profileren van nieuwsmedia op basis van hun hyperlinkinteracties in de loop van de tijd haalbaar is, en een vogelperspectief biedt op zich ontwikkelende medialandschappen.
Ongesuperviseerde vooraftraining heeft een transformerend effect gehad in veel begeleide domeinen. Het toepassen van dergelijke ideeën op reinforcement learning (RL) vormt echter een unieke uitdaging, aangezien fijnafstemming niet inhoudt dat er taakspecifieke gegevens worden nagebootst, maar eerder dat de oplossing wordt verkend en gevonden door middel van iteratieve zelfverbetering. In dit werk bestuderen we hoe ongelabelde voorafgaande trajectgegevens kunnen worden benut om efficiënte verkenningstrategieën te leren. Hoewel voorafgaande gegevens kunnen worden gebruikt om een reeks vaardigheden op laag niveau vooraf te trainen, of als aanvullende off-policy gegevens voor online RL, was het onduidelijk hoe deze ideeën effectief kunnen worden gecombineerd voor online verkenning. Onze methode SUPE (Vaardigheden uit Ongelabelde Voorafgaande gegevens voor Verkenning) toont aan dat een zorgvuldige combinatie van deze ideeën hun voordelen vergroot. Onze methode extrahereert eerst vaardigheden op laag niveau met behulp van een variational autoencoder (VAE), en labelt vervolgens pseudo-ongelabelde trajecten met behulp van een optimistisch beloningsmodel, waarbij voorafgaande gegevens worden omgezet in voorbeelden op hoog niveau die relevant zijn voor de taak. Ten slotte gebruikt SUPE deze getransformeerde voorbeelden als aanvullende off-policy gegevens voor online RL om een beleid op hoog niveau te leren dat vooraf getrainde vaardigheden op laag niveau samenstelt om efficiënt te verkennen. We tonen empirisch aan dat SUPE consequent beter presteert dan eerdere strategieën, en met succes een reeks taken met lange horizon en schaarse beloningen oplost. Code: https://github.com/rail-berkeley/supe.