Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Moderne aanbevelingssystemen maken gebruik van grootschalige retrievalmodellen die bestaan uit twee fasen: het trainen van een dual-encoder-model om queries en kandidaten in dezelfde ruimte in te bedden, gevolgd door een Approximate Nearest Neighbor (ANN)-zoekactie om de beste kandidaten te selecteren op basis van de inbedding van een query. In dit artikel stellen we een nieuw enkelstaps paradigma voor: een generatief retrievalmodel dat op autoregressieve wijze de identificatoren voor de doelkandidaten decodeert in één fase. Hiervoor genereren we, in plaats van willekeurig gegenereerde atomische ID's aan elk item toe te kennen, Semantische ID's: een semantisch betekenisvolle tuple van codewoorden voor elk item dat als unieke identificator dient. We gebruiken een hiërarchische methode genaamd RQ-VAE om deze codewoorden te genereren. Zodra we de Semantische ID's voor alle items hebben, wordt een Transformer-gebaseerd sequence-to-sequence-model getraind om de Semantische ID van het volgende item te voorspellen. Omdat dit model de tuple van codewoorden die het volgende item identificeren direct op autoregressieve wijze voorspelt, kan het worden beschouwd als een generatief retrievalmodel. We tonen aan dat ons aanbevelingssysteem dat volgens dit nieuwe paradigma is getraind, de resultaten verbetert die door huidige state-of-the-art-modellen op de Amazon-dataset worden behaald. Bovendien demonstreren we dat het sequence-to-sequence-model in combinatie met hiërarchische Semantische ID's betere generalisatie biedt en daardoor de retrievals van cold-start-items voor aanbevelingen verbetert.
Diepe neurale netwerken hebben opmerkelijke prestaties getoond in taken voor gesuperviseerd leren, maar vereisen grote hoeveelheden gelabelde data. Zelfsupervisie biedt een alternatief paradigma, waardoor het model kan leren van data zonder expliciete labels. Informatietheorie heeft een cruciale rol gespeeld in het begrijpen en optimaliseren van diepe neurale netwerken. Specifiek is het informatiebottleneck-principe toegepast om de afweging tussen compressie en het behoud van relevante informatie in gesuperviseerde settings te optimaliseren. Echter, het optimale informatie-objectief in zelfsupervisie blijft onduidelijk. In dit artikel bespreken we verschillende benaderingen van zelfsupervisie vanuit een informatie-theoretisch perspectief en presenteren we een uniform raamwerk dat het informatie-theoretische leerprobleem in zelfsupervisie formaliseert. We integreren bestaand onderzoek in een samenhangend raamwerk, onderzoeken recente zelfsupervisie-methoden, en identificeren onderzoeksmogelijkheden en uitdagingen. Daarnaast bespreken we de empirische meting van informatie-theoretische grootheden en hun schatters. Dit artikel biedt een uitgebreid overzicht van het snijvlak tussen informatietheorie, zelfsupervisie en diepe neurale netwerken.
De meest recente grote taalmodelen zoals ChatGPT en GPT-4 hebben aanzienlijke aandacht gekregen, omdat ze in staat zijn hoogwaardige reacties te genereren op menselijke input. Ondanks de uitgebreide tests van ChatGPT en GPT-4 op generieke tekstcorpora, die hun indrukwekkende mogelijkheden aantonen, is er nog geen studie uitgevoerd die zich richt op financiële corpora. In deze studie willen we deze kloof overbruggen door het potentieel van ChatGPT en GPT-4 te onderzoeken als oplossers voor typische financiële tekstanalytische problemen in een zero-shot of few-shot setting. Specifiek beoordelen we hun mogelijkheden op vier representatieve taken over vijf verschillende financiële tekstuele datasets. Het voorlopige onderzoek toont aan dat ChatGPT en GPT-4 moeite hebben met taken zoals financiële named entity recognition (NER) en sentimentanalyse, waar domeinspecifieke kennis vereist is, terwijl ze uitblinken in numerieke redeneertaken. We rapporteren zowel de sterke punten als de beperkingen van de huidige versies van ChatGPT en GPT-4, en vergelijken deze met state-of-the-art fijn afgestemde modellen en vooraf getrainde domeinspecifieke generatieve modellen. Onze experimenten bieden kwalitatieve studies, waarmee we hopen het vermogen van de bestaande modellen beter te begrijpen en verdere verbeteringen te bevorderen.
In een reeks recente werken is aangetoond dat object-gecentreerde architecturen geschikt zijn voor onbewaakte scenedecompositie in het visuele domein. Geïnspireerd door deze methoden presenteren we AudioSlots, een slot-gecentreerd generatief model voor blinde bronseparatie in het audiodomein. AudioSlots is opgebouwd met behulp van permutatie-equivariante encoder- en decoder-netwerken. Het encoder-netwerk, gebaseerd op de Transformer-architectuur, leert om een gemengd audiospectrogram te mappen naar een ongeordende set van onafhankelijke bron-embeddings. Het spatial broadcast decoder-netwerk leert om de bronspectrogrammen te genereren vanuit de bron-embeddings. We trainen het model end-to-end met behulp van een permutatie-invariante verliesfunctie. Onze resultaten op Libri2Mix spraakseparatie vormen een proof of concept dat deze aanpak veelbelovend is. We bespreken de resultaten en beperkingen van onze aanpak in detail en schetsen verder mogelijke manieren om de beperkingen te overwinnen en richtingen voor toekomstig werk.
In de afgelopen jaren hebben grote vooraf getrainde taalmodelen (LLM's) het vermogen getoond om instructies op te volgen en nieuwe taken uit te voeren aan de hand van enkele voorbeelden. De mogelijkheid om een LLM te parametriseren via dergelijke in-context voorbeelden vergroot hun capaciteiten tegen veel lagere kosten dan finetuning. We breiden deze redenering uit en presenteren een methode die de mogelijkheden van een LLM verder uitbreidt door het in te bedden in een algoritme of programma. Om de voordelen van deze aanpak te demonstreren, presenteren we een illustratief voorbeeld van bewijsondersteund vraag-antwoord. We behalen een verbetering van 6,4% ten opzichte van de baseline van de keten van gedachten door een meer algoritmische aanpak zonder enige finetuning. Daarnaast belichten we recent werk vanuit dit perspectief en bespreken we de voor- en nadelen in vergelijking met de standaardbenaderingen.
Code-uitvoering is een fundamenteel aspect van programmeertaalsemantiek dat het exacte gedrag van de code weerspiegelt. De meeste vooraf getrainde modellen voor code-intelligentie negeren echter de uitvoeringstrace en vertrouwen alleen op broncode en syntactische structuren. In dit artikel onderzoeken we hoe goed vooraf getrainde modellen code-uitvoering kunnen begrijpen en uitvoeren. We ontwikkelen een op mutatie gebaseerde data-augmentatietechniek om een grootschalige en realistische Python-dataset en taak voor code-uitvoering te creëren, die bestaande modellen zoals Codex uitdaagt. Vervolgens presenteren we CodeExecutor, een Transformer-model dat gebruikmaakt van code-uitvoeringstraining en curriculumleren om zijn semantische begrip te verbeteren. We evalueren CodeExecutor op code-uitvoering en tonen zijn veelbelovende prestaties en beperkingen. We demonstreren ook de potentiële voordelen voor code-intelligentietaken zoals zero-shot code-naar-code zoeken en tekst-naar-code generatie. Onze analyse biedt inzicht in de leer- en generaliseervermogens van vooraf getrainde modellen voor code-uitvoering.
Het optimaliseren en renderen van Neural Radiance Fields is rekenkundig kostbaar vanwege het enorme aantal samples dat nodig is voor volume rendering. Recente werken hebben alternatieve samplingbenaderingen opgenomen om hun methoden te versnellen, maar deze staan vaak niet centraal in het onderzoek. In dit artikel onderzoeken en vergelijken we meerdere samplingbenaderingen en tonen we aan dat verbeterde sampling over het algemeen toepasbaar is bij verschillende NeRF-varianten onder een geünificeerd concept van transmissieschatting. Om toekomstige experimenten te vergemakkelijken, ontwikkelen we NerfAcc, een Python-toolbox die flexibele API's biedt voor het integreren van geavanceerde samplingmethoden in NeRF-gerelateerde methoden. We demonstreren de flexibiliteit ervan door aan te tonen dat het de trainingsduur van verschillende recente NeRF-methoden met 1,5x tot 20x kan verminderen met minimale aanpassingen aan de bestaande codebase. Daarnaast kunnen sterk aangepaste NeRF's, zoals Instant-NGP, worden geïmplementeerd in native PyTorch met behulp van NerfAcc.
De proliferatie van video-inhoud vereist efficiënte en flexibele neurale netwerkbenaderingen voor het genereren van nieuwe video-inhoud. In dit artikel stellen we een nieuwe aanpak voor die zero-shot tekst-naar-video-generatie combineert met ControlNet om de output van deze modellen te verbeteren. Onze methode neemt meerdere geschetste frames als input en genereert video-output die overeenkomt met de flow van deze frames, voortbouwend op de Text-to-Video Zero-architectuur en ControlNet integrerend om aanvullende invoervoorwaarden mogelijk te maken. Door eerst frames tussen de ingevoerde schetsen te interpoleren en vervolgens Text-to-Video Zero uit te voeren met de nieuwe geïnterpoleerde frames als controletechniek, benutten we de voordelen van zowel zero-shot tekst-naar-video-generatie als de robuuste controle die ControlNet biedt. Experimenten tonen aan dat onze methode uitblinkt in het produceren van hoogwaardige en opmerkelijk consistente video-inhoud die nauwkeuriger aansluit bij de door de gebruiker beoogde beweging van het onderwerp in de video. We bieden een uitgebreid resourcepakket, inclusief een demovideo, projectwebsite, open-source GitHub-repository en een Colab-speelplaats om verder onderzoek en toepassing van onze voorgestelde methode te bevorderen.
Na het opmerkelijke succes van diffusiemodellen op het gebied van beeldgeneratie, hebben recente werken ook hun indrukwekkende vermogen aangetoond om een aantal inverse problemen op een onbewaakte manier aan te pakken, door het bemonsteringsproces correct te beperken op basis van een conditionerende invoer. Gemotiveerd door dit, presenteren we in dit artikel de eerste aanpak om diffusiemodellen te gebruiken als een prior voor zeer nauwkeurige 3D-gezichts-BRDF-reconstructie vanuit een enkele afbeelding. We beginnen met het benutten van een hoogwaardige UV-dataset van gezichtsreflectie (diffuse en speculaire albedo en normalen), die we renderen onder verschillende belichtingsinstellingen om natuurlijke RGB-texturen te simuleren, en vervolgens trainen we een onvoorwaardelijk diffusiemodel op samengevoegde paren van gerenderde texturen en reflectiecomponenten. Tijdens de testfits passen we een 3D-morfeerbaar model aan op de gegeven afbeelding en ontvouwen we het gezicht in een gedeeltelijke UV-textuur. Door te bemonsteren vanuit het diffusiemodel, terwijl het waargenomen textuurgedeelte intact blijft, vult het model niet alleen de zelf-occludeerde gebieden in, maar ook de onbekende reflectiecomponenten, in een enkele reeks van denoisestappen. In tegenstelling tot bestaande methoden, verkrijgen we de waargenomen textuur direct vanuit de invoerafbeelding, wat resulteert in een meer getrouwe en consistente reflectieschatting. Door een reeks kwalitatieve en kwantitatieve vergelijkingen tonen we superieure prestaties aan, zowel in textuurvoltooiing als in reflectiereconstructietaken.
Om fysieke assistentie effectief te personaliseren, moet een robot gebruikersvoorkeuren leren die in het algemeen kunnen worden toegepast op toekomstige scenario's. In dit werk onderzoeken we de personalisatie van huishoudelijk opruimen met robots die kamers kunnen opruimen door objecten op te pakken en weg te leggen. Een belangrijke uitdaging is het bepalen van de juiste plek voor elk object, aangezien de voorkeuren van mensen sterk kunnen variëren afhankelijk van persoonlijke smaak of culturele achtergrond. Zo kan de ene persoon bijvoorbeeld shirts liever in de la opbergen, terwijl een ander ze liever op de plank legt. Ons doel is om systemen te bouwen die dergelijke voorkeuren kunnen leren uit slechts een handvol voorbeelden via eerdere interacties met een specifiek persoon. We laten zien dat robots taalgebaseerde planning en perceptie kunnen combineren met de few-shot samenvattingsmogelijkheden van grote taalmodellen (LLMs) om gegeneraliseerde gebruikersvoorkeuren af te leiden die breed toepasbaar zijn op toekomstige interacties. Deze aanpak maakt snelle aanpassing mogelijk en behaalt een nauwkeurigheid van 91,2% op onbekende objecten in onze benchmarkdataset. We demonstreren onze aanpak ook op een echte mobiele manipulator genaamd TidyBot, die met succes 85,0% van de objecten in real-world testscenario's opbergt.
Webpagina's zijn een rijke bron geweest voor taken op het gebied van taal en visueel-taalkundige taken. Toch worden slechts fragmenten van webpagina's bewaard: afbeelding-bijschriftparen, lange tekstartikelen, of ruwe HTML, nooit alles op één plek. Hierdoor hebben taken gerelateerd aan webpagina's weinig aandacht gekregen en is gestructureerde beeld-tekstdata onderbenut. Om multimodale webpagina-begrip te bestuderen, introduceren we de Wikipedia Webpage 2M (WikiWeb2M) suite; de eerste die de volledige set van afbeeldingen, tekst en structuurdata die beschikbaar zijn op een pagina behoudt. WikiWeb2M kan worden gebruikt voor taken zoals het genereren van paginabeschrijvingen, sectiesamenvattingen en contextuele afbeelding-bijschriften.