HuggingFace Daily Papers

Dagelijkse Papers

Dagelijks geselecteerde AI onderzoekspapers met vertalingen

Selecteer een datum

11 papers found

Aanbevelingssystemen met generatief ophalen
Recommender Systems with Generative Retrieval

May 8

ByShashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan H. Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Q. Tran, Jonah Samost, Maciej Kula, Ed H. Chi, Maheswaran Sathiamoorthy

Moderne aanbevelingssystemen maken gebruik van grootschalige retrievalmodellen die bestaan uit twee fasen: het trainen van een dual-encoder-model om queries en kandidaten in dezelfde ruimte in te bedden, gevolgd door een Approximate Nearest Neighbor (ANN)-zoekactie om de beste kandidaten te selecteren op basis van de inbedding van een query. In dit artikel stellen we een nieuw enkelstaps paradigma voor: een generatief retrievalmodel dat op autoregressieve wijze de identificatoren voor de doelkandidaten decodeert in één fase. Hiervoor genereren we, in plaats van willekeurig gegenereerde atomische ID's aan elk item toe te kennen, Semantische ID's: een semantisch betekenisvolle tuple van codewoorden voor elk item dat als unieke identificator dient. We gebruiken een hiërarchische methode genaamd RQ-VAE om deze codewoorden te genereren. Zodra we de Semantische ID's voor alle items hebben, wordt een Transformer-gebaseerd sequence-to-sequence-model getraind om de Semantische ID van het volgende item te voorspellen. Omdat dit model de tuple van codewoorden die het volgende item identificeren direct op autoregressieve wijze voorspelt, kan het worden beschouwd als een generatief retrievalmodel. We tonen aan dat ons aanbevelingssysteem dat volgens dit nieuwe paradigma is getraind, de resultaten verbetert die door huidige state-of-the-art-modellen op de Amazon-dataset worden behaald. Bovendien demonstreren we dat het sequence-to-sequence-model in combinatie met hiërarchische Semantische ID's betere generalisatie biedt en daardoor de retrievals van cold-start-items voor aanbevelingen verbetert.

Comprimeren of niet comprimeren - Zelfsupervisie leren en informatietheorie: een overzicht
To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review

Apr 19

ByRavid Shwartz-Ziv, Yann LeCun

Diepe neurale netwerken hebben opmerkelijke prestaties getoond in taken voor gesuperviseerd leren, maar vereisen grote hoeveelheden gelabelde data. Zelfsupervisie biedt een alternatief paradigma, waardoor het model kan leren van data zonder expliciete labels. Informatietheorie heeft een cruciale rol gespeeld in het begrijpen en optimaliseren van diepe neurale netwerken. Specifiek is het informatiebottleneck-principe toegepast om de afweging tussen compressie en het behoud van relevante informatie in gesuperviseerde settings te optimaliseren. Echter, het optimale informatie-objectief in zelfsupervisie blijft onduidelijk. In dit artikel bespreken we verschillende benaderingen van zelfsupervisie vanuit een informatie-theoretisch perspectief en presenteren we een uniform raamwerk dat het informatie-theoretische leerprobleem in zelfsupervisie formaliseert. We integreren bestaand onderzoek in een samenhangend raamwerk, onderzoeken recente zelfsupervisie-methoden, en identificeren onderzoeksmogelijkheden en uitdagingen. Daarnaast bespreken we de empirische meting van informatie-theoretische grootheden en hun schatters. Dit artikel biedt een uitgebreid overzicht van het snijvlak tussen informatietheorie, zelfsupervisie en diepe neurale netwerken.

Zijn ChatGPT en GPT-4 Algemene Oplossers voor Financiële Tekstanalyse? Een Onderzoek naar Verschillende Typische Taken
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks

May 10

ByXianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah

De meest recente grote taalmodelen zoals ChatGPT en GPT-4 hebben aanzienlijke aandacht gekregen, omdat ze in staat zijn hoogwaardige reacties te genereren op menselijke input. Ondanks de uitgebreide tests van ChatGPT en GPT-4 op generieke tekstcorpora, die hun indrukwekkende mogelijkheden aantonen, is er nog geen studie uitgevoerd die zich richt op financiële corpora. In deze studie willen we deze kloof overbruggen door het potentieel van ChatGPT en GPT-4 te onderzoeken als oplossers voor typische financiële tekstanalytische problemen in een zero-shot of few-shot setting. Specifiek beoordelen we hun mogelijkheden op vier representatieve taken over vijf verschillende financiële tekstuele datasets. Het voorlopige onderzoek toont aan dat ChatGPT en GPT-4 moeite hebben met taken zoals financiële named entity recognition (NER) en sentimentanalyse, waar domeinspecifieke kennis vereist is, terwijl ze uitblinken in numerieke redeneertaken. We rapporteren zowel de sterke punten als de beperkingen van de huidige versies van ChatGPT en GPT-4, en vergelijken deze met state-of-the-art fijn afgestemde modellen en vooraf getrainde domeinspecifieke generatieve modellen. Onze experimenten bieden kwalitatieve studies, waarmee we hopen het vermogen van de bestaande modellen beter te begrijpen en verdere verbeteringen te bevorderen.

AudioSlots: Een slot-gecentreerd generatief model voor audioscheiding
AudioSlots: A slot-centric generative model for audio separation

May 9

ByPradyumna Reddy, Scott Wisdom, Klaus Greff, John R. Hershey, Thomas Kipf

In een reeks recente werken is aangetoond dat object-gecentreerde architecturen geschikt zijn voor onbewaakte scenedecompositie in het visuele domein. Geïnspireerd door deze methoden presenteren we AudioSlots, een slot-gecentreerd generatief model voor blinde bronseparatie in het audiodomein. AudioSlots is opgebouwd met behulp van permutatie-equivariante encoder- en decoder-netwerken. Het encoder-netwerk, gebaseerd op de Transformer-architectuur, leert om een gemengd audiospectrogram te mappen naar een ongeordende set van onafhankelijke bron-embeddings. Het spatial broadcast decoder-netwerk leert om de bronspectrogrammen te genereren vanuit de bron-embeddings. We trainen het model end-to-end met behulp van een permutatie-invariante verliesfunctie. Onze resultaten op Libri2Mix spraakseparatie vormen een proof of concept dat deze aanpak veelbelovend is. We bespreken de resultaten en beperkingen van onze aanpak in detail en schetsen verder mogelijke manieren om de beperkingen te overwinnen en richtingen voor toekomstig werk.

Grote Taalmodel Programma's
Large Language Model Programs

May 9

ByImanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li

In de afgelopen jaren hebben grote vooraf getrainde taalmodelen (LLM's) het vermogen getoond om instructies op te volgen en nieuwe taken uit te voeren aan de hand van enkele voorbeelden. De mogelijkheid om een LLM te parametriseren via dergelijke in-context voorbeelden vergroot hun capaciteiten tegen veel lagere kosten dan finetuning. We breiden deze redenering uit en presenteren een methode die de mogelijkheden van een LLM verder uitbreidt door het in te bedden in een algoritme of programma. Om de voordelen van deze aanpak te demonstreren, presenteren we een illustratief voorbeeld van bewijsondersteund vraag-antwoord. We behalen een verbetering van 6,4% ten opzichte van de baseline van de keten van gedachten door een meer algoritmische aanpak zonder enige finetuning. Daarnaast belichten we recent werk vanuit dit perspectief en bespreken we de voor- en nadelen in vergelijking met de standaardbenaderingen.

Code-uitvoering met vooraf getrainde taalmodellen
Code Execution with Pre-trained Language Models

May 8

ByChenxiao Liu, Shuai Lu, Weizhu Chen, Daxin Jiang, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan, Nan Duan

Code-uitvoering is een fundamenteel aspect van programmeertaalsemantiek dat het exacte gedrag van de code weerspiegelt. De meeste vooraf getrainde modellen voor code-intelligentie negeren echter de uitvoeringstrace en vertrouwen alleen op broncode en syntactische structuren. In dit artikel onderzoeken we hoe goed vooraf getrainde modellen code-uitvoering kunnen begrijpen en uitvoeren. We ontwikkelen een op mutatie gebaseerde data-augmentatietechniek om een grootschalige en realistische Python-dataset en taak voor code-uitvoering te creëren, die bestaande modellen zoals Codex uitdaagt. Vervolgens presenteren we CodeExecutor, een Transformer-model dat gebruikmaakt van code-uitvoeringstraining en curriculumleren om zijn semantische begrip te verbeteren. We evalueren CodeExecutor op code-uitvoering en tonen zijn veelbelovende prestaties en beperkingen. We demonstreren ook de potentiële voordelen voor code-intelligentietaken zoals zero-shot code-naar-code zoeken en tekst-naar-code generatie. Onze analyse biedt inzicht in de leer- en generaliseervermogens van vooraf getrainde modellen voor code-uitvoering.

NerfAcc: Efficiënte Sampling Versnelt NeRFs
NerfAcc: Efficient Sampling Accelerates NeRFs

May 8

ByRuilong Li, Hang Gao, Matthew Tancik, Angjoo Kanazawa

Het optimaliseren en renderen van Neural Radiance Fields is rekenkundig kostbaar vanwege het enorme aantal samples dat nodig is voor volume rendering. Recente werken hebben alternatieve samplingbenaderingen opgenomen om hun methoden te versnellen, maar deze staan vaak niet centraal in het onderzoek. In dit artikel onderzoeken en vergelijken we meerdere samplingbenaderingen en tonen we aan dat verbeterde sampling over het algemeen toepasbaar is bij verschillende NeRF-varianten onder een geünificeerd concept van transmissieschatting. Om toekomstige experimenten te vergemakkelijken, ontwikkelen we NerfAcc, een Python-toolbox die flexibele API's biedt voor het integreren van geavanceerde samplingmethoden in NeRF-gerelateerde methoden. We demonstreren de flexibiliteit ervan door aan te tonen dat het de trainingsduur van verschillende recente NeRF-methoden met 1,5x tot 20x kan verminderen met minimale aanpassingen aan de bestaande codebase. Daarnaast kunnen sterk aangepaste NeRF's, zoals Instant-NGP, worden geïmplementeerd in native PyTorch met behulp van NerfAcc.

Schetsen van de Toekomst (STF): Toepassing van Conditionele Controle Technieken op Tekst-naar-Video Modellen
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

May 10

ByRohan Dhesikan, Vignesh Rajmohan

De proliferatie van video-inhoud vereist efficiënte en flexibele neurale netwerkbenaderingen voor het genereren van nieuwe video-inhoud. In dit artikel stellen we een nieuwe aanpak voor die zero-shot tekst-naar-video-generatie combineert met ControlNet om de output van deze modellen te verbeteren. Onze methode neemt meerdere geschetste frames als input en genereert video-output die overeenkomt met de flow van deze frames, voortbouwend op de Text-to-Video Zero-architectuur en ControlNet integrerend om aanvullende invoervoorwaarden mogelijk te maken. Door eerst frames tussen de ingevoerde schetsen te interpoleren en vervolgens Text-to-Video Zero uit te voeren met de nieuwe geïnterpoleerde frames als controletechniek, benutten we de voordelen van zowel zero-shot tekst-naar-video-generatie als de robuuste controle die ControlNet biedt. Experimenten tonen aan dat onze methode uitblinkt in het produceren van hoogwaardige en opmerkelijk consistente video-inhoud die nauwkeuriger aansluit bij de door de gebruiker beoogde beweging van het onderwerp in de video. We bieden een uitgebreid resourcepakket, inclusief een demovideo, projectwebsite, open-source GitHub-repository en een Colab-speelplaats om verder onderzoek en toepassing van onze voorgestelde methode te bevorderen.

Relightify: Herbelichtbare 3D-gezichten uit een enkele afbeelding via diffusiemodellen
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

May 10

ByFoivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou

Na het opmerkelijke succes van diffusiemodellen op het gebied van beeldgeneratie, hebben recente werken ook hun indrukwekkende vermogen aangetoond om een aantal inverse problemen op een onbewaakte manier aan te pakken, door het bemonsteringsproces correct te beperken op basis van een conditionerende invoer. Gemotiveerd door dit, presenteren we in dit artikel de eerste aanpak om diffusiemodellen te gebruiken als een prior voor zeer nauwkeurige 3D-gezichts-BRDF-reconstructie vanuit een enkele afbeelding. We beginnen met het benutten van een hoogwaardige UV-dataset van gezichtsreflectie (diffuse en speculaire albedo en normalen), die we renderen onder verschillende belichtingsinstellingen om natuurlijke RGB-texturen te simuleren, en vervolgens trainen we een onvoorwaardelijk diffusiemodel op samengevoegde paren van gerenderde texturen en reflectiecomponenten. Tijdens de testfits passen we een 3D-morfeerbaar model aan op de gegeven afbeelding en ontvouwen we het gezicht in een gedeeltelijke UV-textuur. Door te bemonsteren vanuit het diffusiemodel, terwijl het waargenomen textuurgedeelte intact blijft, vult het model niet alleen de zelf-occludeerde gebieden in, maar ook de onbekende reflectiecomponenten, in een enkele reeks van denoisestappen. In tegenstelling tot bestaande methoden, verkrijgen we de waargenomen textuur direct vanuit de invoerafbeelding, wat resulteert in een meer getrouwe en consistente reflectieschatting. Door een reeks kwalitatieve en kwantitatieve vergelijkingen tonen we superieure prestaties aan, zowel in textuurvoltooiing als in reflectiereconstructietaken.

TidyBot: Gepersonaliseerde Robotassistentie met Grote Taalmodellen
TidyBot: Personalized Robot Assistance with Large Language Models

May 9

ByJimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser

Om fysieke assistentie effectief te personaliseren, moet een robot gebruikersvoorkeuren leren die in het algemeen kunnen worden toegepast op toekomstige scenario's. In dit werk onderzoeken we de personalisatie van huishoudelijk opruimen met robots die kamers kunnen opruimen door objecten op te pakken en weg te leggen. Een belangrijke uitdaging is het bepalen van de juiste plek voor elk object, aangezien de voorkeuren van mensen sterk kunnen variëren afhankelijk van persoonlijke smaak of culturele achtergrond. Zo kan de ene persoon bijvoorbeeld shirts liever in de la opbergen, terwijl een ander ze liever op de plank legt. Ons doel is om systemen te bouwen die dergelijke voorkeuren kunnen leren uit slechts een handvol voorbeelden via eerdere interacties met een specifiek persoon. We laten zien dat robots taalgebaseerde planning en perceptie kunnen combineren met de few-shot samenvattingsmogelijkheden van grote taalmodellen (LLMs) om gegeneraliseerde gebruikersvoorkeuren af te leiden die breed toepasbaar zijn op toekomstige interacties. Deze aanpak maakt snelle aanpassing mogelijk en behaalt een nauwkeurigheid van 91,2% op onbekende objecten in onze benchmarkdataset. We demonstreren onze aanpak ook op een echte mobiele manipulator genaamd TidyBot, die met succes 85,0% van de objecten in real-world testscenario's opbergt.

WikiWeb2M: Een Paginaniveau Multimodaal Wikipedia-Dataset
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

May 9

ByAndrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo

Webpagina's zijn een rijke bron geweest voor taken op het gebied van taal en visueel-taalkundige taken. Toch worden slechts fragmenten van webpagina's bewaard: afbeelding-bijschriftparen, lange tekstartikelen, of ruwe HTML, nooit alles op één plek. Hierdoor hebben taken gerelateerd aan webpagina's weinig aandacht gekregen en is gestructureerde beeld-tekstdata onderbenut. Om multimodale webpagina-begrip te bestuderen, introduceren we de Wikipedia Webpage 2M (WikiWeb2M) suite; de eerste die de volledige set van afbeeldingen, tekst en structuurdata die beschikbaar zijn op een pagina behoudt. WikiWeb2M kan worden gebruikt voor taken zoals het genereren van paginabeschrijvingen, sectiesamenvattingen en contextuele afbeelding-bijschriften.