HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

11 papers found

Sistemi di Raccomandazione con Recupero Generativo
Recommender Systems with Generative Retrieval

May 8

ByShashank Rajput, Nikhil Mehta, Anima Singh, Raghunandan H. Keshavan, Trung Vu, Lukasz Heldt, Lichan Hong, Yi Tay, Vinh Q. Tran, Jonah Samost, Maciej Kula, Ed H. Chi, Maheswaran Sathiamoorthy

I moderni sistemi di raccomandazione sfruttano modelli di recupero su larga scala composti da due fasi: l'addestramento di un modello dual-encoder per incorporare query e candidati nello stesso spazio, seguito da una ricerca Approximate Nearest Neighbor (ANN) per selezionare i candidati migliori dato l'incorporamento di una query. In questo articolo, proponiamo un nuovo paradigma a singola fase: un modello di recupero generativo che decodifica in modo autoregressivo gli identificatori per i candidati target in una sola fase. Per fare ciò, invece di assegnare ID atomici generati casualmente a ciascun elemento, generiamo Semantic ID: una tupla di codeword semanticamente significativa per ciascun elemento che funge da identificatore univoco. Utilizziamo un metodo gerarchico chiamato RQ-VAE per generare queste codeword. Una volta ottenuti i Semantic ID per tutti gli elementi, un modello sequence-to-sequence basato su Transformer viene addestrato per prevedere il Semantic ID dell'elemento successivo. Poiché questo modello prevede direttamente in modo autoregressivo la tupla di codeword che identifica l'elemento successivo, può essere considerato un modello di recupero generativo. Mostriamo che il nostro sistema di raccomandazione addestrato con questo nuovo paradigma migliora i risultati ottenuti dai modelli SOTA attuali sul dataset Amazon. Inoltre, dimostriamo che il modello sequence-to-sequence accoppiato con Semantic ID gerarchici offre una migliore generalizzazione e quindi migliora il recupero di elementi cold-start per le raccomandazioni.

Comprimere o Non Comprimere - Apprendimento Auto-Supervisionato e Teoria dell'Informazione: Una Rassegna
To Compress or Not to Compress- Self-Supervised Learning and Information Theory: A Review

Apr 19

ByRavid Shwartz-Ziv, Yann LeCun

Le reti neurali profonde hanno dimostrato prestazioni notevoli nei compiti di apprendimento supervisionato, ma richiedono grandi quantità di dati etichettati. L'apprendimento auto-supervisionato offre un paradigma alternativo, consentendo al modello di apprendere dai dati senza etichette esplicite. La teoria dell'informazione è stata fondamentale per comprendere e ottimizzare le reti neurali profonde. In particolare, il principio del collo di bottiglia informativo è stato applicato per ottimizzare il compromesso tra compressione e conservazione delle informazioni rilevanti in contesti supervisionati. Tuttavia, l'obiettivo informativo ottimale nell'apprendimento auto-supervisionato rimane poco chiaro. In questo articolo, esaminiamo vari approcci all'apprendimento auto-supervisionato da una prospettiva teorica dell'informazione e presentiamo un quadro unificato che formalizza il problema dell'apprendimento auto-supervisionato basato sulla teoria dell'informazione. Integriamo la ricerca esistente in un quadro coerente, esaminiamo i metodi auto-supervisionati recenti e identifichiamo opportunità e sfide di ricerca. Inoltre, discutiamo la misurazione empirica delle quantità teoriche dell'informazione e dei loro stimatori. Questo articolo offre una revisione completa dell'intersezione tra teoria dell'informazione, apprendimento auto-supervisionato e reti neurali profonde.

ChatGPT e GPT-4 sono risolutori generali per l'analisi di testi finanziari? Un esame su diversi compiti tipici
Are ChatGPT and GPT-4 General-Purpose Solvers for Financial Text Analytics? An Examination on Several Typical Tasks

May 10

ByXianzhi Li, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah

I più recenti modelli linguistici di grandi dimensioni, come ChatGPT e GPT-4, hanno attirato un'attenzione significativa, poiché sono in grado di generare risposte di alta qualità agli input umani. Nonostante i test estensivi di ChatGPT e GPT-4 su corpora testuali generici, che ne hanno dimostrato le impressionanti capacità, uno studio focalizzato su corpora finanziari non è stato ancora condotto. In questo studio, miriamo a colmare questa lacuna esaminando il potenziale di ChatGPT e GPT-4 come risolutori di tipici problemi di analisi testuale finanziaria in contesti zero-shot o few-shot. Nello specifico, valutiamo le loro capacità su quattro task rappresentativi su cinque distinti dataset testuali finanziari. Lo studio preliminare mostra che ChatGPT e GPT-4 incontrano difficoltà in task come il riconoscimento di entità nominate (NER) finanziarie e l'analisi del sentiment, dove è richiesta una conoscenza specifica del dominio, mentre eccellono nei task di ragionamento numerico. Riportiamo sia i punti di forza che le limitazioni delle versioni attuali di ChatGPT e GPT-4, confrontandoli con i modelli finetuned all'avanguardia e con i modelli generativi preaddestrati specifici per il dominio. I nostri esperimenti forniscono studi qualitativi, attraverso i quali speriamo di contribuire a comprendere le capacità dei modelli esistenti e di facilitare ulteriori miglioramenti.

AudioSlots: Un modello generativo centrato sugli slot per la separazione audio
AudioSlots: A slot-centric generative model for audio separation

May 9

ByPradyumna Reddy, Scott Wisdom, Klaus Greff, John R. Hershey, Thomas Kipf

In una serie di lavori recenti, le architetture object-centric si sono dimostrate adatte per la scomposizione non supervisionata di scene nel dominio visivo. Ispirati da questi metodi, presentiamo AudioSlots, un modello generativo slot-centric per la separazione cieca delle sorgenti nel dominio audio. AudioSlots è costruito utilizzando reti codificatrici e decodificatrici permutazione-equivarianti. La rete codificatrice, basata sull'architettura Transformer, apprende a mappare uno spettrogramma audio misto in un insieme non ordinato di embedding di sorgenti indipendenti. La rete decodificatrice a trasmissione spaziale apprende a generare gli spettrogrammi delle sorgenti a partire dagli embedding delle sorgenti. Addestriamo il modello in modo end-to-end utilizzando una funzione di perdita invariante alle permutazioni. I nostri risultati sulla separazione del parlato in Libri2Mix costituiscono una prova del concetto che questo approccio mostra potenziale. Discutiamo in dettaglio i risultati e i limiti del nostro approccio, e delineiamo ulteriormente potenziali modi per superare i limiti e direzioni per lavori futuri.

Programmi di Modelli Linguistici di Grande Scala
Large Language Model Programs

May 9

ByImanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, Jürgen Schmidhuber, Xian Li

Negli ultimi anni, i grandi modelli linguistici pre-addestrati (LLM) hanno dimostrato la capacità di seguire istruzioni e svolgere nuovi compiti a partire da pochi esempi. La possibilità di parametrizzare un LLM attraverso tali esempi in contesto amplia le sue capacità a un costo molto inferiore rispetto al fine-tuning. Estendiamo questa linea di ragionamento e presentiamo un metodo che espande ulteriormente le capacità di un LLM incorporandolo all'interno di un algoritmo o programma. Per dimostrare i vantaggi di questo approccio, presentiamo un esempio illustrativo di risposta a domande supportata da evidenze. Otteniamo un miglioramento del 6,4% rispetto alla baseline del ragionamento a catena attraverso un approccio più algoritmico senza alcun fine-tuning. Inoltre, evidenziamo lavori recenti da questa prospettiva e discutiamo i vantaggi e gli svantaggi rispetto agli approcci standard.

Esecuzione di Codice con Modelli Linguistici Pre-addestrati
Code Execution with Pre-trained Language Models

May 8

ByChenxiao Liu, Shuai Lu, Weizhu Chen, Daxin Jiang, Alexey Svyatkovskiy, Shengyu Fu, Neel Sundaresan, Nan Duan

L'esecuzione del codice è un aspetto fondamentale della semantica dei linguaggi di programmazione che riflette il comportamento esatto del codice. Tuttavia, la maggior parte dei modelli pre-addestrati per l'intelligenza del codice ignora la traccia di esecuzione e si basa esclusivamente sul codice sorgente e sulle strutture sintattiche. In questo articolo, indaghiamo quanto bene i modelli pre-addestrati possano comprendere ed eseguire il codice. Sviluppiamo una tecnica di aumento dei dati basata su mutazioni per creare un dataset Python su larga scala e realistico, nonché un task per l'esecuzione del codice, che mette alla prova modelli esistenti come Codex. Presentiamo quindi CodeExecutor, un modello Transformer che sfrutta il pre-addestramento sull'esecuzione del codice e l'apprendimento curriculare per migliorare la sua comprensione semantica. Valutiamo CodeExecutor sull'esecuzione del codice e ne mostriamo le prestazioni promettenti e i limiti. Dimostriamo inoltre i suoi potenziali benefici per task di intelligenza del codice come la ricerca codice-a-codice zero-shot e la generazione testo-a-codice. La nostra analisi fornisce approfondimenti sulle capacità di apprendimento e generalizzazione dei modelli pre-addestrati per l'esecuzione del codice.

NerfAcc: Campionamento Efficiente Accelera le NeRF
NerfAcc: Efficient Sampling Accelerates NeRFs

May 8

ByRuilong Li, Hang Gao, Matthew Tancik, Angjoo Kanazawa

L'ottimizzazione e il rendering dei Neural Radiance Fields sono computazionalmente costosi a causa del vasto numero di campioni richiesti dal rendering volumetrico. Recenti lavori hanno incluso approcci alternativi di campionamento per accelerare i loro metodi, tuttavia, questi spesso non sono il focus principale del lavoro. In questo articolo, investigiamo e confrontiamo molteplici approcci di campionamento e dimostriamo che un campionamento migliorato è generalmente applicabile alle varianti di NeRF sotto un concetto unificato di stimatore di trasmittanza. Per facilitare futuri esperimenti, sviluppiamo NerfAcc, una toolbox Python che fornisce API flessibili per incorporare metodi di campionamento avanzati nei metodi correlati a NeRF. Dimostriamo la sua flessibilità mostrando che può ridurre il tempo di addestramento di diversi recenti metodi NeRF da 1.5x a 20x con modifiche minime al codice esistente. Inoltre, NeRF altamente personalizzati, come Instant-NGP, possono essere implementati in PyTorch nativo utilizzando NerfAcc.

Disegnare il Futuro (STF): Applicazione di Tecniche di Controllo Condizionale ai Modelli di Testo-Video
Sketching the Future (STF): Applying Conditional Control Techniques to Text-to-Video Models

May 10

ByRohan Dhesikan, Vignesh Rajmohan

La proliferazione di contenuti video richiede approcci basati su reti neurali efficienti e flessibili per la generazione di nuovi contenuti video. In questo articolo, proponiamo un approccio innovativo che combina la generazione zero-shot da testo a video con ControlNet per migliorare l'output di questi modelli. Il nostro metodo prende in input più frame schizzati e genera un output video che corrisponde al flusso di questi frame, basandosi sull'architettura Text-to-Video Zero e incorporando ControlNet per abilitare condizioni di input aggiuntive. Prima interpolando i frame tra gli schizzi forniti e poi eseguendo Text-to-Video Zero utilizzando il video con i nuovi frame interpolati come tecnica di controllo, sfruttiamo i vantaggi sia della generazione zero-shot da testo a video che del robusto controllo fornito da ControlNet. Gli esperimenti dimostrano che il nostro metodo eccelle nella produzione di contenuti video di alta qualità e straordinariamente coerenti che si allineano più accuratamente con il movimento inteso dall'utente per il soggetto all'interno del video. Forniamo un pacchetto di risorse completo, che include un video dimostrativo, un sito web del progetto, un repository GitHub open-source e un playground Colab per favorire ulteriori ricerche e applicazioni del nostro metodo proposto.

Relightify: Volti 3D Rilluminabili da una Singola Immagine tramite Modelli di Diffusione
Relightify: Relightable 3D Faces from a Single Image via Diffusion Models

May 10

ByFoivos Paraperas Papantoniou, Alexandros Lattas, Stylianos Moschoglou, Stefanos Zafeiriou

In seguito al notevole successo dei modelli di diffusione nella generazione di immagini, lavori recenti hanno dimostrato la loro impressionante capacità di affrontare numerosi problemi inversi in modo non supervisionato, vincolando opportunamente il processo di campionamento basato su un input di condizionamento. Motivati da ciò, in questo articolo presentiamo il primo approccio che utilizza i modelli di diffusione come prior per una ricostruzione altamente accurata del BRDF facciale 3D da una singola immagine. Iniziamo sfruttando un dataset UV di alta qualità di riflettanza facciale (albedo diffuso e speculare e normali), che rendiamo sotto diverse impostazioni di illuminazione per simulare texture RGB naturali e, successivamente, addestriamo un modello di diffusione non condizionato su coppie concatenate di texture renderizzate e componenti di riflettanza. Al momento del test, adattiamo un modello morfabile 3D all'immagine fornita e svolgiamo la faccia in una texture UV parziale. Campionando dal modello di diffusione, mantenendo intatta la parte osservata della texture, il modello ricostruisce non solo le aree auto-occluse ma anche le componenti di riflettanza sconosciute, in una singola sequenza di passaggi di denoising. A differenza dei metodi esistenti, acquisiamo direttamente la texture osservata dall'immagine di input, ottenendo così una stima della riflettanza più fedele e coerente. Attraverso una serie di confronti qualitativi e quantitativi, dimostriamo prestazioni superiori sia nel completamento della texture che nei compiti di ricostruzione della riflettanza.

TidyBot: Assistenza Robotica Personalizzata con Modelli Linguistici di Grande Dimensione
TidyBot: Personalized Robot Assistance with Large Language Models

May 9

ByJimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser

Affinché un robot possa personalizzare efficacemente l'assistenza fisica, deve apprendere le preferenze dell'utente che possano essere generalmente riapplicate a scenari futuri. In questo lavoro, esploriamo la personalizzazione delle pulizie domestiche con robot in grado di riordinare le stanze raccogliendo oggetti e riponendoli al loro posto. Una sfida chiave è determinare la posizione corretta per ciascun oggetto, poiché le preferenze delle persone possono variare notevolmente in base al gusto personale o al background culturale. Ad esempio, una persona potrebbe preferire riporre le camicie nel cassetto, mentre un'altra potrebbe preferirle sullo scaffale. Il nostro obiettivo è costruire sistemi in grado di apprendere tali preferenze da pochi esempi, attraverso interazioni precedenti con una persona specifica. Dimostriamo che i robot possono combinare la pianificazione e la percezione basate sul linguaggio con le capacità di riepilogo few-shot dei modelli linguistici di grandi dimensioni (LLM) per inferire preferenze utente generalizzate, ampiamente applicabili a interazioni future. Questo approccio consente un adattamento rapido e raggiunge un'accuratezza del 91,2% su oggetti non visti nel nostro dataset di benchmark. Dimostriamo inoltre il nostro approccio su un manipolatore mobile reale chiamato TidyBot, che riesce a riporre correttamente l'85,0% degli oggetti in scenari di test del mondo reale.

WikiWeb2M: Un Dataset Multimodale a Livello di Pagina di Wikipedia
WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset

May 9

ByAndrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo

Le pagine web sono state una risorsa preziosa per i compiti di linguaggio e visione-linguaggio. Tuttavia, solo frammenti di pagine web vengono conservati: coppie immagine-didascalia, articoli di testo lunghi o HTML grezzo, mai tutti in un unico luogo. Di conseguenza, i compiti legati alle pagine web hanno ricevuto poca attenzione e i dati strutturati immagine-testo sono stati sottoutilizzati. Per studiare la comprensione multimodale delle pagine web, introduciamo la suite Wikipedia Webpage 2M (WikiWeb2M); la prima a conservare l'intero set di immagini, testo e dati strutturali disponibili in una pagina. WikiWeb2M può essere utilizzata per compiti come la generazione di descrizioni di pagine, la sintesi di sezioni e la creazione di didascalie contestuali per immagini.