Articoli di ricerca IA selezionati quotidianamente con traduzioni
I moderni sistemi di raccomandazione sfruttano modelli di recupero su larga scala composti da due fasi: l'addestramento di un modello dual-encoder per incorporare query e candidati nello stesso spazio, seguito da una ricerca Approximate Nearest Neighbor (ANN) per selezionare i candidati migliori dato l'incorporamento di una query. In questo articolo, proponiamo un nuovo paradigma a singola fase: un modello di recupero generativo che decodifica in modo autoregressivo gli identificatori per i candidati target in una sola fase. Per fare ciò, invece di assegnare ID atomici generati casualmente a ciascun elemento, generiamo Semantic ID: una tupla di codeword semanticamente significativa per ciascun elemento che funge da identificatore univoco. Utilizziamo un metodo gerarchico chiamato RQ-VAE per generare queste codeword. Una volta ottenuti i Semantic ID per tutti gli elementi, un modello sequence-to-sequence basato su Transformer viene addestrato per prevedere il Semantic ID dell'elemento successivo. Poiché questo modello prevede direttamente in modo autoregressivo la tupla di codeword che identifica l'elemento successivo, può essere considerato un modello di recupero generativo. Mostriamo che il nostro sistema di raccomandazione addestrato con questo nuovo paradigma migliora i risultati ottenuti dai modelli SOTA attuali sul dataset Amazon. Inoltre, dimostriamo che il modello sequence-to-sequence accoppiato con Semantic ID gerarchici offre una migliore generalizzazione e quindi migliora il recupero di elementi cold-start per le raccomandazioni.
Le reti neurali profonde hanno dimostrato prestazioni notevoli nei compiti di apprendimento supervisionato, ma richiedono grandi quantità di dati etichettati. L'apprendimento auto-supervisionato offre un paradigma alternativo, consentendo al modello di apprendere dai dati senza etichette esplicite. La teoria dell'informazione è stata fondamentale per comprendere e ottimizzare le reti neurali profonde. In particolare, il principio del collo di bottiglia informativo è stato applicato per ottimizzare il compromesso tra compressione e conservazione delle informazioni rilevanti in contesti supervisionati. Tuttavia, l'obiettivo informativo ottimale nell'apprendimento auto-supervisionato rimane poco chiaro. In questo articolo, esaminiamo vari approcci all'apprendimento auto-supervisionato da una prospettiva teorica dell'informazione e presentiamo un quadro unificato che formalizza il problema dell'apprendimento auto-supervisionato basato sulla teoria dell'informazione. Integriamo la ricerca esistente in un quadro coerente, esaminiamo i metodi auto-supervisionati recenti e identifichiamo opportunità e sfide di ricerca. Inoltre, discutiamo la misurazione empirica delle quantità teoriche dell'informazione e dei loro stimatori. Questo articolo offre una revisione completa dell'intersezione tra teoria dell'informazione, apprendimento auto-supervisionato e reti neurali profonde.
I più recenti modelli linguistici di grandi dimensioni, come ChatGPT e GPT-4, hanno attirato un'attenzione significativa, poiché sono in grado di generare risposte di alta qualità agli input umani. Nonostante i test estensivi di ChatGPT e GPT-4 su corpora testuali generici, che ne hanno dimostrato le impressionanti capacità, uno studio focalizzato su corpora finanziari non è stato ancora condotto. In questo studio, miriamo a colmare questa lacuna esaminando il potenziale di ChatGPT e GPT-4 come risolutori di tipici problemi di analisi testuale finanziaria in contesti zero-shot o few-shot. Nello specifico, valutiamo le loro capacità su quattro task rappresentativi su cinque distinti dataset testuali finanziari. Lo studio preliminare mostra che ChatGPT e GPT-4 incontrano difficoltà in task come il riconoscimento di entità nominate (NER) finanziarie e l'analisi del sentiment, dove è richiesta una conoscenza specifica del dominio, mentre eccellono nei task di ragionamento numerico. Riportiamo sia i punti di forza che le limitazioni delle versioni attuali di ChatGPT e GPT-4, confrontandoli con i modelli finetuned all'avanguardia e con i modelli generativi preaddestrati specifici per il dominio. I nostri esperimenti forniscono studi qualitativi, attraverso i quali speriamo di contribuire a comprendere le capacità dei modelli esistenti e di facilitare ulteriori miglioramenti.
In una serie di lavori recenti, le architetture object-centric si sono dimostrate adatte per la scomposizione non supervisionata di scene nel dominio visivo. Ispirati da questi metodi, presentiamo AudioSlots, un modello generativo slot-centric per la separazione cieca delle sorgenti nel dominio audio. AudioSlots è costruito utilizzando reti codificatrici e decodificatrici permutazione-equivarianti. La rete codificatrice, basata sull'architettura Transformer, apprende a mappare uno spettrogramma audio misto in un insieme non ordinato di embedding di sorgenti indipendenti. La rete decodificatrice a trasmissione spaziale apprende a generare gli spettrogrammi delle sorgenti a partire dagli embedding delle sorgenti. Addestriamo il modello in modo end-to-end utilizzando una funzione di perdita invariante alle permutazioni. I nostri risultati sulla separazione del parlato in Libri2Mix costituiscono una prova del concetto che questo approccio mostra potenziale. Discutiamo in dettaglio i risultati e i limiti del nostro approccio, e delineiamo ulteriormente potenziali modi per superare i limiti e direzioni per lavori futuri.
Negli ultimi anni, i grandi modelli linguistici pre-addestrati (LLM) hanno dimostrato la capacità di seguire istruzioni e svolgere nuovi compiti a partire da pochi esempi. La possibilità di parametrizzare un LLM attraverso tali esempi in contesto amplia le sue capacità a un costo molto inferiore rispetto al fine-tuning. Estendiamo questa linea di ragionamento e presentiamo un metodo che espande ulteriormente le capacità di un LLM incorporandolo all'interno di un algoritmo o programma. Per dimostrare i vantaggi di questo approccio, presentiamo un esempio illustrativo di risposta a domande supportata da evidenze. Otteniamo un miglioramento del 6,4% rispetto alla baseline del ragionamento a catena attraverso un approccio più algoritmico senza alcun fine-tuning. Inoltre, evidenziamo lavori recenti da questa prospettiva e discutiamo i vantaggi e gli svantaggi rispetto agli approcci standard.
L'esecuzione del codice è un aspetto fondamentale della semantica dei linguaggi di programmazione che riflette il comportamento esatto del codice. Tuttavia, la maggior parte dei modelli pre-addestrati per l'intelligenza del codice ignora la traccia di esecuzione e si basa esclusivamente sul codice sorgente e sulle strutture sintattiche. In questo articolo, indaghiamo quanto bene i modelli pre-addestrati possano comprendere ed eseguire il codice. Sviluppiamo una tecnica di aumento dei dati basata su mutazioni per creare un dataset Python su larga scala e realistico, nonché un task per l'esecuzione del codice, che mette alla prova modelli esistenti come Codex. Presentiamo quindi CodeExecutor, un modello Transformer che sfrutta il pre-addestramento sull'esecuzione del codice e l'apprendimento curriculare per migliorare la sua comprensione semantica. Valutiamo CodeExecutor sull'esecuzione del codice e ne mostriamo le prestazioni promettenti e i limiti. Dimostriamo inoltre i suoi potenziali benefici per task di intelligenza del codice come la ricerca codice-a-codice zero-shot e la generazione testo-a-codice. La nostra analisi fornisce approfondimenti sulle capacità di apprendimento e generalizzazione dei modelli pre-addestrati per l'esecuzione del codice.
L'ottimizzazione e il rendering dei Neural Radiance Fields sono computazionalmente costosi a causa del vasto numero di campioni richiesti dal rendering volumetrico. Recenti lavori hanno incluso approcci alternativi di campionamento per accelerare i loro metodi, tuttavia, questi spesso non sono il focus principale del lavoro. In questo articolo, investigiamo e confrontiamo molteplici approcci di campionamento e dimostriamo che un campionamento migliorato è generalmente applicabile alle varianti di NeRF sotto un concetto unificato di stimatore di trasmittanza. Per facilitare futuri esperimenti, sviluppiamo NerfAcc, una toolbox Python che fornisce API flessibili per incorporare metodi di campionamento avanzati nei metodi correlati a NeRF. Dimostriamo la sua flessibilità mostrando che può ridurre il tempo di addestramento di diversi recenti metodi NeRF da 1.5x a 20x con modifiche minime al codice esistente. Inoltre, NeRF altamente personalizzati, come Instant-NGP, possono essere implementati in PyTorch nativo utilizzando NerfAcc.
La proliferazione di contenuti video richiede approcci basati su reti neurali efficienti e flessibili per la generazione di nuovi contenuti video. In questo articolo, proponiamo un approccio innovativo che combina la generazione zero-shot da testo a video con ControlNet per migliorare l'output di questi modelli. Il nostro metodo prende in input più frame schizzati e genera un output video che corrisponde al flusso di questi frame, basandosi sull'architettura Text-to-Video Zero e incorporando ControlNet per abilitare condizioni di input aggiuntive. Prima interpolando i frame tra gli schizzi forniti e poi eseguendo Text-to-Video Zero utilizzando il video con i nuovi frame interpolati come tecnica di controllo, sfruttiamo i vantaggi sia della generazione zero-shot da testo a video che del robusto controllo fornito da ControlNet. Gli esperimenti dimostrano che il nostro metodo eccelle nella produzione di contenuti video di alta qualità e straordinariamente coerenti che si allineano più accuratamente con il movimento inteso dall'utente per il soggetto all'interno del video. Forniamo un pacchetto di risorse completo, che include un video dimostrativo, un sito web del progetto, un repository GitHub open-source e un playground Colab per favorire ulteriori ricerche e applicazioni del nostro metodo proposto.
In seguito al notevole successo dei modelli di diffusione nella generazione di immagini, lavori recenti hanno dimostrato la loro impressionante capacità di affrontare numerosi problemi inversi in modo non supervisionato, vincolando opportunamente il processo di campionamento basato su un input di condizionamento. Motivati da ciò, in questo articolo presentiamo il primo approccio che utilizza i modelli di diffusione come prior per una ricostruzione altamente accurata del BRDF facciale 3D da una singola immagine. Iniziamo sfruttando un dataset UV di alta qualità di riflettanza facciale (albedo diffuso e speculare e normali), che rendiamo sotto diverse impostazioni di illuminazione per simulare texture RGB naturali e, successivamente, addestriamo un modello di diffusione non condizionato su coppie concatenate di texture renderizzate e componenti di riflettanza. Al momento del test, adattiamo un modello morfabile 3D all'immagine fornita e svolgiamo la faccia in una texture UV parziale. Campionando dal modello di diffusione, mantenendo intatta la parte osservata della texture, il modello ricostruisce non solo le aree auto-occluse ma anche le componenti di riflettanza sconosciute, in una singola sequenza di passaggi di denoising. A differenza dei metodi esistenti, acquisiamo direttamente la texture osservata dall'immagine di input, ottenendo così una stima della riflettanza più fedele e coerente. Attraverso una serie di confronti qualitativi e quantitativi, dimostriamo prestazioni superiori sia nel completamento della texture che nei compiti di ricostruzione della riflettanza.
Affinché un robot possa personalizzare efficacemente l'assistenza fisica, deve apprendere le preferenze dell'utente che possano essere generalmente riapplicate a scenari futuri. In questo lavoro, esploriamo la personalizzazione delle pulizie domestiche con robot in grado di riordinare le stanze raccogliendo oggetti e riponendoli al loro posto. Una sfida chiave è determinare la posizione corretta per ciascun oggetto, poiché le preferenze delle persone possono variare notevolmente in base al gusto personale o al background culturale. Ad esempio, una persona potrebbe preferire riporre le camicie nel cassetto, mentre un'altra potrebbe preferirle sullo scaffale. Il nostro obiettivo è costruire sistemi in grado di apprendere tali preferenze da pochi esempi, attraverso interazioni precedenti con una persona specifica. Dimostriamo che i robot possono combinare la pianificazione e la percezione basate sul linguaggio con le capacità di riepilogo few-shot dei modelli linguistici di grandi dimensioni (LLM) per inferire preferenze utente generalizzate, ampiamente applicabili a interazioni future. Questo approccio consente un adattamento rapido e raggiunge un'accuratezza del 91,2% su oggetti non visti nel nostro dataset di benchmark. Dimostriamo inoltre il nostro approccio su un manipolatore mobile reale chiamato TidyBot, che riesce a riporre correttamente l'85,0% degli oggetti in scenari di test del mondo reale.
Le pagine web sono state una risorsa preziosa per i compiti di linguaggio e visione-linguaggio. Tuttavia, solo frammenti di pagine web vengono conservati: coppie immagine-didascalia, articoli di testo lunghi o HTML grezzo, mai tutti in un unico luogo. Di conseguenza, i compiti legati alle pagine web hanno ricevuto poca attenzione e i dati strutturati immagine-testo sono stati sottoutilizzati. Per studiare la comprensione multimodale delle pagine web, introduciamo la suite Wikipedia Webpage 2M (WikiWeb2M); la prima a conservare l'intero set di immagini, testo e dati strutturali disponibili in una pagina. WikiWeb2M può essere utilizzata per compiti come la generazione di descrizioni di pagine, la sintesi di sezioni e la creazione di didascalie contestuali per immagini.