HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

17 papers found

Rerender un Video: Traduzione Video-to-Video Guidata da Testo in Modalità Zero-Shot
Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation

Jun 13

ByShuai Yang, Yifan Zhou, Ziwei Liu, Chen Change Loy

113

I grandi modelli di diffusione testo-immagine hanno dimostrato un'impressionante capacità nel generare immagini di alta qualità. Tuttavia, quando si applicano questi modelli al dominio video, garantire la coerenza temporale tra i fotogrammi rimane una sfida formidabile. Questo articolo propone un nuovo framework zero-shot di traduzione video-to-video guidata da testo per adattare i modelli di immagini ai video. Il framework è composto da due parti: traduzione dei fotogrammi chiave e traduzione dell'intero video. La prima parte utilizza un modello di diffusione adattato per generare fotogrammi chiave, con vincoli gerarchici inter-fotogramma applicati per garantire coerenza nelle forme, nelle texture e nei colori. La seconda parte propaga i fotogrammi chiave agli altri fotogrammi attraverso un matching di patch temporalmente consapevole e un blending di fotogrammi. Il nostro framework raggiunge una coerenza temporale globale nello stile e locale nella texture a basso costo (senza ri-addestramento o ottimizzazione). L'adattamento è compatibile con le tecniche esistenti di diffusione di immagini, consentendo al nostro framework di sfruttarle, come personalizzare un soggetto specifico con LoRA e introdurre una guida spaziale aggiuntiva con ControlNet. I risultati sperimentali estesi dimostrano l'efficacia del nostro framework proposto rispetto ai metodi esistenti nel rendering di video di alta qualità e temporalmente coerenti.

Uno-per-Tutti: LoRA Generalizzato per il Fine-Tuning Efficiente dei Parametri
One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning

Jun 13

ByArnav Chavan, Zhuang Liu, Deepak Gupta, Eric Xing, Zhiqiang Shen

Presentiamo Generalized LoRA (GLoRA), un approccio avanzato per compiti universali di fine-tuning efficiente in termini di parametri. Migliorando l'Adattamento a Basso Rango (LoRA), GLoRA utilizza un modulo di prompt generalizzato per ottimizzare i pesi dei modelli pre-addestrati e regolare le attivazioni intermedie, offrendo maggiore flessibilità e capacità su una vasta gamma di compiti e dataset. Inoltre, GLoRA facilita l'adattamento efficiente dei parametri attraverso una ricerca scalabile, modulare e strato per strato della struttura, che apprende un adattatore individuale per ogni strato. Derivando da una formulazione matematica unificata, GLoRA mostra forti capacità di trasferimento dell'apprendimento, apprendimento con pochi esempi e generalizzazione di dominio, adattandosi a nuovi compiti attraverso dimensioni aggiuntive sui pesi e sulle attivazioni. Esperimenti completi dimostrano che GLoRA supera tutti i metodi precedenti in benchmark naturali, specializzati e strutturati, raggiungendo una precisione superiore con meno parametri e calcoli su vari dataset. Inoltre, il nostro design di ri-parametrizzazione strutturale garantisce che GLoRA non comporti costi aggiuntivi di inferenza, rendendolo una soluzione pratica per applicazioni con risorse limitate. Il codice è disponibile all'indirizzo: https://github.com/Arnav0400/ViT-Slim/tree/master/GLoRA.

AniFaceDrawing: Esplorazione di Ritratti Anime Durante il Tuo Schizzo
AniFaceDrawing: Anime Portrait Exploration during Your Sketching

Jun 13

ByZhengyu Huang, Haoran Xie, Tsukasa Fukusato, Kazunori Miyata

In questo articolo, ci concentriamo su come l'intelligenza artificiale (IA) possa essere utilizzata per assistere gli utenti nella creazione di ritratti anime, ovvero convertire schizzi approssimativi in ritratti anime durante il processo di disegno. L'input è una sequenza di schizzi a mano libera incompleti che vengono gradualmente raffinati tratto per tratto, mentre l'output è una sequenza di ritratti anime di alta qualità che corrispondono agli schizzi di input come guida. Sebbene le recenti GAN possano generare immagini di alta qualità, è un problema complesso mantenere la qualità elevata delle immagini generate da schizzi con un basso grado di completamento a causa di problemi mal posti nella generazione condizionata di immagini. Anche con le più recenti tecnologie di conversione da schizzo a immagine (S2I), è ancora difficile creare immagini di alta qualità da schizzi approssimativi incompleti per ritratti anime, poiché lo stile anime tende ad essere più astratto rispetto allo stile realistico. Per affrontare questo problema, adottiamo un'esplorazione dello spazio latente di StyleGAN con una strategia di addestramento in due fasi. Consideriamo i tratti di input di uno schizzo a mano libera come corrispondenti ad attributi legati alle informazioni sui bordi nel codice strutturale latente di StyleGAN, e definiamo la corrispondenza tra tratti e questi attributi come "disentanglement a livello di tratto". Nella prima fase, abbiamo addestrato un codificatore di immagini utilizzando il modello StyleGAN pre-addestrato come codificatore insegnante. Nella seconda fase, abbiamo simulato il processo di disegno delle immagini generate senza dati aggiuntivi (etichette) e abbiamo addestrato il codificatore di schizzi per schizzi progressivi incompleti per generare immagini di ritratti di alta qualità con allineamento delle caratteristiche alle rappresentazioni disentangled nel codificatore insegnante. Abbiamo verificato il sistema S2I progressivo proposto con valutazioni sia qualitative che quantitative e abbiamo ottenuto ritratti anime di alta qualità da schizzi progressivi incompleti. Il nostro studio sugli utenti ha dimostrato la sua efficacia nell'assistenza alla creazione artistica per lo stile anime.

WebGLM: Verso un Sistema Efficiente di Risposta alle Domande Potenziato dal Web con Preferenze Umane
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

Jun 13

ByXiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang

Presentiamo WebGLM, un sistema di risposta alle domande potenziato dal web basato sul General Language Model (GLM). Il suo obiettivo è arricchire un modello linguistico pre-addestrato di grandi dimensioni (LLM) con capacità di ricerca e recupero web, mantenendo al contempo l'efficienza per implementazioni nel mondo reale. Per raggiungere questo scopo, sviluppiamo WebGLM con strategie per il retriever potenziato da LLM, il generatore bootstrap e lo scorer consapevole delle preferenze umane. Nello specifico, identifichiamo e affrontiamo i limiti di WebGPT (OpenAI), attraverso i quali WebGLM è dotato di vantaggi in termini di accuratezza, efficienza e convenienza. Inoltre, proponiamo criteri sistematici per valutare i sistemi di risposta alle domande potenziati dal web. Condurre valutazioni umane multidimensionali e studi di ablazione quantitativi suggerisce che i design proposti di WebGLM superano i sistemi esistenti. WebGLM con il GLM da 10 miliardi di parametri (10B) dimostra prestazioni migliori rispetto a WebGPT di dimensioni simili (13B) e persino comparabili a WebGPT (175B) nella valutazione umana. Il codice, la demo e i dati sono disponibili su https://github.com/THUDM/WebGLM.

TART: Un modulo Transformer plug-and-play per il ragionamento indipendente dal compito
TART: A plug-and-play Transformer module for task-agnostic reasoning

Jun 13

ByKush Bhatia, Avanika Narayan, Christopher De Sa, Christopher Ré

I grandi modelli linguistici (LLM) dimostrano capacità di apprendimento in contesto che consentono allo stesso modello di eseguire diverse attività senza alcun addestramento specifico per il compito. Al contrario, gli approcci tradizionali di adattamento, come il fine-tuning, modificano i modelli sottostanti per ogni specifico compito. Tuttavia, l'apprendimento in contesto risulta costantemente inferiore rispetto agli approcci di ottimizzazione specifici per il compito, anche quando vengono presentati gli stessi esempi. Mentre la maggior parte degli approcci esistenti (ad esempio, l'ingegneria dei prompt) si concentra sulle rappresentazioni apprese dagli LLM per colmare questo divario di prestazioni, la nostra analisi rivela in realtà che le rappresentazioni degli LLM contengono informazioni sufficienti per fare previsioni accurate. Pertanto, ci concentriamo sulle capacità di ragionamento degli LLM e dimostriamo che questo divario di prestazioni esiste a causa della loro incapacità di eseguire semplici compiti di ragionamento probabilistico. Ciò solleva una domanda intrigante: gli LLM sono effettivamente in grado di imparare a ragionare in modo indipendente dal compito? Rispondiamo affermativamente e proponiamo TART, che migliora genericamente le capacità di ragionamento di un LLM utilizzando un modulo di ragionamento basato su Transformer addestrato sinteticamente. TART addestra questo modulo di ragionamento in modo indipendente dal compito utilizzando solo compiti di regressione logistica sintetici e lo compone con un qualsiasi modello pre-addestrato del mondo reale senza alcun ulteriore addestramento. Con un singolo modulo di inferenza, TART migliora le prestazioni attraverso diverse famiglie di modelli (GPT-Neo, Pythia, BLOOM), dimensioni dei modelli (100M - 6B), compiti (14 compiti di classificazione binaria NLP) e persino attraverso diverse modalità (audio e visione). Inoltre, sul RAFT Benchmark, TART migliora le prestazioni di GPT-Neo (125M) al punto da superare BLOOM (176B) e di avvicinarsi a meno del 4% rispetto a GPT-3 (175B). Il nostro codice e i nostri modelli sono disponibili all'indirizzo https://github.com/HazyResearch/TART.

Anche i Generatori di Didascalie per Immagini Sono Modelli Scalabili per l'Apprendimento Visivo
Image Captioners Are Scalable Vision Learners Too

Jun 13

ByMichael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer

Il pretraining contrastivo su coppie immagine-testo provenienti dal web è una delle strategie di pretraining su larga scala più popolari per i backbone visivi, specialmente nel contesto di modelli multimodali di grandi dimensioni. Allo stesso tempo, la generazione di didascalie su questo tipo di dati è comunemente considerata una strategia di pretraining inferiore. In questo articolo, effettuiamo un confronto equo di queste due strategie di pretraining, curando attentamente l'allineamento dei dati di addestramento, del calcolo e della capacità del modello. Utilizzando un transformer encoder-decoder standard, scopriamo che la sola generazione di didascalie è sorprendentemente efficace: nei task di classificazione, la generazione di didascalie produce encoder visivi competitivi con quelli addestrati in modo contrastivo, superandoli nei task di visione e linguaggio. Analizziamo ulteriormente l'effetto dell'architettura del modello e della scala, così come dei dati di pretraining sulla qualità della rappresentazione, e scopriamo che la generazione di didascalie mostra lo stesso o un migliore comportamento di scalabilità lungo questi assi. Nel complesso, i nostri risultati dimostrano che la semplice generazione di didascalie è una strategia di pretraining più potente di quanto si credesse in precedenza.

ATT3D: Sintesi Amortizzata di Oggetti 3D da Testo
ATT3D: Amortized Text-to-3D Object Synthesis

Jun 6

ByJonathan Lorraine, Kevin Xie, Xiaohui Zeng, Chen-Hsuan Lin, Towaki Takikawa, Nicholas Sharp, Tsung-Yi Lin, Ming-Yu Liu, Sanja Fidler, James Lucas

La modellazione da testo a 3D ha registrato progressi entusiasmanti grazie alla combinazione di modelli generativi da testo a immagine con metodi da immagine a 3D come i Neural Radiance Fields. DreamFusion ha recentemente ottenuto risultati di alta qualità, ma richiede un'ottimizzazione lunga e specifica per ogni prompt per creare oggetti 3D. Per affrontare questo problema, ammortizziamo l'ottimizzazione sui prompt di testo addestrando su molti prompt contemporaneamente con un modello unificato, anziché separatamente. In questo modo, condividiamo il calcolo su un insieme di prompt, riducendo il tempo di addestramento rispetto all'ottimizzazione per ogni prompt. Il nostro framework - Amortized text-to-3D (ATT3D) - consente la condivisione di conoscenza tra i prompt per generalizzare a configurazioni non viste e ottenere interpolazioni fluide tra testi per nuovi asset e semplici animazioni.

SayTap: Linguaggio alla Locomozione Quadrupedale
SayTap: Language to Quadrupedal Locomotion

Jun 13

ByYujin Tang, Wenhao Yu, Jie Tan, Heiga Zen, Aleksandra Faust, Tatsuya Harada

I grandi modelli linguistici (LLM) hanno dimostrato il potenziale di eseguire pianificazioni di alto livello. Tuttavia, rimane una sfida per gli LLM comprendere comandi di basso livello, come target di angoli articolari o coppie motorie. Questo articolo propone un approccio che utilizza i pattern di contatto del piede come interfaccia per collegare i comandi umani in linguaggio naturale e un controller di locomozione che genera questi comandi di basso livello. Ciò si traduce in un sistema interattivo per robot quadrupedi che consente agli utenti di creare comportamenti di locomozione diversificati in modo flessibile. Contribuiamo con un design di prompt per LLM, una funzione di reward e un metodo per esporre il controller alla distribuzione fattibile dei pattern di contatto. I risultati includono un controller in grado di raggiungere pattern di locomozione diversificati che possono essere trasferiti su hardware robotico reale. Rispetto ad altre scelte progettuali, l'approccio proposto ottiene un tasso di successo superiore al 50% nella previsione dei pattern di contatto corretti e può risolvere 10 task in più su un totale di 30 task. Il sito del nostro progetto è: https://saytap.github.io.

arXiVeri: Verifica automatica delle tabelle con GPT
arXiVeri: Automatic table verification with GPT

Jun 13

ByGyungin Shin, Weidi Xie, Samuel Albanie

Senza una trascrizione accurata dei dati numerici nei documenti scientifici, uno scienziato non può trarre conclusioni precise. Purtroppo, il processo di copia dei dati numerici da un articolo a un altro è soggetto a errori umani. In questo articolo, proponiamo di affrontare questa sfida attraverso il nuovo compito della verifica automatica delle tabelle (AutoTV), il cui obiettivo è verificare l'accuratezza dei dati numerici nelle tabelle confrontandoli con le fonti citate. Per supportare questo compito, introduciamo un nuovo benchmark, arXiVeri, che comprende dati tabulari estratti da articoli accademici ad accesso aperto su arXiv. Proponiamo metriche per valutare le prestazioni di un verificatore di tabelle in due aree chiave: (i) l'abbinamento delle tabelle, che mira a identificare la tabella di origine in un documento citato che corrisponde a una tabella di destinazione, e (ii) l'abbinamento delle celle, che mira a individuare le celle condivise tra una tabella di destinazione e una di origine e a identificare con precisione i loro indici di riga e colonna. Sfruttando le capacità flessibili dei moderni modelli linguistici di grandi dimensioni (LLM), proponiamo semplici baseline per la verifica delle tabelle. I nostri risultati evidenziano la complessità di questo compito, anche per LLM all'avanguardia come GPT-4 di OpenAI. Il codice e il benchmark saranno resi pubblicamente disponibili.

Cronologia Neurale della Scena
Neural Scene Chronology

Jun 13

ByHaotong Lin, Qianqian Wang, Ruojin Cai, Sida Peng, Hadar Averbuch-Elor, Xiaowei Zhou, Noah Snavely

In questo lavoro, ci proponiamo di ricostruire un modello 3D variabile nel tempo, in grado di generare rendering fotorealistici con controllo indipendente del punto di vista, dell'illuminazione e del tempo, a partire da foto Internet di monumenti su larga scala. Le principali sfide sono due. In primo luogo, diversi tipi di cambiamenti temporali, come l'illuminazione e le modifiche alla scena stessa (ad esempio, la sostituzione di un'opera di graffiti con un'altra), sono intrecciati insieme nelle immagini. In secondo luogo, i cambiamenti temporali a livello di scena sono spesso discreti e sporadici nel tempo, piuttosto che continui. Per affrontare questi problemi, proponiamo una nuova rappresentazione della scena dotata di un metodo di codifica innovativo basato su funzioni a gradino temporale, in grado di modellare i cambiamenti discreti del contenuto della scena come funzioni costanti a tratti nel tempo. Nello specifico, rappresentiamo la scena come un campo di radianza spazio-temporale con un'incorporazione dell'illuminazione per immagine, dove i cambiamenti temporali della scena sono codificati utilizzando un insieme di funzioni a gradino apprese. Per facilitare il nostro compito di ricostruzione cronologica a partire dalle immagini Internet, abbiamo anche raccolto un nuovo dataset di quattro scene che presentano vari cambiamenti nel tempo. Dimostriamo che il nostro metodo ottiene risultati all'avanguardia nella sintesi di visualizzazioni su questo dataset, raggiungendo al contempo un controllo indipendente del punto di vista, del tempo e dell'illuminazione.

Adattatore da Voce a Testo e Recuperatore da Voce a Entità per LLM Potenziati nella Comprensione del Linguaggio Parlato
Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

Jun 8

ByMingqiu Wang, Izhak Shafran, Hagen Soltau, Wei Han, Yuan Cao, Dian Yu, Laurent El Shafey

I modelli linguistici di grandi dimensioni (LLM) sono stati applicati nel dominio del parlato, spesso subendo un calo delle prestazioni a causa di un disallineamento tra le rappresentazioni del parlato e del linguaggio. Per colmare questa lacuna, proponiamo un modello congiunto di parlato e linguaggio (SLM) utilizzando un adattatore Speech2Text, che mappa il parlato nello spazio di incorporamento dei token di testo senza perdita di informazioni sul parlato. Inoltre, utilizzando un filtraggio basato su CTC degli spazi vuoti, possiamo ridurre la lunghezza della sequenza del parlato a quella del testo. Nel dataset MultiWoz del parlato (sfida DSTC11), lo SLM migliora notevolmente le prestazioni del tracciamento dello stato del dialogo (DST) (da 24,7% a 28,4% di accuratezza). Inoltre, per affrontare gli errori sulle entità rare, arricchiamo lo SLM con un recuperatore Speech2Entity, che utilizza il parlato per recuperare le entità rilevanti e le aggiunge come prefisso all'input originale dello SLM. Con questo SLM arricchito dal recupero (ReSLM), le prestazioni del DST salgono al 34,6% di accuratezza. Inoltre, arricchendo il task di riconoscimento automatico del parlato (ASR) con il task di comprensione del dialogo, le prestazioni dell'ASR migliorano da 9,4% a 8,5% di WER.

GeneCIS: Un Benchmark per la Similitudine Condizionale Generale delle Immagini
GeneCIS: A Benchmark for General Conditional Image Similarity

Jun 13

BySagar Vaze, Nicolas Carion, Ishan Misra

Sosteniamo che esistono molteplici nozioni di "somiglianza" e che i modelli, come gli esseri umani, dovrebbero essere in grado di adattarsi a queste in modo dinamico. Ciò contrasta con la maggior parte dei metodi di apprendimento delle rappresentazioni, supervisionati o auto-supervisionati, che apprendono una funzione di embedding fissa e quindi assumono implicitamente una singola nozione di somiglianza. Ad esempio, i modelli addestrati su ImageNet sono orientati verso le categorie di oggetti, mentre un utente potrebbe preferire che il modello si concentri sui colori, sulle texture o su elementi specifici della scena. In questo articolo, proponiamo il benchmark GeneCIS ('genesi'), che misura la capacità dei modelli di adattarsi a una gamma di condizioni di somiglianza. Estendendo il lavoro precedente, il nostro benchmark è progettato esclusivamente per la valutazione zero-shot e considera quindi un insieme aperto di condizioni di somiglianza. Troviamo che i modelli di base di CLIP, pur potenti, faticano su GeneCIS e che le prestazioni sul benchmark sono solo debolmente correlate con l'accuratezza su ImageNet, suggerendo che semplicemente scalare i metodi esistenti non è fruttuoso. Proponiamo inoltre una soluzione semplice e scalabile basata sull'estrazione automatica di informazioni da dataset esistenti di immagini-didascalie. Scopriamo che il nostro metodo offre un sostanziale miglioramento rispetto ai modelli di base su GeneCIS e migliora ulteriormente le prestazioni zero-shot su benchmark correlati di recupero di immagini. In effetti, pur valutato in modalità zero-shot, il nostro modello supera i modelli supervisionati all'avanguardia su MIT-States. Pagina del progetto: https://sgvaze.github.io/genecis/.

Generazione di molecole 3D mediante denoising di griglie voxel
3D molecule generation by denoising voxel grids

Jun 13

ByPedro O. Pinheiro, Joshua Rackers, Joseph Kleinhenz, Michael Maser, Omar Mahmood, Andrew Martin Watkins, Stephen Ra, Vishnu Sresht, Saeed Saremi

Proponiamo un nuovo approccio basato su punteggi per generare molecole 3D rappresentate come densità atomiche su griglie regolari. In primo luogo, addestriamo una rete neurale di denoising che impara a mappare da una distribuzione regolare di molecole rumorose alla distribuzione di molecole reali. Successivamente, seguiamo il framework di Bayes empirico neurale [Saremi e Hyvarinen, 2019] e generiamo molecole in due passaggi: (i) campioniamo griglie di densità rumorose da una distribuzione regolare tramite la catena di Markov Monte Carlo di Langevin sottosmorzata, e (ii) recuperiamo la molecola "pulita" denoising la griglia rumorosa con un singolo passaggio. Il nostro metodo, VoxMol, genera molecole in modo fondamentalmente diverso rispetto allo stato dell'arte attuale (cioè, modelli di diffusione applicati a nuvole di punti atomici). Differisce in termini di rappresentazione dei dati, modello di rumore, architettura della rete e algoritmo di modellazione generativa. VoxMol ottiene risultati comparabili allo stato dell'arte nella generazione incondizionata di molecole 3D, pur essendo più semplice da addestrare e più veloce nella generazione di molecole.

Acquisizione Istantanea di Teste Multi-Vista attraverso Registrazione Apprendibile
Instant Multi-View Head Capture through Learnable Registration

Jun 12

ByTimo Bolkart, Tianye Li, Michael J. Black

I metodi esistenti per acquisire dataset di teste 3D in corrispondenza semantica densa sono lenti e comunemente affrontano il problema in due passaggi separati: ricostruzione stereo multi-vista (MVS) seguita da registrazione non rigida. Per semplificare questo processo, introduciamo TEMPEH (Towards Estimation of 3D Meshes from Performances of Expressive Heads) per inferire direttamente teste 3D in corrispondenza densa a partire da immagini multi-vista calibrate. La registrazione di dataset di scansioni 3D richiede tipicamente una regolazione manuale dei parametri per trovare il giusto equilibrio tra l'adattamento accurato delle superfici delle scansioni e la robustezza al rumore e agli outlier delle scansioni. Proponiamo invece di registrare congiuntamente un dataset di teste 3D durante l'addestramento di TEMPEH. Nello specifico, durante l'addestramento minimizziamo una perdita geometrica comunemente utilizzata per la registrazione di superfici, sfruttando efficacemente TEMPEH come regolarizzatore. La nostra inferenza multi-vista delle teste si basa su una rappresentazione volumetrica delle feature che campiona e fonde le feature di ciascuna vista utilizzando le informazioni di calibrazione della telecamera. Per tenere conto delle occlusioni parziali e di un ampio volume di acquisizione che consente movimenti della testa, utilizziamo rispettivamente una fusione delle feature consapevole della vista e della superficie, e un modulo di localizzazione della testa basato su trasformatori spaziali. Utilizziamo scansioni MVS grezze come supervisione durante l'addestramento, ma, una volta addestrato, TEMPEH predice direttamente teste 3D in corrispondenza densa senza richiedere scansioni. La previsione di una testa richiede circa 0,3 secondi con un errore di ricostruzione mediano di 0,26 mm, il 64% in meno rispetto allo stato dell'arte attuale. Ciò consente l'acquisizione efficiente di grandi dataset contenenti più persone e movimenti facciali diversificati. Codice, modello e dati sono disponibili pubblicamente all'indirizzo https://tempeh.is.tue.mpg.de.

Galactic: Scalabilità dell'Apprendimento per Rinforzo End-to-End per il Riarrangiamento a 100k Passi al Secondo
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

Jun 13

ByVincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander

Presentiamo Galactic, un framework su larga scala per la simulazione e l'apprendimento per rinforzo (RL) applicato alla manipolazione mobile robotica in ambienti interni. Nello specifico, un robot Fetch (dotato di una base mobile, un braccio a 7 gradi di libertà, una telecamera RGBD, egomotion e sensori integrati) viene posizionato in un ambiente domestico e incaricato di riorganizzare oggetti, navigando verso un oggetto, raccogliendolo, spostandosi verso una posizione target e posizionando l'oggetto nella locazione desiderata. Galactic è veloce. In termini di velocità di simulazione (rendering + fisica), Galactic raggiunge oltre 421.000 passi al secondo (SPS) su un nodo con 8 GPU, risultando 54 volte più veloce di Habitat 2.0 (7699 SPS). Ancora più importante, Galactic è stato progettato per ottimizzare l'interazione tra rendering, fisica e RL, poiché qualsiasi collo di bottiglia in questa interazione rallenta l'addestramento. In termini di velocità di simulazione+RL (rendering + fisica + inferenza + apprendimento), Galactic raggiunge oltre 108.000 SPS, risultando 88 volte più veloce di Habitat 2.0 (1243 SPS). Questi enormi miglioramenti non solo riducono drasticamente il tempo di addestramento degli esperimenti esistenti, ma consentono anche di eseguire esperimenti su una scala senza precedenti. In primo luogo, Galactic può addestrare un'abilità di raccolta mobile con un'accuratezza superiore all'80% in meno di 16 minuti, un miglioramento di 100 volte rispetto alle oltre 24 ore necessarie per addestrare la stessa abilità in Habitat 2.0. In secondo luogo, utilizziamo Galactic per condurre l'esperimento su larga scala più ampio mai realizzato per il riordinamento, impiegando 5 miliardi di passi di esperienza in 46 ore, equivalenti a 20 anni di esperienza robotica. Questa scalabilità porta a una singola rete neurale composta da componenti agnostici rispetto al compito, che raggiunge un tasso di successo dell'85% nel riordinamento GeometricGoal, rispetto allo 0% di successo riportato in Habitat 2.0 per lo stesso approccio. Il codice è disponibile su github.com/facebookresearch/galactic.

GPT-Calls: Miglioramento della Segmentazione e dell'Etichettatura delle Chiamate mediante la Generazione di Conversazioni Sintetiche tramite Modelli Linguistici di Grande Scala
GPT-Calls: Enhancing Call Segmentation and Tagging by Generating Synthetic Conversations via Large Language Models

Jun 9

ByItzik Malkiel, Uri Alon, Yakir Yehuda, Shahar Keren, Oren Barkan, Royi Ronen, Noam Koenigstein

Le trascrizioni delle telefonate hanno un valore significativo in diversi ambiti, come vendite, assistenza clienti, sanità e forze dell'ordine. Tuttavia, l'analisi di queste conversazioni registrate può essere un processo arduo e dispendioso in termini di tempo, specialmente quando si ha a che fare con dialoghi estesi o complessi. In questo lavoro, proponiamo un metodo innovativo, GPT-distilled Calls Segmentation and Tagging (GPT-Calls), per una segmentazione e un'estrazione dei temi delle chiamate efficiente e accurata. GPT-Calls è composto da fasi offline e online. La fase offline viene applicata una volta a una determinata lista di argomenti e prevede la generazione di una distribuzione di frasi sintetiche per ciascun argomento utilizzando un modello GPT e l'estrazione di vettori di ancoraggio. La fase online viene applicata separatamente a ogni chiamata e calcola la similarità tra la conversazione trascritta e gli ancoraggi tematici individuati nella fase offline. Successivamente, un'analisi nel dominio del tempo viene applicata ai punteggi di similarità per raggruppare le espressioni in segmenti e assegnare loro i temi. Il paradigma proposto offre un metodo accurato ed efficiente per la segmentazione delle chiamate e l'estrazione dei temi che non richiede dati etichettati, rendendolo un approccio versatile applicabile a vari domini. Il nostro algoritmo opera in produzione sotto Dynamics 365 Sales Conversation Intelligence, e la nostra ricerca si basa su conversazioni di vendita reali raccolte da vari tenant di Dynamics 365 Sales.

STUDIO: Sistemi di Raccomandazione con Decodificatore Temporalmente Causale e Consapevole del Contesto Sociale
STUDY: Socially Aware Temporally Casual Decoder Recommender Systems

Jun 2

ByEltayeb Ahmed, Diana Mincu, Lauren Harrell, Katherine Heller, Subhrajit Roy

Con l'enorme quantità di dati disponibili oggi sia online che offline, i sistemi di raccomandazione sono diventati essenziali per aiutare gli utenti a trovare elementi adatti ai loro interessi. Quando sono presenti informazioni sulle reti sociali, esistono metodi che utilizzano tali informazioni per fornire raccomandazioni migliori; tuttavia, questi metodi sono spesso macchinosi, con architetture complesse e procedure di addestramento articolate. Inoltre, molti dei metodi esistenti utilizzano reti neurali su grafi, notoriamente difficili da addestrare. Per affrontare questo problema, proponiamo i sistemi di raccomandazione Socially-aware Temporally caUsal Decoder (STUDY). STUDY esegue un'inferenza congiunta su gruppi di utenti adiacenti nel grafo della rete sociale utilizzando un singolo passaggio in avanti di una rete decoder transformer modificata. Testiamo il nostro metodo in un contesto educativo basato su scuola, utilizzando la struttura delle classi per definire le reti sociali. Il nostro metodo supera sia i metodi sociali che quelli sequenziali, mantenendo la semplicità progettuale di una singola rete omogenea che modella tutte le interazioni nei dati. Eseguiamo anche studi di ablazione per comprendere i fattori che determinano i nostri miglioramenti delle prestazioni e scopriamo che il nostro modello dipende dallo sfruttamento di una struttura di rete sociale che modella efficacemente le somiglianze nel comportamento degli utenti.

Galactic: Scalabilità dell'Apprendimento per Rinforzo End-to-End per il Riarrangiamento a 100k Passi al Secondo
Galactic: Scaling End-to-End Reinforcement Learning for Rearrangement at 100k Steps-Per-Second

Jun 13

ByVincent-Pierre Berges, Andrew Szot, Devendra Singh Chaplot, Aaron Gokaslan, Roozbeh Mottaghi, Dhruv Batra, Eric Undersander