Articoli di ricerca IA selezionati quotidianamente con traduzioni
Man mano che i Large Language Model (LLM) acquisiscono un'importanza crescente in vari domini, permangono tuttavia alcune sfide irrisolte nell'accelerazione dell'inferenza degli LLM: (1) Aggiornamento sincronizzato del softmax parziale. L'operazione di softmax richiede un aggiornamento sincronizzato tra ciascun risultato parziale del softmax, causando un sovraccarico di circa il 20% nel calcolo dell'attenzione negli LLM. (2) Sottoutilizzazione del calcolo nel GEMM piatto. La forma delle matrici che eseguono il GEMM nell'inferenza degli LLM è piatta, portando a un calcolo sottoutilizzato e a una perdita di prestazioni superiore al 50% dopo l'aggiunta di zeri nei progetti precedenti. (3) Perdita di prestazioni dovuta al flusso di dati statico. Le prestazioni del kernel negli LLM dipendono da varie caratteristiche dei dati di input, configurazioni hardware, ecc. Un flusso di dati singolo e statico può portare a una perdita di prestazioni del 50,25% per GEMM di forme diverse nell'inferenza degli LLM. Presentiamo FlashDecoding++, un motore di inferenza veloce per LLM che supporta i principali LLM e backend hardware. Per affrontare le sfide sopra descritte, FlashDecoding++ propone in modo creativo: (1) Softmax asincrono con valore massimo unificato. FlashDecoding++ introduce una tecnica di valore massimo unificato per diversi calcoli parziali del softmax per evitare la sincronizzazione. (2) Ottimizzazione del GEMM piatto con doppio buffering. FlashDecoding++ evidenzia che i GEMM piatti con forme diverse affrontano colli di bottiglia variabili. Successivamente, vengono introdotte tecniche come il doppio buffering. (3) Flusso di dati euristico con adattamento alle risorse hardware. FlashDecoding++ ottimizza euristicamente il flusso di dati utilizzando diverse risorse hardware considerando la dinamicità degli input. Grazie alla versatilità delle ottimizzazioni in FlashDecoding++, è possibile ottenere un miglioramento delle prestazioni fino a 4,86x e 2,18x su GPU NVIDIA e AMD rispetto alle implementazioni di Hugging Face. FlashDecoding++ raggiunge inoltre un miglioramento medio delle prestazioni di 1,37x rispetto ai motori di inferenza LLM all'avanguardia sui principali LLM.
Presentiamo RoboGen, un agente robotico generativo che apprende automaticamente una vasta gamma di abilità robotiche su larga scala attraverso la simulazione generativa. RoboGen sfrutta i più recenti progressi nei modelli di base e generativi. Invece di utilizzare direttamente o adattare questi modelli per produrre politiche o azioni di basso livello, promuoviamo uno schema generativo che impiega questi modelli per generare automaticamente compiti, scene e supervisioni di formazione diversificati, scalando così l'apprendimento delle abilità robotiche con una supervisione umana minima. Il nostro approccio equipaggia un agente robotico con un ciclo autoguidato di proposta-generazione-apprendimento: l'agente propone prima compiti e abilità interessanti da sviluppare, e poi genera ambienti di simulazione corrispondenti popolando oggetti e asset pertinenti con configurazioni spaziali appropriate. Successivamente, l'agente scompone il compito di alto livello proposto in sotto-compiti, seleziona l'approccio di apprendimento ottimale (apprendimento per rinforzo, pianificazione del movimento o ottimizzazione della traiettoria), genera la supervisione di formazione necessaria, e poi apprende politiche per acquisire l'abilità proposta. Il nostro lavoro cerca di estrarre la conoscenza estesa e versatile incorporata nei modelli su larga scala e trasferirla al campo della robotica. La nostra pipeline completamente generativa può essere interrogata ripetutamente, producendo un flusso infinito di dimostrazioni di abilità associate a compiti e ambienti diversificati.
Proponiamo un nuovo approccio per la modellazione generativa basato sull'addestramento di una rete neurale affinché sia idempotente. Un operatore idempotente è quello che può essere applicato sequenzialmente senza modificare il risultato oltre l'applicazione iniziale, ovvero f(f(z))=f(z). Il modello proposto f viene addestrato per mappare una distribuzione sorgente (ad esempio, rumore gaussiano) a una distribuzione target (ad esempio, immagini realistiche) utilizzando i seguenti obiettivi: (1) Le istanze della distribuzione target dovrebbero mappare su se stesse, ovvero f(x)=x. Definiamo la varietà target come l'insieme di tutte le istanze che f mappa su se stesse. (2) Le istanze che formano la distribuzione sorgente dovrebbero mappare sulla varietà target definita. Questo viene ottenuto ottimizzando il termine di idempotenza, f(f(z))=f(z), che incoraggia il range di f(z) a trovarsi sulla varietà target. In condizioni ideali, un tale processo converge dimostrabilmente alla distribuzione target. Questa strategia risulta in un modello capace di generare un output in un singolo passaggio, mantenendo uno spazio latente consistente, mentre permette anche applicazioni sequenziali per il perfezionamento. Inoltre, scopriamo che elaborando input sia dalla distribuzione target che da quella sorgente, il modello proietta abilmente dati corrotti o modificati di nuovo sulla varietà target. Questo lavoro rappresenta un primo passo verso un "proiettore globale" che consente di proiettare qualsiasi input in una distribuzione di dati target.
Proponiamo Easy End-to-End Diffusion-based Text to Speech (E3 TTS), un modello semplice ed efficiente per la sintesi vocale end-to-end basato sulla diffusione. E3 TTS prende direttamente in input testo semplice e genera una forma d'onda audio attraverso un processo di raffinamento iterativo. A differenza di molti lavori precedenti, E3 TTS non si basa su rappresentazioni intermedie come caratteristiche spettrali o informazioni di allineamento. Invece, E3 TTS modella la struttura temporale della forma d'onda attraverso il processo di diffusione. Senza fare affidamento su informazioni di condizionamento aggiuntive, E3 TTS può supportare una struttura latente flessibile all'interno dell'audio dato. Ciò consente a E3 TTS di essere facilmente adattato per task zero-shot, come l'editing, senza alcun addestramento aggiuntivo. Gli esperimenti dimostrano che E3 TTS è in grado di generare audio ad alta fedeltà, avvicinandosi alle prestazioni di un sistema di sintesi vocale neurale all'avanguardia. Campioni audio sono disponibili all'indirizzo https://e3tts.github.io.
Lo spostamento distributivo rappresenta una sfida centrale nell'implementazione di modelli di apprendimento automatico, poiché questi possono essere mal equipaggiati per gestire dati del mondo reale. Questo è particolarmente evidente nella generazione audio da testo, dove le rappresentazioni codificate possono essere facilmente compromesse da prompt non visti, portando a un degrado dell'audio generato. Il limitato insieme di coppie testo-audio si rivela inadeguato per la generazione condizionata di audio in contesti reali, poiché i prompt degli utenti sono spesso sotto-specificati. In particolare, osserviamo un costante degrado della qualità audio nei campioni generati con prompt degli utenti, rispetto a quelli utilizzati durante l'addestramento. A tal fine, presentiamo un framework di modifica contestuale dei prompt basato sul retrieval, che sfrutta le didascalie di addestramento come esempi dimostrativi per rivedere i prompt degli utenti. Dimostriamo che questo framework ha migliorato la qualità audio su un insieme di prompt degli utenti raccolti, che sono stati modificati facendo riferimento alle didascalie di addestramento come esempi.
Presentiamo uno schema di raccolta dati scalabile, bottom-up e intrinsecamente diversificato che può essere utilizzato per ragionamenti di alto livello con orizzonti lunghi e medi e che ha una produttività 2,2 volte superiore rispetto ai tradizionali approcci di raccolta top-down passo-passo. Raccogliamo dati realistici eseguendo qualsiasi richiesta dell'utente all'interno di tre edifici per uffici e utilizzando molteplici incarnazioni di robot e umani. Con questi dati, dimostriamo che i modelli addestrati su tutte le incarnazioni performano meglio di quelli addestrati solo sui dati dei robot, anche quando valutati esclusivamente su episodi robotici. Scopriamo che, per un budget di raccolta fisso, è vantaggioso sfruttare la raccolta umana più economica insieme a quella robotica. Rilasciamo un ampio e altamente diversificato dataset (29.520 istruzioni uniche) denominato RoboVQA, contenente 829.502 coppie (video, testo) per il visual question answering focalizzato sulla robotica. Dimostriamo inoltre come la valutazione di esperimenti con robot reali attraverso un meccanismo di intervento consenta di portare a termine i compiti, rendendolo utilizzabile con supervisione umana anche se imperfetto, fornendo al contempo una singola metrica di performance. Presentiamo un modello condizionato da video, denominato RoboVQA-VideoCoCa, addestrato sul nostro dataset, in grado di eseguire una varietà di compiti di ragionamento di alto livello in contesti realistici ampi, con un tasso di intervento cognitivo inferiore del 46% rispetto al modello di riferimento zero-shot state-of-the-art per i modelli linguistici visivi (VLM), e capace di guidare robot reali attraverso compiti a lungo termine. Il divario di performance rispetto ai modelli zero-shot state-of-the-art indica che rimane ancora molto da raccogliere in termini di dati contestualizzati per il dispiegamento nel mondo reale, sottolineando la necessità critica di approcci scalabili alla raccolta dati. Infine, dimostriamo che i VLM basati su video superano significativamente i VLM basati su singole immagini, con una riduzione media del tasso di errore del 19% in tutti i compiti di VQA. Dati e video disponibili su https://robovqa.github.io.