Articoli di ricerca IA selezionati quotidianamente con traduzioni
La separazione universale delle sorgenti (USS) è un compito di ricerca fondamentale per l'analisi computazionale della scena uditiva, che mira a separare registrazioni mono in tracci individuali delle sorgenti. Ci sono tre potenziali sfide che attendono una soluzione al compito di separazione delle sorgenti audio. In primo luogo, i precedenti sistemi di separazione delle sorgenti audio si concentrano principalmente sulla separazione di una o di un numero limitato di sorgenti specifiche. Manca una ricerca sulla costruzione di un sistema unificato che possa separare sorgenti arbitrarie attraverso un singolo modello. In secondo luogo, la maggior parte dei sistemi precedenti richiede dati di sorgente puliti per addestrare un separatore, mentre i dati di sorgente puliti sono scarsi. In terzo luogo, manca un sistema USS che possa rilevare e separare automaticamente classi di suoni attivi a un livello gerarchico. Per utilizzare dati audio su larga scala etichettati debolmente/non etichettati per la separazione delle sorgenti audio, proponiamo un framework universale di separazione delle sorgenti audio che comprende: 1) un modello di etichettatura audio addestrato su dati etichettati debolmente come rete di query; e 2) un modello di separazione delle sorgenti condizionale che prende le uscite della rete di query come condizioni per separare sorgenti sonore arbitrarie. Investigiamo varie reti di query, modelli di separazione delle sorgenti e strategie di addestramento e proponiamo una strategia USS gerarchica per rilevare e separare automaticamente classi di suoni dall'ontologia AudioSet. Utilizzando esclusivamente l'AudioSet etichettato debolmente, il nostro sistema USS riesce a separare una vasta gamma di classi di suoni, inclusa la separazione di eventi sonori, la separazione di sorgenti musicali e il miglioramento del parlato. Il sistema USS raggiunge un miglioramento medio del rapporto segnale-distorsione (SDRi) di 5,57 dB su 527 classi di suoni di AudioSet; 10,57 dB sul dataset DCASE 2018 Task 2; 8,12 dB sul dataset MUSDB18; un SDRi di 7,28 dB sul dataset Slakh2100; e un SSNR di 9,00 dB sul dataset voicebank-demand. Rilasciamo il codice sorgente all'indirizzo https://github.com/bytedance/uss.
I modelli di diffusione sono emersi come un paradigma potente per la generazione, ottenendo prestazioni solide in vari domini con input a valori continui. Nonostante le promesse della generazione di testo completamente non autoregressiva, applicare i modelli di diffusione al linguaggio naturale rimane impegnativo a causa della sua natura discreta. In questo lavoro, proponiamo Text-to-text Self-conditioned Simplex Diffusion (TESS), un modello di diffusione per il testo che è completamente non autoregressivo, utilizza una nuova forma di auto-condizionamento e applica il processo di diffusione nello spazio del simplesso dei logit piuttosto che nel tipico spazio di embedding appreso. Attraverso esperimenti estesi su compiti di comprensione e generazione del linguaggio naturale, tra cui riassunto, semplificazione del testo, generazione di parafrasi e generazione di domande, dimostriamo che TESS supera i modelli non autoregressivi all'avanguardia ed è competitivo con i modelli sequenza-a-sequenza autoregressivi preaddestrati.
In questo articolo, studiamo un nuovo problema nel riconoscimento di azioni egocentriche, che definiamo come "Generalizzazione Multimodale" (MMG). L'obiettivo della MMG è studiare come i sistemi possano generalizzare quando i dati di alcune modalità sono limitati o addirittura completamente assenti. Investigiamo approfonditamente la MMG nel contesto del riconoscimento di azioni supervisionato standard e nel contesto più impegnativo del few-shot learning per nuove categorie di azioni. La MMG comprende due scenari innovativi, progettati per supportare considerazioni di sicurezza ed efficienza nelle applicazioni del mondo reale: (1) generalizzazione con modalità mancanti, in cui alcune modalità presenti durante l'addestramento sono assenti durante l'inferenza, e (2) generalizzazione zero-shot cross-modale, in cui le modalità presenti durante l'inferenza e l'addestramento sono disgiunte. Per abilitare questa indagine, costruiamo un nuovo dataset chiamato MMG-Ego4D, contenente punti dati con modalità video, audio e sensori di movimento inerziale (IMU). Il nostro dataset è derivato dal dataset Ego4D, ma è stato elaborato e completamente ri-annotato da esperti umani per facilitare la ricerca sul problema della MMG. Valutiamo una vasta gamma di modelli su MMG-Ego4D e proponiamo nuovi metodi con una migliore capacità di generalizzazione. In particolare, introduciamo un nuovo modulo di fusione con addestramento a dropout modale, addestramento di allineamento basato su contrasto e una nuova funzione di perdita prototipale cross-modale per migliorare le prestazioni nel few-shot. Speriamo che questo studio possa servire come benchmark e guidare future ricerche sui problemi di generalizzazione multimodale. Il benchmark e il codice saranno disponibili all'indirizzo https://github.com/facebookresearch/MMG_Ego4D.
I modelli di diffusione per immagini e video guidati da testo hanno raggiunto un successo senza precedenti nella generazione di contenuti realistici e diversificati. Recentemente, la modifica e la variazione di immagini e video esistenti nei modelli generativi basati su diffusione hanno attirato una significativa attenzione. Tuttavia, i lavori precedenti si limitano a modificare il contenuto con il testo o a fornire una personalizzazione approssimativa utilizzando un singolo indizio visivo, rendendoli inadatti per contenuti indescrivibili che richiedono un controllo fine e dettagliato. A tal proposito, proponiamo un framework generico per la modifica di video chiamato Make-A-Protagonist, che utilizza indizi testuali e visivi per modificare i video con l'obiettivo di permettere agli individui di diventare i protagonisti. Nello specifico, sfruttiamo più esperti per analizzare il video sorgente, gli indizi visivi e testuali target, e proponiamo un modello di generazione video basato su testo e immagini che impiega un campionamento di denoising guidato da maschere per generare l'output desiderato. Risultati estesi dimostrano le capacità di modifica versatili e notevoli di Make-A-Protagonist.
Sebbene il pre-addestramento su dati su larga scala di immagini e testo provenienti dal Web abbia facilitato rapidi progressi in molti compiti di visione e linguaggio (V&L), lavori recenti hanno dimostrato che i modelli pre-addestrati mancano di una comprensione "fine-grained", come la capacità di riconoscere relazioni, verbi e numeri nelle immagini. Ciò ha portato a un crescente interesse nella comunità per sviluppare nuovi benchmark o modelli per tali capacità. Per comprendere e quantificare meglio i progressi in questa direzione, abbiamo analizzato quattro modelli competitivi di V&L su quattro benchmark fine-grained. Attraverso la nostra analisi, abbiamo riscontrato che X-VLM (Zeng et al., 2022) supera costantemente altri modelli di riferimento e che le innovazioni nella modellazione possono influenzare le prestazioni più del semplice aumento dei dati Web, che a volte addirittura degrada le prestazioni. Attraverso un'analisi più approfondita di X-VLM, evidenziamo l'importanza sia di nuove funzioni di perdita che di fonti di dati ricche per l'apprendimento di abilità fine-grained. Infine, abbiamo esaminato le dinamiche di addestramento e scoperto che, per alcuni compiti, le prestazioni raggiungono il picco all'inizio dell'addestramento o fluttuano significativamente, senza mai convergere.
La pianificazione e l'allocazione delle risorse sono componenti critici di molti sistemi ad alto impatto, che vanno dal controllo della congestione al cloud computing. Trovare soluzioni più ottimali per questi problemi spesso ha un impatto significativo sul risparmio di risorse e tempo, riducendo l'usura dei dispositivi e potenzialmente migliorando anche le emissioni di carbonio. In questo articolo, ci concentriamo su un'istanza specifica di un problema di pianificazione, ovvero il problema di mappatura della memoria che si verifica durante la compilazione di programmi di machine learning: cioè, la mappatura dei tensori su diversi livelli di memoria per ottimizzare il tempo di esecuzione. Introduciamo un approccio per risolvere il problema di mappatura della memoria utilizzando il Reinforcement Learning (RL). L'RL è un paradigma di soluzione ben adatto per problemi di decisione sequenziale che si prestano alla pianificazione e per spazi di ricerca combinatoria con input di dati ad alta dimensionalità. Formuliamo il problema come un gioco a giocatore singolo, che chiamiamo mallocGame, in modo che le traiettorie ad alta ricompensa del gioco corrispondano a mappature di memoria efficienti sull'hardware target. Introduciamo anche un agente di Reinforcement Learning, mallocMuZero, e dimostriamo che è in grado di giocare a questo gioco per scoprire nuove e migliori soluzioni di mappatura della memoria che portano a tempi di esecuzione più rapidi su carichi di lavoro ML reali su acceleratori ML. Confrontiamo le prestazioni di mallocMuZero con il risolutore predefinito utilizzato dal compilatore Accelerated Linear Algebra (XLA) su un benchmark di carichi di lavoro ML realistici. Inoltre, dimostriamo che mallocMuZero è in grado di migliorare il tempo di esecuzione del modello di moltiplicazione di matrici AlphaTensor, pubblicato di recente.
Garantire che i modelli linguistici di grandi dimensioni (LM) siano equi, robusti e utili richiede una comprensione di come diverse modifiche ai loro input influenzino il comportamento del modello. Tuttavia, nel contesto dei compiti di generazione di testo aperto, una tale valutazione non è banale. Ad esempio, quando si presenta a un modello un testo di input e una sua versione perturbata e "contrastiva", differenze significative nelle previsioni del token successivo potrebbero non essere rivelate con strategie di decodifica standard. Con questa motivazione in mente, proponiamo il Contrastive Input Decoding (CID): un algoritmo di decodifica per generare testo dati due input, in cui il testo generato è probabile dato un input ma improbabile dato l'altro. In questo modo, le generazioni contrastive possono evidenziare in modo semplice e interpretabile potenziali differenze sottili nel modo in cui l'output del LM varia per i due input. Utilizziamo il CID per evidenziare bias specifici del contesto che sono difficili da rilevare con strategie di decodifica standard e per quantificare l'effetto di diverse perturbazioni dell'input.
I modelli di riassunto spesso generano testi scarsamente calibrati rispetto alle metriche di qualità perché sono addestrati per massimizzare la verosimiglianza di un singolo riferimento (MLE). Per affrontare questo problema, lavori recenti hanno introdotto una fase di calibrazione, che espone un modello ai propri output classificati per migliorare la rilevanza o, in un filone di ricerca separato, confronta insiemi positivi e negativi per migliorare la fedeltà. Sebbene efficaci, gran parte di questi lavori si è concentrata su come generare e ottimizzare questi insiemi. Meno si sa sul perché una configurazione sia più efficace di un'altra. In questo lavoro, scopriamo le caratteristiche sottostanti degli insiemi efficaci. Per ogni istanza di addestramento, formiamo un ampio e diversificato pool di candidati e variamo sistematicamente i sottoinsiemi utilizzati per il fine-tuning della calibrazione. Ogni strategia di selezione mira ad aspetti distintivi degli insiemi, come la diversità lessicale o l'ampiezza del divario tra positivi e negativi. Su tre diversi dataset di riassunto scientifico a lungo termine (che coprono i domini biomedico, clinico e chimico), troviamo, tra l'altro, che la calibrazione della fedeltà è ottimale quando gli insiemi negativi sono estrattivi e più probabili da generare, mentre per la calibrazione della rilevanza, il margine metrico tra i candidati dovrebbe essere massimizzato e la sorpresa—il disaccordo tra le classificazioni dei candidati definite dal modello e dalla metrica—minimizzata. Il codice per creare, selezionare e ottimizzare gli insiemi di calibrazione è disponibile all'indirizzo https://github.com/griff4692/calibrating-summaries.
Generare visualizzazioni fedeli dei volti umani richiede la cattura sia dei dettagli generali che di quelli fini della geometria e dell'aspetto del viso. I metodi esistenti sono basati sui dati, necessitando di un ampio corpus di informazioni non accessibile pubblicamente alla comunità di ricerca, oppure non riescono a catturare i dettagli fini perché si affidano a modelli geometrici del viso che non possono rappresentare dettagli granulari nella texture con una discretizzazione a maglia e una deformazione lineare progettata per modellare solo una geometria del viso approssimativa. Introduciamo un metodo che colma questa lacuna traendo ispirazione dalle tecniche tradizionali della computer grafica. Le espressioni non viste vengono modellate fondendo l'aspetto da un insieme sparso di pose estreme. Questa fusione viene eseguita misurando i cambiamenti volumetrici locali in quelle espressioni e riproducendo localmente il loro aspetto ogni volta che viene eseguita un'espressione simile durante il test. Mostriamo che il nostro metodo si generalizza a espressioni non viste, aggiungendo effetti di dettaglio fine su deformazioni volumetriche fluide di un viso, e dimostriamo come si generalizza oltre i volti.
Diverse aziende leader nel campo dell'intelligenza artificiale, tra cui OpenAI, Google DeepMind e Anthropic, hanno dichiarato come obiettivo la creazione di un'intelligenza artificiale generale (AGI) - sistemi di IA che raggiungano o superino le prestazioni umane in un'ampia gamma di compiti cognitivi. Nel perseguire questo obiettivo, potrebbero sviluppare e implementare sistemi di IA che presentano rischi particolarmente significativi. Sebbene abbiano già adottato alcune misure per mitigare questi rischi, le migliori pratiche non sono ancora emerse. Per supportare l'identificazione di tali pratiche, abbiamo inviato un sondaggio a 92 esperti di spicco provenienti da laboratori AGI, accademia e società civile, ricevendo 51 risposte. Ai partecipanti è stato chiesto di esprimere il loro grado di accordo con 50 affermazioni su ciò che i laboratori AGI dovrebbero fare. La nostra principale scoperta è che i partecipanti, in media, hanno concordato con tutte le affermazioni. Molte di esse hanno ricevuto livelli di accordo estremamente elevati. Ad esempio, il 98% dei rispondenti ha dichiarato di essere parzialmente o fortemente d'accordo sul fatto che i laboratori AGI dovrebbero condurre valutazioni del rischio pre-distribuzione, valutazioni delle capacità pericolose, audit di modelli da parte di terzi, restrizioni di sicurezza sull'uso dei modelli e attività di red teaming. In definitiva, la nostra lista di affermazioni potrebbe servire come una base utile per gli sforzi volti a sviluppare migliori pratiche, standard e regolamenti per i laboratori AGI.