Articoli di ricerca IA selezionati quotidianamente con traduzioni
Sebbene la generazione audio condivida aspetti comuni tra diversi tipi di audio, come il parlato, la musica e gli effetti sonori, la progettazione di modelli per ciascun tipo richiede un'attenta considerazione di obiettivi e bias specifici che possono differire significativamente da quelli di altri tipi. Per avvicinarci a una prospettiva unificata della generazione audio, questo articolo propone un framework che utilizza lo stesso metodo di apprendimento per la generazione di parlato, musica ed effetti sonori. Il nostro framework introduce una rappresentazione generale dell'audio, chiamata linguaggio dell'audio (LOA, Language of Audio). Qualsiasi audio può essere tradotto in LOA basandosi su AudioMAE, un modello di apprendimento della rappresentazione pre-addestrato in modo auto-supervisionato. Nel processo di generazione, traduciamo qualsiasi modalità in LOA utilizzando un modello GPT-2 e eseguiamo l'apprendimento auto-supervisionato della generazione audio con un modello di diffusione latente condizionato su LOA. Il framework proposto offre naturalmente vantaggi come capacità di apprendimento in contesto e la riutilizzabilità dei modelli AudioMAE e di diffusione latente pre-addestrati in modo auto-supervisionato. Gli esperimenti sui principali benchmark di testo-audio, testo-musica e testo-parlato dimostrano prestazioni all'avanguardia o competitive rispetto agli approcci precedenti. La nostra demo e il codice sono disponibili all'indirizzo https://audioldm.github.io/audioldm2.
Garantire l'allineamento, che si riferisce al rendere i modelli comportamentali in conformità con le intenzioni umane [1,2], è diventato un compito critico prima di implementare i grandi modelli linguistici (LLM) in applicazioni reali. Ad esempio, OpenAI ha dedicato sei mesi all'allineamento iterativo di GPT-4 prima del suo rilascio [3]. Tuttavia, una delle principali sfide affrontate dai professionisti è la mancanza di linee guida chiare su come valutare se gli output degli LLM siano allineati con le norme sociali, i valori e le regolamentazioni. Questo ostacolo impedisce un'iterazione e un'implementazione sistematica degli LLM. Per affrontare questo problema, questo articolo presenta un'analisi completa delle dimensioni chiave da considerare quando si valuta l'affidabilità degli LLM. L'analisi copre sette categorie principali di affidabilità degli LLM: affidabilità, sicurezza, equità, resistenza all'uso improprio, spiegabilità e ragionamento, aderenza alle norme sociali e robustezza. Ogni categoria principale è ulteriormente suddivisa in diverse sottocategorie, per un totale di 29 sottocategorie. Inoltre, un sottoinsieme di 8 sottocategorie è selezionato per ulteriori indagini, dove vengono progettati e condotti studi di misurazione su diversi LLM ampiamente utilizzati. I risultati delle misurazioni indicano che, in generale, i modelli più allineati tendono a performare meglio in termini di affidabilità complessiva. Tuttavia, l'efficacia dell'allineamento varia tra le diverse categorie di affidabilità considerate. Ciò evidenzia l'importanza di condurre analisi più granulari, test e miglioramenti continui sull'allineamento degli LLM. Svelando queste dimensioni chiave dell'affidabilità degli LLM, questo articolo mira a fornire preziose intuizioni e linee guida ai professionisti del settore. Comprendere e affrontare queste preoccupazioni sarà cruciale per ottenere un'implementazione affidabile ed eticamente solida degli LLM in varie applicazioni.
Gli allineamenti multipli di sequenze (MSA) di proteine codificano ricche informazioni biologiche e sono stati strumenti fondamentali nei metodi bioinformatici per compiti come il design proteico e la predizione della struttura proteica per decenni. Recenti scoperte come AlphaFold2, che utilizzano trasformatori per elaborare direttamente grandi quantità di MSA grezzi, hanno ribadito la loro importanza. Tuttavia, la generazione di MSA è altamente intensiva dal punto di vista computazionale, e nessun dataset paragonabile a quelli utilizzati per addestrare AlphaFold2 è stato reso disponibile alla comunità di ricerca, ostacolando i progressi nel machine learning per le proteine. Per rimediare a questo problema, introduciamo OpenProteinSet, un corpus open-source di oltre 16 milioni di MSA, associati a omologhi strutturali provenienti dal Protein Data Bank e a predizioni della struttura proteica di AlphaFold2. Abbiamo precedentemente dimostrato l'utilità di OpenProteinSet riaddestrando con successo AlphaFold2 su di esso. Ci aspettiamo che OpenProteinSet sia ampiamente utile come dati di addestramento e validazione per 1) una varietà di compiti focalizzati sulla struttura, funzione e design delle proteine e 2) la ricerca su larga scala nel machine learning multimodale.
Il monitoraggio e il seguimento di oggetti di interesse è fondamentale per diverse applicazioni robotiche, che spaziano dall'automazione industriale alla logistica e al magazzinaggio, fino all'assistenza sanitaria e alla sicurezza. In questo articolo, presentiamo un sistema robotico in grado di rilevare, tracciare e seguire qualsiasi oggetto in tempo reale. Il nostro approccio, denominato "follow anything" (FAn), è un modello open-vocabulary e multimodale: non è limitato ai concetti visti durante l'addestramento e può essere applicato a nuove classi al momento dell'inferenza utilizzando query testuali, immagini o clic. Sfruttando descrittori visivi ricavati da modelli pre-addestrati su larga scala (foundation models), FAn è in grado di rilevare e segmentare oggetti confrontando query multimodali (testo, immagini, clic) con una sequenza di immagini in ingresso. Gli oggetti rilevati e segmentati vengono tracciati attraverso i fotogrammi, tenendo conto di eventuali occlusioni e riapparizioni degli oggetti. Dimostriamo FAn su un sistema robotico reale (un veicolo aereo micro) e ne riportiamo la capacità di seguire senza interruzioni gli oggetti di interesse in un ciclo di controllo in tempo reale. FAn può essere implementato su un laptop dotato di una scheda grafica leggera (6-8 GB), raggiungendo una velocità di elaborazione di 6-20 fotogrammi al secondo. Per favorire una rapida adozione, implementazione ed estensibilità, abbiamo reso disponibile tutto il nostro codice in open-source sulla pagina del progetto all'indirizzo https://github.com/alaamaalouf/FollowAnything. Inoltre, incoraggiamo il lettore a guardare il nostro video esplicativo di 5 minuti disponibile al seguente link: https://www.youtube.com/watch?v=6Mgt3EPytrw.
Questo lavoro considera l'ottimizzazione di mesh basata su gradienti, in cui ottimizziamo iterativamente una mesh di superficie 3D rappresentandola come l'isosuperficie di un campo scalare, un paradigma sempre più comune in applicazioni come la fotogrammetria, la modellazione generativa e la fisica inversa. Le implementazioni esistenti adattano classici algoritmi di estrazione di isosuperfici come Marching Cubes o Dual Contouring; queste tecniche sono state progettate per estrarre mesh da campi fissi e noti, e nel contesto dell'ottimizzazione mancano dei gradi di libertà necessari per rappresentare mesh di alta qualità che preservino le caratteristiche, o soffrono di instabilità numeriche. Introduciamo FlexiCubes, una rappresentazione di isosuperficie specificamente progettata per ottimizzare una mesh sconosciuta rispetto a obiettivi geometrici, visivi o persino fisici. La nostra intuizione principale è introdurre parametri aggiuntivi accuratamente scelti nella rappresentazione, che consentono aggiustamenti locali flessibili alla geometria e alla connettività della mesh estratta. Questi parametri vengono aggiornati insieme al campo scalare sottostante tramite differenziazione automatica durante l'ottimizzazione per un compito downstream. Basiamo il nostro schema di estrazione su Dual Marching Cubes per migliorare le proprietà topologiche, e presentiamo estensioni per generare opzionalmente mesh tetraedriche e gerarchicamente adattive. Esperimenti estensivi validano FlexiCubes sia su benchmark sintetici che su applicazioni del mondo reale, dimostrando che offre miglioramenti significativi nella qualità della mesh e nella fedeltà geometrica.
Il programma Alexa Prize ha permesso a numerosi studenti universitari di esplorare, sperimentare e mostrare i propri talenti nella creazione di agenti conversazionali attraverso sfide come il SocialBot Grand Challenge e il TaskBot Challenge. Poiché gli agenti conversazionali compaiono sempre più in contesti multimodali e incarnati, è importante esplorare le potenzialità dell'interazione conversazionale arricchita dalla visione artificiale e dall'incarnazione fisica. Questo articolo descrive il SimBot Challenge, una nuova sfida in cui i team universitari competono per costruire assistenti robotici in grado di completare compiti in un ambiente fisico simulato. L'articolo fornisce una panoramica del SimBot Challenge, che includeva sia fasi online che offline. Descriviamo l'infrastruttura e il supporto forniti ai team, tra cui Alexa Arena, l'ambiente simulato e il toolkit di machine learning messo a disposizione per accelerare lo sviluppo di modelli di visione e linguaggio. Riassumiamo gli approcci adottati dai team partecipanti per superare le sfide di ricerca ed estrarre le principali lezioni apprese. Infine, forniamo un'analisi delle prestazioni dei SimBot in competizione durante il torneo.
Le equazioni differenziali alle derivate parziali (PDE) dipendenti dal tempo sono onnipresenti nella scienza e nell'ingegneria. Recentemente, principalmente a causa dell'elevato costo computazionale delle tecniche di soluzione tradizionali, i surrogati basati su reti neurali profonde hanno suscitato un crescente interesse. L'utilità pratica di tali risolutori neurali di PDE dipende dalla loro capacità di fornire previsioni accurate e stabili su lunghi orizzonti temporali, un problema notoriamente difficile. In questo lavoro, presentiamo un'analisi su larga scala delle comuni strategie di rollout temporale, identificando la trascuratezza delle informazioni sulle frequenze spaziali non dominanti, spesso associate alle alte frequenze nelle soluzioni delle PDE, come la principale insidia che limita le prestazioni di rollout stabili e accurati. Basandoci su queste intuizioni, traiamo ispirazione dai recenti progressi nei modelli di diffusione per introdurre PDE-Refiner; una nuova classe di modelli che consente una modellizzazione più accurata di tutte le componenti di frequenza attraverso un processo di raffinamento a più passaggi. Validiamo PDE-Refiner su benchmark impegnativi di fluidodinamica complessa, dimostrando rollout stabili e accurati che superano costantemente i modelli all'avanguardia, inclusi architetture neurali, numeriche e ibride neurali-numeriche. Inoltre, dimostriamo che PDE-Refiner migliora notevolmente l'efficienza dei dati, poiché l'obiettivo di denoising induce implicitamente una nuova forma di aumento spettrale dei dati. Infine, la connessione di PDE-Refiner ai modelli di diffusione consente una valutazione accurata ed efficiente dell'incertezza predittiva del modello, permettendoci di stimare quando il surrogato diventa inaccurato.