Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Model (LLM) hanno dimostrato un grande potenziale nell'integrare modelli esperti diversi per affrontare complessi compiti linguistici e visivi. Nonostante la loro importanza nel far progredire il campo dei Contenuti Generati dall'Intelligenza Artificiale (AIGC), il loro potenziale nella creazione intelligente di contenuti audio rimane inesplorato. In questo lavoro, affrontiamo il problema della creazione di contenuti audio con trame che includono discorsi, musica ed effetti sonori, guidati da istruzioni testuali. Presentiamo WavJourney, un sistema che sfrutta i LLM per connettere vari modelli audio per la generazione di contenuti audio. Data una descrizione testuale di una scena uditiva, WavJourney prima invita i LLM a generare uno script strutturato dedicato alla narrazione audio. Lo script audio incorpora diversi elementi audio, organizzati in base alle loro relazioni spazio-temporali. Come rappresentazione concettuale dell'audio, lo script audio fornisce una logica interattiva e interpretabile per il coinvolgimento umano. Successivamente, lo script audio viene inserito in un compilatore di script, convertendolo in un programma per computer. Ogni riga del programma chiama un modello di generazione audio specifico per il compito o una funzione di operazione computazionale (ad esempio, concatenare, mixare). Il programma per computer viene quindi eseguito per ottenere una soluzione spiegabile per la generazione audio. Dimostriamo la praticità di WavJourney in diversi scenari del mondo reale, tra cui fantascienza, educazione e radiodrammi. Il design spiegabile e interattivo di WavJourney favorisce la co-creazione uomo-macchina in dialoghi multi-round, migliorando il controllo creativo e l'adattabilità nella produzione audio. WavJourney audioalizza l'immaginazione umana, aprendo nuove strade per la creatività nella creazione di contenuti multimediali.
Gli adattamenti a basso rango (LoRA) sono spesso utilizzati per ottimizzare i grandi modelli linguistici (LLM) per nuovi compiti. Questo articolo esamina la componibilità di LoRA per la generalizzazione tra compiti e introduce LoraHub, un framework strategico progettato per l'assemblaggio mirato di moduli LoRA addestrati su vari compiti dati, con l'obiettivo di ottenere prestazioni adattabili su compiti non visti. Con pochi esempi di un nuovo compito, LoraHub consente la combinazione fluida di più moduli LoRA, eliminando la necessità di competenze umane. È importante notare che la composizione non richiede né parametri aggiuntivi del modello né gradienti. I nostri risultati empirici, derivati dal benchmark Big-Bench Hard (BBH), suggeriscono che LoraHub può efficacemente imitare le prestazioni dell'apprendimento in contesto in scenari few-shot, escludendo la necessità di esempi in contesto accanto a ogni input di inferenza. Un contributo significativo della nostra ricerca è la promozione di una comunità per LoRA, dove gli utenti possono condividere i propri moduli LoRA addestrati, facilitando così la loro applicazione a nuovi compiti. Prevediamo che questa risorsa amplierà l'accesso e stimolerà i progressi nell'intelligenza generale e negli LLM in produzione. Il codice sarà disponibile su https://github.com/sail-sg/lorahub.
I grandi modelli linguistici (LLM) ottengono prestazioni migliori quando producono un ragionamento passo-passo, noto come "Catena del Pensiero" (Chain-of-Thought, CoT), prima di rispondere a una domanda. Tuttavia, non è chiaro se il ragionamento dichiarato rappresenti una spiegazione fedele del processo effettivo di ragionamento del modello (cioè, il modo in cui arriva alla risposta). Indaghiamo le ipotesi su come il ragionamento CoT possa non essere fedele, esaminando come cambiano le previsioni del modello quando interveniamo sul CoT (ad esempio, aggiungendo errori o parafrasandolo). I modelli mostrano una grande variabilità tra i compiti nel modo in cui si basano sul CoT per prevedere la risposta, a volte affidandosi pesantemente al CoT e altre ignorandolo quasi completamente. Il miglioramento delle prestazioni dovuto al CoT non sembra derivare unicamente dal calcolo aggiuntivo al momento del test o dalle informazioni codificate nella formulazione specifica del CoT. Man mano che i modelli diventano più grandi e capaci, producono un ragionamento meno fedele nella maggior parte dei compiti analizzati. Nel complesso, i nostri risultati suggeriscono che il CoT può essere fedele se le circostanze, come le dimensioni del modello e il compito, vengono scelte con attenzione.
Con i progressi dell'IA generativa, è emerso il potenziale entusiasmante per gli agenti autonomi di gestire compiti quotidiani tramite comandi in linguaggio naturale. Tuttavia, gli attuali agenti sono principalmente creati e testati in ambienti sintetici semplificati, limitando sostanzialmente la rappresentazione di scenari reali. In questo articolo, costruiamo un ambiente per il comando e il controllo degli agenti che è altamente realistico e riproducibile. Nello specifico, ci concentriamo su agenti che eseguono compiti su siti web e creiamo un ambiente con siti web completamente funzionali appartenenti a quattro domini comuni: e-commerce, discussioni su forum sociali, sviluppo collaborativo di software e gestione dei contenuti. Il nostro ambiente è arricchito con strumenti (ad esempio, una mappa) e basi di conoscenza esterne (ad esempio, manuali utente) per incoraggiare la risoluzione di compiti in modo simile a quello umano. Basandoci sul nostro ambiente, rilasciamo una serie di compiti di riferimento focalizzati sulla valutazione della correttezza funzionale del completamento dei compiti. I compiti nel nostro benchmark sono diversificati, a lungo termine e progettati per emulare i compiti che gli esseri umani svolgono abitualmente su internet. Progettiamo e implementiamo diversi agenti autonomi, integrando tecniche recenti come il ragionamento prima dell'azione. I risultati dimostrano che risolvere compiti complessi è impegnativo: il nostro miglior agente basato su GPT-4 raggiunge solo un tasso di successo end-to-end del 10,59%. Questi risultati evidenziano la necessità di un ulteriore sviluppo di agenti robusti, che gli attuali modelli linguistici all'avanguardia sono lontani da una prestazione perfetta in questi compiti reali e che WebArena può essere utilizzato per misurare tale progresso. Il nostro codice, dati, risorse per la riproduzione dell'ambiente e dimostrazioni video sono disponibili pubblicamente all'indirizzo https://webarena.dev/.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni notevoli su vari benchmark di ragionamento quantitativo e conoscenza. Tuttavia, molti di questi benchmark stanno perdendo utilità man mano che gli LLM ottengono punteggi sempre più alti, nonostante non abbiano ancora raggiunto prestazioni di livello esperto in questi domini. Introduciamo ARB, un nuovo benchmark composto da problemi avanzati di ragionamento in più campi. ARB rappresenta una prova più impegnativa rispetto ai benchmark precedenti, includendo problemi di matematica, fisica, biologia, chimica e diritto. Come sottoinsieme di ARB, presentiamo una serie impegnativa di problemi di matematica e fisica che richiedono ragionamento simbolico avanzato e conoscenza di dominio. Valutiamo modelli recenti come GPT-4 e Claude su ARB e dimostriamo che i modelli attuali ottengono punteggi ben al di sotto del 50% su compiti più impegnativi. Per migliorare sia le capacità di valutazione automatica che assistita, introduciamo un approccio di valutazione basato su rubriche, consentendo a GPT-4 di valutare i propri passaggi intermedi di ragionamento. Inoltre, conduciamo una valutazione umana del sottoinsieme simbolico di ARB, riscontrando una promettente concordanza tra gli annotatori e i punteggi di valutazione basati sulle rubriche di GPT-4.
La copertura del codice è una metrica ampiamente utilizzata per quantificare l'estensione in cui gli elementi di un programma, come istruzioni o rami, vengono eseguiti durante i test. Il calcolo della copertura del codice è un processo ad alta intensità di risorse, che richiede la compilazione e l'esecuzione del codice con un sovraccarico aggiuntivo per l'strumentazione. Inoltre, il calcolo della copertura di qualsiasi frammento di codice richiede il contesto dell'intero programma. Utilizzare il Machine Learning per ammortizzare questo processo costoso potrebbe ridurre il costo della copertura del codice richiedendo solo il contesto del codice sorgente, e il compito di previsione della copertura del codice può rappresentare un nuovo benchmark per valutare la capacità dei modelli di comprendere il codice. Proponiamo un nuovo compito di benchmark chiamato Previsione della Copertura del Codice per Modelli Linguistici di Grande Dimensione (LLM). Formalizziamo questo compito per valutare la capacità degli LLM di comprendere l'esecuzione del codice determinando quali righe di un metodo vengono eseguite da un dato caso di test e input. Curiamo e rilasciamo un dataset che chiamiamo COVERAGEEVAL eseguendo test e codice dal dataset HumanEval e raccogliendo informazioni sulla copertura del codice. Riportiamo le prestazioni di quattro LLM all'avanguardia utilizzati per compiti legati al codice, inclusi GPT-4 e GPT-3.5-Turbo di OpenAI, BARD di Google e Claude di Anthropic, nel compito di Previsione della Copertura del Codice. Infine, sosteniamo che la copertura del codice come metrica e fonte di dati per il pre-addestramento è preziosa per le prestazioni complessive degli LLM nei compiti di ingegneria del software.
I tradizionali sistemi di raccomandazione sfruttano la cronologia delle preferenze degli utenti sugli articoli per suggerire nuovi contenuti che potrebbero piacere. Tuttavia, le moderne interfacce dialogiche che consentono agli utenti di esprimere preferenze basate sul linguaggio offrono una modalità di input delle preferenze fondamentalmente diversa. Ispirati dai recenti successi dei paradigmi di prompting per i grandi modelli linguistici (LLM), ne studiamo l'uso per effettuare raccomandazioni sia da preferenze basate sugli articoli che da preferenze basate sul linguaggio, confrontandoli con i metodi più avanzati di filtraggio collaborativo (CF) basati sugli articoli. Per supportare questa indagine, raccogliamo un nuovo dataset composto sia da preferenze basate sugli articoli che da preferenze basate sul linguaggio, raccolte dagli utenti insieme alle loro valutazioni su una varietà di articoli raccomandati (con bias) e articoli casuali (senza bias). Tra i numerosi risultati sperimentali, scopriamo che gli LLM offrono prestazioni competitive per le raccomandazioni basate esclusivamente su preferenze linguistiche (nessuna preferenza sugli articoli) nel caso di quasi cold-start rispetto ai metodi CF basati sugli articoli, nonostante non abbiano un addestramento supervisionato specifico per questo compito (zero-shot) o solo poche etichette (few-shot). Questo è particolarmente promettente poiché le rappresentazioni delle preferenze basate sul linguaggio sono più spiegabili e verificabili rispetto alle rappresentazioni basate sugli articoli o su vettori.
Proponiamo Strivec, una nuova rappresentazione neurale che modella una scena 3D come un campo di radianza con griglie di tensori locali distribuite in modo sparso e compattamente fattorizzate. Il nostro approccio sfrutta la decomposizione tensoriale, seguendo il recente lavoro TensoRF, per modellare le griglie di tensori. A differenza di TensoRF, che utilizza un tensore globale e si concentra sulla loro decomposizione vettore-matrice, proponiamo di utilizzare una nuvola di tensori locali e applicare la classica decomposizione CANDECOMP/PARAFAC (CP) per fattorizzare ciascun tensore in triple vettoriali che esprimono le distribuzioni di caratteristiche locali lungo gli assi spaziali e codificano in modo compatto un campo neurale locale. Applichiamo inoltre griglie di tensori multi-scala per scoprire le comunanze geometriche e di aspetto e sfruttare la coerenza spaziale con la fattorizzazione tri-vettoriale a più scale locali. Le proprietà finali del campo di radianza vengono regresse aggregando le caratteristiche neurali da più tensori locali su tutte le scale. I nostri tensori tri-vettoriali sono distribuiti in modo sparso intorno alla superficie effettiva della scena, scoperta da una ricostruzione approssimativa veloce, sfruttando la sparsità di una scena 3D. Dimostriamo che il nostro modello può ottenere una qualità di rendering migliore utilizzando significativamente meno parametri rispetto ai metodi precedenti, inclusi TensoRF e Instant-NGP.
Sebbene molti problemi del mondo reale possano trarre vantaggio dall'apprendimento per rinforzo, raramente questi problemi si adattano al modello MDP: interagire con l'ambiente è spesso costoso e specificare funzioni di ricompensa è complesso. Spinti da queste sfide, lavori precedenti hanno sviluppato approcci basati sui dati che apprendono interamente da campioni delle dinamiche di transizione e da esempi di stati ad alto rendimento. Questi metodi tipicamente apprendono una funzione di ricompensa da stati ad alto rendimento, utilizzano tale funzione per etichettare le transizioni e poi applicano un algoritmo di RL offline a queste transizioni. Sebbene questi metodi possano ottenere buoni risultati in molti compiti, possono essere complessi, spesso richiedendo regolarizzazione e aggiornamenti a differenza temporale. In questo articolo, proponiamo un metodo per il controllo offline basato su esempi che apprende un modello implicito di transizioni multi-step, piuttosto che una funzione di ricompensa. Dimostriamo che questo modello implicito può rappresentare i valori Q per il problema di controllo basato su esempi. In una gamma di compiti di controllo offline basati su stati e immagini, il nostro metodo supera i baseline che utilizzano funzioni di ricompensa apprese; ulteriori esperimenti dimostrano una maggiore robustezza e scalabilità con la dimensione del dataset.