Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo un metodo scalabile per costruire un modello linguistico di alta qualità in grado di seguire istruzioni, etichettando automaticamente testi scritti da esseri umani con le corrispondenti istruzioni. Il nostro approccio, denominato backtraduzione di istruzioni, parte da un modello linguistico affinato su una piccola quantità di dati iniziali e un dato corpus web. Il modello iniziale viene utilizzato per costruire esempi di addestramento generando prompt di istruzioni per documenti web (auto-aumento), e poi selezionando esempi di alta qualità tra questi candidati (auto-curazione). Questi dati vengono quindi utilizzati per affinare un modello più potente. L'affinamento di LLaMa su due iterazioni del nostro approccio produce un modello che supera tutti gli altri modelli basati su LLaMa nella classifica Alpaca senza fare affidamento su dati di distillazione, dimostrando un allineamento automatico altamente efficace.
Con l'emergere di modelli linguistici di grandi dimensioni sempre più potenti, si sta sviluppando un crescente interesse nell'utilizzare questi modelli per applicazioni di conversazione casuale e di role-play. Tuttavia, i dataset esistenti per conversazioni e role-play spesso non riescono a catturare le interazioni diversificate e sfumate tipicamente mostrate dai partecipanti al role-play nel mondo reale. Per affrontare questa limitazione e contribuire al campo in rapida crescita, introduciamo un dataset parzialmente sintetico denominato PIPPA (Personal Interaction Pairs between People and AI). PIPPA è il risultato di uno sforzo di crowdsourcing guidato dalla comunità che coinvolge un gruppo di appassionati di role-play. Il dataset comprende oltre 1 milione di espressioni distribuite in 26.000 sessioni di conversazione e fornisce una risorsa preziosa per i ricercatori e gli sviluppatori di AI per esplorare e perfezionare i sistemi di intelligenza artificiale conversazionale nel contesto di scenari di role-play.
L'addestramento di reti neurali all'avanguardia richiede un costo elevato in termini di calcolo e tempo. La scala del modello è riconosciuta come un fattore critico per raggiungere e migliorare lo stato dell'arte. Aumentare la scala di una rete neurale normalmente richiede di ricominciare da zero inizializzando casualmente tutti i parametri del modello, poiché ciò implica un cambiamento dei parametri dell'architettura che non consente un trasferimento diretto della conoscenza da modelli di dimensioni più ridotte. In questo lavoro, proponiamo sei trasformazioni componibili per aumentare gradualmente le dimensioni delle reti neurali basate su transformer preservandone la funzionalità, consentendo di espandere la capacità del modello secondo necessità. Forniamo una prova di preservazione esatta della funzione sotto vincoli di inizializzazione minimi per ciascuna trasformazione. I metodi proposti possono abilitare pipeline di addestramento efficienti per modelli più grandi e potenti espandendo progressivamente l'architettura durante l'addestramento.
I successi significativi dei grandi modelli linguistici (LLM) incoraggiano l'esplorazione emergente degli Agenti Autonomi Potenziati da LLM (LAA). Un LAA è in grado di generare azioni attraverso il suo LLM centrale e interagire con l'ambiente, facilitando la risoluzione di compiti complessi condizionando le interazioni passate, come osservazioni e azioni. Poiché l'indagine sugli LAA è ancora molto recente, sono disponibili esplorazioni limitate. Pertanto, forniamo un confronto completo degli LAA in termini sia di architetture degli agenti che di modelli LLM di base. Inoltre, proponiamo una nuova strategia per orchestrare più LAA in modo che ciascun LAA si concentri su un tipo specifico di azione, ovvero BOLAA, dove un controller gestisce la comunicazione tra più agenti. Eseguiamo simulazioni in ambienti di decision-making e ragionamento multi-step, che giustificano in modo completo le capacità degli LAA. I nostri risultati forniscono suggerimenti quantitativi per la progettazione delle architetture LAA e la scelta ottimale degli LLM, nonché la compatibilità di entrambi. Rilasciamo il nostro codice di implementazione degli LAA al pubblico all'indirizzo https://github.com/salesforce/BOLAA.
L'anno scorso ha visto progressi sorprendenti nella generazione di immagini basata su prompt testuali, fondata sull'idea di uno spazio di rappresentazione cross-modale in cui i domini del testo e dell'immagine sono rappresentati congiuntamente. Nel campo del riconoscimento automatico del parlato (ASR), questa idea ha trovato applicazione sotto forma di encoder congiunti parlato-testo, che possono scalare fino alle capacità di modelli con un numero molto elevato di parametri grazie all'addestramento su dati di parlato e testo non accoppiati. Sebbene questi metodi mostrino promettenti risultati, hanno richiesto un trattamento speciale della discrepanza nella lunghezza delle sequenze, intrinseca al parlato e al testo, attraverso euristiche di up-sampling o un modello esplicito di allineamento. In questo lavoro, forniamo prove che gli encoder congiunti parlato-testo raggiungono naturalmente rappresentazioni coerenti tra le modalità ignorando la lunghezza delle sequenze, e sosteniamo che le funzioni di perdita basate sulla coerenza potrebbero perdonare le differenze di lunghezza e assumere semplicemente il miglior allineamento possibile. Dimostriamo che una tale perdita migliora il tasso di errore sulle parole (WER) a valle sia in un sistema monolingue con molti parametri che in uno multilingue.
L'analisi delle topologie di rete e dei grafi di comunicazione svolge un ruolo cruciale nella gestione delle reti contemporanee. Tuttavia, l'assenza di un approccio coerente porta a una curva di apprendimento impegnativa, a un aumento degli errori e a inefficienze. In questo articolo, introduciamo un nuovo approccio per facilitare un'esperienza di gestione della rete basata sul linguaggio naturale, utilizzando modelli linguistici di grandi dimensioni (LLM) per generare codice specifico per le attività a partire da query in linguaggio naturale. Questo metodo affronta le sfide della spiegabilità, della scalabilità e della privacy consentendo agli operatori di rete di ispezionare il codice generato, eliminando la necessità di condividere i dati di rete con gli LLM e concentrandosi su richieste specifiche per l'applicazione combinate con tecniche generali di sintesi programmatica. Progettiamo e valutiamo un sistema prototipo utilizzando applicazioni di benchmark, dimostrando un'elevata accuratezza, economicità e il potenziale per ulteriori miglioramenti attraverso l'uso di tecniche complementari di sintesi programmatica.