Articoli di ricerca IA selezionati quotidianamente con traduzioni
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) dimostrano capacità significative nelle attività di comprensione e generazione del linguaggio naturale. Con il crescente numero di LLM, come sfruttare l'esperienza collettiva di più LLM rappresenta una direzione di ricerca aperta e promettente. Verso questo obiettivo, proponiamo un nuovo approccio che sfrutta i punti di forza collettivi di più LLM attraverso una metodologia chiamata Mixture-of-Agents (MoA). Nel nostro approccio, costruiamo un'architettura MoA stratificata in cui ogni livello comprende più agenti LLM. Ogni agente utilizza tutti gli output degli agenti del livello precedente come informazioni ausiliarie per generare la propria risposta. I modelli MoA raggiungono prestazioni all'avanguardia su AlpacaEval 2.0, MT-Bench e FLASK, superando GPT-4 Omni. Ad esempio, il nostro MoA, che utilizza solo LLM open-source, è in testa alla classifica di AlpacaEval 2.0 con un margine significativo, ottenendo un punteggio del 65,1% rispetto al 57,5% di GPT-4 Omni.
Il Retrieval-Augmented Generation (RAG) è emerso recentemente come una soluzione promettente per mitigare la carenza di conoscenza dei Large Language Model (LLM). Tuttavia, i dataset RAG esistenti non rappresentano adeguatamente la natura diversificata e dinamica delle attività reali di Question Answering (QA). Per colmare questa lacuna, introduciamo il Comprehensive RAG Benchmark (CRAG), un benchmark di risposte a domande fattuali composto da 4.409 coppie domanda-risposta e API simulate per replicare la ricerca sul web e su Knowledge Graph (KG). CRAG è progettato per includere un'ampia gamma di domande in cinque domini e otto categorie di domande, riflettendo la varietà di popolarità delle entità, da quelle più comuni a quelle di nicchia, e dinamiche temporali che vanno dagli anni ai secondi. La nostra valutazione su questo benchmark evidenzia il divario rispetto a un QA completamente affidabile. Mentre la maggior parte degli LLM più avanzati raggiunge una precisione <=34% su CRAG, l'aggiunta di RAG in modo diretto migliora la precisione solo al 44%. Le soluzioni RAG all'avanguardia nel settore rispondono correttamente solo al 63% delle domande senza alcuna allucinazione. CRAG rivela anche una precisione molto più bassa nel rispondere a domande relative a fatti con maggiore dinamicità, minore popolarità o maggiore complessità, suggerendo direzioni future di ricerca. Il benchmark CRAG ha gettato le basi per una sfida del KDD Cup 2024, attirando migliaia di partecipanti e invii nei primi 50 giorni della competizione. Ci impegniamo a mantenere CRAG per servire le comunità di ricerca nel progresso delle soluzioni RAG e delle soluzioni QA in generale.
Presentiamo WildBench, un framework di valutazione automatizzato progettato per misurare le prestazioni di grandi modelli linguistici (LLMs) utilizzando query complesse e realistiche degli utenti. WildBench è composto da 1.024 task selezionati accuratamente da oltre un milione di log di conversazioni tra utenti e chatbot. Per la valutazione automatizzata con WildBench, abbiamo sviluppato due metriche, WB-Reward e WB-Score, calcolabili utilizzando LLM avanzati come GPT-4-turbo. La valutazione di WildBench utilizza checklist specifiche per ogni task per valutare sistematicamente gli output dei modelli e fornisce spiegazioni strutturate che giustificano i punteggi e i confronti, garantendo giudizi automatici più affidabili e interpretabili. WB-Reward impiega confronti a coppie dettagliati tra le risposte dei modelli, generando cinque possibili esiti: molto migliore, leggermente migliore, leggermente peggiore, molto peggiore o pari. A differenza delle valutazioni precedenti che utilizzavano un unico modello di riferimento, abbiamo selezionato tre modelli di riferimento con livelli di prestazione variabili per garantire un confronto a coppie più completo. Inoltre, proponiamo un metodo semplice per mitigare il bias della lunghezza, convertendo gli esiti di "leggermente migliore/peggiore" in "pari" se la risposta vincente supera quella perdente di più di K caratteri. WB-Score valuta la qualità degli output dei modelli individualmente, rendendolo una metrica di valutazione rapida ed efficiente in termini di costi. I risultati di WildBench dimostrano una forte correlazione con le valutazioni Elo votate dagli utenti su Chatbot Arena per task difficili. In particolare, WB-Reward raggiunge una correlazione di Pearson di 0,98 con i modelli di punta. Inoltre, WB-Score raggiunge 0,95, superando sia lo 0,91 di ArenaHard che lo 0,89 di AlpacaEval2.0 per i tassi di vittoria controllati per lunghezza, nonché lo 0,87 per i tassi di vittoria regolari.
L'IA generativa ha compiuto progressi straordinari nel rivoluzionare campi come la generazione di immagini e video. Questi avanzamenti sono guidati da algoritmi, architetture e dati innovativi. Tuttavia, la rapida proliferazione di modelli generativi ha evidenziato una lacuna critica: l'assenza di metriche di valutazione affidabili. Le attuali valutazioni automatiche come FID, CLIP, FVD, ecc., spesso non riescono a cogliere la qualità sfumata e la soddisfazione dell'utente associata agli output generativi. Questo articolo propone una piattaforma aperta, GenAI-Arena, per valutare diversi modelli generativi di immagini e video, dove gli utenti possono partecipare attivamente alla valutazione di questi modelli. Sfruttando il feedback collettivo e i voti degli utenti, GenAI-Arena mira a fornire una misura più democratica e accurata delle prestazioni dei modelli. Copre tre arene rispettivamente per la generazione di immagini da testo, la generazione di video da testo e l'editing di immagini. Attualmente, copriamo un totale di 27 modelli generativi open-source. GenAI-Arena è operativa da quattro mesi, raccogliendo oltre 6000 voti dalla comunità. Descriviamo la nostra piattaforma, analizziamo i dati e spieghiamo i metodi statistici per classificare i modelli. Per promuovere ulteriormente la ricerca nella costruzione di metriche di valutazione basate su modelli, rilasciamo una versione pulita dei nostri dati di preferenza per i tre compiti, denominata GenAI-Bench. Sollecitiamo i modelli multimodali esistenti come Gemini e GPT-4o a imitare il voto umano. Calcoliamo la correlazione tra il voto dei modelli e quello umano per comprendere le loro capacità di giudizio. I nostri risultati mostrano che i modelli multimodali esistenti sono ancora in ritardo nella valutazione del contenuto visivo generato, persino il miglior modello, GPT-4o, raggiunge solo una correlazione di Pearson di 0,22 nel sottopunteggio di qualità e si comporta come un'ipotesi casuale negli altri.
Stimare l'incertezza o la fiducia nelle risposte di un modello può essere significativo per valutare la fiducia non solo nelle risposte stesse, ma anche nel modello nel suo complesso. In questo articolo, esploriamo il problema di stimare la fiducia per le risposte di modelli linguistici di grandi dimensioni (LLM) con un semplice accesso in modalità black-box o tramite query. Proponiamo un framework semplice ed estensibile in cui progettiamo nuove feature e addestriamo un modello interpretabile (ad esempio, la regressione logistica) su queste feature per stimare la fiducia. Dimostriamo empiricamente che il nostro semplice framework è efficace nello stimare la fiducia di modelli come flan-ul2, llama-13b e mistral-7b, superando costantemente gli approcci esistenti di stima della fiducia in modalità black-box su dataset di riferimento come TriviaQA, SQuAD, CoQA e Natural Questions, in alcuni casi con un margine superiore al 10% (in termini di AUROC). Inoltre, il nostro approccio interpretabile fornisce insight sulle feature predittive della fiducia, portando alla scoperta interessante e utile che i nostri modelli di fiducia costruiti per un LLM si generalizzano in modalità zero-shot su altri LLM su un determinato dataset.
Le impressionanti capacità dei Large Language Models (LLM) offrono un approccio potente per reinventare l'esperienza di digitazione degli utenti. Questo articolo presenta Proofread, una nuova funzionalità di Gboard alimentata da un LLM lato server, che consente correzioni a livello di frase e paragrafo con un semplice tocco. Descriviamo il sistema completo in questo articolo, dalla generazione dei dati, alla progettazione delle metriche, fino alla messa a punto e al deployment del modello. Per ottenere modelli di qualità sufficiente, implementiamo una pipeline di dati sintetici accuratamente progettata per casi d'uso online, progettiamo metriche multidimensionali e adottiamo un approccio di messa a punto in due fasi per acquisire l'LLM dedicato alla funzionalità: il Supervised Fine Tuning (SFT) per la qualità di base, seguito dall'approccio di Reinforcement Learning (RL) per un affinamento mirato. In particolare, scopriamo che la messa a punto sequenziale sui task di Rewrite e proofread produce la migliore qualità nella fase SFT, e proponiamo ricompense globali e dirette nella fase di RL per cercare ulteriori miglioramenti. Esperimenti estesi su un set golden etichettato manualmente hanno mostrato che il nostro modello PaLM2-XS messo a punto ha raggiunto un rapporto di qualità dell'85,56\%. Abbiamo lanciato la funzionalità sui dispositivi Pixel 8 servendo il modello su TPU v5 in Google Cloud, con migliaia di utenti attivi giornalieri. La latenza di servizio è stata significativamente ridotta grazie alla quantizzazione, all'inferenza a bucket, alla segmentazione del testo e al decoding speculativo. La nostra demo è visibile su https://youtu.be/4ZdcuiwFU7I{Youtube}.
Presentiamo NATURAL PLAN, un benchmark realistico per la pianificazione in linguaggio naturale che comprende 3 compiti chiave: Pianificazione di Viaggi, Pianificazione di Riunioni e Programmazione di Calendari. Concentriamo la nostra valutazione sulle capacità di pianificazione dei LLM con informazioni complete sul compito, fornendo come contesto ai modelli output provenienti da strumenti come Google Flights, Google Maps e Google Calendar. Questo elimina la necessità di un ambiente di utilizzo di strumenti per valutare i LLM sulla pianificazione. Osserviamo che NATURAL PLAN rappresenta una sfida significativa per i modelli all'avanguardia. Ad esempio, nella Pianificazione di Viaggi, GPT-4 e Gemini 1.5 Pro hanno raggiunto rispettivamente solo il 31,1% e il 34,8% di tasso di risoluzione. Notiamo che le prestazioni dei modelli diminuiscono drasticamente all'aumentare della complessità del problema: tutti i modelli ottengono risultati inferiori al 5% quando sono coinvolte 10 città, evidenziando un divario significativo nella pianificazione in linguaggio naturale per i LLM all'avanguardia. Conduciamo inoltre ampi studi di ablazione su NATURAL PLAN per approfondire l'(in)efficacia di approcci come l'autocorrezione, la generalizzazione few-shot e la pianificazione in-context con contesti lunghi nel migliorare la pianificazione dei LLM.
Un comportamento prevedibile derivante dal ridimensionamento di sistemi di intelligenza artificiale avanzati è una proprietà estremamente desiderabile. Sebbene esista una letteratura ben consolidata su come le prestazioni di pre-addestramento si ridimensionano, la letteratura su come specifiche capacità downstream si ridimensionano è significativamente più confusa. In questo lavoro, facciamo un passo indietro e ci chiediamo: perché prevedere specifiche capacità downstream con il ridimensionamento è rimasto elusivo? Sebbene molti fattori siano certamente responsabili, identifichiamo un nuovo fattore che rende difficile modellare il comportamento di ridimensionamento su benchmark ampiamente utilizzati di risposta a domande a scelta multipla. Utilizzando cinque famiglie di modelli e dodici benchmark consolidati a scelta multipla, dimostriamo che le prestazioni downstream sono calcolate dalle probabilità logaritmiche negative attraverso una sequenza di trasformazioni che degradano progressivamente la relazione statistica tra prestazioni e ridimensionamento. Riveliamo poi il meccanismo che causa questa degradazione: le metriche downstream richiedono di confrontare la scelta corretta con un piccolo numero di scelte specifiche errate, il che significa che prevedere accuratamente le capacità downstream richiede non solo di prevedere come la massa di probabilità si concentra sulla scelta corretta con il ridimensionamento, ma anche come la massa di probabilità fluttua su specifiche scelte errate con il ridimensionamento. Studiamo empiricamente come la massa di probabilità sulla scelta corretta co-varia con la massa di probabilità sulle scelte errate con l'aumento del calcolo, suggerendo che potrebbero essere raggiungibili leggi di ridimensionamento per le scelte errate. Il nostro lavoro spiega anche perché le leggi di ridimensionamento del pre-addestramento sono comunemente considerate più prevedibili delle capacità downstream e contribuisce a stabilire valutazioni prevedibili al ridimensionamento per i modelli di intelligenza artificiale all'avanguardia.
L'emergenza dei Large Language Models (LLM) ha reso necessaria l'adozione di tecniche di addestramento parallelo, che prevedono l'utilizzo di migliaia di GPU per addestrare un singolo modello. Purtroppo, abbiamo riscontrato che l'efficienza dell'addestramento parallelo attuale è spesso subottimale, principalmente a causa di due problemi principali. In primo luogo, i guasti hardware sono inevitabili e portano a interruzioni nelle attività di addestramento. L'incapacità di identificare rapidamente i componenti difettosi comporta uno spreco significativo di risorse GPU. In secondo luogo, poiché le GPU devono attendere il completamento della sincronizzazione dei parametri prima di procedere al prossimo ciclo di calcolo, la congestione della rete può aumentare notevolmente il tempo di attesa delle GPU. Per affrontare queste sfide, questo articolo introduce una soluzione basata sulla comunicazione, denominata C4. Le intuizioni chiave di C4 sono due. Innanzitutto, nell'addestramento parallelo, la comunicazione collettiva presenta caratteristiche periodiche e omogenee, quindi qualsiasi anomalia è certamente dovuta a qualche forma di malfunzionamento hardware. Sfruttando questa caratteristica, C4 può identificare rapidamente i componenti difettosi, isolare prontamente l'anomalia e riavviare il compito, evitando così lo spreco di risorse causato dai ritardi nel rilevamento delle anomalie. In secondo luogo, il modello di comunicazione prevedibile della comunicazione collettiva, che coinvolge pochi flussi di grandi dimensioni, consente a C4 di eseguire in modo efficiente la pianificazione del traffico, riducendo sostanzialmente la congestione della rete. C4 è stato ampiamente implementato nei nostri sistemi di produzione, riducendo i costi indotti dagli errori di circa il 30% e migliorando le prestazioni di runtime di circa il 15% per alcune applicazioni con costi di comunicazione moderati.