Articoli di ricerca IA selezionati quotidianamente con traduzioni
Nonostante i progressi dei modelli linguistici di grandi dimensioni (LLM) open-source e delle loro varianti, come LLaMA e Vicuna, essi rimangono significativamente limitati nell'esecuzione di compiti di livello superiore, come seguire le istruzioni umane per utilizzare strumenti esterni (API). Ciò è dovuto al fatto che l'attuale ottimizzazione delle istruzioni si concentra principalmente su compiti linguistici di base piuttosto che sul dominio dell'uso degli strumenti. Questo è in contrasto con i migliori LLM all'avanguardia (SOTA), come ChatGPT, che hanno dimostrato eccellenti capacità di utilizzo degli strumenti ma che, purtroppo, sono closed source. Per facilitare le capacità di utilizzo degli strumenti all'interno degli LLM open-source, introduciamo ToolLLM, un framework generale per l'uso degli strumenti che include la costruzione dei dati, l'addestramento del modello e la valutazione. Presentiamo innanzitutto ToolBench, un dataset di ottimizzazione delle istruzioni per l'uso degli strumenti, creato automaticamente utilizzando ChatGPT. Nello specifico, raccogliamo 16.464 API RESTful del mondo reale, che coprono 49 categorie da RapidAPI Hub, quindi sollecitiamo ChatGPT a generare diverse istruzioni umane che coinvolgono queste API, coprendo sia scenari con un singolo strumento che con più strumenti. Infine, utilizziamo ChatGPT per cercare un percorso di soluzione valido (catena di chiamate API) per ogni istruzione. Per rendere il processo di ricerca più efficiente, sviluppiamo un nuovo albero decisionale basato su ricerca in profondità (DFSDT), che consente agli LLM di valutare più tracce di ragionamento e ampliare lo spazio di ricerca. Dimostriamo che DFSDT migliora significativamente le capacità di pianificazione e ragionamento degli LLM. Per una valutazione efficiente dell'uso degli strumenti, sviluppiamo un valutatore automatico: ToolEval. Ottimizziamo LLaMA su ToolBench e otteniamo ToolLLaMA. Il nostro ToolEval rivela che ToolLLaMA dimostra una notevole capacità di eseguire istruzioni complesse e di generalizzare su API non viste, mostrando prestazioni comparabili a ChatGPT. Per rendere la pipeline più pratica, progettiamo un selettore di API neurale per raccomandare le API appropriate per ogni istruzione, eliminando la necessità di una selezione manuale delle API.
L'apprendimento per rinforzo con feedback umano (RLHF) è una tecnica per addestrare sistemi di intelligenza artificiale ad allinearsi con gli obiettivi umani. RLHF è emerso come il metodo principale utilizzato per affinare i modelli linguistici di grandi dimensioni (LLM) all'avanguardia. Nonostante questa popolarità, c'è stato relativamente poco lavoro pubblico che sistematizza i suoi difetti. In questo articolo, (1) esaminiamo i problemi aperti e le limitazioni fondamentali di RLHF e dei metodi correlati; (2) forniamo una panoramica delle tecniche per comprendere, migliorare e integrare RLHF nella pratica; e (3) proponiamo standard di audit e divulgazione per migliorare il controllo sociale sui sistemi RLHF. Il nostro lavoro sottolinea le limitazioni di RLHF e evidenzia l'importanza di un approccio multifaccettato per lo sviluppo di sistemi di intelligenza artificiale più sicuri.
Questo lavoro mira a ridurre la latenza end-to-end nella generazione di modelli linguistici di grandi dimensioni (LLM). Una delle principali cause dell'elevata latenza di generazione è l'approccio di decodifica sequenziale adottato da quasi tutti gli LLM all'avanguardia. In questo lavoro, ispirati dal processo di pensiero e scrittura umano, proponiamo "Skeleton-of-Thought" (SoT), che guida gli LLM a generare prima lo scheletro della risposta, per poi effettuare chiamate API parallele o decodifiche in batch per completare i contenuti di ciascun punto dello scheletro in parallelo. SoT non solo offre un notevole aumento di velocità (fino a 2,39x su 11 diversi LLM), ma può anche potenzialmente migliorare la qualità delle risposte in diverse categorie di domande in termini di diversità e pertinenza. SoT rappresenta un tentativo iniziale di ottimizzazione centrata sui dati per l'efficienza e rivela il potenziale di spingere gli LLM a pensare in modo più umano per migliorare la qualità delle risposte.
La medicina, per sua natura, è un dominio multisfaccettato che richiede la sintesi di informazioni provenienti da varie modalità. I modelli generativi visione-linguaggio (VLMs) in ambito medico rappresentano un primo passo in questa direzione e promettono molteplici applicazioni cliniche entusiasmanti. Tuttavia, i modelli esistenti tipicamente devono essere sottoposti a fine-tuning su dataset di dimensioni considerevoli, il che rappresenta una limitazione significativa poiché in molte applicazioni mediche i dati sono scarsi, rendendo necessari modelli in grado di apprendere da pochi esempi in tempo reale. Qui proponiamo Med-Flamingo, un apprendista multimodale few-shot adattato al dominio medico. Basato su OpenFlamingo-9B, continuiamo il pre-addestramento su dati accoppiati e intercalati di immagini e testi medici provenienti da pubblicazioni e libri di testo. Med-Flamingo sblocca capacità generative few-shot di risposta a domande visive (VQA) in ambito medico, che valutiamo su diversi dataset, inclusa una nuova e impegnativa raccolta di problemi aperti di tipo USMLE. Inoltre, conduciamo la prima valutazione umana per VQA generativa in ambito medico, in cui i medici esaminano i problemi e le generazioni in cieco attraverso un'app interattiva. Med-Flamingo migliora le prestazioni nella VQA generativa medica fino al 20% nelle valutazioni dei clinici e abilita per la prima volta adattamenti few-shot multimodali in ambito medico, come la generazione di razionali. Rilasciamo il nostro modello, il codice e l'app di valutazione su https://github.com/snap-stanford/med-flamingo.
In uno spazio congiunto visione-linguaggio, una caratteristica testuale (ad esempio, da "una foto di un cane") potrebbe rappresentare efficacemente le sue caratteristiche visive rilevanti (ad esempio, da foto di cani). Ispirati da ciò, proponiamo PromptStyler, che simula vari spostamenti di distribuzione nello spazio congiunto sintetizzando stili diversi tramite prompt senza utilizzare alcuna immagine per affrontare la generalizzazione di dominio senza sorgente. Il nostro metodo impara a generare una varietà di caratteristiche stilistiche (da "uno stile S* di un") tramite vettori di parole stilistiche apprendibili per pseudo-parole S*. Per garantire che gli stili appresi non distorcano le informazioni sul contenuto, forziamo le caratteristiche stile-contenuto (da "uno stile S* di un [classe]") a trovarsi vicino alle loro corrispondenti caratteristiche di contenuto (da "[classe]") nello spazio congiunto visione-linguaggio. Dopo aver appreso i vettori di parole stilistiche, addestriamo un classificatore lineare utilizzando le caratteristiche stile-contenuto sintetizzate. PromptStyler raggiunge lo stato dell'arte su PACS, VLCS, OfficeHome e DomainNet, nonostante non richieda alcuna immagine e impieghi solo circa 30 minuti per l'addestramento utilizzando una singola GPU.
Proponiamo una metodologia per inserire watermark nei testi generati da un modello linguistico autoregressivo che siano robusti alle perturbazioni senza alterare la distribuzione del testo fino a un determinato budget massimo di generazione. Generiamo testo con watermark mappando una sequenza di numeri casuali -- che calcoliamo utilizzando una chiave di watermark randomizzata -- a un campione del modello linguistico. Per rilevare il testo con watermark, qualsiasi parte che conosca la chiave può allineare il testo alla sequenza di numeri casuali. Istanziamo la nostra metodologia di watermark con due schemi di campionamento: campionamento per trasformazione inversa e campionamento esponenziale minimo. Applichiamo questi watermark a tre modelli linguistici -- OPT-1.3B, LLaMA-7B e Alpaca-7B -- per validare sperimentalmente la loro potenza statistica e la robustezza a vari attacchi di parafrasi. In particolare, per entrambi i modelli OPT-1.3B e LLaMA-7B, troviamo che possiamo rilevare in modo affidabile il testo con watermark (p ≤ 0.01) a partire da 35 token anche dopo aver corrotto tra il 40-50% dei token tramite modifiche casuali (ad esempio, sostituzioni, inserimenti o eliminazioni). Per il modello Alpaca-7B, conduciamo uno studio di caso sulla fattibilità di applicare watermark alle risposte a istruzioni tipiche dell'utente. A causa della minore entropia delle risposte, il rilevamento è più difficile: circa il 25% delle risposte -- la cui lunghezza mediana è di circa 100 token -- è rilevabile con p ≤ 0.01, e il watermark è anche meno robusto a certi attacchi di parafrasi automatizzati che abbiamo implementato.
Il fine-tuning basato su istruzioni è emerso come un approccio promettente per migliorare i grandi modelli linguistici nel seguire le istruzioni umane. È dimostrato che aumentare la diversità e il numero di istruzioni nei dati di addestramento può migliorare costantemente le prestazioni di generalizzazione, il che facilita un recente sforzo per raccogliere varie istruzioni e integrare i dataset esistenti di fine-tuning delle istruzioni in raccolte più ampie. Tuttavia, diversi utenti hanno modi unici di esprimere le istruzioni, e spesso esistono variazioni tra i diversi dataset negli stili e nei formati delle istruzioni, ovvero inconsistenza di formato. In questo lavoro, studiamo come l'inconsistenza di formato possa influenzare le prestazioni del fine-tuning basato su istruzioni. Proponiamo un framework chiamato "Unified Instruction Tuning" (UIT), che utilizza le API di OpenAI per il trasferimento automatico del formato tra diversi dataset di fine-tuning delle istruzioni. Mostriamo che UIT migliora con successo le prestazioni di generalizzazione su istruzioni non viste, evidenziando l'importanza della coerenza di formato per il fine-tuning delle istruzioni. Per rendere il framework UIT più pratico, proponiamo ulteriormente un nuovo metodo di denoising basato sulla perplessità per ridurre il rumore del trasferimento automatico del formato. Addestriamo anche un modello offline più piccolo che raggiunge una capacità di trasferimento del formato comparabile a quella delle API di OpenAI, per ridurre i costi nella pratica.
Con la popolarità delle rappresentazioni neurali implicite, o campi di radianza neurale (NeRF), emerge un'esigenza pressante di metodi di editing per interagire con i modelli 3D impliciti, utili per attività come la post-elaborazione di scene ricostruite e la creazione di contenuti 3D. Sebbene lavori precedenti abbiano esplorato l'editing di NeRF da diverse prospettive, essi sono limitati in termini di flessibilità, qualità e velocità di editing, non riuscendo a offrire una risposta diretta all'editing e un'anteprima istantanea. La sfida principale è concepire una rappresentazione neurale localmente modificabile che possa riflettere direttamente le istruzioni di editing e aggiornarsi istantaneamente. Per colmare questa lacuna, proponiamo un nuovo metodo e sistema di editing interattivo per rappresentazioni implicite, chiamato Seal-3D, che consente agli utenti di modificare i modelli NeRF a livello di pixel e in modo libero, utilizzando una vasta gamma di backbone simili a NeRF, e di visualizzare istantaneamente gli effetti dell'editing. Per ottenere questi risultati, le sfide vengono affrontate attraverso una funzione proxy proposta da noi, che mappa le istruzioni di editing nello spazio originale dei modelli NeRF, e una strategia di training insegnante-studente con pre-addestramento locale e fine-tuning globale. È stato sviluppato un sistema di editing NeRF per mostrare vari tipi di modifiche. Il nostro sistema può ottenere effetti di editing convincenti con una velocità interattiva di circa 1 secondo.