HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

8 papers found

ToolLLM: Facilitare ai Modelli Linguistici di Grande Scala il Dominio di Oltre 16000 API del Mondo Reale
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Jul 31

ByYujia Qin, Shihao Liang, Yining Ye, Kunlun Zhu, Lan Yan, Yaxi Lu, Yankai Lin, Xin Cong, Xiangru Tang, Bill Qian, Sihan Zhao, Runchu Tian, Ruobing Xie, Jie Zhou, Mark Gerstein, Dahai Li, Zhiyuan Liu, Maosong Sun

101

Nonostante i progressi dei modelli linguistici di grandi dimensioni (LLM) open-source e delle loro varianti, come LLaMA e Vicuna, essi rimangono significativamente limitati nell'esecuzione di compiti di livello superiore, come seguire le istruzioni umane per utilizzare strumenti esterni (API). Ciò è dovuto al fatto che l'attuale ottimizzazione delle istruzioni si concentra principalmente su compiti linguistici di base piuttosto che sul dominio dell'uso degli strumenti. Questo è in contrasto con i migliori LLM all'avanguardia (SOTA), come ChatGPT, che hanno dimostrato eccellenti capacità di utilizzo degli strumenti ma che, purtroppo, sono closed source. Per facilitare le capacità di utilizzo degli strumenti all'interno degli LLM open-source, introduciamo ToolLLM, un framework generale per l'uso degli strumenti che include la costruzione dei dati, l'addestramento del modello e la valutazione. Presentiamo innanzitutto ToolBench, un dataset di ottimizzazione delle istruzioni per l'uso degli strumenti, creato automaticamente utilizzando ChatGPT. Nello specifico, raccogliamo 16.464 API RESTful del mondo reale, che coprono 49 categorie da RapidAPI Hub, quindi sollecitiamo ChatGPT a generare diverse istruzioni umane che coinvolgono queste API, coprendo sia scenari con un singolo strumento che con più strumenti. Infine, utilizziamo ChatGPT per cercare un percorso di soluzione valido (catena di chiamate API) per ogni istruzione. Per rendere il processo di ricerca più efficiente, sviluppiamo un nuovo albero decisionale basato su ricerca in profondità (DFSDT), che consente agli LLM di valutare più tracce di ragionamento e ampliare lo spazio di ricerca. Dimostriamo che DFSDT migliora significativamente le capacità di pianificazione e ragionamento degli LLM. Per una valutazione efficiente dell'uso degli strumenti, sviluppiamo un valutatore automatico: ToolEval. Ottimizziamo LLaMA su ToolBench e otteniamo ToolLLaMA. Il nostro ToolEval rivela che ToolLLaMA dimostra una notevole capacità di eseguire istruzioni complesse e di generalizzare su API non viste, mostrando prestazioni comparabili a ChatGPT. Per rendere la pipeline più pratica, progettiamo un selettore di API neurale per raccomandare le API appropriate per ogni istruzione, eliminando la necessità di una selezione manuale delle API.

Problemi Aperti e Limitazioni Fondamentali dell'Apprendimento per Rinforzo da Feedback Umano
Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback

Jul 27

ByStephen Casper, Xander Davies, Claudia Shi, Thomas Krendl Gilbert, Jérémy Scheurer, Javier Rando, Rachel Freedman, Tomasz Korbak, David Lindner, Pedro Freire, Tony Wang, Samuel Marks, Charbel-Raphaël Segerie, Micah Carroll, Andi Peng, Phillip Christoffersen, Mehul Damani, Stewart Slocum, Usman Anwar, Anand Siththaranjan, Max Nadeau, Eric J. Michaud, Jacob Pfau, Dmitrii Krasheninnikov, Xin Chen, Lauro Langosco, Peter Hase, Erdem Bıyık, Anca Dragan, David Krueger, Dorsa Sadigh, Dylan Hadfield-Menell

L'apprendimento per rinforzo con feedback umano (RLHF) è una tecnica per addestrare sistemi di intelligenza artificiale ad allinearsi con gli obiettivi umani. RLHF è emerso come il metodo principale utilizzato per affinare i modelli linguistici di grandi dimensioni (LLM) all'avanguardia. Nonostante questa popolarità, c'è stato relativamente poco lavoro pubblico che sistematizza i suoi difetti. In questo articolo, (1) esaminiamo i problemi aperti e le limitazioni fondamentali di RLHF e dei metodi correlati; (2) forniamo una panoramica delle tecniche per comprendere, migliorare e integrare RLHF nella pratica; e (3) proponiamo standard di audit e divulgazione per migliorare il controllo sociale sui sistemi RLHF. Il nostro lavoro sottolinea le limitazioni di RLHF e evidenzia l'importanza di un approccio multifaccettato per lo sviluppo di sistemi di intelligenza artificiale più sicuri.

Skeleton-of-Thought: I Modelli Linguistici di Grandi Dimensioni Possono Eseguire Decodifica Parallela
Skeleton-of-Thought: Large Language Models Can Do Parallel Decoding

Jul 28

ByXuefei Ning, Zinan Lin, Zixuan Zhou, Huazhong Yang, Yu Wang

Questo lavoro mira a ridurre la latenza end-to-end nella generazione di modelli linguistici di grandi dimensioni (LLM). Una delle principali cause dell'elevata latenza di generazione è l'approccio di decodifica sequenziale adottato da quasi tutti gli LLM all'avanguardia. In questo lavoro, ispirati dal processo di pensiero e scrittura umano, proponiamo "Skeleton-of-Thought" (SoT), che guida gli LLM a generare prima lo scheletro della risposta, per poi effettuare chiamate API parallele o decodifiche in batch per completare i contenuti di ciascun punto dello scheletro in parallelo. SoT non solo offre un notevole aumento di velocità (fino a 2,39x su 11 diversi LLM), ma può anche potenzialmente migliorare la qualità delle risposte in diverse categorie di domande in termini di diversità e pertinenza. SoT rappresenta un tentativo iniziale di ottimizzazione centrata sui dati per l'efficienza e rivela il potenziale di spingere gli LLM a pensare in modo più umano per migliorare la qualità delle risposte.

Med-Flamingo: un Modello Multimodale per l'Apprendimento Few-shot in Ambito Medico
Med-Flamingo: a Multimodal Medical Few-shot Learner

Jul 27

ByMichael Moor, Qian Huang, Shirley Wu, Michihiro Yasunaga, Cyril Zakka, Yash Dalmia, Eduardo Pontes Reis, Pranav Rajpurkar, Jure Leskovec

La medicina, per sua natura, è un dominio multisfaccettato che richiede la sintesi di informazioni provenienti da varie modalità. I modelli generativi visione-linguaggio (VLMs) in ambito medico rappresentano un primo passo in questa direzione e promettono molteplici applicazioni cliniche entusiasmanti. Tuttavia, i modelli esistenti tipicamente devono essere sottoposti a fine-tuning su dataset di dimensioni considerevoli, il che rappresenta una limitazione significativa poiché in molte applicazioni mediche i dati sono scarsi, rendendo necessari modelli in grado di apprendere da pochi esempi in tempo reale. Qui proponiamo Med-Flamingo, un apprendista multimodale few-shot adattato al dominio medico. Basato su OpenFlamingo-9B, continuiamo il pre-addestramento su dati accoppiati e intercalati di immagini e testi medici provenienti da pubblicazioni e libri di testo. Med-Flamingo sblocca capacità generative few-shot di risposta a domande visive (VQA) in ambito medico, che valutiamo su diversi dataset, inclusa una nuova e impegnativa raccolta di problemi aperti di tipo USMLE. Inoltre, conduciamo la prima valutazione umana per VQA generativa in ambito medico, in cui i medici esaminano i problemi e le generazioni in cieco attraverso un'app interattiva. Med-Flamingo migliora le prestazioni nella VQA generativa medica fino al 20% nelle valutazioni dei clinici e abilita per la prima volta adattamenti few-shot multimodali in ambito medico, come la generazione di razionali. Rilasciamo il nostro modello, il codice e l'app di valutazione su https://github.com/snap-stanford/med-flamingo.

PromptStyler: Generazione di Stili Guidata da Prompt per la Generalizzazione di Dominio senza Sorgente
PromptStyler: Prompt-driven Style Generation for Source-free Domain Generalization

Jul 27

ByJunhyeong Cho, Gilhyun Nam, Sungyeon Kim, Hunmin Yang, Suha Kwak

In uno spazio congiunto visione-linguaggio, una caratteristica testuale (ad esempio, da "una foto di un cane") potrebbe rappresentare efficacemente le sue caratteristiche visive rilevanti (ad esempio, da foto di cani). Ispirati da ciò, proponiamo PromptStyler, che simula vari spostamenti di distribuzione nello spazio congiunto sintetizzando stili diversi tramite prompt senza utilizzare alcuna immagine per affrontare la generalizzazione di dominio senza sorgente. Il nostro metodo impara a generare una varietà di caratteristiche stilistiche (da "uno stile S* di un") tramite vettori di parole stilistiche apprendibili per pseudo-parole S*. Per garantire che gli stili appresi non distorcano le informazioni sul contenuto, forziamo le caratteristiche stile-contenuto (da "uno stile S* di un [classe]") a trovarsi vicino alle loro corrispondenti caratteristiche di contenuto (da "[classe]") nello spazio congiunto visione-linguaggio. Dopo aver appreso i vettori di parole stilistiche, addestriamo un classificatore lineare utilizzando le caratteristiche stile-contenuto sintetizzate. PromptStyler raggiunge lo stato dell'arte su PACS, VLCS, OfficeHome e DomainNet, nonostante non richieda alcuna immagine e impieghi solo circa 30 minuti per l'addestramento utilizzando una singola GPU.

Marcatori d'acqua robusti e privi di distorsione per modelli linguistici
Robust Distortion-free Watermarks for Language Models

Jul 28

ByRohith Kuditipudi, John Thickstun, Tatsunori Hashimoto, Percy Liang

Proponiamo una metodologia per inserire watermark nei testi generati da un modello linguistico autoregressivo che siano robusti alle perturbazioni senza alterare la distribuzione del testo fino a un determinato budget massimo di generazione. Generiamo testo con watermark mappando una sequenza di numeri casuali -- che calcoliamo utilizzando una chiave di watermark randomizzata -- a un campione del modello linguistico. Per rilevare il testo con watermark, qualsiasi parte che conosca la chiave può allineare il testo alla sequenza di numeri casuali. Istanziamo la nostra metodologia di watermark con due schemi di campionamento: campionamento per trasformazione inversa e campionamento esponenziale minimo. Applichiamo questi watermark a tre modelli linguistici -- OPT-1.3B, LLaMA-7B e Alpaca-7B -- per validare sperimentalmente la loro potenza statistica e la robustezza a vari attacchi di parafrasi. In particolare, per entrambi i modelli OPT-1.3B e LLaMA-7B, troviamo che possiamo rilevare in modo affidabile il testo con watermark (p ≤ 0.01) a partire da 35 token anche dopo aver corrotto tra il 40-50% dei token tramite modifiche casuali (ad esempio, sostituzioni, inserimenti o eliminazioni). Per il modello Alpaca-7B, conduciamo uno studio di caso sulla fattibilità di applicare watermark alle risposte a istruzioni tipiche dell'utente. A causa della minore entropia delle risposte, il rilevamento è più difficile: circa il 25% delle risposte -- la cui lunghezza mediana è di circa 100 token -- è rilevabile con p ≤ 0.01, e il watermark è anche meno robusto a certi attacchi di parafrasi automatizzati che abbiamo implementato.

Esplorare la Coerenza del Formato per il Fine-Tuning delle Istruzioni
Exploring Format Consistency for Instruction Tuning

Jul 28

ByShihao Liang, Kunlun Zhu, Runchu Tian, Yujia Qin, Huadong Wang, Xin Cong, Zhiyuan Liu, Xiaojiang Liu, Maosong Sun

Il fine-tuning basato su istruzioni è emerso come un approccio promettente per migliorare i grandi modelli linguistici nel seguire le istruzioni umane. È dimostrato che aumentare la diversità e il numero di istruzioni nei dati di addestramento può migliorare costantemente le prestazioni di generalizzazione, il che facilita un recente sforzo per raccogliere varie istruzioni e integrare i dataset esistenti di fine-tuning delle istruzioni in raccolte più ampie. Tuttavia, diversi utenti hanno modi unici di esprimere le istruzioni, e spesso esistono variazioni tra i diversi dataset negli stili e nei formati delle istruzioni, ovvero inconsistenza di formato. In questo lavoro, studiamo come l'inconsistenza di formato possa influenzare le prestazioni del fine-tuning basato su istruzioni. Proponiamo un framework chiamato "Unified Instruction Tuning" (UIT), che utilizza le API di OpenAI per il trasferimento automatico del formato tra diversi dataset di fine-tuning delle istruzioni. Mostriamo che UIT migliora con successo le prestazioni di generalizzazione su istruzioni non viste, evidenziando l'importanza della coerenza di formato per il fine-tuning delle istruzioni. Per rendere il framework UIT più pratico, proponiamo ulteriormente un nuovo metodo di denoising basato sulla perplessità per ridurre il rumore del trasferimento automatico del formato. Addestriamo anche un modello offline più piccolo che raggiunge una capacità di trasferimento del formato comparabile a quella delle API di OpenAI, per ridurre i costi nella pratica.

Seal-3D: Modifica Interattiva a Livello di Pixel per Campi di Radianza Neurale
Seal-3D: Interactive Pixel-Level Editing for Neural Radiance Fields

Jul 27

ByXiangyu Wang, Jingsen Zhu, Qi Ye, Yuchi Huo, Yunlong Ran, Zhihua Zhong, Jiming Chen

Con la popolarità delle rappresentazioni neurali implicite, o campi di radianza neurale (NeRF), emerge un'esigenza pressante di metodi di editing per interagire con i modelli 3D impliciti, utili per attività come la post-elaborazione di scene ricostruite e la creazione di contenuti 3D. Sebbene lavori precedenti abbiano esplorato l'editing di NeRF da diverse prospettive, essi sono limitati in termini di flessibilità, qualità e velocità di editing, non riuscendo a offrire una risposta diretta all'editing e un'anteprima istantanea. La sfida principale è concepire una rappresentazione neurale localmente modificabile che possa riflettere direttamente le istruzioni di editing e aggiornarsi istantaneamente. Per colmare questa lacuna, proponiamo un nuovo metodo e sistema di editing interattivo per rappresentazioni implicite, chiamato Seal-3D, che consente agli utenti di modificare i modelli NeRF a livello di pixel e in modo libero, utilizzando una vasta gamma di backbone simili a NeRF, e di visualizzare istantaneamente gli effetti dell'editing. Per ottenere questi risultati, le sfide vengono affrontate attraverso una funzione proxy proposta da noi, che mappa le istruzioni di editing nello spazio originale dei modelli NeRF, e una strategia di training insegnante-studente con pre-addestramento locale e fine-tuning globale. È stato sviluppato un sistema di editing NeRF per mostrare vari tipi di modifiche. Il nostro sistema può ottenere effetti di editing convincenti con una velocità interattiva di circa 1 secondo.

ToolLLM: Facilitare ai Modelli Linguistici di Grande Scala il Dominio di Oltre 16000 API del Mondo Reale
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs

Jul 31

101