HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

8 papers found

Table-GPT: GPT ottimizzato per tabelle per una varietà di attività tabellari
Table-GPT: Table-tuned GPT for Diverse Table Tasks

Oct 13

ByPeng Li, Yeye He, Dror Yashar, Weiwei Cui, Song Ge, Haidong Zhang, Danielle Rifinski Fainman, Dongmei Zhang, Surajit Chaudhuri

I modelli linguistici, come GPT-3.5 e ChatGPT, dimostrano capacità notevoli nel seguire una vasta gamma di istruzioni umane e nell'eseguire un'ampia varietà di compiti. Tuttavia, quando si analizzano questi modelli linguistici utilizzando una serie di compiti di base legati alla comprensione delle tabelle, si osserva che i modelli linguistici attuali sono ancora subottimali in molti compiti relativi alle tabelle, probabilmente perché sono pre-addestrati principalmente su testi naturali unidimensionali, mentre le tabelle relazionali sono oggetti bidimensionali. In questo lavoro, proponiamo un nuovo paradigma di "table-tuning", in cui continuiamo ad addestrare/ottimizzare modelli linguistici come GPT-3.5 e ChatGPT, utilizzando come dati di addestramento una varietà di compiti legati alle tabelle sintetizzati da tabelle reali, con l'obiettivo di migliorare la capacità dei modelli linguistici di comprendere le tabelle e di eseguire compiti tabellari. Dimostriamo che i nostri modelli Table-GPT risultanti mostrano (1) migliori capacità di comprensione delle tabelle, superando costantemente i modelli vanilla GPT-3.5 e ChatGPT in un'ampia gamma di compiti tabellari, inclusi compiti non visti durante l'addestramento, e (2) una forte generalizzabilità, nella loro capacità di rispondere a diverse istruzioni umane per eseguire nuovi compiti tabellari, in modo simile a GPT-3.5 e ChatGPT.

PaLI-3 Modelli Visione-Linguaggio: Più Piccoli, Più Veloci, Più Potenti
PaLI-3 Vision Language Models: Smaller, Faster, Stronger

Oct 13

ByXi Chen, Xiao Wang, Lucas Beyer, Alexander Kolesnikov, Jialin Wu, Paul Voigtlaender, Basil Mustafa, Sebastian Goodman, Ibrahim Alabdulmohsin, Piotr Padlewski, Daniel Salz, Xi Xiong, Daniel Vlasic, Filip Pavetic, Keran Rong, Tianli Yu, Daniel Keysers, Xiaohua Zhai, Radu Soricut

Questo articolo presenta PaLI-3, un modello vision-language (VLM) più piccolo, veloce e potente che si confronta favorevolmente con modelli simili 10 volte più grandi. Come parte del processo per raggiungere questa prestazione elevata, confrontiamo modelli Vision Transformer (ViT) pre-addestrati utilizzando obiettivi di classificazione con quelli pre-addestrati in modo contrastivo (SigLIP). Scopriamo che, pur ottenendo prestazioni leggermente inferiori sui benchmark standard di classificazione delle immagini, PaLI basato su SigLIP mostra prestazioni superiori su vari benchmark multimodali, in particolare sulla localizzazione e sulla comprensione del testo situato visivamente. Scaliamo l'encoder di immagini SigLIP fino a 2 miliardi di parametri e raggiungiamo un nuovo stato dell'arte nel recupero cross-modale multilingue. Speriamo che PaLI-3, con soli 5 miliardi di parametri, ravvivi la ricerca sui componenti fondamentali dei VLM complessi e possa alimentare una nuova generazione di modelli su larga scala.

LoftQ: Quantizzazione Consapevole del Fine-Tuning LoRA per Modelli Linguistici di Grande Dimensione
LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models

Oct 12

ByYixiao Li, Yifan Yu, Chen Liang, Pengcheng He, Nikos Karampatziakis, Weizhu Chen, Tuo Zhao

La quantizzazione è una tecnica indispensabile per il deployment di Large Language Models (LLM) e recentemente ha trovato applicazione anche nel fine-tuning LoRA. In questo lavoro ci concentriamo sullo scenario in cui la quantizzazione e il fine-tuning LoRA vengono applicati congiuntamente su un modello pre-addestrato. In tali casi, è comune osservare un divario consistente nelle prestazioni su task downstream tra l'approccio di fine-tuning completo e quello di quantizzazione più fine-tuning LoRA. In risposta a ciò, proponiamo LoftQ (LoRA-Fine-Tuning-aware Quantization), un nuovo framework di quantizzazione che quantizza simultaneamente un LLM e trova un'inizializzazione a basso rango adeguata per il fine-tuning LoRA. Tale inizializzazione riduce la discrepanza tra il modello quantizzato e quello a precisione completa e migliora significativamente la generalizzazione sui task downstream. Valutiamo il nostro metodo su task di comprensione del linguaggio naturale, risposta a domande, riassunto e generazione del linguaggio naturale. Gli esperimenti dimostrano che il nostro metodo è altamente efficace e supera i metodi di quantizzazione esistenti, specialmente nei regimi impegnativi di precisione mista a 2 bit e 2/4 bit. Rilasceremo il nostro codice.

Un agente linguistico Zero-Shot per il controllo del computer con riflessione strutturata
A Zero-Shot Language Agent for Computer Control with Structured Reflection

Oct 12

ByTao Li, Gang Li, Zhiwei Deng, Bryan Wang, Yang Li

I grandi modelli linguistici (LLM) hanno dimostrato una capacità crescente di pianificare e eseguire un obiettivo di alto livello in un ambiente informatico in tempo reale (ad esempio MiniWoB++). Per eseguire un compito, i lavori recenti spesso richiedono che un modello apprenda da esempi di tracce del compito attraverso apprendimento supervisionato o prompt con pochi/molti esempi. Senza queste tracce di esempio, rimane una sfida capire come un agente possa apprendere autonomamente e migliorare il suo controllo su un computer, il che limita la capacità di un agente di eseguire un nuovo compito. Affrontiamo questo problema con un agente zero-shot che non richiede tracce esperte fornite. Il nostro agente pianifica azioni eseguibili in un ambiente parzialmente osservato e progredisce iterativamente in un compito identificando e apprendendo dai propri errori attraverso l'autoriflessione e una gestione strutturata del pensiero. Nei compiti semplici di MiniWoB++, dimostriamo che il nostro agente zero-shot spesso supera i recenti SoTA, con un ragionamento più efficiente. Per compiti con maggiore complessità, il nostro agente riflessivo si comporta alla pari con i migliori modelli precedenti, nonostante i lavori precedenti avessero il vantaggio di accedere a tracce esperte o informazioni aggiuntive sullo schermo.

Il Gioco del Consenso: Generazione di Modelli Linguistici tramite Ricerca di Equilibrio
The Consensus Game: Language Model Generation via Equilibrium Search

Oct 13

ByAthul Paul Jacob, Yikang Shen, Gabriele Farina, Jacob Andreas

Quando applicati al task di risposta a domande e ad altre attività di generazione di testi, i modelli linguistici (LM) possono essere interrogati in modo generativo (campionando risposte dalla loro distribuzione di output) o discriminativo (utilizzandoli per assegnare un punteggio o classificare un insieme di output candidati). Questi procedimenti a volte producono previsioni molto diverse. Come possiamo conciliare procedure di valutazione mutualmente incompatibili per ottenere previsioni coerenti dai LM? Introduciamo un nuovo procedimento di decodifica per modelli linguistici, privo di addestramento e basato sulla teoria dei giochi. Il nostro approccio inquadra la decodifica dei modelli linguistici come un gioco sequenziale di segnalazione a informazione imperfetta e regolarizzato - che chiamiamo CONSENSUS GAME - in cui un GENERATORE cerca di comunicare un parametro astratto di correttezza utilizzando frasi in linguaggio naturale a un DISCRIMINATORE. Sviluppiamo procedure computazionali per trovare approssimazioni degli equilibri di questo gioco, ottenendo un algoritmo di decodifica che chiamiamo EQUILIBRIUM-RANKING. Applicato a un ampio numero di task (comprensione della lettura, ragionamento di senso comune, risoluzione di problemi matematici e dialogo), EQUILIBRIUM-RANKING migliora in modo costante e talvolta significativo le prestazioni rispetto alle procedure di decodifica esistenti per LM - su più benchmark, osserviamo che l'applicazione di EQUILIBRIUM-RANKING a LLaMA-7B supera le prestazioni dei modelli molto più grandi LLaMA-65B e PaLM-540B. Questi risultati evidenziano il potenziale degli strumenti della teoria dei giochi per affrontare le sfide fondamentali di veridicità e coerenza nei LM.

I modelli GPT possono essere analisti finanziari? Una valutazione di ChatGPT e GPT-4 su esami CFA simulati
Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4 on mock CFA Exams

Oct 12

ByEthan Callanan, Amarachi Mbakwe, Antony Papadimitriou, Yulong Pei, Mathieu Sibue, Xiaodan Zhu, Zhiqiang Ma, Xiaomo Liu, Sameena Shah

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni notevoli in un'ampia gamma di attività di elaborazione del linguaggio naturale (NLP), spesso eguagliando o addirittura superando i modelli specifici per task all'avanguardia. Questo studio mira a valutare le capacità di ragionamento finanziario degli LLM. Utilizziamo domande simulate degli esami del programma Chartered Financial Analyst (CFA) per condurre una valutazione completa di ChatGPT e GPT-4 nell'analisi finanziaria, considerando scenari Zero-Shot (ZS), Chain-of-Thought (CoT) e Few-Shot (FS). Presentiamo un'analisi approfondita delle prestazioni e dei limiti dei modelli e stimiamo se avrebbero la possibilità di superare gli esami CFA. Infine, delineiamo spunti su potenziali strategie e miglioramenti per aumentare l'applicabilità degli LLM in ambito finanziario. In questa prospettiva, speriamo che questo lavoro apra la strada a futuri studi per continuare a migliorare gli LLM nel ragionamento finanziario attraverso una valutazione rigorosa.

CodeChain: Verso una Generazione Modulare di Codice Attraverso una Catena di Auto-revisioni con Sottomoduli Rappresentativi
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

Oct 13

ByHung Le, Hailin Chen, Amrita Saha, Akash Gokul, Doyen Sahoo, Shafiq Joty

I modelli linguistici di grandi dimensioni (LLM) hanno già dimostrato una notevole abilità nel risolvere compiti di programmazione più semplici, come quelli presenti nei benchmark HumanEval o MBPP. Tuttavia, affrontare problemi di programmazione più complessi e competitivi rimane ancora una sfida significativa per questi modelli, probabilmente a causa della loro tendenza a generare soluzioni come blocchi di codice monolitici, anziché scomporli in sotto-attività e sotto-moduli logici. D'altra parte, i programmatori esperti scrivono istintivamente codice modulare con astrazioni per risolvere compiti complessi, spesso riutilizzando moduli sviluppati in precedenza. Per colmare questa lacuna, proponiamo CodeChain, un nuovo framework per l'inferenza che stimola la generazione di codice modulare attraverso una catena di auto-revisioni, ciascuna guidata da alcuni sotto-moduli rappresentativi generati nelle iterazioni precedenti. Nello specifico, CodeChain prima istruisce l'LLM a generare codice modulare attraverso il prompting a catena di pensiero. Successivamente, applica una catena di auto-revisioni iterando due passaggi: 1) estrazione e clustering dei sotto-moduli generati, selezionando i rappresentanti dei cluster come implementazioni più generiche e riutilizzabili, e 2) arricchimento del prompt originale a catena di pensiero con queste implementazioni di moduli selezionate, istruendo l'LLM a rigenerare nuove soluzioni modulari. Abbiamo osservato che, incoraggiando naturalmente l'LLM a riutilizzare i sotto-moduli sviluppati e verificati in precedenza, CodeChain può migliorare significativamente sia la modularità che la correttezza delle soluzioni generate, ottenendo miglioramenti relativi del 35% su APPS e del 76% su CodeContests per il pass@1. È dimostrato essere efficace sia su LLM di OpenAI che su LLM open-source come WizardCoder. Abbiamo inoltre condotto studi di ablazione completi con diversi metodi di prompting, numero di cluster, dimensioni dei modelli, qualità dei programmi, ecc., per fornire utili approfondimenti che sostengono il successo di CodeChain.

Verso un Modellamento Linguistico Congiunto per Unità Fonetiche e Testo
Toward Joint Language Modeling for Speech Units and Text

Oct 12

ByJu-Chieh Chou, Chung-Ming Chien, Wei-Ning Hsu, Karen Livescu, Arun Babu, Alexis Conneau, Alexei Baevski, Michael Auli

Il parlato e il testo sono due delle principali forme di linguaggio umano. La comunità di ricerca si è concentrata per molti anni sulla mappatura del parlato in testo o viceversa. Tuttavia, nel campo della modellazione del linguaggio, sono stati fatti pochissimi sforzi per modellarli congiuntamente. Alla luce di ciò, esploriamo la modellazione congiunta del linguaggio per unità di parlato e testo. Nello specifico, confrontiamo diversi tokenizer di parlato per trasformare segnali vocali continui in unità discrete e utilizziamo diversi metodi per costruire dati misti di parlato e testo. Introduciamo metriche automatiche per valutare quanto bene il modello di linguaggio congiunto (LM) miscela parlato e testo. Inoltre, ottimizziamo il LM su task di comprensione del linguaggio parlato (SLU) con diverse modalità (parlato o testo) e testiamo le sue prestazioni per valutare l'apprendimento di rappresentazioni condivise da parte del modello. I nostri risultati dimostrano che, miscelando unità di parlato e testo con le nostre tecniche proposte, il LM congiunto migliora rispetto a una baseline basata esclusivamente sul parlato nei task SLU e mostra una trasferibilità cross-modale zero-shot.

CodeChain: Verso una Generazione Modulare di Codice Attraverso una Catena di Auto-revisioni con Sottomoduli Rappresentativi
CodeChain: Towards Modular Code Generation Through Chain of Self-revisions with Representative Sub-modules

Oct 13

ByHung Le, Hailin Chen, Amrita Saha, Akash Gokul, Doyen Sahoo, Shafiq Joty