Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici, come GPT-3.5 e ChatGPT, dimostrano capacità notevoli nel seguire una vasta gamma di istruzioni umane e nell'eseguire un'ampia varietà di compiti. Tuttavia, quando si analizzano questi modelli linguistici utilizzando una serie di compiti di base legati alla comprensione delle tabelle, si osserva che i modelli linguistici attuali sono ancora subottimali in molti compiti relativi alle tabelle, probabilmente perché sono pre-addestrati principalmente su testi naturali unidimensionali, mentre le tabelle relazionali sono oggetti bidimensionali. In questo lavoro, proponiamo un nuovo paradigma di "table-tuning", in cui continuiamo ad addestrare/ottimizzare modelli linguistici come GPT-3.5 e ChatGPT, utilizzando come dati di addestramento una varietà di compiti legati alle tabelle sintetizzati da tabelle reali, con l'obiettivo di migliorare la capacità dei modelli linguistici di comprendere le tabelle e di eseguire compiti tabellari. Dimostriamo che i nostri modelli Table-GPT risultanti mostrano (1) migliori capacità di comprensione delle tabelle, superando costantemente i modelli vanilla GPT-3.5 e ChatGPT in un'ampia gamma di compiti tabellari, inclusi compiti non visti durante l'addestramento, e (2) una forte generalizzabilità, nella loro capacità di rispondere a diverse istruzioni umane per eseguire nuovi compiti tabellari, in modo simile a GPT-3.5 e ChatGPT.
Questo articolo presenta PaLI-3, un modello vision-language (VLM) più piccolo, veloce e potente che si confronta favorevolmente con modelli simili 10 volte più grandi. Come parte del processo per raggiungere questa prestazione elevata, confrontiamo modelli Vision Transformer (ViT) pre-addestrati utilizzando obiettivi di classificazione con quelli pre-addestrati in modo contrastivo (SigLIP). Scopriamo che, pur ottenendo prestazioni leggermente inferiori sui benchmark standard di classificazione delle immagini, PaLI basato su SigLIP mostra prestazioni superiori su vari benchmark multimodali, in particolare sulla localizzazione e sulla comprensione del testo situato visivamente. Scaliamo l'encoder di immagini SigLIP fino a 2 miliardi di parametri e raggiungiamo un nuovo stato dell'arte nel recupero cross-modale multilingue. Speriamo che PaLI-3, con soli 5 miliardi di parametri, ravvivi la ricerca sui componenti fondamentali dei VLM complessi e possa alimentare una nuova generazione di modelli su larga scala.
La quantizzazione è una tecnica indispensabile per il deployment di Large Language Models (LLM) e recentemente ha trovato applicazione anche nel fine-tuning LoRA. In questo lavoro ci concentriamo sullo scenario in cui la quantizzazione e il fine-tuning LoRA vengono applicati congiuntamente su un modello pre-addestrato. In tali casi, è comune osservare un divario consistente nelle prestazioni su task downstream tra l'approccio di fine-tuning completo e quello di quantizzazione più fine-tuning LoRA. In risposta a ciò, proponiamo LoftQ (LoRA-Fine-Tuning-aware Quantization), un nuovo framework di quantizzazione che quantizza simultaneamente un LLM e trova un'inizializzazione a basso rango adeguata per il fine-tuning LoRA. Tale inizializzazione riduce la discrepanza tra il modello quantizzato e quello a precisione completa e migliora significativamente la generalizzazione sui task downstream. Valutiamo il nostro metodo su task di comprensione del linguaggio naturale, risposta a domande, riassunto e generazione del linguaggio naturale. Gli esperimenti dimostrano che il nostro metodo è altamente efficace e supera i metodi di quantizzazione esistenti, specialmente nei regimi impegnativi di precisione mista a 2 bit e 2/4 bit. Rilasceremo il nostro codice.
I grandi modelli linguistici (LLM) hanno dimostrato una capacità crescente di pianificare e eseguire un obiettivo di alto livello in un ambiente informatico in tempo reale (ad esempio MiniWoB++). Per eseguire un compito, i lavori recenti spesso richiedono che un modello apprenda da esempi di tracce del compito attraverso apprendimento supervisionato o prompt con pochi/molti esempi. Senza queste tracce di esempio, rimane una sfida capire come un agente possa apprendere autonomamente e migliorare il suo controllo su un computer, il che limita la capacità di un agente di eseguire un nuovo compito. Affrontiamo questo problema con un agente zero-shot che non richiede tracce esperte fornite. Il nostro agente pianifica azioni eseguibili in un ambiente parzialmente osservato e progredisce iterativamente in un compito identificando e apprendendo dai propri errori attraverso l'autoriflessione e una gestione strutturata del pensiero. Nei compiti semplici di MiniWoB++, dimostriamo che il nostro agente zero-shot spesso supera i recenti SoTA, con un ragionamento più efficiente. Per compiti con maggiore complessità, il nostro agente riflessivo si comporta alla pari con i migliori modelli precedenti, nonostante i lavori precedenti avessero il vantaggio di accedere a tracce esperte o informazioni aggiuntive sullo schermo.
Quando applicati al task di risposta a domande e ad altre attività di generazione di testi, i modelli linguistici (LM) possono essere interrogati in modo generativo (campionando risposte dalla loro distribuzione di output) o discriminativo (utilizzandoli per assegnare un punteggio o classificare un insieme di output candidati). Questi procedimenti a volte producono previsioni molto diverse. Come possiamo conciliare procedure di valutazione mutualmente incompatibili per ottenere previsioni coerenti dai LM? Introduciamo un nuovo procedimento di decodifica per modelli linguistici, privo di addestramento e basato sulla teoria dei giochi. Il nostro approccio inquadra la decodifica dei modelli linguistici come un gioco sequenziale di segnalazione a informazione imperfetta e regolarizzato - che chiamiamo CONSENSUS GAME - in cui un GENERATORE cerca di comunicare un parametro astratto di correttezza utilizzando frasi in linguaggio naturale a un DISCRIMINATORE. Sviluppiamo procedure computazionali per trovare approssimazioni degli equilibri di questo gioco, ottenendo un algoritmo di decodifica che chiamiamo EQUILIBRIUM-RANKING. Applicato a un ampio numero di task (comprensione della lettura, ragionamento di senso comune, risoluzione di problemi matematici e dialogo), EQUILIBRIUM-RANKING migliora in modo costante e talvolta significativo le prestazioni rispetto alle procedure di decodifica esistenti per LM - su più benchmark, osserviamo che l'applicazione di EQUILIBRIUM-RANKING a LLaMA-7B supera le prestazioni dei modelli molto più grandi LLaMA-65B e PaLM-540B. Questi risultati evidenziano il potenziale degli strumenti della teoria dei giochi per affrontare le sfide fondamentali di veridicità e coerenza nei LM.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni notevoli in un'ampia gamma di attività di elaborazione del linguaggio naturale (NLP), spesso eguagliando o addirittura superando i modelli specifici per task all'avanguardia. Questo studio mira a valutare le capacità di ragionamento finanziario degli LLM. Utilizziamo domande simulate degli esami del programma Chartered Financial Analyst (CFA) per condurre una valutazione completa di ChatGPT e GPT-4 nell'analisi finanziaria, considerando scenari Zero-Shot (ZS), Chain-of-Thought (CoT) e Few-Shot (FS). Presentiamo un'analisi approfondita delle prestazioni e dei limiti dei modelli e stimiamo se avrebbero la possibilità di superare gli esami CFA. Infine, delineiamo spunti su potenziali strategie e miglioramenti per aumentare l'applicabilità degli LLM in ambito finanziario. In questa prospettiva, speriamo che questo lavoro apra la strada a futuri studi per continuare a migliorare gli LLM nel ragionamento finanziario attraverso una valutazione rigorosa.
I modelli linguistici di grandi dimensioni (LLM) hanno già dimostrato una notevole abilità nel risolvere compiti di programmazione più semplici, come quelli presenti nei benchmark HumanEval o MBPP. Tuttavia, affrontare problemi di programmazione più complessi e competitivi rimane ancora una sfida significativa per questi modelli, probabilmente a causa della loro tendenza a generare soluzioni come blocchi di codice monolitici, anziché scomporli in sotto-attività e sotto-moduli logici. D'altra parte, i programmatori esperti scrivono istintivamente codice modulare con astrazioni per risolvere compiti complessi, spesso riutilizzando moduli sviluppati in precedenza. Per colmare questa lacuna, proponiamo CodeChain, un nuovo framework per l'inferenza che stimola la generazione di codice modulare attraverso una catena di auto-revisioni, ciascuna guidata da alcuni sotto-moduli rappresentativi generati nelle iterazioni precedenti. Nello specifico, CodeChain prima istruisce l'LLM a generare codice modulare attraverso il prompting a catena di pensiero. Successivamente, applica una catena di auto-revisioni iterando due passaggi: 1) estrazione e clustering dei sotto-moduli generati, selezionando i rappresentanti dei cluster come implementazioni più generiche e riutilizzabili, e 2) arricchimento del prompt originale a catena di pensiero con queste implementazioni di moduli selezionate, istruendo l'LLM a rigenerare nuove soluzioni modulari. Abbiamo osservato che, incoraggiando naturalmente l'LLM a riutilizzare i sotto-moduli sviluppati e verificati in precedenza, CodeChain può migliorare significativamente sia la modularità che la correttezza delle soluzioni generate, ottenendo miglioramenti relativi del 35% su APPS e del 76% su CodeContests per il pass@1. È dimostrato essere efficace sia su LLM di OpenAI che su LLM open-source come WizardCoder. Abbiamo inoltre condotto studi di ablazione completi con diversi metodi di prompting, numero di cluster, dimensioni dei modelli, qualità dei programmi, ecc., per fornire utili approfondimenti che sostengono il successo di CodeChain.
Il parlato e il testo sono due delle principali forme di linguaggio umano. La comunità di ricerca si è concentrata per molti anni sulla mappatura del parlato in testo o viceversa. Tuttavia, nel campo della modellazione del linguaggio, sono stati fatti pochissimi sforzi per modellarli congiuntamente. Alla luce di ciò, esploriamo la modellazione congiunta del linguaggio per unità di parlato e testo. Nello specifico, confrontiamo diversi tokenizer di parlato per trasformare segnali vocali continui in unità discrete e utilizziamo diversi metodi per costruire dati misti di parlato e testo. Introduciamo metriche automatiche per valutare quanto bene il modello di linguaggio congiunto (LM) miscela parlato e testo. Inoltre, ottimizziamo il LM su task di comprensione del linguaggio parlato (SLU) con diverse modalità (parlato o testo) e testiamo le sue prestazioni per valutare l'apprendimento di rappresentazioni condivise da parte del modello. I nostri risultati dimostrano che, miscelando unità di parlato e testo con le nostre tecniche proposte, il LM congiunto migliora rispetto a una baseline basata esclusivamente sul parlato nei task SLU e mostra una trasferibilità cross-modale zero-shot.