Articoli di ricerca IA selezionati quotidianamente con traduzioni
Esiste un numero in rapida crescita di grandi modelli linguistici (LLM) che gli utenti possono interrogare a pagamento. Esaminiamo i costi associati all'interrogazione delle API di LLM popolari, come GPT-4, ChatGPT, J1-Jumbo, e scopriamo che questi modelli presentano strutture di prezzo eterogenee, con tariffe che possono differire di due ordini di grandezza. In particolare, l'uso di LLM su grandi raccolte di query e testi può risultare costoso. Motivati da ciò, delineiamo e discutiamo tre tipi di strategie che gli utenti possono sfruttare per ridurre i costi di inferenza associati all'uso degli LLM: 1) adattamento del prompt, 2) approssimazione dell'LLM e 3) cascata di LLM. Come esempio, proponiamo FrugalGPT, un'istanza semplice ma flessibile di cascata di LLM che apprende quali combinazioni di LLM utilizzare per diverse query al fine di ridurre i costi e migliorare l'accuratezza. I nostri esperimenti dimostrano che FrugalGPT può eguagliare le prestazioni del miglior LLM individuale (ad esempio GPT-4) con una riduzione dei costi fino al 98% o migliorare l'accuratezza rispetto a GPT-4 del 4% mantenendo lo stesso costo. Le idee e i risultati presentati qui gettano le basi per un uso sostenibile ed efficiente degli LLM.
Sebbene i modelli generativi di linguaggio su larga scala (LLM) "ottimizzati per istruzioni" abbiano dimostrato una notevole capacità di generalizzare su nuovi compiti, le fasi di addestramento dipendono fortemente da grandi quantità di dati di istruzioni diversificati e di alta qualità (come nel caso di ChatGPT e GPT-4). Purtroppo, l'acquisizione di dati di alta qualità, specialmente quando si tratta di dati scritti da esseri umani, può presentare sfide significative sia in termini di costi che di accessibilità. Inoltre, preoccupazioni legate alla privacy possono ulteriormente limitare l'accesso a tali dati, rendendo il processo di ottenimento un'impresa complessa e articolata. Di conseguenza, ciò ostacola la generalità dei modelli ottimizzati e può limitarne l'efficacia in determinati contesti. Per affrontare questo problema, il nostro studio introduce un nuovo approccio chiamato Federated Instruction Tuning (FedIT), che sfrutta l'apprendimento federato (FL) come framework di apprendimento per l'ottimizzazione delle istruzioni degli LLM. Questo rappresenta la prima esplorazione dell'ottimizzazione delle istruzioni basata su FL per gli LLM. Ciò è particolarmente importante poiché i dati testuali sono prevalentemente generati dagli utenti finali. Pertanto, è imperativo progettare e adattare approcci FL per sfruttare efficacemente le diverse istruzioni degli utenti memorizzate sui dispositivi locali, preservando al contempo la privacy e garantendo la sicurezza dei dati. Nel presente articolo, attraverso una valutazione automatica ampiamente utilizzata con GPT-4, dimostriamo che, sfruttando gli insiemi eterogenei e diversificati di istruzioni sul lato client con il framework proposto FedIT, abbiamo migliorato le prestazioni degli LLM rispetto all'addestramento centralizzato con solo istruzioni locali limitate. Inoltre, in questo articolo, abbiamo sviluppato un repository GitHub chiamato Shepherd. Questo repository offre un framework di base per esplorare la messa a punto federata degli LLM utilizzando istruzioni eterogenee in diverse categorie.
Presentiamo un framework visivo interattivo denominato InternChat, o iChat in breve. Il framework integra chatbot dotati di capacità di pianificazione e ragionamento, come ChatGPT, con istruzioni non verbali come movimenti di puntamento che consentono agli utenti di manipolare direttamente immagini o video sullo schermo. I movimenti di puntamento (inclusi gesti, cursori, ecc.) possono offrire maggiore flessibilità e precisione nell'esecuzione di task incentrati sulla visione che richiedono un controllo fine, l'editing e la generazione di contenuti visivi. Il nome InternChat sta per interazione, non verbale e chatbot. A differenza dei sistemi interattivi esistenti che si basano esclusivamente sul linguaggio, incorporando istruzioni di puntamento, il proposto iChat migliora significativamente l'efficienza della comunicazione tra utenti e chatbot, nonché l'accuratezza dei chatbot nei task incentrati sulla visione, specialmente in scenari visivi complessi in cui il numero di oggetti è maggiore di 2. Inoltre, in iChat, viene utilizzato un meccanismo di controllo ausiliario per migliorare la capacità di controllo del LLM, e un grande modello visione-linguaggio denominato Husky viene fine-tuned per dialoghi multimodali di alta qualità (impressionando ChatGPT-3.5-turbo con il 93,89% della qualità di GPT-4). Speriamo che questo lavoro possa stimolare nuove idee e direzioni per i futuri sistemi visivi interattivi. Benvenuti a visionare il codice all'indirizzo https://github.com/OpenGVLab/InternChat.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente dimostrato di offrire prestazioni impressionanti in vari compiti di NLP. Per affrontare compiti di ragionamento a più passaggi, il prompting few-shot chain-of-thought (CoT) include alcune dimostrazioni manualmente create di ragionamento passo-passo, che consentono agli LLM di generare esplicitamente passaggi di ragionamento e migliorare la loro accuratezza nei compiti di ragionamento. Per eliminare lo sforzo manuale, Zero-shot-CoT concatena l'enunciato del problema target con "Pensiamo passo dopo passo" come prompt di input per gli LLM. Nonostante il successo di Zero-shot-CoT, esso soffre ancora di tre problematiche: errori di calcolo, errori di passaggi mancanti e errori di incomprensione semantica. Per affrontare gli errori di passaggi mancanti, proponiamo il prompting Plan-and-Solve (PS). Esso consiste di due componenti: prima, ideare un piano per suddividere l'intero compito in sottotask più piccoli, e poi eseguire i sottotask secondo il piano. Per affrontare gli errori di calcolo e migliorare la qualità dei passaggi di ragionamento generati, estendiamo il prompting PS con istruzioni più dettagliate e deriviamo il prompting PS+. Valutiamo la nostra strategia di prompting proposta su dieci dataset relativi a tre problemi di ragionamento. I risultati sperimentali su GPT-3 mostrano che il nostro prompting zero-shot proposto supera costantemente Zero-shot-CoT su tutti i dataset con un ampio margine, è paragonabile o supera il prompting Zero-shot-Program-of-Thought, e ha prestazioni comparabili con il prompting 8-shot CoT sul problema di ragionamento matematico. Il codice è disponibile all'indirizzo https://github.com/AGI-Edgerunners/Plan-and-Solve-Prompting.
I modelli di diffusione, emersi come popolari modelli di generazione di immagini da testo, sono in grado di produrre immagini di alta qualità e ricche di contenuti guidati da prompt testuali. Tuttavia, i modelli esistenti presentano limitazioni nella comprensione semantica e nel ragionamento di buon senso quando i prompt di input sono narrazioni concise, risultando in una generazione di immagini di bassa qualità. Per migliorare le capacità di gestione dei prompt narrativi, proponiamo un approccio di fine-tuning efficiente in termini di parametri, semplice ma efficace, chiamato Semantic Understanding and Reasoning adapter (SUR-adapter), per modelli di diffusione pre-addestrati. Per raggiungere questo obiettivo, abbiamo prima raccolto e annotato un nuovo dataset chiamato SURD, che consiste in più di 57.000 campioni multimodali semanticamente corretti. Ogni campione contiene un prompt narrativo semplice, un prompt complesso basato su parole chiave e un'immagine di alta qualità. Successivamente, allineiamo la rappresentazione semantica dei prompt narrativi a quella dei prompt complessi e trasferiamo la conoscenza dei grandi modelli linguistici (LLM) al nostro SUR-adapter attraverso la distillazione della conoscenza, in modo che possa acquisire potenti capacità di comprensione e ragionamento semantico per costruire una rappresentazione semantica testuale di alta qualità per la generazione di immagini da testo. Abbiamo condotto esperimenti integrando più LLM e popolari modelli di diffusione pre-addestrati per dimostrare l'efficacia del nostro approccio nel consentire ai modelli di diffusione di comprendere e ragionare su un linguaggio naturale conciso senza degradazione della qualità dell'immagine. Il nostro approccio può rendere i modelli di diffusione per la generazione di immagini da testo più facili da usare con una migliore esperienza utente, dimostrando che il nostro metodo ha il potenziale per avanzare ulteriormente lo sviluppo di modelli di generazione di immagini da testo user-friendly, colmando il divario semantico tra prompt narrativi semplici e prompt complessi basati su parole chiave.
Il prompt tuning è uno degli approcci di successo per il tuning efficiente in termini di parametri dei modelli linguistici pre-addestrati. Nonostante sia probabilmente il metodo più efficiente in termini di parametri (i prompt soft ottimizzati costituiscono <0,1% dei parametri totali), in genere ottiene prestazioni inferiori rispetto ad altri metodi di tuning efficienti ed è piuttosto sensibile agli iperparametri. In questo lavoro, introduciamo il Residual Prompt Tuning, un metodo semplice ed efficiente che migliora significativamente le prestazioni e la stabilità del prompt tuning. Proponiamo di riparametrizzare gli embedding dei prompt soft utilizzando una rete poco profonda con una connessione residua. I nostri esperimenti dimostrano che il Residual Prompt Tuning supera significativamente il prompt tuning sul benchmark SuperGLUE. In particolare, il nostro metodo raggiunge un miglioramento di +7 punti rispetto al prompt tuning con T5-Base e consente di ridurre la lunghezza del prompt di 10 volte senza compromettere le prestazioni. Inoltre, mostriamo che il nostro approccio è robusto alla scelta del tasso di apprendimento e dell'inizializzazione del prompt, ed è efficace in contesti few-shot.
Presentiamo un modello di visione e linguaggio denominato MultiModal-GPT in grado di condurre dialoghi multi-turn con gli esseri umani. MultiModal-GPT può seguire varie istruzioni fornite dagli utenti, come generare descrizioni dettagliate, contare il numero di oggetti di interesse e rispondere a domande generali. MultiModal-GPT è stato ottimizzato in modo efficiente a livello di parametri a partire da OpenFlamingo, con l'aggiunta di Low-rank Adapter (LoRA) sia nella parte di cross-attention che in quella di self-attention del modello linguistico. Inizialmente, abbiamo costruito template di istruzioni con dati visivi e linguistici per il fine-tuning multi-modale delle istruzioni, al fine di far comprendere e seguire al modello le indicazioni umane. Abbiamo osservato che la qualità dei dati di addestramento è cruciale per le prestazioni dialogiche, poiché pochi dati contenenti risposte brevi possono portare il modello a rispondere in modo conciso a qualsiasi istruzione. Per migliorare ulteriormente la capacità di MultiModal-GPT di dialogare con gli esseri umani, abbiamo utilizzato dati di istruzioni esclusivamente linguistiche per addestrare congiuntamente il modello. L'addestramento combinato di istruzioni solo linguistiche e visivo-linguistiche con lo stesso template di istruzioni migliora efficacemente le prestazioni dialogiche. Diversi demo mostrano la capacità di MultiModal-GPT di sostenere dialoghi continui con gli esseri umani. Il codice e i demo sono disponibili su https://github.com/open-mmlab/Multimodal-GPT.
I modelli linguistici di grandi dimensioni (LLM) possono ottenere prestazioni elevate in molti compiti producendo un ragionamento passo-passo prima di fornire un output finale, un approccio spesso definito ragionamento a catena di pensiero (CoT). È allettante interpretare queste spiegazioni CoT come il processo utilizzato dal modello per risolvere un compito. Tuttavia, scopriamo che le spiegazioni CoT possono rappresentare in modo sistematico una distorsione della vera ragione alla base della previsione del modello. Dimostriamo che le spiegazioni CoT possono essere fortemente influenzate aggiungendo caratteristiche di distorsione agli input del modello — ad esempio, riordinando le opzioni a scelta multipla in un prompt few-shot per far sì che la risposta sia sempre "(A)" — aspetti che i modelli non menzionano sistematicamente nelle loro spiegazioni. Quando orientiamo i modelli verso risposte errate, essi generano frequentemente spiegazioni CoT che supportano tali risposte. Ciò causa un calo dell'accuratezza fino al 36% su una suite di 13 compiti tratti da BIG-Bench Hard, testando con GPT-3.5 di OpenAI e Claude 1.0 di Anthropic. In un compito legato ai pregiudizi sociali, le spiegazioni del modello giustificano risposte in linea con stereotipi senza menzionare l'influenza di questi pregiudizi. I nostri risultati indicano che le spiegazioni CoT possono essere plausibili ma fuorvianti, il che rischia di aumentare la nostra fiducia negli LLM senza garantire la loro sicurezza. Il CoT è promettente per l'interpretabilità, ma i nostri risultati evidenziano la necessità di sforzi mirati per valutare e migliorare la fedeltà delle spiegazioni.
ELECTRA, il framework di pre-addestramento generatore-discriminatore, ha dimostrato una notevole capacità di costruzione semantica in vari task downstream. Nonostante le prestazioni convincenti, ELECTRA deve ancora affrontare le sfide dell'addestramento monotono e dell'interazione carente. Un generatore basato esclusivamente sul masked language modeling (MLM) porta a un apprendimento distorto e a uno squilibrio delle etichette per il discriminatore, riducendo l'efficienza dell'apprendimento; l'assenza di un ciclo di feedback esplicito dal discriminatore al generatore crea un divario tra questi due componenti, sottoutilizzando l'apprendimento progressivo. In questo studio, viene proposto un metodo di apprendimento progressivo multi-prospettico (MCL) per ottenere molteplici gradi e angolazioni per un pre-addestramento efficiente dal punto di vista dei campioni, e per sfruttare appieno la relazione tra generatore e discriminatore. Nello specifico, vengono progettati tre corsi di auto-supervisione per alleviare i difetti intrinseci del MLM e bilanciare le etichette in modo multi-prospettico. Inoltre, vengono proposti due corsi di auto-correzione per colmare il divario tra i due encoder creando un "quaderno di correzione" per una supervisione secondaria. Inoltre, viene condotto un esperimento di "course soups" per risolvere il problema dinamico del "tiro alla fune" dell'MCL, evolvendo un modello pre-addestrato più robusto. I risultati sperimentali mostrano che il nostro metodo migliora significativamente le prestazioni medie di ELECTRA rispettivamente di 2,8% e 3,2 punti percentuali assoluti sui benchmark GLUE e SQuAD 2.0, e supera i recenti modelli avanzati in stile ELECTRA nelle stesse condizioni. Il modello MCL pre-addestrato è disponibile all'indirizzo https://huggingface.co/McmanusChen/MCL-base.
I metodi esistenti di Neural Radiance Fields (NeRF) soffrono della presenza di oggetti riflettenti, spesso risultando in rendering sfocati o distorti. Invece di calcolare un singolo campo di radianza, proponiamo un multi-space neural radiance field (MS-NeRF) che rappresenta la scena utilizzando un gruppo di campi di feature in sottospazi paralleli, il che porta a una migliore comprensione da parte della rete neurale della presenza di oggetti riflettenti e rifrangenti. Il nostro schema multi-space funziona come un miglioramento dei metodi NeRF esistenti, con solo piccoli sovraccarichi computazionali necessari per l'addestramento e l'inferenza degli output degli spazi aggiuntivi. Dimostriamo la superiorità e la compatibilità del nostro approccio utilizzando tre modelli rappresentativi basati su NeRF, ovvero NeRF, Mip-NeRF e Mip-NeRF 360. I confronti vengono effettuati su un dataset di nuova costruzione composto da 25 scene sintetiche e 7 scene reali catturate con riflessioni e rifrazioni complesse, tutte con punti di vista a 360 gradi. Esperimenti estensivi mostrano che il nostro approccio supera significativamente i metodi NeRF a spazio singolo esistenti per il rendering di scene di alta qualità che riguardano percorsi luminosi complessi attraverso oggetti simili a specchi. Il nostro codice e dataset saranno pubblicamente disponibili all'indirizzo https://zx-yin.github.io/msnerf.
Presentiamo AvatarReX, un nuovo metodo per apprendere avatar full-body basati su NeRF a partire da dati video. L'avatar appreso non solo offre un controllo espressivo congiunto di corpo, mani e volto, ma supporta anche animazione e rendering in tempo reale. A tal fine, proponiamo una rappresentazione compositiva dell'avatar, in cui corpo, mani e volto sono modellati separatamente in modo da sfruttare correttamente i prior strutturali derivati da modelli mesh parametrici senza compromettere la flessibilità della rappresentazione. Inoltre, separiamo la geometria e l'aspetto per ciascuna parte. Con queste scelte tecniche, proponiamo una pipeline di rendering differito dedicata, che può essere eseguita a frame rate real-time per sintetizzare immagini free-view di alta qualità. La separazione tra geometria e aspetto ci permette inoltre di progettare una strategia di addestramento a due passi che combina rendering volumetrico e rendering superficiale per il training della rete. In questo modo, è possibile applicare una supervisione a livello di patch per forzare la rete ad apprendere dettagli nitidi dell'aspetto sulla base della stima geometrica. Nel complesso, il nostro metodo consente la costruzione automatica di avatar full-body espressivi con capacità di rendering in tempo reale, e può generare immagini foto-realistiche con dettagli dinamici per nuovi movimenti del corpo ed espressioni facciali.
I modelli Transformer sono fondamentali per l'elaborazione del linguaggio naturale (NLP) e la visione artificiale. Nonostante i numerosi lavori recenti dedicati a ridurre il costo quadratico di tali modelli (in funzione della lunghezza della sequenza n), gestire sequenze ultra lunghe in modo efficiente (ad esempio, con più di 16K token) rimane una sfida. Applicazioni come rispondere a domande basate su un intero libro o riassumere un articolo scientifico sono inefficienti o impraticabili. In questo articolo, proponiamo di ridurre significativamente la dipendenza della complessità di un modello Transformer da n, comprimendo l'input in una rappresentazione la cui dimensione r è indipendente da n a ogni livello. Nello specifico, sfruttando il fatto che in molti compiti solo un piccolo sottoinsieme di token speciali (che chiamiamo VIP-token) è più rilevante per la previsione finale, proponiamo uno schema di compressione centrato sui VIP-token (Vcc) che comprime selettivamente la sequenza di input in base al loro impatto nell'approssimare la rappresentazione di questi VIP-token. Rispetto ai baseline competitivi, l'algoritmo proposto non solo è efficiente (raggiungendo un miglioramento di efficienza superiore a 3 volte rispetto ai baseline su lunghezze di 4K e 16K), ma ottiene anche prestazioni competitive o migliori su un gran numero di compiti. Inoltre, dimostriamo che il nostro algoritmo può essere scalato a 128K token (o più) offrendo costantemente un miglioramento dell'accuratezza.