Articoli di ricerca IA selezionati quotidianamente con traduzioni
Le ricerche recenti si sono concentrate sul potenziamento delle capacità dei modelli più piccoli attraverso l'apprendimento per imitazione, basandosi sugli output generati dai grandi modelli di base (LFMs). Diversi fattori influenzano la qualità di questi modelli, tra cui segnali di imitazione limitati provenienti da output superficiali degli LFMs; dati di addestramento omogenei e su piccola scala; e, soprattutto, una mancanza di valutazione rigorosa che porta a sovrastimare le capacità del modello piccolo, poiché tende a imparare a imitare lo stile, ma non il processo di ragionamento degli LFMs. Per affrontare queste sfide, abbiamo sviluppato Orca (stiamo lavorando con il nostro team legale per rilasciare pubblicamente un diff dei pesi del modello in conformità con la politica di rilascio di LLaMA, che sarà pubblicato su https://aka.ms/orca-lm), un modello da 13 miliardi di parametri che impara a imitare il processo di ragionamento degli LFMs. Orca apprende da segnali ricchi provenienti da GPT-4, inclusi tracciati di spiegazione; processi di pensiero passo-passo; e altre istruzioni complesse, guidato dall'assistenza di ChatGPT. Per promuovere questo apprendimento progressivo, attingiamo a dati di imitazione su larga scala e diversificati con campionamento e selezione accurati. Orca supera i modelli convenzionali all'avanguardia sintonizzati su istruzioni, come Vicuna-13B, di oltre il 100% in benchmark complessi di ragionamento zero-shot come Big-Bench Hard (BBH) e del 42% su AGIEval. Inoltre, Orca raggiunge la parità con ChatGPT nel benchmark BBH e mostra prestazioni competitive (4 punti di differenza con messaggio di sistema ottimizzato) in esami professionali e accademici come SAT, LSAT, GRE e GMAT, sia in contesti zero-shot senza CoT; pur rimanendo indietro rispetto a GPT-4. La nostra ricerca indica che apprendere da spiegazioni passo-passo, siano esse generate da esseri umani o da modelli di IA più avanzati, è una direzione promettente per migliorare le capacità e le competenze dei modelli.
I grandi modelli linguistici vengono comunemente addestrati su una miscela di dati web filtrati e corpora di alta qualità curati, come conversazioni sui social media, libri o articoli tecnici. Si ritiene che questo processo di selezione sia necessario per produrre modelli performanti con ampie capacità di generalizzazione zero-shot. Tuttavia, considerando modelli più grandi che richiedono pre-addestramento su trilioni di token, non è chiaro quanto sia scalabile la selezione e se esauriremo presto i dati unici di alta qualità. Contrariamente a precedenti convinzioni, dimostriamo che dati web adeguatamente filtrati e deduplicati possono da soli portare a modelli potenti; superando significativamente anche i modelli all'avanguardia addestrati su The Pile. Nonostante un'estesa filtrazione, i dati di alta qualità che estraiamo dal web sono ancora abbondanti, e siamo in grado di ottenere cinque trilioni di token da CommonCrawl. Rilasciamo pubblicamente un estratto di 600 miliardi di token dal nostro dataset RefinedWeb, e modelli linguistici da 1,3/7,5 miliardi di parametri addestrati su di esso.
Il recente Segment Anything Model (SAM) rappresenta un grande balzo in avanti nel ridimensionamento dei modelli di segmentazione, consentendo potenti capacità zero-shot e un prompting flessibile. Nonostante sia stato addestrato con 1,1 miliardi di maschere, la qualità della previsione delle maschere di SAM risulta carente in molti casi, specialmente quando si tratta di oggetti con strutture intricate. Proponiamo HQ-SAM, dotando SAM della capacità di segmentare con precisione qualsiasi oggetto, mantenendo il design promptable originale di SAM, l'efficienza e la generalizzabilità zero-shot. Il nostro attento design riutilizza e preserva i pesi del modello pre-addestrato di SAM, introducendo solo parametri e calcoli aggiuntivi minimi. Progettiamo un High-Quality Output Token apprendibile, che viene iniettato nel decoder di maschere di SAM ed è responsabile della previsione della maschera ad alta qualità. Invece di applicarlo solo sulle caratteristiche del decoder di maschere, le fondiamo prima con le caratteristiche iniziali e finali di ViT per migliorare i dettagli della maschera. Per addestrare i parametri apprendibili introdotti, componiamo un dataset di 44K maschere ad alta granularità provenienti da diverse fonti. HQ-SAM viene addestrato solo sul dataset introdotto di 44k maschere, che richiede solo 4 ore su 8 GPU. Dimostriamo l'efficacia di HQ-SAM in una suite di 9 diversi dataset di segmentazione attraverso diverse attività downstream, dove 7 di essi vengono valutati con un protocollo di trasferimento zero-shot. Il nostro codice e i modelli saranno rilasciati su https://github.com/SysCV/SAM-HQ.
Presentiamo LLM-Blender, un framework di ensembling progettato per ottenere prestazioni costantemente superiori sfruttando i punti di forza diversificati di molteplici modelli linguistici di grandi dimensioni (LLM) open-source. Il nostro framework è composto da due moduli: PairRanker e GenFuser, che affrontano l'osservazione che i migliori LLM per diversi esempi possono variare significativamente. PairRanker utilizza un metodo specializzato di confronto a coppie per distinguere le sottili differenze tra i candidati in output. Codifica congiuntamente il testo di input e una coppia di candidati, utilizzando encoder a cross-attention per determinare quello superiore. I nostri risultati dimostrano che PairRanker mostra la più alta correlazione con il ranking basato su ChatGPT. Successivamente, GenFuser mira a fondere i candidati con il punteggio più alto, generando un output migliorato capitalizzando i loro punti di forza e mitigando le loro debolezze. Per facilitare la valutazione su larga scala, introduciamo un dataset di benchmark, MixInstruct, che è una miscela di più dataset di istruzioni con confronti a coppie oracolari. Il nostro LLM-Blender supera significativamente i singoli LLM e i metodi di baseline su varie metriche, stabilendo un divario prestazionale sostanziale.
I grandi modelli linguistici (LLM) sono seguaci di istruzioni, ma può essere impegnativo trovare la migliore istruzione per diverse situazioni, specialmente per LLM black-box su cui la retropropagazione è vietata. Invece di ottimizzare direttamente l'istruzione discreta, ottimizziamo un prompt soft a bassa dimensione applicato a un LLM open-source per generare l'istruzione per il LLM black-box. In ogni iterazione del metodo proposto, che chiamiamo InstructZero, un prompt soft viene convertito in un'istruzione utilizzando l'LLM open-source, che viene poi inviato al LLM black-box per una valutazione zero-shot, e le prestazioni vengono inviate all'ottimizzazione bayesiana per produrre nuovi prompt soft che migliorano le prestazioni zero-shot. Valutiamo InstructZero su diverse combinazioni di LLM open-source e API, tra cui Vicuna e ChatGPT. I nostri risultati mostrano che InstructZero supera i metodi auto-istruzione SOTA in una varietà di task downstream. Il nostro codice e i dati sono disponibili pubblicamente all'indirizzo https://github.com/Lichang-Chen/InstructZero.
I metodi di addestramento con privacy differenziale (DP) come DP-SGD possono proteggere i dati sensibili di training garantendo che i modelli di ML non rivelino informazioni private. Un approccio alternativo, oggetto di studio di questo articolo, consiste nell'utilizzare un dataset sensibile per generare un nuovo dataset sintetico che sia differenzialmente privato rispetto ai dati originali. Questa soluzione presenta diversi vantaggi: i dati sintetici possono essere riutilizzati per altre attività (inclusa l'ottimizzazione degli iperparametri), conservati indefinitamente o condivisi con terze parti senza compromettere la privacy. Tuttavia, ottenere dati DP è molto più complesso che introdurre la DP durante l'addestramento. Per renderlo fattibile nel caso di dati testuali, lavori recenti hanno sfruttato dati pubblici partendo da un modello generativo di linguaggio pre-addestrato e affinandolo privatamente su dati sensibili. Questo modello può essere utilizzato per campionare un dataset sintetico DP. Sebbene questa strategia appaia semplice, la sua implementazione si è rivelata problematica. Approcci precedenti mostrano una significativa perdita di prestazioni o, come dimostriamo, presentano errori di progettazione critici. In questo articolo dimostriamo che un obiettivo di addestramento appropriato, unito alla regolazione di un numero ridotto di parametri, produce dati sintetici DP di eccellente qualità. Il nostro approccio è competitivo con l'addestramento DP diretto di classificatori downstream in termini di prestazioni sui task downstream. Dimostriamo inoltre che i nostri dati sintetici DP non sono solo utili per l'addestramento di classificatori downstream, ma anche per ottimizzare tali modelli.
I modelli linguistici (LM) spesso manifestano comportamenti indesiderati nella generazione di testi, inclusa la produzione di output falsi, tossici o irrilevanti. Il reinforcement learning da feedback umano (RLHF) – in cui i giudizi di preferenza umana sugli output dei LM vengono trasformati in un segnale di apprendimento – ha recentemente dimostrato di essere promettente nel risolvere questi problemi. Tuttavia, tale feedback olistico fornisce informazioni limitate sugli output di testo lunghi; non indica quali aspetti degli output hanno influenzato la preferenza dell’utente; ad esempio, quali parti contengono quale tipo di errori. In questo articolo, utilizziamo feedback umano granulare (ad esempio, quale frase è falsa, quale sotto-frase è irrilevante) come segnale di addestramento esplicito. Introduciamo Fine-Grained RLHF, un framework che consente l’addestramento e l’apprendimento da funzioni di ricompensa che sono granulari in due aspetti: (1) densità, fornendo una ricompensa dopo ogni segmento generato (ad esempio, una frase); e (2) incorporando modelli di ricompensa multipli associati a diversi tipi di feedback (ad esempio, inesattezza fattuale, irrilevanza e incompletezza informativa). Condividiamo esperimenti su detossificazione e risposte a domande di lunga forma per illustrare come l’apprendimento con tali funzioni di ricompensa porti a prestazioni migliorate, supportate sia da valutazioni automatiche che umane. Inoltre, mostriamo che i comportamenti dei LM possono essere personalizzati utilizzando diverse combinazioni di modelli di ricompensa granulari. Rilasciamo tutti i dati, i feedback umani raccolti e i codici su https://FineGrainedRLHF.github.io.
La metodologia standard di valutazione dei grandi modelli linguistici (LLM) basata su coppie statiche di input e output è insufficiente per lo sviluppo di assistenti: questo tipo di valutazioni non tiene conto dell'elemento interattivo essenziale nel loro utilizzo, limitando così la nostra comprensione delle capacità dei modelli linguistici. Introduciamo CheckMate, una piattaforma prototipo adattabile per l'interazione e la valutazione degli LLM da parte degli esseri umani. Abbiamo condotto uno studio con CheckMate per valutare tre modelli linguistici (InstructGPT, ChatGPT e GPT-4) come assistenti nella dimostrazione di matematica a livello universitario, con un gruppo misto di partecipanti che spaziava dagli studenti universitari ai professori di matematica. Rilasciamo il dataset risultante di interazioni e valutazioni, MathConverse. Analizzando MathConverse, abbiamo derivato una tassonomia preliminare dei comportamenti umani e scoperto che, nonostante una correlazione generalmente positiva, ci sono casi notevoli di divergenza tra correttezza e percezione di utilità nelle generazioni degli LLM, tra altri risultati. Inoltre, abbiamo identificato scenari utili e problemi esistenti di GPT-4 nel ragionamento matematico attraverso una serie di casi di studio contribuiti da matematici esperti. Concludiamo con suggerimenti pratici per i professionisti del machine learning e i matematici: i modelli che comunicano l'incertezza, rispondono bene alle correzioni degli utenti, sono più interpretabili e concisi possono costituire migliori assistenti; la valutazione interattiva è un modo promettente per esplorare continuamente le capacità di questi modelli; gli esseri umani dovrebbero essere consapevoli della fallibilità algebrica dei modelli linguistici e, per questo motivo, discernere dove dovrebbero essere utilizzati.
Il modello ChatGPT, rilasciato di recente, dimostra capacità senza precedenti nel rispondere a domande in modalità zero-shot. In questo lavoro, esploriamo la comprensione conversazionale di ChatGPT e introduciamo un framework (protocollo) conversazionale che può essere adottato in studi futuri. L'universo Pokémon si rivela un terreno di prova ideale per valutare le capacità di ragionamento di ChatGPT grazie alla sua assunzione di mondo chiuso. Dopo aver portato alla luce le conoscenze pregresse di ChatGPT sull'universo Pokémon, testiamo il suo processo di ragionamento quando utilizza questi concetti in scenari di battaglia. Successivamente, valutiamo la sua capacità di acquisire nuove conoscenze e di includerle nel suo processo di ragionamento. Il nostro obiettivo finale è valutare la capacità di ChatGPT di generalizzare, combinare caratteristiche e acquisire e ragionare su nuove conoscenze introdotte attraverso feedback umano. Scopriamo che ChatGPT possiede conoscenze pregresse sull'universo Pokémon, su cui può ragionare in modo significativo negli scenari di battaglia, anche quando vengono introdotte nuove informazioni. Il modello performa meglio con feedback collaborativi e se c'è una fase iniziale di recupero delle informazioni, ma occasionalmente produce allucinazioni ed è suscettibile ad attacchi avversari.
L'impiego di Large Language Models (LLM) per affrontare problemi matematici rappresenta un'area di ricerca affascinante, considerando l'abbondanza di problemi matematici espressi in linguaggio naturale in numerosi campi scientifici e ingegneristici. Mentre diversi lavori precedenti hanno esplorato la risoluzione di matematica elementare utilizzando LLM, questo studio si spinge verso la frontiera dell'uso di GPT-4 per risolvere problemi matematici più complessi e impegnativi. Valutiamo vari approcci per utilizzare GPT-4, alcuni dei quali adattati da lavori esistenti, e uno è \MathChat, un framework conversazionale per la risoluzione di problemi proposto per la prima volta in questo lavoro. Eseguiamo la valutazione su problemi difficili tratti da competizioni scolastiche del dataset MATH, dimostrando il vantaggio dell'approccio conversazionale proposto.
Il recente successo dei Large Language Models (LLM) rappresenta un passo significativo verso l'intelligenza artificiale generale. Questi modelli hanno dimostrato una prospettiva promettente nel completare automaticamente le attività in base alle istruzioni dell'utente, fungendo da coordinatori simili a un cervello. I rischi associati emergeranno man mano che deleghiamo un numero crescente di attività alle macchine per il completamento automatizzato. Sorge una grande domanda: come possiamo fare in modo che le macchine si comportino in modo responsabile quando aiutano gli esseri umani ad automatizzare le attività come copiloti personali? In questo articolo, esploriamo questa domanda in profondità dalle prospettive della fattibilità, della completezza e della sicurezza. In particolare, presentiamo Responsible Task Automation (ResponsibleTA) come un framework fondamentale per facilitare una collaborazione responsabile tra coordinatori basati su LLM ed esecutori per l'automazione delle attività, con tre capacità potenziate: 1) prevedere la fattibilità dei comandi per gli esecutori; 2) verificare la completezza degli esecutori; 3) migliorare la sicurezza (ad esempio, la protezione della privacy degli utenti). Proponiamo inoltre e confrontiamo due paradigmi per implementare le prime due capacità. Uno consiste nel sfruttare la conoscenza generica degli LLM stessi attraverso l'ingegneria dei prompt, mentre l'altro consiste nell'adottare modelli apprendibili specifici per dominio. Inoltre, introduciamo un meccanismo di memoria locale per raggiungere la terza capacità. Valutiamo il nostro ResponsibleTA proposto sull'automazione delle attività dell'interfaccia utente e speriamo che possa attirare maggiore attenzione verso il rendere gli LLM più responsabili in diversi scenari. La homepage del progetto di ricerca è disponibile all'indirizzo https://task-automation-research.github.io/responsible_task_automation.
Presentiamo una verifica della realtà sui modelli linguistici di grandi dimensioni e analizziamo, in confronto, le promesse dei modelli linguistici potenziati con il retrieval. Tali modelli linguistici sono semi-parametrici, in quanto integrano parametri del modello e conoscenze provenienti da fonti di dati esterne per effettuare le loro previsioni, a differenza della natura parametrica dei tradizionali modelli linguistici di grandi dimensioni. Forniamo risultati sperimentali iniziali che dimostrano come le architetture semi-parametriche possano essere potenziate con viste, un analizzatore/pianificatore di query e la provenienza dei dati, per creare un sistema significativamente più potente per il question answering in termini di accuratezza ed efficienza, e potenzialmente per altre attività di NLP.
Osservando la stretta relazione tra i compiti di segmentazione panottica, semantica e di istanza, proponiamo di addestrare un modello universale di segmentazione multi-dataset e multi-task: DaTaSeg. Utilizziamo una rappresentazione condivisa (proposte di maschere con previsioni di classe) per tutti i compiti. Per affrontare la discrepanza tra i compiti, adottiamo diverse operazioni di fusione e post-elaborazione per compiti diversi. Sfruttiamo anche la supervisione debole, consentendo al nostro modello di segmentazione di beneficiare di annotazioni più economiche basate su bounding box. Per condividere la conoscenza tra i dataset, utilizziamo embedding di testo provenienti dallo stesso spazio semantico di embedding come classificatori e condividiamo tutti i parametri della rete tra i dataset. Addestriamo DaTaSeg sui dataset ADE semantic, COCO panoptic e Objects365 detection. DaTaSeg migliora le prestazioni su tutti i dataset, in particolare su quelli di piccole dimensioni, raggiungendo 54.0 mIoU su ADE semantic e 53.5 PQ su COCO panoptic. DaTaSeg consente anche il trasferimento di conoscenza con supervisione debole su ADE panoptic e Objects365 instance segmentation. Gli esperimenti dimostrano che DaTaSeg scala con il numero di dataset di addestramento e abilita la segmentazione open-vocabulary attraverso il trasferimento diretto. Inoltre, annotiamo un set di segmentazione di istanza di Objects365 composto da 1.000 immagini e lo renderemo disponibile come benchmark pubblico.
I modelli linguistici basati su Transformer hanno trovato molteplici applicazioni che richiedono loro di elaborare sequenze di lunghezza crescente. Per queste applicazioni, l'attenzione causale (self-attention) — che è l'unico componente che scala quadraticamente rispetto alla lunghezza della sequenza — diventa una preoccupazione centrale. Sebbene molti lavori abbiano proposto schemi per sparsificare i pattern di attenzione e ridurre il sovraccarico computazionale della self-attention, questi sono spesso limitati da problemi di implementazione e finiscono per imporre una struttura semplice e statica sulla matrice di attenzione. Al contrario, implementare attenzioni sparse più dinamiche spesso si traduce in tempi di esecuzione significativamente più lenti rispetto al calcolo dell'attenzione completa utilizzando l'implementazione Flash di Dao et al. (2022). Estendiamo FlashAttention per supportare una vasta classe di pattern di sparsità dell'attenzione che, in particolare, includono l'eliminazione di chiavi/query e l'attenzione basata su hashing. Ciò porta a implementazioni senza sovraccarico di complessità computazionale e con un'accelerazione multipla del tempo di esecuzione rispetto a FlashAttention. Anche con gradi di sparsità relativamente bassi, il nostro metodo migliora visibilmente rispetto a FlashAttention all'aumentare della lunghezza della sequenza. Senza sacrificare la perplessità, aumentiamo la velocità di addestramento di un modello linguistico Transformer di 2,0 volte e 3,3 volte per sequenze rispettivamente di 8k e 16k token.