Articoli di ricerca IA selezionati quotidianamente con traduzioni
La distillazione della conoscenza (KD) è ampiamente utilizzata per comprimere un modello insegnante al fine di ridurre i costi di inferenza e l'impronta di memoria, addestrando un modello studente più piccolo. Tuttavia, gli attuali metodi di KD per modelli sequenziali auto-regressivi soffrono di una mancata corrispondenza tra le sequenze di output osservate durante l'addestramento e quelle generate dallo studente durante l'inferenza. Per affrontare questo problema, introduciamo la Distillazione della Conoscenza Generalizzata (GKD). Invece di fare affidamento esclusivamente su un insieme fisso di sequenze di output, la GKD addestra lo studente sulle sequenze di output auto-generate, sfruttando il feedback dell'insegnante su tali sequenze. A differenza degli approcci di KD supervisionati, la GKD offre anche la flessibilità di impiegare funzioni di perdita alternative tra lo studente e l'insegnante, il che può essere utile quando lo studente non ha l'espressività necessaria per imitare la distribuzione dell'insegnante. Inoltre, la GKD facilita l'integrazione senza soluzione di continuità della distillazione con l'ottimizzazione tramite RL (RLHF). Dimostriamo l'efficacia della GKD per la distillazione di modelli linguistici auto-regressivi in compiti di riassunto, traduzione e ragionamento aritmetico, nonché per la distillazione indipendente dal compito per l'ottimizzazione tramite istruzioni.
I modelli linguistici potenziati dal retrieval (LMs) hanno ricevuto molta attenzione di recente. Tuttavia, tipicamente il retriever non viene addestrato congiuntamente come componente nativa del LM, ma viene aggiunto a un LM già pre-addestrato, il che limita la capacità del LM e del retriever di adattarsi reciprocamente. In questo lavoro, proponiamo il Retrieval-Pretrained Transformer (RPT), un'architettura e una procedura di addestramento per addestrare congiuntamente un LM potenziato dal retrieval da zero per il compito di modellare testi lunghi. Dato un recente frammento di testo generato in un documento lungo, il LM calcola rappresentazioni di query, che vengono poi utilizzate per recuperare frammenti precedenti nel documento, situati potenzialmente decine di migliaia di token prima. Le informazioni dai frammenti recuperati vengono fuse nelle rappresentazioni del LM per prevedere il prossimo frammento target. Addestriamo il componente retriever con un obiettivo semantico, dove lo scopo è recuperare frammenti che aumentano la probabilità del frammento successivo, secondo un LM di riferimento. Valutiamo RPT su quattro compiti di modellazione linguistica a lungo raggio, che coprono libri, codice e scrittura matematica, e dimostriamo che RPT migliora la qualità del retrieval e successivamente la perplessità in tutti i casi rispetto a baseline solide.
In questo lavoro riprendiamo il blocco costitutivo più fondamentale del deep learning, il perceptron multistrato (MLP), e studiamo i limiti delle sue prestazioni nei compiti di visione. Le intuizioni empiriche sugli MLP sono importanti per molteplici ragioni. (1) Considerando la recente narrativa "meno bias induttivo è meglio", popolarizzata grazie ai transformer che hanno eclissato i modelli convoluzionali, è naturale esplorare i limiti di questa ipotesi. A tal fine, gli MLP offrono un banco di prova ideale, essendo completamente privi di qualsiasi bias induttivo. (2) Gli MLP sono stati quasi esclusivamente i protagonisti principali nella letteratura teorica del deep learning grazie alla loro semplicità matematica, servendo come proxy per spiegare i fenomeni empirici osservati per architetture più complesse. Sorprendentemente, i dati sperimentali sugli MLP sono molto difficili da trovare nella letteratura, specialmente quando accoppiati a protocolli di pre-addestramento su larga scala. Questa discrepanza tra pratica e teoria è preoccupante: gli MLP riflettono i progressi empirici mostrati dai modelli pratici? O i teorici devono ripensare il ruolo degli MLP come proxy? Forniamo approfondimenti su entrambi questi aspetti. Mostriamo che le prestazioni degli MLP migliorano drasticamente con la scala (93% su CIFAR10, 79% su CIFAR100, 69% su TinyImageNet), evidenziando che la mancanza di bias induttivo può effettivamente essere compensata. Osserviamo che gli MLP imitano fedelmente il comportamento delle loro controparti moderne, con alcuni componenti nel contesto di apprendimento che tuttavia mostrano comportamenti più forti o inaspettati. Grazie alla loro intrinseca efficienza computazionale, gli esperimenti di pre-addestramento su larga scala diventano più accessibili per i ricercatori accademici. Tutti i nostri esperimenti sono stati eseguiti su una singola GPU.
Con l'ascesa dei Large Language Models (LLM) e il loro impiego ubiquitario in diversi domini, diventa imperativo misurare il comportamento dei modelli linguistici su dati realistici. Ad esempio, un'azienda che implementa un chatbot rivolto ai clienti deve assicurarsi che il modello non risponda alle richieste dei clienti con linguaggio volgare. Le valutazioni attuali affrontano questo problema utilizzando piccoli dataset specifici per dominio con etichette curate da esseri umani. Questi set di valutazione sono spesso campionati da una distribuzione ristretta e semplificata, e le fonti dei dati possono essere involontariamente incluse nel set di addestramento, portando a valutazioni fuorvianti. Per superare questi limiti, proponiamo un framework per la valutazione auto-supervisionata dei LLM analizzando la loro sensibilità o invarianza alle trasformazioni applicate al testo di input. La valutazione auto-supervisionata può monitorare direttamente il comportamento dei LLM su dataset raccolti in contesti reali o durante il deployment in tempo reale del modello. Dimostriamo strategie di valutazione auto-supervisionata per misurare la conoscenza a libro chiuso, la tossicità e la dipendenza dal contesto a lungo raggio, oltre alla sensibilità alla struttura grammaticale e agli errori di tokenizzazione. Quando sono disponibili confronti con benchmark simili etichettati da esseri umani, troviamo forti correlazioni tra le valutazioni auto-supervisionate e quelle supervisionate da esseri umani. Il paradigma auto-supervisionato integra le attuali strategie di valutazione che si basano su dati etichettati.
Il feedback in linguaggio naturale (NL) contiene informazioni preziose sull'esperienza dell'utente. Gli studi esistenti si concentrano su un approccio a livello di istanza, in cui il feedback viene utilizzato per affinare esempi specifici, trascurando la sua applicazione a livello di sistema. Questo articolo propone un framework generale per sfruttare l'uso del feedback NL a livello di sistema. Mostriamo come utilizzare il feedback per formalizzare decisioni di progettazione a livello di sistema in un processo con l'uomo nel ciclo (human-in-the-loop), al fine di produrre modelli migliori. In particolare, ciò avviene attraverso: (i) la progettazione di metriche per i task; e (ii) la progettazione di prompt per modelli linguistici per affinare le risposte del modello. Condividiamo due casi di studio di questo approccio per migliorare la generazione di query di ricerca e la generazione di risposte dialogiche, dimostrando l'efficacia dell'uso del feedback a livello di sistema. Mostriamo che la combinazione di feedback a livello di sistema e feedback a livello di istanza porta ulteriori miglioramenti, e che il feedback scritto da esseri umani a livello di istanza produce affinamenti più solidi rispetto a quelli scritti da GPT-3.5, sottolineando l'importanza del feedback umano per la costruzione di sistemi.
Introduciamo il compito della segmentazione di istanze 3D a vocabolario aperto. Gli approcci tradizionali per la segmentazione di istanze 3D si basano principalmente su dataset 3D annotati esistenti, che sono limitati a un insieme chiuso di categorie di oggetti. Questa è una limitazione significativa per applicazioni reali in cui potrebbe essere necessario eseguire compiti guidati da query nuove e a vocabolario aperto relative a oggetti di una vasta gamma. Recentemente, sono emersi metodi di comprensione di scene 3D a vocabolario aperto per affrontare questo problema, apprendendo caratteristiche interrogabili per ogni punto della scena. Sebbene tale rappresentazione possa essere utilizzata direttamente per eseguire la segmentazione semantica, i metodi esistenti presentano limitazioni nella loro capacità di identificare istanze di oggetti. In questo lavoro, affrontiamo questa limitazione e proponiamo OpenMask3D, un approccio zero-shot per la segmentazione di istanze 3D a vocabolario aperto. Guidato da maschere di istanze 3D agnostiche rispetto alla classe predette, il nostro modello aggrega caratteristiche per maschera tramite fusione multi-vista di embedding di immagini basati su CLIP. Conduciamo esperimenti e studi di ablazione sul dataset ScanNet200 per valutare le prestazioni di OpenMask3D e forniamo approfondimenti sul compito della segmentazione di istanze 3D a vocabolario aperto. Dimostriamo che il nostro approccio supera altre controparti a vocabolario aperto, in particolare sulla distribuzione a coda lunga. Inoltre, OpenMask3D va oltre i limiti degli approcci a vocabolario chiuso e consente la segmentazione di istanze di oggetti basata su query libere che descrivono proprietà degli oggetti come semantica, geometria, affordance e proprietà dei materiali.
I campi neurali hanno ottenuto progressi impressionanti nella sintesi di viste e nella ricostruzione di scene. Tuttavia, la modifica di questi campi neurali rimane una sfida a causa della codifica implicita delle informazioni geometriche e di texture. In questo articolo, proponiamo DreamEditor, un nuovo framework che consente agli utenti di eseguire modifiche controllate dei campi neurali utilizzando prompt testuali. Rappresentando le scene come campi neurali basati su mesh, DreamEditor permette modifiche localizzate all'interno di regioni specifiche. DreamEditor utilizza l'encoder di testo di un modello di diffusione testo-immagine pre-addestrato per identificare automaticamente le regioni da modificare in base alla semantica dei prompt testuali. Successivamente, DreamEditor ottimizza la regione di modifica e allinea la sua geometria e texture con i prompt testuali attraverso il campionamento di distillazione del punteggio [29]. Esperimenti estesi hanno dimostrato che DreamEditor può modificare accuratamente i campi neurali di scene del mondo reale in base ai prompt testuali forniti, garantendo al contempo la coerenza nelle aree irrilevanti. DreamEditor genera texture e geometrie altamente realistiche, superando significativamente i lavori precedenti sia nelle valutazioni quantitative che qualitative.