Articoli di ricerca IA selezionati quotidianamente con traduzioni
Valutare i modelli linguistici di grandi dimensioni (LLM) in scenari aperti è complesso poiché i benchmark e le metriche esistenti non sono in grado di misurarli in modo completo. Per affrontare questo problema, proponiamo di ottimizzare gli LLM come giudici scalabili (JudgeLM) per valutare gli LLM in modo efficiente ed efficace nei benchmark aperti. Inizialmente, proponiamo un dataset ampio, di alta qualità e completo, contenente semi di attività, risposte generate da LLM e giudizi generati da GPT-4 per ottimizzare giudici ad alte prestazioni, oltre a un nuovo benchmark per valutare i giudici. Addestriamo JudgeLM su diverse scale, da 7B, 13B, fino a 33B parametri, e conduciamo un'analisi sistematica delle sue capacità e comportamenti. Successivamente, analizziamo i principali bias nell'ottimizzazione degli LLM come giudici, identificandoli come bias di posizione, bias di conoscenza e bias di formato. Per risolvere questi problemi, JudgeLM introduce una serie di tecniche, tra cui l'aumentazione tramite scambio, il supporto di riferimento e l'eliminazione del riferimento, che migliorano chiaramente le prestazioni del giudice. JudgeLM ottiene prestazioni all'avanguardia sia sul benchmark esistente PandaLM che sul nostro nuovo benchmark proposto. Il nostro JudgeLM è efficiente e JudgeLM-7B richiede solo 3 minuti per giudicare 5.000 campioni con 8 GPU A100. JudgeLM raggiunge un elevato accordo con il giudice insegnante, superando il 90% di accordo, che supera persino l'accordo tra umani. JudgeLM dimostra inoltre capacità estese nel valutare singole risposte, modelli multimodali, risposte multiple e chat multi-turn.
Introduciamo HyperFields, un metodo per generare Neural Radiance Fields (NeRFs) condizionati da testo con un singolo passaggio in avanti e (opzionalmente) un po' di fine-tuning. Elementi chiave del nostro approccio sono: (i) un hypernetwork dinamico, che apprende una mappatura fluida dalle rappresentazioni dei token di testo allo spazio dei NeRFs; (ii) l'addestramento per distillazione di NeRF, che distilla scene codificate in singoli NeRFs in un unico hypernetwork dinamico. Queste tecniche consentono a una singola rete di adattarsi a oltre cento scene uniche. Dimostriamo inoltre che HyperFields apprende una mappatura più generale tra testo e NeRFs, e di conseguenza è in grado di prevedere scene nuove, sia all'interno della distribuzione che al di fuori di essa, in modalità zero-shot o con pochi passaggi di fine-tuning. Il fine-tuning di HyperFields beneficia di una convergenza accelerata grazie alla mappatura generale appresa ed è in grado di sintetizzare scene nuove da 5 a 10 volte più velocemente rispetto ai metodi esistenti basati su ottimizzazione neurale. I nostri esperimenti di ablazione mostrano che sia l'architettura dinamica che la distillazione di NeRF sono critiche per l'espressività di HyperFields.
Proponiamo il decoding controllato (CD), un nuovo metodo di apprendimento per rinforzo off-policy per controllare la generazione autoregressiva da modelli linguistici verso esiti ad alta ricompensa. CD risolve un problema di apprendimento per rinforzo off-policy attraverso una funzione di valore per la ricompensa, che chiamiamo prefix scorer. Il prefix scorer viene utilizzato al momento dell'inferenza per orientare la generazione verso esiti con ricompensa più elevata. Dimostriamo che il prefix scorer può essere addestrato su dati (possibilmente) off-policy per prevedere la ricompensa attesa quando il decoding continua da una risposta parzialmente decodificata. Empiricamente, dimostriamo che CD è efficace come meccanismo di controllo sul corpus di conversazioni di Reddit. Mostriamo inoltre che la modularità del design di CD rende possibile controllare più ricompense, risolvendo efficacemente un problema di apprendimento per rinforzo multi-obiettivo senza alcuna complessità aggiuntiva. Infine, dimostriamo che CD può essere applicato in modo innovativo a blocchi al momento dell'inferenza, ancora una volta senza la necessità di modifiche durante l'addestramento, colmando essenzialmente il divario tra la popolare strategia best-of-K e l'apprendimento per rinforzo a livello di token. Questo rende CD un approccio promettente per l'allineamento dei modelli linguistici.
I modelli linguistici di grandi dimensioni (LLM) con centinaia di miliardi di parametri hanno dato vita a una nuova ondata di applicazioni entusiasmanti nel campo dell'IA. Tuttavia, questi modelli sono computazionalmente costosi al momento dell'inferenza. La sparsità rappresenta un approccio naturale per ridurre tale costo, ma i metodi esistenti richiedono un costoso riaddestramento, devono rinunciare alla capacità di apprendimento contestuale degli LLM o non garantiscono un'accelerazione in termini di tempo reale sull'hardware moderno. Ipotesizziamo che la sparsità contestuale, ovvero piccoli insiemi di teste di attenzione e parametri MLP dipendenti dall'input che producono un output approssimativamente equivalente a quello del modello denso per un dato input, possa risolvere questi problemi. Dimostriamo che la sparsità contestuale esiste, che può essere prevista con precisione e che può essere sfruttata per accelerare l'inferenza degli LLM in tempo reale senza compromettere la qualità del modello o la sua capacità di apprendimento contestuale. Sulla base di queste intuizioni, proponiamo DejaVu, un sistema che utilizza un algoritmo a basso costo per prevedere la sparsità contestuale al volo in base agli input di ciascun livello, insieme a un'implementazione asincrona e consapevole dell'hardware che accelera l'inferenza degli LLM. Validiamo che DejaVu può ridurre la latenza di inferenza di OPT-175B di oltre 2 volte rispetto allo stato dell'arte di FasterTransformer e di oltre 6 volte rispetto all'implementazione ampiamente utilizzata di Hugging Face, senza compromettere la qualità del modello. Il codice è disponibile all'indirizzo https://github.com/FMInference/DejaVu.