Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Generazione con Recupero Integrato (RAG) è diventato un paradigma potente per potenziare i grandi modelli linguistici (LLM) attraverso il recupero di conoscenze esterne. Nonostante la sua ampia attenzione, la ricerca accademica esistente si concentra prevalentemente sul RAG a singolo turno, lasciando una significativa lacuna nell'affrontare le complessità delle conversazioni multi-turno trovate nelle applicazioni del mondo reale. Per colmare questa lacuna, presentiamo CORAL, un benchmark su larga scala progettato per valutare i sistemi RAG in contesti conversazionali multi-turno realistici. CORAL include conversazioni di ricerca di informazioni diverse derivate automaticamente da Wikipedia e affronta sfide chiave come la copertura in un dominio aperto, l'intensità della conoscenza, risposte in forma libera e cambi di argomento. Supporta tre compiti principali del RAG conversazionale: recupero di passaggi, generazione di risposte e etichettatura delle citazioni. Proponiamo un framework unificato per standardizzare vari metodi di RAG conversazionale e condurre una valutazione completa di questi metodi su CORAL, dimostrando opportunità sostanziali per migliorare gli approcci esistenti.
I Transformer sono diventati l'architettura predominante nei modelli di base grazie alle loro eccellenti prestazioni in vari domini. Tuttavia, il notevole costo di scalare questi modelli rimane una preoccupazione significativa. Questo problema deriva principalmente dalla dipendenza da un numero fisso di parametri all'interno delle proiezioni lineari. Quando vengono introdotte modifiche architettoniche (ad esempio, dimensioni dei canali), l'intero modello richiede tipicamente un nuovo addestramento da zero. Man mano che le dimensioni del modello continuano a crescere, questa strategia comporta costi computazionali sempre più elevati e diventa insostenibile. Per superare questo problema, introduciamo TokenFormer, un'architettura nativamente scalabile che sfrutta il meccanismo di attenzione non solo per i calcoli tra i token di input, ma anche per le interazioni tra i token e i parametri del modello, migliorando così la flessibilità architetturale. Trattando i parametri del modello come token, sostituiamo tutte le proiezioni lineari nei Transformer con il nostro strato di attenzione token-parametro, dove i token di input agiscono come query e i parametri del modello come chiavi e valori. Questa riformulazione consente una scalabilità progressiva ed efficiente senza la necessità di un nuovo addestramento da zero. Il nostro modello scala da 124M a 1.4B parametri aggiungendo incrementalmente nuove coppie di parametri chiave-valore, ottenendo prestazioni paragonabili ai Transformer addestrati da zero riducendo notevolmente i costi di addestramento. Il codice e i modelli sono disponibili su https://github.com/Haiyang-W/TokenFormer.
Negli ultimi anni, c'è stata una tendenza nel campo dell'Apprendimento per Rinforzo (RL) verso modelli d'azione di grandi dimensioni addestrati offline su dataset su larga scala tramite modellizzazione sequenziale. I modelli esistenti si basano principalmente sull'architettura del Transformer, che porta a agenti potenti. Tuttavia, a causa dei tempi di inferenza lenti, gli approcci basati su Transformer sono impraticabili per applicazioni in tempo reale, come la robotica. Recentemente, sono stati proposti moderni architetti ricorrenti, come xLSTM e Mamba, che mostrano vantaggi di parallelizzazione durante l'addestramento simili all'architettura del Transformer offrendo al contempo un'elaborazione rapida. In questo lavoro, studiamo l'adeguatezza di queste moderne architetture ricorrenti per modelli d'azione di grandi dimensioni. Di conseguenza, proponiamo un Modello d'Azione Ricorrente di Grandi Dimensioni (LRAM) con un xLSTM al suo nucleo che presenta complessità di inferenza lineare e capacità di estrapolazione naturale della lunghezza della sequenza. Gli esperimenti su 432 compiti provenienti da 6 domini mostrano che LRAM si confronta favorevolmente con i Transformer in termini di prestazioni e velocità.
Presentiamo REM, un framework per segmentare una vasta gamma di concetti in video che possono essere descritti attraverso il linguaggio naturale. Il nostro metodo sfrutta le rappresentazioni visivo-linguistiche apprese dai modelli di diffusione video su dataset di scala Internet. Un'idea chiave del nostro approccio è preservare il più possibile la rappresentazione originale del modello generativo, mentre lo ottimizziamo su dataset di segmentazione di oggetti di riferimento a dominio ristretto. Di conseguenza, il nostro framework può segmentare e tracciare con precisione oggetti rari e non visti, nonostante sia stato addestrato su maschere di oggetti di un insieme limitato di categorie. Inoltre, può generalizzare a concetti dinamici non oggettuali, come onde che si infrangono nell'oceano, come dimostrato nel nostro nuovo benchmark per la segmentazione di processi video di riferimento (Ref-VPS). I nostri esperimenti mostrano che REM si comporta alla pari con approcci all'avanguardia su dataset in-domain, come Ref-DAVIS, superandoli fino a dodici punti in termini di similarità regionale su dati out-of-domain, sfruttando la potenza del pre-addestramento su scala Internet.
I grandi modelli linguistici (LLM) raggiungono buone prestazioni su sfide di ragionamento impegnative, ma potrebbero anche commettere errori di ragionamento di base. Questo comportamento contrastante risulta enigmatico quando si tratta di comprendere i meccanismi alla base delle capacità di ragionamento dei LLM. Un'ipotesi è che le prestazioni sempre più elevate e quasi sature su comuni test di ragionamento potrebbero derivare dalla memorizzazione di problemi simili. In questo articolo, indaghiamo sistematicamente questa ipotesi con una misurazione quantitativa della memorizzazione in compiti di ragionamento, utilizzando un banco di prova di ragionamento logico generato dinamicamente basato sui puzzle dei Cavalieri e dei Bugiardi (K&K). Abbiamo scoperto che i LLM possono interpolare i puzzle di addestramento (raggiungendo un'accuratezza quasi perfetta) dopo il raffinamento, ma falliscono quando quei puzzle vengono leggermente alterati, suggerendo che i modelli dipendano pesantemente dalla memorizzazione per risolvere quei puzzle di addestramento. D'altro canto, dimostriamo che mentre il raffinamento porta a una pesante memorizzazione, migliora anche costantemente le prestazioni di generalizzazione. Analisi approfondite con test di perturbazione, trasferibilità tra diversi livelli di difficoltà, esplorazione degli interni del modello e raffinamento con risposte sbagliate suggeriscono che i LLM imparino a ragionare sui puzzle K&K nonostante la memorizzazione dei dati di addestramento. Questo fenomeno indica che i LLM mostrano un complesso intreccio tra memorizzazione e autentiche capacità di ragionamento. Infine, la nostra analisi con il punteggio di memorizzazione per campione getta luce su come i LLM passino tra il ragionamento e la memorizzazione nella risoluzione di enigmi logici. Il nostro codice e i dati sono disponibili su https://memkklogic.github.io.
I lettori possono avere obiettivi diversi rispetto al testo che stanno leggendo. È possibile decodificare tali obiettivi dal modello dei loro movimenti oculari sul testo? In questo lavoro, esaminiamo per la prima volta se sia possibile decodificare due tipi di obiettivi di lettura comuni nella vita quotidiana: la ricerca di informazioni e la lettura ordinaria. Utilizzando un ampio set di dati di eye-tracking, applichiamo a questo compito una vasta gamma di modelli all'avanguardia per i movimenti oculari e il testo che coprono diverse strategie architetturali e di rappresentazione dei dati, introducendo inoltre un nuovo insieme di modelli. Valutiamo sistematicamente questi modelli a tre livelli di generalizzazione: nuovo elemento testuale, nuovo partecipante e la combinazione di entrambi. Scopriamo che i movimenti oculari contengono segnali molto preziosi per questo compito. Effettuiamo inoltre un'analisi degli errori che si basa su precedenti scoperte empiriche sulle differenze tra la lettura ordinaria e la ricerca di informazioni e sfrutta ricche annotazioni testuali. Questa analisi rivela proprietà chiave degli elementi testuali e dei movimenti oculari dei partecipanti che contribuiscono alla complessità del compito.
I modelli Mixture-of-Experts (MoE) migliorano l'efficienza e la scalabilità dei modelli linguistici densi instradando ciascun token a un piccolo numero di esperti in ciascuno strato. In questo articolo, mostriamo come un avversario che può organizzare affinché le proprie richieste appaiano nello stesso batch di esempi delle richieste di una vittima possa sfruttare il Routing della Scelta dell'Esperto per rivelare completamente la richiesta di una vittima. Dimostriamo con successo l'efficacia di questo attacco su un modello Mixtral a due strati, sfruttando il comportamento di gestione delle corrispondenze dell'implementazione CUDA di torch.topk. I nostri risultati mostrano che possiamo estrarre l'intera richiesta utilizzando O({VM}^2) richieste (con dimensione del vocabolario V e lunghezza della richiesta M) o 100 richieste in media per token nell'ambiente che consideriamo. Questo è il primo attacco a sfruttare difetti architetturali allo scopo di estrarre le richieste degli utenti, introducendo una nuova classe di vulnerabilità dei LLM.
I modelli linguistici di grandi dimensioni open-source stanno diventando sempre più disponibili e popolari tra ricercatori e professionisti. Sebbene siano stati compiuti significativi progressi sui modelli open-weight, l'uso di dati di addestramento aperti è una pratica ancora da adottare da parte dei principali creatori di modelli open-weight. Allo stesso tempo, i ricercatori stanno lavorando per rendere i modelli linguistici più sicuri. Proponiamo un flusso di lavoro per la cura dei dati al fine di ridurre le uscite dannose dei modelli addestrati su dati di dominio pubblico. Ci sono sfide uniche nel lavorare con dati di dominio pubblico, poiché queste fonti differiscono dal testo web sia nella forma che nei contenuti. Molte fonti sono documenti storici e sono il risultato di riconoscimento ottico dei caratteri (OCR). Di conseguenza, gli approcci attuali allo stato dell'arte per la filtrazione della tossicità sono spesso irrealizzabili o inappropriati per i modelli di dati aperti. In questo articolo, presentiamo un nuovo flusso di lavoro completamente open-source per la filtrazione della tossicità dei dati aperti. Le nostre contribuzioni sono triple. Creiamo un dataset di addestramento personalizzato, ToxicCommons, composto da testi classificati in cinque diverse dimensioni (discriminazione basata su razza/origine, genere/sesso, religione, abilità e violenza). Utilizziamo questo dataset per addestrare un classificatore personalizzato, Celadon, che può essere utilizzato per rilevare contenuti tossici nei dati aperti in modo più efficiente su una scala più ampia. Infine, descriviamo l'approccio bilanciato alla filtrazione dei contenuti che ottimizza la sicurezza rispetto ai dati filtrati disponibili per l'addestramento.
Gli esseri umani sono dotati di un sistema di apprendimento complementare, che collega l'apprendimento lento delle dinamiche del mondo generale con la rapida memorizzazione della memoria episodica di una nuova esperienza. Tuttavia, i modelli precedenti di generazione video si concentrano principalmente sull'apprendimento lento mediante il pre-addestramento su vaste quantità di dati, trascurando la fase di apprendimento rapido cruciale per la memorizzazione della memoria episodica. Questa mancanza porta a incongruenze tra frame temporalmente distanti durante la generazione di video più lunghi, poiché questi frame cadono al di fuori della finestra di contesto del modello. A tal fine, presentiamo SlowFast-VGen, un nuovo sistema di apprendimento a doppia velocità per la generazione di video lunghi basati sull'azione. Il nostro approccio incorpora un modello di diffusione video condizionale mascherato per l'apprendimento lento delle dinamiche del mondo, insieme a una strategia di apprendimento rapido basata su un modulo temporale LoRA al momento dell'inferenza. In particolare, il processo di apprendimento rapido aggiorna i suoi parametri temporali LoRA in base agli input e output locali, memorizzando efficientemente la memoria episodica nei suoi parametri. Proponiamo inoltre un algoritmo di ciclo di apprendimento lento-rapido che integra senza soluzione di continuità il ciclo di apprendimento rapido interno nel ciclo di apprendimento lento esterno, consentendo il richiamo di esperienze multi-episodiche precedenti per l'apprendimento di abilità consapevoli del contesto. Per facilitare l'apprendimento lento di un modello approssimativo del mondo, raccogliamo un dataset su larga scala di 200k video con annotazioni di azioni linguistiche, che coprono una vasta gamma di scenari. Gli esperimenti estesi mostrano che SlowFast-VGen supera i modelli di riferimento su vari metriche per la generazione di video basata sull'azione, raggiungendo un punteggio FVD di 514 rispetto a 782, e mantenendo la coerenza nei video più lunghi, con una media di 0,37 tagli di scena rispetto a 0,89. L'algoritmo di ciclo di apprendimento lento-rapido migliora significativamente le prestazioni su compiti di pianificazione a lungo termine. Sito Web del Progetto: https://slowfast-vgen.github.io
Presentiamo un benchmark per modelli linguistici di grandi dimensioni progettati per affrontare uno dei compiti più intensivi di conoscenza nella scienza dei dati: scrivere codice di ingegneria delle caratteristiche, che richiede conoscenze di dominio oltre a una profonda comprensione del problema sottostante e della struttura dei dati. Il modello riceve una descrizione del dataset in un prompt e viene chiesto di generare codice per trasformarlo. Il punteggio di valutazione deriva dal miglioramento ottenuto da un modello XGBoost adattato al dataset modificato rispetto ai dati originali. Attraverso un'ampia valutazione dei modelli all'avanguardia e il confronto con benchmark consolidati, dimostriamo che il FeatEng della nostra proposta può valutare in modo economico ed efficiente le ampie capacità dei LLM, a differenza dei metodi esistenti.
Il recupero delle informazioni mediche (MIR) è essenziale per estrarre conoscenze mediche rilevanti da fonti diverse, tra cui cartelle cliniche elettroniche, letteratura scientifica e basi di dati mediche. Tuttavia, raggiungere un recupero denso efficace a zero-shot nel dominio medico pone notevoli sfide a causa della mancanza di dati etichettati come rilevanti. In questo articolo, presentiamo un nuovo approccio chiamato Incorporamento di Documenti Ipotetici Autoapprendente (SL-HyDE) per affrontare questo problema. SL-HyDE sfrutta grandi modelli linguistici (LLM) come generatori per generare documenti ipotetici basati su una determinata query. Questi documenti generati racchiudono contesti medici chiave, guidando un recuperatore denso nell'individuare i documenti più rilevanti. Il framework di autoapprendimento affina progressivamente sia la generazione di pseudo-documenti che il recupero, utilizzando corpora medici non etichettati senza richiedere dati etichettati come rilevanti. Inoltre, presentiamo il Benchmark di Recupero delle Informazioni Mediche Cinese (CMIRB), un framework di valutazione completo basato su scenari medici reali, che comprende cinque compiti e dieci set di dati. Valutando dieci modelli su CMIRB, stabiliamo uno standard rigoroso per valutare i sistemi di recupero delle informazioni mediche. I risultati sperimentali dimostrano che SL-HyDE supera significativamente i metodi esistenti in termini di accuratezza di recupero, mostrando una forte generalizzazione e scalabilità tra varie configurazioni di LLM e recuperatore. I dati di CMIRB e il codice di valutazione sono disponibili pubblicamente su: https://github.com/CMIRB-benchmark/CMIRB.