Articoli di ricerca IA selezionati quotidianamente con traduzioni
Attualmente, i benchmark a lungo contesto si concentrano principalmente su test basati su recupero, che richiedono ai Grandi Modelli Linguistici (GML) di individuare informazioni specifiche all'interno di contesti di input estesi, come nel benchmark dell'ago nel pagliaio (NIAH). La generazione a lungo contesto si riferisce alla capacità di un modello linguistico di generare testo coerente e contestualmente accurato che si estende su passaggi o documenti lunghi. Sebbene studi recenti mostrino elevate prestazioni su NIAH e su altri benchmark a lungo contesto basati sul recupero, esiste una significativa mancanza di benchmark per valutare le capacità di generazione a lungo contesto. Per colmare questa lacuna e offrire una valutazione completa, presentiamo un benchmark sintetico, LongGenBench, che consente configurazioni flessibili di lunghezze del contesto di generazione personalizzate. LongGenBench va oltre i benchmark tradizionali ridisegnando il formato delle domande e richiedendo che i GML rispondano con una singola risposta a lungo contesto coesa. Attraverso un'ampia valutazione utilizzando LongGenBench, osserviamo che: (1) sia i modelli accessibili tramite API che quelli open source mostrano degradazione delle prestazioni in scenari di generazione a lungo contesto, che variano dal 1,2% al 47,1%; (2) diverse serie di GML mostrano tendenze diverse di degradazione delle prestazioni, con il modello Gemini-1.5-Flash che mostra la minore degradazione tra i modelli accessibili tramite API, e la serie Qwen2 che mostra la minore degradazione in LongGenBench tra i modelli open source.
Comprendere e seguire accuratamente le istruzioni è fondamentale affinché i grandi modelli linguistici (LLM) siano efficaci in una vasta gamma di compiti. In questo lavoro, esaminiamo attentamente i fattori chiave che consentono ai modelli di generalizzare istruzioni non viste, fornendo spunti per guidare la raccolta di dati per l'ottimizzazione delle istruzioni. Attraverso esperimenti controllati, ispirati all'algoritmo di Markov Turing-completo, dimostriamo che tale generalizzazione emerge solo quando i dati di addestramento sono sufficientemente diversificati tra domini semantici. Le nostre scoperte rivelano inoltre che la mera diversificazione all'interno di domini limitati non garantisce una generalizzazione robusta. Al contrario, la diversificazione dei dati tra domini, anche con budget dati limitati, migliora significativamente l'adattabilità di un modello. Estendiamo inoltre la nostra analisi a scenari reali, inclusa l'ottimizzazione di modelli specialistici e generalisti. In entrambi i casi, dimostriamo che 1) è possibile ottenere migliori prestazioni aumentando la diversità di un dataset consolidato mantenendo costante la dimensione dei dati, e 2) quando si aumenta la quantità di dati, diversificare le semantica delle istruzioni è più efficace rispetto a incrementare semplicemente la quantità di dati simili. La nostra ricerca fornisce importanti spunti per la raccolta di dataset, in particolare nell'ottimizzazione delle prestazioni del modello attraverso l'espansione dei dati di addestramento per scenari specialistici e generalisti. Mostrando che la diversificazione dei dati è fondamentale: addestrare modelli specialistici con dati che si estendono oltre il loro dominio principale porta a significativi miglioramenti delle prestazioni, mentre i modelli generalisti beneficiano di miscele di dati diverse che potenziano le loro capacità di seguire istruzioni in una vasta gamma di applicazioni. I nostri risultati evidenziano il ruolo critico della diversificazione strategica e offrono linee guida chiare per migliorare la qualità dei dati.
Questo lavoro affronta il collo di bottiglia della perdita di informazioni della generazione di immagini autoregressive mediante quantizzazione vettoriale (VQ) introducendo una nuova architettura di modello chiamata Trasformatore Autoregressivo 2-Dimensionale (DnD). Il DnD-Transformer prevede più codici per un'immagine introducendo una nuova direzione di autoregressione, profondità del modello, insieme alla direzione della lunghezza della sequenza. Rispetto alla tradizionale autoregressione 1D e ai lavori precedenti che utilizzano una decomposizione dell'immagine 2D simile come il RQ-Transformer, il DnD-Transformer è un modello end-to-end che può generare immagini di qualità superiore con la stessa dimensione del modello di base e lunghezza della sequenza, aprendo una nuova prospettiva di ottimizzazione per la generazione di immagini autoregressive. Inoltre, i nostri esperimenti rivelano che il potenziale del DnD-Transformer si estende oltre la generazione di immagini naturali. Può persino generare immagini con testo ricco ed elementi grafici in modo auto-supervisionato, dimostrando una comprensione di queste modalità combinate. Questo non è stato precedentemente dimostrato per modelli generativi di visione popolari come i modelli di diffusione, mostrando una scintilla di intelligenza visione-linguaggio quando addestrato esclusivamente su immagini. Codice, set di dati e modelli sono disponibili su https://github.com/chenllliang/DnD-Transformer.
Con significativi sforzi negli studi recenti, LLM-come-Giudice è diventato un'alternativa economica alla valutazione umana per valutare la qualità della generazione di testo in una vasta gamma di compiti. Tuttavia, rimane ancora un divario di affidabilità tra LLM-come-Giudice e la valutazione umana. Una ragione importante è la mancanza di oracoli guidati nel processo di valutazione. Motivati dal ruolo del riferimento ampiamente utilizzato nella valutazione classica del testo, introduciamo RevisEval, un nuovo paradigma di valutazione della generazione di testo tramite i riferimenti adattati alla risposta. RevisEval è guidato dall'osservazione chiave che un riferimento ideale dovrebbe mantenere la necessaria rilevanza rispetto alla risposta da valutare. In particolare, RevisEval sfrutta le capacità di revisione del testo dei grandi modelli linguistici (LLM) per revisionare in modo adattivo la risposta, trattando poi il testo revisionato come il riferimento (riferimento adattato alla risposta) per la valutazione successiva. Estesi esperimenti dimostrano che RevisEval supera i paradigmi tradizionali di valutazione senza riferimento e basati su riferimenti che utilizzano LLM-come-Giudice in una vasta gamma di compiti di generazione di linguaggio naturale e compiti di seguire istruzioni aperte. Inoltre, i nostri riferimenti adattati alla risposta possono potenziare ulteriormente le metriche di testo classiche, ad esempio BLEU e BERTScore, rispetto ai riferimenti tradizionali e persino competere con LLM-come-Giudice. È stata condotta anche un'analisi dettagliata per confermare l'efficacia di RevisEval nella riduzione del bias, l'impatto del costo inferenziale e la rilevanza del riferimento.
Potenziare la capacità dei grandi modelli linguistici (LLM) nel ragionamento ha attirato notevole attenzione negli ultimi anni. Studi precedenti hanno dimostrato l'efficacia di varie strategie di sollecitazione nell'aiutare i LLM nel ragionamento (chiamate "azioni di ragionamento"), come il pensiero passo dopo passo, la riflessione prima di rispondere, la risoluzione con programmi e le loro combinazioni. Tuttavia, questi approcci spesso applicavano staticamente azioni di ragionamento predefinite uniformemente a tutte le domande, senza considerare le caratteristiche specifiche di ciascuna domanda o la capacità del LLM risolutore del compito. In questo articolo, proponiamo DOTS, un approccio che consente ai LLM di ragionare dinamicamente tramite la ricerca della traiettoria di ragionamento ottimale, adattata alle caratteristiche specifiche di ciascuna domanda e alla capacità intrinseca del LLM risolutore del compito. Il nostro approccio coinvolge tre fasi chiave: i) definire moduli di azione di ragionamento atomici che possono essere composti in varie traiettorie di azione di ragionamento; ii) cercare la traiettoria di azione ottimale per ciascuna domanda di addestramento attraverso l'esplorazione iterativa e la valutazione per il LLM risolutore del compito specifico; e iii) utilizzare le traiettorie ottimali raccolte per addestrare un LLM a pianificare le traiettorie di ragionamento delle domande non viste. In particolare, proponiamo due paradigmi di apprendimento, ovvero il raffinamento di un LLM esterno come pianificatore per guidare il LLM risolutore del compito, o il raffinamento diretto del LLM risolutore del compito con una capacità internalizzata per la pianificazione delle azioni di ragionamento. I nostri esperimenti su otto compiti di ragionamento mostrano che il nostro metodo supera costantemente le tecniche di ragionamento statiche e l'approccio di sintonizzazione delle istruzioni di base. Un'analisi ulteriore rivela che il nostro metodo consente ai LLM di adattare la loro computazione in base alla complessità del problema, allocando un pensiero e un ragionamento più profondi ai problemi più difficili.
I modelli autoregressivi (AR) hanno riformulato la generazione di immagini come previsione del token successivo, dimostrando un notevole potenziale ed emergendo come forti concorrenti dei modelli a diffusione. Tuttavia, la generazione di immagini da controllo, simile a ControlNet, rimane in gran parte inesplorata all'interno dei modelli AR. Sebbene un approccio naturale, ispirato agli avanzamenti nei Grandi Modelli Linguistici, sia quello di tokenizzare le immagini di controllo in token e precaricarli nel modello autoregressivo prima di decodificare i token delle immagini, questo approccio rimane ancora indietro in termini di qualità generativa rispetto a ControlNet e soffre di inefficienza. A tal fine, presentiamo ControlAR, un framework efficiente ed efficace per integrare i controlli spaziali nei modelli di generazione di immagini autoregressivi. In primo luogo, esploriamo la codifica del controllo per i modelli AR e proponiamo un codificatore di controllo leggero per trasformare gli input spaziali (ad esempio, bordi di canny o mappe di profondità) in token di controllo. Successivamente, ControlAR sfrutta il metodo di decodifica condizionale per generare il token dell'immagine successiva condizionato alla fusione per token tra controllo e immagine, simile alle codifiche posizionali. Rispetto alla precaricamento dei token, l'utilizzo della decodifica condizionale rafforza significativamente la capacità di controllo dei modelli AR ma mantiene anche l'efficienza del modello. Inoltre, il ControlAR proposto potenzia sorprendentemente i modelli AR con la generazione di immagini a risoluzione arbitraria tramite decodifica condizionale e controlli specifici. Estesi esperimenti possono dimostrare la controllabilità del ControlAR proposto per la generazione di immagini da controllo autoregressivo su input diversi, inclusi bordi, profondità e maschere di segmentazione. Inoltre, i risultati quantitativi e qualitativi indicano che ControlAR supera i modelli di diffusione controllabili di ultima generazione, ad esempio ControlNet++. Il codice, i modelli e la demo saranno presto disponibili su https://github.com/hustvl/ControlAR.
La scalabilità del calcolo inferenziale ha sbloccato il potenziale dei modelli linguistici di lungo contesto su larga scala (LLM) in diversi contesti. Per compiti ad alta intensità di conoscenza, il calcolo aumentato è spesso allocato per incorporare più conoscenze esterne. Tuttavia, senza utilizzare efficacemente tali conoscenze, l'espansione del contesto non sempre migliora le prestazioni. In questo lavoro, esaminiamo la scalabilità dell'inferenza per la generazione potenziata da recupero (RAG), esplorando strategie oltre all'aumento semplice della quantità di conoscenza. Ci concentriamo su due strategie di scalabilità dell'inferenza: apprendimento in contesto e sollecitazione iterativa. Queste strategie forniscono una maggiore flessibilità per scalare il calcolo al momento del test (ad esempio, aumentando i documenti recuperati o i passaggi di generazione), migliorando così la capacità dei LLM di acquisire ed utilizzare efficacemente informazioni contestuali. Affrontiamo due domande chiave: (1) Come beneficia il rendimento di RAG dalla scalabilità del calcolo inferenziale quando configurato ottimamente? (2) Possiamo prevedere l'allocazione ottimale del calcolo al momento del test per un determinato budget modellando la relazione tra il rendimento di RAG e i parametri di inferenza? Le nostre osservazioni rivelano che l'aumento del calcolo inferenziale porta a guadagni quasi lineari nel rendimento di RAG quando allocato in modo ottimale, una relazione che descriviamo come le leggi di scalabilità dell'inferenza per RAG. Sulla base di ciò, sviluppiamo ulteriormente il modello di allocazione del calcolo per stimare il rendimento di RAG attraverso diverse configurazioni inferenziali. Il modello prevede i parametri di inferenza ottimali in diverse condizioni di calcolo, che si allineano strettamente con i risultati sperimentali. Applicando queste configurazioni ottimali, dimostriamo che scalare il calcolo inferenziale sui LLM di lungo contesto porta a guadagni fino al 58,9% su set di dati di benchmark rispetto a RAG standard.
I grandi modelli linguistici (LLM) hanno guidato significativi progressi in varie attività di NLP, con i modelli a lungo contesto che guadagnano importanza per gestire input estesi. Tuttavia, l'espansione della dimensione della cache chiave-valore (KV) richiesta dalle architetture Transformer intensifica i vincoli di memoria, specialmente durante la fase di decodifica, creando un significativo collo di bottiglia. I meccanismi di attenzione sparsa esistenti progettati per affrontare questo collo di bottiglia presentano due limitazioni: (1) spesso non riescono a identificare in modo affidabile i token più rilevanti per l'attenzione e (2) trascurano la coerenza spaziale della selezione dei token attraverso i livelli consecutivi del Transformer, il che può portare a degrado delle prestazioni e a un notevole sovraccarico nella selezione dei token. Questo articolo introduce TidalDecode, un algoritmo e un sistema semplici ma efficaci per la decodifica rapida e accurata dei LLM attraverso un'attenzione sparsa persistente alla posizione. TidalDecode sfrutta la coerenza spaziale dei token selezionati dai metodi di attenzione sparsa esistenti e introduce alcuni livelli di selezione dei token che eseguono un'attenzione completa per identificare i token con i punteggi di attenzione più alti, mentre tutti gli altri livelli eseguono un'attenzione sparsa con i token preselezionati. Questo design consente a TidalDecode di ridurre notevolmente il sovraccarico della selezione dei token per l'attenzione sparsa senza sacrificare la qualità dei risultati generati. La valutazione su un insieme diversificato di LLM e attività mostra che TidalDecode si avvicina strettamente alle prestazioni generative dei metodi di attenzione completa riducendo al contempo la latenza di decodifica dei LLM fino a 2,1 volte.
L'apprendimento per rinforzo da feedback umano (RLHF) ha dimostrato efficacia nell'allineare i grandi modelli linguistici (LLM) con le preferenze umane. Tuttavia, l'RLHF a livello di token soffre del problema dell'assegnazione del credito su lunghe sequenze, dove i premi ritardati rendono difficile per il modello discernere quali azioni hanno contribuito a esiti di successo. Ciò ostacola l'efficienza dell'apprendimento e rallenta la convergenza. In questo articolo, proponiamo MA-RLHF, un framework RLHF semplice ma efficace che incorpora macro azioni - sequenze di token o costrutti linguistici di livello superiore - nel processo di apprendimento. Operando a questo livello di astrazione più alto, il nostro approccio riduce la distanza temporale tra azioni e ricompense, facilitando un'assegnazione del credito più veloce e accurata. Ciò si traduce in stime più stabili del gradiente di politica e migliora l'efficienza dell'apprendimento all'interno di ciascun episodio, il tutto senza aumentare la complessità computazionale durante l'addestramento o l'inferenza. Convalidiamo il nostro approccio attraverso ampi esperimenti su varie dimensioni di modelli e compiti, tra cui riassunto di testo, generazione di dialoghi, risposta a domande e sintesi di programmi. Il nostro metodo ottiene miglioramenti delle prestazioni sostanziali rispetto all'RLHF standard, con guadagni di prestazioni fino al 30% nel riassunto di testo e nella generazione di codice, 18% nei dialoghi e 8% nei compiti di risposta a domande. In particolare, il nostro approccio raggiunge la parità con l'RLHF standard 1,7x fino a 2x più velocemente in termini di tempo di addestramento e continua a superarlo con ulteriore addestramento. Metteremo a disposizione pubblicamente il nostro codice e i dati su https://github.com/ernie-research/MA-RLHF.
I modelli linguistici a lungo contesto (LCLM), caratterizzati dalla loro ampia finestra di contesto, stanno diventando sempre più popolari. Nel frattempo, molti benchmark a lungo contesto presentano compiti impegnativi che persino i LCLM più avanzati faticano a completare. Tuttavia, le fonti sottostanti dei vari compiti impegnativi a lungo contesto sono state raramente studiate. Per colmare questa lacuna, conduciamo esperimenti per indicare che la loro difficoltà deriva principalmente da due questioni di base: "recupero multi-corrispondenza", che richiede il recupero simultaneo di più elementi, e "recupero basato sulla logica", che richiede un giudizio logico all'interno dei criteri di recupero. Questi due problemi, sebbene apparentemente semplici, superano effettivamente le capacità dei LCLM poiché sono dimostrati essere iper-multistep (richiedono numerosi passaggi per essere risolti) per natura. Questa scoperta potrebbe spiegare perché i LLM faticano con compiti a lungo contesto più avanzati, offrendo una prospettiva più accurata per ripensare le soluzioni per essi.
Nella modellazione generativa, la tokenizzazione semplifica dati complessi in rappresentazioni compatte e strutturate, creando uno spazio di apprendimento più efficiente. Per dati visivi ad alta dimensionalità, riduce la ridondanza ed enfatizza le caratteristiche chiave per una generazione di alta qualità. I metodi attuali di tokenizzazione visiva si basano su un framework tradizionale di autoencoder, in cui l'encoder comprime i dati in rappresentazioni latenti e il decoder ricostruisce l'input originale. In questo lavoro, offriamo una nuova prospettiva proponendo il denoising come decodifica, passando dalla ricostruzione in un solo passaggio al raffinamento iterativo. In particolare, sostituiamo il decoder con un processo di diffusione che raffina iterativamente il rumore per recuperare l'immagine originale, guidato dalle latenti fornite dall'encoder. Valutiamo il nostro approccio valutando sia la ricostruzione (rFID) che la qualità della generazione (FID), confrontandolo con l'approccio di autoencoding all'avanguardia. Ci auguriamo che questo lavoro offra nuove intuizioni sull'integrazione della generazione iterativa e dell'autoencoding per una compressione e generazione migliorate.
Le sequenze di eventi, caratterizzate da intervalli di campionamento irregolari e una combinazione di caratteristiche categoriali e numeriche, sono strutture dati comuni in vari domini del mondo reale come sanità, finanza e registri di interazioni utente. Nonostante i progressi nelle tecniche di modellizzazione dei dati temporali, non esistono benchmark standardizzati per valutare le prestazioni su sequenze di eventi. Ciò rende complicata la comparazione dei risultati tra diversi articoli a causa di protocolli di valutazione variabili, potenzialmente fuorvianti per i progressi in questo campo. Introduciamo EBES, uno strumento completo di benchmarking con scenari di valutazione e protocolli standardizzati, focalizzati su problemi di regressione e classificazione con obiettivi a livello di sequenza. La nostra libreria semplifica il benchmarking, l'aggiunta di dataset e l'integrazione di metodi attraverso un'interfaccia unificata. Include un dataset sintetico innovativo e fornisce dataset del mondo reale preelaborati, tra cui il più grande dataset bancario disponibile pubblicamente. I nostri risultati forniscono un'analisi approfondita dei dataset, identificando alcuni come inadatti per la comparazione dei modelli. Indaghiamo sull'importanza della modellizzazione dei componenti temporali e sequenziali, nonché sulle proprietà di robustezza e scalabilità dei modelli. Queste scoperte evidenziano possibili direzioni per futuri studi. Il nostro obiettivo di benchmark è facilitare la ricerca riproducibile, accelerando i progressi e aumentando gli impatti nel mondo reale.
I Video Large Language Models (Video-LLM) hanno dimostrato notevoli capacità nella comprensione dei video a grana grossa, tuttavia faticano con il posizionamento temporale a grana fine. In questo articolo, presentiamo Grounded-VideoLLM, un nuovo Video-LLM capace di percepire e ragionare su momenti video specifici in modo dettagliato. Identifichiamo che i Video-LLM attuali presentano limitazioni per la comprensione dettagliata dei video poiché mancano di modellazione temporale efficace e rappresentazione dei timestamp. Pertanto, affiniamo il nostro modello incorporando (1) un flusso temporale aggiuntivo per codificare le relazioni tra i frame e (2) token temporali discreti arricchiti con conoscenze temporali specifiche per rappresentare i timestamp. Per ottimizzare l'addestramento di Grounded-VideoLLM, utilizziamo uno schema di addestramento a più fasi, iniziando con semplici compiti di descrizione video e introducendo progressivamente compiti di posizionamento temporale video di complessità crescente. Per potenziare ulteriormente la capacità di ragionamento temporale di Grounded-VideoLLM, creiamo anche un dataset VideoQA basato su posizionamento tramite un flusso di annotazione automatico. Estesi esperimenti dimostrano che Grounded-VideoLLM eccelle non solo nei compiti di posizionamento a grana fine come il posizionamento temporale delle frasi, la descrizione video densa e il VideoQA basato su posizionamento, ma mostra anche un grande potenziale come assistente video versatile per la comprensione generale dei video.