Articoli di ricerca IA selezionati quotidianamente con traduzioni
L'animazione di immagini di personaggi, che genera video di alta qualità da un'immagine di riferimento e una sequenza di pose target, ha visto progressi significativi negli ultimi anni. Tuttavia, la maggior parte dei metodi esistenti si applica solo a figure umane, che di solito non si generalizzano bene sui personaggi antropomorfi comunemente usati in settori come il gaming e l'intrattenimento. La nostra analisi approfondita suggerisce che questa limitazione sia dovuta alla loro modellazione insufficiente del movimento, che non riesce a comprendere il modello di movimento del video guida, imponendo quindi rigidamente una sequenza di pose al personaggio target. A tal fine, questo articolo propone Animate-X, un framework di animazione universale basato su LDM per vari tipi di personaggi (collettivamente chiamati X), inclusi i personaggi antropomorfi. Per migliorare la rappresentazione del movimento, introduciamo l'Indicatore di Pose, che cattura il modello di movimento completo dal video guida sia in modo implicito che esplicito. Il primo sfrutta le caratteristiche visive CLIP di un video guida per estrarre il suo senso del movimento, come il modello di movimento generale e le relazioni temporali tra i movimenti, mentre il secondo rafforza la generalizzazione di LDM simulando in anticipo possibili input che potrebbero sorgere durante l'inferenza. Inoltre, introduciamo un nuovo Benchmark Antropomorfo Animato (A^2Bench) per valutare le prestazioni di Animate-X su immagini di animazione universali e ampiamente applicabili. Estesi esperimenti dimostrano la superiorità e l'efficacia di Animate-X rispetto ai metodi all'avanguardia.
Con lo sviluppo rapido di contenuti generati da intelligenza artificiale, il futuro internet potrebbe essere sommerso da dati sintetici, rendendo sempre più difficile discriminare dati multimodali autentici e credibili. La rilevazione dei dati sintetici ha quindi attirato molta attenzione, e le prestazioni dei grandi modelli multimodali (LMM) in questo compito hanno suscitato un interesse significativo. I LMM possono fornire spiegazioni in linguaggio naturale per i loro giudizi di autenticità, migliorando la comprensibilità della rilevazione dei contenuti sintetici. Allo stesso tempo, il compito di distinguere tra dati reali e sintetici mette alla prova efficacemente le capacità di percezione, conoscenza e ragionamento dei LMM. In risposta, presentiamo LOKI, un nuovo benchmark progettato per valutare l'abilità dei LMM nel rilevare dati sintetici attraverso molteplici modalità. LOKI comprende modalità video, immagine, 3D, testo e audio, con 18.000 domande accuratamente selezionate distribuite in 26 sottocategorie con chiari livelli di difficoltà. Il benchmark include giudizi a grana grossa e domande a scelta multipla, nonché selezione di anomalie a grana fine e compiti di spiegazione, consentendo un'analisi completa dei LMM. Abbiamo valutato 22 LMM open-source e 6 modelli closed-source su LOKI, evidenziando il loro potenziale come rilevatori di dati sintetici e rivelando anche alcune limitazioni nello sviluppo delle capacità dei LMM. Ulteriori informazioni su LOKI sono disponibili su https://opendatalab.github.io/LOKI/
La comprensione e la generazione multimodale intercalata, che permettono ai modelli di produrre e interpretare immagini e testo in sequenze arbitrarie, sono diventate un'area fondamentale nell'apprendimento multimodale. Nonostante significativi progressi, la valutazione di questa capacità rimane insufficiente. I benchmark esistenti presentano limitazioni in termini di scala dei dati, ambito e profondità della valutazione, mentre le attuali metriche di valutazione sono spesso costose o tendenziose, mancando di affidabilità per applicazioni pratiche. Per affrontare queste sfide, presentiamo MMIE, un benchmark di conoscenza su larga scala per valutare la comprensione e la generazione multimodale intercalata nei Grandi Modelli Visione-Linguaggio (LVLMs). MMIE include 20.000 query multimodali accuratamente selezionate, che spaziano su 3 categorie, 12 campi e 102 sottocampi, tra cui matematica, codifica, fisica, letteratura, salute e arte. Supporta sia input che output intercalati, offrendo una combinazione di formati di domande a scelta multipla e aperte per valutare competenze diverse. Inoltre, proponiamo una metrica di valutazione automatizzata affidabile, sfruttando un modello di punteggio ottimizzato con dati annotati dall'uomo e criteri di valutazione sistematici, mirati a ridurre i bias e migliorare l'accuratezza della valutazione. Estesi esperimenti dimostrano l'efficacia del nostro benchmark e delle metriche nel fornire una valutazione completa dei LVLM intercalati. In particolare, valutiamo otto LVLM, rivelando che anche i modelli migliori mostrano significativi margini di miglioramento, con la maggior parte che raggiunge solo risultati moderati. Crediamo che MMIE favorirà ulteriori progressi nello sviluppo dei LVLM intercalati. Rilasciamo pubblicamente il nostro benchmark e il codice su https://mmie-bench.github.io/.
Seguire istruzioni naturali è cruciale per l'applicazione efficace dei sistemi di Generazione con Recupero potenziato (RAG). Nonostante i recenti progressi nei Grandi Modelli Linguistici (LLM), la ricerca sull'valutazione e miglioramento dell'allineamento con il seguire istruzioni (IF) nel dominio RAG rimane limitata. Per affrontare questo problema, proponiamo VIF-RAG, il primo pipeline sintetico automatizzato, scalabile e verificabile per l'allineamento con il seguire istruzioni nei sistemi RAG. Iniziamo creando manualmente un insieme minimo di istruzioni atomiche (<100) e sviluppando regole di combinazione per sintetizzare e verificare istruzioni complesse per un insieme iniziale. Successivamente utilizziamo modelli supervisionati per la riscrittura delle istruzioni, generando contemporaneamente codice per automatizzare la verifica della qualità delle istruzioni tramite un esecutore Python. Infine, integriamo queste istruzioni con ampie campionature di dati RAG e generali, scalando fino a un dataset VIF-RAG-QA di alta qualità (>100k) attraverso processi automatizzati. Per colmare ulteriormente il divario nell'autovalutazione del seguire istruzioni per i sistemi RAG, introduciamo il Benchmark FollowRAG, che include circa 3K campioni di test, coprendo 22 categorie di vincoli di istruzioni generali e quattro dataset QA intensivi di conoscenza. Grazie al robusto design del pipeline di FollowRAG, può integrarsi senza soluzione di continuità con diversi benchmark RAG. Utilizzando FollowRAG e otto benchmark ampiamente utilizzati per le capacità IF e fondamentali dei LLM, dimostriamo che VIF-RAG migliora notevolmente le prestazioni dei LLM su una vasta gamma di vincoli di istruzioni generali, sfruttando efficacemente le sue capacità in scenari RAG. Un'ulteriore analisi offre spunti pratici per raggiungere l'allineamento con il seguire istruzioni nei sistemi RAG. Il nostro codice e i dataset sono disponibili su https://FollowRAG.github.io.
Presentiamo MEGA-Bench, una suite di valutazione che scala la valutazione multimodale a oltre 500 compiti del mondo reale, per affrontare i casi d'uso altamente eterogenei degli utenti finali. Il nostro obiettivo è ottimizzare un insieme di campioni di dati di alta qualità che coprano una vasta gamma di compiti multimodali, consentendo nel contempo una valutazione dei modelli economica e accurata. In particolare, abbiamo raccolto 505 compiti realistici che comprendono oltre 8.000 campioni da 16 annotatori esperti per coprire ampiamente lo spazio dei compiti multimodali. Invece di unificare questi problemi in domande a scelta multipla standard (come MMMU, MMBench e MMT-Bench), abbracciamo una vasta gamma di formati di output come numeri, frasi, codice, \LaTeX, coordinate, JSON, libero, ecc. Per adattarsi a questi formati, abbiamo sviluppato oltre 40 metriche per valutare questi compiti. A differenza dei benchmark esistenti, MEGA-Bench offre un rapporto di capacità dettagliato su più dimensioni (ad esempio, applicazione, tipo di input, formato di output, competenza), consentendo agli utenti di interagire e visualizzare le capacità del modello in profondità. Valutiamo una vasta gamma di modelli di visione-linguaggio all'avanguardia su MEGA-Bench per comprendere le loro capacità attraverso queste dimensioni.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLM) hanno portato a significativi avanzamenti nelle capacità di ragionamento matematico. Tuttavia, benchmark esistenti come GSM8K o MATH stanno ora venendo risolti con alta precisione (ad esempio, OpenAI o1 raggiunge il 94,8% sul dataset MATH), indicando la loro inadeguatezza nel mettere veramente alla prova questi modelli. Per colmare questa lacuna, proponiamo un benchmark completo e sfidante appositamente progettato per valutare il ragionamento matematico dei LLM a livello olimpico. A differenza dei benchmark olimpici esistenti, il nostro dataset si concentra esclusivamente sulla matematica e comprende una vasta raccolta di 4428 problemi di livello competitivo con un'annotazione umana rigorosa. Questi problemi sono categorizzati meticolosamente in oltre 33 sub-dominii e coprono più di 10 livelli di difficoltà distinti, consentendo una valutazione olistica delle prestazioni del modello nel ragionamento matematico olimpico. Inoltre, abbiamo condotto un'analisi approfondita basata su questo benchmark. I nostri risultati sperimentali mostrano che anche i modelli più avanzati, OpenAI o1-mini e OpenAI o1-preview, faticano con problemi di livello olimpico altamente sfidanti, con una precisione del 60,54% e del 52,55%, evidenziando significativi ostacoli nel ragionamento matematico di livello olimpico.
I modelli generativi trasformano rumore casuale in immagini; la loro inversione mira a trasformare le immagini in rumore strutturato per il ripristino e l'editing. Questo articolo affronta due compiti chiave: (i) inversione e (ii) editing di un'immagine reale utilizzando equivalenti stocastici di modelli di flusso rettificato (come Flux). Anche se i Modelli a Diffusione (DMs) hanno recentemente dominato il campo della modellazione generativa per le immagini, la loro inversione presenta sfide di fedeltà ed editabilità a causa delle non linearità nella deriva e nella diffusione. Gli approcci di inversione DM all'avanguardia esistenti si basano sulla formazione di parametri aggiuntivi o sull'ottimizzazione dei parametri latenti al momento del test; entrambi sono costosi nella pratica. I Flussi Raddrizzati (RFs) offrono un'alternativa promettente ai modelli di diffusione, tuttavia la loro inversione è stata poco esplorata. Proponiamo l'inversione RF utilizzando un controllo ottimale dinamico derivato tramite un regolatore quadratico lineare. Dimostriamo che il campo vettoriale risultante è equivalente a un'equazione differenziale stocastica raddrizzata. Inoltre, estendiamo il nostro framework per progettare un campionatore stocastico per Flux. Il nostro metodo di inversione consente prestazioni all'avanguardia nell'inversione e nell'editing senza training, superando i lavori precedenti nella sintesi da tratto a immagine e nell'editing semantico delle immagini, con valutazioni umane su larga scala che confermano la preferenza dell'utente.
L'addestramento su larga scala di modelli multimodali su dati raccolti dal web ha dimostrato un'utilità eccezionale nel fornire a tali modelli le conoscenze del mondo necessarie per operare efficacemente su molteplici compiti successivi. Tuttavia, uno svantaggio del web scraping può essere il potenziale sacrificio dei benchmark su cui spesso vengono valutate le capacità di questi modelli. Per proteggere contro la contaminazione dei dati di test e testare veramente le capacità di questi modelli fondamentali, proponiamo LiveXiv: un benchmark live scalabile in evoluzione basato su articoli scientifici ArXiv. LiveXiv accede ai manoscritti specifici del dominio in qualsiasi istante temporale e propone di generare automaticamente coppie domanda-risposta visive (VQA). Ciò avviene senza alcun intervento umano, utilizzando i contenuti multimodali nei manoscritti, come grafici, tabelle e diagrammi. Inoltre, introduciamo un approccio di valutazione efficiente che stima le prestazioni di tutti i modelli sul benchmark in evoluzione utilizzando valutazioni solo su un sottoinsieme di modelli. Ciò riduce significativamente il costo complessivo della valutazione. Mettiamo a confronto vari modelli multimodali Large (LMM) aperti e proprietari sulla prima versione del nostro benchmark, dimostrandone la natura impegnativa ed esponendo le vere capacità dei modelli, evitando la contaminazione. Infine, nel nostro impegno per l'alta qualità, abbiamo raccolto ed valutato un sottoinsieme verificato manualmente. Confrontando i risultati complessivi con le nostre annotazioni automatiche, abbiamo riscontrato una variazione delle prestazioni effettivamente minima (<2,5%). Il nostro dataset è disponibile online su HuggingFace, e il nostro codice sarà disponibile qui.
Il recupero potenziato dalla generazione (RAG) è una tecnica efficace che consente ai grandi modelli linguistici (LLM) di utilizzare fonti di conoscenza esterne per la generazione. Tuttavia, i sistemi RAG attuali si basano esclusivamente sul testo, rendendo impossibile utilizzare informazioni visive come layout e immagini che svolgono ruoli cruciali nei documenti multi-modalità del mondo reale. In questo articolo, presentiamo VisRAG, che affronta questo problema stabilendo un flusso di lavoro RAG basato su un modello visione-linguaggio (VLM). In questo flusso di lavoro, anziché analizzare prima il documento per ottenere il testo, il documento viene direttamente incorporato utilizzando un VLM come immagine e quindi recuperato per potenziare la generazione di un VLM. Rispetto al tradizionale RAG basato sul testo, VisRAG massimizza la conservazione e l'utilizzo delle informazioni dei dati nei documenti originali, eliminando la perdita di informazioni introdotta durante il processo di analisi. Raccogliamo sia dati open-source che dati sintetici per addestrare il recuperatore in VisRAG ed esplorare una varietà di metodi di generazione. Gli esperimenti dimostrano che VisRAG supera il tradizionale RAG sia nelle fasi di recupero che di generazione, ottenendo un aumento delle prestazioni end-to-end del 25-39% rispetto al tradizionale flusso di lavoro RAG basato sul testo. Ulteriori analisi rivelano che VisRAG è efficace nell'utilizzo dei dati di addestramento e dimostra una forte capacità di generalizzazione, posizionandolo come una soluzione promettente per il RAG su documenti multi-modalità. Il nostro codice e i dati sono disponibili su https://github.com/openbmb/visrag.
Negli ultimi anni ci sono stati notevoli progressi nella generazione di immagini a video. Tuttavia, la coerenza tridimensionale e la controllabilità della telecamera dei frame generati sono rimaste irrisolte. Studi recenti hanno cercato di incorporare il controllo della telecamera nel processo di generazione, ma i loro risultati sono spesso limitati a traiettorie semplici o mancano della capacità di generare video coerenti da percorsi di telecamera multipli distinti per la stessa scena. Per affrontare queste limitazioni, presentiamo Cavia, un nuovo framework per la generazione di video multi-view controllabili dalla telecamera, in grado di convertire un'immagine di input in video spaziotemporalmente coerenti multipli. Il nostro framework estende i moduli di attenzione spaziale e temporale in moduli di attenzione integrati alla vista, migliorando sia la coerenza del punto di vista che quella temporale. Questo design flessibile consente un addestramento congiunto con diverse fonti di dati selezionate, tra cui video statici a livello di scena, video dinamici multi-view sintetici a livello di oggetto e video dinamici monocolore del mondo reale. Per quanto ne sappiamo, Cavia è il primo nel suo genere che consente all'utente di specificare con precisione il movimento della telecamera ottenendo contemporaneamente il movimento dell'oggetto. Estesi esperimenti dimostrano che Cavia supera i metodi all'avanguardia in termini di coerenza geometrica e qualità percettiva. Pagina del progetto: https://ir1d.github.io/Cavia/
Gli LLM sono tipicamente addestrati per rispondere alle domande degli utenti o seguire istruzioni in modo simile a come rispondono gli esperti umani. Tuttavia, nel framework di allineamento standard mancano della capacità basilare di pensiero esplicito prima di rispondere. Il pensiero è importante per domande complesse che richiedono ragionamento e pianificazione - ma può essere applicato a qualsiasi compito. Proponiamo un metodo di addestramento per dotare gli LLM esistenti di tali capacità di pensiero per seguire istruzioni generali senza l'uso di ulteriori dati umani. Raggiungiamo questo obiettivo attraverso una procedura di ricerca e ottimizzazione iterativa che esplora lo spazio delle possibili generazioni di pensiero, consentendo al modello di imparare come pensare senza supervisione diretta. Per ciascuna istruzione, i candidati al pensiero vengono valutati utilizzando un modello giudice per valutare solo le loro risposte, e quindi ottimizzati tramite ottimizzazione delle preferenze. Dimostriamo che questa procedura porta a prestazioni superiori su AlpacaEval e Arena-Hard, e mostra vantaggi dal pensare nelle categorie non di ragionamento come marketing, salute e conoscenze generali, oltre a compiti più tradizionali di ragionamento e risoluzione dei problemi.
Comprendere le dinamiche temporali dettagliate è cruciale per la comprensione e la generazione di video multimodali. A causa della mancanza di annotazioni temporali dettagliate, i benchmark video esistenti assomigliano principalmente ai benchmark di immagini statiche e non sono in grado di valutare in modo adeguato i modelli per la comprensione temporale. In questo articolo, presentiamo TemporalBench, un nuovo benchmark dedicato alla valutazione della comprensione temporale dettagliata nei video. TemporalBench è composto da circa 10.000 coppie domanda-risposta video, derivate da circa 2.000 annotazioni umane di alta qualità che dettagliano le dinamiche temporali nei video. Di conseguenza, il nostro benchmark fornisce un banco di prova unico per valutare varie abilità di comprensione e ragionamento temporale come la frequenza delle azioni, l'entità del movimento, l'ordine degli eventi, ecc. Inoltre, consente valutazioni su varie attività come la risposta alle domande sui video e la sottotitolazione, la comprensione di video brevi e lunghi, nonché diversi modelli come i modelli di incorporamento video multimodali e i modelli di generazione di testo. I risultati mostrano che i modelli all'avanguardia come GPT-4o raggiungono solo il 38,5% di accuratezza nella risposta alle domande su TemporalBench, dimostrando un divario significativo (~30%) tra gli esseri umani e l'IA nella comprensione temporale. Inoltre, notiamo una falla critica per le domande a risposta multipla in cui i LLM possono rilevare i cambiamenti sottili nelle didascalie negative e trovare una descrizione centralizzata come suggerimento per la previsione, dove proponiamo l'Accuratezza Binaria Multipla (MBA) per correggere tale distorsione. Speriamo che TemporalBench possa promuovere la ricerca sull'ottimizzazione delle capacità di ragionamento temporale dei modelli. Sia il set di dati che il codice di valutazione saranno resi disponibili.
Il fine-tuning supervisionato (SFT) è cruciale per allineare i Grandi Modelli Linguistici (LLM) con le istruzioni umane. L'obiettivo principale durante l'SFT è selezionare un sottoinsieme ridotto ma rappresentativo di dati di addestramento dal pool più ampio, in modo che il fine-tuning con questo sottoinsieme raggiunga risultati paragonabili o addirittura superiori a quelli ottenuti utilizzando l'intero dataset. Tuttavia, la maggior parte delle tecniche esistenti di selezione dei dati sono progettate per pool di dati su piccola scala, che non soddisfano le esigenze degli scenari reali di SFT. In questo articolo, abbiamo replicato diversi metodi di auto-punteggio che non dipendono dall'assistenza di modelli esterni su dataset su scala di due milioni e abbiamo scoperto che quasi tutti i metodi faticavano a superare significativamente la selezione casuale quando si trattava di pool di dati su larga scala. Inoltre, i nostri confronti suggeriscono che, durante l'SFT, la diversità nella selezione dei dati è più critica che concentrarsi semplicemente su dati di alta qualità. Abbiamo anche analizzato i limiti di diversi approcci attuali, spiegando perché si comportano male su dataset su larga scala e perché non sono adatti per tali contesti. Infine, abbiamo scoperto che filtrare i dati per lunghezza del token offre un metodo stabile ed efficiente per migliorare i risultati. Questo approccio, in particolare durante l'addestramento su dati di testo lungo, si dimostra altamente vantaggioso per modelli di base relativamente più deboli, come Llama3.
I recenti sistemi di assistenti chat basati su grandi modelli linguistici (LLM) hanno integrato componenti di memoria per tracciare la cronologia delle chat tra utente e assistente, consentendo risposte più accurate e personalizzate. Tuttavia, le capacità di memoria a lungo termine nelle interazioni prolungate rimangono poco esplorate. Questo articolo presenta LongMemEval, un benchmark completo progettato per valutare cinque abilità fondamentali di memoria a lungo termine degli assistenti chat: estrazione delle informazioni, ragionamento multi-sessione, ragionamento temporale, aggiornamenti della conoscenza e astensione. Con 500 domande accuratamente selezionate incorporate all'interno di cronologie di chat tra utente e assistente liberamente scalabili, LongMemEval rappresenta una sfida significativa per i sistemi di memoria a lungo termine esistenti, con assistenti chat commerciali e LLM a lungo contesto che mostrano una diminuzione del 30% nell'accuratezza nel memorizzare informazioni durante interazioni prolungate. Successivamente presentiamo un framework unificato che suddivide il design della memoria a lungo termine in quattro scelte progettuali tra le fasi di indicizzazione, recupero e lettura. Basandoci su importanti intuizioni sperimentali, proponiamo diversi design di memoria tra cui la decomposizione della sessione per ottimizzare la granularità del valore, l'espansione chiave arricchita di fatti per migliorare la struttura dell'indice e l'espansione della query consapevole del tempo per affinare l'ambito di ricerca. I risultati sperimentali mostrano che queste ottimizzazioni migliorano notevolmente sia il richiamo della memoria che la risposta alle domande successive su LongMemEval. Nel complesso, il nostro studio fornisce risorse preziose e linee guida per migliorare le capacità di memoria a lungo termine degli assistenti chat basati su LLM, aprendo la strada verso un'intelligenza artificiale conversazionale più personalizzata e affidabile.
L'avvento dei grandi Modelli Visione-Linguaggio (VLM) ha notevolmente avanzato la comprensione multimodale, consentendo un'integrazione più sofisticata e accurata delle informazioni visive e testuali in varie attività, tra cui didascalie di immagini e video, risposte a domande visive e recupero cross-modale. Nonostante le capacità superiori dei VLM, i ricercatori mancano di una comprensione esaustiva della loro composizionalità - la capacità di comprendere e produrre nuove combinazioni di componenti visivi e testuali conosciuti. I benchmark precedenti forniscono solo una valutazione relativamente approssimativa della composizionalità dal punto di vista degli oggetti, delle relazioni e degli attributi, trascurando un ragionamento più approfondito sugli oggetti, il conteggio e le composizioni complesse. Tuttavia, la composizionalità è una capacità critica che facilita un ragionamento coerente e la comprensione tra modalità per i VLM. Per affrontare questa limitazione, proponiamo MMCOMPOSITION, un nuovo benchmark annotato da umani per valutare in modo esaustivo e accurato la composizionalità dei VLM. Il nostro benchmark proposto funge da complemento a questi lavori precedenti. Con MMCOMPOSITION, possiamo quantificare ed esplorare la composizionalità dei VLM di punta. Sorprendentemente, troviamo che la composizionalità di GPT-4o è inferiore al miglior modello open-source, e analizziamo le ragioni sottostanti. La nostra analisi sperimentale rivela i limiti dei VLM nella percezione e nel ragionamento compositivo dettagliato, e indica aree per miglioramenti nel design e nell'addestramento dei VLM. Risorse disponibili su: https://hanghuacs.github.io/MMComposition/
I Grandi Modelli Linguistici (LLM) hanno dimostrato prestazioni notevoli su molteplici compiti attraverso l'apprendimento in contesto. Per compiti di ragionamento complesso che richiedono un pensiero passo dopo passo, la sollecitazione Chain-of-Thought (CoT) ha fornito risultati impressionanti, specialmente quando combinata con l'auto-coerenza. Tuttavia, alcuni compiti rimangono particolarmente difficili da risolvere per i LLM. L'albero dei Pensieri (ToT) e il Grafo dei Pensieri (GoT) sono emersi come alternative, suddividendo il problema complesso in percorsi di sottoproblemi. In questo articolo, proponiamo l'Albero dei Problemi (ToP), una versione più semplice di ToT, che ipotizziamo possa funzionare meglio per compiti complessi che possono essere suddivisi in sottotasks identici. I nostri risultati empirici mostrano che il nostro approccio supera ToT e GoT, e inoltre si comporta meglio di CoT su compiti di ragionamento complesso. Tutto il codice per questo articolo è pubblicamente disponibile qui: https://github.com/ArmelRandy/tree-of-problems.
Il dispiegamento di modelli linguistici di grandi dimensioni con contesto lungo (LLM) è essenziale ma pone notevoli sfide computazionali e di memoria. Memorizzare tutti gli stati Chiave e Valore (KV) attraverso tutte le testate di attenzione richiede una quantità significativa di memoria. I metodi esistenti di potatura della cache KV danneggiano le capacità di contesto lungo dei LLM o offrono solo miglioramenti limitati in termini di efficienza. In questo articolo, identifichiamo che solo una frazione delle testate di attenzione, note come Testate di Recupero, sono cruciali per elaborare contesti lunghi e richiedono attenzione completa su tutti i token. Al contrario, tutte le altre testate, che si concentrano principalmente sui token recenti e sui punti di attenzione - definiti come Testate di Streaming - non richiedono attenzione completa. Basandoci su questa intuizione, presentiamo DuoAttention, un framework che applica una cache KV completa solo alle testate di recupero, utilizzando una cache KV leggera e di lunghezza costante per le testate di streaming, riducendo sia la memoria di decodifica che di precaricamento dei LLM e la latenza senza compromettere le loro capacità di contesto lungo. DuoAttention utilizza un algoritmo leggero basato sull'ottimizzazione con dati sintetici per identificare con precisione le testate di recupero. Il nostro metodo riduce significativamente la memoria di inferenza del contesto lungo fino a 2,55 volte per i modelli MHA e 1,67 volte per i modelli GQA, accelerando la decodifica fino a 2,18 volte e 1,50 volte e velocizzando il precaricamento fino a 1,73 volte e 1,63 volte per i modelli MHA e GQA, rispettivamente, con una perdita minima di accuratezza rispetto all'attenzione completa. In particolare, combinato con la quantizzazione, DuoAttention consente la decodifica di Llama-3-8B con una lunghezza di contesto di 3,3 milioni su una singola GPU A100. Il codice è disponibile su https://github.com/mit-han-lab/duo-attention.
I robot umanoidi capaci di operare autonomamente in ambienti diversi sono da tempo un obiettivo per i ricercatori nel campo della robotica. Tuttavia, la manipolazione autonoma da parte dei robot umanoidi è stata principalmente limitata a una scena specifica, principalmente a causa della difficoltà nel acquisire competenze generalizzabili. Gli avanzamenti recenti nelle politiche visuomotorie 3D, come la Politica di Diffusione 3D (DP3), hanno mostrato promesse nel estendere tali capacità a ambienti più selvaggi. Tuttavia, le politiche visuomotorie 3D spesso dipendono dalla calibrazione della fotocamera e dalla segmentazione del cloud di punti, che presentano sfide per l'implementazione su robot mobili come i robot umanoidi. In questo lavoro, presentiamo la Politica di Diffusione 3D Migliorata (iDP3), una nuova politica visuomotoria 3D che elimina tali vincoli sfruttando rappresentazioni visive 3D egocentriche. Dimostriamo che iDP3 consente a un robot umanoide a grandezza naturale di eseguire autonomamente abilità in diversi scenari del mondo reale, utilizzando solo dati raccolti in laboratorio. I video sono disponibili su: https://humanoid-manipulation.github.io
I grandi modelli linguistici hanno dimostrato un'impressionante performance quando integrati con i modelli di visione, consentendo persino la comprensione dei video. Tuttavia, valutare questi modelli video presenta le proprie sfide uniche, per le quali sono state proposte diverse linee guida. In questo articolo, mostriamo che i benchmark video-linguaggio attualmente più utilizzati possono essere risolti senza richiedere un'elevata capacità di ragionamento temporale. Abbiamo identificato tre principali problematiche nei dataset esistenti: (i) le informazioni statiche dai singoli frame sono spesso sufficienti per risolvere i compiti, (ii) il testo delle domande e delle risposte candidate è eccessivamente informativo, consentendo ai modelli di rispondere correttamente senza fare affidamento su alcun input visivo, (iii) la conoscenza del mondo da sola può rispondere a molte delle domande, rendendo i benchmark un test di replicazione della conoscenza piuttosto che di ragionamento visivo. Inoltre, abbiamo scoperto che i benchmark di domande a risposta aperta per la comprensione dei video presentano problemi simili, mentre il processo di valutazione automatica con LLM è poco affidabile, rendendolo un'alternativa non adatta. Come soluzione, proponiamo TVBench, un nuovo benchmark open-source di domande a risposta multipla per i video, e dimostriamo attraverso valutazioni approfondite che richiede un elevato livello di comprensione temporale. Sorprendentemente, abbiamo scoperto che la maggior parte dei modelli video-linguaggio all'avanguardia più recenti hanno prestazioni simili a quelle casuali su TVBench, con solo Gemini-Pro e Tarsier che superano chiaramente questa base di confronto.
Utilizziamo nuovi strumenti dall'interpretabilità meccanicistica per verificare se la struttura interna dei grandi modelli linguistici (LLM) mostri corrispondenza alle strutture linguistiche che sottendono alle lingue su cui sono addestrati. In particolare, ci chiediamo (1) quando due lingue impiegano gli stessi processi morfosintattici, i LLM li gestiscono utilizzando circuiti interni condivisi? e (2) quando due lingue richiedono processi morfosintattici diversi, i LLM li gestiscono utilizzando circuiti interni differenti? Utilizzando modelli multilingue e monolingue in inglese e cinese, analizziamo i circuiti interni coinvolti in due compiti. Troviamo prove che i modelli impiegano lo stesso circuito per gestire lo stesso processo sintattico indipendentemente dalla lingua in cui si verifica, e che questo vale anche per i modelli monolingue addestrati completamente in modo indipendente. Inoltre, mostriamo che i modelli multilingue impiegano componenti specifiche della lingua (head di attenzione e reti feed-forward) quando necessario per gestire processi linguistici (ad esempio, marcature morfologiche) che esistono solo in alcune lingue. Insieme, i nostri risultati forniscono nuove prospettive su come i LLM bilanciano tra sfruttare strutture comuni e preservare differenze linguistiche quando devono modellare contemporaneamente più lingue.
LayerNorm è un componente critico nei moderni modelli di linguaggio di grandi dimensioni (LLM) per stabilizzare l'addestramento e garantire un'ottimizzazione regolare. Tuttavia, introduce significativi problemi nell'interpretabilità meccanicistica, nella soppressione delle caratteristiche anomale, nella fedele propagazione del segnale e nella complessità computazionale e comunicativa dell'inferenza privata. Questo lavoro esplora le funzioni di attivazione desiderabili nei LLM decoder-only privi di normalizzazione. Contrariamente alla preferenza convenzionale per il GELU nei modelli basati su trasformatori, i nostri risultati empirici dimostrano una tendenza opposta: il ReLU supera significativamente il GELU nei modelli privi di LayerNorm, portando a un miglioramento del 8.2% della perplessità. Scopriamo un problema chiave con il GELU, dove i livelli iniziali subiscono un sovraccarico entropico, portando alla sottoutilizzazione della capacità rappresentativa delle teste di attenzione. Questo sottolinea che attivazioni più regolari come il GELU non sono adatte alle architetture prive di LayerNorm, mentre le proprietà geometriche del ReLU - specializzazione nello spazio di input e selettività intra-classe - portano a una dinamica di apprendimento migliorata e a una migliore ritenzione delle informazioni in assenza di LayerNorm. Questo studio offre importanti spunti per ottimizzare le architetture dei trasformatori in cui LayerNorm introduce significativi problemi.
Introduciamo il Preallenamento delle Azioni Latenti per modelli di Azione generale (LAPA), un metodo non supervisionato per il preallenamento dei modelli Visione-Linguaggio-Azione (VLA) senza etichette di azione del robot di verità fondamentale. I modelli esistenti Visione-Linguaggio-Azione richiedono etichette di azione tipicamente raccolte da teleoperatori umani durante il preallenamento, il che limita significativamente le possibili fonti di dati e la scala. In questo lavoro, proponiamo un metodo per apprendere da video su scala internet che non hanno etichette di azione del robot. Prima addestriamo un modello di quantizzazione delle azioni sfruttando un obiettivo basato su VQ-VAE per apprendere azioni latenti discrete tra i frame dell'immagine, quindi prealleniamo un modello VLA latente per predire queste azioni latenti dalle osservazioni e dalle descrizioni delle attività, e infine raffiniamo il VLA su dati di manipolazione del robot su piccola scala per mappare dalle azioni latenti alle azioni del robot. I risultati sperimentali dimostrano che il nostro metodo supera significativamente le tecniche esistenti che addestrano politiche di manipolazione del robot da video su larga scala. Inoltre, supera il modello VLA all'avanguardia addestrato con etichette di azione robotica su compiti di manipolazione del mondo reale che richiedono condizionamento linguistico, generalizzazione a oggetti non visti e generalizzazione semantica a istruzioni non viste. L'addestramento solo su video di manipolazione umana mostra anche un trasferimento positivo, aprendo il potenziale per sfruttare i dati su scala web per il modello fondamentale della robotica.