Articoli di ricerca IA selezionati quotidianamente con traduzioni
La capacità di interpretare accuratamente informazioni visive complesse è un argomento cruciale dei modelli linguistici multimodali di grandi dimensioni (MLLM). Lavori recenti indicano che una percezione visiva potenziata riduce significativamente le allucinazioni e migliora le prestazioni su compiti sensibili alla risoluzione, come il riconoscimento ottico dei caratteri e l'analisi dei documenti. Diversi MLLM recenti raggiungono questo obiettivo utilizzando una combinazione di codificatori visivi. Nonostante il loro successo, mancano confronti sistematici e dettagliati studi di ablazione che affrontino aspetti critici, come la selezione degli esperti e l'integrazione di più esperti visivi. Questo studio fornisce un'ampia esplorazione dello spazio di progettazione per i MLLM utilizzando una combinazione di codificatori visivi e risoluzioni. Le nostre scoperte rivelano diversi principi sottostanti comuni a varie strategie esistenti, portando a un approccio di progettazione snello ma efficace. Scopriamo che semplicemente concatenare token visivi da un insieme di codificatori visivi complementari è altrettanto efficace quanto architetture o strategie di miscelazione più complesse. Introduciamo inoltre il Pre-Allineamento per colmare il divario tra i codificatori focalizzati sulla visione e i token linguistici, migliorando la coerenza del modello. La famiglia risultante di MLLM, Eagle, supera gli altri principali modelli open-source su importanti benchmark di MLLM. Modelli e codice: https://github.com/NVlabs/Eagle
Le capacità generali dei Grandi Modelli Linguistici (LLM) dipendono fortemente dalla composizione e dalla selezione di ampi set di dati di preaddestramento, considerati segreti commerciali da diverse istituzioni. Per mitigare questo problema, apriamo i dettagli di un flusso di elaborazione dati universalmente applicabile e ne convalidiamo l'efficacia e il potenziale presentando un modello LLM competitivo di base. In particolare, il flusso di elaborazione dati consiste nella raccolta ampia per aumentare la scala e nel ricalcolo per migliorare la qualità. Successivamente preaddestriamo un modello BaichuanSEED da 7 miliardi di parametri con 3 trilioni di token elaborati dal nostro flusso senza alcuna ottimizzazione deliberata relativa al compito downstream, seguito da una fase di raffinamento supervisionato semplice ma efficace. BaichuanSEED dimostra coerenza e prevedibilità durante l'addestramento e raggiunge prestazioni comparabili su benchmark completi con diversi modelli linguistici avanzati commerciali di grandi dimensioni, come Qwen1.5 e Llama3. Conduciamo inoltre diversi esperimenti euristici per discutere il potenziale per ulteriori ottimizzazioni dei compiti downstream, come matematica e codifica.
Questo articolo presenta Dolphin, una nuova architettura decoder-decoder per l'elaborazione efficiente in termini energetici di contesti lunghi nei modelli linguistici. Il nostro approccio affronta le significative sfide di consumo energetico e latenza intrinseche nei modelli on-device. Dolphin impiega un decoder compatto con 0,5 miliardi di parametri per distillare informazioni contestuali estese in un'incorporazione di memoria, riducendo sostanzialmente la lunghezza dell'input per il modello decoder primario con 7 miliardi di parametri. Ispirandoci ai modelli visione-linguaggio, riadattiamo il proiettore di incorporazione delle immagini per codificare contesti testuali lunghi, trattando efficacemente il contesto esteso come una modalità distinta. Questo metodo innovativo consente di elaborare contesti notevolmente più lunghi senza il tipico sovraccarico computazionale associato alle sequenze di input estese. Valutazioni empiriche dimostrano un miglioramento di 10 volte nell'efficienza energetica e una riduzione di 5 volte nella latenza rispetto ai metodi convenzionali di elaborazione del contesto a piena lunghezza senza perdita di qualità della risposta. Il nostro lavoro contribuisce allo sviluppo di modelli linguistici più sostenibili e scalabili per applicazioni on-device, affrontando la necessità critica di tecnologie AI efficienti in termini energetici e reattive in ambienti con risorse limitate, mantenendo l'accuratezza per comprendere contesti lunghi. Questa ricerca ha implicazioni per il più ampio campo dell'elaborazione del linguaggio naturale, in particolare nel dominio della progettazione efficiente di modelli per contesti con risorse limitate. Abilitando capacità AI più sofisticate su dispositivi edge, Dolphin apre la strada all'elaborazione del linguaggio avanzata in una vasta gamma di applicazioni in cui le risorse computazionali sono preziose. Il modello Dolphin è pubblicamente disponibile su https://huggingface.co/NexaAIDev/Dolphin.
Introduciamo LLaVA-MoD, un nuovo framework progettato per consentire l'efficiente addestramento di Modelli di Linguaggio Multimodali su piccola scala (s-MLLM) mediante la distillazione della conoscenza da Modelli di Linguaggio Multimodali su larga scala (l-MLLM). Il nostro approccio affronta due sfide fondamentali nella distillazione dei MLLM. In primo luogo, ottimizziamo la struttura di rete degli s-MLLM integrando un'architettura sparsa a Mixture of Experts (MoE) nel modello linguistico, trovando un equilibrio tra efficienza computazionale ed espressività del modello. In secondo luogo, proponiamo una strategia progressiva di trasferimento di conoscenza per garantire una migrazione completa della conoscenza. Questa strategia inizia con la distillazione dell'imitazione, dove minimizziamo la divergenza Kullback-Leibler (KL) tra le distribuzioni di output per consentire al modello studente di emulare la comprensione della rete di insegnamento. Successivamente, introduciamo la distillazione delle preferenze tramite Ottimizzazione Diretta delle Preferenze (DPO), dove la chiave risiede nel trattare l-MLLM come modello di riferimento. Durante questa fase, la capacità degli s-MLLM di discriminare tra esempi superiori e inferiori viene significativamente potenziata rispetto a l-MLLM, portando a un migliore studente che supera il suo insegnante, in particolare nei benchmark di allucinazione. Estesi esperimenti dimostrano che LLaVA-MoD supera i modelli esistenti su vari benchmark multimodali mantenendo un numero minimo di parametri attivati e bassi costi computazionali. Notevolmente, LLaVA-MoD, con soli 2 miliardi di parametri attivati, supera Qwen-VL-Chat-7B in media dell'8,8% su tutti i benchmark, utilizzando solo lo 0,3% dei dati di addestramento e il 23% dei parametri addestrabili. Questi risultati sottolineano la capacità di LLaVA-MoD di distillare efficacemente una conoscenza completa dal suo modello di riferimento, aprendo la strada allo sviluppo di MLLM più efficienti. Il codice sarà disponibile su: https://github.com/shufangxun/LLaVA-MoD.
Nell'inferenza del Grande Modello Linguistico (LLM), la lunghezza dell'output di una richiesta LLM è tipicamente considerata non nota a priori. Di conseguenza, la maggior parte dei sistemi di servizio LLM utilizza una semplice strategia di scheduling First-come-first-serve (FCFS), che porta al blocco Head-Of-Line (HOL) e a una ridotta capacità e qualità del servizio. In questo articolo, riesaminiamo questa assunzione -- dimostriamo che, sebbene sia impossibile prevedere esattamente la lunghezza di generazione di ciascuna richiesta, è possibile prevedere i ranghi relativi delle lunghezze di output in un batch di richieste, utilizzando il learning to rank. Le informazioni sul ranking offrono preziose indicazioni per lo scheduling delle richieste. Sviluppando questa intuizione, progettiamo un nuovo scheduler per l'inferenza e il servizio LLM che può approssimare meglio il programma shortest-job-first (SJF) rispetto agli approcci esistenti. Integrando questo scheduler con il sistema di servizio LLM all'avanguardia, mostriamo un significativo miglioramento delle prestazioni in diverse applicazioni importanti: una riduzione del 2,8x della latenza nel servizio di chatbot e un aumento del 6,5x della capacità di generazione di dati sintetici. Il nostro codice è disponibile su https://github.com/hao-ai-lab/vllm-ltr.git
La coltivazione dell'esperienza per i grandi modelli linguistici (LLM) al fine di risolvere compiti di specifiche aree richiede spesso un'ottimizzazione specializzata con comportamenti calibrati sugli output stabili attesi. Per evitare i costi elevati derivanti dalla preparazione manuale di set di istruzioni e risorse di addestramento fino a centinaia di ore, lo sfruttamento della conoscenza aperta, comprensiva di una vasta gamma di modelli di adattamento a basso rango (LoRA) e set di istruzioni, rappresenta un buon punto di partenza. Tuttavia, i metodi esistenti sulla selezione di modelli e dati si concentrano sulle prestazioni delle capacità generiche trascurando il divario di conoscenza esposto nell'implementazione specifica del dominio. Nel presente studio, proponiamo di colmare tale divario introducendo pochi campioni annotati dall'uomo (cioè, K-shot) per far progredire l'esperienza dei modelli linguistici con conoscenza aperta. In particolare, sviluppiamo un efficiente e scalabile processo per produrre in modo economicamente vantaggioso esperti di compiti in cui i dati K-shot intervengono nella selezione dei candidati esperti più promettenti e delle istruzioni rilevanti per il compito. Viene costruito un sistema a miscela di esperti (MoE) per sfruttare al meglio le conoscenze individuali ma complementari tra diversi esperti. Sveliamo i due elementi chiave per il successo di un sistema MoE, 1) il rispetto di K-shot e 2) l'insistenza sulla diversità. Per il primo punto, ci assicuriamo che siano selezionati modelli che possiedono veramente capacità di risoluzione dei problemi su K-shot anziché indovinare alla cieca. Inoltre, durante la selezione dei dati, le istruzioni che condividono contesti rilevanti per il compito con K-shot sono prioritizzate. Per il secondo punto, sottolineiamo la diversità degli esperti costituenti e quella delle istruzioni di ottimizzazione durante il processo di selezione di modelli e dati. Estesi risultati sperimentali confermano la superiorità del nostro approccio rispetto ai metodi esistenti sull'utilizzo della conoscenza aperta in vari compiti. Codici e modelli saranno rilasciati successivamente.
Accelerare la velocità di campionamento dei modelli di diffusione rimane una sfida significativa. I recenti metodi di distillazione dei punteggi distillano un modello docente pesante in un generatore studente a un passo, ottimizzato calcolando la differenza tra le due funzioni di punteggio sui campioni generati dal modello studente. Tuttavia, c'è un problema di discrepanza dei punteggi nelle prime fasi del processo di distillazione, poiché i metodi esistenti si concentrano principalmente sull'utilizzo del punto finale dei modelli di diffusione preaddestrati come modelli docenti, trascurando l'importanza della traiettoria di convergenza tra il generatore studente e il modello docente. Per affrontare questo problema, estendiamo il processo di distillazione dei punteggi introducendo l'intera traiettoria di convergenza dei modelli docenti e proponiamo la Distillazione del Backtracking della Distribuzione (DisBack) per la distillazione dei generatori studente. DisBack è composto da due fasi: Registrazione della Degradazione e Backtracking della Distribuzione. La Registrazione della Degradazione è progettata per ottenere la traiettoria di convergenza dei modelli docenti, che registra il percorso di degrado dal modello docente addestrato al generatore studente iniziale non addestrato. Il percorso di degrado rappresenta implicitamente le distribuzioni intermedie dei modelli docenti. Successivamente, il Backtracking della Distribuzione addestra un generatore studente a seguire le distribuzioni intermedie per approssimare la traiettoria di convergenza dei modelli docenti. Gli esperimenti estensivi mostrano che DisBack raggiunge una convergenza più veloce e migliore rispetto al metodo di distillazione esistente e raggiunge prestazioni di generazione comparabili. In particolare, DisBack è facile da implementare e può essere generalizzato ai metodi di distillazione esistenti per migliorarne le prestazioni. Il nostro codice è pubblicamente disponibile su https://github.com/SYZhang0805/DisBack.
La crescita esponenziale della letteratura scientifica rende necessario l'utilizzo di strumenti avanzati per un'esplorazione efficace della conoscenza. Presentiamo Knowledge Navigator, un sistema progettato per potenziare le capacità di ricerca esplorativa organizzando e strutturando i documenti recuperati da ampie query tematiche in una gerarchia navigabile a due livelli di argomenti scientifici nominati e descrittivi e sottotematiche. Questa organizzazione strutturata fornisce una visione generale dei temi di ricerca in un dominio, consentendo anche ricerche iterative e una scoperta più approfondita della conoscenza all'interno di specifiche sottotematiche, permettendo agli utenti di affinare il loro focus e recuperare documenti aggiuntivi pertinenti. Knowledge Navigator combina le capacità di LLM con metodi basati su cluster per consentire un metodo di navigazione efficace. Dimostriamo l'efficacia del nostro approccio attraverso valutazioni automatiche e manuali su due nuovi benchmark, CLUSTREC-COVID e SCITOC. Il nostro codice, i prompt e i benchmark sono resi pubblicamente disponibili.
Per i modelli Mixture-of-Experts (MoE), un carico di esperti sbilanciato porterà al collasso del routing o a un aumento del carico computazionale. I metodi esistenti comunemente utilizzano una perdita ausiliaria per incoraggiare il bilanciamento del carico, ma una grande perdita ausiliaria introdurrà gradienti di interferenza non trascurabili durante l'addestramento e comprometterà quindi le prestazioni del modello. Al fine di controllare il bilanciamento del carico senza produrre gradienti indesiderati durante l'addestramento, proponiamo il Bilanciamento Senza Perdita, caratterizzato da una strategia di bilanciamento del carico senza perdita ausiliaria. Per essere specifici, prima della decisione di routing top-K, il Bilanciamento Senza Perdita applicherà innanzitutto un bias specifico per esperto ai punteggi di routing di ciascun esperto. Aggiornando dinamicamente il bias di ciascun esperto in base al suo carico recente, il Bilanciamento Senza Perdita può mantenere costantemente una distribuzione bilanciata del carico degli esperti. Inoltre, poiché il Bilanciamento Senza Perdita non produce alcun gradiente di interferenza, aumenta anche il limite superiore delle prestazioni del modello ottenute dall'addestramento MoE. Confermiamo le prestazioni del Bilanciamento Senza Perdita su modelli MoE con fino a 3 miliardi di parametri addestrati su fino a 200 miliardi di token. I risultati sperimentali mostrano che il Bilanciamento Senza Perdita ottiene sia migliori prestazioni sia un miglior bilanciamento del carico rispetto alle tradizionali strategie di bilanciamento del carico controllate da perdite ausiliarie.
Mentre l'architettura Mamba dimostra una superiore efficienza inferenziale e prestazioni competitive su compiti di elaborazione del linguaggio naturale (NLP) a breve contesto, le prove empiriche suggeriscono che la sua capacità di comprendere contesti lunghi sia limitata rispetto ai modelli basati su trasformatori. In questo studio, investighiamo le problematiche di efficienza dei contesti lunghi dei modelli Mamba e proponiamo ReMamba, che potenzia la capacità di Mamba di comprendere contesti lunghi. ReMamba incorpora tecniche di compressione selettiva e adattamento all'interno di un processo di rinnovamento a due fasi, con un costo di inferenza aggiuntivo minimo. I risultati sperimentali sui benchmark LongBench e L-Eval dimostrano l'efficacia di ReMamba, migliorando rispettivamente del 3,2 e 1,6 punti rispetto alle baselines e raggiungendo prestazioni quasi alla pari con modelli trasformatori della stessa dimensione.
Esploriamo come migliorare i modelli di previsione del token successivo per eseguire l'apprendimento per imitazione in contesto su un vero robot, dove il robot esegue nuovi compiti interpretando le informazioni contestuali fornite durante la fase di input, senza aggiornare i suoi parametri di politica sottostanti. Proponiamo In-Context Robot Transformer (ICRT), un trasformatore causale che esegue previsioni autoregressive su traiettorie sensori-motorie senza fare affidamento su dati linguistici o funzioni di ricompensa. Questa formulazione consente l'esecuzione flessibile e priva di addestramento di nuovi compiti durante il test, ottenuta sollecitando il modello con traiettorie sensori-motorie del nuovo compito composte da osservazioni di immagini, azioni e tuple di stati, raccolte tramite teleoperazione umana. Gli esperimenti con un robot Franka Emika dimostrano che l'ICRT può adattarsi a nuovi compiti specificati dalle sollecitazioni, anche in configurazioni ambientali diverse sia dalla sollecitazione che dai dati di addestramento. In un ambiente multitasking, l'ICRT supera significativamente i modelli attuali di previsione del token successivo più avanzati nello stato dell'arte in robotica nella generalizzazione a compiti non visti. Codice, checkpoint e dati sono disponibili su https://icrt.dev/
L'utilizzo di parti di modelli esistenti per ricostruire nuovi modelli, comunemente definito come modellazione basata su esempi, è una metodologia classica nel campo della grafica computerizzata. Lavori precedenti si concentrano principalmente sulla composizione delle forme, rendendoli molto difficili da utilizzare per la composizione realistica di oggetti 3D catturati da scene del mondo reale. Ciò porta alla combinazione di più NeRF in una singola scena 3D per ottenere un mescolamento dell'aspetto senza soluzione di continuità. Tuttavia, il metodo attuale SeamlessNeRF fatica a raggiungere la modifica interattiva e la fusione armoniosa per scene del mondo reale a causa della sua strategia basata sui gradienti e della rappresentazione basata su griglia. A tal fine, presentiamo un metodo di modellazione basato su esempi che combina più campi gaussiani in una rappresentazione basata su punti utilizzando la sintesi guidata da campioni. In particolare, per quanto riguarda la composizione, creiamo un'interfaccia grafica utente per segmentare e trasformare più campi in tempo reale, ottenendo facilmente una composizione semanticamente significativa di modelli rappresentati da Splatting Gaussiano 3D (3DGS). Per la fusione delle texture, a causa della natura discreta e irregolare del 3DGS, l'applicazione diretta della propagazione dei gradienti come in SeamlessNeRF non è supportata. Pertanto, viene proposto un nuovo metodo di clonazione basato su campionamento per armonizzare la fusione preservando la texture e i contenuti originali. Il nostro flusso di lavoro consiste in tre fasi: 1) segmentazione e trasformazione in tempo reale di un modello gaussiano utilizzando un'interfaccia grafica utente ben progettata, 2) analisi KNN per identificare i punti di confine nell'area di intersezione tra i modelli di origine e di destinazione, e 3) ottimizzazione in due fasi del modello di destinazione utilizzando la clonazione basata su campionamento e i vincoli sui gradienti. Estesi risultati sperimentali convalidano che il nostro approccio supera significativamente i lavori precedenti in termini di sintesi realistica, dimostrandone la praticità. Ulteriori dimostrazioni sono disponibili su https://ingra14m.github.io/gs_stitching_website.
Negli ultimi anni sono stati compiuti significativi progressi nella creazione di avatar 3D fotorealistici e guidabili esclusivamente da video di esseri umani reali. Tuttavia, una sfida fondamentale rimanente è la modifica dettagliata e user-friendly degli stili di abbigliamento tramite descrizioni testuali. A questo scopo, presentiamo TEDRA, il primo metodo che consente modifiche basate su testo di un avatar, mantenendo l'alta fedeltà dell'avatar, la coerenza spazio-temporale, nonché la dinamica, e consentendo il controllo della postura scheletrica e della visuale. Iniziamo addestrando un modello per creare una replica digitale controllabile e ad alta fedeltà dell'attore reale. Successivamente, personalizziamo un modello generativo di diffusione preaddestrato affinandolo su vari frame del personaggio reale catturato da diverse angolazioni della telecamera, garantendo che la rappresentazione digitale catturi fedelmente la dinamica e i movimenti della persona reale. Questo processo a due fasi getta le basi per il nostro approccio alla modifica dinamica dell'avatar umano. Utilizzando questo modello di diffusione personalizzato, modifichiamo l'avatar dinamico in base a un prompt di testo fornito utilizzando il nostro campionamento di distillazione del punteggio allineato normale personalizzato (PNA-SDS) all'interno di un framework di guida basato sul modello. Inoltre, proponiamo una strategia di raffreddamento del passo temporale per garantire modifiche di alta qualità. I nostri risultati dimostrano un chiaro miglioramento rispetto ai lavori precedenti in termini di funzionalità e qualità visiva.