Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, ci proponiamo di migliorare le prestazioni di SwiftBrush, un notevole modello di diffusione one-step per la generazione di immagini da testo, per renderlo competitivo con la sua controparte multi-step Stable Diffusion. Inizialmente, esploriamo il compromesso qualità-diversità tra SwiftBrush e SD Turbo: il primo eccelle nella diversità delle immagini, mentre il secondo nella qualità. Questa osservazione motiva le nostre modifiche proposte nella metodologia di addestramento, tra cui una migliore inizializzazione dei pesi e un addestramento efficiente di LoRA. Inoltre, l'introduzione di una nuova funzione di perdita CLIP con clamp migliora l'allineamento immagine-testo e porta a una qualità delle immagini superiore. Notevolmente, combinando i pesi di modelli addestrati con LoRA efficiente e addestramento completo, otteniamo un nuovo modello di diffusione one-step all'avanguardia, raggiungendo un FID di 8,14 e superando tutti i modelli basati su GAN e i modelli multi-step di Stable Diffusion. Il codice di valutazione è disponibile all'indirizzo: https://github.com/vinairesearch/swiftbrushv2.
Negli ultimi anni, i modelli di base (FMs), come i grandi modelli linguistici (LLMs) e i modelli di diffusione latente (LDMs), hanno avuto un impatto profondo su diversi settori, inclusa la musica. Questa revisione completa esamina i modelli pre-addestrati e i modelli di base all'avanguardia (SOTA) nel campo della musica, spaziando dall'apprendimento di rappresentazioni, all'apprendimento generativo e all'apprendimento multimodale. Iniziamo contestualizzando l'importanza della musica in vari settori e tracciando l'evoluzione dell'AI nella musica. Delineando le modalità affrontate dai modelli di base, scopriamo che molte delle rappresentazioni musicali sono poco esplorate nello sviluppo dei FMs. Successivamente, si pone l'accento sulla mancanza di versatilità dei metodi precedenti nelle diverse applicazioni musicali, insieme al potenziale dei FMs nella comprensione, generazione e applicazione medica della musica. Esplorando in dettaglio il paradigma di pre-addestramento dei modelli, le scelte architetturali, la tokenizzazione, le metodologie di fine-tuning e la controllabilità, sottolineiamo i temi importanti che avrebbero dovuto essere approfonditi, come l'ottimizzazione delle istruzioni e l'apprendimento contestuale, la legge di scala e le capacità emergenti, nonché la modellazione di sequenze lunghe, ecc. Una sezione dedicata presenta approfondimenti sugli agenti musicali, accompagnati da un'analisi approfondita dei dataset e delle valutazioni essenziali per il pre-addestramento e i task downstream. Infine, sottolineando l'importanza cruciale delle considerazioni etiche, sosteniamo che la ricerca futura sui FMs per la musica dovrebbe concentrarsi maggiormente su questioni come l'interpretabilità, la trasparenza, la responsabilità umana e i problemi di copyright. Il documento offre spunti sulle future sfide e tendenze dei FMs per la musica, con l'obiettivo di delineare la traiettoria della collaborazione uomo-AI nel campo musicale.
La risoluzione di issue su GitHub è un'attività cruciale nell'ingegneria del software, che recentemente ha attirato una significativa attenzione sia in ambito industriale che accademico. All'interno di questo contesto, SWE-bench è stato rilasciato per valutare le capacità di risoluzione di issue dei modelli linguistici di grandi dimensioni (LLM), ma finora si è concentrato esclusivamente sulla versione Python. Tuttavia, supportare più linguaggi di programmazione è altrettanto importante, data la forte domanda nel settore industriale. Come primo passo verso il supporto multilingue, abbiamo sviluppato una versione Java di SWE-bench, chiamata SWE-bench-java. Abbiamo reso pubblico il dataset, insieme al corrispondente ambiente di valutazione basato su Docker e alla leaderboard, che verranno continuamente mantenuti e aggiornati nei prossimi mesi. Per verificare l'affidabilità di SWE-bench-java, abbiamo implementato un metodo classico, SWE-agent, e testato diversi potenti LLM su di esso. Come è ben noto, sviluppare un benchmark multilingue di alta qualità richiede tempo e sforzi considerevoli, pertanto accogliamo con favore contributi tramite pull request o collaborazioni per accelerarne l'iterazione e il perfezionamento, aprendo la strada alla programmazione completamente automatizzata.
Il rapido progresso dei modelli generativi visivi richiede metodi di valutazione efficienti e affidabili. La piattaforma Arena, che raccoglie i voti degli utenti sui confronti tra modelli, può classificare i modelli in base alle preferenze umane. Tuttavia, i metodi tradizionali di Arena, sebbene consolidati, richiedono un numero eccessivo di confronti affinché la classifica converga e sono vulnerabili al rumore nelle preferenze di voto, suggerendo la necessità di approcci migliori adattati alle sfide valutative contemporanee. In questo articolo, introduciamo K-Sort Arena, una piattaforma efficiente e affidabile basata su un'idea chiave: immagini e video possiedono una maggiore intuitività percettiva rispetto ai testi, consentendo una valutazione rapida di più campioni simultaneamente. Di conseguenza, K-Sort Arena utilizza confronti K-wise, permettendo a K modelli di competere in gare libere, che forniscono informazioni molto più ricche rispetto ai confronti a coppie. Per aumentare la robustezza del sistema, sfruttiamo tecniche di modellazione probabilistica e aggiornamento bayesiano. Proponiamo una strategia di abbinamento basata su esplorazione-sfruttamento per facilitare confronti più informativi. Nei nostri esperimenti, K-Sort Arena mostra una convergenza 16,3 volte più veloce rispetto all'algoritmo ELO ampiamente utilizzato. Per ulteriormente validare la superiorità e ottenere una classifica completa, raccogliamo feedback umani tramite valutazioni crowdsourcing di numerosi modelli all'avanguardia per la generazione di immagini e video da testo. Grazie alla sua elevata efficienza, K-Sort Arena può incorporare continuamente modelli emergenti e aggiornare la classifica con un numero minimo di voti. Il nostro progetto ha subito diversi mesi di test interni ed è ora disponibile all'indirizzo https://huggingface.co/spaces/ksort/K-Sort-Arena.
L'adozione diffusa di modelli linguistici di grandi dimensioni (LLM) proprietari basati su cloud ha introdotto sfide significative, tra cui dipendenze operative, preoccupazioni relative alla privacy e la necessità di una connessione internet continua. In questo lavoro, presentiamo una pipeline LLMOps, denominata "LlamaDuo", per la migrazione senza soluzione di continuità di conoscenze e capacità da LLM orientati ai servizi a modelli più piccoli e gestibili localmente. Questa pipeline è fondamentale per garantire la continuità del servizio in presenza di guasti operativi, politiche rigorose sulla privacy o requisiti di funzionamento offline. Il nostro LlamaDuo prevede il fine-tuning di un modello linguistico di piccole dimensioni rispetto all'LLM di servizio, utilizzando un dataset sintetico generato da quest'ultimo. Se le prestazioni del modello fine-tuned non soddisfano le aspettative, esso viene ulteriormente migliorato attraverso un ulteriore fine-tuning con dati aggiuntivi simili creati dall'LLM di servizio. Questo processo iterativo garantisce che il modello più piccolo possa alla fine eguagliare o addirittura superare le capacità dell'LLM di servizio in specifici task downstream, offrendo una soluzione pratica e scalabile per la gestione delle implementazioni di IA in ambienti vincolati. Sono stati condotti esperimenti estesi con LLM all'avanguardia per dimostrare l'efficacia, l'adattabilità e l'accessibilità economica di LlamaDuo in vari task downstream. La nostra implementazione della pipeline è disponibile all'indirizzo https://github.com/deep-diver/llamaduo.
Trovare il tasso di apprendimento ottimale per il pretraining dei modelli linguistici è un compito impegnativo. Ciò non solo perché esiste una complessa correlazione tra tasso di apprendimento, dimensione del batch, numero di token di addestramento, dimensione del modello e altri iperparametri, ma anche perché è estremamente costoso eseguire una ricerca degli iperparametri per modelli linguistici di grandi dimensioni con miliardi o trilioni di parametri. Studi recenti propongono di utilizzare modelli proxy di piccole dimensioni e un corpus ridotto per eseguire ricerche degli iperparametri e trasporre i parametri ottimali a modelli e corpus di grandi dimensioni. Sebbene la trasferibilità zero-shot sia stata dimostrata teoricamente ed empiricamente per iperparametri legati alla dimensione del modello, come profondità e ampiezza, la trasferibilità zero-shot da un corpus piccolo a uno grande è ancora poco esplorata. In questo articolo, studiamo la correlazione tra tasso di apprendimento ottimale, dimensione del batch e numero di token di addestramento per il recentemente proposto scheduler WSD. Dopo migliaia di piccoli esperimenti, abbiamo trovato una relazione di legge di potenza tra le variabili e ne abbiamo dimostrato la trasferibilità attraverso diverse dimensioni del modello. Sulla base di questa osservazione, proponiamo un nuovo scheduler per il tasso di apprendimento, chiamato Power scheduler, che è agnostico rispetto al numero di token di addestramento e alla dimensione del batch. L'esperimento mostra che combinare il Power scheduler con la Maximum Update Parameterization (muP) può ottenere costantemente prestazioni impressionanti con un unico set di iperparametri, indipendentemente dal numero di token di addestramento, dalla dimensione del batch, dalla dimensione del modello e persino dall'architettura del modello. I nostri modelli densi e MoE da 3B addestrati con il Power scheduler raggiungono prestazioni comparabili con i migliori modelli linguistici di piccole dimensioni. Abbiamo reso open-source questi modelli pretrainati all'indirizzo https://ibm.biz/BdKhLa.
Nei giochi multiplayer sparatutto in prima persona come Counter-Strike: Global Offensive (CS:GO), il movimento coordinato è un componente cruciale per il gioco strategico di alto livello. Tuttavia, la complessità del coordinamento di squadra e la varietà di condizioni presenti nelle mappe più popolari rendono impraticabile la creazione manuale di politiche di movimento per ogni scenario. Dimostriamo che è possibile adottare un approccio basato sui dati per creare controller di movimento simili a quelli umani per CS:GO. Abbiamo curato un dataset di movimento di squadra comprendente 123 ore di tracce di gioco professionistico e abbiamo utilizzato questo dataset per addestrare un modello di movimento basato su transformer che genera movimenti di squadra simili a quelli umani per tutti i giocatori in un round di "Retakes" del gioco. È importante sottolineare che il modello di previsione del movimento è efficiente. Eseguire l'inferenza per tutti i giocatori richiede meno di 0,5 ms per step di gioco (costo ammortizzato) su un singolo core della CPU, rendendolo plausibile per l'uso nei giochi commerciali odierni. Valutatori umani hanno giudicato che il nostro modello si comporta in modo più simile agli esseri umani rispetto sia ai bot disponibili in commercio che ai controller di movimento procedurali scriptati da esperti (dal 16% al 59% più alto secondo il rating TrueSkill di "similitudine umana"). Attraverso esperimenti che coinvolgono partite di auto-gioco tra bot in-game, dimostriamo che il nostro modello esegue forme semplici di lavoro di squadra, commette meno errori di movimento comuni e produce distribuzioni di movimento, durate di vita dei giocatori e posizioni di uccisione simili a quelle osservate nelle partite professionali di CS:GO.
I modelli di generazione video possiedono un potenziale significativo in aree come la produzione cinematografica. Tuttavia, gli attuali modelli di diffusione video richiedono costi computazionali elevati e producono risultati subottimali a causa dell'elevata complessità del compito di generazione video. In questo articolo, proponiamo ConFiner, un framework efficiente e di alta qualità per la generazione video che scompone il processo in sottotask più semplici: controllo della struttura e raffinamento spazio-temporale. Esso può generare video di alta qualità utilizzando una catena di modelli di diffusione preesistenti, ciascuno responsabile di un sottotask specifico. Durante la fase di raffinamento, introduciamo il denoising coordinato, che consente di unire le capacità di più esperti di diffusione in un singolo campionamento. Inoltre, progettiamo il framework ConFiner-Long, che può generare video lunghi e coerenti applicando tre strategie di vincolo su ConFiner. I risultati sperimentali indicano che, con solo il 10\% del costo di inferenza, il nostro ConFiner supera modelli rappresentativi come Lavie e Modelscope in tutte le metriche oggettive e soggettive. Inoltre, ConFiner-Long è in grado di generare video di alta qualità e coerenti con fino a 600 fotogrammi.
I Modelli Linguistici Multimodali di Grande Dimensione (MM-LLMs) hanno registrato progressi significativi nell'ultimo anno, dimostrando prestazioni impressionanti in vari compiti. Tuttavia, per democratizzare veramente l'IA, i modelli devono mostrare capacità robuste ed essere in grado di funzionare in modo efficiente su risorse computazionali limitate, accessibili alla maggior parte. In questa direzione, presentiamo LLaVaOLMoBitnet1B - il primo Modello Linguistico Multimodale Ternario in grado di accettare input di Immagini+Testo per produrre risposte testuali coerenti. Il modello è completamente open-source, accompagnato da script di addestramento per incentivare ulteriori ricerche in questo ambito. Questo rapporto tecnico illustra il processo di addestramento, i dettagli di valutazione, le sfide associate ai modelli ternari e le opportunità future. Link al modello: https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
L'uso crescente dei Large Language Models (LLM) ha portato a una domanda in forte aumento per sistemi di servizio su scala planetaria, dove decine di migliaia di GPU servono continuamente centinaia di milioni di utenti. Di conseguenza, il throughput (sotto vincoli di latenza ragionevoli) è emerso come una metrica chiave che determina le prestazioni dei sistemi di servizio. Per aumentare il throughput, sono stati esplorati vari metodi di parallelismo inter-dispositivo (ad esempio, dati, tensori, pipeline). Tuttavia, i metodi esistenti non considerano la sovrapposizione dell'utilizzo di diverse risorse all'interno di un singolo dispositivo, portando a una sottoutilizzazione e a prestazioni subottimali. Proponiamo NanoFlow, un nuovo framework di servizio che sfrutta il parallelismo intra-dispositivo, sovrapponendo l'uso di risorse come calcolo, memoria e rete all'interno di un singolo dispositivo attraverso la co-pianificazione delle operazioni. Per sfruttare il parallelismo intra-dispositivo, NanoFlow introduce due innovazioni chiave: in primo luogo, NanoFlow suddivide le richieste in nano-batch a livello di operazioni, rompendo la dipendenza delle operazioni sequenziali nell'inferenza dei LLM e consentendo la sovrapposizione; poi, per trarre vantaggio dalla sovrapposizione, NanoFlow utilizza una pipeline a livello di operazioni con pianificazione delle unità di esecuzione, che partiziona le unità funzionali del dispositivo ed esegue contemporaneamente diverse operazioni in ciascuna unità. NanoFlow automatizza la configurazione della pipeline utilizzando un algoritmo di ricerca dei parametri, che consente di portare facilmente NanoFlow su diversi modelli. Abbiamo implementato NanoFlow su GPU NVIDIA e valutato il throughput end-to-end del servizio su diversi modelli popolari come LLaMA-2-70B, Mixtral 8x7B, LLaMA-3-8B, ecc. Con carichi di lavoro pratici, NanoFlow fornisce un aumento del throughput di 1,91x rispetto ai sistemi di servizio all'avanguardia, raggiungendo dal 59% al 72% del throughput ottimale nei modelli portati.
I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'elaborazione del linguaggio, ottenendo risultati eccezionali in molteplici applicazioni. Tuttavia, l'implementazione degli LLM su dispositivi edge presenta diverse sfide relative alla memoria, all'energia e ai costi computazionali, limitando il loro utilizzo diffuso in dispositivi come i telefoni cellulari. Una soluzione promettente è ridurre il numero di bit utilizzati per rappresentare pesi e attivazioni. Sebbene i lavori esistenti abbiano ottenuto un parziale successo nella quantizzazione degli LLM a bitwidth inferiori, ad esempio pesi a 4 bit, la quantizzazione delle attivazioni oltre i 16 bit spesso comporta un elevato sovraccarico computazionale a causa del supporto limitato per la quantizzazione sui dispositivi, o un significativo calo di accuratezza. Tuttavia, le attivazioni a 8 bit sono molto attraenti per l'implementazione sui dispositivi, poiché consentirebbero agli LLM di sfruttare appieno l'hardware ottimizzato per dispositivi mobili, come le Unità di Elaborazione Neurale (NPU). In questo lavoro, facciamo un primo tentativo per facilitare l'implementazione degli LLM sui dispositivi utilizzando la quantizzazione esclusivamente intera. Iniziamo analizzando i limiti dei metodi di quantizzazione esistenti per l'implementazione sui dispositivi, con un focus particolare sulla quantizzazione delle attivazioni. Successivamente, affrontiamo questi limiti introducendo un semplice metodo di quantizzazione post-addestramento, denominato MobileQuant, che estende i precedenti lavori sulla trasformazione equivalente dei pesi ottimizzando congiuntamente la trasformazione dei pesi e i parametri dell'intervallo di attivazione in modo end-to-end. MobileQuant dimostra capacità superiori rispetto ai metodi esistenti: 1) ottenendo una quantizzazione quasi senza perdite su un'ampia gamma di benchmark LLM, 2) riducendo la latenza e il consumo energetico del 20\%-50\% rispetto alle attuali strategie di quantizzazione sui dispositivi, 3) richiedendo un budget computazionale limitato, 4) essendo compatibile con unità di calcolo ottimizzate per dispositivi mobili, come le NPU.
I video di transizione svolgono un ruolo cruciale nella produzione mediatica, migliorando il flusso e la coerenza delle narrazioni visive. I metodi tradizionali come il morphing spesso mancano di appeal artistico e richiedono competenze specializzate, limitandone l'efficacia. I recenti progressi nella generazione di video basata su modelli di diffusione offrono nuove possibilità per creare transizioni, ma affrontano sfide come la scarsa modellazione delle relazioni inter-fotogramma e i cambiamenti bruschi di contenuto. Proponiamo un nuovo approccio di Generazione di Video di Transizione (TVG) senza addestramento aggiuntivo, utilizzando modelli di diffusione a livello video che affrontano queste limitazioni. Il nostro metodo sfrutta la Regressione Gaussiana (GPR) per modellare le rappresentazioni latenti, garantendo transizioni fluide e dinamiche tra i fotogrammi. Inoltre, introduciamo controlli condizionali basati sull'interpolazione e un'architettura di Fusione Bidirezionale Consapevole della Frequenza (FBiF) per migliorare il controllo temporale e l'affidabilità delle transizioni. Le valutazioni su dataset di benchmark e coppie di immagini personalizzate dimostrano l'efficacia del nostro approccio nella generazione di video di transizione di alta qualità e fluidi. Il codice è disponibile su https://sobeymil.github.io/tvg.com.
I modelli linguistici di grandi dimensioni (LLM) come ChatGPT e Gemini hanno fatto avanzare significativamente l'elaborazione del linguaggio naturale, abilitando varie applicazioni come chatbot e generazione automatizzata di contenuti. Tuttavia, questi modelli possono essere sfruttati da individui malintenzionati che creano prompt tossici per elicitare risposte dannose o non etiche. Questi individui spesso utilizzano tecniche di jailbreaking per bypassare i meccanismi di sicurezza, evidenziando la necessità di metodi robusti per il rilevamento di prompt tossici. Le tecniche di rilevamento esistenti, sia blackbox che whitebox, affrontano sfide legate alla diversità dei prompt tossici, alla scalabilità e all'efficienza computazionale. In risposta, proponiamo ToxicDetector, un metodo leggero di tipo greybox progettato per rilevare in modo efficiente i prompt tossici negli LLM. ToxicDetector sfrutta gli LLM per creare prompt concettuali tossici, utilizza vettori di embedding per formare vettori di feature e impiega un classificatore Multi-Layer Perceptron (MLP) per la classificazione dei prompt. La nostra valutazione su varie versioni dei modelli LLama, Gemma-2 e su più dataset dimostra che ToxicDetector raggiunge un'accuratezza elevata del 96,39\% e un basso tasso di falsi positivi del 2,00\%, superando i metodi all'avanguardia. Inoltre, il tempo di elaborazione di ToxicDetector di 0,0780 secondi per prompt lo rende altamente adatto per applicazioni in tempo reale. ToxicDetector raggiunge un'elevata accuratezza, efficienza e scalabilità, rendendolo un metodo pratico per il rilevamento di prompt tossici negli LLM.
I lavori esistenti nella ricostruzione umana da singola immagine soffrono di una scarsa generalizzabilità a causa di dati di addestramento insufficienti o di inconsistenze 3D dovute alla mancanza di una conoscenza multi-vista completa. In questo articolo, introduciamo MagicMan, un modello di diffusione multi-vista specifico per l'uomo, progettato per generare immagini di nuove viste di alta qualità a partire da una singola immagine di riferimento. Al suo core, sfruttiamo un modello di diffusione 2D pre-addestrato come prior generativa per la generalizzabilità, con il modello parametrico SMPL-X come prior 3D del corpo per promuovere la consapevolezza 3D. Per affrontare la sfida critica di mantenere la coerenza mentre si ottiene una generazione multi-vista densa per migliorare la ricostruzione 3D dell'uomo, introduciamo prima un'attenzione multi-vista ibrida per facilitare uno scambio di informazioni sia efficiente che approfondito tra le diverse viste. Inoltre, presentiamo un ramo duale consapevole della geometria per eseguire una generazione simultanea sia nel dominio RGB che in quello delle normali, migliorando ulteriormente la coerenza attraverso indizi geometrici. Ultimo ma non meno importante, per affrontare i problemi di forma errata derivanti da una stima imprecisa di SMPL-X in conflitto con l'immagine di riferimento, proponiamo una nuova strategia di raffinamento iterativo, che ottimizza progressivamente l'accuratezza di SMPL-X migliorando la qualità e la coerenza delle multi-viste generate. I risultati sperimentali estesi dimostrano che il nostro metodo supera significativamente gli approcci esistenti sia nella sintesi di nuove viste che nei successivi compiti di ricostruzione 3D dell'uomo.