Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Model (LLM) hanno trasformato il panorama dell'intelligenza artificiale, sebbene le loro dimensioni enormi presentino sfide significative in termini di costi computazionali. Introduciamo LoRAShear, un nuovo approccio efficiente per potare strutturalmente i LLM e recuperare la conoscenza. Dato un LLM generico, LoRAShear crea prima i grafi di dipendenza per individuare le strutture di rimozione minima e analizzare la distribuzione della conoscenza. Procede quindi con una potatura strutturale progressiva sugli adattatori LoRA e abilita un trasferimento intrinseco della conoscenza per preservare meglio le informazioni nelle strutture ridondanti. Per recuperare la conoscenza persa durante la potatura, LoRAShear studia meticolosamente e propone schemi di fine-tuning dinamici con adattatori di dati dinamici, riducendo efficacemente il divario prestazionale rispetto ai modelli completi. I risultati numerici dimostrano che, utilizzando solo una GPU in un paio di giorni di elaborazione, LoRAShear ha ridotto efficacemente l'impronta dei LLM del 20% con solo un 1,0% di degradazione delle prestazioni, superando significativamente lo stato dell'arte. Il codice sorgente sarà disponibile all'indirizzo https://github.com/microsoft/lorashear.
Presentiamo MM-VID, un sistema integrato che sfrutta le capacità di GPT-4V, combinato con strumenti specializzati in visione, audio e voce, per facilitare una comprensione avanzata dei video. MM-VID è progettato per affrontare le sfide poste da video di lunga durata e compiti complessi come il ragionamento su contenuti della durata di un'ora e la comprensione di trame che si estendono su più episodi. MM-VID utilizza una generazione da video a script con GPT-4V per trascrivere elementi multimodali in un lungo script testuale. Lo script generato descrive dettagliatamente i movimenti, le azioni, le espressioni e i dialoghi dei personaggi, aprendo la strada ai grandi modelli linguistici (LLM) per raggiungere la comprensione dei video. Ciò consente capacità avanzate, tra cui la descrizione audio, l'identificazione dei personaggi e una comprensione multimodale di alto livello. I risultati sperimentali dimostrano l'efficacia di MM-VID nella gestione di generi video distinti con varie lunghezze di video. Inoltre, ne mostriamo il potenziale quando applicato a ambienti interattivi, come videogiochi e interfacce grafiche utente.
La generazione di video ha suscitato un interesse crescente sia in ambito accademico che industriale. Sebbene gli strumenti commerciali siano in grado di generare video plausibili, il numero di modelli open-source disponibili per ricercatori e ingegneri è limitato. In questo lavoro, introduciamo due modelli di diffusione per la generazione di video di alta qualità, ovvero modelli text-to-video (T2V) e image-to-video (I2V). I modelli T2V sintetizzano un video basandosi su un input testuale fornito, mentre i modelli I2V incorporano un'immagine aggiuntiva come input. Il nostro modello T2V proposto è in grado di generare video realistici e di qualità cinematografica con una risoluzione di 1024x576, superando altri modelli T2V open-source in termini di qualità. Il modello I2V è progettato per produrre video che aderiscono rigorosamente al contenuto dell'immagine di riferimento fornita, preservandone il contenuto, la struttura e lo stile. Questo modello rappresenta il primo modello di base I2V open-source in grado di trasformare una determinata immagine in un video mantenendo i vincoli di conservazione del contenuto. Crediamo che questi modelli open-source per la generazione di video contribuiranno significativamente ai progressi tecnologici all'interno della comunità.
La crescente domanda di modelli linguistici di grandi dimensioni (LLM) in applicazioni come la generazione di contenuti, chatbot intelligenti e l'analisi del sentiment pone sfide considerevoli per i fornitori di servizi LLM. Per utilizzare in modo efficiente le risorse GPU e aumentare il throughput, il raggruppamento di più richieste (batching) è emerso come un paradigma popolare; per accelerare ulteriormente il batching, le tecniche di quantizzazione degli LLM riducono il consumo di memoria e aumentano la capacità di calcolo. Tuttavia, gli schemi di quantizzazione prevalenti (ad esempio, la quantizzazione a 8 bit di pesi e attivazioni) non riescono a sfruttare appieno le capacità delle GPU moderne, come gli operatori interi a 4 bit, risultando in prestazioni sub-ottimali. Per massimizzare il throughput di servizio degli LLM, introduciamo Atom, un metodo di quantizzazione a basso bit che ottiene miglioramenti significativi del throughput con una perdita di precisione trascurabile. Atom aumenta notevolmente il throughput di servizio utilizzando operatori a basso bit e riduce considerevolmente il consumo di memoria attraverso la quantizzazione a basso bit. Raggiunge un'elevata precisione applicando un innovativo processo di quantizzazione mista a precisione variabile e granulare. Valutiamo Atom in contesti di servizio con configurazioni di quantizzazione a 4 bit di pesi e attivazioni. Atom migliora il throughput end-to-end fino a 7,73 volte rispetto alla quantizzazione FP16 e a 2,53 volte rispetto alla quantizzazione INT8, mantenendo lo stesso obiettivo di latenza.
L'incorporazione di un oggetto personalizzato nella generazione di immagini rappresenta una funzionalità interessante nella generazione di immagini da testo. Tuttavia, i metodi esistenti basati su ottimizzazione e codificatori sono limitati da svantaggi come un'ottimizzazione che richiede tempo, una conservazione insufficiente dell'identità e un effetto prevalente di copia-incolla. Per superare queste limitazioni, introduciamo CustomNet, un nuovo approccio di personalizzazione degli oggetti che integra esplicitamente le capacità di sintesi di nuove viste 3D nel processo di personalizzazione degli oggetti. Questa integrazione facilita l'aggiustamento delle relazioni di posizione spaziale e dei punti di vista, producendo output diversificati mentre preserva efficacemente l'identità dell'oggetto. Inoltre, introduciamo design raffinati per consentire il controllo della posizione e un controllo flessibile dello sfondo attraverso descrizioni testuali o immagini specifiche definite dall'utente, superando le limitazioni dei metodi esistenti di sintesi di nuove viste 3D. Sfruttiamo ulteriormente una pipeline di costruzione del dataset che può gestire meglio oggetti del mondo reale e sfondi complessi. Dotato di questi design, il nostro metodo facilita la personalizzazione degli oggetti in modalità zero-shot senza ottimizzazione al momento del test, offrendo un controllo simultaneo sui punti di vista, la posizione e lo sfondo. Di conseguenza, il nostro CustomNet garantisce una conservazione migliorata dell'identità e genera output diversificati e armoniosi.
I Large Language Model (LLM) dimostrano capacità impressionanti di ragionamento e di aumento dei dati in vari compiti di NLP. Tuttavia, cosa possiamo dire dei modelli più piccoli? In questo lavoro, proponiamo TeacherLM-7.1B, in grado di annotare i fondamenti rilevanti, la catena di pensiero e gli errori comuni per la maggior parte dei campioni di NLP, trasformando l'annotazione in qualcosa di più di una semplice risposta e permettendo così ad altri modelli di apprendere il "perché" oltre al "cosa". Il modello TeacherLM-7.1B ha ottenuto un punteggio zero-shot di 52.3 su MMLU, superando la maggior parte dei modelli con oltre 100 miliardi di parametri. Ancora più notevole è la sua capacità di aumento dei dati. Basandoci su TeacherLM-7.1B, abbiamo aumentato 58 dataset di NLP e addestrato vari modelli studente con diversi parametri delle serie OPT e BLOOM in un contesto multi-task. I risultati sperimentali indicano che l'aumento dei dati fornito da TeacherLM ha portato benefici significativi. Rilasceremo la serie di modelli TeacherLM e i dataset aumentati come open-source.
In questo articolo, valutiamo criticamente le capacità del modello linguistico multimodale all'avanguardia, ovvero GPT-4 con Vision (GPT-4V), nel compito di Visual Question Answering (VQA). I nostri esperimenti analizzano approfonditamente la competenza di GPT-4V nel rispondere a domande associate a immagini utilizzando sia dataset di patologia che di radiologia provenienti da 11 modalità (ad esempio Microscopia, Dermoscopia, Radiografia, TC, ecc.) e quindici oggetti di interesse (cervello, fegato, polmoni, ecc.). I nostri dataset coprono un'ampia gamma di interrogativi medici, includendo sedici tipologie distinte di domande. Durante le nostre valutazioni, abbiamo progettato prompt testuali per GPT-4V, indirizzandolo a integrare informazioni visive e testuali. Gli esperimenti con punteggi di accuratezza concludono che l'attuale versione di GPT-4V non è raccomandata per la diagnostica nel mondo reale a causa della sua affidabilità inaffidabile e di un'accuratezza subottimale nel rispondere a domande mediche diagnostiche. Inoltre, delineiamo sette aspetti unici del comportamento di GPT-4V nel VQA medico, evidenziandone i limiti in questo ambito complesso. I dettagli completi dei nostri casi di valutazione sono accessibili all'indirizzo https://github.com/ZhilingYan/GPT4V-Medical-Report.
Con l'ascesa di potenti LLM (Large Language Models) proprietari (ChatGPT, GPT-4), è cresciuto l'interesse nel distillare le capacità di questi LLM proprietari in modelli open-source più piccoli. I metodi di distillazione precedenti solitamente richiedevano a ChatGPT di generare un insieme di istruzioni e risposte, affinché il modello studente potesse apprendere. Tuttavia, questo approccio standard di distillazione trascura i meriti e le condizioni del modello studente. Ispirati dai principi didattici moderni, abbiamo progettato un processo di distillazione personalizzato, in cui lo studente tenta prima di risolvere un compito, e poi l'insegnante fornisce un affinamento adattivo per aiutare lo studente a migliorare. Invece di fornire allo studente il sapere predefinito dell'insegnante, la distillazione personalizzata consente un apprendimento personalizzato per il modello studente, poiché esso impara solo sugli esempi in cui commette errori e migliora la propria soluzione. Nella generazione di codice, la distillazione personalizzata supera costantemente la distillazione standard utilizzando solo un terzo dei dati. Con soli 2,5-3K esempi personalizzati, che comportano un costo di raccolta dati di 4-6$, abbiamo migliorato CodeGen-mono-16B del 7%, raggiungendo il 36,4% di pass@1, e StarCoder del 12,2%, raggiungendo il 45,8% di pass@1 su HumanEval.
In questo rapporto tecnico, presentiamo Skywork-13B, una famiglia di modelli linguistici di grandi dimensioni (LLM) addestrati su un corpus di oltre 3,2 trilioni di token estratti da testi in inglese e cinese. Questo modello di base bilingue rappresenta il più estensivamente addestrato e pubblicamente disponibile tra gli LLM di dimensioni comparabili fino ad oggi. Introduciamo una metodologia di addestramento in due fasi che utilizza un corpus segmentato, mirando rispettivamente a un addestramento di carattere generale e poi a un addestramento di potenziamento specifico per dominio. Dimostriamo che il nostro modello non solo eccelle nei benchmark più diffusi, ma raggiunge anche prestazioni all'avanguardia nella modellazione linguistica cinese su diversi domini. Inoltre, proponiamo un nuovo metodo di rilevamento delle perdite, dimostrando che la contaminazione dei dati di test è un problema urgente che richiede ulteriori indagini da parte della comunità degli LLM. Per stimolare future ricerche, rilasciamo Skywork-13B insieme ai checkpoint ottenuti durante le fasi intermedie del processo di addestramento. Stiamo anche rilasciando parte del nostro corpus SkyPile, una raccolta di oltre 150 miliardi di token di testo web, che rappresenta il più grande corpus di pre-addestramento cinese di alta qualità aperto fino ad oggi. Speriamo che Skywork-13B e il nostro corpus aperto possano servire come una preziosa risorsa open-source per democratizzare l'accesso a LLM di alta qualità.
La generazione di modelli 3D a partire da testo ha compiuto progressi significativi di recente, in particolare con metodi basati sul *Score Distillation Sampling* (SDS) che sfruttano modelli di diffusione 2D pre-addestrati. Sebbene l'uso della guida *classifier-free* sia ampiamente riconosciuto come cruciale per un'ottimizzazione efficace, essa è considerata un trucco ausiliario piuttosto che il componente più essenziale. In questo articolo, rivalutiamo il ruolo della guida *classifier-free* nella distillazione dei punteggi e scopriamo un risultato sorprendente: la guida da sola è sufficiente per compiti efficaci di generazione di modelli 3D a partire da testo. Denominiamo questo metodo *Classifier Score Distillation* (CSD), che può essere interpretato come l'utilizzo di un modello di classificazione implicita per la generazione. Questa nuova prospettiva rivela nuove intuizioni per comprendere le tecniche esistenti. Validiamo l'efficacia del CSD in una varietà di compiti di generazione di modelli 3D a partire da testo, inclusi la generazione di forme, la sintesi di texture e la modifica di forme, ottenendo risultati superiori rispetto ai metodi più avanzati. La nostra pagina del progetto è disponibile all'indirizzo https://xinyu-andy.github.io/Classifier-Score-Distillation.