Articoli di ricerca IA selezionati quotidianamente con traduzioni
La recente impennata dei Modelli Linguistici Multimodali di Grande Scala (MLLM) ha radicalmente ridefinito il panorama della ricerca e dell'industria dell'IA, illuminando una strada promettente verso il prossimo traguardo dell'intelligenza artificiale. Tuttavia, rimangono sfide significative che impediscono agli MLLM di essere pratici nelle applicazioni del mondo reale. La sfida più evidente deriva dall'enorme costo di esecuzione di un MLLM con un numero massiccio di parametri e un'estesa capacità di calcolo. Di conseguenza, la maggior parte degli MLLM deve essere distribuita su server cloud ad alte prestazioni, il che limita notevolmente il loro ambito di applicazione, come scenari mobili, offline, sensibili all'energia e protettivi della privacy. In questo lavoro, presentiamo MiniCPM-V, una serie di MLLM efficienti distribuibili su dispositivi lato utente. Integrando le ultime tecniche MLLM in architettura, pre-addestramento e allineamento, l'ultima versione MiniCPM-Llama3-V 2.5 presenta diverse caratteristiche degne di nota: (1) Prestazioni elevate, superando GPT-4V-1106, Gemini Pro e Claude 3 su OpenCompass, una valutazione completa su 11 benchmark popolari, (2) forte capacità OCR e percezione di immagini ad alta risoluzione da 1,8 milioni di pixel con qualsiasi rapporto d'aspetto, (3) comportamento affidabile con bassi tassi di allucinazione, (4) supporto multilingue per oltre 30 lingue e (5) distribuzione efficiente su telefoni cellulari. Ancora più importante, MiniCPM-V può essere visto come un esempio rappresentativo di una tendenza promettente: le dimensioni dei modelli necessarie per raggiungere prestazioni utilizzabili (ad esempio, GPT-4V) stanno diminuendo rapidamente, insieme alla rapida crescita della capacità di calcolo lato utente. Ciò dimostra congiuntamente che gli MLLM di livello GPT-4V distribuiti su dispositivi finali stanno diventando sempre più possibili, aprendo la strada a un più ampio spettro di applicazioni IA nel mondo reale nel prossimo futuro.
Il dialogo rappresenta la modalità più naturale di interazione uomo-computer (HCI). I recenti progressi nei modelli linguistici basati sul parlato (SLM) hanno notevolmente migliorato l'intelligenza artificiale conversazionale basata sulla voce. Tuttavia, questi modelli sono limitati a conversazioni a turni, mancando della capacità di interagire con gli esseri umani in scenari di parlato in tempo reale, ad esempio, essere interrotti quando il contenuto generato non è soddisfacente. Per affrontare queste limitazioni, esploriamo la modellazione full duplex (FDM) nei modelli linguistici interattivi basati sul parlato (iSLM), concentrandoci sul miglioramento dell'interazione in tempo reale e, più esplicitamente, esplorando l'abilità fondamentale dell'interruzione. Introduciamo un nuovo design di modello, denominato listening-while-speaking language model (LSLM), un sistema end-to-end dotato sia di canali di ascolto che di parlato. Il nostro LSLM utilizza un decoder-only TTS basato su token per la generazione del parlato e un encoder streaming self-supervised learning (SSL) per l'input audio in tempo reale. LSLM fonde entrambi i canali per la generazione autoregressiva e rileva il cambio di turno in tempo reale. Vengono esplorate tre strategie di fusione -- fusione precoce, fusione intermedia e fusione tardiva -- con la fusione intermedia che raggiunge un equilibrio ottimale tra generazione del parlato e interazione in tempo reale. Due impostazioni sperimentali, FDM basato su comandi e FDM basato sulla voce, dimostrano la robustezza di LSLM al rumore e la sensibilità a diverse istruzioni. I nostri risultati evidenziano la capacità di LSLM di raggiungere la comunicazione duplex con un impatto minimo sui sistemi esistenti. Questo studio mira a promuovere lo sviluppo di sistemi di dialogo vocale interattivi, migliorandone l'applicabilità in contesti reali.
L'implementazione di sistemi di Retrieval-Augmented Generation (RAG) è intrinsecamente complessa, richiedendo una profonda comprensione dei dati, dei casi d'uso e di intricate decisioni progettuali. Inoltre, la valutazione di questi sistemi presenta sfide significative, necessitando di una valutazione sia dell'accuratezza del recupero che della qualità generativa attraverso un approccio multi-faccettato. Introduciamo RAG Foundry, un framework open-source per potenziare i grandi modelli linguistici nei casi d'uso RAG. RAG Foundry integra la creazione dei dati, l'addestramento, l'inferenza e la valutazione in un unico flusso di lavoro, facilitando la creazione di dataset potenziati con dati per l'addestramento e la valutazione di grandi modelli linguistici in contesti RAG. Questa integrazione consente una rapida prototipazione e sperimentazione con varie tecniche RAG, permettendo agli utenti di generare facilmente dataset e addestrare modelli RAG utilizzando fonti di conoscenza interne o specializzate. Dimostriamo l'efficacia del framework potenziando e ottimizzando i modelli Llama-3 e Phi-3 con diverse configurazioni RAG, mostrando miglioramenti consistenti su tre dataset ad alta intensità di conoscenza. Il codice è rilasciato come open-source su https://github.com/IntelLabs/RAGFoundry.
Presentiamo Lumina-mGPT, una famiglia di modelli autoregressivi multimodali in grado di svolgere varie attività di visione e linguaggio, con particolare eccellenza nella generazione di immagini fotorealistiche flessibili a partire da descrizioni testuali. A differenza degli approcci esistenti per la generazione di immagini autoregressiva, Lumina-mGPT utilizza un trasformatore decoder-only preaddestrato come framework unificato per modellare sequenze di token multimodali. La nostra intuizione chiave è che un semplice trasformatore decoder-only con Generative PreTraining multimodale (mGPT), utilizzando l'obiettivo di previsione del token successivo su sequenze massicce intercalate di testo e immagini, possa apprendere capacità multimodali ampie e generali, illuminando così la generazione fotorealistica da testo a immagine. Basandoci su questi modelli preaddestrati, proponiamo il Flexible Progressive Supervised Finetuning (FP-SFT) su coppie di immagini-testo di alta qualità per sbloccare appieno il loro potenziale nella sintesi di immagini ad alta estetica a qualsiasi risoluzione, mantenendo al contempo le loro capacità multimodali generali. Inoltre, introduciamo l'Ominiponent Supervised Finetuning (Omni-SFT), trasformando Lumina-mGPT in un modello fondazionale che raggiunge in modo fluido l'unificazione onnipotente dei compiti. Il modello risultante dimostra capacità multimodali versatili, inclusi compiti di generazione visiva come la generazione flessibile da testo a immagine e la generazione controllata, compiti di riconoscimento visivo come la segmentazione e la stima della profondità, e compiti di visione e linguaggio come il rispondere a domande visive multiturno. Inoltre, analizziamo le differenze e le somiglianze tra i metodi basati su diffusione e quelli autoregressivi in un confronto diretto.
Presentiamo MeshAnything V2, un trasformatore autoregressivo che genera Mesh Create dall'Artista (AM) allineate a forme date. Può essere integrato in varie pipeline di produzione di asset 3D per ottenere una generazione di AM di alta qualità e altamente controllabile. MeshAnything V2 supera i metodi precedenti sia in efficienza che in prestazioni utilizzando modelli della stessa dimensione. Questi miglioramenti sono dovuti al nostro nuovo metodo di tokenizzazione delle mesh: Adjacent Mesh Tokenization (AMT). A differenza dei metodi precedenti che rappresentano ogni faccia con tre vertici, AMT utilizza un singolo vertice ove possibile. Rispetto ai metodi precedenti, AMT richiede circa la metà della lunghezza della sequenza di token per rappresentare la stessa mesh in media. Inoltre, le sequenze di token di AMT sono più compatte e ben strutturate, apportando benefici fondamentali alla generazione di AM. I nostri esperimenti estesi dimostrano che AMT migliora significativamente l'efficienza e le prestazioni della generazione di AM. Pagina del progetto: https://buaacyw.github.io/meshanything-v2/
La valutazione basata su modelli è al centro dello sviluppo di modelli di successo, sia come modello di ricompensa per l'addestramento, sia come sostituto della valutazione umana. Per addestrare tali valutatori, l'approccio standard consiste nel raccogliere un gran numero di giudizi di preferenza umana sulle risposte del modello, un processo costoso i cui dati diventano obsoleti man mano che i modelli migliorano. In questo lavoro, presentiamo un approccio che mira a migliorare i valutatori senza annotazioni umane, utilizzando esclusivamente dati di addestramento sintetici. Partendo da istruzioni non etichettate, il nostro schema di auto-miglioramento iterativo genera output contrastanti del modello e addestra un LLM-as-a-Judge per produrre tracce di ragionamento e giudizi finali, ripetendo questo addestramento a ogni nuova iterazione utilizzando le previsioni migliorate. Senza alcun dato di preferenza etichettato, il nostro Self-Taught Evaluator è in grado di migliorare un LLM potente (Llama3-70B-Instruct) da 75.4 a 88.3 (88.7 con voto a maggioranza) su RewardBench. Questo supera i giudici LLM comunemente utilizzati come GPT-4 e raggiunge le prestazioni dei migliori modelli di ricompensa addestrati con esempi etichettati.
L'instruction tuning svolge un ruolo cruciale nell'allineare i grandi modelli linguistici (LLM) con le preferenze umane. Nonostante l'ampia disponibilità di dataset di istruzioni open, addestrare un LLM su tutte le istruzioni esistenti in modo ingenuo potrebbe non essere ottimale né pratico. Per identificare i punti dati più vantaggiosi, sono stati proposti metodi di valutazione e selezione dei dati nei campi dell'elaborazione del linguaggio naturale (NLP) e del deep learning. Tuttavia, nel contesto dell'instruction tuning, esiste ancora una lacuna nella conoscenza riguardo a quali metriche di valutazione dei dati possano essere impiegate e come possano essere integrate nel meccanismo di selezione. Per colmare questa lacuna, presentiamo una revisione completa della letteratura esistente sulla valutazione e selezione dei dati, in particolare per l'instruction tuning dei LLM. Sistematicamente categorizziamo tutti i metodi applicabili in quelli basati sulla qualità, sulla diversità e sull'importanza, strutturando una tassonomia unificata e dettagliata. Per ogni categoria, vengono elaborati metodi rappresentativi per descrivere il panorama della ricerca rilevante. Inoltre, viene effettuato un confronto tra i metodi più recenti basandosi sui risultati ufficialmente riportati, per fornire discussioni approfondite sui loro limiti. Infine, riassumiamo le sfide aperte e proponiamo le direzioni promettenti per gli studi futuri. Tutti i contenuti correlati sono disponibili al seguente link: https://github.com/yuleiqin/fantastic-data-engineering.
La qualità delle coppie video-testo determina fondamentalmente il limite superiore dei modelli di generazione video da testo. Attualmente, i dataset utilizzati per addestrare questi modelli presentano significative carenze, tra cui bassa coerenza temporale, didascalie di scarsa qualità, qualità video scadente e distribuzione dei dati squilibrata. Il processo prevalente di selezione dei video, che si basa su modelli di immagini per l'assegnazione di tag e su una selezione manuale basata su regole, comporta un elevato carico computazionale e lascia dati non puliti. Di conseguenza, mancano dataset di addestramento adeguati per i modelli di generazione video da testo. Per affrontare questo problema, presentiamo VidGen-1M, un dataset di addestramento superiore per i modelli di generazione video da testo. Prodotto attraverso una strategia di selezione da grossolana a fine, questo dataset garantisce video di alta qualità e didascalie dettagliate con un'eccellente coerenza temporale. Quando utilizzato per addestrare il modello di generazione video, questo dataset ha portato a risultati sperimentali che superano quelli ottenuti con altri modelli.
In questo articolo, proponiamo ProCreate, un metodo semplice e di facile implementazione per migliorare la diversità dei campioni e la creatività dei modelli generativi di immagini basati su diffusione, oltre a prevenire la riproduzione dei dati di addestramento. ProCreate opera su un insieme di immagini di riferimento e spinge attivamente l'embedding dell'immagine generata lontano dagli embedding di riferimento durante il processo di generazione. Proponiamo FSCG-8 (Few-Shot Creative Generation 8), un dataset per la generazione creativa few-shot in otto categorie diverse — che comprendono concetti, stili e contesti vari — in cui ProCreate raggiunge la massima diversità dei campioni e fedeltà. Inoltre, dimostriamo che ProCreate è efficace nel prevenire la replicazione dei dati di addestramento in una valutazione su larga scala utilizzando prompt di testo di addestramento. Il codice e FSCG-8 sono disponibili all'indirizzo https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public. La pagina del progetto è disponibile all'indirizzo https://procreate-diffusion.github.io.
Il progresso dell'elaborazione del linguaggio naturale (NLP) in biologia dipende dalla capacità dei modelli di interpretare la complessa letteratura biomedica. I modelli tradizionali spesso incontrano difficoltà con il linguaggio complesso e specifico di questo campo. In questo articolo, presentiamo BioMamba, un modello pre-addestrato specificamente progettato per il text mining biomedico. BioMamba si basa sull'architettura Mamba ed è pre-addestrato su un ampio corpus di letteratura biomedica. I nostri studi empirici dimostrano che BioMamba supera significativamente modelli come BioBERT e Mamba generico in vari compiti biomedici. Ad esempio, BioMamba ottiene una riduzione di 100 volte della perplessità e una riduzione di 4 volte della perdita di entropia incrociata sul set di test BioASQ. Forniamo una panoramica dell'architettura del modello, del processo di pre-addestramento e delle tecniche di fine-tuning. Inoltre, rilasciamo il codice e il modello addestrato per facilitare ulteriori ricerche.
Gli algoritmi di apprendimento multi-agente hanno avuto successo nel generare pianificazioni sovrumane in una vasta gamma di giochi, ma hanno avuto un impatto limitato sulla progettazione di pianificatori multi-agente effettivamente implementati. Un collo di bottiglia chiave nell'applicazione di queste tecniche alla pianificazione multi-agente è che richiedono miliardi di passi di esperienza. Per consentire lo studio della pianificazione multi-agente su questa scala, presentiamo GPUDrive, un simulatore multi-agente accelerato da GPU, costruito su Madrona Game Engine, in grado di generare oltre un milione di passi di esperienza al secondo. Le funzioni di osservazione, ricompensa e dinamica sono scritte direttamente in C++, permettendo agli utenti di definire comportamenti complessi e eterogenei degli agenti che vengono poi convertiti in CUDA ad alte prestazioni. Dimostriamo che utilizzando GPUDrive siamo in grado di addestrare efficacemente agenti di apprendimento per rinforzo su molte scene del dataset Waymo Motion, ottenendo agenti altamente efficaci nel raggiungimento degli obiettivi in pochi minuti per singole scene e agenti generalmente capaci in poche ore. Forniamo questi agenti addestrati come parte della base di codice all'indirizzo https://github.com/Emerge-Lab/gpudrive.
I metodi di ragionamento visivo composizionale, che traducono una query complessa in una struttura composita di compiti visivi fattibili, hanno dimostrato un forte potenziale in compiti multimodali complessi. Grazie ai recenti progressi nei modelli linguistici di grandi dimensioni (LLM), questa sfida multimodale è stata portata a un nuovo livello trattando gli LLM come pianificatori few-shot/zero-shot, ovvero programmazione visione-linguaggio (VL). Tali metodi, nonostante i loro numerosi pregi, affrontano sfide dovute a errori di pianificazione degli LLM o all'inesattezza dei moduli di esecuzione visiva, rimanendo indietro rispetto ai modelli non composizionali. In questo lavoro, proponiamo un metodo "plug-and-play", ExoViP, per correggere gli errori sia nella fase di pianificazione che in quella di esecuzione attraverso una verifica introspettiva. Utilizziamo moduli di verifica come "esoscheletri" per migliorare gli attuali schemi di programmazione VL. Nello specifico, il nostro modulo di verifica proposto utilizza una combinazione di tre sotto-verificatori per convalidare le previsioni dopo ogni passo di ragionamento, calibrando successivamente le previsioni del modulo visivo e affinando la traccia di ragionamento pianificata dagli LLM. I risultati sperimentali su due metodi rappresentativi di programmazione VL mostrano miglioramenti consistenti in cinque compiti di ragionamento composizionale su benchmark standard. Alla luce di ciò, riteniamo che ExoViP possa favorire prestazioni e generalizzazione migliori nelle sfide multimodali in dominio aperto.
Il recente aumento dei modelli linguistici di grandi dimensioni (LLM) open-source consente agli sviluppatori di creare soluzioni basate sull'intelligenza artificiale mantenendo il controllo su aspetti come la privacy e la conformità, garantendo così la governance e la proprietà del processo di distribuzione del modello. Per utilizzare questi LLM, sono necessari motori di inferenza. Questi motori caricano i pesi del modello sulle risorse disponibili, come le GPU, e elaborano le query per generare risposte. La velocità di inferenza, o prestazione, dell'LLM è cruciale per applicazioni in tempo reale, poiché calcola milioni o miliardi di operazioni in virgola mobile per inferenza. Recentemente, sono emersi motori di inferenza avanzati come vLLM, che incorporano meccanismi innovativi come la gestione efficiente della memoria per raggiungere prestazioni all'avanguardia. In questo articolo, analizziamo le prestazioni, in particolare il throughput (token generati per unità di tempo), di 20 LLM utilizzando due librerie di inferenza: vLLM e le pipeline di HuggingFace. Investigiamo come vari iperparametri, che gli sviluppatori devono configurare, influenzino le prestazioni di inferenza. I nostri risultati rivelano che i paesaggi del throughput sono irregolari, con picchi distinti, evidenziando l'importanza dell'ottimizzazione degli iperparametri per raggiungere le massime prestazioni. Mostriamo inoltre che applicare l'ottimizzazione degli iperparametri quando si aggiorna o si downgrada il modello di GPU utilizzato per l'inferenza può migliorare il throughput delle pipeline di HuggingFace in media del 9,16% e del 13,7%, rispettivamente.
Gli assistenti AI avanzati combinano modelli linguistici all'avanguardia (LLM) e accesso a strumenti per eseguire autonomamente compiti complessi per conto degli utenti. Sebbene l'utilità di tali assistenti possa aumentare notevolmente con l'accesso a informazioni personali come email e documenti, ciò solleva preoccupazioni sulla privacy riguardo alla condivisione di informazioni inappropriate con terze parti senza la supervisione dell'utente. Per guidare gli assistenti che condividono informazioni a comportarsi in linea con le aspettative di privacy, proponiamo di operazionalizzare l'integrità contestuale (CI), un framework che equipara la privacy al flusso appropriato di informazioni in un determinato contesto. In particolare, progettiamo e valutiamo diverse strategie per orientare le azioni di condivisione delle informazioni degli assistenti affinché siano conformi alla CI. La nostra valutazione si basa su un nuovo benchmark di compilazione di modelli composto da dati sintetici e annotazioni umane, e rivela che sollecitare i modelli linguistici all'avanguardia a eseguire ragionamenti basati sulla CI produce risultati significativi.