Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Modelli di Consistenza Latente (LCM) hanno ottenuto prestazioni impressionanti nell'accelerazione delle attività di generazione da testo a immagine, producendo immagini di alta qualità con un numero minimo di passaggi di inferenza. Gli LCM sono distillati da modelli di diffusione latente (LDM) pre-addestrati, richiedendo solo circa 32 ore di addestramento su GPU A100. Questo rapporto estende ulteriormente il potenziale degli LCM in due aspetti: in primo luogo, applicando la distillazione LoRA a modelli Stable-Diffusion come SD-V1.5, SSD-1B e SDXL, abbiamo ampliato la portata degli LCM a modelli più grandi con un consumo di memoria significativamente inferiore, ottenendo una qualità di generazione delle immagini superiore. In secondo luogo, identifichiamo i parametri LoRA ottenuti attraverso la distillazione LCM come un modulo universale di accelerazione per Stable-Diffusion, denominato LCM-LoRA. LCM-LoRA può essere direttamente integrato in vari modelli Stable-Diffusion fine-tuned o in altri LoRA senza necessità di ulteriore addestramento, rappresentando così un acceleratore universalmente applicabile per diverse attività di generazione di immagini. Rispetto ai precedenti risolutori numerici di PF-ODE come DDIM e DPM-Solver, LCM-LoRA può essere visto come un risolutore neurale plug-in di PF-ODE che possiede forti capacità di generalizzazione. Pagina del progetto: https://github.com/luosiallen/latent-consistency-model.
LLaVA-Plus è un assistente multimodale generico che amplia le capacità dei grandi modelli multimodali. Mantiene un repository di competenze costituito da modelli pre-addestrati per la visione e per la combinazione di visione e linguaggio, ed è in grado di attivare strumenti rilevanti in base agli input degli utenti per svolgere compiti del mondo reale. LLaVA-Plus viene addestrato su dati multimodali che seguono istruzioni per acquisire la capacità di utilizzare strumenti, coprendo la comprensione visiva, la generazione, il recupero di conoscenze esterne e le composizioni. I risultati empirici dimostrano che LLaVA-Plus supera LLaVA nelle capacità esistenti e ne mostra di nuove. Si distingue per il fatto che la query basata sull'immagine è direttamente ancorata e attivamente coinvolta durante l'intera sessione di interazione uomo-AI, migliorando significativamente le prestazioni nell'uso degli strumenti e abilitando nuovi scenari.
Presentiamo Prompt Cache, un approccio per accelerare l'inferenza nei grandi modelli linguistici (LLM) riutilizzando gli stati di attenzione tra diversi prompt di LLM. Molti prompt di input contengono segmenti di testo sovrapposti, come messaggi di sistema, modelli di prompt e documenti forniti come contesto. La nostra intuizione chiave è che precalcolando e memorizzando gli stati di attenzione di questi segmenti di testo ricorrenti sul server di inferenza, possiamo riutilizzarli in modo efficiente quando questi segmenti compaiono nei prompt degli utenti. Prompt Cache utilizza uno schema per definire esplicitamente tali segmenti di testo riutilizzabili, chiamati moduli di prompt. Lo schema garantisce l'accuratezza posizionale durante il riutilizzo degli stati di attenzione e fornisce agli utenti un'interfaccia per accedere agli stati memorizzati nella cache nei loro prompt. Utilizzando un'implementazione prototipo, valutiamo Prompt Cache su diversi LLM. Dimostriamo che Prompt Cache riduce significativamente la latenza nel tempo al primo token, specialmente per prompt più lunghi come risposte a domande basate su documenti e raccomandazioni. I miglioramenti vanno da 8x per l'inferenza basata su GPU a 60x per l'inferenza basata su CPU, mantenendo l'accuratezza dell'output e senza la necessità di modifiche ai parametri del modello.
I modelli linguistici di grandi dimensioni (LLM) hanno recentemente raggiunto prestazioni di livello umano su una gamma di benchmark professionali e accademici. L'accessibilità di questi modelli è rimasta indietro rispetto alle loro prestazioni. Gli LLM all'avanguardia richiedono infrastrutture costose; sono accessibili solo tramite interfacce web limitate da rate, bloccate geograficamente e censurate; e mancano di codice e rapporti tecnici pubblicamente disponibili. In questo articolo, raccontiamo la storia di GPT4All, un popolare repository open source che mira a democratizzare l'accesso agli LLM. Descriviamo i dettagli tecnici della famiglia originale di modelli GPT4All, nonché l'evoluzione del progetto GPT4All da un singolo modello a un ecosistema open source completamente sviluppato. Speriamo che questo articolo funga sia da panoramica tecnica dei modelli originali GPT4All sia come caso di studio sulla crescita successiva dell'ecosistema open source GPT4All.
I recenti progressi come LLaVA e Mini-GPT4 hanno integrato con successo le informazioni visive nei LLM, producendo risultati stimolanti e dando vita a una nuova generazione di LLM multimodali, o MLLM. Tuttavia, questi metodi incontrano difficoltà con le allucinazioni e l'interferenza reciproca tra i compiti. Per affrontare questi problemi, proponiamo un approccio efficiente e accurato per adattarsi ai compiti downstream utilizzando il LLM come ponte per connettere più modelli esperti, denominato u-LLaVA. In primo luogo, integriamo il modulo di allineamento delle modalità e i moduli multi-task nel LLM. Successivamente, riorganizziamo o ricostruiamo dataset pubblici di vario tipo per consentire un allineamento efficiente delle modalità e il rispetto delle istruzioni. Infine, le informazioni specifiche per il compito vengono estratte dal LLM addestrato e fornite a diversi moduli per risolvere i compiti downstream. L'architettura complessiva è semplice, efficace e raggiunge prestazioni all'avanguardia su più benchmark. Rilasciamo inoltre pubblicamente il nostro modello, i dati generati e il codice.
Il perseguimento della tecnologia di guida autonoma si basa sull'integrazione sofisticata di sistemi di percezione, decisione e controllo. Gli approcci tradizionali, sia basati sui dati che su regole, sono stati limitati dalla loro incapacità di cogliere le sfumature degli ambienti di guida complessi e le intenzioni degli altri utenti della strada. Questo ha rappresentato un significativo collo di bottiglia, in particolare nello sviluppo del ragionamento basato sul senso comune e della comprensione contestuale necessari per una guida autonoma sicura e affidabile. L'avvento dei Modelli di Linguaggio Visivo (VLM) rappresenta una nuova frontiera nel realizzare una guida completamente autonoma dei veicoli. Questo rapporto fornisce una valutazione esaustiva dello stato dell'arte più recente dei VLM, \modelnamefull, e della sua applicazione negli scenari di guida autonoma. Esploriamo le capacità del modello di comprendere e ragionare sulle scene di guida, prendere decisioni e agire in qualità di conducente. I nostri test completi spaziano dal riconoscimento di base delle scene al ragionamento causale complesso e alla decisione in tempo reale in condizioni variabili. I nostri risultati rivelano che \modelname dimostra prestazioni superiori nella comprensione delle scene e nel ragionamento causale rispetto ai sistemi autonomi esistenti. Mostra il potenziale di gestire scenari fuori distribuzione, riconoscere le intenzioni e prendere decisioni informate in contesti di guida reali. Tuttavia, rimangono delle sfide, in particolare nel discernimento della direzione, nel riconoscimento dei semafori, nel grounding visivo e nei compiti di ragionamento spaziale. Queste limitazioni sottolineano la necessità di ulteriori ricerche e sviluppi. Il progetto è ora disponibile su GitHub per le parti interessate che desiderano accedervi e utilizzarlo: https://github.com/PJLab-ADG/GPT4V-AD-Exploration