Articoli di ricerca IA selezionati quotidianamente con traduzioni
In questo articolo, presentiamo Writing in the Margins (WiM), un nuovo schema di inferenza per Large Language Models progettato per ottimizzare la gestione di lunghe sequenze di input in compiti orientati al recupero. Questo approccio sfrutta il precaricamento a blocchi della cache chiave-valore per eseguire un'inferezza a livello di segmento, che consente un elaborazione efficiente di contesti estesi insieme alla generazione e classificazione di informazioni intermedie ("margini") che guidano il modello verso compiti specifici. Questo metodo aumenta marginalmente l'onere computazionale mentre migliora significativamente le prestazioni dei modelli standard senza la necessità di un raffinamento. In particolare, osserviamo che WiM fornisce un miglioramento medio del 7,5% in accuratezza per le abilità di ragionamento (HotpotQA, MultiHop-RAG) e oltre un aumento del 30,0% nel punteggio F1 per i compiti di aggregazione (CWE). Inoltre, mostriamo come lo schema proposto si inserisca in un design di recupero interattivo che fornisce agli utenti finali aggiornamenti continui sul progresso dell'elaborazione del contesto e individua l'integrazione delle informazioni rilevanti nella risposta finale. Rilasciamo la nostra implementazione di WiM utilizzando la libreria Hugging Face Transformers su https://github.com/writer/writing-in-the-margins.
Presentiamo GameNGen, il primo motore di gioco alimentato interamente da un modello neurale che consente l'interazione in tempo reale con un ambiente complesso lungo traiettorie di alta qualità. GameNGen può simulare interattivamente il classico gioco DOOM a oltre 20 frame al secondo su un singolo TPU. La previsione del frame successivo raggiunge un PSNR di 29.4, paragonabile alla compressione JPEG con perdita. I valutatori umani sono solo leggermente migliori del caso casuale nel distinguere brevi clip del gioco da clip della simulazione. GameNGen è addestrato in due fasi: (1) un agente RL impara a giocare al gioco e le sessioni di addestramento vengono registrate, e (2) un modello di diffusione viene addestrato a produrre il frame successivo, condizionato alla sequenza dei frame e delle azioni passate. Le aggiunte di condizionamento consentono una generazione auto-regressiva stabile lungo lunghe traiettorie.
Le architetture RNN lineari, come Mamba, possono essere competitive con i modelli Transformer nel language modeling pur avendo caratteristiche di implementazione vantaggiose. Data l'attenzione posta all'addestramento di modelli Transformer su larga scala, consideriamo la sfida della conversione di tali modelli preaddestrati per l'implementazione. Dimostriamo che è fattibile distillare grandi Transformer in RNN lineari riutilizzando i pesi di proiezione lineare dai livelli di attenzione con risorse GPU accademiche. Il modello ibrido risultante, che incorpora un quarto dei livelli di attenzione, raggiunge prestazioni paragonabili all'originale Transformer nei benchmark di chat e supera i modelli ibridi Mamba open-source addestrati da zero con trilioni di token sia nei benchmark di chat che in quelli generali. Inoltre, introduciamo un algoritmo di decodifica speculativa consapevole dell'hardware che accelera la velocità di inferenza di Mamba e dei modelli ibridi. Nel complesso mostriamo come, con risorse di calcolo limitate, possiamo rimuovere molti dei livelli di attenzione originali e generare in modo più efficiente dal modello risultante. Il nostro modello di punta, distillato da Llama3-8B-Instruct, raggiunge un tasso di vittoria controllato dalla lunghezza del 29,61 su AlpacaEval 2 contro GPT-4 e del 7,35 su MT-Bench, superando il miglior modello RNN lineare ottimizzato per le istruzioni.
Presentiamo un metodo per generare sequenze video con un movimento coerente tra una coppia di fotogrammi chiave di input. Adattiamo un modello di diffusione immagine-video su larga scala preaddestrato (originariamente addestrato per generare video in avanti nel tempo da un'immagine di input singola) per l'interpolazione dei fotogrammi chiave, cioè per produrre un video tra due fotogrammi di input. Realizziamo questa adattamento attraverso una tecnica di messa a punto leggera che produce una versione del modello che invece predice video che si muovono all'indietro nel tempo da un'immagine di input singola. Questo modello (insieme al modello originale in avanti) viene successivamente utilizzato in un processo di campionamento di diffusione bidirezionale che combina le stime del modello sovrapposte a partire da ciascuno dei due fotogrammi chiave. I nostri esperimenti mostrano che il nostro metodo supera sia i metodi basati sulla diffusione esistenti che le tecniche tradizionali di interpolazione dei fotogrammi.
I sistemi di intelligenza artificiale che rispondono a domande in linguaggio naturale su database promettono di sbloccare un valore enorme. Tali sistemi consentirebbero agli utenti di sfruttare le potenti capacità di ragionamento e conoscenza dei modelli linguistici (LM) insieme alla scalabilità computazionale dei sistemi di gestione dei dati. Queste capacità combinate permetterebbero agli utenti di porre domande in linguaggio naturale su fonti di dati personalizzate. Tuttavia, i metodi e i benchmark esistenti esplorano in modo insufficiente questo contesto. I metodi Text2SQL si concentrano esclusivamente su domande in linguaggio naturale che possono essere espresse in algebra relazionale, rappresentando solo una piccola parte delle domande che gli utenti reali desiderano porre. Allo stesso modo, il Recupero con Generazione Potenziata (RAG) considera il limitato sottoinsieme di query che possono essere risposte con ricerche puntuali su uno o pochi record dati all'interno del database. Proponiamo la Generazione Potenziata da Tabella (TAG), un paradigma unificato e generico per rispondere a domande in linguaggio naturale su database. Il modello TAG rappresenta una vasta gamma di interazioni tra il LM e il database che sono state precedentemente inesplorate e crea interessanti opportunità di ricerca per sfruttare la conoscenza del mondo e le capacità di ragionamento dei LM sui dati. Sviluppiamo sistematicamente benchmark per studiare il problema TAG e scopriamo che i metodi standard rispondono correttamente a non più del 20% delle query, confermando la necessità di ulteriori ricerche in questo ambito. Rilasciamo il codice per il benchmark su https://github.com/TAG-Research/TAG-Bench.
Proponiamo un approccio basato sulla diffusione per la generazione Testo-Immagine (T2I) con controllo interattivo del layout 3D. Il controllo del layout è stato ampiamente studiato per alleviare i difetti dei modelli di diffusione T2I nella comprensione della disposizione degli oggetti e delle relazioni dalle descrizioni testuali. Tuttavia, gli approcci esistenti per il controllo del layout sono limitati ai layout 2D, richiedono che l'utente fornisca un layout statico in anticipo e non riescono a preservare le immagini generate durante i cambiamenti del layout. Ciò rende tali approcci inadatti per applicazioni che richiedono il controllo tridimensionale degli oggetti e raffinamenti iterativi, ad esempio il design d'interni e la generazione di scene complesse. A tal fine, sfruttiamo i recenti progressi nei modelli T2I condizionati dalla profondità e proponiamo un nuovo approccio per il controllo interattivo del layout 3D. Sostituiamo i tradizionali rettangoli 2D utilizzati nel controllo del layout con rettangoli 3D. Inoltre, rivoluzioniamo il compito T2I come un processo di generazione a più fasi, in cui ad ogni fase l'utente può inserire, modificare e spostare un oggetto in 3D preservando gli oggetti delle fasi precedenti. Raggiungiamo questo obiettivo attraverso il nostro modulo di Auto-Attenzione Dinamica (DSA) proposto e la strategia coerente di traduzione degli oggetti 3D. Gli esperimenti mostrano che il nostro approccio può generare scene complesse basate su layout 3D, aumentando il tasso di successo nella generazione degli oggetti rispetto ai metodi T2I condizionati dalla profondità standard del 2x. Inoltre, supera altri metodi nel preservare gli oggetti durante i cambiamenti del layout. Pagina del Progetto: https://abdo-eldesokey.github.io/build-a-scene/
Avatar 3D fotorealistici e controllabili sono cruciali per varie applicazioni come realtà virtuale e mista (VR/MR), telepresenza, videogiochi e produzione cinematografica. I metodi tradizionali per la creazione degli avatar coinvolgono spesso processi di scansione e ricostruzione che richiedono molto tempo per ciascun avatar, limitandone la scalabilità. Inoltre, tali metodi non offrono la flessibilità di campionare nuove identità o modificare quelle esistenti. D'altra parte, apprendendo una forte conoscenza preliminare dai dati, i modelli generativi offrono un'alternativa promettente ai metodi tradizionali di ricostruzione, facilitando i vincoli temporali sia per la cattura che per l'elaborazione dei dati. Inoltre, i metodi generativi consentono applicazioni successive oltre alla ricostruzione, come l'editing e la stilizzazione. Tuttavia, la ricerca sugli avatar 3D generativi è ancora agli inizi e pertanto i metodi attuali presentano ancora limitazioni come la creazione di avatar statici, la mancanza di fotorealismo, dettagli facciali incompleti o una limitata guidabilità. Per affrontare ciò, proponiamo un modello generativo condizionato al testo che può generare avatar facciali fotorealistici di identità diverse, con dettagli più completi come capelli, occhi e interni della bocca, e che possono essere guidati attraverso uno spazio di espressione latente non parametrico potente. In particolare, integriamo le capacità generative e di editing dei modelli di diffusione latente con un forte modello preliminare per la guida dell'espressione dell'avatar. Il nostro modello può generare e controllare avatar ad alta fedeltà, anche quelli fuori distribuzione. Evidenziamo inoltre il suo potenziale per applicazioni successive, tra cui l'editing degli avatar e la ricostruzione degli avatar in un'unica ripresa.
Lettura del testo da immagini (sia scene naturali che documenti) è un argomento di ricerca consolidato da decenni, a causa dell'alta sfida tecnica e dell'ampio campo di applicazione. In passato, venivano sviluppati modelli specialistici individuali per affrontare le sottoattività della lettura del testo (ad esempio, riconoscimento del testo in scene, riconoscimento del testo scritto a mano e riconoscimento di espressioni matematiche). Tuttavia, tali modelli specialistici di solito non riescono a generalizzare efficacemente tra diverse sottoattività. Recentemente, modelli generalisti (come GPT-4V), addestrati su enormi quantità di dati in modo unificato, hanno mostrato un enorme potenziale nella lettura del testo in vari scenari, ma con gli svantaggi di una precisione limitata e una bassa efficienza. In questo lavoro, proponiamo Platypus, un modello specialistico generalizzato per la lettura del testo. In particolare, Platypus combina il meglio di entrambi i mondi: essere in grado di riconoscere testi di varie forme con un'unica architettura unificata, ottenendo nel contempo un'eccellente precisione e un'alta efficienza. Per sfruttare al meglio il vantaggio di Platypus, costruiamo anche un dataset di lettura del testo (chiamato Worms), le immagini del quale sono selezionate da dataset precedenti e parzialmente rietichettate. Gli esperimenti su benchmark standard dimostrano l'efficacia e la superiorità del modello Platypus proposto. Il modello e i dati saranno resi pubblicamente disponibili su https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.
Introduciamo SHADOW, un modello linguistico raffinato addestrato su un compito intermedio utilizzando il ragionamento deduttivo associativo, e misuriamo le sue prestazioni su un compito di costruzione di una base di conoscenza utilizzando il completamento di triple di Wikidata. Valutiamo SHADOW sulla sfida LM-KBC 2024 e mostriamo che supera la soluzione di base del 20% con un punteggio F1 del 68,72%.
Introduciamo le torri semantiche, un metodo di rappresentazione della conoscenza estrinseca, e lo confrontiamo con la conoscenza intrinseca nei grandi modelli linguistici per l'apprendimento ontologico. I nostri esperimenti mostrano un compromesso tra le prestazioni e il fondamento semantico per la conoscenza estrinseca rispetto a un modello intrinseco sintonizzato finemente. Riportiamo le nostre scoperte sulla sfida Large Language Models for Ontology Learning (LLMs4OL) del 2024.
Questo articolo tratta della ricostruzione in 3D di uccelli marini, che recentemente è diventata oggetto di interesse per gli scienziati ambientali in quanto preziosi bioindicatori dei cambiamenti ambientali. Tale informazione tridimensionale è utile per analizzare il comportamento degli uccelli e la loro forma fisiologica, ad esempio mediante il tracciamento dei movimenti, delle forme e dei cambiamenti di aspetto. Dal punto di vista della visione artificiale, gli uccelli sono particolarmente sfidanti a causa dei loro movimenti rapidi e spesso non rigidi. Proponiamo un approccio per ricostruire la posa e la forma in 3D da video monoculari di una specifica specie di uccello marino - il comune gabbiano. Il nostro approccio comprende un intero processo di rilevamento, tracciamento, segmentazione e ricostruzione in 3D temporalmente coerente. Inoltre, proponiamo una perdita temporale che estende gli attuali stimatori di posa in 3D degli uccelli da singola immagine al dominio temporale. Inoltre, forniamo un dataset del mondo reale di 10000 fotogrammi di osservazioni video che in media catturano nove uccelli contemporaneamente, comprendente una vasta gamma di movimenti e interazioni, incluso un set di test più piccolo con etichette di punti chiave specifici degli uccelli. Utilizzando la nostra ottimizzazione temporale, otteniamo prestazioni all'avanguardia per le sequenze impegnative nel nostro dataset.
L'Industria 4.0 ha rivoluzionato la produzione guidando la digitalizzazione e spostando il paradigma verso la manifattura additiva (AM). La Modellazione a Deposizione Fusa (FDM), una tecnologia chiave di AM, consente la creazione di prodotti altamente personalizzati ed economici con un minimo spreco di materiale attraverso l'estrusione strato dopo strato, ponendo una sfida significativa ai tradizionali metodi sottrattivi. Tuttavia, la suscettibilità delle tecniche di estrusione dei materiali agli errori richiede spesso l'intervento di esperti per rilevare e mitigare difetti che possono compromettere gravemente la qualità del prodotto. Sebbene esistano modelli automatizzati di rilevamento degli errori e di apprendimento automatico, la loro generalizzabilità tra diversi set-up di stampanti 3D, firmware e sensori è limitata, e i metodi di apprendimento profondo richiedono ampi set di dati etichettati, ostacolando la scalabilità e l'adattabilità. Per affrontare queste sfide, presentiamo un framework di monitoraggio e controllo dei processi che sfrutta i Large Language Models (LLM) pre-addestrati insieme alle stampanti 3D per rilevare e affrontare i difetti di stampa. L'LLM valuta la qualità di stampa analizzando le immagini catturate dopo ogni strato o segmento di stampa, identificando le modalità di fallimento e interrogando la stampante per i parametri rilevanti. Genera quindi ed esegue un piano d'azione correttivo. Abbiamo convalidato l'efficacia del framework proposto nell'identificare i difetti confrontandolo con un gruppo di controllo di ingegneri con diverse competenze in AM. La nostra valutazione ha dimostrato che gli agenti basati su LLM identificano non solo con precisione gli errori comuni nella stampa 3D, come l'estrusione inconsistente, lo stringing, il warping e l'adesione tra strati, ma determinano anche efficacemente i parametri che causano tali fallimenti e li correggono autonomamente senza alcun bisogno di intervento umano.