HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

12 papers found

Scrivere nei margini: Miglioramento dei modelli di inferenza per il recupero di contesti lunghi
Writing in the Margins: Better Inference Pattern for Long Context Retrieval

Aug 27

ByMelisa Russak, Umar Jamil, Christopher Bryant, Kiran Kamble, Axel Magnuson, Mateusz Russak, Waseem AlShikh

144

In questo articolo, presentiamo Writing in the Margins (WiM), un nuovo schema di inferenza per Large Language Models progettato per ottimizzare la gestione di lunghe sequenze di input in compiti orientati al recupero. Questo approccio sfrutta il precaricamento a blocchi della cache chiave-valore per eseguire un'inferezza a livello di segmento, che consente un elaborazione efficiente di contesti estesi insieme alla generazione e classificazione di informazioni intermedie ("margini") che guidano il modello verso compiti specifici. Questo metodo aumenta marginalmente l'onere computazionale mentre migliora significativamente le prestazioni dei modelli standard senza la necessità di un raffinamento. In particolare, osserviamo che WiM fornisce un miglioramento medio del 7,5% in accuratezza per le abilità di ragionamento (HotpotQA, MultiHop-RAG) e oltre un aumento del 30,0% nel punteggio F1 per i compiti di aggregazione (CWE). Inoltre, mostriamo come lo schema proposto si inserisca in un design di recupero interattivo che fornisce agli utenti finali aggiornamenti continui sul progresso dell'elaborazione del contesto e individua l'integrazione delle informazioni rilevanti nella risposta finale. Rilasciamo la nostra implementazione di WiM utilizzando la libreria Hugging Face Transformers su https://github.com/writer/writing-in-the-margins.

I modelli di diffusione sono motori di gioco in tempo reale.
Diffusion Models Are Real-Time Game Engines

Aug 27

ByDani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter

126

Presentiamo GameNGen, il primo motore di gioco alimentato interamente da un modello neurale che consente l'interazione in tempo reale con un ambiente complesso lungo traiettorie di alta qualità. GameNGen può simulare interattivamente il classico gioco DOOM a oltre 20 frame al secondo su un singolo TPU. La previsione del frame successivo raggiunge un PSNR di 29.4, paragonabile alla compressione JPEG con perdita. I valutatori umani sono solo leggermente migliori del caso casuale nel distinguere brevi clip del gioco da clip della simulazione. GameNGen è addestrato in due fasi: (1) un agente RL impara a giocare al gioco e le sessioni di addestramento vengono registrate, e (2) un modello di diffusione viene addestrato a produrre il frame successivo, condizionato alla sequenza dei frame e delle azioni passate. Le aggiunte di condizionamento consentono una generazione auto-regressiva stabile lungo lunghe traiettorie.

Il Mamba nel Llama: Distillazione e Accelerazione dei Modelli Ibridi
The Mamba in the Llama: Distilling and Accelerating Hybrid Models

Aug 27

ByJunxiong Wang, Daniele Paliotta, Avner May, Alexander M. Rush, Tri Dao

Le architetture RNN lineari, come Mamba, possono essere competitive con i modelli Transformer nel language modeling pur avendo caratteristiche di implementazione vantaggiose. Data l'attenzione posta all'addestramento di modelli Transformer su larga scala, consideriamo la sfida della conversione di tali modelli preaddestrati per l'implementazione. Dimostriamo che è fattibile distillare grandi Transformer in RNN lineari riutilizzando i pesi di proiezione lineare dai livelli di attenzione con risorse GPU accademiche. Il modello ibrido risultante, che incorpora un quarto dei livelli di attenzione, raggiunge prestazioni paragonabili all'originale Transformer nei benchmark di chat e supera i modelli ibridi Mamba open-source addestrati da zero con trilioni di token sia nei benchmark di chat che in quelli generali. Inoltre, introduciamo un algoritmo di decodifica speculativa consapevole dell'hardware che accelera la velocità di inferenza di Mamba e dei modelli ibridi. Nel complesso mostriamo come, con risorse di calcolo limitate, possiamo rimuovere molti dei livelli di attenzione originali e generare in modo più efficiente dal modello risultante. Il nostro modello di punta, distillato da Llama3-8B-Instruct, raggiunge un tasso di vittoria controllato dalla lunghezza del 29,61 su AlpacaEval 2 contro GPT-4 e del 7,35 su MT-Bench, superando il miglior modello RNN lineare ottimizzato per le istruzioni.

Generazione di Interpolazioni: Adattamento dei Modelli Immagine-Video per l'Interpolazione dei Fotogrammi Chiave
Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation

Aug 27

ByXiaojuan Wang, Boyang Zhou, Brian Curless, Ira Kemelmacher-Shlizerman, Aleksander Holynski, Steven M. Seitz

Presentiamo un metodo per generare sequenze video con un movimento coerente tra una coppia di fotogrammi chiave di input. Adattiamo un modello di diffusione immagine-video su larga scala preaddestrato (originariamente addestrato per generare video in avanti nel tempo da un'immagine di input singola) per l'interpolazione dei fotogrammi chiave, cioè per produrre un video tra due fotogrammi di input. Realizziamo questa adattamento attraverso una tecnica di messa a punto leggera che produce una versione del modello che invece predice video che si muovono all'indietro nel tempo da un'immagine di input singola. Questo modello (insieme al modello originale in avanti) viene successivamente utilizzato in un processo di campionamento di diffusione bidirezionale che combina le stime del modello sovrapposte a partire da ciascuno dei due fotogrammi chiave. I nostri esperimenti mostrano che il nostro metodo supera sia i metodi basati sulla diffusione esistenti che le tecniche tradizionali di interpolazione dei fotogrammi.

Text2SQL non è sufficiente: unificare l'IA e i database con TAG.
Text2SQL is Not Enough: Unifying AI and Databases with TAG

Aug 27

ByAsim Biswal, Liana Patel, Siddarth Jha, Amog Kamsetty, Shu Liu, Joseph E. Gonzalez, Carlos Guestrin, Matei Zaharia

I sistemi di intelligenza artificiale che rispondono a domande in linguaggio naturale su database promettono di sbloccare un valore enorme. Tali sistemi consentirebbero agli utenti di sfruttare le potenti capacità di ragionamento e conoscenza dei modelli linguistici (LM) insieme alla scalabilità computazionale dei sistemi di gestione dei dati. Queste capacità combinate permetterebbero agli utenti di porre domande in linguaggio naturale su fonti di dati personalizzate. Tuttavia, i metodi e i benchmark esistenti esplorano in modo insufficiente questo contesto. I metodi Text2SQL si concentrano esclusivamente su domande in linguaggio naturale che possono essere espresse in algebra relazionale, rappresentando solo una piccola parte delle domande che gli utenti reali desiderano porre. Allo stesso modo, il Recupero con Generazione Potenziata (RAG) considera il limitato sottoinsieme di query che possono essere risposte con ricerche puntuali su uno o pochi record dati all'interno del database. Proponiamo la Generazione Potenziata da Tabella (TAG), un paradigma unificato e generico per rispondere a domande in linguaggio naturale su database. Il modello TAG rappresenta una vasta gamma di interazioni tra il LM e il database che sono state precedentemente inesplorate e crea interessanti opportunità di ricerca per sfruttare la conoscenza del mondo e le capacità di ragionamento dei LM sui dati. Sviluppiamo sistematicamente benchmark per studiare il problema TAG e scopriamo che i metodi standard rispondono correttamente a non più del 20% delle query, confermando la necessità di ulteriori ricerche in questo ambito. Rilasciamo il codice per il benchmark su https://github.com/TAG-Research/TAG-Bench.

Costruisci una scena: Controllo interattivo del layout 3D per la generazione di immagini basata sulla diffusione
Build-A-Scene: Interactive 3D Layout Control for Diffusion-Based Image Generation

Aug 27

ByAbdelrahman Eldesokey, Peter Wonka

Proponiamo un approccio basato sulla diffusione per la generazione Testo-Immagine (T2I) con controllo interattivo del layout 3D. Il controllo del layout è stato ampiamente studiato per alleviare i difetti dei modelli di diffusione T2I nella comprensione della disposizione degli oggetti e delle relazioni dalle descrizioni testuali. Tuttavia, gli approcci esistenti per il controllo del layout sono limitati ai layout 2D, richiedono che l'utente fornisca un layout statico in anticipo e non riescono a preservare le immagini generate durante i cambiamenti del layout. Ciò rende tali approcci inadatti per applicazioni che richiedono il controllo tridimensionale degli oggetti e raffinamenti iterativi, ad esempio il design d'interni e la generazione di scene complesse. A tal fine, sfruttiamo i recenti progressi nei modelli T2I condizionati dalla profondità e proponiamo un nuovo approccio per il controllo interattivo del layout 3D. Sostituiamo i tradizionali rettangoli 2D utilizzati nel controllo del layout con rettangoli 3D. Inoltre, rivoluzioniamo il compito T2I come un processo di generazione a più fasi, in cui ad ogni fase l'utente può inserire, modificare e spostare un oggetto in 3D preservando gli oggetti delle fasi precedenti. Raggiungiamo questo obiettivo attraverso il nostro modulo di Auto-Attenzione Dinamica (DSA) proposto e la strategia coerente di traduzione degli oggetti 3D. Gli esperimenti mostrano che il nostro approccio può generare scene complesse basate su layout 3D, aumentando il tasso di successo nella generazione degli oggetti rispetto ai metodi T2I condizionati dalla profondità standard del 2x. Inoltre, supera altri metodi nel preservare gli oggetti durante i cambiamenti del layout. Pagina del Progetto: https://abdo-eldesokey.github.io/build-a-scene/

GenCA: Un modello generativo condizionato al testo per avatar di codec realistici e guidabili
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars

Aug 24

ByKeqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz

Avatar 3D fotorealistici e controllabili sono cruciali per varie applicazioni come realtà virtuale e mista (VR/MR), telepresenza, videogiochi e produzione cinematografica. I metodi tradizionali per la creazione degli avatar coinvolgono spesso processi di scansione e ricostruzione che richiedono molto tempo per ciascun avatar, limitandone la scalabilità. Inoltre, tali metodi non offrono la flessibilità di campionare nuove identità o modificare quelle esistenti. D'altra parte, apprendendo una forte conoscenza preliminare dai dati, i modelli generativi offrono un'alternativa promettente ai metodi tradizionali di ricostruzione, facilitando i vincoli temporali sia per la cattura che per l'elaborazione dei dati. Inoltre, i metodi generativi consentono applicazioni successive oltre alla ricostruzione, come l'editing e la stilizzazione. Tuttavia, la ricerca sugli avatar 3D generativi è ancora agli inizi e pertanto i metodi attuali presentano ancora limitazioni come la creazione di avatar statici, la mancanza di fotorealismo, dettagli facciali incompleti o una limitata guidabilità. Per affrontare ciò, proponiamo un modello generativo condizionato al testo che può generare avatar facciali fotorealistici di identità diverse, con dettagli più completi come capelli, occhi e interni della bocca, e che possono essere guidati attraverso uno spazio di espressione latente non parametrico potente. In particolare, integriamo le capacità generative e di editing dei modelli di diffusione latente con un forte modello preliminare per la guida dell'espressione dell'avatar. Il nostro modello può generare e controllare avatar ad alta fedeltà, anche quelli fuori distribuzione. Evidenziamo inoltre il suo potenziale per applicazioni successive, tra cui l'editing degli avatar e la ricostruzione degli avatar in un'unica ripresa.

Ornitorinco: Un Modello Specialistico Generalizzato per la Lettura di Testo in Diverse Forme
Platypus: A Generalized Specialist Model for Reading Text in Various Forms

Aug 27

ByPeng Wang, Zhaohai Li, Jun Tang, Humen Zhong, Fei Huang, Zhibo Yang, Cong Yao

Lettura del testo da immagini (sia scene naturali che documenti) è un argomento di ricerca consolidato da decenni, a causa dell'alta sfida tecnica e dell'ampio campo di applicazione. In passato, venivano sviluppati modelli specialistici individuali per affrontare le sottoattività della lettura del testo (ad esempio, riconoscimento del testo in scene, riconoscimento del testo scritto a mano e riconoscimento di espressioni matematiche). Tuttavia, tali modelli specialistici di solito non riescono a generalizzare efficacemente tra diverse sottoattività. Recentemente, modelli generalisti (come GPT-4V), addestrati su enormi quantità di dati in modo unificato, hanno mostrato un enorme potenziale nella lettura del testo in vari scenari, ma con gli svantaggi di una precisione limitata e una bassa efficienza. In questo lavoro, proponiamo Platypus, un modello specialistico generalizzato per la lettura del testo. In particolare, Platypus combina il meglio di entrambi i mondi: essere in grado di riconoscere testi di varie forme con un'unica architettura unificata, ottenendo nel contempo un'eccellente precisione e un'alta efficienza. Per sfruttare al meglio il vantaggio di Platypus, costruiamo anche un dataset di lettura del testo (chiamato Worms), le immagini del quale sono selezionate da dataset precedenti e parzialmente rietichettate. Gli esperimenti su benchmark standard dimostrano l'efficacia e la superiorità del modello Platypus proposto. Il modello e i dati saranno resi pubblicamente disponibili su https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/OCR/Platypus.

Progetto OMBRA: Ragionamento Deduttivo Associativo di Ordine Superiore Simbolico su Wikidata utilizzando la sonda LM
Project SHADOW: Symbolic Higher-order Associative Deductive reasoning On Wikidata using LM probing

Aug 27

ByHanna Abi Akl

Introduciamo SHADOW, un modello linguistico raffinato addestrato su un compito intermedio utilizzando il ragionamento deduttivo associativo, e misuriamo le sue prestazioni su un compito di costruzione di una base di conoscenza utilizzando il completamento di triple di Wikidata. Valutiamo SHADOW sulla sfida LM-KBC 2024 e mostriamo che supera la soluzione di base del 20% con un punteggio F1 del 68,72%.

DSTI presso LLMs4OL 2024 Task A: Conoscenza intrinseca versus estrinseca per la classificazione dei tipi
DSTI at LLMs4OL 2024 Task A: Intrinsic versus extrinsic knowledge for type classification

Aug 26

ByHanna Abi Akl

Introduciamo le torri semantiche, un metodo di rappresentazione della conoscenza estrinseca, e lo confrontiamo con la conoscenza intrinseca nei grandi modelli linguistici per l'apprendimento ontologico. I nostri esperimenti mostrano un compromesso tra le prestazioni e il fondamento semantico per la conoscenza estrinseca rispetto a un modello intrinseco sintonizzato finemente. Riportiamo le nostre scoperte sulla sfida Large Language Models for Ontology Learning (LLMs4OL) del 2024.

Ricostruzione 3D temporale coerente degli uccelli
Temporally-consistent 3D Reconstruction of Birds

Aug 24

ByJohannes Hägerlind, Jonas Hentati-Sundberg, Bastian Wandt

Questo articolo tratta della ricostruzione in 3D di uccelli marini, che recentemente è diventata oggetto di interesse per gli scienziati ambientali in quanto preziosi bioindicatori dei cambiamenti ambientali. Tale informazione tridimensionale è utile per analizzare il comportamento degli uccelli e la loro forma fisiologica, ad esempio mediante il tracciamento dei movimenti, delle forme e dei cambiamenti di aspetto. Dal punto di vista della visione artificiale, gli uccelli sono particolarmente sfidanti a causa dei loro movimenti rapidi e spesso non rigidi. Proponiamo un approccio per ricostruire la posa e la forma in 3D da video monoculari di una specifica specie di uccello marino - il comune gabbiano. Il nostro approccio comprende un intero processo di rilevamento, tracciamento, segmentazione e ricostruzione in 3D temporalmente coerente. Inoltre, proponiamo una perdita temporale che estende gli attuali stimatori di posa in 3D degli uccelli da singola immagine al dominio temporale. Inoltre, forniamo un dataset del mondo reale di 10000 fotogrammi di osservazioni video che in media catturano nove uccelli contemporaneamente, comprendente una vasta gamma di movimenti e interazioni, incluso un set di test più piccolo con etichette di punti chiave specifici degli uccelli. Utilizzando la nostra ottimizzazione temporale, otteniamo prestazioni all'avanguardia per le sequenze impegnative nel nostro dataset.

LLM-3D Print: Grandi Modelli Linguistici per Monitorare e Controllare la Stampa 3D
LLM-3D Print: Large Language Models To Monitor and Control 3D Printing

Aug 26

ByYayati Jadhav, Peter Pak, Amir Barati Farimani

L'Industria 4.0 ha rivoluzionato la produzione guidando la digitalizzazione e spostando il paradigma verso la manifattura additiva (AM). La Modellazione a Deposizione Fusa (FDM), una tecnologia chiave di AM, consente la creazione di prodotti altamente personalizzati ed economici con un minimo spreco di materiale attraverso l'estrusione strato dopo strato, ponendo una sfida significativa ai tradizionali metodi sottrattivi. Tuttavia, la suscettibilità delle tecniche di estrusione dei materiali agli errori richiede spesso l'intervento di esperti per rilevare e mitigare difetti che possono compromettere gravemente la qualità del prodotto. Sebbene esistano modelli automatizzati di rilevamento degli errori e di apprendimento automatico, la loro generalizzabilità tra diversi set-up di stampanti 3D, firmware e sensori è limitata, e i metodi di apprendimento profondo richiedono ampi set di dati etichettati, ostacolando la scalabilità e l'adattabilità. Per affrontare queste sfide, presentiamo un framework di monitoraggio e controllo dei processi che sfrutta i Large Language Models (LLM) pre-addestrati insieme alle stampanti 3D per rilevare e affrontare i difetti di stampa. L'LLM valuta la qualità di stampa analizzando le immagini catturate dopo ogni strato o segmento di stampa, identificando le modalità di fallimento e interrogando la stampante per i parametri rilevanti. Genera quindi ed esegue un piano d'azione correttivo. Abbiamo convalidato l'efficacia del framework proposto nell'identificare i difetti confrontandolo con un gruppo di controllo di ingegneri con diverse competenze in AM. La nostra valutazione ha dimostrato che gli agenti basati su LLM identificano non solo con precisione gli errori comuni nella stampa 3D, come l'estrusione inconsistente, lo stringing, il warping e l'adesione tra strati, ma determinano anche efficacemente i parametri che causano tali fallimenti e li correggono autonomamente senza alcun bisogno di intervento umano.

GenCA: Un modello generativo condizionato al testo per avatar di codec realistici e guidabili
GenCA: A Text-conditioned Generative Model for Realistic and Drivable Codec Avatars

Aug 24

ByKeqiang Sun, Amin Jourabloo, Riddhish Bhalodia, Moustafa Meshry, Yu Rong, Zhengyu Yang, Thu Nguyen-Phuoc, Christian Haene, Jiu Xu, Sam Johnson, Hongsheng Li, Sofien Bouaziz