Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Model (LLM) hanno rivoluzionato il Natural Language Processing (NLP), migliorando lo stato dell'arte in molti compiti esistenti e dimostrando capacità emergenti. Tuttavia, i LLM non sono ancora stati applicati con successo all'estrazione di informazioni da documenti semi-strutturati, che è al centro di molti flussi di lavoro di elaborazione documentale e consiste nell'estrarre entità chiave da un documento visivamente ricco (VRD) in base a uno schema target predefinito. I principali ostacoli all'adozione dei LLM in questo compito sono stati l'assenza di codifica del layout all'interno dei LLM, fondamentale per un'estrazione di alta qualità, e la mancanza di un meccanismo di ancoraggio che garantisca che la risposta non sia allucinata. In questo articolo, introduciamo il Language Model-based Document Information Extraction and Localization (LMDX), una metodologia per adattare LLM arbitrari all'estrazione di informazioni da documenti. LMDX è in grado di estrarre entità singole, ripetute e gerarchiche, sia con che senza dati di addestramento, fornendo garanzie di ancoraggio e localizzando le entità all'interno del documento. In particolare, applichiamo LMDX al LLM PaLM 2-S e lo valutiamo sui benchmark VRDU e CORD, stabilendo un nuovo stato dell'arte e dimostrando come LMDX consenta la creazione di parser di alta qualità ed efficienti dal punto di vista dei dati.
In questo articolo, scopriamo il potenziale inesplorato della U-Net a diffusione, che funge da "pranzo gratuito" in grado di migliorare sostanzialmente la qualità della generazione al volo. Inizialmente, indaghiamo i contributi chiave dell'architettura U-Net al processo di denoising e identifichiamo che la sua struttura principale contribuisce principalmente al denoising, mentre le sue connessioni skip introducono principalmente caratteristiche ad alta frequenza nel modulo di decodifica, causando alla rete di trascurare la semantica della struttura principale. Sfruttando questa scoperta, proponiamo un metodo semplice ma efficace, denominato "FreeU", che migliora la qualità della generazione senza ulteriori addestramenti o fine-tuning. La nostra intuizione chiave è quella di ricalibrare strategicamente i contributi provenienti dalle connessioni skip e dalle mappe di caratteristiche della struttura principale della U-Net, per sfruttare i punti di forza di entrambi i componenti dell'architettura U-Net. Risultati promettenti nei compiti di generazione di immagini e video dimostrano che il nostro FreeU può essere facilmente integrato in modelli di diffusione esistenti, come Stable Diffusion, DreamBooth, ModelScope, Rerender e ReVersion, per migliorare la qualità della generazione con poche righe di codice. Tutto ciò che serve è regolare due fattori di scala durante l'inferenza. Pagina del progetto: https://chenyangsi.top/FreeU/.
Questo articolo presenta DreamLLM, un framework di apprendimento che per la prima volta realizza Modelli Linguistici Multimodali di Grande Scala (MLLM) versatili, potenziati dalla sinergia spesso trascurata tra comprensione e creazione multimodale. DreamLLM si basa su due principi fondamentali. Il primo si concentra sulla modellazione generativa delle posteriori sia linguistiche che visive attraverso il campionamento diretto nello spazio multimodale grezzo. Questo approccio supera le limitazioni e la perdita di informazioni intrinseche agli estrattori di caratteristiche esterni come CLIP, ottenendo una comprensione multimodale più approfondita. In secondo luogo, DreamLLM favorisce la generazione di documenti grezzi e intervallati, modellando sia i contenuti testuali che visivi, insieme a layout non strutturati. Ciò consente a DreamLLM di apprendere efficacemente tutte le distribuzioni multimodali condizionali, marginali e congiunte. Di conseguenza, DreamLLM è il primo MLLM in grado di generare contenuti intervallati in forma libera. Esperimenti completi evidenziano le prestazioni superiori di DreamLLM come generalista multimodale zero-shot, beneficiando della sinergia di apprendimento potenziata.
Presentiamo Kosmos-2.5, un modello multilingue e multimodale per la lettura automatica di immagini ricche di testo. Pre-addestrato su un ampio dataset di immagini con contenuto testuale intensivo, Kosmos-2.5 eccelle in due compiti di trascrizione distinti ma complementari: (1) la generazione di blocchi di testo spazialmente consapevoli, in cui a ciascun blocco di testo vengono assegnate le coordinate spaziali all'interno dell'immagine, e (2) la produzione di output testuali strutturati che catturano stili e strutture nel formato markdown. Questa capacità unificata di lettura multimodale è ottenuta attraverso un'architettura Transformer condivisa, prompt specifici per ciascun compito e rappresentazioni testuali flessibili. Valutiamo Kosmos-2.5 sul riconoscimento di testo a livello di documento end-to-end e sulla generazione di testo da immagine a markdown. Inoltre, il modello può essere facilmente adattato a qualsiasi compito di comprensione di immagini ricche di testo con prompt diversi attraverso un fine-tuning supervisionato, rendendolo uno strumento generico per applicazioni reali che coinvolgono immagini con abbondante contenuto testuale. Questo lavoro apre anche la strada al futuro scalabilità di modelli linguistici multimodali di grandi dimensioni.
La generazione di informazioni fattuali plausibili ma errate, denominata allucinazione, rappresenta un problema irrisolto nei grandi modelli linguistici. Studiamo la capacità dei modelli linguistici di riflettere sulle risposte che forniscono al fine di correggere i propri errori. Sviluppiamo il metodo Chain-of-Verification (CoVe), in cui il modello (i) redige prima una risposta iniziale; poi (ii) pianifica domande di verifica per controllare i fatti del proprio draft; (iii) risponde a tali domande in modo indipendente, affinché le risposte non siano influenzate da altre risposte; e (iv) genera la sua risposta finale verificata. Negli esperimenti, dimostriamo che CoVe riduce le allucinazioni in una varietà di compiti, dalle domande basate su elenchi di Wikidata, al MultiSpanQA a libro chiuso e alla generazione di testi lunghi.
La comunità dell'IA ha compiuto progressi significativi nello sviluppo di potenti modelli di base, alimentati da dataset multimodali su larga scala. Tuttavia, nella comunità di apprendimento della rappresentazione audio, gli attuali dataset audio-linguistici presentano limitazioni come volume insufficiente, contenuto semplificato e procedure di raccolta laboriose. Per affrontare queste sfide, presentiamo una pipeline innovativa e automatica per la generazione di didascalie audio basata su una serie di strumenti pubblici o API, e costruiamo un dataset audio-linguistico su larga scala e di alta qualità, denominato Auto-ACD, che comprende oltre 1,9 milioni di coppie audio-testo. Per dimostrare l'efficacia del dataset proposto, addestriamo modelli popolari sul nostro dataset e mostriamo un miglioramento delle prestazioni su varie attività downstream, ovvero recupero audio-linguistico, generazione di didascalie audio e classificazione dell'ambiente. Inoltre, istituiamo un nuovo set di test e forniamo un benchmark per le attività audio-testo. Il dataset proposto sarà rilasciato all'indirizzo https://auto-acd.github.io/.
Negli ultimi anni, i Large Language Models (LLM) hanno attirato una significativa attenzione da parte della comunità di ricerca grazie alle loro eccezionali prestazioni e capacità di generalizzazione. In questo articolo, introduciamo un metodo innovativo per contestualizzare i modelli di riconoscimento vocale incorporando gli LLM. Il nostro approccio trasforma il riconoscimento vocale in un'attività di modellazione del linguaggio multimodale basata su un LLM preaddestrato. Forniamo caratteristiche audio, insieme a token di testo opzionali per il contesto, per addestrare il sistema a completare le trascrizioni in modalità decoder-only. Di conseguenza, il sistema è implicitamente incentivato a imparare come sfruttare le informazioni contestuali non strutturate durante l'addestramento. I nostri risultati empirici dimostrano un miglioramento significativo delle prestazioni, con una riduzione del 6% del WER quando viene fornito un contesto testuale aggiuntivo. Inoltre, scopriamo che il nostro metodo compete efficacemente e migliora del 7,5% il WER complessivo e del 17% il WER sulle parole rare rispetto a un sistema RNN-T contestualizzato di base che è stato addestrato su un dataset vocale più di venticinque volte più grande. Nel complesso, dimostriamo che aggiungendo solo un numero limitato di parametri addestrabili tramite adattatori, possiamo sbloccare la capacità di riconoscimento vocale contestualizzato per l'LLM preaddestrato mantenendo la stessa funzionalità di input testuale.
La Languini Kitchen funge sia da collettivo di ricerca che da codebase, progettata per consentire ai ricercatori con risorse computazionali limitate di contribuire in modo significativo al campo della modellazione del linguaggio. Introduciamo un protocollo sperimentale che consente il confronto dei modelli basato su un equivalente utilizzo di risorse computazionali, misurato in ore di acceleratore. Il numero di token su cui un modello viene addestrato è definito dalla sua velocità di elaborazione e dalla classe di risorse computazionali scelta. È importante notare che questo approccio evita vincoli sui parametri ipercritici che influenzano il numero totale di parametri o le operazioni in virgola mobile. Per la valutazione, pre-elaboriamo un ampio, diversificato e di alta qualità dataset esistente di libri che supera i benchmark accademici esistenti in termini di qualità, diversità e lunghezza dei documenti. Su di esso, confrontiamo i metodi basandoci sulle loro tendenze di scalabilità empirica, stimate attraverso esperimenti a vari livelli di risorse computazionali. Questo lavoro fornisce anche due modelli di riferimento: un modello feed-forward derivato dall'architettura GPT-2 e un modello ricorrente sotto forma di un nuovo LSTM con una velocità di elaborazione dieci volte superiore. Mentre il modello GPT ottiene una migliore perplessità in tutti i nostri livelli di risorse computazionali, il nostro modello LSTM mostra una legge di scalabilità prevedibile e più favorevole. Ciò è dovuto alla maggiore velocità di elaborazione e alla necessità di un minor numero di token di addestramento per ottenere la stessa riduzione della perplessità sul test. Estrapolando le leggi di scalabilità di entrambi i modelli si ottiene un'intersezione a circa 50.000 ore di acceleratore. Speriamo che questo lavoro possa servire come base per una ricerca significativa e riproducibile nella modellazione del linguaggio.
I recenti progressi nei Neural Radiance Fields (NeRF) hanno reso possibile ricostruire e rianimare scene di ritratti dinamici con controllo su posizione della testa, espressioni facciali e direzione di visualizzazione. Tuttavia, l'addestramento di tali modelli presuppone una consistenza fotometrica sulla regione deformata, ad esempio il viso deve essere uniformemente illuminato mentre si deforma con il cambiamento della posizione della testa e delle espressioni facciali. Tale consistenza fotometrica tra i fotogrammi di un video è difficile da mantenere, anche in ambienti da studio, rendendo così i ritratti neurali rianimabili soggetti ad artefatti durante la rianimazione. In questo lavoro, proponiamo CoDyNeRF, un sistema che consente la creazione di ritratti 3D completamente controllabili in condizioni di acquisizione del mondo reale. CoDyNeRF impara ad approssimare gli effetti dipendenti dall'illuminazione attraverso un modello di aspetto dinamico nello spazio canonico che è condizionato dalle normali di superficie previste e dalle deformazioni delle espressioni facciali e della posizione della testa. La previsione delle normali di superficie è guidata utilizzando le normali 3DMM che fungono da prior approssimativo per le normali della testa umana, dove la previsione diretta delle normali è difficile a causa delle deformazioni rigide e non rigide indotte dai cambiamenti della posizione della testa e delle espressioni facciali. Utilizzando solo un breve video catturato con uno smartphone di un soggetto per l'addestramento, dimostriamo l'efficacia del nostro metodo sulla sintesi di visualizzazione libera di una scena di ritratto con controlli espliciti della posizione della testa e delle espressioni, e effetti di illuminazione realistici. La pagina del progetto può essere trovata qui: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html