Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo il Recognize Anything Model (RAM): un modello di base solido per l'assegnazione di tag alle immagini. RAM è in grado di riconoscere qualsiasi categoria comune con elevata precisione. RAM introduce un nuovo paradigma per l'assegnazione di tag alle immagini, sfruttando coppie immagine-testo su larga scala per l'addestramento anziché annotazioni manuali. Lo sviluppo di RAM comprende quattro passaggi chiave. In primo luogo, i tag per le immagini senza annotazioni vengono ottenuti su larga scala attraverso l'analisi semantica automatica del testo. Successivamente, un modello preliminare viene addestrato per l'annotazione automatica unificando i compiti di descrizione e assegnazione di tag, supervisionati rispettivamente dai testi originali e dai tag analizzati. In terzo luogo, un motore di dati viene impiegato per generare annotazioni aggiuntive e pulire quelle errate. Infine, il modello viene riaddestrato con i dati elaborati e affinato utilizzando un dataset più piccolo ma di qualità superiore. Valutiamo le capacità di assegnazione di tag di RAM su numerosi benchmark e osserviamo prestazioni zero-shot impressionanti, superando significativamente CLIP e BLIP. Notevolmente, RAM supera persino i metodi completamente supervisionati e mostra prestazioni competitive con l'API di Google. Stiamo rilasciando RAM all'indirizzo https://recognize-anything.github.io/ per favorire i progressi dei modelli di grandi dimensioni nel campo della visione artificiale.
Il fine-tuning su istruzioni ha significativamente avanzato i grandi modelli linguistici (LLM) come ChatGPT, consentendo loro di allinearsi con le istruzioni umane su una vasta gamma di compiti. Tuttavia, i progressi nei modelli visione-linguaggio (VLM) open sono stati limitati a causa della scarsità di dataset di istruzioni di alta qualità. Per affrontare questa sfida e promuovere la ricerca nel campo visione-linguaggio, introduciamo il dataset Multi-Modale, Multilingue per il Fine-Tuning su Istruzioni (M^3IT), progettato per ottimizzare l'allineamento dei VLM con le istruzioni umane. Il nostro dataset M^3IT comprende 40 dataset accuratamente selezionati, inclusi 2,4 milioni di istanze e 400 istruzioni per compiti scritte manualmente, riformattate in una struttura visione-testo. I compiti chiave sono tradotti in 80 lingue con un sistema di traduzione avanzato, garantendo una maggiore accessibilità. M^3IT supera i dataset precedenti per quanto riguarda la copertura dei compiti, il numero di istruzioni e la scala delle istanze. Inoltre, sviluppiamo Ying-VLM, un modello VLM addestrato sul nostro dataset M^3IT, che dimostra il suo potenziale nel rispondere a domande complesse che richiedono conoscenza del mondo, nel generalizzare a compiti video non visti e nel comprendere istruzioni non viste in cinese. Per incoraggiare ulteriori ricerche, abbiamo reso open-source sia il dataset che i modelli addestrati.
Siamo interessati a un compito innovativo, ovvero la creazione di avatar parlanti con risorse limitate. Dato un video di pochi minuti di una persona che parla, completo di traccia audio, come dati di addestramento e testi arbitrari come input di guida, il nostro obiettivo è sintetizzare video di ritratti parlanti di alta qualità corrispondenti al testo in ingresso. Questo compito ha ampie prospettive di applicazione nell'industria degli esseri umani digitali, ma non è stato ancora raggiunto tecnicamente a causa di due sfide: (1) È difficile imitare il timbro da audio fuori dominio per un tradizionale sistema di sintesi vocale multi-parlante (Text-to-Speech). (2) È complesso rendere avatar parlanti ad alta fedeltà e sincronizzati labialmente con dati di addestramento limitati. In questo articolo, introduciamo Adaptive Text-to-Talking Avatar (Ada-TTA), che (1) progetta un modello generico di sintesi vocale multi-parlante zero-shot che ben separa il contenuto testuale, il timbro e la prosodia; e (2) sfrutta i recenti progressi nel rendering neurale per ottenere una generazione realistica di video di volti parlanti guidati dall'audio. Con queste soluzioni, il nostro metodo supera le due sfide menzionate e riesce a generare discorsi che preservano l'identità e video realistici di persone parlanti. Gli esperimenti dimostrano che il nostro metodo è in grado di sintetizzare video di avatar parlanti realistici, che preservano l'identità e sono sincronizzati audio-visivamente.
Trovare corrispondenze tra immagini è un problema fondamentale nella visione artificiale. In questo articolo, dimostriamo che la corrispondenza emerge nei modelli di diffusione di immagini senza alcuna supervisione esplicita. Proponiamo una strategia semplice per estrarre questa conoscenza implicita dalle reti di diffusione come caratteristiche immagine, denominate DIffusion FeaTures (DIFT), e le utilizziamo per stabilire corrispondenze tra immagini reali. Senza alcuna ulteriore messa a punto o supervisione sui dati o annotazioni specifiche del task, DIFT è in grado di superare sia i metodi debolmente supervisionati che le caratteristiche competitive preesistenti nell'identificare corrispondenze semantiche, geometriche e temporali. In particolare per la corrispondenza semantica, DIFT da Stable Diffusion è in grado di superare DINO e OpenCLIP rispettivamente di 19 e 14 punti di accuratezza sul benchmark impegnativo SPair-71k. Addirittura supera i metodi supervisionati all'avanguardia in 9 su 18 categorie, rimanendo in linea con le prestazioni complessive. Pagina del progetto: https://diffusionfeatures.github.io
I modelli linguistici spesso raggiungono una maggiore accuratezza quando ragionano passo-passo in compiti complessi. Tuttavia, il loro ragionamento può essere insostenibile, incoerente o basarsi su presupposti precedenti indesiderati. Per affrontare questi problemi, introduciamo una classe di strumenti per i modelli linguistici chiamati guide, che utilizzano stato e vincoli incrementali per guidare la generazione. Una guida può essere invocata dal modello per limitare la propria generazione a un insieme di affermazioni valide fornite dallo strumento. A sua volta, le scelte del modello possono modificare lo stato della guida. Mostriamo come un sistema generale per il ragionamento logico possa essere utilizzato come guida, che chiamiamo LogicGuide. Dato un problema di ragionamento in linguaggio naturale, un modello può formalizzare le sue assunzioni per LogicGuide e quindi garantire che i suoi passaggi di ragionamento siano validi. Negli esperimenti con i dataset di ragionamento PrOntoQA e ProofWriter, LogicGuide migliora significativamente le prestazioni di GPT-3, GPT-3.5 Turbo e LLaMA (guadagni di accuratezza fino al 35%). LogicGuide riduce drasticamente anche gli effetti del contenuto: l'interferenza di presupposti precedenti e attuali da cui sia gli esseri umani che i modelli linguistici hanno dimostrato di soffrire. Infine, esploriamo il bootstrap di LLaMA 13B dal proprio ragionamento e scopriamo che LogicGuide è fondamentale: addestrando solo su ragionamenti autogenerati certificati, LLaMA può auto-migliorarsi, evitando di apprendere dalle proprie allucinazioni.
I modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per generare dati testuali per l'addestramento e la valutazione di altri modelli. Tuttavia, creare dataset di alta qualità con gli LLM può essere impegnativo. In questo lavoro, esploriamo partnership uomo-IA per facilitare un'elevata diversità e accuratezza nella generazione di dati testuali basata su LLM. Esaminiamo innanzitutto due approcci per diversificare la generazione di testo: 1) la soppressione dei logit, che minimizza la generazione di lingue già frequentemente generate, e 2) il campionamento della temperatura, che appiattisce la probabilità di campionamento dei token. Abbiamo riscontrato che gli approcci di diversificazione possono aumentare la diversità dei dati, ma spesso a scapito dell'accuratezza (cioè, la pertinenza del testo e delle etichette rispetto al dominio target). Per affrontare questo problema, abbiamo esaminato due interventi umani: 1) la sostituzione delle etichette (LR), che corregge le etichette non allineate, e 2) il filtraggio fuori ambito (OOSF), che rimuove le istanze al di fuori del dominio di interesse dell'utente o per le quali non si applica alcuna etichetta considerata. Attraverso studi oracolari, abbiamo scoperto che la LR aumenta l'accuratezza assoluta dei modelli addestrati con dataset diversificati del 14,4%. Inoltre, abbiamo riscontrato che alcuni modelli addestrati con dati generati con interventi LR hanno superato la classificazione few-shot basata su LLM. Al contrario, l'OOSF non si è rivelato efficace nell'aumentare l'accuratezza del modello, suggerendo la necessità di ulteriori lavori futuri sulla generazione di dati testuali con l'uomo nel ciclo.
Nonostante i modelli linguistici pre-addestrati (LMs) memorizzino facilmente la conoscenza mondiale sulle entità, faticano a combinare due o più fatti per eseguire ragionamenti multi-hop nei compiti di risposta alle domande. In questo lavoro, proponiamo tecniche che migliorano questa limitazione basandosi su cammini casuali su grafi di conoscenza strutturati. Nello specifico, utilizziamo prompt soft per guidare i LMs a concatenare la loro conoscenza codificata, apprendendo a mappare domande multi-hop su percorsi di cammini casuali che portano alla risposta. L'applicazione dei nostri metodi su due modelli T5 LMs mostra miglioramenti sostanziali rispetto agli approcci di tuning standard nel rispondere a domande che richiedono ragionamenti a 2-hop.
L'adattamento di dominio utilizzando un corpus di solo testo è una sfida nel riconoscimento vocale end-to-end (E2E). L'adattamento sintetizzando audio da testo tramite TTS è dispendioso in termini di risorse. Presentiamo un metodo per apprendere una Rappresentazione Unificata Voce-Testo nel Trasduttore Conformer (USTR-CT) per consentire un rapido adattamento di dominio utilizzando il corpus di solo testo. A differenza del precedente metodo del textogram, nel nostro lavoro viene introdotto un encoder di testo aggiuntivo per apprendere la rappresentazione del testo, che viene rimosso durante l'inferenza, quindi non ci sono modifiche per il deployment online. Per migliorare l'efficienza dell'adattamento, vengono esplorati anche adattamenti a singolo passo e multi-passo. Gli esperimenti sull'adattamento di LibriSpeech a SPGISpeech mostrano che il metodo proposto riduce il tasso di errore sulle parole (WER) del 44% relativamente nel dominio target, risultando migliore rispetto ai metodi TTS e textogram. Inoltre, si dimostra che il metodo proposto può essere combinato con la stima del modello linguistico interno (ILME) per migliorare ulteriormente le prestazioni.
In questo articolo presentiamo un approccio per localizzare temporalmente i passaggi di attività procedurali in video tutorial narrati. Per affrontare la scarsità di dati etichettati su larga scala, ricaviamo le descrizioni dei passaggi da una base di conoscenza linguistica (wikiHow) che contiene articoli didattici per una vasta gamma di compiti procedurali. Senza alcuna forma di supervisione manuale, il nostro modello impara a fondare temporalmente i passaggi degli articoli procedurali nei video tutorial abbinando tre modalità: frame, narrazioni e descrizioni dei passaggi. Nello specifico, il nostro metodo allinea i passaggi ai video fondendo informazioni provenienti da due percorsi distinti: i) allineamento {\em diretto} delle descrizioni dei passaggi ai frame, ii) allineamento {\em indiretto} ottenuto componendo le corrispondenze passaggi-narrazioni con narrazioni-video. È degno di nota che il nostro approccio esegue il fondamento temporale globale di tutti i passaggi di un articolo in una sola volta sfruttando le informazioni sull'ordine, ed è addestrato con pseudo-etichette dei passaggi che vengono iterativamente raffinate e filtrate in modo aggressivo. Per validare il nostro modello, introduciamo un nuovo benchmark di valutazione -- HT-Step -- ottenuto annotando manualmente un sottoinsieme di 124 ore di HowTo100M. Il server di test è accessibile all'indirizzo \url{https://eval.ai/web/challenges/challenge-page/2082.} con passaggi ricavati da articoli di wikiHow. Gli esperimenti su questo benchmark, così come le valutazioni zero-shot su CrossTask, dimostrano che il nostro allineamento multi-modalità produce miglioramenti significativi rispetto a diverse baseline e lavori precedenti. Infine, mostriamo che il nostro modulo interno per l'abbinamento narrazione-video supera di gran lunga lo stato dell'arte sul benchmark di allineamento narrazione-video HTM-Align.