Articoli di ricerca IA selezionati quotidianamente con traduzioni
Progettiamo una nuova famiglia di reti neurali ibride CNN-ViT, denominata FasterViT, con un focus sull'elevata velocità di elaborazione delle immagini per applicazioni di computer vision (CV). FasterViT combina i vantaggi dell'apprendimento rapido di rappresentazioni locali nelle CNN e delle proprietà di modellazione globale nelle ViT. Il nostro nuovo approccio di Attenzione Gerarchica (HAT) scompone l'auto-attenzione globale con complessità quadratica in un'attenzione multi-livello con costi computazionali ridotti. Beneficiamo di un'auto-attenzione efficiente basata su finestre. Ogni finestra ha accesso a token dedicati che partecipano all'apprendimento di rappresentazioni locali e globali. A un livello superiore, le auto-attenzioni globali consentono una comunicazione efficiente tra finestre a costi inferiori. FasterViT raggiunge un fronte Pareto all'avanguardia in termini di accuratezza rispetto alla velocità di elaborazione delle immagini. Abbiamo ampiamente validato la sua efficacia su varie attività di CV, tra cui classificazione, rilevamento di oggetti e segmentazione. Mostriamo inoltre che HAT può essere utilizzato come modulo plug-and-play per reti esistenti e migliorarle. Dimostriamo inoltre prestazioni significativamente più veloci e accurate rispetto a controparti competitive per immagini ad alta risoluzione. Il codice è disponibile all'indirizzo https://github.com/NVlabs/FasterViT.
I grandi modelli di diffusione testo-immagine dimostrano capacità impressionanti nel generare immagini fotorealistiche a partire da prompt testuali. Come guidare o controllare efficacemente questi potenti modelli per eseguire diverse attività downstream diventa un importante problema aperto. Per affrontare questa sfida, introduciamo un metodo di fine-tuning strutturato -- Orthogonal Finetuning (OFT), per adattare i modelli di diffusione testo-immagine a compiti downstream. A differenza dei metodi esistenti, OFT può preservare in modo dimostrabile l'energia ipersferica, che caratterizza la relazione reciproca dei neuroni sulla sfera unitaria ipersferica. Troviamo che questa proprietà è cruciale per preservare la capacità di generazione semantica dei modelli di diffusione testo-immagine. Per migliorare la stabilità del fine-tuning, proponiamo ulteriormente il Constrained Orthogonal Finetuning (COFT), che impone un vincolo aggiuntivo sul raggio della sfera ipersferica. Nello specifico, consideriamo due importanti compiti di fine-tuning testo-immagine: la generazione guidata dal soggetto, in cui l'obiettivo è generare immagini specifiche di un soggetto date poche immagini del soggetto e un prompt testuale, e la generazione controllata, in cui l'obiettivo è consentire al modello di ricevere segnali di controllo aggiuntivi. Dimostriamo empiricamente che il nostro framework OFT supera i metodi esistenti in termini di qualità della generazione e velocità di convergenza.
Gli algoritmi di addestramento, intesi in senso ampio, sono una componente essenziale di ogni pipeline di deep learning. Miglioramenti negli algoritmi di addestramento che accelerano il processo su un'ampia gamma di carichi di lavoro (ad esempio, regole di aggiornamento migliorate, protocolli di ottimizzazione, schedulazioni del tasso di apprendimento o schemi di selezione dei dati) potrebbero far risparmiare tempo, ridurre le risorse computazionali e portare a modelli migliori e più accurati. Sfortunatamente, come comunità, attualmente non siamo in grado di identificare in modo affidabile i miglioramenti negli algoritmi di addestramento, né di determinare l'algoritmo di addestramento allo stato dell'arte. In questo lavoro, attraverso esperimenti concreti, sosteniamo che un progresso reale nell'accelerazione dell'addestramento richiede nuovi benchmark che risolvano tre sfide fondamentali affrontate dai confronti empirici degli algoritmi di addestramento: (1) come decidere quando l'addestramento è completo e misurare con precisione il tempo di addestramento, (2) come gestire la sensibilità delle misurazioni ai dettagli specifici del carico di lavoro, e (3) come confrontare in modo equo algoritmi che richiedono l'ottimizzazione degli iperparametri. Per affrontare queste sfide, introduciamo un nuovo benchmark competitivo basato sul tempo per ottenere risultati, utilizzando più carichi di lavoro eseguiti su hardware fisso, il benchmark AlgoPerf: Training Algorithms. Il nostro benchmark include una serie di varianti di carichi di lavoro che rendono possibile rilevare le proposte di benchmark che sono più robuste ai cambiamenti del carico di lavoro rispetto ai metodi attualmente ampiamente utilizzati. Infine, valutiamo proposte di baseline costruite utilizzando vari ottimizzatori che rappresentano la pratica corrente, nonché altri ottimizzatori che hanno recentemente ricevuto attenzione nella letteratura. Questi risultati di baseline dimostrano collettivamente la fattibilità del nostro benchmark, mostrano che esistono differenze non banali tra i metodi e stabiliscono uno stato dell'arte provvisorio che le future proposte di benchmark cercheranno di superare.
I modelli linguistici di grandi dimensioni (LLM) esistenti possono gestire solo input di dimensioni fisse a causa del limite di lunghezza dell'input, impedendo loro di sfruttare informazioni contestuali ricche e di lungo periodo provenienti da input precedenti. Per affrontare questo problema, proponiamo un framework, denominato Language Models Augmented with Long-Term Memory (LongMem), che consente agli LLM di memorizzare una storia lunga. Progettiamo un'architettura di rete disaccoppiata innovativa, in cui il modello LLM originale viene congelato come codificatore di memoria e una rete laterale residua adattativa funge da recuperatore e lettore di memoria. Tale design di memoria disaccoppiata permette di memorizzare e aggiornare facilmente contesti passati di lungo periodo per il recupero della memoria, senza incorrere in problemi di obsolescenza della memoria. Potenziato con un addestramento adattativo arricchito dalla memoria, LongMem può quindi memorizzare contesti passati lunghi e utilizzare la memoria a lungo termine per la modellazione del linguaggio. Il modulo di recupero della memoria proposto è in grado di gestire contesti di lunghezza illimitata nel proprio archivio di memoria, apportando benefici a vari task downstream. In particolare, LongMem può ampliare la memoria a lungo termine fino a 65k token, consentendo così di memorizzare esempi dimostrativi extra come memoria a lungo termine per l'apprendimento in contesto. Gli esperimenti dimostrano che il nostro metodo supera modelli forti di contesto lungo su ChapterBreak, un benchmark impegnativo per la modellazione di contesti lunghi, e ottiene miglioramenti significativi nell'apprendimento in contesto arricchito dalla memoria rispetto agli LLM. I risultati dimostrano che il metodo proposto è efficace nell'aiutare i modelli linguistici a memorizzare e utilizzare contenuti di lungo periodo. Il nostro codice è open-source all'indirizzo https://aka.ms/LongMem.
Presentiamo Face0, un metodo innovativo per condizionare istantaneamente un modello di generazione di immagini da testo su un volto, durante il tempo di campionamento, senza alcuna procedura di ottimizzazione come il fine-tuning o le inversioni. Aumentiamo un dataset di immagini annotate con gli embedding dei volti inclusi e addestriamo un modello di generazione di immagini sul dataset aumentato. Una volta addestrato, il nostro sistema è praticamente identico al modello base durante l'inferenza, ed è quindi in grado di generare immagini, dato un'immagine di un volto fornita dall'utente e una descrizione testuale, in pochi secondi. Il nostro metodo produce risultati piacevoli, è notevolmente semplice, estremamente veloce e fornisce al modello sottostante nuove capacità, come il controllo delle immagini generate sia tramite testo che tramite la manipolazione diretta degli embedding dei volti in input. Inoltre, quando si utilizza un vettore casuale fisso invece di un embedding di un volto proveniente da un'immagine fornita dall'utente, il nostro metodo risolve essenzialmente il problema della generazione coerente di personaggi attraverso diverse immagini. Infine, pur richiedendo ulteriori ricerche, speriamo che il nostro metodo, che disaccoppia i bias testuali del modello dai suoi bias sui volti, possa rappresentare un passo verso la mitigazione di alcuni bias nei futuri modelli di generazione di immagini da testo.
Presentiamo Cap3D, un approccio automatico per la generazione di testo descrittivo per oggetti 3D. Questo metodo utilizza modelli pre-addestrati per la generazione di didascalie da immagini, l'allineamento immagine-testo e LLM (Large Language Models) per consolidare le descrizioni ottenute da più viste di un asset 3D, bypassando completamente il processo dispendioso in termini di tempo e costi dell'annotazione manuale. Abbiamo applicato Cap3D al recente dataset su larga scala di oggetti 3D, Objaverse, ottenendo 660k coppie 3D-testo. La nostra valutazione, condotta utilizzando 41k annotazioni umane dello stesso dataset, dimostra che Cap3D supera le descrizioni create manualmente in termini di qualità, costo e velocità. Attraverso un'ingegnerizzazione efficace dei prompt, Cap3D rivaleggia con le prestazioni umane nella generazione di descrizioni geometriche su 17k annotazioni raccolte dal dataset ABO. Infine, abbiamo ottimizzato modelli Text-to-3D su Cap3D e su didascalie umane, dimostrando che Cap3D offre prestazioni superiori; e abbiamo confrontato i risultati con lo stato dell'arte, inclusi Point-E, Shape-E e DreamFusion.
I modelli linguistici sono stati utilizzati con successo per modellare segnali naturali, come immagini, voce e musica. Un componente chiave di questi modelli è un algoritmo di compressione neurale di alta qualità in grado di comprimere segnali naturali ad alta dimensionalità in token discreti a dimensione inferiore. A tal fine, introduciamo un algoritmo universale di compressione neurale audio ad alta fedeltà che raggiunge una compressione di circa 90x di audio a 44,1 KHz in token con una banda di soli 8 kbps. Otteniamo questo risultato combinando progressi nella generazione audio ad alta fedeltà con tecniche di quantizzazione vettoriale migliorate provenienti dal dominio delle immagini, insieme a perdite avversarie e di ricostruzione ottimizzate. Comprimiamo tutti i domini (voce, ambiente, musica, ecc.) con un unico modello universale, rendendolo ampiamente applicabile alla modellazione generativa di qualsiasi tipo di audio. Confrontiamo il nostro metodo con altri algoritmi di compressione audio e riscontriamo che supera significativamente le alternative. Forniamo analisi dettagliate per ogni scelta progettuale, oltre a codice open-source e pesi del modello addestrato. Speriamo che il nostro lavoro possa gettare le basi per la prossima generazione di modellazione audio ad alta fedeltà.
Identifichiamo dinamiche di apprendimento incrementale nei transformer, dove la differenza tra i pesi addestrati e quelli iniziali aumenta progressivamente in rango. Dimostriamo rigorosamente che ciò si verifica sotto le ipotesi semplificative di matrici di peso diagonali e inizializzazione ridotta. I nostri esperimenti supportano la teoria e mostrano inoltre che il fenomeno può verificarsi nella pratica anche senza le ipotesi semplificative.
I modelli contrastivi immagine-testo come CLIP costituiscono i mattoni fondamentali di molti sistemi all'avanguardia. Sebbene eccellano nel riconoscere concetti generici comuni, continuano a lottare con entità a grana fine che sono rare o addirittura assenti dal dataset di pre-addestramento. Pertanto, un ingrediente chiave per il loro successo è stato l'uso di dati di pre-addestramento su larga scala e curati, con l'obiettivo di espandere l'insieme di concetti che possono memorizzare durante la fase di pre-addestramento. In questo lavoro, esploriamo un'alternativa all'incorporazione diretta della conoscenza a grana fine nei parametri del modello: invece, addestriamo il modello a recuperare questa conoscenza da una memoria esterna. Nello specifico, proponiamo di dotare i modelli visione-testo esistenti della capacità di affinare i loro embedding con informazioni recuperate cross-modal da una memoria al momento dell'inferenza, il che migliora notevolmente le loro previsioni zero-shot. In modo notevole, dimostriamo che ciò può essere fatto con un trasformatore di fusione leggero, a singolo strato, posizionato sopra un CLIP congelato. I nostri esperimenti convalidano che il nostro addestramento contrastivo potenziato dal recupero (RECO) migliora sostanzialmente le prestazioni di CLIP su diversi compiti impegnativi a grana fine: ad esempio, +10,9 su Stanford Cars, +10,2 su CUB-2011 e +7,3 sul recente benchmark OVEN.
I metodi all'avanguardia per l'estrazione di informazioni sono limitati dagli errori di OCR. Funzionano bene per testi stampati in documenti strutturati come moduli, ma i documenti non strutturati e manoscritti rimangono ancora una sfida. Adattare i modelli esistenti a dati di addestramento specifici per un dominio è piuttosto costoso, a causa di due fattori: 1) la disponibilità limitata di documenti specifici per il dominio (come prescrizioni manoscritte, appunti di laboratorio, ecc.) e 2) le annotazioni diventano ancora più complesse poiché è necessaria una conoscenza specifica del dominio per decodificare immagini di documenti manoscritti illeggibili. In questo lavoro, ci concentriamo sul problema complesso di estrarre i nomi dei farmaci da prescrizioni manoscritte utilizzando solo dati debolmente etichettati. I dati consistono in immagini insieme all'elenco dei nomi dei farmaci presenti, ma non alla loro posizione nell'immagine. Risolviamo il problema identificando prima le regioni di interesse, ovvero le righe dei farmaci, partendo solo da etichette deboli, e poi integrando un modello linguistico specifico per il dominio dei farmaci, appreso utilizzando solo dati generati sinteticamente. Rispetto ai metodi all'avanguardia disponibili, il nostro approccio ottiene prestazioni >2,5 volte migliori nell'estrazione dei nomi dei farmaci dalle prescrizioni.