Articoli di ricerca IA selezionati quotidianamente con traduzioni
La rivoluzione dell'IA generativa si è recentemente estesa ai video. Tuttavia, i modelli video allo stato dell'arte attuale sono ancora in ritardo rispetto ai modelli per immagini in termini di qualità visiva e controllo dell'utente sul contenuto generato. In questo lavoro, presentiamo un framework che sfrutta la potenza di un modello di diffusione testo-immagine per il compito di editing video guidato da testo. Nello specifico, dato un video sorgente e un prompt testuale di destinazione, il nostro metodo genera un video di alta qualità che aderisce al testo di destinazione, preservando al contempo il layout spaziale e il movimento del video di input. Il nostro metodo si basa su un'osservazione chiave: la coerenza nel video modificato può essere ottenuta imponendo coerenza nello spazio delle feature di diffusione. Raggiungiamo questo obiettivo propagando esplicitamente le feature di diffusione basate su corrispondenze inter-fotogramma, già disponibili nel modello. Pertanto, il nostro framework non richiede alcun addestramento o fine-tuning e può funzionare in combinazione con qualsiasi metodo di editing testo-immagine disponibile sul mercato. Dimostriamo risultati di editing all'avanguardia su una varietà di video del mondo reale. Pagina web: https://diffusion-tokenflow.github.io/
L'apprendimento multimodale mira a costruire modelli in grado di elaborare e mettere in relazione informazioni provenienti da molteplici modalità. Nonostante anni di sviluppo in questo campo, rimane ancora una sfida progettare una rete unificata per elaborare varie modalità (ad esempio, linguaggio naturale, immagini 2D, nuvole di punti 3D, audio, video, serie temporali, dati tabellari) a causa delle lacune intrinseche tra di esse. In questo lavoro, proponiamo un framework, denominato Meta-Transformer, che sfrutta un encoder congelato per eseguire la percezione multimodale senza alcun dato di addestramento multimodale accoppiato. In Meta-Transformer, i dati grezzi in ingresso provenienti da varie modalità vengono mappati in uno spazio di token condiviso, consentendo a un encoder successivo con parametri congelati di estrarre caratteristiche semantiche di alto livello dei dati in ingresso. Composto da tre componenti principali: un tokenizer di dati unificato, un encoder condiviso tra le modalità e teste specifiche per i compiti a valle, Meta-Transformer è il primo framework a eseguire un apprendimento unificato su 12 modalità con dati non accoppiati. Esperimenti su diversi benchmark rivelano che Meta-Transformer può gestire un'ampia gamma di compiti, tra cui percezione fondamentale (testo, immagine, nuvola di punti, audio, video), applicazione pratica (raggi X, infrarossi, iperspettrali e IMU) e data mining (grafi, tabellari e serie temporali). Meta-Transformer indica un futuro promettente per lo sviluppo di un'intelligenza multimodale unificata con i transformer. Il codice sarà disponibile all'indirizzo https://github.com/invictus717/MetaTransformer.
Il processo di ricostruzione delle esperienze a partire dall'attività cerebrale umana offre una prospettiva unica su come il cervello interpreta e rappresenta il mondo. In questo articolo, presentiamo un metodo per ricostruire la musica dall'attività cerebrale, acquisita mediante risonanza magnetica funzionale (fMRI). Il nostro approccio utilizza sia il recupero di brani musicali sia il modello di generazione musicale MusicLM, condizionato su embedding derivati dai dati fMRI. La musica generata assomiglia agli stimoli musicali sperimentati dai soggetti umani, rispetto a proprietà semantiche come genere, strumentazione e atmosfera. Investigiamo la relazione tra i diversi componenti di MusicLM e l'attività cerebrale attraverso un'analisi di modellazione dell'encoding voxel per voxel. Inoltre, discutiamo quali regioni cerebrali rappresentano le informazioni derivate da descrizioni puramente testuali degli stimoli musicali. Forniamo materiale supplementare, inclusi esempi della musica ricostruita, al seguente indirizzo: https://google-research.github.io/seanet/brain2music.
La valutazione dei Large Language Models (LLM) è complessa poiché l'allineamento ai valori umani richiede la composizione di molteplici competenze, e l'insieme di competenze necessarie varia a seconda dell'istruzione fornita. Studi recenti hanno valutato le prestazioni dei LLM in due modi: (1) valutazione automatica su diversi benchmark indipendenti e (2) valutazione basata su umani o macchine che assegna un punteggio complessivo alla risposta. Tuttavia, entrambe le impostazioni sono valutazioni grossolane, che non considerano la natura delle istruzioni dell'utente che richiedono una composizione di competenze specifica per ogni istanza, limitando così l'interpretazione delle vere capacità dei LLM. In questo articolo, introduciamo FLASK (Fine-grained Language Model Evaluation based on Alignment SKill Sets), un protocollo di valutazione granulare che può essere utilizzato sia per valutazioni basate su modelli che su umani, scomponendo il punteggio a livello grossolano in un insieme di competenze specifiche per ogni istanza. Nello specifico, definiamo 12 competenze granulari necessarie ai LLM per seguire istruzioni aperte degli utenti e costruiamo un set di valutazione assegnando un insieme di competenze a ciascuna istanza. Inoltre, annotando i domini target e il livello di difficoltà per ogni istanza, FLASK fornisce una visione olistica con un'analisi completa delle prestazioni di un modello in base a competenza, dominio e difficoltà. Utilizzando FLASK, confrontiamo diversi LLM open-source e proprietari e osserviamo risultati altamente correlati tra valutazioni basate su modelli e su umani. FLASK consente agli sviluppatori di misurare con maggiore precisione le prestazioni del modello e come queste possano essere migliorate analizzando i fattori che rendono i LLM competenti in particolari abilità. Per i professionisti, FLASK può essere utilizzato per raccomandare modelli adatti a situazioni specifiche attraverso un confronto completo tra vari LLM. Rilasciamo i dati di valutazione e l'implementazione del codice all'indirizzo https://github.com/kaistAI/FLASK.
I grandi dataset web svolgono un ruolo chiave nel successo di modelli visione-linguaggio su larga scala come CLIP e Flamingo. Tuttavia, i dati web grezzi sono rumorosi, e i metodi di filtraggio esistenti per ridurre il rumore spesso comportano una riduzione della diversità dei dati. Il nostro lavoro si concentra sulla qualità delle didascalie come una delle principali fonti di rumore e studia come le didascalie generate possano aumentare l'utilità dei dati web con testo non descrittivo. Esplorando diverse strategie di miscelazione per didascalie grezze e generate, superiamo il miglior metodo di filtraggio proposto dal benchmark DataComp del 2% su ImageNet e del 4% in media su 38 task, dato un pool di candidati di 128 milioni di coppie immagine-testo. Il nostro approccio migliore è anche 2 volte più efficace nel retrieval su Flickr e MS-COCO. Analizziamo poi cosa rende le didascalie sintetiche una fonte efficace di supervisione testuale. Sperimentando con diversi modelli di generazione di didascalie, dimostriamo inoltre che le prestazioni di un modello su benchmark standard di generazione di didascalie (ad esempio, NoCaps CIDEr) non sono un indicatore affidabile dell'utilità delle didascalie che genera per l'addestramento multimodale. Infine, i nostri esperimenti con l'uso di didascalie generate su larga scala (1,28 miliardi di coppie immagine-testo) offrono approfondimenti sui limiti del testo sintetico, nonché sull'importanza della cura delle immagini con l'aumentare della quantità di dati di addestramento.
L'apprendimento self-supervised ha portato un cambiamento di paradigma rivoluzionario in vari ambiti informatici, tra cui NLP, visione e biologia. Gli approcci recenti prevedono il pre-training di modelli transformer su grandi quantità di dati non etichettati, che fungono da punto di partenza per risolvere in modo efficiente task downstream. Nel campo del reinforcement learning, i ricercatori hanno recentemente adattato questi approcci sviluppando modelli pre-addestrati su traiettorie esperti, consentendo loro di affrontare un'ampia gamma di task, dalla robotica ai sistemi di raccomandazione. Tuttavia, i metodi esistenti si basano principalmente su obiettivi di pre-training complessi, progettati per specifiche applicazioni downstream. Questo articolo presenta un'indagine completa sui modelli che definiamo Pretrained Action-State Transformer Agents (PASTA). Il nostro studio utilizza una metodologia unificata e copre un ampio insieme di task downstream generali, tra cui behavioral cloning, RL offline, robustezza ai guasti dei sensori e adattamento ai cambiamenti dinamici. Il nostro obiettivo è confrontare sistematicamente varie scelte progettuali e fornire spunti preziosi ai professionisti per la costruzione di modelli robusti. I punti salienti del nostro studio includono la tokenizzazione a livello di componente di azione e stato, l'uso di obiettivi di pre-training fondamentali come la previsione del token successivo, l'addestramento di modelli su domini diversi in modo simultaneo e l'utilizzo del fine-tuning efficiente dei parametri (PEFT). I modelli sviluppati nel nostro studio contengono meno di 10 milioni di parametri e l'applicazione del PEFT consente il fine-tuning di meno di 10.000 parametri durante l'adattamento downstream, permettendo a una vasta comunità di utilizzare questi modelli e riprodurre i nostri esperimenti. Speriamo che questo studio incoraggi ulteriori ricerche sull'uso dei transformer con scelte progettuali basate su principi primi per rappresentare traiettorie di RL e contribuire all'apprendimento di politiche robuste.
I recenti progressi nei modelli linguistici di grandi dimensioni (LLMs) hanno dimostrato notevoli miglioramenti su molti benchmark matematici. Tuttavia, la maggior parte di questi benchmark presenta solo problemi basati su materie delle scuole medie e superiori, contiene esclusivamente domande a scelta multipla ed è limitata a un ambito ristretto di operazioni aritmetiche elementari. Per affrontare queste problematiche, questo articolo introduce una suite di benchmark estesa, denominata SciBench, che mira a esaminare sistematicamente le capacità di ragionamento necessarie per la risoluzione di problemi scientifici complessi. SciBench comprende due dataset accuratamente curati: un insieme aperto che presenta una gamma di problemi scientifici di livello universitario tratti da libri di testo di matematica, chimica e fisica, e un insieme chiuso composto da problemi tratti da esami di livello universitario in informatica e matematica. Basandoci su questi due dataset, conduciamo uno studio approfondito di benchmark su due LLM rappresentativi con varie strategie di prompting. I risultati rivelano che gli attuali LLM non riescono a fornire prestazioni soddisfacenti, con un punteggio complessivo di appena il 35,80%. Inoltre, attraverso uno studio dettagliato con utenti, categorizziamo gli errori commessi dagli LLM in dieci abilità di problem solving. La nostra analisi indica che nessuna singola strategia di prompting supera significativamente le altre e che alcune strategie che dimostrano miglioramenti in determinate abilità di problem solving portano a un peggioramento in altre. Prevediamo che SciBench catalizzerà ulteriori sviluppi nelle capacità di ragionamento degli LLM, contribuendo così in ultima analisi alla ricerca e alla scoperta scientifica.
I meccanismi alla base del successo dell'apprendimento auto-supervisionato multi-vista (MVSSL) non sono ancora completamente compresi. I metodi MVSSL contrastivi sono stati studiati attraverso la lente di InfoNCE, un limite inferiore dell'Informazione Mutua (MI). Tuttavia, la relazione tra altri metodi MVSSL e la MI rimane poco chiara. Consideriamo un diverso limite inferiore della MI composto da un termine di entropia e uno di ricostruzione (ER), e analizziamo le principali famiglie MVSSL attraverso questa prospettiva. Attraverso questo limite ER, dimostriamo che i metodi basati sul clustering come DeepCluster e SwAV massimizzano la MI. Reinterpretiamo inoltre i meccanismi degli approcci basati sulla distillazione come BYOL e DINO, mostrando che massimizzano esplicitamente il termine di ricostruzione e incoraggiano implicitamente un'entropia stabile, e confermiamo empiricamente questo risultato. Dimostriamo che sostituire gli obiettivi dei comuni metodi MVSSL con questo limite ER raggiunge prestazioni competitive, rendendoli stabili durante l'addestramento con dimensioni di batch più piccole o coefficienti di media mobile esponenziale (EMA) più ridotti. Repository Github: https://github.com/apple/ml-entropy-reconstruction.
Sebbene i modelli ottimizzati per le istruzioni abbiano dimostrato un notevole successo in vari compiti di elaborazione del linguaggio naturale, valutare con precisione la loro capacità di seguire le istruzioni rimane una sfida. I benchmark esistenti si concentrano principalmente su istruzioni comuni che si allineano bene con ciò che il modello ha appreso durante l'addestramento. Tuttavia, la competenza nel rispondere a queste istruzioni non implica necessariamente una forte capacità di seguire le istruzioni. In questo articolo, proponiamo un nuovo protocollo di valutazione del seguire le istruzioni chiamato manipolazione del verbalizzatore. Esso istruisce il modello a verbalizzare l'etichetta del compito con parole che si allineano ai priori del modello in misura diversa, adottando verbalizzatori da altamente allineati (ad esempio, emettere "positivo" per un sentimento positivo), a minimamente allineati (ad esempio, emettere "negativo" per un sentimento positivo). La manipolazione del verbalizzatore può essere integrata senza soluzione di continuità con qualsiasi benchmark di classificazione per esaminare la dipendenza del modello dai priori e la sua capacità di sovrascriverli per seguire accuratamente le istruzioni. Effettuiamo una valutazione completa di quattro principali famiglie di modelli su nove dataset, impiegando dodici set di verbalizzatori per ciascuno di essi. Osserviamo che le capacità di seguire le istruzioni dei modelli, tra diverse famiglie e scale, sono significativamente distinte dalle loro prestazioni su verbalizzatori meno naturali. Anche il modello GPT-4 più potente fatica a performare meglio di un'ipotesi casuale sul verbalizzatore più impegnativo, sottolineando la necessità di continui progressi per migliorare le loro capacità di seguire le istruzioni.