Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) e i modelli visione-linguaggio (VLM) hanno dimostrato di eccellere in molteplici compiti, come il ragionamento di senso comune. Per quanto potenti possano essere, questi modelli non sono radicati nel mondo fisico 3D, che coinvolge concetti più ricchi come relazioni spaziali, affordance, fisica, layout e così via. In questo lavoro, proponiamo di iniettare il mondo 3D nei modelli linguistici di grandi dimensioni e introduciamo una nuova famiglia di 3D-LLM. Nello specifico, i 3D-LLM possono prendere come input nuvole di punti 3D e le loro caratteristiche, eseguendo una vasta gamma di compiti legati al 3D, tra cui descrizione, descrizione densa, risposta a domande 3D, scomposizione di compiti, grounding 3D, dialogo assistito da 3D, navigazione e così via. Utilizzando tre tipi di meccanismi di prompting che abbiamo progettato, siamo riusciti a raccogliere oltre 300k dati 3D-linguaggio che coprono questi compiti. Per addestrare in modo efficiente i 3D-LLM, utilizziamo prima un estrattore di caratteristiche 3D che ottiene caratteristiche 3D da immagini multi-vista renderizzate. Successivamente, utilizziamo i VLM 2D come backbone per addestrare i nostri 3D-LLM. Introducendo un meccanismo di localizzazione 3D, i 3D-LLM possono catturare meglio le informazioni spaziali 3D. Gli esperimenti su ScanQA mostrano che il nostro modello supera di gran lunga i migliori baseline esistenti (ad esempio, il punteggio BLEU-1 supera il punteggio state-of-the-art del 9%). Inoltre, gli esperimenti sui nostri dataset interni per la descrizione 3D, la composizione di compiti e il dialogo assistito da 3D mostrano che il nostro modello supera i VLM 2D. Esempi qualitativi dimostrano anche che il nostro modello può eseguire più compiti oltre lo scopo degli attuali LLM e VLM. Pagina del progetto: https://vis-www.cs.umass.edu/3dllm/.
I modelli linguistici di grandi dimensioni pre-addestrati (LLM) hanno recentemente ottenuto una migliore generalizzazione ed efficienza campionaria nella navigazione web autonoma. Tuttavia, le prestazioni sui siti web reali hanno ancora sofferto di (1) apertura di dominio, (2) lunghezza limitata del contesto e (3) mancanza di bias induttivo sull'HTML. Introduciamo WebAgent, un agente guidato da LLM in grado di completare i compiti su siti web reali seguendo istruzioni in linguaggio naturale. WebAgent pianifica in anticipo scomponendo le istruzioni in sotto-istruzioni canoniche, riassume lunghi documenti HTML in snippet rilevanti per il compito e agisce sui siti web tramite programmi Python generati da questi. Progettiamo WebAgent con Flan-U-PaLM, per la generazione di codice contestualizzato, e HTML-T5, nuovi LLM pre-addestrati per documenti HTML lunghi che utilizzano meccanismi di attenzione locale e globale e una miscela di obiettivi di denoising a lungo raggio, per la pianificazione e la sintesi. Dimostriamo empiricamente che la nostra ricetta migliora il successo su un sito web reale di oltre il 50% e che HTML-T5 è il modello migliore per risolvere compiti basati su HTML; raggiungendo un tasso di successo del 14,9% superiore rispetto al precedente stato dell'arte sul benchmark di navigazione web MiniWoB e una migliore accuratezza nella valutazione offline della pianificazione dei compiti.
Una frontiera poco esplorata nella generazione e modifica di immagini è il compito di interpolare tra due immagini di input, una funzionalità assente in tutte le pipeline di generazione di immagini attualmente implementate. Sosteniamo che tale funzionalità possa ampliare le applicazioni creative di questi modelli e proponiamo un metodo per l'interpolazione zero-shot utilizzando modelli di diffusione latente. Applichiamo l'interpolazione nello spazio latente a una sequenza di livelli di rumore decrescenti, per poi eseguire la rimozione del rumore condizionata da embedding testuali interpolati derivati dall'inversione testuale e (opzionalmente) dalle pose dei soggetti. Per una maggiore coerenza, o per specificare criteri aggiuntivi, possiamo generare diversi candidati e utilizzare CLIP per selezionare l'immagine di qualità più elevata. Otteniamo interpolazioni convincenti attraverso diverse pose dei soggetti, stili di immagine e contenuti delle immagini, e dimostriamo che le metriche quantitative standard come l'FID sono insufficienti per misurare la qualità di un'interpolazione. Codice e dati sono disponibili all'indirizzo https://clintonjwang.github.io/interpolation.
I grandi modelli linguistici hanno dimostrato un'elevata flessibilità, essendo in grado di risolvere un'ampia gamma di compiti generativi, come la sintesi astratta e la risposta a domande aperte. In questo articolo estendiamo le capacità dei LLM collegando direttamente un piccolo codificatore audio, consentendogli di eseguire il riconoscimento vocale. Preponendo direttamente una sequenza di embedding audio agli embedding dei token testuali, il LLM può essere convertito in un sistema di riconoscimento vocale automatico (ASR) e utilizzato esattamente come la sua controparte testuale. Esperimenti su Multilingual LibriSpeech (MLS) mostrano che l'integrazione di un codificatore conformer nel modello open source LLaMA-7B gli permette di superare i baseline monolingue del 18% e di eseguire il riconoscimento vocale multilingue nonostante LLaMA sia stato addestrato prevalentemente su testo in inglese. Inoltre, conduciamo studi di ablazione per indagare se il LLM possa essere completamente congelato durante l'addestramento per mantenere le sue capacità originali, aumentando le dimensioni del codificatore audio e incrementando lo stride del codificatore audio per generare meno embedding. I risultati di questi studi dimostrano che il riconoscimento vocale multilingue è possibile anche quando il LLM è congelato o quando vengono utilizzati stride di quasi 1 secondo nel codificatore audio, aprendo la possibilità ai LLM di operare su audio di lunga durata.
Con ChatGPT come rappresentante, numerose aziende hanno iniziato a offrire servizi basati su modelli Transformer di grandi dimensioni. Tuttavia, l'utilizzo di tali servizi comporta inevitabilmente la divulgazione dei prompt degli utenti al fornitore del modello. Studi precedenti hanno esaminato l'inferenza sicura per modelli Transformer utilizzando il calcolo multipartitico sicuro (MPC), in cui i parametri del modello e i prompt dei clienti rimangono segreti. Nonostante ciò, questi framework sono ancora limitati in termini di prestazioni del modello, efficienza e implementazione. Per affrontare queste limitazioni, proponiamo il framework PUMA per consentire un'inferenza rapida e sicura dei modelli Transformer. Il nostro framework progetta approssimazioni di alta qualità per funzioni costose, come GeLU e Softmax, che riducono significativamente il costo dell'inferenza sicura preservando le prestazioni del modello. Inoltre, progettiamo procedure sicure per Embedding e LayerNorm che implementano fedelmente la funzionalità desiderata senza compromettere l'architettura Transformer. PUMA è circa 2 volte più veloce del framework MPC all'avanguardia MPCFORMER (ICLR 2023) e ha un'accuratezza simile ai modelli in chiaro senza necessità di fine-tuning (obiettivo che i lavori precedenti non sono riusciti a raggiungere). Un ulteriore vantaggio è che PUMA può valutare LLaMA-7B in circa 5 minuti per generare 1 token. Per quanto ne sappiamo, questa è la prima volta che un modello con una tale dimensione di parametri può essere valutato sotto MPC. PUMA è stato reso open-source nel repository Github di SecretFlow-SPU.
Man mano che i modelli linguistici di grandi dimensioni (LLM) eseguono compiti più complessi, diventa più difficile verificare la correttezza e la sicurezza del loro comportamento. Un approccio per affrontare questo problema consiste nel sollecitare gli LLM a esternalizzare il loro ragionamento, ad esempio facendo in modo che generino un ragionamento passo-passo mentre rispondono a una domanda (Chain-of-Thought; CoT). Questo ragionamento potrebbe permetterci di verificare il processo che i modelli utilizzano per eseguire i compiti. Tuttavia, questo approccio si basa sul presupposto che il ragionamento dichiarato rifletta fedelmente il ragionamento effettivo del modello, il che non è sempre vero. Per migliorare la fedeltà del ragionamento CoT, facciamo in modo che i modelli generino il ragionamento scomponendo le domande in sottodomande. I metodi basati sulla scomposizione ottengono prestazioni solide nei compiti di risposta alle domande, a volte avvicinandosi a quelle del CoT, migliorando al contempo la fedeltà del ragionamento dichiarato dal modello secondo diverse metriche proposte di recente. Forzando il modello a rispondere a sottodomande più semplici in contesti separati, aumentiamo notevolmente la fedeltà del ragionamento generato dal modello rispetto al CoT, pur ottenendo alcuni dei vantaggi prestazionali del CoT. I nostri risultati dimostrano che è possibile migliorare la fedeltà del ragionamento generato dai modelli; ulteriori miglioramenti potrebbero portare a un ragionamento che ci permetta di verificare la correttezza e la sicurezza del comportamento degli LLM.
I moderni modelli linguistici catturano un ampio corpus di conoscenze fattuali. Tuttavia, alcuni fatti possono essere indotti in modo errato o diventare obsoleti nel tempo, portando a generazioni fattualmente inesatte. Ciò ha portato allo sviluppo di vari metodi di modifica che consentono di aggiornare i fatti codificati dal modello. La valutazione di questi metodi si è principalmente concentrata sul testare se un singolo fatto è stato correttamente iniettato e se le previsioni simili per altri soggetti non sono cambiate. Qui sosteniamo che tale valutazione è limitata, poiché l'iniezione di un fatto (ad esempio, "Jack Depp è il figlio di Johnny Depp") introduce un "effetto a catena" sotto forma di ulteriori fatti che il modello deve aggiornare (ad esempio, "Jack Depp è il fratello di Lily-Rose Depp"). Per affrontare questo problema, proponiamo un nuovo insieme di criteri di valutazione che considerano le implicazioni di una modifica sui fatti correlati. Utilizzando questi criteri, costruiamo quindi un benchmark diagnostico di 5.000 modifiche fattuali, che cattura una varietà di tipi di effetti a catena. Valutiamo i principali metodi di modifica su questo benchmark, dimostrando che i metodi attuali non riescono a introdurre cambiamenti coerenti nella conoscenza del modello. Inoltre, scopriamo che una semplice baseline di modifica in-context ottiene i migliori punteggi sul nostro benchmark, suggerendo una promettente direzione di ricerca per la modifica dei modelli.
Proponiamo il Reinforcement Learning from Contrast Distillation (RLCD), un metodo per allineare i modelli linguistici a seguire principi di linguaggio naturale senza utilizzare feedback umano. RLCD addestra un modello di preferenza utilizzando coppie di preferenze simulate che contengono sia un esempio di alta qualità che uno di bassa qualità, generati mediante prompt contrastanti positivi e negativi. Il modello di preferenza viene poi utilizzato per migliorare un modello linguistico di base non allineato attraverso il reinforcement learning. Empiricamente, RLCD supera i benchmark di RLAIF (Bai et al., 2022b) e della distillazione contestuale (Huang et al., 2022) in tre diversi compiti di allineamento—innocuità, utilità e generazione di schemi narrativi—e su entrambe le scale di modelli da 7B e 30B per la simulazione di dati di preferenza.
Questo articolo mette in discussione il paradigma consolidato per la costruzione di reti any-to-any per l'addestramento di Large Language Models (LLM). Dimostriamo che gli LLM presentano un modello di comunicazione unico in cui solo piccoli gruppi di GPU richiedono una comunicazione any-to-any ad alta larghezza di banda al loro interno, per raggiungere prestazioni di addestramento quasi ottimali. Tra questi gruppi di GPU, la comunicazione è insignificante, sparsa e omogenea. Proponiamo una nuova architettura di rete che rispecchia da vicino i requisiti di comunicazione degli LLM. La nostra architettura suddivide il cluster in insiemi di GPU interconnesse con collegamenti any-to-any ad alta larghezza di banda non bloccanti, che chiamiamo domini HB. Tra i domini HB, la rete collega solo le GPU con esigenze di comunicazione. Chiamiamo questa connessione "rail-only" e dimostriamo che l'architettura proposta riduce il costo della rete fino al 75% rispetto alle reti Clos any-to-any all'avanguardia, senza compromettere le prestazioni dell'addestramento degli LLM.
I modelli di tipo DETR hanno notevolmente migliorato le prestazioni dei rilevatori, superando persino i classici modelli convoluzionali. Tuttavia, il fatto che tutti i token vengano trattati in modo uguale senza distinzione comporta un carico computazionale ridondante nella tradizionale struttura dell'encoder. Le recenti strategie di sparsificazione sfruttano un sottoinsieme di token informativi per ridurre la complessità dell'attenzione, mantenendo le prestazioni attraverso l'encoder sparso. Tuttavia, questi metodi tendono a basarsi su statistiche del modello non affidabili. Inoltre, la semplice riduzione della popolazione di token compromette in larga misura le prestazioni di rilevamento, limitando l'applicazione di questi modelli sparsi. Proponiamo Focus-DETR, che concentra l'attenzione su token più informativi per un migliore compromesso tra efficienza computazionale e accuratezza del modello. Nello specifico, ricostruiamo l'encoder con un'attenzione duale, che include un meccanismo di punteggio dei token che considera sia la localizzazione che le informazioni semantiche delle categorie degli oggetti da mappe di caratteristiche multi-scala. Abbandoniamo efficientemente le query di sfondo e miglioriamo l'interazione semantica delle query di oggetti a grana fine basandoci sui punteggi. Rispetto ai migliori rilevatori sparsi di tipo DETR nelle stesse condizioni, il nostro Focus-DETR ottiene una complessità comparabile raggiungendo 50.4AP (+2.2) su COCO. Il codice è disponibile su https://github.com/huawei-noah/noah-research/tree/master/Focus-DETR e https://gitee.com/mindspore/models/tree/master/research/cv/Focus-DETR.
L'apprendimento auto-supervisionato delle rappresentazioni visive si è concentrato principalmente sull'apprendimento di caratteristiche relative al contenuto, che non catturano il movimento o la posizione degli oggetti, e si focalizza sull'identificazione e la differenziazione degli oggetti in immagini e video. D'altra parte, la stima del flusso ottico è un compito che non implica la comprensione del contenuto delle immagini su cui viene stimato. Unifichiamo i due approcci e introduciamo MC-JEPA, un'architettura predittiva a incorporamento congiunto e un metodo di apprendimento auto-supervisionato per apprendere congiuntamente il flusso ottico e le caratteristiche del contenuto all'interno di un codificatore condiviso, dimostrando che i due obiettivi associati; l'obiettivo di stima del flusso ottico e l'obiettivo di apprendimento auto-supervisionato; traggono beneficio reciproco e quindi apprendono caratteristiche del contenuto che incorporano informazioni sul movimento. L'approccio proposto raggiunge prestazioni paragonabili ai benchmark esistenti per il flusso ottico non supervisionato, nonché ai comuni approcci di apprendimento auto-supervisionato su compiti a valle come la segmentazione semantica di immagini e video.
La previsione delle attività a lungo termine rappresenta un problema di ricerca particolarmente impegnativo poiché richiede la comprensione delle relazioni temporali tra le azioni osservate, nonché della variabilità e complessità delle attività umane. Nonostante si basino su una supervisione forte tramite costose annotazioni umane, gli approcci di previsione all'avanguardia spesso generalizzano male su dati non visti. Per mitigare questo problema, proponiamo il Multiscale Video Pretraining (MVP), un nuovo approccio di pre-addestramento auto-supervisionato che apprende rappresentazioni robuste per la previsione imparando a predire rappresentazioni contestualizzate di clip video futuri su più scale temporali. MVP si basa sulla nostra osservazione che le azioni nei video hanno una natura multiscala, dove le azioni atomiche tipicamente si verificano su una scala temporale breve, mentre azioni più complesse possono estendersi su scale temporali più lunghe. Confrontiamo MVP con approcci all'avanguardia di apprendimento video auto-supervisionato su task di previsione a lungo termine, tra cui l'anticipazione di azioni a lungo termine e la previsione di riassunti video. I nostri esperimenti completi sui dataset Ego4D e Epic-Kitchens-55/100 dimostrano che MVP supera i metodi all'avanguardia con margini significativi. In particolare, MVP ottiene un guadagno relativo di prestazioni superiore al 20% in accuratezza nella previsione di riassunti video rispetto ai metodi esistenti.