Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo PaLM 2, un nuovo modello linguistico all'avanguardia che offre migliori capacità multilingue e di ragionamento, oltre a una maggiore efficienza computazionale rispetto al suo predecessore PaLM. PaLM 2 è un modello basato su Transformer addestrato utilizzando una combinazione di obiettivi. Attraverso valutazioni estensive su compiti linguistici in inglese e multilingue, nonché su attività di ragionamento, dimostriamo che PaLM 2 ha una qualità significativamente migliorata nei task downstream, indipendentemente dalle dimensioni del modello, mostrando al contempo un'inferenza più veloce ed efficiente rispetto a PaLM. Questa maggiore efficienza consente un impiego più ampio e permette al modello di rispondere più rapidamente, garantendo un ritmo di interazione più naturale. PaLM 2 dimostra solide capacità di ragionamento, evidenziate da notevoli miglioramenti rispetto a PaLM su BIG-Bench e altri task di ragionamento. Il modello mostra prestazioni stabili in una serie di valutazioni sull'IA responsabile e consente un controllo in tempo reale sulla tossicità senza sovraccarichi aggiuntivi o impatti su altre capacità. Nel complesso, PaLM 2 raggiunge prestazioni all'avanguardia su un'ampia gamma di task e capacità. Quando si discute della famiglia PaLM 2, è importante distinguere tra modelli pre-addestrati (di varie dimensioni), varianti fine-tuned di questi modelli e i prodotti rivolti agli utenti che li utilizzano. In particolare, i prodotti rivolti agli utenti includono tipicamente ulteriori passaggi di pre- e post-elaborazione. Inoltre, i modelli sottostanti possono evolversi nel tempo. Pertanto, non ci si deve aspettare che le prestazioni dei prodotti rivolti agli utenti corrispondano esattamente ai risultati riportati in questo documento.
La modifica o revisione del testo è una funzione essenziale del processo di scrittura umana. Comprendere le capacità dei modelli linguistici di grandi dimensioni (LLM) nel realizzare revisioni di alta qualità e collaborare con scrittori umani rappresenta un passo cruciale verso lo sviluppo di assistenti di scrittura efficaci. Sfruttando i precedenti successi degli LLM e del fine-tuning su istruzioni, utilizziamo LLM ottimizzati su istruzioni per la revisione del testo, al fine di migliorare la qualità dei testi generati dagli utenti e aumentare l'efficienza del processo. Introduciamo CoEdIT, un modello all'avanguardia per la modifica del testo nell'ambito dell'assistenza alla scrittura. CoEdIT riceve istruzioni dall'utente che specificano gli attributi del testo desiderato, come "Rendi la frase più semplice" o "Riscrivila in uno stile più neutrale", e restituisce il testo modificato. Presentiamo un modello linguistico di grandi dimensioni ottimizzato su una vasta raccolta di istruzioni specifiche per la modifica del testo (per un totale di 82K istruzioni). Il nostro modello (1) raggiunge prestazioni all'avanguardia su vari benchmark di modifica del testo, (2) è competitivo con i più grandi LLM disponibili pubblicamente addestrati su istruzioni, pur essendo 60 volte più piccolo, (3) è in grado di generalizzare a istruzioni di modifica non viste precedentemente e (4) mostra capacità di comprensione compositiva per generalizzare a istruzioni che contengono diverse combinazioni di azioni di modifica. Attraverso un'ampia analisi qualitativa e quantitativa, dimostriamo che gli scrittori preferiscono le modifiche suggerite da CoEdIT rispetto ad altri modelli all'avanguardia per la modifica del testo. Il nostro codice e il dataset sono disponibili pubblicamente.
L'apprendimento dal feedback umano si è dimostrato efficace nell'allineare i modelli linguistici alle preferenze umane. Le ricerche precedenti si sono spesso basate sul Reinforcement Learning from Human Feedback (RLHF), che ottimizza il modello linguistico utilizzando punteggi di ricompensa assegnati da un modello di ricompensa addestrato su dati di preferenze umane. In questo lavoro dimostriamo come il recentemente introdotto Sequence Likelihood Calibration (SLiC) possa essere utilizzato anche per apprendere efficacemente dalle preferenze umane (SLiC-HF). Inoltre, mostriamo che ciò può essere fatto con dati di feedback umano raccolti per un modello diverso, simile ai dati RL offline e off-policy. Esperimenti di valutazione automatica e umana sul task di riassunto TL;DR dimostrano che SLiC-HF migliora significativamente i baseline di fine-tuning supervisionato. Inoltre, SLiC-HF rappresenta un'alternativa competitiva all'implementazione PPO RLHF utilizzata in precedenza, pur essendo molto più semplice da implementare, più facile da ottimizzare e più efficiente dal punto di vista computazionale nella pratica.
Le proporzioni di miscela dei domini di dati di pre-addestramento (ad esempio, Wikipedia, libri, testo web) influenzano notevolmente le prestazioni dei modelli linguistici (LM). In questo articolo, proponiamo il Domain Reweighting with Minimax Optimization (DoReMi), che addestra inizialmente un piccolo modello proxy utilizzando l'ottimizzazione robusta distributiva di gruppo (Group DRO) sui domini per produrre pesi di dominio (proporzioni di miscela) senza conoscere i task downstream. Successivamente, ricampioniamo un dataset con questi pesi di dominio e addestriamo un modello più grande e completo. Nei nostri esperimenti, utilizziamo DoReMi su un modello proxy con 280 milioni di parametri per determinare i pesi di dominio per l'addestramento di un modello da 8 miliardi di parametri (30 volte più grande) in modo più efficiente. Su The Pile, DoReMi migliora la perplessità in tutti i domini, anche quando riduce il peso di un dominio. DoReMi migliora l'accuratezza media few-shot downstream del 6,5% rispetto a un modello di base addestrato utilizzando i pesi di dominio predefiniti di The Pile e raggiunge l'accuratezza di base con 2,6 volte meno passi di addestramento. Sul dataset GLaM, DoReMi, che non ha conoscenza dei task downstream, eguaglia addirittura le prestazioni ottenute utilizzando pesi di dominio ottimizzati sui task downstream.
In questo articolo, introduciamo l'auto-distillazione e il clustering online per l'apprendimento auto-supervisionato di rappresentazioni del parlato (DinoSR), che combina modellazione del linguaggio mascherato, auto-distillazione e clustering online. Dimostriamo che questi concetti si complementano a vicenda e portano a un modello solido per l'apprendimento di rappresentazioni del parlato. DinoSR estrae prima degli embedding contestualizzati dall'audio di input utilizzando una rete insegnante, poi esegue un sistema di clustering online sugli embedding per ottenere un inventario di fonemi scoperto automaticamente, e infine utilizza i token discretizzati per guidare una rete studente. Mostriamo che DinoSR supera le precedenti prestazioni state-of-the-art in diverse attività downstream e forniamo un'analisi dettagliata del modello e delle unità discrete apprese. Il codice sorgente sarà reso disponibile dopo il periodo di anonimato.
I sistemi di riconoscimento vocale automatico su dispositivo presentano diverse sfide rispetto ai sistemi basati su server. Devono rispettare vincoli più stringenti in termini di velocità, dimensioni del disco e memoria, mantenendo al contempo la stessa accuratezza. Spesso devono servire più applicazioni con distribuzioni diverse simultaneamente, come la comunicazione con un assistente virtuale e la conversione da voce a testo. La soluzione più semplice per servire più applicazioni è costruire modelli (linguistici) specifici per ogni applicazione, ma ciò comporta un aumento della memoria. Pertanto, esploriamo diversi approcci di modellazione linguistica basati su dati e architetture per costruire un unico modello indipendente dall'applicazione. Proponiamo due nuove architetture feed-forward che trovano un compromesso ottimale tra i diversi vincoli su dispositivo. Rispetto alla soluzione specifica per applicazione, uno dei nostri approcci innovativi riduce le dimensioni del disco della metà, mantenendo la velocità e l'accuratezza del modello originale.
I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni predittive notevoli per un numero crescente di compiti. Tuttavia, la loro rapida proliferazione e l'aumentata opacità hanno creato un crescente bisogno di interpretabilità. In questo contesto, ci chiediamo se sia possibile ottenere automaticamente spiegazioni in linguaggio naturale per moduli di testo "black box". Un "modulo di testo" è qualsiasi funzione che mappa un testo a un valore scalare continuo, come un sottomodulo all'interno di un LLM o un modello adattato di una regione cerebrale. "Black box" indica che abbiamo accesso solo agli input/output del modulo. Introduciamo Summarize and Score (SASC), un metodo che prende in input un modulo di testo e restituisce una spiegazione in linguaggio naturale della selettività del modulo, insieme a un punteggio che indica l'affidabilità della spiegazione. Studiamo SASC in tre contesti. In primo luogo, valutiamo SASC su moduli sintetici e scopriamo che spesso recupera spiegazioni di verità di base. In secondo luogo, utilizziamo SASC per spiegare i moduli presenti all'interno di un modello BERT pre-addestrato, consentendo l'ispezione degli interni del modello. Infine, dimostriamo che SASC può generare spiegazioni per la risposta di singoli voxel fMRI agli stimoli linguistici, con potenziali applicazioni nella mappatura cerebrale ad alta risoluzione. Tutto il codice per utilizzare SASC e riprodurre i risultati è reso disponibile su Github.
Migliorare l'uso delle parole è una funzionalità desiderata per l'assistenza alla scrittura. Per far progredire ulteriormente la ricerca in questo ambito, questo articolo introduce il task e il benchmark "Smart Word Suggestions" (SWS). A differenza di altri lavori, SWS enfatizza la valutazione end-to-end e presenta uno scenario di assistenza alla scrittura più realistico. Questo task prevede l'identificazione di parole o frasi che necessitano di miglioramento e la fornitura di suggerimenti di sostituzione. Il benchmark include dati etichettati manualmente per i test, un ampio dataset supervisionato a distanza per l'addestramento e il framework per la valutazione. I dati di test comprendono 1.000 frasi scritte da apprendenti di inglese, accompagnate da oltre 16.000 suggerimenti di sostituzione annotati da 10 parlanti nativi. Il dataset di addestramento comprende oltre 3,7 milioni di frasi e 12,7 milioni di suggerimenti generati tramite regole. I nostri esperimenti con sette baseline dimostrano che SWS è un task impegnativo. Sulla base dell'analisi sperimentale, suggeriamo potenziali direzioni per la ricerca futura su SWS. Il dataset e i codici correlati sono disponibili all'indirizzo https://github.com/microsoft/SmartWordSuggestions.
Questo lavoro è stato presentato al Workshop sulle Rappresentazioni Spaziali Non Convenzionali della Conferenza Internazionale IEEE su Robotica e Automazione 2023. I campi di radianza neurale (NeRF) sono una classe di rappresentazioni implicite di scene che modellano ambienti 3D a partire da immagini a colori. I NeRF sono espressivi e possono modellare la geometria complessa e multi-scala degli ambienti del mondo reale, il che li rende potenzialmente uno strumento potente per applicazioni robotiche. Le moderne librerie di addestramento NeRF possono generare un NeRF foto-realistico da un set di dati statico in pochi secondi, ma sono progettate per un uso offline e richiedono un passaggio preliminare di ottimizzazione della posa che è lento. In questo lavoro proponiamo NerfBridge, un ponte open-source tra il Robot Operating System (ROS) e la popolare libreria Nerfstudio per l'addestramento in tempo reale e online di NeRF da un flusso di immagini. NerfBridge consente uno sviluppo rapido della ricerca sulle applicazioni dei NeRF nella robotica, fornendo un'interfaccia estensibile alle pipeline di addestramento efficienti e alle librerie di modelli offerte da Nerfstudio. Come caso d'uso esemplificativo, delineiamo una configurazione hardware che può utilizzare NerfBridge per addestrare un NeRF da immagini catturate da una telecamera montata su un quadrirotore, sia in ambienti interni che esterni. Per il video di accompagnamento https://youtu.be/EH0SLn-RcDg e il codice https://github.com/javieryu/nerf_bridge.
I grandi modelli linguistici multilingue dimostrano sorprendentemente buone capacità di traduzione automatica zero-shot o few-shot, nonostante non abbiano mai visto gli esempi di traduzione intenzionalmente inclusi forniti ai tipici sistemi di traduzione neurale. Investigiamo il ruolo del bilinguismo incidentale – il consumo non intenzionale di segnali bilingui, inclusi esempi di traduzione – nello spiegare le capacità di traduzione dei grandi modelli linguistici, prendendo come caso di studio il Pathways Language Model (PaLM). Introduciamo un approccio a metodi misti per misurare e comprendere il bilinguismo incidentale su larga scala. Mostriamo che PaLM è esposto a oltre 30 milioni di coppie di traduzione in almeno 44 lingue. Inoltre, la quantità di contenuto bilingue incidentale è altamente correlata alla quantità di contenuto monolingue in lingua per le lingue non inglesi. Colleghiamo il contenuto bilingue incidentale ai prompt zero-shot e dimostriamo che può essere utilizzato per estrarre nuovi prompt per migliorare la qualità della traduzione zero-shot da PaLM dall'inglese. Infine, in una serie di ablazioni su piccola scala, mostriamo che la sua presenza ha un impatto sostanziale sulle capacità di traduzione, sebbene questo impatto diminuisca con la scala del modello.
Il nucleo della Stereo Multi-vista (MVS) risiede nel processo di corrispondenza tra i pixel di riferimento e quelli sorgente. L'aggregazione dei costi svolge un ruolo significativo in questo processo, mentre i metodi precedenti si concentrano sulla sua gestione tramite CNN. Questo approccio può ereditare la limitazione intrinseca delle CNN, che non riescono a discriminare corrispondenze ripetitive o errate a causa dei campi ricettivi locali limitati. Per affrontare questo problema, miriamo a integrare il Transformer nell'aggregazione dei costi. Tuttavia, può sorgere un altro problema a causa della complessità computazionale che cresce quadraticamente con il Transformer, portando a un overflow di memoria e a latenza nell'inferenza. In questo articolo, superiamo questi limiti con una rete efficiente di aggregazione dei costi basata su Transformer, denominata CostFormer. Il Residual Depth-Aware Cost Transformer (RDACT) è proposto per aggregare caratteristiche a lungo raggio sul volume dei costi tramite meccanismi di self-attention lungo le dimensioni di profondità e spaziali. Inoltre, il Residual Regression Transformer (RRT) è proposto per migliorare l'attenzione spaziale. Il metodo proposto è un plug-in universale per migliorare i metodi MVS basati sull'apprendimento.
Studiamo se più modelli linguistici di grandi dimensioni (LLM) possano migliorarsi autonomamente in un gioco di negoziazione attraverso il gioco, la riflessione e la critica. Siamo interessati a questa domanda perché, se gli LLM fossero in grado di migliorarsi reciprocamente, ciò implicherebbe la possibilità di creare agenti di intelligenza artificiale (IA) avanzati con un intervento umano minimo. Chiediamo a due LLM di negoziare tra loro, interpretando rispettivamente i ruoli di acquirente e venditore, con l'obiettivo di raggiungere un accordo in cui l'acquirente punta a un prezzo più basso e il venditore a uno più alto. Un terzo modello linguistico, nel ruolo di critico, fornisce feedback a un giocatore per migliorare le sue strategie di negoziazione. Lasciamo che i due agenti giochino più round, utilizzando la storia delle negoziazioni precedenti e i feedback dell'IA come dimostrazioni contestuali per migliorare iterativamente la strategia di negoziazione del modello. Utilizziamo LLM diversi (GPT e Claude) per ruoli diversi e il prezzo dell'accordo come metrica di valutazione. I nostri esperimenti rivelano diversi risultati interessanti: (1) Solo un sottoinsieme dei modelli linguistici considerati è in grado di autogiocare e migliorare il prezzo dell'accordo grazie ai feedback dell'IA; i modelli più deboli non comprendono le regole del gioco o non riescono a incorporare i feedback dell'IA per ulteriori miglioramenti. (2) Le capacità dei modelli di apprendere dai feedback variano a seconda del ruolo interpretato. Ad esempio, per Claude-instant è più difficile migliorare come acquirente che come venditore. (3) Quando il gioco si sviluppa su più round, gli agenti più forti possono migliorare costantemente le loro prestazioni utilizzando in modo significativo le esperienze precedenti e i feedback iterativi dell'IA, ma hanno un rischio maggiore di rompere l'accordo. Speriamo che il nostro lavoro fornisca esplorazioni iniziali significative sull'idea di far migliorare autonomamente i modelli tra loro attraverso il gioco e i feedback dell'IA.
La classificazione fine-grained è un compito impegnativo che implica l'identificazione di differenze sottili tra oggetti appartenenti alla stessa categoria. Questo compito è particolarmente complesso negli scenari in cui i dati sono scarsi. I visual transformer (ViT) sono emersi recentemente come uno strumento potente per la classificazione di immagini, grazie alla loro capacità di apprendere rappresentazioni altamente espressive di dati visivi utilizzando meccanismi di self-attention. In questo lavoro, esploriamo Semi-ViT, un modello ViT ottimizzato mediante tecniche di apprendimento semi-supervisionato, adatto a situazioni in cui si dispone di una carenza di dati annotati. Questo è particolarmente comune nel settore dell'e-commerce, dove le immagini sono facilmente disponibili ma le etichette sono rumorose, inesistenti o costose da ottenere. I nostri risultati dimostrano che Semi-ViT supera le tradizionali reti neurali convoluzionali (CNN) e i ViT, anche quando ottimizzati con dati annotati limitati. Questi risultati indicano che i Semi-ViT offrono un potenziale significativo per applicazioni che richiedono una classificazione precisa e fine-grained di dati visivi.
I contenuti multimediali, come pubblicità e video narrativi, presentano una ricca combinazione di creatività e molteplici modalità. Incorporano elementi come testo, immagini, audio e tecniche di narrazione, utilizzando dispositivi come emozioni, simbolismo e slogan per trasmettere significato. Mentre la ricerca precedente nella comprensione multimediale si è concentrata principalmente su video con azioni specifiche come la cucina, c'è una carenza di grandi dataset di addestramento annotati, ostacolando lo sviluppo di modelli di apprendimento supervisionato con prestazioni soddisfacenti per applicazioni nel mondo reale. Tuttavia, l'ascesa dei grandi modelli linguistici (LLM) ha dimostrato prestazioni zero-shot notevoli in vari compiti di elaborazione del linguaggio naturale (NLP), come la classificazione delle emozioni, il question-answering e la classificazione degli argomenti. Per colmare questo divario di prestazioni nella comprensione multimediale, proponiamo di verbalizzare i video narrativi per generare le loro descrizioni in linguaggio naturale e poi eseguire compiti di comprensione video sulla storia generata anziché sul video originale. Attraverso esperimenti estesi su cinque compiti di comprensione video, dimostriamo che il nostro metodo, nonostante sia zero-shot, ottiene risultati significativamente migliori rispetto ai baseline supervisionati per la comprensione video. Inoltre, per alleviare la mancanza di benchmark per la comprensione delle storie, rilasciamo pubblicamente il primo dataset su un compito cruciale nelle scienze sociali computazionali: l'identificazione delle strategie di persuasione.