HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

14 papers found

Rapporto Tecnico di PaLM 2
PaLM 2 Technical Report

May 17

ByRohan Anil, Andrew M. Dai, Orhan Firat, Melvin Johnson, Dmitry Lepikhin, Alexandre Passos, Siamak Shakeri, Emanuel Taropa, Paige Bailey, Zhifeng Chen, Eric Chu, Jonathan H. Clark, Laurent El Shafey, Yanping Huang, Kathy Meier-Hellstern, Gaurav Mishra, Erica Moreira, Mark Omernick, Kevin Robinson, Sebastian Ruder, Yi Tay, Kefan Xiao, Yuanzhong Xu, Yujing Zhang, Gustavo Hernandez Abrego, Junwhan Ahn, Jacob Austin, Paul Barham, Jan Botha, James Bradbury, Siddhartha Brahma, Kevin Brooks, Michele Catasta, Yong Cheng, Colin Cherry, Christopher A. Choquette-Choo, Aakanksha Chowdhery, Clément Crepy, Shachi Dave, Mostafa Dehghani, Sunipa Dev, Jacob Devlin, Mark Díaz, Nan Du, Ethan Dyer, Vlad Feinberg, Fangxiaoyu Feng, Vlad Fienber, Markus Freitag, Xavier Garcia, Sebastian Gehrmann, Lucas Gonzalez, Guy Gur-Ari, Steven Hand, Hadi Hashemi, Le Hou, Joshua Howland, Andrea Hu, Jeffrey Hui, Jeremy Hurwitz, Michael Isard, Abe Ittycheriah, Matthew Jagielski, Wenhao Jia, Kathleen Kenealy, Maxim Krikun, Sneha Kudugunta, Chang Lan, Katherine Lee, Benjamin Lee, Eric Li, Music Li, Wei Li, YaGuang Li, Jian Li, Hyeontaek Lim, Hanzhao Lin, Zhongtao Liu, Frederick Liu, Marcello Maggioni, Aroma Mahendru, Joshua Maynez, Vedant Misra, Maysam Moussalem, Zachary Nado, John Nham, Eric Ni, Andrew Nystrom, Alicia Parrish, Marie Pellat, Martin Polacek, Alex Polozov, Reiner Pope, Siyuan Qiao, Emily Reif, Bryan Richter, Parker Riley, Alex Castro Ros, Aurko Roy, Brennan Saeta, Rajkumar Samuel, Renee Shelby, Ambrose Slone, Daniel Smilkov, David R. So, Daniel Sohn, Simon Tokumine, Dasha Valter, Vijay Vasudevan, Kiran Vodrahalli, Xuezhi Wang, Pidong Wang, Zirui Wang, Tao Wang, John Wieting, Yuhuai Wu, Kelvin Xu, Yunhan Xu, Linting Xue, Pengcheng Yin, Jiahui Yu, Qiao Zhang, Steven Zheng, Ce Zheng, Weikang Zhou, Denny Zhou, Slav Petrov, Yonghui Wu

Presentiamo PaLM 2, un nuovo modello linguistico all'avanguardia che offre migliori capacità multilingue e di ragionamento, oltre a una maggiore efficienza computazionale rispetto al suo predecessore PaLM. PaLM 2 è un modello basato su Transformer addestrato utilizzando una combinazione di obiettivi. Attraverso valutazioni estensive su compiti linguistici in inglese e multilingue, nonché su attività di ragionamento, dimostriamo che PaLM 2 ha una qualità significativamente migliorata nei task downstream, indipendentemente dalle dimensioni del modello, mostrando al contempo un'inferenza più veloce ed efficiente rispetto a PaLM. Questa maggiore efficienza consente un impiego più ampio e permette al modello di rispondere più rapidamente, garantendo un ritmo di interazione più naturale. PaLM 2 dimostra solide capacità di ragionamento, evidenziate da notevoli miglioramenti rispetto a PaLM su BIG-Bench e altri task di ragionamento. Il modello mostra prestazioni stabili in una serie di valutazioni sull'IA responsabile e consente un controllo in tempo reale sulla tossicità senza sovraccarichi aggiuntivi o impatti su altre capacità. Nel complesso, PaLM 2 raggiunge prestazioni all'avanguardia su un'ampia gamma di task e capacità. Quando si discute della famiglia PaLM 2, è importante distinguere tra modelli pre-addestrati (di varie dimensioni), varianti fine-tuned di questi modelli e i prodotti rivolti agli utenti che li utilizzano. In particolare, i prodotti rivolti agli utenti includono tipicamente ulteriori passaggi di pre- e post-elaborazione. Inoltre, i modelli sottostanti possono evolversi nel tempo. Pertanto, non ci si deve aspettare che le prestazioni dei prodotti rivolti agli utenti corrispondano esattamente ai risultati riportati in questo documento.

CoEdIT: Modifica del Testo mediante Adattamento Specifico per Compiti di Istruzione
CoEdIT: Text Editing by Task-Specific Instruction Tuning

May 17

ByVipul Raheja, Dhruv Kumar, Ryan Koo, Dongyeop Kang

La modifica o revisione del testo è una funzione essenziale del processo di scrittura umana. Comprendere le capacità dei modelli linguistici di grandi dimensioni (LLM) nel realizzare revisioni di alta qualità e collaborare con scrittori umani rappresenta un passo cruciale verso lo sviluppo di assistenti di scrittura efficaci. Sfruttando i precedenti successi degli LLM e del fine-tuning su istruzioni, utilizziamo LLM ottimizzati su istruzioni per la revisione del testo, al fine di migliorare la qualità dei testi generati dagli utenti e aumentare l'efficienza del processo. Introduciamo CoEdIT, un modello all'avanguardia per la modifica del testo nell'ambito dell'assistenza alla scrittura. CoEdIT riceve istruzioni dall'utente che specificano gli attributi del testo desiderato, come "Rendi la frase più semplice" o "Riscrivila in uno stile più neutrale", e restituisce il testo modificato. Presentiamo un modello linguistico di grandi dimensioni ottimizzato su una vasta raccolta di istruzioni specifiche per la modifica del testo (per un totale di 82K istruzioni). Il nostro modello (1) raggiunge prestazioni all'avanguardia su vari benchmark di modifica del testo, (2) è competitivo con i più grandi LLM disponibili pubblicamente addestrati su istruzioni, pur essendo 60 volte più piccolo, (3) è in grado di generalizzare a istruzioni di modifica non viste precedentemente e (4) mostra capacità di comprensione compositiva per generalizzare a istruzioni che contengono diverse combinazioni di azioni di modifica. Attraverso un'ampia analisi qualitativa e quantitativa, dimostriamo che gli scrittori preferiscono le modifiche suggerite da CoEdIT rispetto ad altri modelli all'avanguardia per la modifica del testo. Il nostro codice e il dataset sono disponibili pubblicamente.

SLiC-HF: Calibrazione della Probabilità Sequenziale con Feedback Umano
SLiC-HF: Sequence Likelihood Calibration with Human Feedback

May 17

ByYao Zhao, Rishabh Joshi, Tianqi Liu, Misha Khalman, Mohammad Saleh, Peter J. Liu

L'apprendimento dal feedback umano si è dimostrato efficace nell'allineare i modelli linguistici alle preferenze umane. Le ricerche precedenti si sono spesso basate sul Reinforcement Learning from Human Feedback (RLHF), che ottimizza il modello linguistico utilizzando punteggi di ricompensa assegnati da un modello di ricompensa addestrato su dati di preferenze umane. In questo lavoro dimostriamo come il recentemente introdotto Sequence Likelihood Calibration (SLiC) possa essere utilizzato anche per apprendere efficacemente dalle preferenze umane (SLiC-HF). Inoltre, mostriamo che ciò può essere fatto con dati di feedback umano raccolti per un modello diverso, simile ai dati RL offline e off-policy. Esperimenti di valutazione automatica e umana sul task di riassunto TL;DR dimostrano che SLiC-HF migliora significativamente i baseline di fine-tuning supervisionato. Inoltre, SLiC-HF rappresenta un'alternativa competitiva all'implementazione PPO RLHF utilizzata in precedenza, pur essendo molto più semplice da implementare, più facile da ottimizzare e più efficiente dal punto di vista computazionale nella pratica.

DoReMi: Ottimizzare le Miscele di Dati Accelera il Pre-addestramento dei Modelli Linguistici
DoReMi: Optimizing Data Mixtures Speeds Up Language Model Pretraining

May 17

BySang Michael Xie, Hieu Pham, Xuanyi Dong, Nan Du, Hanxiao Liu, Yifeng Lu, Percy Liang, Quoc V. Le, Tengyu Ma, Adams Wei Yu

Le proporzioni di miscela dei domini di dati di pre-addestramento (ad esempio, Wikipedia, libri, testo web) influenzano notevolmente le prestazioni dei modelli linguistici (LM). In questo articolo, proponiamo il Domain Reweighting with Minimax Optimization (DoReMi), che addestra inizialmente un piccolo modello proxy utilizzando l'ottimizzazione robusta distributiva di gruppo (Group DRO) sui domini per produrre pesi di dominio (proporzioni di miscela) senza conoscere i task downstream. Successivamente, ricampioniamo un dataset con questi pesi di dominio e addestriamo un modello più grande e completo. Nei nostri esperimenti, utilizziamo DoReMi su un modello proxy con 280 milioni di parametri per determinare i pesi di dominio per l'addestramento di un modello da 8 miliardi di parametri (30 volte più grande) in modo più efficiente. Su The Pile, DoReMi migliora la perplessità in tutti i domini, anche quando riduce il peso di un dominio. DoReMi migliora l'accuratezza media few-shot downstream del 6,5% rispetto a un modello di base addestrato utilizzando i pesi di dominio predefiniti di The Pile e raggiunge l'accuratezza di base con 2,6 volte meno passi di addestramento. Sul dataset GLaM, DoReMi, che non ha conoscenza dei task downstream, eguaglia addirittura le prestazioni ottenute utilizzando pesi di dominio ottimizzati sui task downstream.

DinoSR: Auto-distillazione e Clustering Online per l'Apprendimento Autosupervisionato di Rappresentazioni Vocali
DinoSR: Self-Distillation and Online Clustering for Self-supervised Speech Representation Learning

May 17

ByAlexander H. Liu, Heng-Jui Chang, Michael Auli, Wei-Ning Hsu, James R. Glass

In questo articolo, introduciamo l'auto-distillazione e il clustering online per l'apprendimento auto-supervisionato di rappresentazioni del parlato (DinoSR), che combina modellazione del linguaggio mascherato, auto-distillazione e clustering online. Dimostriamo che questi concetti si complementano a vicenda e portano a un modello solido per l'apprendimento di rappresentazioni del parlato. DinoSR estrae prima degli embedding contestualizzati dall'audio di input utilizzando una rete insegnante, poi esegue un sistema di clustering online sugli embedding per ottenere un inventario di fonemi scoperto automaticamente, e infine utilizza i token discretizzati per guidare una rete studente. Mostriamo che DinoSR supera le precedenti prestazioni state-of-the-art in diverse attività downstream e forniamo un'analisi dettagliata del modello e delle unità discrete apprese. Il codice sorgente sarà reso disponibile dopo il periodo di anonimato.

Modellamento del Linguaggio Indipendente dall'Applicazione per ASR su Dispositivo
Application-Agnostic Language Modeling for On-Device ASR

May 16

ByMarkus Nußbaum-Thom, Lyan Verwimp, Youssef Oualil

I sistemi di riconoscimento vocale automatico su dispositivo presentano diverse sfide rispetto ai sistemi basati su server. Devono rispettare vincoli più stringenti in termini di velocità, dimensioni del disco e memoria, mantenendo al contempo la stessa accuratezza. Spesso devono servire più applicazioni con distribuzioni diverse simultaneamente, come la comunicazione con un assistente virtuale e la conversione da voce a testo. La soluzione più semplice per servire più applicazioni è costruire modelli (linguistici) specifici per ogni applicazione, ma ciò comporta un aumento della memoria. Pertanto, esploriamo diversi approcci di modellazione linguistica basati su dati e architetture per costruire un unico modello indipendente dall'applicazione. Proponiamo due nuove architetture feed-forward che trovano un compromesso ottimale tra i diversi vincoli su dispositivo. Rispetto alla soluzione specifica per applicazione, uno dei nostri approcci innovativi riduce le dimensioni del disco della metà, mantenendo la velocità e l'accuratezza del modello originale.

Spiegare i moduli di testo black box in linguaggio naturale con modelli linguistici
Explaining black box text modules in natural language with language models

May 17

ByChandan Singh, Aliyah R. Hsu, Richard Antonello, Shailee Jain, Alexander G. Huth, Bin Yu, Jianfeng Gao

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato prestazioni predittive notevoli per un numero crescente di compiti. Tuttavia, la loro rapida proliferazione e l'aumentata opacità hanno creato un crescente bisogno di interpretabilità. In questo contesto, ci chiediamo se sia possibile ottenere automaticamente spiegazioni in linguaggio naturale per moduli di testo "black box". Un "modulo di testo" è qualsiasi funzione che mappa un testo a un valore scalare continuo, come un sottomodulo all'interno di un LLM o un modello adattato di una regione cerebrale. "Black box" indica che abbiamo accesso solo agli input/output del modulo. Introduciamo Summarize and Score (SASC), un metodo che prende in input un modulo di testo e restituisce una spiegazione in linguaggio naturale della selettività del modulo, insieme a un punteggio che indica l'affidabilità della spiegazione. Studiamo SASC in tre contesti. In primo luogo, valutiamo SASC su moduli sintetici e scopriamo che spesso recupera spiegazioni di verità di base. In secondo luogo, utilizziamo SASC per spiegare i moduli presenti all'interno di un modello BERT pre-addestrato, consentendo l'ispezione degli interni del modello. Infine, dimostriamo che SASC può generare spiegazioni per la risposta di singoli voxel fMRI agli stimoli linguistici, con potenziali applicazioni nella mappatura cerebrale ad alta risoluzione. Tutto il codice per utilizzare SASC e riprodurre i risultati è reso disponibile su Github.

Suggerimenti Intelligenti di Parole per l'Assistenza alla Scrittura
Smart Word Suggestions for Writing Assistance

May 17

ByChenshuo Wang, Shaoguang Mao, Tao Ge, Wenshan Wu, Xun Wang, Yan Xia, Jonathan Tien, Dongyan Zhao

Migliorare l'uso delle parole è una funzionalità desiderata per l'assistenza alla scrittura. Per far progredire ulteriormente la ricerca in questo ambito, questo articolo introduce il task e il benchmark "Smart Word Suggestions" (SWS). A differenza di altri lavori, SWS enfatizza la valutazione end-to-end e presenta uno scenario di assistenza alla scrittura più realistico. Questo task prevede l'identificazione di parole o frasi che necessitano di miglioramento e la fornitura di suggerimenti di sostituzione. Il benchmark include dati etichettati manualmente per i test, un ampio dataset supervisionato a distanza per l'addestramento e il framework per la valutazione. I dati di test comprendono 1.000 frasi scritte da apprendenti di inglese, accompagnate da oltre 16.000 suggerimenti di sostituzione annotati da 10 parlanti nativi. Il dataset di addestramento comprende oltre 3,7 milioni di frasi e 12,7 milioni di suggerimenti generati tramite regole. I nostri esperimenti con sette baseline dimostrano che SWS è un task impegnativo. Sulla base dell'analisi sperimentale, suggeriamo potenziali direzioni per la ricerca futura su SWS. Il dataset e i codici correlati sono disponibili all'indirizzo https://github.com/microsoft/SmartWordSuggestions.

NerfBridge: Portare l'Addestramento Online e in Tempo Reale dei Campi di Radianza Neurali alla Robotica
NerfBridge: Bringing Real-time, Online Neural Radiance Field Training to Robotics

May 16

ByJavier Yu, Jun En Low, Keiko Nagami, Mac Schwager

Questo lavoro è stato presentato al Workshop sulle Rappresentazioni Spaziali Non Convenzionali della Conferenza Internazionale IEEE su Robotica e Automazione 2023. I campi di radianza neurale (NeRF) sono una classe di rappresentazioni implicite di scene che modellano ambienti 3D a partire da immagini a colori. I NeRF sono espressivi e possono modellare la geometria complessa e multi-scala degli ambienti del mondo reale, il che li rende potenzialmente uno strumento potente per applicazioni robotiche. Le moderne librerie di addestramento NeRF possono generare un NeRF foto-realistico da un set di dati statico in pochi secondi, ma sono progettate per un uso offline e richiedono un passaggio preliminare di ottimizzazione della posa che è lento. In questo lavoro proponiamo NerfBridge, un ponte open-source tra il Robot Operating System (ROS) e la popolare libreria Nerfstudio per l'addestramento in tempo reale e online di NeRF da un flusso di immagini. NerfBridge consente uno sviluppo rapido della ricerca sulle applicazioni dei NeRF nella robotica, fornendo un'interfaccia estensibile alle pipeline di addestramento efficienti e alle librerie di modelli offerte da Nerfstudio. Come caso d'uso esemplificativo, delineiamo una configurazione hardware che può utilizzare NerfBridge per addestrare un NeRF da immagini catturate da una telecamera montata su un quadrirotore, sia in ambienti interni che esterni. Per il video di accompagnamento https://youtu.be/EH0SLn-RcDg e il codice https://github.com/javieryu/nerf_bridge.

Cercare un ago in un pagliaio: sul ruolo del bilinguismo incidentale nelle capacità di traduzione di PaLM
Searching for Needles in a Haystack: On the Role of Incidental Bilingualism in PaLM's Translation Capability

May 17

ByEleftheria Briakou, Colin Cherry, George Foster

I grandi modelli linguistici multilingue dimostrano sorprendentemente buone capacità di traduzione automatica zero-shot o few-shot, nonostante non abbiano mai visto gli esempi di traduzione intenzionalmente inclusi forniti ai tipici sistemi di traduzione neurale. Investigiamo il ruolo del bilinguismo incidentale – il consumo non intenzionale di segnali bilingui, inclusi esempi di traduzione – nello spiegare le capacità di traduzione dei grandi modelli linguistici, prendendo come caso di studio il Pathways Language Model (PaLM). Introduciamo un approccio a metodi misti per misurare e comprendere il bilinguismo incidentale su larga scala. Mostriamo che PaLM è esposto a oltre 30 milioni di coppie di traduzione in almeno 44 lingue. Inoltre, la quantità di contenuto bilingue incidentale è altamente correlata alla quantità di contenuto monolingue in lingua per le lingue non inglesi. Colleghiamo il contenuto bilingue incidentale ai prompt zero-shot e dimostriamo che può essere utilizzato per estrarre nuovi prompt per migliorare la qualità della traduzione zero-shot da PaLM dall'inglese. Infine, in una serie di ablazioni su piccola scala, mostriamo che la sua presenza ha un impatto sostanziale sulle capacità di traduzione, sebbene questo impatto diminuisca con la scala del modello.

CostFormer: Trasformatore di Costo per l'Aggregazione dei Costi nella Stereoscopia Multi-vista
CostFormer:Cost Transformer for Cost Aggregation in Multi-view Stereo

May 17

ByWeitao Chen, Hongbin Xu, Zhipeng Zhou, Yang Liu, Baigui Sun, Wenxiong Kang, Xuansong Xie

Il nucleo della Stereo Multi-vista (MVS) risiede nel processo di corrispondenza tra i pixel di riferimento e quelli sorgente. L'aggregazione dei costi svolge un ruolo significativo in questo processo, mentre i metodi precedenti si concentrano sulla sua gestione tramite CNN. Questo approccio può ereditare la limitazione intrinseca delle CNN, che non riescono a discriminare corrispondenze ripetitive o errate a causa dei campi ricettivi locali limitati. Per affrontare questo problema, miriamo a integrare il Transformer nell'aggregazione dei costi. Tuttavia, può sorgere un altro problema a causa della complessità computazionale che cresce quadraticamente con il Transformer, portando a un overflow di memoria e a latenza nell'inferenza. In questo articolo, superiamo questi limiti con una rete efficiente di aggregazione dei costi basata su Transformer, denominata CostFormer. Il Residual Depth-Aware Cost Transformer (RDACT) è proposto per aggregare caratteristiche a lungo raggio sul volume dei costi tramite meccanismi di self-attention lungo le dimensioni di profondità e spaziali. Inoltre, il Residual Regression Transformer (RRT) è proposto per migliorare l'attenzione spaziale. Il metodo proposto è un plug-in universale per migliorare i metodi MVS basati sull'apprendimento.

Migliorare la negoziazione dei modelli linguistici con auto-gioco e apprendimento in-context da feedback di IA
Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

May 17

ByYao Fu, Hao Peng, Tushar Khot, Mirella Lapata

Studiamo se più modelli linguistici di grandi dimensioni (LLM) possano migliorarsi autonomamente in un gioco di negoziazione attraverso il gioco, la riflessione e la critica. Siamo interessati a questa domanda perché, se gli LLM fossero in grado di migliorarsi reciprocamente, ciò implicherebbe la possibilità di creare agenti di intelligenza artificiale (IA) avanzati con un intervento umano minimo. Chiediamo a due LLM di negoziare tra loro, interpretando rispettivamente i ruoli di acquirente e venditore, con l'obiettivo di raggiungere un accordo in cui l'acquirente punta a un prezzo più basso e il venditore a uno più alto. Un terzo modello linguistico, nel ruolo di critico, fornisce feedback a un giocatore per migliorare le sue strategie di negoziazione. Lasciamo che i due agenti giochino più round, utilizzando la storia delle negoziazioni precedenti e i feedback dell'IA come dimostrazioni contestuali per migliorare iterativamente la strategia di negoziazione del modello. Utilizziamo LLM diversi (GPT e Claude) per ruoli diversi e il prezzo dell'accordo come metrica di valutazione. I nostri esperimenti rivelano diversi risultati interessanti: (1) Solo un sottoinsieme dei modelli linguistici considerati è in grado di autogiocare e migliorare il prezzo dell'accordo grazie ai feedback dell'IA; i modelli più deboli non comprendono le regole del gioco o non riescono a incorporare i feedback dell'IA per ulteriori miglioramenti. (2) Le capacità dei modelli di apprendere dai feedback variano a seconda del ruolo interpretato. Ad esempio, per Claude-instant è più difficile migliorare come acquirente che come venditore. (3) Quando il gioco si sviluppa su più round, gli agenti più forti possono migliorare costantemente le loro prestazioni utilizzando in modo significativo le esperienze precedenti e i feedback iterativi dell'IA, ma hanno un rischio maggiore di rompere l'accordo. Speriamo che il nostro lavoro fornisca esplorazioni iniziali significative sull'idea di far migliorare autonomamente i modelli tra loro attraverso il gioco e i feedback dell'IA.

Apprendimento Trasferito per la Classificazione Fine-Grained Utilizzando Apprendimento Semi-Supervisionato e Visual Transformers
Transfer Learning for Fine-grained Classification Using Semi-supervised Learning and Visual Transformers

May 17

ByManuel Lagunas, Brayan Impata, Victor Martinez, Virginia Fernandez, Christos Georgakis, Sofia Braun, Felipe Bertrand

La classificazione fine-grained è un compito impegnativo che implica l'identificazione di differenze sottili tra oggetti appartenenti alla stessa categoria. Questo compito è particolarmente complesso negli scenari in cui i dati sono scarsi. I visual transformer (ViT) sono emersi recentemente come uno strumento potente per la classificazione di immagini, grazie alla loro capacità di apprendere rappresentazioni altamente espressive di dati visivi utilizzando meccanismi di self-attention. In questo lavoro, esploriamo Semi-ViT, un modello ViT ottimizzato mediante tecniche di apprendimento semi-supervisionato, adatto a situazioni in cui si dispone di una carenza di dati annotati. Questo è particolarmente comune nel settore dell'e-commerce, dove le immagini sono facilmente disponibili ma le etichette sono rumorose, inesistenti o costose da ottenere. I nostri risultati dimostrano che Semi-ViT supera le tradizionali reti neurali convoluzionali (CNN) e i ViT, anche quando ottimizzati con dati annotati limitati. Questi risultati indicano che i Semi-ViT offrono un potenziale significativo per applicazioni che richiedono una classificazione precisa e fine-grained di dati visivi.

Un Video Vale 4096 Token: Verbalizzare Video Narrativi per Comprenderli in Modalità Zero Shot
A Video Is Worth 4096 Tokens: Verbalize Story Videos To Understand Them In Zero Shot

May 16

ByAanisha Bhattacharya, Yaman K Singla, Balaji Krishnamurthy, Rajiv Ratn Shah, Changyou Chen

I contenuti multimediali, come pubblicità e video narrativi, presentano una ricca combinazione di creatività e molteplici modalità. Incorporano elementi come testo, immagini, audio e tecniche di narrazione, utilizzando dispositivi come emozioni, simbolismo e slogan per trasmettere significato. Mentre la ricerca precedente nella comprensione multimediale si è concentrata principalmente su video con azioni specifiche come la cucina, c'è una carenza di grandi dataset di addestramento annotati, ostacolando lo sviluppo di modelli di apprendimento supervisionato con prestazioni soddisfacenti per applicazioni nel mondo reale. Tuttavia, l'ascesa dei grandi modelli linguistici (LLM) ha dimostrato prestazioni zero-shot notevoli in vari compiti di elaborazione del linguaggio naturale (NLP), come la classificazione delle emozioni, il question-answering e la classificazione degli argomenti. Per colmare questo divario di prestazioni nella comprensione multimediale, proponiamo di verbalizzare i video narrativi per generare le loro descrizioni in linguaggio naturale e poi eseguire compiti di comprensione video sulla storia generata anziché sul video originale. Attraverso esperimenti estesi su cinque compiti di comprensione video, dimostriamo che il nostro metodo, nonostante sia zero-shot, ottiene risultati significativamente migliori rispetto ai baseline supervisionati per la comprensione video. Inoltre, per alleviare la mancanza di benchmark per la comprensione delle storie, rilasciamo pubblicamente il primo dataset su un compito cruciale nelle scienze sociali computazionali: l'identificazione delle strategie di persuasione.

Rapporto Tecnico di PaLM 2
PaLM 2 Technical Report

May 17