HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

17 papers found

SAM 2: Segmentazione di Oggetti in Immagini e Video
SAM 2: Segment Anything in Images and Videos

Aug 1

ByNikhila Ravi, Valentin Gabeur, Yuan-Ting Hu, Ronghang Hu, Chaitanya Ryali, Tengyu Ma, Haitham Khedr, Roman Rädle, Chloe Rolland, Laura Gustafson, Eric Mintun, Junting Pan, Kalyan Vasudev Alwala, Nicolas Carion, Chao-Yuan Wu, Ross Girshick, Piotr Dollár, Christoph Feichtenhofer

116

Presentiamo Segment Anything Model 2 (SAM 2), un modello di base orientato alla risoluzione della segmentazione visiva guidata da prompt in immagini e video. Abbiamo sviluppato un motore di dati, che migliora il modello e i dati attraverso l'interazione dell'utente, per raccogliere il più grande dataset di segmentazione video fino ad oggi. Il nostro modello è un'architettura transformer semplice dotata di memoria in streaming per l'elaborazione video in tempo reale. SAM 2, addestrato sui nostri dati, offre prestazioni solide in un'ampia gamma di task. Nella segmentazione video, osserviamo una maggiore accuratezza, utilizzando 3 volte meno interazioni rispetto agli approcci precedenti. Nella segmentazione di immagini, il nostro modello è più preciso e 6 volte più veloce rispetto al Segment Anything Model (SAM). Crediamo che i nostri dati, il modello e le intuizioni rappresenteranno una pietra miliare significativa per la segmentazione video e le task di percezione correlate. Stiamo rilasciando una versione del nostro modello, il dataset e una demo interattiva.

Gemma 2: Miglioramento dei Modelli Linguistici Aperti in una Dimensione Pratica
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31

ByGemma Team, Morgane Riviere, Shreya Pathak, Pier Giuseppe Sessa, Cassidy Hardin, Surya Bhupatiraju, Léonard Hussenot, Thomas Mesnard, Bobak Shahriari, Alexandre Ramé, Johan Ferret, Peter Liu, Pouya Tafti, Abe Friesen, Michelle Casbon, Sabela Ramos, Ravin Kumar, Charline Le Lan, Sammy Jerome, Anton Tsitsulin, Nino Vieillard, Piotr Stanczyk, Sertan Girgin, Nikola Momchev, Matt Hoffman, Shantanu Thakoor, Jean-Bastien Grill, Behnam Neyshabur, Alanna Walton, Aliaksei Severyn, Alicia Parrish, Aliya Ahmad, Allen Hutchison, Alvin Abdagic, Amanda Carl, Amy Shen, Andy Brock, Andy Coenen, Anthony Laforge, Antonia Paterson, Ben Bastian, Bilal Piot, Bo Wu, Brandon Royal, Charlie Chen, Chintu Kumar, Chris Perry, Chris Welty, Christopher A. Choquette-Choo, Danila Sinopalnikov, David Weinberger, Dimple Vijaykumar, Dominika Rogozińska, Dustin Herbison, Elisa Bandy, Emma Wang, Eric Noland, Erica Moreira, Evan Senter, Evgenii Eltyshev, Francesco Visin, Gabriel Rasskin, Gary Wei, Glenn Cameron, Gus Martins, Hadi Hashemi, Hanna Klimczak-Plucińska, Harleen Batra, Harsh Dhand, Ivan Nardini, Jacinda Mein, Jack Zhou, James Svensson, Jeff Stanway, Jetha Chan, Jin Zhou, Joana Carrasqueira, Joana Iljazi, Jocelyn Becker, Joe Fernandez, Joost van Amersfoort, Josh Gordon, Josh Lipschultz, Josh Newlan, Ju-yeong Ji, Kareem Mohamed, Kartikeya Badola, Kat Black, Katie Millican, Keelin McDonell, Kelvin Nguyen, Kiranbir Sodhia, Kish Greene, Lars Lowe Sjoesund, Lauren Usui, Laurent Sifre, Lena Heuermann, Leticia Lago, Lilly McNealus, Livio Baldini Soares, Logan Kilpatrick, Lucas Dixon, Luciano Martins, Machel Reid, Manvinder Singh, Mark Iverson, Martin Görner, Mat Velloso, Mateo Wirth, Matt Davidow, Matt Miller, Matthew Rahtz, Matthew Watson, Meg Risdal, Mehran Kazemi, Michael Moynihan, Ming Zhang, Minsuk Kahng, Minwoo Park, Mofi Rahman, Mohit Khatwani, Natalie Dao, Nenshad Bardoliwalla, Nesh Devanathan, Neta Dumai, Nilay Chauhan, Oscar Wahltinez, Pankil Botarda, Parker Barnes, Paul Barham, Paul Michel, Pengchong Jin, Petko Georgiev, Phil Culliton, Pradeep Kuppala, Ramona Comanescu, Ramona Merhej, Reena Jana, Reza Ardeshir Rokni, Rishabh Agarwal, Ryan Mullins, Samaneh Saadat, Sara Mc Carthy, Sarah Perrin, Sébastien Arnold, Sebastian Krause, Shengyang Dai, Shruti Garg, Shruti Sheth, Sue Ronstrom, Susan Chan, Timothy Jordan, Ting Yu, Tom Eccles, Tom Hennigan, Tomas Kocisky, Tulsee Doshi, Vihan Jain, Vikas Yadav, Vilobh Meshram, Vishal Dharmadhikari, Warren Barkley, Wei Wei, Wenming Ye, Woohyun Han, Woosuk Kwon, Xiang Xu, Zhe Shen, Zhitao Gong, Zichuan Wei, Victor Cotruta, Phoebe Kirk, Anand Rao, Minh Giang, Ludovic Peran, Tris Warkentin, Eli Collins, Joelle Barral, Zoubin Ghahramani, Raia Hadsell, D. Sculley, Jeanine Banks, Anca Dragan, Slav Petrov, Oriol Vinyals, Jeff Dean, Demis Hassabis, Koray Kavukcuoglu, Clement Farabet, Elena Buchatskaya, Sebastian Borgeaud, Noah Fiedel, Armand Joulin, Kathleen Kenealy, Robert Dadashi, Alek Andreev

In questo lavoro, presentiamo Gemma 2, una nuova aggiunta alla famiglia Gemma di modelli open leggeri e all'avanguardia, che spaziano in scala da 2 a 27 miliardi di parametri. In questa nuova versione, applichiamo diverse modifiche tecniche note all'architettura Transformer, come l'alternanza di attenzioni locali-globali (Beltagy et al., 2020a) e l'attenzione a query di gruppo (Ainslie et al., 2023). Addestriamo inoltre i modelli da 2B e 9B utilizzando la distillazione della conoscenza (Hinton et al., 2015) anziché la previsione del token successivo. I modelli risultanti offrono le migliori prestazioni per le loro dimensioni e rappresentano alternative competitive anche rispetto a modelli 2-3 volte più grandi. Rilasciamo tutti i nostri modelli alla comunità.

SF3D: Ricostruzione Stabile e Rapida di Mesh 3D con UV-unwrapping e Disaccoppiamento dell'Illuminazione
SF3D: Stable Fast 3D Mesh Reconstruction with UV-unwrapping and Illumination Disentanglement

Aug 1

ByMark Boss, Zixuan Huang, Aaryaman Vasishta, Varun Jampani

Presentiamo SF3D, un metodo innovativo per la ricostruzione rapida e di alta qualità di mesh di oggetti texturizzati a partire da una singola immagine in soli 0,5 secondi. A differenza della maggior parte degli approcci esistenti, SF3D è specificamente addestrato per la generazione di mesh, incorporando una tecnica veloce di UV unwrapping che consente una generazione rapida delle texture anziché basarsi sui colori dei vertici. Il metodo apprende inoltre a prevedere i parametri dei materiali e le mappe normali per migliorare la qualità visiva delle mesh 3D ricostruite. Inoltre, SF3D integra un passaggio di deilluminazione per rimuovere efficacemente gli effetti di illuminazione a bassa frequenza, garantendo che le mesh ricostruite possano essere facilmente utilizzate in nuove condizioni di illuminazione. Gli esperimenti dimostrano la prestazione superiore di SF3D rispetto alle tecniche esistenti. Pagina del progetto: https://stable-fast-3d.github.io

Miglioramento degli embedding di testo per modelli linguistici più piccoli mediante fine-tuning contrastivo
Improving Text Embeddings for Smaller Language Models Using Contrastive Fine-tuning

Aug 1

ByTrapoom Ukarapol, Zhicheng Lee, Amy Xin

Sebbene i Large Language Models dimostrino prestazioni notevoli nella comprensione del linguaggio naturale, la loro natura ad alta intensità di risorse li rende meno accessibili. Al contrario, modelli linguistici più piccoli come MiniCPM offrono una scalabilità più sostenibile, ma spesso si comportano in modo inferiore senza un'ottimizzazione specializzata. In questo articolo, esploriamo il potenziamento dei modelli linguistici più piccoli attraverso il miglioramento dei loro text embedding. Selezioniamo tre modelli linguistici, MiniCPM, Phi-2 e Gemma, per condurre un fine-tuning contrastivo sul dataset NLI. I nostri risultati dimostrano che questo metodo di fine-tuning migliora la qualità dei text embedding per tutti e tre i modelli su vari benchmark, con MiniCPM che mostra i miglioramenti più significativi, con un guadagno medio di prestazioni del 56,33%. Il codice per il fine-tuning contrastivo è disponibile pubblicamente all'indirizzo https://github.com/trapoom555/Language-Model-STS-CFT.

OmniParser per Agenti GUI Basati Esclusivamente su Visione
OmniParser for Pure Vision Based GUI Agent

Aug 1

ByYadong Lu, Jianwei Yang, Yelong Shen, Ahmed Awadallah

Il recente successo dei grandi modelli linguistici visivi mostra un grande potenziale nel guidare i sistemi agenti che operano sulle interfacce utente. Tuttavia, sosteniamo che il potere dei modelli multimodali come GPT-4V come agenti generali su più sistemi operativi e diverse applicazioni sia ampiamente sottovalutato a causa della mancanza di una tecnica robusta di analisi dello schermo in grado di: 1) identificare in modo affidabile le icone interagibili all'interno dell'interfaccia utente, e 2) comprendere la semantica dei vari elementi in uno screenshot e associare accuratamente l'azione intesa alla regione corrispondente sullo schermo. Per colmare queste lacune, introduciamo OmniParser, un metodo completo per analizzare gli screenshot delle interfacce utente in elementi strutturati, che migliora significativamente la capacità di GPT-4V di generare azioni che possono essere accuratamente ancorate alle regioni corrispondenti dell'interfaccia. Abbiamo prima curato un dataset di rilevamento delle icone interagibili utilizzando pagine web popolari e un dataset di descrizione delle icone. Questi dataset sono stati utilizzati per affinare modelli specializzati: un modello di rilevamento per analizzare le regioni interagibili sullo schermo e un modello di descrizione per estrarre la semantica funzionale degli elementi rilevati. OmniParser migliora significativamente le prestazioni di GPT-4V sul benchmark ScreenSpot. E sui benchmark Mind2Web e AITW, OmniParser con input solo screenshot supera le baseline di GPT-4V che richiedono informazioni aggiuntive al di fuori dello screenshot.

La Corrispondenza Approssimativa Stimola la Comprensione Spaziotemporale 3D nei Modelli Linguistici Multimodali
Coarse Correspondence Elicit 3D Spacetime Understanding in Multimodal Language Model

Aug 1

ByBenlin Liu, Yuhao Dong, Yiqin Wang, Yongming Rao, Yansong Tang, Wei-Chiu Ma, Ranjay Krishna

I modelli linguistici multimodali (MLLM) stanno sempre più venendo implementati in ambienti reali, rendendo necessaria la loro capacità di interpretare spazi 3D e comprendere dinamiche temporali. Nonostante il loro potenziale, i migliori modelli attuali all'interno della nostra comunità non sono ancora in grado di comprendere adeguatamente le dimensioni spaziali e temporali. Introduciamo Coarse Correspondence, un metodo semplice, efficace, generico e privo di addestramento per stimolare la comprensione 3D e temporale nei MLLM. Il nostro metodo utilizza un modello di tracciamento leggero per trovare corrispondenze di oggetti tra i fotogrammi di un video o tra insiemi di punti di vista delle immagini. Seleziona le istanze di oggetti più frequenti e le visualizza con marcatori dotati di ID univoci nell'immagine. Con questo approccio semplice, otteniamo risultati all'avanguardia nei benchmark di comprensione 3D, tra cui ScanQA (+20,5%) e un sottoinsieme di OpenEQA (+9,7%), e nei benchmark di video di lunga durata come EgoSchema (+6,0%). Abbiamo inoltre curato un piccolo dataset diagnostico per valutare se i MLLM siano in grado di ragionare sullo spazio da un punto di vista descritto diverso da quello della telecamera. Ancora una volta, Coarse Correspondence migliora le capacità di assunzione di prospettiva spaziale, ma evidenziamo che i MLLM faticano in questo compito. Insieme, dimostriamo che il nostro semplice metodo di prompting può aiutare significativamente i task downstream che richiedono ragionamento 3D o temporale.

Finch: Compressione della Cache Chiave-Valore Guidata da Prompt
Finch: Prompt-guided Key-Value Cache Compression

Jul 31

ByGiulio Corallo, Paolo Papotti

Le recenti applicazioni dei modelli linguistici di grandi dimensioni, come la Generazione Aumentata dal Recupero (Retrieval-Augmented Generation) e i chatbot, hanno portato a una maggiore necessità di elaborare contesti di input più lunghi. Tuttavia, questa esigenza è ostacolata da limitazioni intrinseche. Dal punto di vista architetturale, i modelli sono vincolati da una finestra di contesto definita durante l'addestramento. Inoltre, l'elaborazione di testi estesi richiede una notevole quantità di memoria GPU. Proponiamo un approccio innovativo, denominato Finch, per comprimere il contesto di input sfruttando i pesi pre-addestrati del meccanismo di self-attention. Dato un prompt e un testo lungo, Finch identifica iterativamente le coppie Chiave (K) e Valore (V) più rilevanti su porzioni del testo condizionate dal prompt. Solo queste coppie vengono memorizzate nella cache KV, che, all'interno dello spazio limitato dalla finestra di contesto, contiene alla fine una versione compressa del testo lungo. La nostra proposta consente ai modelli di elaborare input di grandi dimensioni anche con un elevato rapporto di compressione (fino a 93x) preservando l'integrità semantica senza la necessità di un ulteriore addestramento.

TurboEdit: Modifica di immagini basata su testo utilizzando modelli di diffusione a pochi passaggi
TurboEdit: Text-Based Image Editing Using Few-Step Diffusion Models

Aug 1

ByGilad Deutch, Rinon Gal, Daniel Garibi, Or Patashnik, Daniel Cohen-Or

I modelli di diffusione hanno aperto la strada a una vasta gamma di framework di editing di immagini basati su testo. Tuttavia, questi si basano tipicamente sulla natura multi-step del processo inverso di diffusione, e adattarli a metodi di campionamento rapido e distillati si è rivelato sorprendentemente impegnativo. In questo lavoro, ci concentriamo su una linea popolare di framework di editing basati su testo - l'approccio "edit-friendly" dell'inversione del rumore DDPM. Analizziamo la sua applicazione ai metodi di campionamento rapido e classifichiamo i suoi fallimenti in due categorie: la comparsa di artefatti visivi e l'insufficiente forza di editing. Rintracciamo gli artefatti in una mancata corrispondenza delle statistiche del rumore tra i rumori invertiti e il programma di rumore atteso, e suggeriamo un programma di rumore modificato che corregge questo scostamento. Per aumentare la forza di editing, proponiamo un approccio di pseudo-guidance che aumenta efficientemente l'entità delle modifiche senza introdurre nuovi artefatti. Nel complesso, il nostro metodo consente l'editing di immagini basato su testo con appena tre passi di diffusione, fornendo al contempo nuove intuizioni sui meccanismi alla base dei popolari approcci di editing basati su testo.

MM-Vet v2: Un Benchmark Impegnativo per Valutare le Capacità Integrate dei Modelli Multimodali di Grande Scala
MM-Vet v2: A Challenging Benchmark to Evaluate Large Multimodal Models for Integrated Capabilities

Aug 1

ByWeihao Yu, Zhengyuan Yang, Linfeng Ren, Linjie Li, Jianfeng Wang, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Lijuan Wang, Xinchao Wang

MM-Vet, con domande aperte di visione e linguaggio mirate a valutare capacità integrate, è diventato uno dei benchmark più popolari per la valutazione di modelli multimodali di grandi dimensioni. MM-Vet valuta sei capacità fondamentali di visione e linguaggio (VL): riconoscimento, conoscenza, consapevolezza spaziale, generazione del linguaggio, OCR e matematica. Tuttavia, il formato delle sue domande è limitato a coppie singole di immagine-testo, mancando delle sequenze intercalate di immagini e testo prevalenti negli scenari del mondo reale. Per affrontare questa limitazione, introduciamo MM-Vet v2, che include una nuova capacità VL chiamata "comprensione delle sequenze immagine-testo", valutando l'abilità dei modelli di elaborare sequenze VL. Inoltre, manteniamo l'alta qualità dei campioni di valutazione mentre espandiamo ulteriormente la dimensione del set di valutazione. Utilizzando MM-Vet v2 per valutare modelli multimodali di grandi dimensioni, abbiamo scoperto che Claude 3.5 Sonnet è il miglior modello con un punteggio di 71.8, superando leggermente GPT-4o che ha ottenuto 71.0. Tra i modelli open-weight, InternVL2-Llama3-76B è in testa con un punteggio di 68.4.

Reinterpretare Qualsiasi Cosa: Trasferimento Semantico del Movimento Video Utilizzando Inversione Movimento-Testuale
Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion

Aug 1

ByManuel Kansy, Jacek Naruniec, Christopher Schroers, Markus Gross, Romann M. Weber

Negli ultimi anni si è assistito a un notevole miglioramento nella qualità delle tecniche di generazione e modifica dei video. Mentre diverse metodologie si concentrano sulla modifica dell'aspetto, poche affrontano il movimento. Gli approcci attuali che utilizzano testo, traiettorie o bounding box sono limitati a movimenti semplici, pertanto noi specifichiamo i movimenti utilizzando un singolo video di riferimento per il movimento. Proponiamo inoltre di utilizzare un modello pre-addestrato da immagine a video piuttosto che un modello da testo a video. Questo approccio ci consente di preservare l'aspetto e la posizione esatti di un oggetto o di una scena target e aiuta a separare l'aspetto dal movimento. Il nostro metodo, chiamato inversione moto-testuale, sfrutta l'osservazione che i modelli da immagine a video estraggono principalmente l'aspetto dall'input (latente) dell'immagine, mentre l'embedding di testo/immagine iniettato tramite cross-attention controlla prevalentemente il movimento. Rappresentiamo quindi il movimento utilizzando token di embedding di testo/immagine. Operando su un embedding moto-testo espanso contenente più token di embedding di testo/immagine per fotogramma, otteniamo un'elevata granularità temporale del movimento. Una volta ottimizzato sul video di riferimento del movimento, questo embedding può essere applicato a varie immagini target per generare video con movimenti semanticamente simili. Il nostro approccio non richiede allineamento spaziale tra il video di riferimento del movimento e l'immagine target, si generalizza su vari domini e può essere applicato a diverse attività come il reenactment di corpo intero e volto, nonché al controllo del movimento di oggetti inanimati e della telecamera. Dimostriamo empiricamente l'efficacia del nostro metodo nel compito di trasferimento semantico del movimento video, superando significativamente i metodi esistenti in questo contesto.

UniTalker: Scalabilità dell'Animazione Facciale 3D Guidata dall'Audio attraverso un Modello Unificato
UniTalker: Scaling up Audio-Driven 3D Facial Animation through A Unified Model

Aug 1

ByXiangyu Fan, Jiaqi Li, Zhiqian Lin, Weiye Xiao, Lei Yang

L'animazione facciale 3D guidata dall'audio mira a mappare l'audio in ingresso a movimenti facciali realistici. Nonostante i progressi significativi, le limitazioni derivano da annotazioni 3D inconsistenti, costringendo i modelli precedenti a essere addestrati su annotazioni specifiche e limitando così la scala di addestramento. In questo lavoro, presentiamo UniTalker, un modello unificato dotato di un'architettura multi-testo progettata per sfruttare efficacemente dataset con annotazioni variate. Per migliorare la stabilità dell'addestramento e garantire la coerenza tra gli output multi-testo, impieghiamo tre strategie di addestramento: PCA, riscaldamento del modello e incorporamento dell'identità pivot. Per espandere la scala e la diversità dell'addestramento, abbiamo assemblato A2F-Bench, comprendente cinque dataset pubblicamente disponibili e tre nuovi dataset curati. Questi dataset coprono un'ampia gamma di domini audio, includendo voci multilingue e canzoni, aumentando così i dati di addestramento dai dataset comunemente utilizzati, tipicamente inferiori a 1 ora, a 18,5 ore. Con un singolo modello UniTalker addestrato, otteniamo riduzioni significative dell'errore dei vertici labiali del 9,2% per il dataset BIWI e del 13,7% per Vocaset. Inoltre, il modello UniTalker pre-addestrato si dimostra promettente come modello di base per le attività di animazione facciale guidata dall'audio. Il fine-tuning di UniTalker pre-addestrato su dataset visti migliora ulteriormente le prestazioni su ciascun dataset, con una riduzione media dell'errore del 6,3% su A2F-Bench. Inoltre, il fine-tuning di UniTalker su un dataset non visto con solo metà dei dati supera i precedenti modelli all'avanguardia addestrati sull'intero dataset. Il codice e il dataset sono disponibili alla pagina del progetto https://github.com/X-niper/UniTalker.

Le Code delle Code: Trascrizioni Capitolo per Capitolo di Manga con Nomi dei Personaggi
Tails Tell Tales: Chapter-Wide Manga Transcriptions with Character Names

Aug 1

ByRagav Sachdeva, Gyungin Shin, Andrew Zisserman

Abilitare l'accesso ai manga per le persone con disabilità visive rappresenta una sfida significativa a causa della loro natura intrinsecamente visiva. Con l'obiettivo di promuovere l'accessibilità, questo articolo mira a generare automaticamente una trascrizione del dialogo di un intero capitolo di manga, con un'enfasi particolare sul garantire la coerenza narrativa. Ciò implica identificare (i) ciò che viene detto, ovvero rilevare i testi su ogni pagina e classificarli come essenziali o non essenziali, e (ii) chi lo sta dicendo, ovvero attribuire ogni dialogo al suo parlante, assicurando che gli stessi personaggi siano nominati in modo coerente in tutto il capitolo. A tal fine, introduciamo: (i) Magiv2, un modello in grado di generare trascrizioni di manga di alta qualità a livello di capitolo con personaggi nominati e una precisione significativamente maggiore nella diarizzazione dei parlanti rispetto ai lavori precedenti; (ii) un'estensione del dataset di valutazione PopManga, che ora include annotazioni per le caselle delle code dei fumetti, associazioni del testo alle corrispondenti code, classificazioni del testo come essenziale o non essenziale e l'identità per ogni casella del personaggio; e (iii) un nuovo dataset di personaggi, che comprende oltre 11K personaggi provenienti da 76 serie di manga, con un totale di 11.5K immagini esemplari di personaggi, oltre a un elenco di capitoli in cui appaiono. Il codice, il modello addestrato e entrambi i dataset sono disponibili all'indirizzo: https://github.com/ragavsachdeva/magi

Guida Energetica Smussata: Orientare i Modelli di Diffusione con Ridotta Curvatura Energetica dell'Attenzione
Smoothed Energy Guidance: Guiding Diffusion Models with Reduced Energy Curvature of Attention

Aug 1

BySusung Hong

I modelli di diffusione condizionata hanno dimostrato un notevole successo nella generazione di contenuti visivi, producendo campioni di alta qualità in vari domini, principalmente grazie alla guida senza classificatore (CFG). I recenti tentativi di estendere la guida ai modelli non condizionati si sono basati su tecniche euristiche, risultando in una qualità di generazione subottimale e in effetti indesiderati. In questo lavoro, proponiamo la Guida Energetica Smussata (SEG), un approccio innovativo che non richiede addestramento né condizioni e sfrutta la prospettiva basata sull'energia del meccanismo di self-attention per migliorare la generazione di immagini. Definendo l'energia del self-attention, introduciamo un metodo per ridurre la curvatura del paesaggio energetico dell'attenzione e utilizziamo l'output come previsione non condizionata. Praticamente, controlliamo la curvatura del paesaggio energetico regolando il parametro del kernel gaussiano mentre manteniamo fisso il parametro della scala di guida. Inoltre, presentiamo un metodo di sfocatura delle query che equivale a sfocare l'intero peso dell'attenzione senza incorrere in una complessità quadratica nel numero di token. Nei nostri esperimenti, SEG ottiene un miglioramento di Pareto sia nella qualità che nella riduzione degli effetti collaterali. Il codice è disponibile all'indirizzo https://github.com/SusungHong/SEG-SDXL.

Non Verbis, Sed Rebus: I Modelli Linguistici di Grandi Dimensioni sono Risolutori Deboli dei Rebus Italiani
Non Verbis, Sed Rebus: Large Language Models are Weak Solvers of Italian Rebuses

Aug 1

ByGabriele Sarti, Tommaso Caselli, Malvina Nissim, Arianna Bisazza

I rebus sono enigmi che richiedono un ragionamento vincolato e multi-step per identificare una frase nascosta a partire da un insieme di immagini e lettere. In questo lavoro, introduciamo una vasta raccolta di rebus verbalizzati per la lingua italiana e la utilizziamo per valutare le capacità di risoluzione dei rebus dei modelli linguistici di ultima generazione. Mentre sistemi generalisti come LLaMA-3 e GPT-4o ottengono scarsi risultati in questo compito, un fine-tuning ad hoc sembra migliorare le prestazioni dei modelli. Tuttavia, osserviamo che i guadagni di performance ottenuti con l'addestramento sono in gran parte motivati dalla memorizzazione. I nostri risultati suggeriscono che la risoluzione dei rebus rimane un banco di prova impegnativo per valutare la competenza linguistica e le capacità di seguire istruzioni sequenziali dei modelli linguistici di grandi dimensioni.

Rilevamento Generalizzato delle Distribuzioni Fuori Campione e Oltre nell'Era dei Modelli di Visione e Linguaggio: Una Rassegna
Generalized Out-of-Distribution Detection and Beyond in Vision Language Model Era: A Survey

Jul 31

ByAtsuyuki Miyai, Jingkang Yang, Jingyang Zhang, Yifei Ming, Yueqian Lin, Qing Yu, Go Irie, Shafiq Joty, Yixuan Li, Hai Li, Ziwei Liu, Toshihiko Yamasaki, Kiyoharu Aizawa

Il rilevamento di campioni fuori distribuzione (out-of-distribution, OOD) è cruciale per garantire la sicurezza dei sistemi di apprendimento automatico e ha plasmato il campo del rilevamento OOD. Nel frattempo, diversi altri problemi sono strettamente correlati al rilevamento OOD, tra cui il rilevamento di anomalie (anomaly detection, AD), il rilevamento di novità (novelty detection, ND), il riconoscimento in contesti aperti (open set recognition, OSR) e il rilevamento di outlier (outlier detection, OD). Per unificare questi problemi, è stato proposto un framework generalizzato di rilevamento OOD, che categorizza tassonomicamente questi cinque problemi. Tuttavia, i modelli visione-linguaggio (Vision Language Models, VLMs) come CLIP hanno significativamente cambiato il paradigma e sfumato i confini tra questi campi, confondendo nuovamente i ricercatori. In questo survey, presentiamo innanzitutto una versione generalizzata del rilevamento OOD v2, che racchiude l'evoluzione di AD, ND, OSR, rilevamento OOD e OD nell'era dei VLMs. Il nostro framework rivela che, con una certa inattività e integrazione tra i campi, le sfide più pressanti sono diventate il rilevamento OOD e AD. Inoltre, evidenziamo anche il significativo cambiamento nella definizione, nelle impostazioni dei problemi e nei benchmark; presentiamo quindi una revisione completa della metodologia per il rilevamento OOD, inclusa una discussione su altri compiti correlati per chiarire la loro relazione con il rilevamento OOD. Infine, esploriamo i progressi nell'emergente era dei grandi modelli visione-linguaggio (Large Vision Language Models, LVLM), come GPT-4V. Concludiamo questo survey con le sfide aperte e le direzioni future.

Riassunto del discorso frase per frase: Task, dataset e modellazione end-to-end con distillazione della conoscenza da modelli linguistici
Sentence-wise Speech Summarization: Task, Datasets, and End-to-End Modeling with LM Knowledge Distillation

Aug 1

ByKohei Matsuura, Takanori Ashihara, Takafumi Moriya, Masato Mimura, Takatomo Kano, Atsunori Ogawa, Marc Delcroix

Questo articolo introduce un approccio innovativo chiamato riassunto del parlato frase per frase (Sen-SSum), che genera riassunti testuali da un documento parlato in modo frase per frase. Sen-SSum combina l'elaborazione in tempo reale del riconoscimento automatico del parlato (ASR) con la concisione del riassunto del parlato. Per esplorare questo approccio, presentiamo due dataset per Sen-SSum: Mega-SSum e CSJ-SSum. Utilizzando questi dataset, il nostro studio valuta due tipi di modelli basati su Transformer: 1) modelli a cascata che combinano ASR e modelli avanzati di riassunto testuale, e 2) modelli end-to-end (E2E) che convertono direttamente il parlato in un riassunto testuale. Sebbene i modelli E2E siano attraenti per sviluppare modelli efficienti dal punto di vista computazionale, essi performano peggio rispetto ai modelli a cascata. Pertanto, proponiamo la distillazione della conoscenza per i modelli E2E utilizzando pseudo-riassunti generati dai modelli a cascata. I nostri esperimenti dimostrano che questa distillazione della conoscenza proposta migliora efficacemente le prestazioni del modello E2E su entrambi i dataset.

Migliorare la Comprensione della Somiglianza Semantica nell'NLP Arabo con l'Apprendimento di Embedding Annidati
Enhancing Semantic Similarity Understanding in Arabic NLP with Nested Embedding Learning

Jul 30

ByOmer Nacar, Anis Koubaa

Questo lavoro presenta un nuovo framework per l'addestramento di modelli di embedding nidificati per l'arabo attraverso il Matryoshka Embedding Learning, sfruttando modelli multilingue, specifici per l'arabo e basati sull'inglese, per evidenziare la potenza dei modelli di embedding nidificati in varie attività downstream di NLP arabo. Il nostro contributo innovativo include la traduzione di vari dataset di similarità frasale in arabo, consentendo un framework di valutazione completo per confrontare questi modelli su diverse dimensioni. Abbiamo addestrato diversi modelli di embedding nidificati sul dataset di triplette di inferenza del linguaggio naturale arabo e abbiamo valutato le loro prestazioni utilizzando molteplici metriche di valutazione, tra cui le correlazioni di Pearson e Spearman per la similarità del coseno, la distanza di Manhattan, la distanza euclidea e la similarità del prodotto scalare. I risultati dimostrano la prestazione superiore dei modelli di embedding Matryoshka, in particolare nella cattura delle sfumature semantiche uniche della lingua araba. I risultati hanno dimostrato che i modelli di embedding Matryoshka per l'arabo hanno prestazioni superiori nella cattura delle sfumature semantiche uniche della lingua araba, superando significativamente i modelli tradizionali fino al 20-25% su varie metriche di similarità. Questi risultati sottolineano l'efficacia dell'addestramento specifico per lingua e evidenziano il potenziale dei modelli Matryoshka nel migliorare le attività di similarità semantica testuale per l'NLP arabo.

Gemma 2: Miglioramento dei Modelli Linguistici Aperti in una Dimensione Pratica
Gemma 2: Improving Open Language Models at a Practical Size

Jul 31