HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

21 papers found

XLand-100B: Un Dataset Su Larga Scala per l'Apprendimento per Rinforzo in Contesto Multi-Task
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning

Jun 13

ByAlexander Nikulin, Ilya Zisman, Alexey Zemtsov, Viacheslav Sinii, Vladislav Kurenkov, Sergey Kolesnikov

In seguito al successo del paradigma di apprendimento in-context nei modelli su larga scala per il linguaggio e la visione artificiale, il campo emergente dell'apprendimento per rinforzo in-context sta vivendo una rapida crescita. Tuttavia, il suo sviluppo è stato frenato dalla mancanza di benchmark impegnativi, poiché tutti gli esperimenti sono stati condotti in ambienti semplici e su dataset di piccole dimensioni. Presentiamo XLand-100B, un dataset su larga scala per l'apprendimento per rinforzo in-context basato sull'ambiente XLand-MiniGrid, come primo passo per alleviare questo problema. Contiene storie di apprendimento complete per quasi 30.000 task diversi, coprendo 100 miliardi di transizioni e 2,5 miliardi di episodi. La raccolta del dataset ha richiesto 50.000 ore di GPU, un impegno che va oltre le possibilità della maggior parte dei laboratori accademici. Insieme al dataset, forniamo gli strumenti per riprodurlo o espanderlo ulteriormente. Con questo sforzo significativo, miriamo a democratizzare la ricerca nel campo in rapida crescita dell'apprendimento per rinforzo in-context e a fornire una solida base per ulteriori scalabilità. Il codice è open-source e disponibile con licenza Apache 2.0 all'indirizzo https://github.com/dunno-lab/xland-minigrid-datasets.

Rendilo Contare: Generazione di Immagini da Testo con un Numero Preciso di Oggetti
Make It Count: Text-to-Image Generation with an Accurate Number of Objects

Jun 14

ByLital Binyamin, Yoad Tewel, Hilit Segev, Eran Hirsch, Royi Rassin, Gal Chechik

Nonostante il successo senza precedenti dei modelli di diffusione testo-immagine, controllare il numero di oggetti rappresentati utilizzando il testo è sorprendentemente difficile. Questo aspetto è importante per varie applicazioni, dai documenti tecnici ai libri per bambini fino all'illustrazione di ricette di cucina. Generare conteggi corretti degli oggetti è fondamentalmente impegnativo perché il modello generativo deve mantenere un senso di identità separata per ogni istanza dell'oggetto, anche se diversi oggetti appaiono identici o si sovrappongono, e poi eseguire implicitamente un calcolo globale durante la generazione. Non è ancora noto se tali rappresentazioni esistano. Per affrontare la generazione con conteggi corretti, identifichiamo prima le caratteristiche all'interno del modello di diffusione che possono trasportare le informazioni sull'identità degli oggetti. Le utilizziamo quindi per separare e contare le istanze degli oggetti durante il processo di denoising e rilevare la sovra-generazione e la sotto-generazione. Correggiamo quest'ultima addestrando un modello che prevede sia la forma che la posizione di un oggetto mancante, basandosi sul layout di quelli esistenti, e mostriamo come può essere utilizzato per guidare il denoising con il conteggio corretto degli oggetti. Il nostro approccio, CountGen, non dipende da fonti esterne per determinare il layout degli oggetti, ma utilizza invece il prior del modello di diffusione stesso, creando layout dipendenti dal prompt e dal seed. Valutato su due dataset di benchmark, scopriamo che CountGen supera nettamente l'accuratezza del conteggio delle baseline esistenti.

ChartMimic: Valutazione delle Capacità di Ragionamento Cross-Modale degli LMM tramite Generazione da Grafici a Codice
ChartMimic: Evaluating LMM's Cross-Modal Reasoning Capability via Chart-to-Code Generation

Jun 14

ByChufan Shi, Cheng Yang, Yaxin Liu, Bo Shui, Junjie Wang, Mohan Jing, Linran Xu, Xinyu Zhu, Siheng Li, Yuxiang Zhang, Gongye Liu, Xiaomei Nie, Deng Cai, Yujiu Yang

Introduciamo un nuovo benchmark, ChartMimic, progettato per valutare le capacità di generazione di codice basate su input visivi dei grandi modelli multimodali (LMM). ChartMimic utilizza grafici visivi ricchi di informazioni e istruzioni testuali come input, richiedendo agli LMM di generare il codice corrispondente per il rendering dei grafici. ChartMimic include 1.000 triplette (figura, istruzione, codice) curate manualmente, che rappresentano casi d'uso autentici di grafici presenti in articoli scientifici di vari ambiti (ad esempio, Fisica, Informatica, Economia, ecc.). Questi grafici coprono 18 tipi regolari e 4 tipi avanzati, diversificandosi in 191 sottocategorie. Inoltre, proponiamo metriche di valutazione multilivello per fornire una valutazione automatica e approfondita del codice generato e dei grafici renderizzati. A differenza degli attuali benchmark per la generazione di codice, ChartMimic si concentra sulla valutazione della capacità degli LMM di armonizzare un insieme di abilità cognitive, tra cui comprensione visiva, generazione di codice e ragionamento cross-modale. La valutazione di 3 modelli proprietari e 11 modelli open-weight evidenzia le sfide significative poste da ChartMimic. Anche i modelli avanzati come GPT-4V e Claude-3-opus raggiungono rispettivamente un punteggio medio di 73,2 e 53,7, indicando un ampio margine di miglioramento. Ci auguriamo che ChartMimic ispiri lo sviluppo degli LMM, contribuendo al progresso verso l'intelligenza artificiale generale.

Ago In Un Pagliaio Multimodale
Needle In A Multimodal Haystack

Jun 11

ByWeiyun Wang, Shuibo Zhang, Yiming Ren, Yuchen Duan, Tiantong Li, Shuo Liu, Mengkang Hu, Zhe Chen, Kaipeng Zhang, Lewei Lu, Xizhou Zhu, Ping Luo, Yu Qiao, Jifeng Dai, Wenqi Shao, Wenhai Wang

Con il rapido progresso dei modelli linguistici multimodali di grandi dimensioni (MLLM), la loro valutazione è diventata sempre più completa. Tuttavia, la comprensione di contenuti multimodali lunghi, come abilità fondamentale per applicazioni nel mondo reale, rimane ancora poco esplorata. In questo lavoro, presentiamo Needle In A Multimodal Haystack (MM-NIAH), il primo benchmark specificamente progettato per valutare sistematicamente la capacità degli MLLM esistenti di comprendere documenti multimodali lunghi. Il nostro benchmark include tre tipi di compiti di valutazione: recupero multimodale, conteggio e ragionamento. In ciascun compito, il modello è tenuto a rispondere alle domande in base a diverse informazioni chiave sparse all'interno del documento multimodale fornito. Valutando i principali MLLM su MM-NIAH, osserviamo che i modelli esistenti hanno ancora un margine di miglioramento significativo in questi compiti, specialmente nella valutazione centrata sulla visione. Speriamo che questo lavoro possa fornire una piattaforma per ulteriori ricerche sulla comprensione di documenti multimodali lunghi e contribuire all'avanzamento degli MLLM. Il codice e il benchmark sono rilasciati all'indirizzo https://github.com/OpenGVLab/MM-NIAH.

BABILong: Testare i limiti degli LLM con il ragionamento in contesti lunghi Ragionamento-in-un-pagliaio
BABILong: Testing the Limits of LLMs with Long Context Reasoning-in-a-Haystack

Jun 14

ByYuri Kuratov, Aydar Bulatov, Petr Anokhin, Ivan Rodkin, Dmitry Sorokin, Artyom Sorokin, Mikhail Burtsev

Negli ultimi anni, le dimensioni del contesto di input dei grandi modelli linguistici (LLM) sono aumentate in modo significativo. Tuttavia, i metodi di valutazione esistenti non hanno tenuto il passo, fallendo nel valutare in modo completo l'efficienza dei modelli nel gestire contesti lunghi. Per colmare questa lacuna, introduciamo il benchmark BABILong, progettato per testare la capacità dei modelli linguistici di ragionare su fatti distribuiti in documenti estremamente lunghi. BABILong include un insieme diversificato di 20 task di ragionamento, tra cui concatenazione di fatti, induzione semplice, deduzione, conteggio e gestione di liste/insiemi. Questi task sono già di per sé impegnativi e diventano ancora più complessi quando i fatti necessari sono sparsi in lunghi testi naturali. Le nostre valutazioni mostrano che i LLM più diffusi utilizzano efficacemente solo il 10-20% del contesto e le loro prestazioni diminuiscono drasticamente con l'aumentare della complessità del ragionamento. Tra le alternative al ragionamento in-context, i metodi di Generazione Aumentata con Recupero (Retrieval-Augmented Generation) raggiungono una modesta accuratezza del 60% nel rispondere a domande su singoli fatti, indipendentemente dalla lunghezza del contesto. Tra i metodi di estensione del contesto, le prestazioni più elevate sono dimostrate dai trasformatori con memoria ricorrente, che consentono di elaborare lunghezze fino a 11 milioni di token. Il benchmark BABILong è estendibile a qualsiasi lunghezza per supportare la valutazione di nuovi modelli con capacità aumentate, e forniamo suddivisioni fino a lunghezze di 1 milione di token.

SEACrowd: Un Hub di Dati Multilingue e Multimodale e una Suite di Benchmark per le Lingue del Sudest Asiatico
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14

ByHoly Lovenia, Rahmad Mahendra, Salsabil Maulana Akbar, Lester James V. Miranda, Jennifer Santoso, Elyanah Aco, Akhdan Fadhilah, Jonibek Mansurov, Joseph Marvin Imperial, Onno P. Kampman, Joel Ruben Antony Moniz, Muhammad Ravi Shulthan Habibi, Frederikus Hudi, Railey Montalan, Ryan Ignatius, Joanito Agili Lopo, William Nixon, Börje F. Karlsson, James Jaya, Ryandito Diandaru, Yuze Gao, Patrick Amadeus, Bin Wang, Jan Christian Blaise Cruz, Chenxi Whitehouse, Ivan Halim Parmonangan, Maria Khelli, Wenyu Zhang, Lucky Susanto, Reynard Adha Ryanda, Sonny Lazuardi Hermawan, Dan John Velasco, Muhammad Dehan Al Kautsar, Willy Fitra Hendria, Yasmin Moslem, Noah Flynn, Muhammad Farid Adilazuarda, Haochen Li, Johanes Lee, R. Damanhuri, Shuo Sun, Muhammad Reza Qorib, Amirbek Djanibekov, Wei Qi Leong, Quyet V. Do, Niklas Muennighoff, Tanrada Pansuwan, Ilham Firdausi Putra, Yan Xu, Ngee Chia Tai, Ayu Purwarianti, Sebastian Ruder, William Tjhi, Peerat Limkonchotiwat, Alham Fikri Aji, Sedrick Keh, Genta Indra Winata, Ruochen Zhang, Fajri Koto, Zheng-Xin Yong, Samuel Cahyawijaya

Il Sud-est asiatico (SEA) è una regione ricca di diversità linguistica e varietà culturale, con oltre 1.300 lingue indigene e una popolazione di 671 milioni di persone. Tuttavia, i modelli di intelligenza artificiale (AI) prevalenti soffrono di una significativa mancanza di rappresentazione di testi, immagini e dataset audio provenienti dal SEA, compromettendo la qualità dei modelli di AI per le lingue di questa regione. Valutare i modelli per le lingue del SEA è impegnativo a causa della scarsità di dataset di alta qualità, aggravata dal predominio dei dati di addestramento in inglese, sollevando preoccupazioni riguardo a potenziali rappresentazioni culturali errate. Per affrontare queste sfide, introduciamo SEACrowd, un'iniziativa collaborativa che consolida un hub di risorse completo, colmando il divario di risorse fornendo corpora standardizzati in quasi 1.000 lingue del SEA attraverso tre modalità. Attraverso i nostri benchmark SEACrowd, valutiamo la qualità dei modelli di AI su 36 lingue indigene in 13 task, offrendo preziose intuizioni sull'attuale panorama dell'AI nel SEA. Inoltre, proponiamo strategie per facilitare maggiori progressi nell'AI, massimizzando l'utilità potenziale e l'equità delle risorse per il futuro dell'AI nel SEA.

OmniCorpus: Un Corpus Multimodale Unificato di 10 Miliardi di Immagini Intervallate da Testo
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text

Jun 12

ByQingyun Li, Zhe Chen, Weiyun Wang, Wenhai Wang, Shenglong Ye, Zhenjiang Jin, Guanzhou Chen, Yinan He, Zhangwei Gao, Erfei Cui, Jiashuo Yu, Hao Tian, Jiasheng Zhou, Chao Xu, Bin Wang, Xingjian Wei, Wei Li, Wenjian Zhang, Bo Zhang, Pinlong Cai, Licheng Wen, Xiangchao Yan, Zhenxiang Li, Pei Chu, Yi Wang, Min Dou, Changyao Tian, Xizhou Zhu, Lewei Lu, Yushi Chen, Junjun He, Zhongying Tu, Tong Lu, Yali Wang, Limin Wang, Dahua Lin, Yu Qiao, Botian Shi, Conghui He, Jifeng Dai

I dati intervallati immagine-testo, composti da più immagini e testi disposti in un formato documentale naturale, si allineano con il paradigma di presentazione dei dati su internet e si avvicinano molto alle abitudini di lettura umana. Studi recenti hanno dimostrato che tali dati favoriscono l'apprendimento multimodale in contesto e mantengono le capacità dei grandi modelli linguistici durante la messa a punto multimodale. Tuttavia, la scala limitata e la scarsa diversità degli attuali dati intervallati immagine-testo ostacolano lo sviluppo di grandi modelli linguistici multimodali. In questo articolo, presentiamo OmniCorpus, un dataset intervallato immagine-testo su scala di 10 miliardi. Utilizzando un motore di dati efficiente, filtriamo ed estraiamo documenti di alta qualità su larga scala, che contengono 8,6 miliardi di immagini e 1.696 miliardi di token di testo. Rispetto alle controparti (ad esempio, MMC4, OBELICS), il nostro dataset 1) ha una scala 15 volte maggiore mantenendo una buona qualità dei dati; 2) presenta fonti più diversificate, inclusi siti web in inglese e non in inglese, nonché siti web incentrati sui video; 3) è più flessibile, facilmente degradabile da un formato intervallato immagine-testo a un corpus di testo puro e coppie immagine-testo. Attraverso un'analisi e sperimentazioni complete, convalidiamo la qualità, l'usabilità e l'efficacia del dataset proposto. Speriamo che questo possa fornire una solida base di dati per la futura ricerca sui modelli multimodali. Codice e dati sono rilasciati su https://github.com/OpenGVLab/OmniCorpus.

GUI Odyssey: Un Dataset Completo per la Navigazione Inter-App su Interfacce Grafiche su Dispositivi Mobili
GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices

Jun 12

ByQuanfeng Lu, Wenqi Shao, Zitao Liu, Fanqing Meng, Boxuan Li, Botong Chen, Siyuan Huang, Kaipeng Zhang, Yu Qiao, Ping Luo

Gli utenti di smartphone spesso navigano tra più applicazioni (app) per completare attività come la condivisione di contenuti tra piattaforme di social media. Gli agenti autonomi di navigazione dell'interfaccia grafica utente (GUI) possono migliorare l'esperienza dell'utente in ambiti come la comunicazione, l'intrattenimento e la produttività, semplificando i flussi di lavoro e riducendo l'intervento manuale. Tuttavia, i precedenti agenti GUI sono spesso stati addestrati con dataset composti da attività semplici che possono essere completate all'interno di una singola app, portando a scarse prestazioni nella navigazione tra app. Per affrontare questo problema, introduciamo GUI Odyssey, un dataset completo per l'addestramento e la valutazione di agenti di navigazione tra app. GUI Odyssey è composto da 7.735 episodi provenienti da 6 dispositivi mobili, che coprono 6 tipi di attività tra app, 201 app e 1.4K combinazioni di app. Utilizzando GUI Odyssey, abbiamo sviluppato OdysseyAgent, un agente di navigazione tra app multimodale, ottimizzando il modello Qwen-VL con un modulo di ricampionamento della cronologia. Esperimenti estensivi dimostrano la superiorità di OdysseyAgent in termini di accuratezza rispetto ai modelli esistenti. Ad esempio, OdysseyAgent supera Qwen-VL ottimizzato e GPT-4V zero-shot rispettivamente del 1,44% e 55,49% in accuratezza in-domain, e del 2,29% e 48,14% in accuratezza out-of-domain, in media. Il dataset e il codice saranno rilasciati su https://github.com/OpenGVLab/GUI-Odyssey.

Glyph-ByT5-v2: Una Solida Baseline Estetica per il Rendering Precise del Testo Visivo Multilingue
Glyph-ByT5-v2: A Strong Aesthetic Baseline for Accurate Multilingual Visual Text Rendering

Jun 14

ByZeyu Liu, Weicong Liang, Yiming Zhao, Bohan Chen, Ji Li, Yuhui Yuan

Recentemente, Glyph-ByT5 ha ottenuto prestazioni altamente accurate nel rendering visivo del testo nelle immagini di design grafico. Tuttavia, si concentra ancora esclusivamente sull'inglese e presenta risultati relativamente scarsi in termini di appeal visivo. In questo lavoro, affrontiamo queste due limitazioni fondamentali presentando Glyph-ByT5-v2 e Glyph-SDXL-v2, che non solo supportano un rendering visivo accurato del testo per 10 lingue diverse, ma raggiungono anche una qualità estetica molto migliore. Per ottenere ciò, apportiamo i seguenti contributi: (i) creazione di un dataset multilingue di alta qualità composto da coppie glyph-testo e immagini di design grafico, con oltre 1 milione di coppie glyph-testo e 10 milioni di coppie immagine-testo che coprono altre nove lingue, (ii) costruzione di un benchmark multilingue per paragrafi visivi composto da 1.000 prompt, con 100 per ciascuna lingua, per valutare l'accuratezza ortografica visiva multilingue, e (iii) utilizzo del più recente approccio di apprendimento delle preferenze step-aware per migliorare la qualità estetica visiva. Combinando queste tecniche, forniamo un potente codificatore di testo personalizzato multilingue, Glyph-ByT5-v2, e un robusto modello di generazione grafica estetica, Glyph-SDXL-v2, in grado di supportare un'ortografia accurata in 10 lingue diverse. Consideriamo il nostro lavoro un progresso significativo, dato che i più recenti DALL-E3 e Ideogram 1.0 continuano a incontrare difficoltà nel compito di rendering visivo del testo multilingue.

GEB-1.3B: Modello Linguistico Leggero e Aperto di Grandi Dimensioni
GEB-1.3B: Open Lightweight Large Language Model

Jun 14

ByJie Wu, Yufeng Zhu, Lei Shen, Xuqing Lu

I modelli linguistici di grandi dimensioni (LLM) sviluppati di recente, come ChatGPT, Claude e Llama, hanno dimostrato capacità impressionanti, superando persino le prestazioni umane in diversi compiti. Nonostante il loro successo, le esigenze intensive di risorse di questi modelli, che richiedono una potenza computazionale significativa sia per l'addestramento che per l'inferenza, ne limitano l'implementazione a server ad alte prestazioni. Inoltre, i requisiti di calcolo estesi dei modelli spesso portano a un aumento della latenza nei tempi di risposta. Con la crescente necessità che gli LLM operino in modo efficiente sulle CPU, è emersa la ricerca su modelli leggeri ottimizzati per l'inferenza su CPU. In questo lavoro, presentiamo GEB-1.3B, un LLM leggero addestrato su 550 miliardi di token in lingue cinese e inglese. Utilizziamo tecniche di addestramento innovative, tra cui ROPE, Group-Query-Attention e FlashAttention-2, per accelerare l'addestramento mantenendo le prestazioni del modello. Inoltre, ottimizziamo il modello utilizzando 10 milioni di campioni di dati di istruzione per migliorare l'allineamento. GEB-1.3B mostra prestazioni eccezionali su benchmark generali come MMLU, C-Eval e CMMLU, superando modelli comparabili come MindLLM-1.3B e TinyLLaMA-1.1B. In particolare, la versione FP32 di GEB-1.3B raggiunge tempi di inferenza notevoli sulle CPU, con sforzi in corso per migliorare ulteriormente la velocità attraverso tecniche avanzate di quantizzazione. Il rilascio di GEB-1.3B come modello open-source rappresenta un contributo significativo allo sviluppo di LLM leggeri, promettendo di favorire ulteriori ricerche e innovazioni nel campo.

Controllo della telecamera senza addestramento per la generazione di video
Training-free Camera Control for Video Generation

Jun 14

ByChen Hou, Guoqiang Wei, Yan Zeng, Zhibo Chen

Proponiamo una soluzione robusta e senza addestramento per offrire il controllo del movimento della fotocamera a modelli di diffusione video preesistenti. A differenza dei lavori precedenti, il nostro metodo non richiede alcuna messa a punto supervisionata su dataset annotati con informazioni sulla fotocamera o addestramento auto-supervisionato tramite aumento dei dati. Invece, può essere integrato e utilizzato con la maggior parte dei modelli di diffusione video preaddestrati, generando video con controllo della fotocamera utilizzando una singola immagine o un prompt testuale come input. L'ispirazione del nostro lavoro deriva dal prior di layout che i latenti intermedi mantengono verso i risultati generati, pertanto riorganizzare i pixel rumorosi in essi porterà anche a una riallocazione del contenuto in uscita. Poiché il movimento della fotocamera può essere visto come una sorta di riorganizzazione dei pixel causata da un cambiamento di prospettiva, i video potrebbero essere riorganizzati seguendo un movimento specifico della fotocamera se i loro latenti rumorosi cambiano di conseguenza. Basandoci su questo, proponiamo il nostro metodo CamTrol, che abilita un robusto controllo della fotocamera per i modelli di diffusione video. Questo è ottenuto attraverso un processo in due fasi. In primo luogo, modelliamo la riorganizzazione del layout dell'immagine attraverso un movimento esplicito della fotocamera nello spazio delle nuvole di punti 3D. In secondo luogo, generiamo video con movimento della fotocamera utilizzando il prior di layout dei latenti rumorosi formati da una serie di immagini riorganizzate. Esperimenti estensivi hanno dimostrato la robustezza del nostro metodo nel controllare il movimento della fotocamera nei video generati. Inoltre, mostriamo che il nostro metodo può produrre risultati impressionanti nella generazione di video con rotazione 3D e contenuto dinamico. Pagina del progetto all'indirizzo https://lifedecoder.github.io/CamTrol/.

Progettazione di un Dashboard per Trasparenza e Controllo dell'Intelligenza Artificiale Conversazionale
Designing a Dashboard for Transparency and Control of Conversational AI

Jun 12

ByYida Chen, Aoyu Wu, Trevor DePodesta, Catherine Yeh, Kenneth Li, Nicholas Castillo Marin, Oam Patel, Jan Riecke, Shivam Raval, Olivia Seow, Martin Wattenberg, Fernanda Viégas

I modelli linguistici conversazionali (LLM) funzionano come sistemi a scatola chiusa, lasciando gli utenti a supporre il motivo per cui ottengono determinati output. Questa mancanza di trasparenza è potenzialmente problematica, soprattutto considerando le preoccupazioni riguardanti i pregiudizi e l'affidabilità. Per affrontare questo problema, presentiamo un prototipo end-to-end che collega tecniche di interpretabilità al design dell'esperienza utente, con l'obiettivo di rendere i chatbot più trasparenti. Iniziamo mostrando evidenze che un noto LLM open-source possiede un "modello utente": esaminando lo stato interno del sistema, è possibile estrarre dati relativi all'età, al genere, al livello di istruzione e allo status socioeconomico dell'utente. Successivamente, descriviamo il design di una dashboard che accompagna l'interfaccia del chatbot, visualizzando questo modello utente in tempo reale. La dashboard può anche essere utilizzata per controllare il modello utente e il comportamento del sistema. Infine, discutiamo uno studio in cui gli utenti hanno interagito con il sistema strumentato. I nostri risultati suggeriscono che gli utenti apprezzano la visualizzazione degli stati interni, che li ha aiutati a identificare comportamenti pregiudizievoli e ha aumentato il loro senso di controllo. I partecipanti hanno anche fornito suggerimenti preziosi che indicano direzioni future sia per il design che per la ricerca nel campo dell'apprendimento automatico. La pagina del progetto e la demo video del nostro sistema TalkTuner sono disponibili all'indirizzo https://bit.ly/talktuner-project-page.

Ripensare il protocollo di valutazione umana per i modelli di generazione video da testo: migliorare affidabilità, riproducibilità e praticità
Rethinking Human Evaluation Protocol for Text-to-Video Models: Enhancing Reliability,Reproducibility, and Practicality

Jun 13

ByTianle Zhang, Langtian Ma, Yuchen Yan, Yuchen Zhang, Kai Wang, Yue Yang, Ziyao Guo, Wenqi Shao, Yang You, Yu Qiao, Ping Luo, Kaipeng Zhang

I recenti progressi nella tecnologia di generazione video da testo (Text-to-Video, T2V), dimostrati da modelli come Gen2, Pika e Sora, hanno ampliato significativamente la loro applicabilità e popolarità. Nonostante questi passi avanti, la valutazione di questi modelli presenta sfide sostanziali. Principalmente, a causa delle limitazioni intrinseche delle metriche automatiche, la valutazione manuale è spesso considerata un metodo superiore per valutare la generazione T2V. Tuttavia, i protocolli di valutazione manuale esistenti affrontano problemi di riproducibilità, affidabilità e praticità. Per affrontare queste sfide, questo articolo introduce il protocollo di valutazione umana per la generazione video da testo (Text-to-Video Human Evaluation, T2VHE), un protocollo completo e standardizzato per i modelli T2V. Il protocollo T2VHE include metriche ben definite, una formazione approfondita degli annotatori e un modulo di valutazione dinamica efficace. I risultati sperimentali dimostrano che questo protocollo non solo garantisce annotazioni di alta qualità, ma può anche ridurre i costi di valutazione di quasi il 50%. Renderemo open-source l'intera configurazione del protocollo T2VHE, inclusi il flusso di lavoro completo del protocollo, i dettagli del componente di valutazione dinamica e il codice dell'interfaccia di annotazione. Questo aiuterà le comunità a stabilire protocolli di valutazione umana più sofisticati.

VideoGUI: Un Benchmark per l'Automazione delle GUI da Video Istruttivi
VideoGUI: A Benchmark for GUI Automation from Instructional Videos

Jun 14

ByKevin Qinghong Lin, Linjie Li, Difei Gao, Qinchen WU, Mingyi Yan, Zhengyuan Yang, Lijuan Wang, Mike Zheng Shou

L'automazione delle interfacce grafiche (GUI) rappresenta una promessa significativa per migliorare la produttività umana assistendo nelle attività informatiche. Le formulazioni di compiti esistenti si concentrano principalmente su attività semplici che possono essere specificate da una singola istruzione testuale, come "Inserisci una nuova diapositiva". In questo lavoro, introduciamo VideoGUI, un nuovo benchmark multimodale progettato per valutare gli assistenti GUI su compiti visivo-centrici. Basato su video didattici di alta qualità disponibili sul web, il nostro benchmark si concentra su attività che coinvolgono software professionali e innovativi (ad esempio, Adobe Photoshop o Stable Diffusion WebUI) e attività complesse (ad esempio, l'editing video). VideoGUI valuta gli assistenti GUI attraverso un processo gerarchico, consentendo l'identificazione dei livelli specifici in cui potrebbero fallire: (i) pianificazione di alto livello: ricostruire sottotask procedurali da condizioni visive senza descrizioni testuali; (ii) pianificazione di medio livello: generare sequenze di azioni precise basate sullo stato visivo (ad esempio, screenshot) e sugli obiettivi; (iii) esecuzione di azioni atomiche: eseguire azioni specifiche come cliccare accuratamente su elementi designati. Per ogni livello, progettiamo metriche di valutazione su dimensioni individuali per fornire segnali chiari, come le prestazioni individuali nel cliccare, trascinare, digitare e scorrere per l'esecuzione di azioni atomiche. La nostra valutazione su VideoGUI rivela che anche il modello multimodale all'avanguardia GPT4o ha prestazioni scarse nei compiti visivo-centrici, specialmente nella pianificazione di alto livello.

Sii come un pesce rosso, non memorizzare! Mitigare la memorizzazione nei modelli linguistici generativi di grandi dimensioni
Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs

Jun 14

ByAbhimanyu Hans, Yuxin Wen, Neel Jain, John Kirchenbauer, Hamid Kazemi, Prajwal Singhania, Siddharth Singh, Gowthami Somepalli, Jonas Geiping, Abhinav Bhatele, Tom Goldstein

I grandi modelli linguistici possono memorizzare e ripetere i loro dati di addestramento, causando rischi per la privacy e il copyright. Per mitigare la memorizzazione, introduciamo una sottile modifica all'obiettivo di addestramento del token successivo che chiamiamo goldfish loss. Durante l'addestramento, un sottoinsieme casuale di token viene escluso dal calcolo della loss. Questi token esclusi non vengono memorizzati dal modello, il che impedisce la riproduzione letterale di una catena completa di token dal set di addestramento. Eseguiamo ampi esperimenti addestrando modelli Llama-2 su scala miliardaria, sia pre-addestrati che addestrati da zero, e dimostriamo riduzioni significative nella memorizzazione estraibile con un impatto minimo o nullo sui benchmark a valle.

Vivid-ZOO: Generazione di Video Multi-Vista con Modelli di Diffusione
Vivid-ZOO: Multi-View Video Generation with Diffusion Model

Jun 12

ByBing Li, Cheng Zheng, Wenxuan Zhu, Jinjie Mai, Biao Zhang, Peter Wonka, Bernard Ghanem

Sebbene i modelli di diffusione abbiano dimostrato prestazioni impressionanti nella generazione di immagini/video 2D, la generazione di video multi-vista basata su diffusione da testo (Text-to-Multi-view-Video, T2MVid) rimane poco esplorata. Le nuove sfide poste dalla generazione T2MVid risiedono nella mancanza di grandi quantità di video multi-vista con didascalie e nella complessità di modellare una distribuzione così multidimensionale. A tal fine, proponiamo una nuova pipeline basata su diffusione che genera video multi-vista di alta qualità centrati su un oggetto 3D dinamico a partire da testo. Nello specifico, fattorizziamo il problema T2MVid in componenti relative allo spazio delle viste e al tempo. Tale fattorizzazione ci permette di combinare e riutilizzare livelli di modelli di diffusione pre-addestrati avanzati per immagini multi-vista e video 2D, garantendo coerenza multi-vista e coerenza temporale per i video multi-vista generati, riducendo notevolmente i costi di addestramento. Introduciamo inoltre moduli di allineamento per allineare gli spazi latenti dei livelli provenienti dai modelli di diffusione pre-addestrati per immagini multi-vista e video 2D, affrontando l'incompatibilità dei livelli riutilizzati che deriva dal divario di dominio tra dati 2D e multi-vista. A supporto di questa e di future ricerche, contribuiamo inoltre con un dataset di video multi-vista con didascalie. I risultati sperimentali dimostrano che il nostro metodo genera video multi-vista di alta qualità, mostrando movimenti vivaci, coerenza temporale e coerenza multi-vista, dati una varietà di prompt testuali.

RVT-2: Apprendimento di manipolazioni precise da poche dimostrazioni
RVT-2: Learning Precise Manipulation from Few Demonstrations

Jun 12

ByAnkit Goyal, Valts Blukis, Jie Xu, Yijie Guo, Yu-Wei Chao, Dieter Fox

In questo lavoro, studiamo come costruire un sistema robotico in grado di risolvere molteplici compiti di manipolazione 3D dati istruzioni linguistiche. Per essere utile in ambiti industriali e domestici, un tale sistema dovrebbe essere capace di apprendere nuovi compiti con poche dimostrazioni e risolverli con precisione. Lavori precedenti, come PerAct e RVT, hanno studiato questo problema, ma spesso incontrano difficoltà con compiti che richiedono alta precisione. Studiamo come renderli più efficaci, precisi e veloci. Utilizzando una combinazione di miglioramenti architetturali e a livello di sistema, proponiamo RVT-2, un modello di manipolazione 3D multitask che è 6 volte più veloce nell'addestramento e 2 volte più veloce nell'inferenza rispetto al suo predecessore RVT. RVT-2 raggiunge un nuovo stato dell'arte su RLBench, migliorando il tasso di successo dal 65% all'82%. RVT-2 è anche efficace nel mondo reale, dove può apprendere compiti che richiedono alta precisione, come raccogliere e inserire spine, con solo 10 dimostrazioni. Risultati visivi, codice e modello addestrato sono disponibili su: https://robotic-view-transformer-2.github.io/.

AV-GS: Apprendimento di Priorità Consapevoli di Materiale e Geometria per la Sintesi Acustica di Nuove Visualizzazioni
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis

Jun 13

BySwapnil Bhosale, Haosen Yang, Diptesh Kanojia, Jiankang Deng, Xiatian Zhu

La sintesi acustica di nuove viste (NVAS) mira a generare audio binaurale da qualsiasi punto di vista target, dato un audio mono emesso da una sorgente sonora in una scena 3D. I metodi esistenti hanno proposto modelli impliciti basati su NeRF per sfruttare gli indizi visivi come condizione per sintetizzare l'audio binaurale. Tuttavia, oltre alla bassa efficienza derivante dal rendering pesante di NeRF, questi metodi hanno tutti una capacità limitata di caratterizzare l'intero ambiente della scena, come la geometria della stanza, le proprietà dei materiali e la relazione spaziale tra l'ascoltatore e la sorgente sonora. Per affrontare questi problemi, proponiamo un nuovo modello Audio-Visual Gaussian Splatting (AV-GS). Per ottenere una condizione consapevole dei materiali e della geometria per la sintesi audio, apprendiamo una rappresentazione esplicita della scena basata su punti con un parametro di guida audio su punti Gaussiani inizializzati localmente, tenendo conto della relazione spaziale tra l'ascoltatore e la sorgente sonora. Per rendere il modello della scena visiva adattivo all'audio, proponiamo una strategia di densificazione e potatura dei punti per distribuire in modo ottimale i punti Gaussiani, con il contributo per punto nella propagazione del suono (ad esempio, sono necessari più punti per le superfici delle pareti senza texture poiché influenzano la deviazione del percorso sonoro). Esperimenti estensivi convalidano la superiorità del nostro AV-GS rispetto alle alternative esistenti sui dataset reali RWAS e simulati SoundSpaces.

GaussianSR: Super-Risoluzione 3D con Gaussiane e Prior di Diffusione 2D
GaussianSR: 3D Gaussian Super-Resolution with 2D Diffusion Priors

Jun 14

ByXiqian Yu, Hanxin Zhu, Tianyu He, Zhibo Chen

Ottenere una sintesi di nuove viste ad alta risoluzione (HRNVS) a partire da viste di input a bassa risoluzione è un compito impegnativo a causa della mancanza di dati ad alta risoluzione. I metodi precedenti ottimizzano un Neural Radiance Field (NeRF) ad alta risoluzione da viste di input a bassa risoluzione, ma soffrono di una velocità di rendering lenta. In questo lavoro, basiamo il nostro metodo su 3D Gaussian Splatting (3DGS) grazie alla sua capacità di produrre immagini di alta qualità con una velocità di rendering più rapida. Per alleviare la carenza di dati per la sintesi a risoluzione più elevata, proponiamo di sfruttare priorità di diffusione 2D già disponibili distillando la conoscenza 2D in 3D con Score Distillation Sampling (SDS). Tuttavia, applicare direttamente SDS alla super-risoluzione 3D basata su Gaussiane porta a primitive 3D Gaussiane indesiderate e ridondanti, a causa della casualità introdotta dalle priorità generative. Per mitigare questo problema, introduciamo due tecniche semplici ma efficaci per ridurre i disturbi stocastici introdotti da SDS. Nello specifico, 1) riduciamo l'intervallo del timestep di diffusione in SDS con una strategia di annealing; 2) scartiamo casualmente le primitive Gaussiane ridondanti durante la densificazione. Esperimenti estesi hanno dimostrato che il nostro GaussainSR proposto può ottenere risultati di alta qualità per HRNVS con solo input a bassa risoluzione su dataset sia sintetici che del mondo reale. Pagina del progetto: https://chchnii.github.io/GaussianSR/

MaskLID: Identificazione del Linguaggio nel Code-Switching tramite Mascheramento Iterativo
MaskLID: Code-Switching Language Identification through Iterative Masking

Jun 10

ByAmir Hossein Kargaran, François Yvon, Hinrich Schütze

Presentiamo MaskLID, un metodo semplice ma efficace per l'identificazione del linguaggio (LID) in contesti di code-switching (CS). MaskLID non richiede alcun addestramento ed è progettato per integrare gli attuali LID a livello di frase ad alte prestazioni. I LID a livello di frase sono classificatori addestrati su testi monolingue per fornire etichette singole, tipicamente utilizzando un livello softmax per trasformare i punteggi in probabilità. Tuttavia, nei casi in cui una frase è composta sia in lingua L1 che L2, il classificatore LID spesso restituisce solo l'etichetta dominante L1. Per affrontare questa limitazione, MaskLID impiega una strategia per mascherare le caratteristiche del testo associate a L1, consentendo al LID di classificare il testo come L2 nel round successivo. Questo metodo utilizza il LID stesso per identificare le caratteristiche che richiedono il mascheramento e non si affida a risorse esterne. In questo lavoro, esploriamo l'uso di MaskLID per due LID open-source (GlotLID e OpenLID), entrambi basati sull'architettura FastText. Il codice e una demo sono disponibili all'indirizzo https://github.com/cisnlp/MaskLID.

Decodificare la Diversità: Una Rassegna del Panorama della Ricerca AI in India
Decoding the Diversity: A Review of the Indic AI Research Landscape

Jun 13

BySankalp KJ, Vinija Jain, Sreyoshi Bhaduri, Tamoghna Roy, Aman Chadha

Questa rassegna fornisce una panoramica completa delle direzioni di ricerca sui modelli linguistici di grandi dimensioni (LLM) per le lingue indiane. Le lingue indiane sono quelle parlate nel subcontinente indiano, tra cui India, Pakistan, Bangladesh, Sri Lanka, Nepal e Bhutan, tra gli altri. Queste lingue possiedono un ricco patrimonio culturale e linguistico e sono parlate da oltre 1,5 miliardi di persone in tutto il mondo. Con l'enorme potenziale di mercato e la crescente domanda di applicazioni basate sull'elaborazione del linguaggio naturale (NLP) in lingue diverse, le applicazioni generative per le lingue indiane presentano sfide e opportunità uniche per la ricerca. Il nostro articolo approfondisce i recenti progressi nella modellazione generativa per le lingue indiane, contribuendo con una tassonomia delle direzioni di ricerca e catalogando 84 pubblicazioni recenti. Le direzioni di ricerca esaminate in questo articolo includono lo sviluppo di LLM, il fine-tuning di LLM esistenti, lo sviluppo di corpora, benchmarking e valutazione, nonché pubblicazioni su tecniche, strumenti e applicazioni specifiche. Abbiamo riscontrato che i ricercatori nelle varie pubblicazioni sottolineano le sfide legate alla limitata disponibilità di dati, alla mancanza di standardizzazione e alle particolari complessità linguistiche delle lingue indiane. Questo lavoro mira a servire come una risorsa preziosa per ricercatori e professionisti che operano nel campo dell'NLP, in particolare quelli focalizzati sulle lingue indiane, e contribuisce allo sviluppo di applicazioni LLM più accurate ed efficienti per queste lingue.

SEACrowd: Un Hub di Dati Multilingue e Multimodale e una Suite di Benchmark per le Lingue del Sudest Asiatico
SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages

Jun 14