HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

20 papers found

Sapiens: Fondamento per Modelli di Visione Umana
Sapiens: Foundation for Human Vision Models

Aug 22

ByRawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito

Presentiamo Sapiens, una famiglia di modelli per quattro compiti fondamentali di visione incentrati sull'uomo: stima della posa 2D, segmentazione delle parti del corpo, stima della profondità e previsione delle normali di superficie. I nostri modelli supportano nativamente inferenze ad alta risoluzione 1K e sono estremamente facili da adattare per singoli compiti semplicemente fine-tunando modelli pre-addestrati su oltre 300 milioni di immagini umane in contesti reali. Osserviamo che, a parità di budget computazionale, il pre-addestramento self-supervised su un dataset curato di immagini umane migliora significativamente le prestazioni per un insieme diversificato di compiti incentrati sull'uomo. I modelli risultanti mostrano una notevole generalizzazione ai dati in contesti reali, anche quando i dati etichettati sono scarsi o interamente sintetici. Il nostro design semplice del modello garantisce anche scalabilità: le prestazioni del modello attraverso i compiti migliorano man mano che aumentiamo il numero di parametri da 0,3 a 2 miliardi. Sapiens supera costantemente le baseline esistenti in vari benchmark incentrati sull'uomo. Raggiungiamo miglioramenti significativi rispetto allo stato dell'arte precedente su Humans-5K (posa) di 7,6 mAP, Humans-2K (segmentazione parti) di 17,1 mIoU, Hi4D (profondità) del 22,4% in RMSE relativo e THuman2 (normali) del 53,5% in errore angolare relativo.

Generazione Controllata di Testo per Modelli Linguistici di Grande Dimensione: Una Rassegna
Controllable Text Generation for Large Language Models: A Survey

Aug 22

ByXun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li

Nel campo dell'Elaborazione del Linguaggio Naturale (NLP), i Modelli Linguistici di Grande Scala (LLMs) hanno dimostrato un'elevata qualità nella generazione di testo. Tuttavia, nelle applicazioni reali, gli LLMs devono soddisfare requisiti sempre più complessi. Oltre a evitare contenuti fuorvianti o inappropriati, ci si aspetta che gli LLMs rispondano a esigenze specifiche degli utenti, come imitare stili di scrittura particolari o generare testi con una ricchezza poetica. Queste diverse esigenze hanno guidato lo sviluppo delle tecniche di Generazione Controllata del Testo (CTG), che garantiscono che gli output rispettino condizioni di controllo predefinite—come sicurezza, sentimento, coerenza tematica e stile linguistico—mantenendo al contempo elevati standard di utilità, fluidità e diversità. Questo articolo esamina sistematicamente i più recenti progressi nel campo della CTG per gli LLMs, offrendo una definizione completa dei suoi concetti fondamentali e chiarendo i requisiti per le condizioni di controllo e la qualità del testo. Classifichiamo i compiti della CTG in due tipi principali: controllo del contenuto e controllo degli attributi. Vengono discussi i metodi chiave, tra cui il riaddestramento del modello, il fine-tuning, l'apprendimento per rinforzo, l'ingegneria dei prompt, la manipolazione dello spazio latente e l'intervento al momento della decodifica. Analizziamo le caratteristiche, i vantaggi e i limiti di ciascun metodo, fornendo approfondimenti per il raggiungimento del controllo nella generazione. Inoltre, esaminiamo i metodi di valutazione della CTG, riassumiamo le sue applicazioni in vari domini e affrontiamo le principali sfide nella ricerca attuale, tra cui la ridotta fluidità e praticità. Proponiamo anche diversi appelli, come porre maggiore enfasi sulle applicazioni reali nella ricerca futura. Questo articolo mira a offrire una guida preziosa per ricercatori e sviluppatori del settore. La nostra lista di riferimenti e la versione in cinese sono open-source su https://github.com/IAAR-Shanghai/CTGSurvey.

Open-FinLLMs: Modelli Linguistici Multimodali di Grande Scala Aperti per Applicazioni Finanziarie
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Aug 20

ByQianqian Xie, Dong Li, Mengxi Xiao, Zihao Jiang, Ruoyu Xiang, Xiao Zhang, Zhengyu Chen, Yueru He, Weiguang Han, Yuzhe Yang, Shunian Chen, Yifei Zhang, Lihang Shen, Daniel Kim, Zhiwei Liu, Zheheng Luo, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Zhiyuan Yao, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Yilun Zhao, Yitao Long, Guojun Xiong, Kaleb Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jianyun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Jimin Huang, Sophia Ananiadou

I modelli linguistici di grandi dimensioni (LLM) hanno fatto avanzare le applicazioni finanziarie, ma spesso mancano di sufficienti conoscenze finanziarie e faticano con compiti che coinvolgono input multimodali come tabelle e dati di serie temporali. Per affrontare queste limitazioni, introduciamo Open-FinLLMs, una serie di LLM finanziari. Iniziamo con FinLLaMA, pre-addestrato su un corpus finanziario di 52 miliardi di token, incorporando testo, tabelle e dati di serie temporali per integrare una conoscenza finanziaria completa. FinLLaMA viene poi ottimizzato tramite istruzioni con 573K istruzioni finanziarie, risultando in FinLLaMA-instruct, che migliora le prestazioni nei compiti. Infine, presentiamo FinLLaVA, un LLM multimodale addestrato con 1.43M istruzioni immagine-testo per gestire tipi di dati finanziari complessi. Valutazioni estensive dimostrano che FinLLaMA supera LLaMA3-8B, LLaMA3.1-8B e BloombergGPT sia in contesti zero-shot che few-shot su 19 e 4 dataset, rispettivamente. FinLLaMA-instruct supera GPT-4 e altri LLM finanziari su 15 dataset. FinLLaVA eccelle nella comprensione di tabelle e grafici in 4 compiti multimodali. Inoltre, FinLLaMA raggiunge impressionanti rapporti di Sharpe nelle simulazioni di trading, evidenziando le sue robuste capacità di applicazione finanziaria. Continueremo a mantenere e migliorare i nostri modelli e benchmark per supportare l'innovazione continua in ambito accademico e industriale.

Rapporto Tecnico Hermes 3
Hermes 3 Technical Report

Aug 15

ByRyan Teknium, Jeffrey Quesnelle, Chen Guang

I modelli ottimizzati per istruzioni (o "chat") sono diventati il principale modo in cui la maggior parte delle persone interagisce con i grandi modelli linguistici. A differenza dei modelli "base" o "fondamentali", i modelli ottimizzati per istruzioni sono progettati per rispondere a comandi imperativi. Presentiamo Hermes 3, un modello generalista allineato in modo neutrale per istruzioni e utilizzo di strumenti, dotato di forti capacità di ragionamento e creatività. La sua versione più grande, Hermes 3 405B, raggiunge prestazioni all'avanguardia tra i modelli open weight su diversi benchmark pubblici.

Show-o: Un Singolo Transformer per Unificare Comprensione e Generazione Multimodale
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Aug 22

ByJinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou

Presentiamo un trasformatore unificato, denominato Show-o, che integra comprensione e generazione multimodale. A differenza dei modelli completamente autoregressivi, Show-o unisce modellazione autoregressiva e diffusione discreta per gestire in modo adattivo input e output di varie modalità miste. Il modello unificato supporta in modo flessibile un'ampia gamma di attività di visione e linguaggio, tra cui risposta a domande visive, generazione di immagini da testo, inpainting/estrapolazione guidata da testo e generazione a modalità mista. Su vari benchmark, dimostra prestazioni comparabili o superiori rispetto ai modelli individuali esistenti con un numero equivalente o maggiore di parametri progettati specificamente per la comprensione o la generazione. Ciò evidenzia in modo significativo il suo potenziale come modello di base di prossima generazione. Codice e modelli sono disponibili all'indirizzo https://github.com/showlab/Show-o.

xGen-VideoSyn-1: Sintesi Video da Testo ad Alta Fedeltà con Rappresentazioni Compresse
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Aug 22

ByCan Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong

Presentiamo xGen-VideoSyn-1, un modello di generazione testo-video (T2V) in grado di produrre scene realistiche a partire da descrizioni testuali. Basandoci sui recenti progressi, come Sora di OpenAI, esploriamo l'architettura del modello di diffusione latente (LDM) e introduciamo un autoencoder variazionale per video (VidVAE). VidVAE comprime i dati video sia spazialmente che temporalmente, riducendo significativamente la lunghezza dei token visivi e le esigenze computazionali associate alla generazione di video a sequenza lunga. Per affrontare ulteriormente i costi computazionali, proponiamo una strategia di divisione e fusione che mantiene la coerenza temporale tra i segmenti video. Il nostro modello Transformer di Diffusione (DiT) incorpora livelli di auto-attenzione spaziale e temporale, consentendo una robusta generalizzazione su diversi intervalli temporali e rapporti d'aspetto. Abbiamo progettato una pipeline di elaborazione dati fin dall'inizio e raccolto oltre 13 milioni di coppie video-testo di alta qualità. La pipeline include molteplici passaggi come il clipping, il rilevamento del testo, la stima del movimento, la valutazione estetica e la creazione di didascalie dense basate sul nostro modello video-LLM interno. L'addestramento dei modelli VidVAE e DiT ha richiesto rispettivamente circa 40 e 642 giorni H100. Il nostro modello supporta la generazione end-to-end di video 720p per oltre 14 secondi e dimostra prestazioni competitive rispetto ai modelli T2V all'avanguardia.

Jamba-1.5: Modelli Ibridi Transformer-Mamba su Larga Scala
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Aug 22

ByJamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham

Presentiamo Jamba-1.5, nuovi modelli linguistici di grandi dimensioni ottimizzati per istruzioni basati sulla nostra architettura Jamba. Jamba è un'architettura ibrida Transformer-Mamba a miscela di esperti, che offre un'elevata produttività e un basso utilizzo di memoria su diverse lunghezze di contesto, mantenendo la stessa qualità o superiore rispetto ai modelli Transformer. Rilasciamo due dimensioni di modello: Jamba-1.5-Large, con 94 miliardi di parametri attivi, e Jamba-1.5-Mini, con 12 miliardi di parametri attivi. Entrambi i modelli sono stati ottimizzati per una varietà di capacità conversazionali e di esecuzione di istruzioni, e hanno una lunghezza di contesto effettiva di 256.000 token, la più ampia tra i modelli open-weight. Per supportare un'inferenza economicamente vantaggiosa, introduciamo ExpertsInt8, una nuova tecnica di quantizzazione che consente di adattare Jamba-1.5-Large su una macchina con 8 GPU da 80GB quando si elaborano contesti di 256.000 token senza perdita di qualità. Quando valutati su una serie di benchmark accademici e di chatbot, i modelli Jamba-1.5 ottengono risultati eccellenti, fornendo un'elevata produttività e superando altri modelli open-weight sui benchmark a lungo contesto. I pesi del modello per entrambe le dimensioni sono disponibili pubblicamente sotto la Jamba Open Model License e rilasciamo ExpertsInt8 come open source.

DreamCinema: Trasferimento Cinematografico con Fotocamera Libera e Personaggi 3D
DreamCinema: Cinematic Transfer with Free Camera and 3D Character

Aug 22

ByWeiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Haixu Song, Yueqi Duan

Viviamo in un'era fiorente di media digitali, in cui tutti hanno il potenziale per diventare registi personali. La ricerca attuale sul trasferimento cinematografico consente ai filmmaker di riprodurre e manipolare gli elementi visivi (ad esempio, la cinematografia e i comportamenti dei personaggi) di scene classiche. Tuttavia, i personaggi nei film reinventati si basano ancora su una creazione manuale, che comporta una significativa complessità tecnica e costi elevati, rendendola inaccessibile per gli utenti comuni. Inoltre, la loro cinematografia stimata manca di fluidità a causa di una cattura inadeguata del movimento inter-fotogramma e della modellazione delle traiettorie fisiche. Fortunatamente, il notevole successo dell'AIGC 2D e 3D ha aperto la possibilità di generare in modo efficiente personaggi su misura per le esigenze degli utenti, diversificando la cinematografia. In questo articolo, proponiamo DreamCinema, un nuovo framework di trasferimento cinematografico che introduce l'IA generativa nel paradigma della produzione cinematografica, con l'obiettivo di facilitare la creazione di film user-friendly. Nello specifico, estraiamo prima gli elementi cinematografici (cioè la posa umana e della telecamera) e ottimizziamo la traiettoria della telecamera. Successivamente, applichiamo un generatore di personaggi per creare in modo efficiente personaggi 3D di alta qualità con una struttura umana predefinita. Infine, sviluppiamo una strategia di trasferimento del movimento guidata dalla struttura per incorporare i personaggi generati nella creazione del film e trasferirli in modo fluido tramite motori grafici 3D. Esperimenti estensivi dimostrano l'efficacia del nostro metodo per creare film di alta qualità con telecamera libera e personaggi 3D.

L'esplorazione degli embedder focalizzati sul russo: benchmark ruMTEB e progettazione del modello di embedding per il russo
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

Aug 22

ByArtem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov

I modelli di embedding svolgono un ruolo cruciale nell'elaborazione del linguaggio naturale (NLP) creando rappresentazioni vettoriali del testo utilizzate in vari compiti come il recupero delle informazioni e la valutazione della similarità semantica del testo. Questo articolo si concentra sulla ricerca relativa ai modelli di embedding per la lingua russa. Introduce un nuovo modello di embedding specifico per il russo, chiamato ru-en-RoSBERTa, e il benchmark ruMTEB, la versione russa che estende il Massive Text Embedding Benchmark (MTEB). Il nostro benchmark include sette categorie di compiti, come la similarità semantica testuale, la classificazione del testo, il riordinamento e il recupero. La ricerca valuta inoltre un insieme rappresentativo di modelli russi e multilingue sul benchmark proposto. I risultati indicano che il nuovo modello raggiunge prestazioni paragonabili ai modelli all'avanguardia per il russo. Rilasciamo il modello ru-en-RoSBERTa, e il framework ruMTEB è accompagnato da codice open-source, integrazione nel framework originale e una classifica pubblica.

Generazione Scalabile di Immagini Autoregressive con Mamba
Scalable Autoregressive Image Generation with Mamba

Aug 22

ByHaopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li

Presentiamo AiM, un modello generativo di immagini autoregressivo (AR) basato sull'architettura Mamba. AiM utilizza Mamba, un innovativo modello a spazio di stati caratterizzato da prestazioni eccezionali nella modellazione di sequenze lunghe con complessità temporale lineare, per sostituire i comunemente utilizzati Transformer nei modelli AR di generazione di immagini, con l'obiettivo di ottenere sia una qualità di generazione superiore che una velocità di inferenza migliorata. A differenza dei metodi esistenti che adattano Mamba per gestire segnali bidimensionali tramite scansione multidirezionale, AiM utilizza direttamente il paradigma di previsione del token successivo per la generazione autoregressiva di immagini. Questo approccio evita la necessità di modifiche estese per consentire a Mamba di apprendere rappresentazioni spaziali 2D. Implementando modifiche semplici ma strategicamente mirate per i compiti di generazione visiva, preserviamo la struttura centrale di Mamba, sfruttando appieno le sue efficienti capacità di modellazione di sequenze lunghe e la sua scalabilità. Forniamo modelli AiM di varie dimensioni, con conteggi di parametri che vanno da 148M a 1.3B. Sul benchmark ImageNet1K 256*256, il nostro miglior modello AiM raggiunge un FID di 2.21, superando tutti i modelli AR esistenti con conteggi di parametri comparabili e dimostrando una significativa competitività rispetto ai modelli di diffusione, con una velocità di inferenza da 2 a 10 volte più veloce. Il codice è disponibile all'indirizzo https://github.com/hp-l33/AiM.

Vintern-1B: Un Modello Linguistico Multimodale di Grandi Dimensioni Efficiente per il Vietnamita
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Aug 22

ByKhang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang

In questo rapporto, presentiamo Vintern-1B, un modello linguistico multimodale di grandi dimensioni (MLLM) affidabile da 1 miliardo di parametri, progettato per compiti legati alla lingua vietnamita. Integrando il modello linguistico Qwen2-0.5B-Instruct con il modello visivo InternViT-300M-448px, Vintern-1B è ottimizzato per una gamma di applicazioni, tra cui il riconoscimento ottico dei caratteri (OCR), l'estrazione di documenti e il question-answering generale in contesti vietnamiti. Il modello è stato affinato su un ampio dataset di oltre 3 milioni di coppie immagine-domanda-risposta, ottenendo prestazioni robuste e risultati affidabili su molteplici benchmark della lingua vietnamita come OpenViVQA e ViTextVQA. Vintern-1B è sufficientemente compatto da poter essere facilmente integrato in varie applicazioni su dispositivo. Inoltre, abbiamo reso open-source diversi dataset vietnamiti per il question-answering visivo (VQA) su testi e diagrammi, creati con Gemini 1.5 Flash. I nostri modelli sono disponibili al seguente indirizzo: https://huggingface.co/5CD-AI/Vintern-1B-v2.

Generazione di Video in Tempo Reale con Trasmissione a Piramide dell'Attenzione
Real-Time Video Generation with Pyramid Attention Broadcast

Aug 22

ByXuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You

Presentiamo Pyramid Attention Broadcast (PAB), un approccio in tempo reale, di alta qualità e senza necessità di addestramento per la generazione di video basata su DiT. Il nostro metodo si fonda sull'osservazione che la differenza di attenzione nel processo di diffusione mostra un pattern a forma di U, indicando una significativa ridondanza. Mitighiamo questo problema trasmettendo gli output di attenzione ai passaggi successivi in uno stile piramidale. Questo applica diverse strategie di trasmissione a ciascuna attenzione in base alla loro varianza per ottenere la massima efficienza. Introduciamo inoltre il parallelismo della sequenza di trasmissione per un'inferenza distribuita più efficiente. PAB dimostra risultati superiori rispetto ai baseline su tre modelli, raggiungendo la generazione in tempo reale per video fino a 720p. Anticipiamo che il nostro metodo semplice ma efficace servirà come baseline robusto e faciliterà la ricerca e l'applicazione futura nella generazione di video.

Strategist: Apprendimento di Abilità Strategiche da parte di LLM tramite Ricerca ad Albero Bi-Livello
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Aug 20

ByJonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu

In questo articolo, proponiamo un nuovo metodo chiamato Strategist che utilizza i Large Language Models (LLM) per acquisire nuove abilità nel gioco multi-agente attraverso un processo di auto-miglioramento. Il nostro metodo raccoglie feedback di qualità mediante simulazioni di auto-gioco con l'algoritmo Monte Carlo Tree Search e riflessioni basate su LLM, che possono poi essere utilizzate per apprendere abilità strategiche di alto livello, come la valutazione degli stati che guidano l'esecuzione a basso livello. Dimostriamo come il nostro metodo possa essere applicato sia nella pianificazione delle azioni che nella generazione di dialoghi nel contesto dei giochi, ottenendo buone prestazioni in entrambi i compiti. In particolare, mostriamo che il nostro metodo può aiutare ad addestrare agenti con prestazioni migliori rispetto sia agli approcci tradizionali basati sull'apprendimento per rinforzo che ad altri approcci di apprendimento delle abilità basati su LLM, in giochi come il Game of Pure Strategy (GOPS) e The Resistance: Avalon.

SPARK: Benchmark per la Percezione e il Ragionamento con Sensori di Visione Multipli per Modelli di Visione-Linguaggio su Grande Scala
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Aug 22

ByYoungjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro

I modelli Vision-Linguaggio su larga scala (LVLM) hanno compiuto progressi significativi grazie all'allineamento degli input visivi con il testo. Hanno ottenuto risultati notevoli nelle attività di visione artificiale allineando la modalità testuale con gli input visivi. Sono stati inoltre compiuti sforzi per integrare sensori visivi multipli oltre l'RGB, tra cui termici, di profondità e immagini mediche a raggi X. Tuttavia, osserviamo che gli attuali LVLM trattano le immagini acquisite da sensori visivi multipli come se appartenessero al dominio RGB, senza considerare le caratteristiche fisiche di tali sensori. Non riescono a trasmettere correttamente le informazioni fondamentali dei sensori visivi multipli dal dataset e le relative conoscenze contestuali. Di conseguenza, l'allineamento tra le informazioni provenienti dall'ambiente fisico reale e il testo non viene raggiunto in modo corretto, rendendo difficile rispondere a domande complesse relative ai sensori che considerano l'ambiente fisico. In questo articolo, miriamo a stabilire un benchmark chiamato SPARK (Sensor Perception And Reasoning benchmarK) che possa ridurre il divario informativo fondamentale tra le immagini e i sensori visivi multipli. Abbiamo generato automaticamente 6.248 campioni di test visione-linguaggio per indagare la percezione sensoriale multi-visiva e il ragionamento sensoriale multi-visivo sulla competenza delle conoscenze fisiche dei sensori in diversi formati, coprendo vari tipi di domande relative ai sensori. Abbiamo utilizzato questi campioni per valutare dieci LVLM leader. I risultati hanno mostrato che la maggior parte dei modelli presentava carenze nel ragionamento sensoriale multi-visivo in misura variabile. Codici e dati sono disponibili all'indirizzo https://github.com/top-yun/SPARK.

SEA: Allineamento Supervisionato degli Embedding per l'Integrazione Visivo-Testuale a Livello di Token nei MLLM
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Aug 21

ByYuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang

I Modelli Linguistici Multimodali di Grande Dimensione (MLLMs) hanno recentemente dimostrato notevoli capacità percettive e di ragionamento, tipicamente composti da un Encoder Visivo, un Adapter e un Modello Linguistico di Grande Dimensione (LLM). L'adapter funge da ponte cruciale tra i componenti visivi e linguistici. Tuttavia, l'addestramento degli adapter con supervisione a livello di immagine spesso risulta in un significativo disallineamento, compromettendo le capacità degli LLM e limitando il potenziale dei Modelli Linguistici Multimodali. Per affrontare questo problema, introduciamo il Supervised Embedding Alignment (SEA), un metodo di allineamento a livello di token che sfrutta modelli pre-addestrati visione-linguaggio, come CLIP, per allineare i token visivi con lo spazio di embedding dell'LLM attraverso l'apprendimento contrastivo. Questo approccio garantisce un'integrazione più coerente delle rappresentazioni visive e linguistiche, migliorando le prestazioni e l'interpretabilità dei modelli linguistici multimodali preservandone le capacità intrinseche. Esperimenti estensivi dimostrano che SEA migliora efficacemente gli MLLMs, in particolare per i modelli più piccoli, senza aggiungere dati extra o calcoli di inferenza. SEA getta inoltre le basi per lo sviluppo di soluzioni più generali e adattabili per migliorare i sistemi multimodali.

ConflictBank: Un Benchmark per Valutare l'Influenza dei Conflitti di Conoscenza nei Modelli Linguistici di Grande Dimensione
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM

Aug 22

ByZhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng

I grandi modelli linguistici (LLM) hanno raggiunto progressi impressionanti in numerose discipline, tuttavia la questione cruciale dei conflitti di conoscenza, una delle principali fonti di allucinazioni, è stata raramente studiata. Solo poche ricerche hanno esplorato i conflitti tra la conoscenza intrinseca degli LLM e la conoscenza contestuale recuperata. Tuttavia, una valutazione approfondita dei conflitti di conoscenza negli LLM è ancora mancante. Motivati da questa lacuna di ricerca, presentiamo ConflictBank, il primo benchmark completo sviluppato per valutare sistematicamente i conflitti di conoscenza da tre aspetti: (i) i conflitti riscontrati nella conoscenza recuperata, (ii) i conflitti all'interno della conoscenza codificata nei modelli, e (iii) l'interazione tra queste forme di conflitto. La nostra indagine approfondisce quattro famiglie di modelli e dodici istanze di LLM, analizzando meticolosamente i conflitti derivanti da disinformazione, discrepanze temporali e divergenze semantiche. Basandoci sul nostro nuovo framework di costruzione, creiamo 7.453.853 coppie affermazione-evidenza e 553.117 coppie domanda-risposta. Presentiamo numerosi risultati sulla scala dei modelli, le cause dei conflitti e i tipi di conflitti. Speriamo che il nostro benchmark ConflictBank aiuti la comunità a comprendere meglio il comportamento dei modelli nei conflitti e a sviluppare LLM più affidabili.

Anim-Director: Un Agente Basato su un Grande Modello Multimodale per la Generazione Controllabile di Video Animati
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

Aug 19

ByYunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang

I metodi tradizionali per la generazione di animazioni si basano sull'addestramento di modelli generativi con dati etichettati manualmente, implicando una pipeline multi-stadio sofisticata che richiede un notevole sforzo umano e comporta costi di addestramento elevati. A causa di piani di prompt limitati, questi metodi producono tipicamente animazioni brevi, povere di informazioni e incoerenti dal punto di vista contestuale. Per superare queste limitazioni e automatizzare il processo di animazione, siamo pionieri nell'introduzione di grandi modelli multimodali (LMMs) come processore centrale per costruire un agente autonomo di creazione di animazioni, denominato Anim-Director. Questo agente sfrutta principalmente le avanzate capacità di comprensione e ragionamento degli LMMs e degli strumenti di intelligenza artificiale generativa per creare video animati a partire da narrazioni concise o istruzioni semplici. Nello specifico, opera in tre fasi principali: In primo luogo, l'Anim-Director genera una trama coerente dagli input dell'utente, seguita da uno script dettagliato del regista che include la configurazione dei profili dei personaggi e descrizioni interne/esterne, nonché descrizioni di scene coerenti con il contesto che includono personaggi presenti, interni o esterni ed eventi della scena. In secondo luogo, utilizziamo LMMs con uno strumento di generazione di immagini per produrre immagini visive di ambientazioni e scene. Queste immagini sono progettate per mantenere la coerenza visiva tra diverse scene utilizzando un metodo di prompting visivo-linguistico che combina descrizioni delle scene e immagini del personaggio e dell'ambientazione presenti. In terzo luogo, le immagini delle scene servono come base per la produzione di video animati, con gli LMMs che generano prompt per guidare questo processo. L'intero processo è notevolmente autonomo senza intervento manuale, poiché gli LMMs interagiscono in modo fluido con gli strumenti generativi per generare prompt, valutare la qualità visiva e selezionare la migliore per ottimizzare l'output finale.

Video-Foley: Generazione Audio in Due Fasi da Video tramite Condizionamento Temporale degli Eventi per il Suono Foley
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

Aug 21

ByJunwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam

La sintesi del suono Foley è fondamentale per la produzione multimediale, migliorando l'esperienza dell'utente sincronizzando audio e video sia temporalmente che semanticamente. Studi recenti sull'automatizzazione di questo processo laborioso attraverso la generazione audio da video affrontano sfide significative. I sistemi privi di caratteristiche temporali esplicite soffrono di scarsa controllabilità e allineamento, mentre i modelli basati su timestamp richiedono annotazioni umane costose e soggettive. Proponiamo Video-Foley, un sistema audio da video che utilizza il valore quadratico medio (RMS) come condizione temporale degli eventi con prompt timbrici semantici (audio o testo). Il RMS, una caratteristica dell'inviluppo di intensità a livello di fotogramma strettamente correlata alla semantica audio, garantisce un'elevata controllabilità e sincronizzazione. Il framework di apprendimento auto-supervisionato senza annotazioni è composto da due fasi, Video2RMS e RMS2Sound, che incorporano idee innovative tra cui la discretizzazione del RMS e RMS-ControlNet con un modello pre-addestrato di testo-audio. La nostra valutazione approfondita dimostra che Video-Foley raggiunge prestazioni all'avanguardia nell'allineamento audio-visivo e nella controllabilità del timing, dell'intensità, del timbro e delle sfumature del suono. Codice, pesi del modello e dimostrazioni sono disponibili sul sito web allegato. (https://jnwnlee.github.io/video-foley-demo)

Scattering Sottosuperficiale per il 3D Gaussian Splatting
Subsurface Scattering for 3D Gaussian Splatting

Aug 22

ByJan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch

La ricostruzione 3D e la riluminazione di oggetti composti da materiali diffusivi rappresentano una sfida significativa a causa del complesso trasporto della luce al di sotto della superficie. Il metodo 3D Gaussian Splatting ha introdotto una sintesi di nuove viste di alta qualità a velocità in tempo reale. Sebbene le Gaussiane 3D approssimino efficacemente la superficie di un oggetto, non riescono a catturare le proprietà volumetriche della diffusione sottosuperficiale. Proponiamo un framework per ottimizzare la forma di un oggetto insieme al campo di trasferimento della radianza dati multi-vista OLAT (one light at a time). Il nostro metodo scompone la scena in una superficie esplicita rappresentata come Gaussiane 3D, con un BRDF variabile spazialmente, e una rappresentazione volumetrica implicita della componente di diffusione. Un campo di luce incidente appreso tiene conto dell'ombreggiatura. Ottimizziamo tutti i parametri congiuntamente tramite rendering differenziabile a raggi tracciati. Il nostro approccio consente l'editing dei materiali, la riluminazione e la sintesi di nuove viste a velocità interattive. Mostriamo un'applicazione riuscita su dati sintetici e introduciamo un nuovo dataset multi-vista multi-luce di oggetti in una configurazione light-stage. Rispetto ai lavori precedenti, otteniamo risultati comparabili o migliori in una frazione del tempo di ottimizzazione e rendering, consentendo un controllo dettagliato sugli attributi dei materiali. Pagina del progetto: https://sss.jdihlmann.com/

Verifica dei Fatti Basata su Prove Utilizzando RAG e Apprendimento In-Context con Pochi Esempi nei Modelli Linguistici di Grande Dimensione
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

Aug 22

ByRonit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das

Considerando la diffusa disseminazione di disinformazione sui social media, l'implementazione di meccanismi di fact-checking per le affermazioni online è essenziale. Verificare manualmente ogni affermazione è estremamente impegnativo, sottolineando la necessità di un sistema automatizzato di fact-checking. Questo articolo presenta il nostro sistema progettato per affrontare questo problema. Utilizziamo il dataset Averitec per valutare la veridicità delle affermazioni. Oltre alla previsione della veridicità, il nostro sistema fornisce prove a supporto, estratte dal dataset. Sviluppiamo una pipeline Retrieve and Generate (RAG) per estrarre frasi di prova rilevanti da una base di conoscenza, che vengono poi inserite insieme all'affermazione in un modello linguistico di grandi dimensioni (LLM) per la classificazione. Valutiamo inoltre le capacità di apprendimento in contesto few-shot (ICL) di più LLM. Il nostro sistema raggiunge un punteggio 'Averitec' di 0.33, che rappresenta un miglioramento assoluto del 22% rispetto alla baseline. Tutto il codice sarà reso disponibile su https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.

Anim-Director: Un Agente Basato su un Grande Modello Multimodale per la Generazione Controllabile di Video Animati
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

Aug 19

ByYunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang