HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

21 papers found

UVA: Generalizzazione delle Politiche dei Robot tramite Allineamento delle Preferenze
GRAPE: Generalizing Robot Policy via Preference Alignment

Nov 28

ByZijian Zhang, Kaiyuan Zheng, Zhaorun Chen, Joel Jang, Yi Li, Chaoqi Wang, Mingyu Ding, Dieter Fox, Huaxiu Yao

Nonostante i recenti progressi dei modelli visione-linguaggio-azione (VLA) in una varietà di compiti di robotica, essi soffrono di problemi critici come una scarsa generalizzabilità a compiti non visti, a causa della loro dipendenza esclusiva dal clonare il comportamento solo da rollout di successo. Inoltre, essi vengono tipicamente adattati per replicare dimostrazioni raccolte da esperti in contesti diversi, introducendo così un bias di distribuzione e limitando la loro adattabilità a obiettivi di manipolazione diversi, come efficienza, sicurezza e completamento del compito. Per colmare questa lacuna, presentiamo GRAPE: Generalizing Robot Policy via Preference Alignment. In particolare, GRAPE allinea i VLA a livello di traiettoria e modella implicitamente il reward sia da rollout di successo che da fallimenti per potenziare la generalizzabilità a compiti diversi. Inoltre, GRAPE suddivide compiti di manipolazione complessi in fasi indipendenti e guida automaticamente la modellazione delle preferenze attraverso vincoli spazio-temporali personalizzati con punti chiave proposti da un ampio modello visione-linguaggio. In modo significativo, questi vincoli sono flessibili e possono essere personalizzati per allineare il modello con obiettivi variabili, come sicurezza, efficienza o successo del compito. Valutiamo GRAPE su una vasta gamma di compiti sia in ambienti reali che simulati. I risultati sperimentali dimostrano che GRAPE migliora le prestazioni dei modelli VLA all'avanguardia, aumentando i tassi di successo su compiti di manipolazione in-domain e non visti rispettivamente del 51,79% e del 60,36%. Inoltre, GRAPE può essere allineato con vari obiettivi, come sicurezza ed efficienza, riducendo i tassi di collisione del 44,31% e la lunghezza del rollout del 11,15%, rispettivamente. Tutto il codice, i modelli e i dati sono disponibili su https://grape-vla.github.io/

Profondità video senza modelli video
Video Depth without Video Models

Nov 28

ByBingxin Ke, Dominik Narnhofer, Shengyu Huang, Lei Ke, Torben Peters, Katerina Fragkiadaki, Anton Obukhov, Konrad Schindler

La stima della profondità video trasforma i video monoculari in 3D inferendo una profondità densa ad ogni frame. Gli avanzamenti recenti nella stima della profondità da singola immagine, resi possibili dall'ascesa dei grandi modelli di base e dall'uso di dati di addestramento sintetici, hanno alimentato un rinnovato interesse nella profondità video. Tuttavia, applicare ingenuamente un estimatore di profondità da singola immagine ad ogni frame di un video trascura la continuità temporale, che non solo porta a sfarfallii ma potrebbe anche fallire quando il movimento della telecamera causa improvvisi cambiamenti nell'intervallo di profondità. Una soluzione ovvia e ben fondata sarebbe costruire sopra modelli di base video, ma questi presentano le proprie limitazioni; tra cui costosi addestramenti e inferenze, inconsistenza 3D imperfetta e procedure di stitching per le uscite di lunghezza fissa (brevi). Noi prendiamo un passo indietro e dimostriamo come trasformare un modello di diffusione latente da singola immagine (LDM) in un estimatore di profondità video all'avanguardia. Il nostro modello, che chiamiamo RollingDepth, ha due ingredienti principali: (i) un estimatore di profondità multi-frame derivato da un LDM da singola immagine e che mappa brevi spezzoni video (tipicamente triplette di frame) in spezzoni di profondità. (ii) un robusto algoritmo di registrazione basato sull'ottimizzazione che assembla in modo ottimale spezzoni di profondità campionati a diverse frequenze di frame in un video coerente. RollingDepth è in grado di gestire efficientemente video lunghi con centinaia di frame e fornisce video di profondità più accurati sia rispetto agli estimatori di profondità video dedicati che ai modelli di singolo frame ad alte prestazioni. Pagina del progetto: rollingdepth.github.io.

Oltre agli Esempi: Paradigma di Ragionamento Automatico di Alto Livello nell'Apprendimento In-Contesto tramite MCTS
Beyond Examples: High-level Automated Reasoning Paradigm in In-Context Learning via MCTS

Nov 27

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Feihu Che, Zengqi Wen, Jianhua Tao

L'apprendimento in contesto (ICL) consente ai grandi modelli linguistici (LLM) di affrontare compiti successivi attraverso prompt sofisticati e dimostrazioni di alta qualità. Tuttavia, questo paradigma tradizionale di ICL mostra limitazioni quando si confronta con compiti di ragionamento matematico complessi, principalmente a causa della sua forte dipendenza dalla qualità degli esempi e dalla necessità di intervento umano in scenari impegnativi. Per affrontare queste limitazioni, questo articolo presenta HiAR-ICL, un paradigma di Ragionamento Automatizzato ad Alto Livello in ICL che sposta il focus da esempi specifici a modelli di pensiero astratto, estendendo il concetto convenzionale di contesto in ICL. HiAR-ICL introduce cinque azioni di ragionamento atomiche come componenti fondamentali per la costruzione di modelli a catena. Utilizzando la Ricerca ad Albero Monte Carlo, esploriamo percorsi di ragionamento e costruiamo schede di pensiero per guidare inferenze successive. Successivamente sviluppiamo un framework di complessità cognitiva che abbina dinamicamente i problemi con le schede di pensiero appropriate. I risultati sperimentali dimostrano l'efficacia di HiAR-ICL, raggiungendo un'accuratezza all'avanguardia (79,6%) sul benchmark MATH con Qwen2.5-7B-Instruct, superando GPT-4o (76,6%) e Claude 3.5 (71,1%).

Sul Post-Training Specifico del Dominio per Modelli Linguistici Multimodali di Grandi Dimensioni
On Domain-Specific Post-Training for Multimodal Large Language Models

Nov 29

ByDaixuan Cheng, Shaohan Huang, Ziyu Zhu, Xintong Zhang, Wayne Xin Zhao, Zhongzhi Luan, Bo Dai, Zhenliang Zhang

Gli ultimi anni hanno visto lo sviluppo rapido di modelli linguistici multimodali di grandi dimensioni (MLLM) generali. Tuttavia, l'adattamento dei MLLM generali a specifici domini, come campi scientifici e applicazioni industriali, rimane poco esplorato. Questo articolo investiga sistematicamente l'adattamento di dominio dei MLLM attraverso il post-training, concentrandosi sulla sintesi dei dati, i flussi di addestramento e la valutazione delle attività. (1) Sintesi dei dati: Utilizzando modelli open-source, sviluppiamo un sintetizzatore di istruzioni visive che genera efficacemente diverse attività di istruzioni visive da coppie immagine-didascalia specifiche del dominio. Le nostre attività sintetiche superano quelle generate da regole manuali, GPT-4 e GPT-4V nel migliorare le prestazioni specifiche del dominio dei MLLM. (2) Flusso di addestramento: Mentre l'addestramento a due fasi - inizialmente su coppie immagine-didascalia seguite da attività di istruzioni visive - è comunemente adottato per lo sviluppo di MLLM generali, applichiamo un flusso di addestramento a singolo stadio per migliorare la diversità delle attività per il post-training specifico del dominio. (3) Valutazione delle attività: Conduciamo esperimenti in due domini, biomedicina e alimentazione, post-trainando MLLM di diverse fonti e dimensioni (ad esempio, Qwen2-VL-2B, LLaVA-v1.6-8B, Llama-3.2-11B), e quindi valutando le prestazioni dei MLLM su varie attività specifiche del dominio. Per supportare ulteriori ricerche sull'adattamento di dominio dei MLLM, renderemo open-source le nostre implementazioni.

Rapporto Tecnico Yi-Lightning
Yi-Lightning Technical Report

Dec 2

By01. AI, Alan Wake, Albert Wang, Bei Chen, C. X. Lv, Chao Li, Chengen Huang, Chenglin Cai, Chujie Zheng, Daniel Cooper, Ethan Dai, Fan Zhou, Feng Hu, Heng Ji, Howard Qiu, Jiangcheng Zhu, Jun Tian, Katherine Su, Lihuan Zhang, Liying Li, Ming Song, Mou Li, Peng Liu, Qichen Hu, Shawn Wang, Shijun Zhou, Shiyong Li, Tianhang Zhu, Wen Xie, Xiang He, Xiaobo Chen, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Yanpeng Li, Yongke Zhao, Yongzhen Luo, Yuchi Xu, Yuxuan Sha, Zhaodong Yan, Zhiyuan Liu, Zirui Zhang

Questo rapporto tecnico presenta Yi-Lightning, il nostro ultimo modello linguistico di grandi dimensioni (LLM) di punta. Raggiunge prestazioni eccezionali, classificandosi al 6° posto complessivo su Chatbot Arena, con risultati particolarmente solidi (dal 2° al 4° posto) in categorie specializzate tra cui Cinese, Matematica, Codifica e Prompt Complessi. Yi-Lightning sfrutta un'architettura avanzata a Mischia di Esperti (MoE), caratterizzata da meccanismi avanzati di segmentazione ed instradamento degli esperti abbinati a tecniche ottimizzate di memorizzazione chiave-valore (KV-caching). Il nostro processo di sviluppo comprende un'ampia preformazione, un raffinamento supervisionato (SFT) e apprendimento per rinforzo dal feedback umano (RLHF), in cui progettiamo strategie deliberate per l'addestramento a più fasi, la costruzione di dati sintetici e la modellazione delle ricompense. Inoltre, implementiamo RAISE (Motore di Sicurezza AI Responsabile), un quadro a quattro componenti per affrontare le problematiche di sicurezza durante le fasi di preformazione, post-formazione e servizio. Potenziati dalla nostra infrastruttura di supercalcolo scalabile, tutte queste innovazioni riducono in modo sostanziale i costi di addestramento, distribuzione e inferenza mantenendo elevati standard di prestazioni. Con ulteriori valutazioni su benchmark accademici pubblici, Yi-Lightning dimostra prestazioni competitive contro i LLM di alto livello, mentre osserviamo una disparità significativa tra i risultati dei benchmark tradizionali e statici e le preferenze umane dinamiche del mondo reale. Questa osservazione sollecita una rivalutazione critica dell'utilità dei benchmark convenzionali nel guidare lo sviluppo di sistemi AI più intelligenti e potenti per applicazioni pratiche. Yi-Lightning è ora disponibile attraverso la nostra piattaforma per sviluppatori su https://platform.lingyiwanwu.com.

Guida di Salto Spazio-Temporale per un Campionamento Migliorato della Diffusione Video
Spatiotemporal Skip Guidance for Enhanced Video Diffusion Sampling

Nov 27

ByJunha Hyung, Kinam Kim, Susung Hong, Min-Jung Kim, Jaegul Choo

I modelli di diffusione sono emersi come uno strumento potente per generare immagini, video e contenuti 3D di alta qualità. Mentre le tecniche di guida del campionamento come CFG migliorano la qualità, riducono la diversità e il movimento. L'autoguida mitiga questi problemi ma richiede un addestramento aggiuntivo del modello debole, limitando la sua praticità per modelli su larga scala. In questo lavoro, presentiamo Spatiotemporal Skip Guidance (STG), un semplice metodo di guida del campionamento privo di addestramento per migliorare i modelli di diffusione video basati su trasformatori. STG impiega un modello debole implicito tramite auto-perturbazione, evitando la necessità di modelli esterni o addestramenti aggiuntivi. Saltando selettivamente strati spaziotemporali, STG produce una versione allineata e degradata del modello originale per potenziare la qualità del campione senza compromettere la diversità o il grado dinamico. I nostri contributi includono: (1) l'introduzione di STG come tecnica di guida efficiente e ad alte prestazioni per i modelli di diffusione video, (2) l'eliminazione della necessità di modelli ausiliari simulando un modello debole attraverso lo skipping degli strati e (3) garantendo una guida potenziata di qualità senza compromettere la diversità o la dinamica del campione come nel caso di CFG. Per ulteriori risultati, visita https://junhahyung.github.io/STGuidance.

Il Pensiero Inverso Rende i LLM Più Forti nei Processi di Ragionamento
Reverse Thinking Makes LLMs Stronger Reasoners

Nov 29

ByJustin Chih-Yao Chen, Zifeng Wang, Hamid Palangi, Rujun Han, Sayna Ebrahimi, Long Le, Vincent Perot, Swaroop Mishra, Mohit Bansal, Chen-Yu Lee, Tomas Pfister

Il pensiero inverso svolge un ruolo cruciale nel ragionamento umano. Gli esseri umani possono ragionare non solo da un problema a una soluzione, ma anche al contrario, cioè partendo dalla soluzione e ragionando verso il problema. Questo spesso migliora le prestazioni complessive del ragionamento poiché consente controlli di coerenza tra il loro pensiero in avanti e all'indietro. Per consentire ai Grandi Modelli Linguistici (LLM) di eseguire il pensiero inverso, introduciamo il Pensiero Potenziato Inverso (RevThink), un framework composto da data augmentation e obiettivi di apprendimento. In RevThink, aumentiamo il dataset raccogliendo ragionamenti strutturati in avanti e all'indietro da un modello insegnante, che consistono in: (1) la domanda originale, (2) il ragionamento in avanti, (3) la domanda all'indietro e (4) il ragionamento all'indietro. Successivamente, utilizziamo tre obiettivi per addestrare un modello studente più piccolo in uno stile di apprendimento multi-task: (a) generare un ragionamento in avanti da una domanda, (b) generare una domanda all'indietro da una domanda e (c) generare un ragionamento all'indietro dalla domanda all'indietro. Gli esperimenti su 12 dataset che coprono il buon senso, la matematica e il ragionamento logico mostrano un miglioramento medio del 13,53% rispetto alle prestazioni zero-shot del modello studente e un miglioramento del 6,84% rispetto alle migliori basi di distillazione della conoscenza. Inoltre, il nostro metodo dimostra efficienza campionaria: utilizzando solo il 10% del ragionamento in avanti corretto dai dati di addestramento, supera un metodo standard di fine-tuning addestrato su 10 volte più ragionamento in avanti. RevThink mostra inoltre una forte generalizzazione ai dataset detenuti fuori distribuzione.

L'incorporamento dell'istante temporale dice: è tempo di memorizzare nella cache per il modello di diffusione video
Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model

Nov 28

ByFeng Liu, Shiwei Zhang, Xiaofeng Wang, Yujie Wei, Haonan Qiu, Yuzhong Zhao, Yingya Zhang, Qixiang Ye, Fang Wan

Come fondamentale supporto per la generazione di video, i modelli di diffusione sono sfidati dalla bassa velocità di inferenza a causa della natura sequenziale del denoising. Metodi precedenti accelerano i modelli memorizzando e riutilizzando le uscite del modello a intervalli di tempo uniformemente selezionati. Tuttavia, tale strategia trascura il fatto che le differenze tra le uscite del modello non sono uniformi tra gli intervalli di tempo, il che ostacola la selezione delle adeguate uscite del modello da memorizzare, portando a un povero equilibrio tra efficienza di inferenza e qualità visiva. In questo studio, introduciamo TeaCache (Timestep Embedding Aware Cache), un approccio di memorizzazione senza addestramento che stima e sfrutta le fluttuanti differenze tra le uscite del modello tra gli intervalli di tempo. Piuttosto che utilizzare direttamente le uscite del modello che richiedono tempo, TeaCache si concentra sugli input del modello, che hanno una forte correlazione con le uscite del modello comportando un costo computazionale trascurabile. TeaCache modula innanzitutto gli input rumorosi utilizzando gli embedding degli intervalli di tempo per garantire che le loro differenze approssimino meglio quelle delle uscite del modello. TeaCache introduce quindi una strategia di riscalamento per raffinare le differenze stimate e le utilizza per indicare la memorizzazione delle uscite. Gli esperimenti mostrano che TeaCache raggiunge un'accelerazione fino a 4,41 volte rispetto a Open-Sora-Plan con una degradazione trascurabile (-0,07% del punteggio Vbench) della qualità visiva.

Diffusione FAM: Modulazione di Frequenza e Attenzione per la Generazione di Immagini ad Alta Risoluzione con Diffusione Stabile
FAM Diffusion: Frequency and Attention Modulation for High-Resolution Image Generation with Stable Diffusion

Nov 27

ByHaosen Yang, Adrian Bulat, Isma Hadji, Hai X. Pham, Xiatian Zhu, Georgios Tzimiropoulos, Brais Martinez

I modelli di diffusione sono efficaci nella generazione di immagini di alta qualità. Tuttavia, sono efficaci solo quando operano alla risoluzione utilizzata durante l'addestramento. L'inferenza a una risoluzione ridimensionata porta a pattern ripetitivi e distorsioni strutturali. Il riaddestramento a risoluzioni più elevate diventa rapidamente proibitivo. Pertanto, i metodi che consentono ai modelli di diffusione preesistenti di operare a risoluzioni flessibili durante il test sono molto desiderabili. I lavori precedenti soffrono di frequenti artefatti e spesso introducono grandi ritardi di latenza. Proponiamo due moduli semplici che si combinano per risolvere questi problemi. Introduciamo un modulo di Modulazione della Frequenza (FM) che sfrutta il dominio di Fourier per migliorare la coerenza della struttura globale, e un modulo di Modulazione dell'Attenzione (AM) che migliora la coerenza dei pattern di texture locali, un problema largamente ignorato nei lavori precedenti. Il nostro metodo, denominato diffusione Fam, può integrarsi senza soluzione di continuità in qualsiasi modello di diffusione latente e non richiede ulteriore addestramento. Estesi risultati qualitativi evidenziano l'efficacia del nostro metodo nel risolvere artefatti strutturali e locali, mentre i risultati quantitativi mostrano prestazioni all'avanguardia. Inoltre, il nostro metodo evita trucchi ridondanti di inferenza per una maggiore coerenza come la generazione basata su patch o progressiva, riducendo al minimo i ritardi di latenza.

Puzzle: NAS basata sulla distillazione per LLM ottimizzati per l'inferenza
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28

ByAkhiad Bercovich, Tomer Ronen, Talor Abramovich, Nir Ailon, Nave Assaf, Mohammad Dabbah, Ido Galil, Amnon Geifman, Yonatan Geifman, Izhak Golan, Netanel Haber, Ehud Karpas, Itay Levy, Shahar Mor, Zach Moshe, Najeeb Nabwani, Omri Puny, Ran Rubin, Itamar Schen, Ido Shahaf, Oren Tropp, Omer Ullman Argov, Ran Zilberstein, Ran El-Yaniv

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità notevoli, ma la loro adozione è limitata dai costi computazionali elevati durante l'inferenza. Aumentare il numero di parametri migliora la precisione, ma allarga anche il divario tra le capacità all'avanguardia e la praticità della distribuzione. Presentiamo Puzzle, un framework per accelerare l'inferenza dei LLM su hardware specifici preservandone le capacità. Attraverso un'applicazione innovativa della ricerca dell'architettura neurale (NAS) su una scala senza precedenti, Puzzle ottimizza sistematicamente modelli con decine di miliardi di parametri sotto vincoli hardware. Il nostro approccio utilizza la distillazione della conoscenza locale a blocchi (BLD) per l'esplorazione dell'architettura parallela e impiega la programmazione mista intera per un'ottimizzazione precisa dei vincoli. Dimostriamo l'impatto concreto del nostro framework attraverso Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B), un modello disponibile pubblicamente derivato da Llama-3.1-70B-Instruct. Nemotron-51B ottiene un aumento della velocità di elaborazione dell'inferenza del 2,17x, adattandosi a una singola GPU NVIDIA H100 preservando il 98,4% delle capacità del modello originale. Attualmente, Nemotron-51B è il modello linguistico più accurato in grado di effettuare inferenze su una singola GPU con batch di grandi dimensioni. Sorprendentemente, questa trasformazione ha richiesto solo 45B di token di addestramento, rispetto ai oltre 15T di token utilizzati per il modello da 70B da cui è derivato. Questo stabilisce un nuovo paradigma in cui modelli potenti possono essere ottimizzati per una distribuzione efficiente con solo compromessi trascurabili delle loro capacità, dimostrando che le prestazioni dell'inferenza, non solo il numero di parametri, dovrebbero guidare la selezione del modello. Con il rilascio di Nemotron-51B e la presentazione del framework Puzzle, offriamo agli operatori l'accesso immediato a capacità di modellazione linguistica all'avanguardia a costi computazionali significativamente ridotti.

Attenzione alla traiettoria per il controllo fine dei movimenti video dettagliati
Trajectory Attention for Fine-grained Video Motion Control

Nov 28

ByZeqi Xiao, Wenqi Ouyang, Yifan Zhou, Shuai Yang, Lei Yang, Jianlou Si, Xingang Pan

Gli avanzamenti recenti nella generazione di video sono stati ampiamente guidati dai modelli di diffusione video, con il controllo del movimento della telecamera che emerge come una sfida cruciale nella creazione di contenuti visivi personalizzati. Questo articolo introduce l'attenzione alla traiettoria, un nuovo approccio che esegue l'attenzione lungo le traiettorie di pixel disponibili per un controllo fine del movimento della telecamera. A differenza dei metodi esistenti che spesso producono output imprecisi o trascurano le correlazioni temporali, il nostro approccio possiede un bias induttivo più forte che inietta senza soluzione di continuità le informazioni sulla traiettoria nel processo di generazione video. In modo importante, il nostro approccio modella l'attenzione alla traiettoria come un ramo ausiliario insieme all'attenzione temporale tradizionale. Questo design consente all'attenzione temporale originale e all'attenzione alla traiettoria di lavorare in sinergia, garantendo sia un controllo preciso del movimento che una nuova capacità di generazione di contenuti, che è fondamentale quando la traiettoria è solo parzialmente disponibile. Gli esperimenti sul controllo del movimento della telecamera per immagini e video dimostrano miglioramenti significativi nella precisione e nella coerenza a lungo raggio mantenendo nel contempo una generazione di alta qualità. Inoltre, mostriamo che il nostro approccio può essere esteso ad altre attività di controllo del movimento video, come l'editing video guidato dal primo frame, dove eccelle nel mantenere la coerenza dei contenuti su ampie aree spaziali e temporali.

Scaling Transformers per la Codifica Vocale ad Alta Qualità a Bassi Bitrate
Scaling Transformers for Low-Bitrate High-Quality Speech Coding

Nov 29

ByJulian D Parker, Anton Smirnov, Jordi Pons, CJ Carr, Zack Zukowski, Zach Evans, Xubo Liu

La tokenizzazione del parlato con modelli neurali di codec audio è una parte fondamentale delle moderne pipeline di intelligenza artificiale per la generazione o comprensione del parlato, da solo o in contesti multimodali. Tradizionalmente, tali modelli di tokenizzazione si sono concentrati su architetture a basso conteggio di parametri utilizzando solo componenti con forti bias induttivi. In questo lavoro mostriamo che scalando un'architettura transformer con un grande conteggio di parametri per questo problema e applicando un bottleneck basato su Quantizzazione Scalare Finita (FSQ) flessibile, è possibile raggiungere una qualità del parlato all'avanguardia a bit-rate estremamente bassi di 400 o 700 bit al secondo. I modelli addestrati superano nettamente i baselines esistenti sia negli esami oggettivi che soggettivi.

DisCoRD: Token discreti a movimento continuo tramite flusso rettificato Decodifica
DisCoRD: Discrete Tokens to Continuous Motion via Rectified Flow Decoding

Nov 29

ByJungbin Cho, Junwan Kim, Jisoo Kim, Minseo Kim, Mingu Kang, Sungeun Hong, Tae-Hyun Oh, Youngjae Yu

Il movimento umano, intrinsecamente continuo e dinamico, presenta significativi sfide per i modelli generativi. Nonostante la loro predominanza, i metodi di quantizzazione discreta, come i VQ-VAE, presentano limitazioni intrinseche, inclusa l'espressività limitata e artefatti di rumore frame-wise. Gli approcci continui, pur producendo movimenti più fluidi e naturali, spesso falliscono a causa della complessità ad alta dimensione e dei dati di addestramento limitati. Per risolvere questa "discordia" tra rappresentazioni discrete e continue, introduciamo DisCoRD: Token Discreti per Movimento Continuo tramite Decodifica di Flusso Raddrizzato, un metodo innovativo che decodifica i token di movimento discreti in movimento continuo attraverso flusso raddrizzato. Impiegando un processo di raffinamento iterativo nello spazio continuo, DisCoRD cattura dinamiche dettagliate e garantisce movimenti più fluidi e naturali. Compatibile con qualsiasi framework basato su discreti, il nostro metodo migliora la naturalezza senza compromettere la fedeltà ai segnali di condizionamento. Valutazioni approfondite dimostrano che DisCoRD raggiunge prestazioni all'avanguardia, con FID di 0.032 su HumanML3D e 0.169 su KIT-ML. Questi risultati consolidano DisCoRD come una soluzione robusta per colmare il divario tra efficienza discreta e realismo continuo. La pagina del nostro progetto è disponibile su: https://whwjdqls.github.io/discord.github.io/.

Guarda Ogni Frame Tutto in Una Volta: Video-Ma^2mba per una Comprensione Efficienti di Video a Lungo Termine con Checkpointing a Gradiente Multi-Asse.
Look Every Frame All at Once: Video-Ma^2mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing

Nov 29

ByHosu Lee, Junho Kim, Hyunjun Kim, Yong Man Ro

Con la crescente scala e complessità dei dati video, elaborare efficientemente lunghe sequenze video pone significativi problemi a causa dell'aumento quadratico delle richieste di memoria e computazionali associato ai modelli Large Multi-modal Models (LMMs) basati su trasformatori esistenti. Per affrontare tali questioni, introduciamo Video-Ma^2mba, una nuova architettura che incorpora i modelli State Space Models (SSMs) all'interno del framework Mamba-2, sostituendo i meccanismi di attenzione. Ciò consente ai LMMs di scalare linearmente in termini di tempo e requisiti di memoria, rendendo possibile gestire contenuti video di lunga durata. Inoltre, miglioriamo l'efficienza della memoria introducendo il metodo Multi-Axis Gradient Checkpointing (MA-GC), che gestisce strategicamente la memoria mantenendo solo le attivazioni essenziali lungo più assi computazionali. Il nostro approccio riduce significativamente l'impronta di memoria rispetto al checkpointing standard dei gradienti. Le analisi empiriche mostrano che Video-Ma^2mba può elaborare estese sequenze video-equivalenti a milioni di token o a oltre due ore di sequenze continue a 1 FPS-su una singola GPU. Mantenendo una cattura dettagliata delle dinamiche temporali, il nostro modello migliora l'accuratezza e la rilevanza delle risposte nei compiti di comprensione video di lunga durata, dimostrando notevoli vantaggi rispetto ai framework esistenti.

MATATA: uno strumento matematico assistito per il ragionamento a supervisione debole per Applicazioni Tabulari
MATATA: a weak-supervised MAthematical Tool-Assisted reasoning for Tabular Applications

Nov 28

ByVishnou Vinayagame, Gregory Senay, Luis Martí

Le capacità di ragionamento matematico stanno aumentando con agenti linguistici potenziati da strumenti, ma i metodi spesso si basano su modelli chiusi o di grandi dimensioni, dati esterni o un'ingegneria di prompt estensiva. Questo lavoro introduce MATATA, un nuovo metodo economico per addestrare agenti LLM per problemi di dati tabulari attraverso ragionamento, pianificazione e utilizzo di strumenti. Con un paradigma di auto-miglioramento progressivo e una debole supervisione iterativa, potenzia i Modelli Linguistici di Piccole Dimensioni (SLM) da 3.8B/8B, particolarmente adatti per l'hosting locale e contesti aziendali sensibili in cui la privacy dei dati è cruciale. Utilizzando strumenti flessibili e riutilizzabili su diversi set di dati, raggiunge prestazioni robuste con scalabilità efficace su compiti condivisi. Gli esperimenti mostrano che MATATA raggiunge prestazioni all'avanguardia su FinQA e TAT-QA tra i framework di ragionamento basati su modelli open-source. Inoltre, i modelli MATATA competono con i framework basati su GPT-4 su TabMWP, pur essendo SLM.

AC3D: Analisi e Miglioramento del Controllo della Telecamera 3D nella Diffusione Video Transformers
AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers

Nov 27

BySherwin Bahmani, Ivan Skorokhodov, Guocheng Qian, Aliaksandr Siarohin, Willi Menapace, Andrea Tagliasacchi, David B. Lindell, Sergey Tulyakov

Numerosi lavori hanno recentemente integrato il controllo della telecamera 3D nei modelli fondamentali di testo-video, ma il controllo della telecamera risultante è spesso impreciso e la qualità della generazione video ne risente. In questo lavoro, analizziamo il movimento della telecamera da una prospettiva dei primi principi, scoprendo intuizioni che consentono una manipolazione precisa della telecamera 3D senza compromettere la qualità della sintesi. Innanzitutto, determiniamo che il movimento indotto dai movimenti della telecamera nei video è di natura a bassa frequenza. Questo ci motiva ad adattare gli orari di condizionamento delle pose di allenamento e test, accelerando la convergenza dell'allenamento migliorando la qualità visiva e del movimento. Successivamente, sondando le rappresentazioni di un trasformatore di diffusione video incondizionato, osserviamo che eseguono implicitamente la stima della posa della telecamera sotto il cofano e solo una sotto-parte dei loro strati contiene le informazioni della telecamera. Questo ci ha suggerito di limitare l'iniezione del condizionamento della telecamera a un sottoinsieme dell'architettura per evitare interferenze con altre caratteristiche video, portando a una riduzione del 4x dei parametri di allenamento, a un miglioramento della velocità di allenamento e a un aumento del 10% della qualità visiva. Infine, completiamo il tipico dataset per l'apprendimento del controllo della telecamera con un dataset curato di 20K video dinamici diversi con telecamere fisse. Questo aiuta il modello a distinguere la differenza tra il movimento della telecamera e della scena, migliorando la dinamica dei video condizionati dalla posa generati. Combiniamo queste scoperte per progettare l'architettura di Controllo Avanzato della Telecamera 3D (AC3D), il nuovo modello all'avanguardia per la modellazione video generativa con controllo della telecamera.

AlphaTablets: Una Rappresentazione Piana Generica per la Ricostruzione Pianare 3D da Video Monoculare
AlphaTablets: A Generic Plane Representation for 3D Planar Reconstruction from Monocular Videos

Nov 29

ByYuze He, Wang Zhao, Shaohui Liu, Yubin Hu, Yushi Bai, Yu-Hui Wen, Yong-Jin Liu

Introduciamo AlphaTablets, una rappresentazione innovativa e generica di piani 3D che presenta una superficie 3D continua e una delineazione precisa dei confini. Rappresentando i piani 3D come rettangoli con canali alfa, AlphaTablets combinano i vantaggi delle attuali rappresentazioni piane 2D e 3D, consentendo una modellazione accurata, coerente e flessibile dei piani 3D. Deriviamo una rasterizzazione differenziabile su AlphaTablets per renderizzare efficientemente i piani 3D in immagini e proponiamo un nuovo pipeline bottom-up per la ricostruzione planare 3D da video monoculari. Partendo da superpixel 2D e indizi geometrici da modelli preaddestrati, iniziamo i piani 3D come AlphaTablets e li ottimizziamo tramite rendering differenziabile. Viene introdotto uno schema efficace di fusione per facilitare la crescita e il perfezionamento di AlphaTablets. Attraverso ottimizzazioni iterative e fusioni, ricostruiamo piani 3D completi e accurati con superfici solide e confini chiari. Estesi esperimenti sul dataset ScanNet dimostrano prestazioni all'avanguardia nella ricostruzione planare 3D, sottolineando il grande potenziale di AlphaTablets come rappresentazione generica di piani 3D per varie applicazioni. La pagina del progetto è disponibile su: https://hyzcluster.github.io/alphatablets

Quadro LLM Docente-Studente per la Classificazione del Testo Senza Dati Annotati Manualmente: Uno Studio di Caso nella Classificazione degli Argomenti delle Notizie IPTC
LLM Teacher-Student Framework for Text Classification With No Manually Annotated Data: A Case Study in IPTC News Topic Classification

Nov 29

ByTaja Kuzman, Nikola Ljubešić

Con il sempre crescente numero di notizie disponibili online, classificarle per argomento, indipendentemente dalla lingua in cui sono scritte, è diventato cruciale per migliorare l'accesso dei lettori ai contenuti rilevanti. Per affrontare questa sfida, proponiamo un framework insegnante-studente basato su grandi modelli linguistici (LLM) per lo sviluppo di modelli multilingue di classificazione delle notizie di dimensioni ragionevoli senza necessità di annotazione manuale dei dati. Il framework utilizza un modello Generative Pretrained Transformer (GPT) come modello insegnante per sviluppare un dataset di addestramento IPTC Media Topic tramite annotazione automatica di articoli di notizie in sloveno, croato, greco e catalano. Il modello insegnante mostra un'elevata performance zero-shot in tutte e quattro le lingue. Il suo accordo con gli annotatori umani è paragonabile a quello tra gli stessi annotatori umani. Per mitigare le limitazioni computazionali associate alla necessità di elaborare milioni di testi quotidianamente, modelli studente più piccoli simili a BERT vengono sintonizzati sul dataset annotato da GPT. Questi modelli studente raggiungono alte performance paragonabili al modello insegnante. Inoltre, esploriamo l'impatto delle dimensioni dei dati di addestramento sulle performance dei modelli studente e indaghiamo sulle loro capacità monolingue, multilingue e zero-shot cross-lingual. I risultati indicano che i modelli studente possono raggiungere alte performance con un numero relativamente piccolo di istanze di addestramento e dimostrano forti capacità zero-shot cross-lingual. Infine, pubblichiamo il classificatore di argomenti di notizie più performante, consentendo la classificazione multilingue con le categorie di alto livello dello schema IPTC Media Topic.

DeMo: Ottimizzazione del Momento Decoppiata
DeMo: Decoupled Momentum Optimization

Nov 29

ByBowen Peng, Jeffrey Quesnelle, Diederik P. Kingma

Allenare grandi reti neurali richiede tipicamente la condivisione dei gradienti tra acceleratori tramite interconnessioni specializzate ad alta velocità. Attingendo ai principi del trattamento del segnale di decomposizione in frequenza e compattazione dell'energia, dimostriamo che sincronizzare stati completi dell'ottimizzatore e parametri del modello durante l'allenamento non è necessario. Decoppiando gli aggiornamenti del momento e consentendo una divergenza controllata negli stati dell'ottimizzatore tra acceleratori, otteniamo una convergenza migliorata rispetto agli ottimizzatori all'avanguardia. Introduciamo DeMo (DeMomentum), un ottimizzatore fuso e un algoritmo parallelo ai dati che riduce i requisiti di comunicazione tra acceleratori di diversi ordini di grandezza. Ciò consente l'allenamento di grandi reti neurali anche con larghezza di banda di rete limitata e hardware eterogeneo. Il nostro metodo è agnostico alla topologia e indipendente dall'architettura e supporta l'allenamento distribuito sincronizzato dall'orologio con un sovraccarico computazionale e di memoria trascurabile. I risultati empirici mostrano che i modelli addestrati con DeMo eguagliano o superano le prestazioni di modelli equivalenti addestrati con AdamW, eliminando nel contempo la necessità di interconnessioni ad alta velocità durante il pre-addestramento di modelli di base su larga scala. Un'implementazione di riferimento open source in PyTorch è pubblicata su GitHub all'indirizzo https://github.com/bloc97/DeMo

SpotLight: Illuminazione guidata dall'ombra degli oggetti tramite diffusione
SpotLight: Shadow-Guided Object Relighting via Diffusion

Nov 27

ByFrédéric Fortier-Chouinard, Zitian Zhang, Louis-Etienne Messier, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

Lavori recenti hanno dimostrato che i modelli di diffusione possono essere utilizzati come potenti motori di rendering neurale che possono essere sfruttati per inserire oggetti virtuali nelle immagini. A differenza dei renderizzatori basati sulla fisica tipici, tuttavia, i motori di rendering neurali sono limitati dalla mancanza di controllo manuale sull'illuminazione, che è spesso essenziale per migliorare o personalizzare l'immagine desiderata. In questo articolo, mostriamo che un controllo preciso dell'illuminazione può essere ottenuto per il relighting degli oggetti semplicemente specificando le ombre desiderate dell'oggetto. Piuttosto sorprendentemente, mostriamo che iniettare solo l'ombra dell'oggetto in un motore di rendering neurale basato sulla diffusione pre-addestrato consente di ombreggiare accuratamente l'oggetto in base alla posizione della luce desiderata, armonizzando correttamente l'oggetto (e la sua ombra) all'interno dell'immagine di sfondo target. Il nostro metodo, SpotLight, sfrutta approcci di rendering neurale esistenti e ottiene risultati di relighting controllabili senza ulteriore addestramento. In particolare, dimostriamo il suo utilizzo con due renderizzatori neurali presenti nella letteratura recente. Mostriamo che SpotLight ottiene risultati superiori nella composizione degli oggetti, sia quantitativamente che percettivamente, come confermato da uno studio condotto sugli utenti, superando i modelli basati sulla diffusione esistenti progettati specificamente per il relighting.

Addestramento del Taglio dei Token di Rumore
Training Noise Token Pruning

Nov 27

ByMingxing Rao, Bohan Jiang, Daniel Moyer

Nel presente lavoro presentiamo il Pruning del Training Noise Token (TNT) per i vision transformers. Il nostro metodo rilassa la condizione di eliminazione del token discreto aggiungendo rumore continuo, garantendo un'ottimizzazione regolare durante il training, pur mantenendo i vantaggi computazionali dell'eliminazione discreta nelle configurazioni di implementazione. Forniamo connessioni teoriche alla letteratura sulla Rate-Distortion e valutazioni empiriche sul dataset ImageNet utilizzando le architetture ViT e DeiT, dimostrando i vantaggi di TNT rispetto ai metodi di pruning precedenti.

Puzzle: NAS basata sulla distillazione per LLM ottimizzati per l'inferenza
Puzzle: Distillation-Based NAS for Inference-Optimized LLMs

Nov 28