HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

18 papers found

SwitchHead: Accelerazione dei Transformer con Attenzione a Miscela di Esperti
SwitchHead: Accelerating Transformers with Mixture-of-Experts Attention

Dec 13

ByRóbert Csordás, Piotr Piękos, Kazuki Irie, Jürgen Schmidhuber

I costosi strati di self-attention nei moderni Transformer richiedono memoria e calcoli quadratici rispetto alla lunghezza della sequenza. I metodi di approssimazione esistenti generalmente ottengono prestazioni inferiori e non riescono a ottenere significativi miglioramenti di velocità nella pratica. Qui presentiamo SwitchHead, un metodo innovativo che riduce sia i requisiti di calcolo che di memoria e ottiene un'accelerazione in termini di tempo reale, mantenendo le prestazioni di modellazione del linguaggio dei Transformer di riferimento con lo stesso budget di parametri. SwitchHead utilizza strati Mixture-of-Experts (MoE) per le proiezioni dei valori e degli output e richiede da 4 a 8 volte meno matrici di attenzione rispetto ai Transformer standard. La nostra nuova attenzione può anche essere combinata con strati MLP MoE, risultando in un efficiente modello Transformer completamente MoE chiamato "SwitchAll". Il nostro codice è pubblico.

FreeInit: Colmare il divario di inizializzazione nei modelli di diffusione video
FreeInit: Bridging Initialization Gap in Video Diffusion Models

Dec 12

ByTianxing Wu, Chenyang Si, Yuming Jiang, Ziqi Huang, Ziwei Liu

Sebbene la generazione di video basata su modelli di diffusione abbia registrato rapidi progressi, i risultati di inferenza dei modelli esistenti mostrano ancora una consistenza temporale insoddisfacente e dinamiche innaturali. In questo articolo, approfondiamo l'inizializzazione del rumore nei modelli di diffusione video e scopriamo un divario implicito tra addestramento e inferenza che contribuisce alla qualità insoddisfacente dell'inferenza. Le nostre principali scoperte sono: 1) la distribuzione della frequenza spazio-temporale del latente iniziale durante l'inferenza è intrinsecamente diversa da quella durante l'addestramento, e 2) il processo di denoising è significativamente influenzato dalle componenti a bassa frequenza del rumore iniziale. Motivati da queste osservazioni, proponiamo una strategia di campionamento per l'inferenza concisa ma efficace, chiamata FreeInit, che migliora significativamente la consistenza temporale dei video generati dai modelli di diffusione. Attraverso il raffinamento iterativo delle componenti a bassa frequenza spazio-temporale del latente iniziale durante l'inferenza, FreeInit è in grado di compensare il divario di inizializzazione tra addestramento e inferenza, migliorando così efficacemente l'aspetto del soggetto e la consistenza temporale dei risultati generati. Esperimenti estensivi dimostrano che FreeInit migliora costantemente i risultati di generazione di vari modelli di generazione video da testo senza ulteriore addestramento.

VILA: Sul Pre-addestramento per Modelli Linguistico-Visuali
VILA: On Pre-training for Visual Language Models

Dec 12

ByJi Lin, Hongxu Yin, Wei Ping, Yao Lu, Pavlo Molchanov, Andrew Tao, Huizi Mao, Jan Kautz, Mohammad Shoeybi, Song Han

I modelli di linguaggio visivo (VLMs) hanno fatto rapidi progressi grazie ai recenti successi dei grandi modelli di linguaggio (LLMs). Sono stati compiuti crescenti sforzi per l'ottimizzazione tramite istruzioni visive al fine di estendere i LLM con input visivi, ma manca uno studio approfondito del processo di pre-addestramento del linguaggio visivo, in cui il modello impara a eseguire una modellazione congiunta su entrambe le modalità. In questo lavoro, esaminiamo le opzioni di progettazione per il pre-addestramento dei VLMs potenziando i LLM verso i VLMs attraverso confronti controllati passo-passo. Introduciamo tre principali risultati: (1) il congelamento dei LLMs durante il pre-addestramento può ottenere prestazioni zero-shot decenti, ma manca della capacità di apprendimento in contesto, che richiede lo scongelamento del LLM; (2) i dati di pre-addestramento intervallati sono vantaggiosi, mentre le sole coppie immagine-testo non sono ottimali; (3) il ri-miscelamento dei dati di istruzione solo testuali con i dati immagine-testo durante l'ottimizzazione tramite istruzioni non solo rimedia al degrado delle attività solo testuali, ma migliora anche l'accuratezza delle attività VLM. Con una ricetta di pre-addestramento potenziata, costruiamo VILA, una famiglia di modelli di linguaggio visivo che supera costantemente i modelli all'avanguardia, ad esempio LLaVA-1.5, nei principali benchmark senza fronzoli. Il pre-addestramento multimodale aiuta anche a svelare proprietà interessanti di VILA, tra cui il ragionamento su più immagini, un migliore apprendimento in contesto e una migliore conoscenza del mondo.

DiffMorpher: Sfruttare le potenzialità dei modelli di diffusione per il morphing di immagini
DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

Dec 12

ByKaiwen Zhang, Yifan Zhou, Xudong Xu, Xingang Pan, Bo Dai

I modelli di diffusione hanno raggiunto una qualità di generazione di immagini straordinaria, superando i precedenti modelli generativi. Tuttavia, una limitazione significativa dei modelli di diffusione, rispetto alle GAN, è la loro difficoltà nell'interpolare in modo fluido tra due campioni di immagini, a causa del loro spazio latente altamente non strutturato. Tale interpolazione fluida è intrigante in quanto rappresenta naturalmente una soluzione per il compito di morphing di immagini con molte applicazioni. In questo lavoro, presentiamo DiffMorpher, il primo approccio che consente un'interpolazione di immagini fluida e naturale utilizzando modelli di diffusione. La nostra idea chiave è catturare la semantica delle due immagini adattando rispettivamente due LoRA a ciascuna di esse, e interpolare sia i parametri dei LoRA che i rumori latenti per garantire una transizione semantica fluida, in cui la corrispondenza emerge automaticamente senza la necessità di annotazioni. Inoltre, proponiamo una tecnica di interpolazione e iniezione dell'attenzione e un nuovo schema di campionamento per migliorare ulteriormente la fluidità tra immagini consecutive. Esperimenti estensivi dimostrano che DiffMorpher ottiene effetti di morphing di immagini notevolmente migliori rispetto ai metodi precedenti in una varietà di categorie di oggetti, colmando un gap funzionale critico che distingueva i modelli di diffusione dalle GAN.

FreeControl: Controllo Spaziale Senza Addestramento per Qualsiasi Modello di Diffusione da Testo a Immagine con Qualsiasi Condizione
FreeControl: Training-Free Spatial Control of Any Text-to-Image Diffusion Model with Any Condition

Dec 12

BySicheng Mo, Fangzhou Mu, Kuan Heng Lin, Yanli Liu, Bochen Guan, Yin Li, Bolei Zhou

Approcci recenti come ControlNet offrono agli utenti un controllo spaziale fine sui modelli di diffusione testo-immagine (T2I). Tuttavia, è necessario addestrare moduli ausiliari per ogni tipo di condizione spaziale, architettura del modello e checkpoint, rendendoli in contrasto con le diverse intenzioni e preferenze che un progettista umano vorrebbe trasmettere ai modelli di intelligenza artificiale durante il processo di creazione dei contenuti. In questo lavoro, presentiamo FreeControl, un approccio senza addestramento per la generazione controllata di immagini T2I che supporta simultaneamente più condizioni, architetture e checkpoint. FreeControl progetta una guida strutturale per facilitare l'allineamento strutturale con un'immagine di riferimento e una guida estetica per consentire la condivisione dell'aspetto tra immagini generate utilizzando lo stesso seme. Esperimenti qualitativi e quantitativi estesi dimostrano la performance superiore di FreeControl su una varietà di modelli T2I pre-addestrati. In particolare, FreeControl facilita un comodo controllo senza addestramento su molte architetture e checkpoint diversi, consente condizioni di input complesse su cui la maggior parte dei metodi esistenti senza addestramento fallisce e raggiunge una qualità di sintesi competitiva con approcci basati su addestramento.

PromptBench: Una Libreria Unificata per la Valutazione dei Modelli Linguistici di Grande Dimensione
PromptBench: A Unified Library for Evaluation of Large Language Models

Dec 13

ByKaijie Zhu, Qinlin Zhao, Hao Chen, Jindong Wang, Xing Xie

La valutazione dei modelli linguistici di grandi dimensioni (LLM) è fondamentale per valutarne le prestazioni e mitigare i potenziali rischi di sicurezza. In questo articolo, presentiamo PromptBench, una libreria unificata per la valutazione degli LLM. Essa è composta da diversi componenti chiave che sono facilmente utilizzabili ed estendibili dai ricercatori: costruzione dei prompt, ingegnerizzazione dei prompt, caricamento di dataset e modelli, attacchi avversari tramite prompt, protocolli di valutazione dinamici e strumenti di analisi. PromptBench è progettata per essere una codebase aperta, generale e flessibile per scopi di ricerca, in grado di facilitare studi originali nella creazione di nuovi benchmark, nel dispiegamento di applicazioni downstream e nella progettazione di nuovi protocolli di valutazione. Il codice è disponibile all'indirizzo: https://github.com/microsoft/promptbench e sarà supportato in modo continuativo.

Modelli Fondamentali nella Robotica: Applicazioni, Sfide e il Futuro
Foundation Models in Robotics: Applications, Challenges, and the Future

Dec 13

ByRoya Firoozi, Johnathan Tucker, Stephen Tian, Anirudha Majumdar, Jiankai Sun, Weiyu Liu, Yuke Zhu, Shuran Song, Ashish Kapoor, Karol Hausman, Brian Ichter, Danny Driess, Jiajun Wu, Cewu Lu, Mac Schwager

Esaminiamo le applicazioni dei modelli di base preaddestrati nella robotica. I tradizionali modelli di apprendimento profondo in robotica vengono addestrati su piccoli dataset specifici per compiti particolari, il che limita la loro adattabilità a una vasta gamma di applicazioni. Al contrario, i modelli di base preaddestrati su dati di scala internet sembrano possedere capacità di generalizzazione superiori e, in alcuni casi, mostrano un'abilità emergente di trovare soluzioni zero-shot a problemi non presenti nei dati di addestramento. I modelli di base potrebbero avere il potenziale di migliorare vari componenti dello stack di autonomia robotica, dalla percezione alla decisione e al controllo. Ad esempio, i grandi modelli linguistici possono generare codice o fornire ragionamenti di senso comune, mentre i modelli visione-linguaggio abilitano il riconoscimento visivo a vocabolario aperto. Tuttavia, rimangono significative sfide di ricerca aperte, in particolare riguardo alla scarsità di dati di addestramento rilevanti per la robotica, alle garanzie di sicurezza e alla quantificazione dell'incertezza, nonché all'esecuzione in tempo reale. In questa rassegna, studiamo articoli recenti che hanno utilizzato o costruito modelli di base per risolvere problemi di robotica. Esploriamo come i modelli di base contribuiscono a migliorare le capacità dei robot nei domini della percezione, della decisione e del controllo. Discutiamo le sfide che ostacolano l'adozione dei modelli di base nell'autonomia robotica e forniamo opportunità e potenziali percorsi per futuri progressi. Il progetto GitHub corrispondente a questo articolo (Rilascio preliminare. Ci impegniamo a migliorare e aggiornare ulteriormente questo lavoro per garantirne qualità e rilevanza) può essere trovato qui: https://github.com/robotics-survey/Awesome-Robotics-Foundation-Models

Ripensare la compressione: modellazione a ordine ridotto delle caratteristiche latenti nei modelli linguistici su larga scala
Rethinking Compression: Reduced Order Modelling of Latent Features in Large Language Models

Dec 12

ByArnav Chavan, Nahush Lele, Deepak Gupta

A causa della notevole scala dei Modelli Linguistici di Grandi Dimensioni (LLMs), l'applicazione diretta delle metodologie di compressione convenzionali si rivela impraticabile. Le esigenze computazionali associate anche ai minimi aggiornamenti dei gradienti presentano sfide significative, specialmente su hardware di livello consumer. Questo articolo introduce un approccio innovativo per la compressione parametrica e pratica degli LLMs basato sulla modellizzazione a ordine ridotto, che implica la decomposizione a basso rango nello spazio delle caratteristiche e la ri-parametrizzazione nello spazio dei pesi. È importante notare che questa tecnica di compressione opera in modo strato per strato, eliminando la necessità di un dispositivo GPU e consentendo la compressione di modelli su scala miliardi entro vincoli stringenti sia di memoria che di tempo. Il nostro metodo rappresenta un progresso significativo nella compressione dei modelli sfruttando la decomposizione matriciale, dimostrando un'efficacia superiore rispetto al metodo prevalente di potatura strutturata allo stato dell'arte.

Allineamento per l'Onestà
Alignment for Honesty

Dec 12

ByYuqing Yang, Ethan Chern, Xipeng Qiu, Graham Neubig, Pengfei Liu

Recenti ricerche hanno compiuto progressi significativi nell'applicazione di tecniche di allineamento per migliorare l'utilità e l'innocuità dei grandi modelli linguistici (LLM) in conformità con le intenzioni umane. In questo articolo, sosteniamo l'importanza dell'allineamento per l'onestà, garantendo che gli LLM rifiutino proattivamente di rispondere alle domande quando non possiedono le conoscenze necessarie, senza tuttavia essere eccessivamente conservativi. Tuttavia, un aspetto cruciale dell'allineamento per l'onestà riguarda la capacità di discernere i limiti delle conoscenze di un LLM, il che è tutt'altro che semplice. Questa sfida richiede soluzioni complete in termini di sviluppo di metriche, creazione di benchmark e metodologie di addestramento. In questo articolo, affrontiamo queste sfide definendo innanzitutto un problema preciso e definendo l'"onestà" ispirandoci agli Analetti di Confucio. Questo serve come fondamento per sviluppare metriche che misurino efficacemente l'onestà di un LLM quantificando i suoi progressi dopo l'allineamento. Inoltre, introduciamo un framework di addestramento flessibile che viene ulteriormente istanziato da diverse tecniche di fine-tuning efficienti che enfatizzano l'onestà senza sacrificare le prestazioni su altri compiti. I nostri esperimenti estensivi rivelano che questi modelli allineati mostrano un marcato aumento dell'onestà, come indicato dalle metriche da noi proposte. Rendiamo disponibili una vasta gamma di risorse per facilitare la ricerca futura all'indirizzo https://github.com/GAIR-NLP/alignment-for-honesty, inclusi modelli allineati per l'onestà, dataset di addestramento e valutazione per l'allineamento dell'onestà, glossario dei concetti, nonché tutto il codice sorgente rilevante.

Honeybee: Proiettore con miglioramento della località per LLM multimodali
Honeybee: Locality-enhanced Projector for Multimodal LLM

Dec 11

ByJunbum Cha, Wooyoung Kang, Jonghwan Mun, Byungseok Roh

Nei Modelli Linguistici Multimodali di Grande Scala (MLLMs), un proiettore visivo svolge un ruolo cruciale nel collegare encoder visivi pre-addestrati con i LLM, consentendo una profonda comprensione visiva sfruttando le robuste capacità dei LLM. Nonostante l'importanza del proiettore visivo, esso è stato relativamente poco esplorato. In questo studio, identifichiamo innanzitutto due proprietà essenziali del proiettore: (i) la flessibilità nella gestione del numero di token visivi, cruciale per l'efficienza complessiva degli MLLMs, e (ii) la preservazione del contesto locale dalle caratteristiche visive, vitale per la comprensione spaziale. Sulla base di queste osservazioni, proponiamo un nuovo design di proiettore che è sia flessibile che potenziato nella località, soddisfacendo efficacemente le due proprietà desiderabili. Inoltre, presentiamo strategie complete per utilizzare efficacemente dataset di istruzioni multipli e multifaccettati. Attraverso esperimenti estesi, esaminiamo l'impatto delle singole scelte progettuali. Infine, il nostro MLLM proposto, Honeybee, supera notevolmente i precedenti metodi all'avanguardia su vari benchmark, tra cui MME, MMBench, SEED-Bench e LLaVA-Bench, raggiungendo un'efficienza significativamente maggiore. Codice e modelli sono disponibili all'indirizzo https://github.com/kakaobrain/honeybee.

Interfacciamento delle Embedding dei Modelli Fondamentali
Interfacing Foundation Models' Embeddings

Dec 12

ByXueyan Zou, Linjie Li, Jianfeng Wang, Jianwei Yang, Mingyu Ding, Zhengyuan Yang, Feng Li, Hao Zhang, Shilong Liu, Arul Aravinthan, Yong Jae Lee, Lijuan Wang

Presentiamo FIND, un'interfaccia generalizzata per l'allineamento degli embedding dei modelli di base. Come mostrato nella figura introduttiva, un'interfaccia transformer leggera senza la necessità di ottimizzare i pesi del modello di base è sufficiente per una comprensione unificata a livello di immagine (segmentazione) e di dataset (recupero). L'interfaccia proposta presenta i seguenti attributi favorevoli: (1) Generalizzabile. Si applica a varie attività che spaziano dal recupero alla segmentazione, ecc., mantenendo la stessa architettura e gli stessi pesi. (2) Prototipabile. Diverse attività possono essere implementate attraverso la prototipazione di maschere di attenzione e tipi di embedding. (3) Estendibile. L'interfaccia proposta è adattabile a nuove attività e nuovi modelli. (4) Intervallabile. Grazie al vantaggio dell'addestramento multi-task e multi-modale, l'interfaccia proposta crea uno spazio di embedding condiviso intervallato. Alla luce dello spazio di embedding intervallato, introduciamo FIND-Bench, che aggiunge nuove annotazioni di addestramento e valutazione al dataset COCO per la segmentazione e il recupero intervallati. Il nostro approccio raggiunge prestazioni all'avanguardia su FIND-Bench e prestazioni competitive nelle impostazioni standard di recupero e segmentazione. Il codice di addestramento, valutazione e demo, nonché il dataset, sono stati rilasciati su https://github.com/UX-Decoder/FIND.

CCM: Aggiunta di Controlli Condizionali ai Modelli di Coerenza da Testo a Immagine
CCM: Adding Conditional Controls to Text-to-Image Consistency Models

Dec 12

ByJie Xiao, Kai Zhu, Han Zhang, Zhiheng Liu, Yujun Shen, Yu Liu, Xueyang Fu, Zheng-Jun Zha

I Modelli di Consistenza (CMs) hanno dimostrato un potenziale promettente nella creazione di contenuti visivi in modo efficiente e di alta qualità. Tuttavia, il modo per aggiungere nuovi controlli condizionali ai CMs pre-addestrati non è stato ancora esplorato. In questo rapporto tecnico, consideriamo strategie alternative per aggiungere controlli condizionali simili a ControlNet ai CMs e presentiamo tre risultati significativi. 1) ControlNet addestrato per modelli di diffusione (DMs) può essere applicato direttamente ai CMs per controlli semantici di alto livello, ma incontra difficoltà con i dettagli di basso livello e il controllo del realismo. 2) I CMs rappresentano una classe indipendente di modelli generativi, sulla base della quale ControlNet può essere addestrato da zero utilizzando il Consistency Training proposto da Song et al. 3) Un adattatore leggero può essere ottimizzato congiuntamente sotto molteplici condizioni attraverso il Consistency Training, consentendo un trasferimento rapido di ControlNet basato su DMs ai CMs. Studiamo queste tre soluzioni attraverso vari controlli condizionali, tra cui bordi, profondità, pose umane, immagini a bassa risoluzione e immagini mascherate con modelli di consistenza latente da testo a immagine.

Splatting 3D Gaussiano senza COLMAP
COLMAP-Free 3D Gaussian Splatting

Dec 12

ByYang Fu, Sifei Liu, Amey Kulkarni, Jan Kautz, Alexei A. Efros, Xiaolong Wang

Mentre il rendering neurale ha portato a impressionanti progressi nella ricostruzione di scene e nella sintesi di nuove visualizzazioni, esso si basa fortemente su pose della camera pre-calcolate con precisione. Per ridurre questo vincolo, sono stati compiuti diversi sforzi per addestrare i Campi di Radianza Neurale (NeRF) senza pose della camera pre-elaborate. Tuttavia, le rappresentazioni implicite dei NeRF presentano ulteriori sfide per ottimizzare contemporaneamente la struttura 3D e le pose della camera. D'altra parte, il recentemente proposto 3D Gaussian Splatting offre nuove opportunità grazie alle sue rappresentazioni esplicite di nuvole di punti. Questo articolo sfrutta sia la rappresentazione geometrica esplicita che la continuità del flusso video in ingresso per eseguire la sintesi di nuove visualizzazioni senza alcuna pre-elaborazione SfM. Elaboriamo i fotogrammi in ingresso in modo sequenziale e incrementiamo progressivamente l'insieme delle Gaussiane 3D prendendo un fotogramma in ingresso alla volta, senza la necessità di pre-calcolare le pose della camera. Il nostro metodo migliora significativamente rispetto agli approcci precedenti nella sintesi di visualizzazioni e nella stima delle pose della camera in presenza di ampi cambiamenti di movimento. La pagina del nostro progetto è https://oasisyang.github.io/colmap-free-3dgs.

Controllare Llama 2 tramite Aggiunta Attivativa Contrastiva
Steering Llama 2 via Contrastive Activation Addition

Dec 9

ByNina Rimsky, Nick Gabrieli, Julian Schulz, Meg Tong, Evan Hubinger, Alexander Matt Turner

Introduciamo il Contrastive Activation Addition (CAA), un metodo innovativo per orientare i modelli linguistici modificando le attivazioni durante i loro passaggi in avanti. Il CAA calcola "vettori di orientamento" mediando la differenza nelle attivazioni del flusso residuo tra coppie di esempi positivi e negativi di un comportamento specifico, come risposte fattuali rispetto a quelle allucinatorie. Durante l'inferenza, questi vettori di orientamento vengono aggiunti in tutte le posizioni dei token dopo il prompt dell'utente con un coefficiente positivo o negativo, consentendo un controllo preciso sul grado del comportamento mirato. Valutiamo l'efficacia del CAA su Llama 2 Chat utilizzando sia dataset di domande comportamentali a scelta multipla che task di generazione aperta. Dimostriamo che il CAA altera significativamente il comportamento del modello, supera i metodi tradizionali come il fine-tuning e il prompting few-shot e riduce minimamente le capacità. Inoltre, impiegando vari metodi di interpretazione dello spazio di attivazione, otteniamo approfondimenti più dettagliati sui meccanismi del CAA. Il CAA non solo orienta con precisione gli output del modello, ma getta anche luce su come i concetti di alto livello sono rappresentati nei Large Language Models (LLM).

PEEKABOO: Generazione Interattiva di Video tramite Diffusione Maschera
PEEKABOO: Interactive Video Generation via Masked-Diffusion

Dec 12

ByYash Jain, Anshul Nasery, Vibhav Vineet, Harkirat Behl

Recentemente sono stati compiuti notevoli progressi nella generazione di video da testo, con modelli all'avanguardia in grado di produrre video di alta qualità e realistici. Tuttavia, questi modelli non consentono agli utenti di controllare e generare video in modo interattivo, una capacità che potrebbe aprire nuove aree di applicazione. Come primo passo verso questo obiettivo, affrontiamo il problema di dotare i modelli di generazione video basati su diffusione di un controllo spazio-temporale interattivo sul loro output. A tal fine, traiamo ispirazione dai recenti progressi nella letteratura sulla segmentazione per proporre un nuovo modulo di attenzione mascherata spazio-temporale: Peekaboo. Questo modulo è un'aggiunta priva di overhead durante l'inferenza e non richiede addestramento ai modelli di generazione video esistenti, consentendo il controllo spazio-temporale. Proponiamo inoltre un benchmark di valutazione per il compito di generazione video interattiva. Attraverso un'ampia valutazione qualitativa e quantitativa, dimostriamo che Peekaboo abilita la generazione di video controllati e ottiene un miglioramento fino a 3,8x in mIoU rispetto ai modelli di base.

Quanto Bene si Adatta GPT-4V(ision) ai Cambiamenti di Distribuzione? Un'Indagine Preliminare
How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation

Dec 12

ByZhongyi Han, Guanglin Zhou, Rundong He, Jindong Wang, Xing Xie, Tailin Wu, Yilong Yin, Salman Khan, Lina Yao, Tongliang Liu, Kun Zhang

Nel campo dell'apprendimento automatico, la generalizzazione rispetto agli spostamenti di distribuzione — in cui le condizioni di utilizzo divergono dagli scenari di addestramento — è cruciale, specialmente in settori come la modellazione climatica, la biomedicina e la guida autonoma. L'emergere di modelli di base, caratterizzati da un ampio pre-addestramento e versatilità nei compiti, ha suscitato un crescente interesse per la loro adattabilità agli spostamenti di distribuzione. GPT-4V(ision) rappresenta il modello di base multimodale più avanzato pubblicamente accessibile, con applicazioni estese in vari ambiti, tra cui il rilevamento di anomalie, la comprensione video, la generazione di immagini e la diagnosi medica. Tuttavia, la sua robustezza rispetto alle distribuzioni di dati rimane in gran parte inesplorata. Colmando questa lacuna, questo studio valuta rigorosamente l'adattabilità e le capacità di generalizzazione di GPT-4V in ambienti dinamici, confrontandolo con modelli di rilievo come CLIP e LLaVA. Esploriamo la generalizzazione zero-shot di GPT-4V su 13 dataset diversi che spaziano dai domini naturali a quelli medici e molecolari. Inoltre, indaghiamo la sua adattabilità a perturbazioni controllate dei dati ed esaminiamo l'efficacia dell'apprendimento in contesto come strumento per migliorare la sua adattabilità. I nostri risultati delineano i limiti delle capacità di GPT-4V negli spostamenti di distribuzione, evidenziandone punti di forza e limitazioni in vari scenari. In modo significativo, questa indagine contribuisce alla nostra comprensione di come i modelli di base dell'IA generalizzano gli spostamenti di distribuzione, offrendo intuizioni fondamentali sulla loro adattabilità e robustezza. Il codice è disponibile pubblicamente all'indirizzo https://github.com/jameszhou-gl/gpt-4v-distribution-shift.

Addestramento Rapido di Diffusion Transformer con Mascheramento Estremo per la Generazione di Nuvole di Punti 3D
Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

Dec 12

ByShentong Mo, Enze Xie, Yue Wu, Junsong Chen, Matthias Nießner, Zhenguo Li

I Diffusion Transformer hanno recentemente dimostrato una notevole efficacia nella generazione di nuvole di punti 3D di alta qualità. Tuttavia, l'addestramento di modelli di diffusione basati su voxel per voxel 3D ad alta risoluzione rimane proibitivamente costoso a causa della complessità cubica degli operatori di attenzione, derivante dalla dimensione aggiuntiva dei voxel. Motivati dalla ridondanza intrinseca del 3D rispetto al 2D, proponiamo FastDiT-3D, un innovativo transformer di diffusione mascherato progettato per una generazione efficiente di nuvole di punti 3D, che riduce significativamente i costi di addestramento. Nello specifico, traiamo ispirazione dagli autoencoder mascherati per operare dinamicamente il processo di denoising su nuvole di punti voxelizzate mascherate. Proponiamo inoltre una nuova strategia di mascheratura voxel-aware per aggregare in modo adattivo le informazioni di sfondo/primo piano dalle nuvole di punti voxelizzate. Il nostro metodo raggiunge prestazioni all'avanguardia con un rapporto di mascheratura estremo di quasi il 99%. Inoltre, per migliorare la generazione 3D multi-categoria, introduciamo il Mixture-of-Expert (MoE) nel modello di diffusione 3D. Ogni categoria può apprendere un percorso di diffusione distinto con esperti diversi, alleviando i conflitti di gradiente. I risultati sperimentali sul dataset ShapeNet dimostrano che il nostro metodo raggiunge prestazioni all'avanguardia nella generazione di nuvole di punti 3D ad alta fedeltà e diversità. Il nostro FastDiT-3D migliora le metriche di Accuratezza del Vicino più Vicino (1-Nearest Neighbor Accuracy) e Copertura (Coverage) nella generazione di nuvole di punti voxel a risoluzione 128, utilizzando solo il 6,5% del costo di addestramento originale.

"Voglio che sia così": Abilitare il supporto decisionale interattivo utilizzando modelli linguistici di grandi dimensioni e la programmazione con vincoli
"I Want It That Way": Enabling Interactive Decision Support Using Large Language Models and Constraint Programming

Dec 12

ByConnor Lawless, Jakob Schoeffer, Lindy Le, Kael Rowan, Shilad Sen, Cristina St. Hill, Jina Suh, Bahar Sarrafzadeh

Un fattore critico per il successo dei sistemi di supporto alle decisioni è la modellazione accurata delle preferenze degli utenti. La ricerca psicologica ha dimostrato che gli utenti spesso sviluppano le proprie preferenze durante il processo di elicitation, sottolineando il ruolo cruciale dell'interazione sistema-utente nello sviluppo di sistemi personalizzati. Questo articolo introduce un approccio innovativo, che combina Large Language Models (LLM) con la Programmazione a Vincoli per facilitare il supporto decisionale interattivo. Studiamo questo framework ibrido attraverso il caso specifico della pianificazione di riunioni, un'attività quotidiana che richiede tempo e che affrontano numerosi lavoratori dell'informazione. Abbiamo condotto tre studi per valutare il nuovo framework, tra cui uno studio diario (n=64) per caratterizzare le preferenze contestuali nella pianificazione, una valutazione quantitativa delle prestazioni del sistema e uno studio utente (n=10) con un sistema prototipo. Il nostro lavoro evidenzia il potenziale di un approccio ibrido che combina LLM e ottimizzazione per l'elicitazione iterativa delle preferenze e le considerazioni progettuali per la costruzione di sistemi che supportano processi decisionali collaborativi tra uomo e sistema.

Modelli Fondamentali nella Robotica: Applicazioni, Sfide e il Futuro
Foundation Models in Robotics: Applications, Challenges, and the Future

Dec 13