Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il pretraining di Large Language Models (LLM) su grandi corpora di dati testuali è ormai un paradigma standard. Quando si utilizzano questi LLM per molte applicazioni downstream, è comune integrare ulteriormente nuove conoscenze (ad esempio, notizie tempocritiche o conoscenze di dominio private) nel modello pretrainato, sia attraverso prompt basati su RAG, sia tramite fine-tuning. Tuttavia, la metodologia ottimale affinché il modello acquisisca tali nuove conoscenze rimane una questione aperta. In questo articolo, presentiamo il Retrieval Augmented FineTuning (RAFT), una ricetta di addestramento che migliora la capacità del modello di rispondere a domande in contesti "open-book" specifici di un dominio. In RAFT, data una domanda e un insieme di documenti recuperati, addestriamo il modello a ignorare quei documenti che non aiutano a rispondere alla domanda, che chiamiamo documenti distraenti. RAFT raggiunge questo obiettivo citando testualmente la sequenza corretta dal documento rilevante che aiuterebbe a rispondere alla domanda. Questo, unito alla risposta in stile chain-of-thought di RAFT, aiuta a migliorare la capacità di ragionamento del modello. Nel RAG specifico di dominio, RAFT migliora costantemente le prestazioni del modello su dataset come PubMed, HotpotQA e Gorilla, presentando una ricetta post-training per migliorare i LLM pretrainati nel RAG specifico di dominio. Il codice e la demo di RAFT sono open-source su github.com/ShishirPatil/gorilla.
Nella ricerca scientifica e nelle sue applicazioni, l'analisi della letteratura scientifica è fondamentale in quanto consente ai ricercatori di costruire sul lavoro altrui. Tuttavia, la rapida crescita della conoscenza scientifica ha portato a un enorme aumento di articoli accademici, rendendo l'analisi approfondita della letteratura sempre più complessa e dispendiosa in termini di tempo. L'emergere dei Large Language Models (LLM) ha offerto un nuovo modo per affrontare questa sfida. Noti per le loro forti capacità nel riassumere testi, gli LLM sono visti come uno strumento potenziale per migliorare l'analisi della letteratura scientifica. Tuttavia, gli LLM esistenti hanno i loro limiti. La letteratura scientifica include spesso una vasta gamma di elementi multimodali, come strutture molecolari, tabelle e grafici, che sono difficili da comprendere e analizzare per gli LLM focalizzati sul testo. Questo problema evidenzia la necessità urgente di nuove soluzioni in grado di comprendere e analizzare appieno i contenuti multimodali nella letteratura scientifica. Per rispondere a questa esigenza, presentiamo Uni-SMART (Universal Science Multimodal Analysis and Research Transformer), un modello innovativo progettato per una comprensione approfondita della letteratura scientifica multimodale. Attraverso una rigorosa valutazione quantitativa in diversi ambiti, Uni-SMART dimostra prestazioni superiori rispetto ai principali LLM focalizzati sul testo. Inoltre, la nostra esplorazione si estende ad applicazioni pratiche, tra cui il rilevamento di violazioni di brevetti e l'analisi dettagliata di grafici. Queste applicazioni non solo evidenziano l'adattabilità di Uni-SMART, ma anche il suo potenziale di rivoluzionare il modo in cui interagiamo con la letteratura scientifica.
La comprensione di video di lunga durata rappresenta una sfida significativa nell'ambito della visione artificiale, richiedendo un modello in grado di ragionare su sequenze multimodali estese. Ispirati dal processo cognitivo umano per la comprensione di video di lunga durata, poniamo l'accento sul ragionamento interattivo e sulla pianificazione piuttosto che sulla capacità di elaborare input visivi prolungati. Introduciamo un sistema innovativo basato su agenti, VideoAgent, che utilizza un modello linguistico di grandi dimensioni come agente centrale per identificare e compilare in modo iterativo le informazioni cruciali necessarie a rispondere a una domanda, con modelli di base visione-linguaggio che fungono da strumenti per tradurre e recuperare informazioni visive. Valutato sui benchmark impegnativi EgoSchema e NExT-QA, VideoAgent raggiunge un'accuratezza zero-shot del 54,1% e del 71,3% utilizzando in media solo 8,4 e 8,2 frame. Questi risultati dimostrano la superiorità in termini di efficacia ed efficienza del nostro metodo rispetto agli approcci più avanzati attuali, evidenziando il potenziale degli approcci basati su agenti nel far progredire la comprensione di video di lunga durata.
L'allineamento dei grandi modelli linguistici viene solitamente eseguito dai fornitori di modelli per aggiungere o controllare comportamenti che sono comuni o universalmente compresi in diversi casi d'uso e contesti. Al contrario, in questo articolo, presentiamo un approccio e un'architettura che consentono agli sviluppatori di applicazioni di adattare un modello ai loro valori specifici, norme sociali, leggi e altre regolamentazioni, e di orchestrare tra requisiti potenzialmente conflittuali in base al contesto. Descriviamo tre componenti principali di tale architettura denominata Alignment Studio: Framers, Instructors e Auditors, che lavorano in sinergia per controllare il comportamento di un modello linguistico. Illustriamo questo approccio con un esempio pratico di allineamento di un chatbot aziendale interno alle linee guida di condotta aziendale.
In questo articolo, presentiamo un approccio migliorato di decodifica speculativa volto a incrementare l'efficienza nel servire modelli linguistici di grandi dimensioni. Il nostro metodo sfrutta i punti di forza di due tecniche consolidate: il classico approccio di decodifica speculativa a due modelli e il più recente approccio a modello singolo, Medusa. Traendo ispirazione da Medusa, il nostro approccio adotta una strategia a modello singolo per la decodifica speculativa. Tuttavia, il nostro metodo si distingue per l'utilizzo di una singola testa di draft leggera con un design di dipendenza ricorrente, simile in sostanza al piccolo modello di draft utilizzato nella decodifica speculativa classica, ma senza le complessità dell'architettura completa del transformer. Grazie alla dipendenza ricorrente, possiamo utilizzare la ricerca a fascio per filtrare rapidamente i candidati indesiderati con la testa di draft. Il risultato è un metodo che combina la semplicità del design a modello singolo ed evita la necessità di creare una struttura di attenzione ad albero dipendente dai dati solo per l'inferenza in Medusa. Dimostriamo empiricamente l'efficacia del metodo proposto su diversi modelli linguistici open source di rilievo, accompagnati da un'analisi completa dei compromessi coinvolti nell'adozione di questo approccio.
I modelli di generazione audio e musicale basati su diffusione comunemente producono musica costruendo una rappresentazione immagine dell'audio (ad esempio, uno spettrogramma mel) e poi convertendolo in audio utilizzando un modello di ricostruzione della fase o un vocoder. I vocoder tipici, tuttavia, producono audio monofonico a risoluzioni inferiori (ad esempio, 16-24 kHz), il che ne limita l'efficacia. Proponiamo MusicHiFi -- un vocoder stereofonico ad alta fedeltà efficiente. Il nostro metodo impiega una cascata di tre reti generative avversarie (GAN) che convertono spettrogrammi mel a bassa risoluzione in audio, aumentano la risoluzione audio tramite espansione della larghezza di banda, e convertono l'audio in stereofonico. Rispetto ai lavori precedenti, proponiamo 1) un'architettura e una procedura di addestramento unificata basata su GAN per generatore e discriminatore in ogni fase della nostra cascata, 2) un nuovo modulo di estensione della larghezza di banda veloce e quasi compatibile con il downsampling, e 3) un nuovo upmixer mono-to-stereo veloce e compatibile con il downmix che garantisce la preservazione del contenuto monofonico nell'output. Valutiamo il nostro approccio utilizzando sia test oggettivi che soggettivi di ascolto e troviamo che il nostro approccio produce una qualità audio comparabile o migliore, un migliore controllo della spazializzazione, e una velocità di inferenza significativamente più veloce rispetto ai lavori precedenti. Esempi sonori sono disponibili su https://MusicHiFi.github.io/web/.
La ricostruzione dettagliata di oggetti 3D a partire da immagini a singola vista rimane un compito impegnativo a causa delle informazioni limitate disponibili. In questo articolo, presentiamo FDGaussian, un nuovo framework a due fasi per la ricostruzione 3D da singola immagine. I metodi recenti utilizzano tipicamente modelli di diffusione 2D pre-addestrati per generare nuove viste plausibili dall'immagine di input, ma incontrano problemi di incoerenza multi-vista o mancanza di fedeltà geometrica. Per superare queste sfide, proponiamo un meccanismo di decomposizione su piani ortogonali per estrarre caratteristiche geometriche 3D dall'input 2D, consentendo la generazione di immagini multi-vista coerenti. Inoltre, acceleriamo ulteriormente lo stato dell'arte del Gaussian Splatting incorporando l'attenzione epipolare per fondere immagini da diverse prospettive. Dimostriamo che FDGaussian genera immagini con elevata coerenza tra le diverse viste e ricostruisce oggetti 3D di alta qualità, sia qualitativamente che quantitativamente. Altri esempi sono disponibili sul nostro sito web https://qjfeng.net/FDGaussian/.
I precedenti sforzi nello sviluppo di modelli leggeri si sono principalmente concentrati su progetti basati su CNN e Transformer, affrontando tuttavia persistenti sfide. Le CNN, abili nell'estrazione di caratteristiche locali, compromettono la risoluzione, mentre i Transformer offrono una portata globale ma aumentano le richieste computazionali O(N^2). Questo continuo compromesso tra accuratezza ed efficienza rimane un ostacolo significativo. Recentemente, i modelli a spazio di stato (SSM), come Mamba, hanno dimostrato prestazioni eccezionali e competitività in vari compiti come il modeling linguistico e la visione artificiale, riducendo al contempo la complessità temporale dell'estrazione di informazioni globali a O(N). Ispirati da ciò, questo lavoro propone di esplorare il potenziale dei modelli a spazio di stato visivo nel design di modelli leggeri e introduce una nuova variante efficiente denominata EfficientVMamba. Nello specifico, il nostro EfficientVMamba integra un approccio di scansione selettiva basato su atrous mediante campionamento saltato efficiente, costituendo blocchi costruttivi progettati per sfruttare sia le caratteristiche rappresentative globali che locali. Inoltre, indaghiamo l'integrazione tra blocchi SSM e convoluzioni e introduciamo un efficiente blocco a spazio di stato visivo combinato con un ramo di convoluzione aggiuntivo, che eleva ulteriormente le prestazioni del modello. I risultati sperimentali mostrano che EfficientVMamba riduce la complessità computazionale pur ottenendo risultati competitivi in una varietà di compiti di visione. Ad esempio, il nostro EfficientVMamba-S con 1.3G FLOPs migliora Vim-Ti con 1.5G FLOPs con un ampio margine del 5.6% di accuratezza su ImageNet. Il codice è disponibile all'indirizzo: https://github.com/TerryPei/EfficientVMamba.
Incoraggiati dalla crescente disponibilità di modelli di diffusione 2D pre-addestrati, la generazione da immagine a 3D sfruttando il Score Distillation Sampling (SDS) sta compiendo progressi significativi. La maggior parte dei metodi esistenti combina il sollevamento di nuove viste da modelli di diffusione 2D, che di solito prendono l'immagine di riferimento come condizione, applicando una supervisione L2 rigida all'immagine di riferimento. Tuttavia, un'aderenza eccessiva all'immagine tende a corrompere la conoscenza induttiva del modello di diffusione 2D, portando frequentemente a una generazione 3D piatta o distorta. In questo lavoro, riesaminiamo la generazione da immagine a 3D da una nuova prospettiva e presentiamo Isotropic3D, una pipeline di generazione da immagine a 3D che prende in input solo un embedding CLIP di un'immagine. Isotropic3D consente all'ottimizzazione di essere isotropa rispetto all'angolo azimutale basandosi esclusivamente sulla perdita SDS. Il cuore del nostro framework risiede in un fine-tuning a due stadi del modello di diffusione. In primo luogo, eseguiamo il fine-tuning di un modello di diffusione da testo a 3D sostituendo il suo encoder di testo con un encoder di immagini, attraverso il quale il modello acquisisce preliminarmente capacità da immagine a immagine. In secondo luogo, eseguiamo il fine-tuning utilizzando la nostra Explicit Multi-view Attention (EMA), che combina immagini multi-vista rumorose con l'immagine di riferimento priva di rumore come condizione esplicita. L'embedding CLIP viene inviato al modello di diffusione durante l'intero processo, mentre le immagini di riferimento vengono scartate una volta completato il fine-tuning. Di conseguenza, con un singolo embedding CLIP di un'immagine, Isotropic3D è in grado di generare immagini multi-vista reciprocamente consistenti e anche un modello 3D con contenuti più simmetrici e ordinati, geometria ben proporzionata, texture ricca di colori e meno distorsioni rispetto ai metodi esistenti da immagine a 3D, pur preservando in larga misura la somiglianza con l'immagine di riferimento. La pagina del progetto è disponibile all'indirizzo https://isotropic3d.github.io/. Il codice e i modelli sono disponibili all'indirizzo https://github.com/pkunliu/Isotropic3D.
Mentre i compiti di generazione da testo a 3D e da immagine a 3D hanno ricevuto notevole attenzione, un campo importante ma poco esplorato tra di essi è la generazione controllata da testo a 3D, su cui ci concentriamo principalmente in questo lavoro. Per affrontare questo compito, 1) introduciamo Multi-view ControlNet (MVControl), una nuova architettura di rete neurale progettata per migliorare i modelli di diffusione multi-vista pre-addestrati esistenti integrando condizioni di input aggiuntive, come mappe di edge, profondità, normali e schizzi. La nostra innovazione risiede nell'introduzione di un modulo di condizionamento che controlla il modello di diffusione di base utilizzando sia embedding locali che globali, calcolati dalle immagini di condizione di input e dalle pose della telecamera. Una volta addestrato, MVControl è in grado di fornire una guida alla diffusione 3D per la generazione 3D basata su ottimizzazione. E, 2) proponiamo una pipeline efficiente di generazione 3D multi-stadio che sfrutta i vantaggi dei recenti modelli di ricostruzione su larga scala e dell'algoritmo di distillazione del punteggio. Basandoci sulla nostra architettura MVControl, utilizziamo un metodo unico di guida alla diffusione ibrida per dirigere il processo di ottimizzazione. Alla ricerca dell'efficienza, adottiamo i 3D Gaussiani come nostra rappresentazione invece delle comuni rappresentazioni implicite. Siamo anche pionieri nell'uso di SuGaR, una rappresentazione ibrida che lega i Gaussiani alle facce triangolari della mesh. Questo approccio allevia il problema della geometria scadente nei 3D Gaussiani e consente la scultura diretta della geometria fine sulla mesh. Esperimenti estesi dimostrano che il nostro metodo raggiunge una generalizzazione robusta e abilita la generazione controllata di contenuti 3D di alta qualità.
La stima del flusso ottico ad alta precisione in tempo reale è un componente cruciale in varie applicazioni, tra cui la localizzazione e la mappatura nella robotica, il tracciamento degli oggetti e il riconoscimento delle attività nella visione artificiale. Sebbene i recenti metodi di flusso ottico basati sull'apprendimento abbiano raggiunto un'elevata precisione, spesso comportano costi computazionali elevati. In questo articolo, proponiamo un'architettura per il flusso ottico altamente efficiente, denominata NeuFlow, che affronta sia le preoccupazioni relative all'alta precisione che ai costi computazionali. L'architettura segue uno schema globale-locale. Date le caratteristiche delle immagini di input estratte a diverse risoluzioni spaziali, viene utilizzato un matching globale per stimare un flusso ottico iniziale alla risoluzione 1/16, catturando grandi spostamenti, che viene poi raffinato alla risoluzione 1/8 con strati CNN leggeri per una migliore precisione. Valutiamo il nostro approccio su Jetson Orin Nano e RTX 2080 per dimostrare miglioramenti dell'efficienza su diverse piattaforme di calcolo. Raggiungiamo un notevole incremento di velocità da 10x a 80x rispetto a diversi metodi all'avanguardia, mantenendo una precisione comparabile. Il nostro approccio raggiunge circa 30 FPS su piattaforme di edge computing, rappresentando una svolta significativa nell'implementazione di complessi compiti di visione artificiale come SLAM su piccoli robot come i droni. Il codice completo per l'addestramento e la valutazione è disponibile all'indirizzo https://github.com/neufieldrobotics/NeuFlow.