Articoli di ricerca IA selezionati quotidianamente con traduzioni
Proponiamo che, per ottenere agenti sovrumani, i modelli futuri richiedano feedback sovrumani per fornire un segnale di addestramento adeguato. Gli approcci attuali addestrano comunemente modelli di ricompensa basati sulle preferenze umane, che potrebbero poi essere limitati dal livello di prestazione umana, e in secondo luogo questi modelli di ricompensa separati e congelati non possono migliorare durante l'addestramento degli LLM. In questo lavoro, studiamo i Modelli Linguistici Auto-Ricompensanti, in cui il modello linguistico stesso viene utilizzato tramite il prompting LLM-as-a-Judge per fornire le proprie ricompense durante l'addestramento. Dimostriamo che, durante l'addestramento Iterativo DPO, non solo migliora la capacità di seguire le istruzioni, ma anche la capacità di fornire ricompense di alta qualità a se stesso. Il fine-tuning di Llama 2 70B su tre iterazioni del nostro approccio produce un modello che supera molti sistemi esistenti nella classifica AlpacaEval 2.0, inclusi Claude 2, Gemini Pro e GPT-4 0613. Sebbene si tratti solo di uno studio preliminare, questo lavoro apre la porta alla possibilità di modelli che possono migliorare continuamente in entrambe le direzioni.
Recentemente, i modelli a spazio di stato (SSM) con design efficienti orientati all'hardware, come Mamba, hanno dimostrato un grande potenziale per la modellazione di sequenze lunghe. Costruire backbone visivi efficienti e generici basati esclusivamente su SSM rappresenta una direzione promettente. Tuttavia, rappresentare dati visivi è una sfida per gli SSM a causa della sensibilità alla posizione dei dati visivi e della necessità di un contesto globale per la comprensione visiva. In questo articolo, dimostriamo che la dipendenza dell'apprendimento della rappresentazione visiva dall'auto-attenzione non è necessaria e proponiamo un nuovo backbone visivo generico con blocchi Mamba bidirezionali (Vim), che contrassegna le sequenze di immagini con incorporamenti di posizione e comprime la rappresentazione visiva con modelli a spazio di stato bidirezionali. Nelle attività di classificazione su ImageNet, rilevamento di oggetti su COCO e segmentazione semantica su ADE20k, Vim raggiunge prestazioni superiori rispetto a transformer visivi consolidati come DeiT, dimostrando anche un significativo miglioramento dell'efficienza computazionale e di memoria. Ad esempio, Vim è 2,8 volte più veloce di DeiT e risparmia l'86,8% della memoria GPU durante l'inferenza batch per estrarre caratteristiche da immagini con una risoluzione di 1248x1248. I risultati dimostrano che Vim è in grado di superare i vincoli computazionali e di memoria nell'eseguire una comprensione in stile Transformer per immagini ad alta risoluzione e ha un grande potenziale per diventare il backbone di prossima generazione per i modelli di fondazione visivi. Il codice è disponibile all'indirizzo https://github.com/hustvl/Vim.
In questo lavoro, introduciamo ChatQA, una famiglia di modelli di risposta a domande conversazionali (QA), che raggiungono livelli di accuratezza paragonabili a GPT-4. Nello specifico, proponiamo un metodo di ottimizzazione a due fasi basato su istruzioni che può migliorare significativamente i risultati di QA conversazionale zero-shot ottenuti da grandi modelli linguistici (LLM). Per gestire il recupero delle informazioni nel QA conversazionale, ottimizziamo un retriever denso su un dataset di QA multi-turn, ottenendo risultati comparabili all'uso del modello di riscrittura delle query più avanzato, riducendo notevolmente i costi di implementazione. In particolare, il nostro ChatQA-70B supera GPT-4 in termini di punteggio medio su 10 dataset di QA conversazionale (54.14 vs. 53.90), senza fare affidamento su dati sintetici provenienti dai modelli GPT di OpenAI.
Un modo per potenziare la capacità di ragionamento dei Large Language Models (LLM) è condurre un Fine-Tuning Supervisionato (SFT) utilizzando annotazioni di tipo Chain-of-Thought (CoT). Tuttavia, questo approccio non mostra una capacità di generalizzazione sufficientemente forte, poiché l'addestramento si basa esclusivamente sui dati CoT forniti. Nella risoluzione di problemi matematici, ad esempio, di solito esiste un solo percorso di ragionamento annotato per ogni domanda nei dati di addestramento. Intuitivamente, sarebbe meglio per l'algoritmo apprendere da più percorsi di ragionamento annotati per una data domanda. Per affrontare questo problema, proponiamo un approccio semplice ma efficace chiamato Reinforced Fine-Tuning (ReFT) per migliorare la generalizzabilità dell'apprendimento dei LLM per il ragionamento, utilizzando come esempio la risoluzione di problemi matematici. ReFT inizialmente riscalda il modello con SFT, e poi utilizza l'apprendimento per rinforzo online, nello specifico l'algoritmo PPO in questo articolo, per affinare ulteriormente il modello, dove una moltitudine di percorsi di ragionamento viene campionata automaticamente per ogni domanda e le ricompense sono derivate naturalmente dalle risposte corrette. Esperimenti estensivi sui dataset GSM8K, MathQA e SVAMP dimostrano che ReFT supera significativamente SFT, e le prestazioni possono essere potenzialmente ulteriormente migliorate combinando strategie di inferenza come il voto a maggioranza e il riordinamento. Si noti che ReFT ottiene il miglioramento apprendendo dalle stesse domande di addestramento di SFT, senza fare affidamento su domande di addestramento aggiuntive o aumentate. Ciò indica una superiore capacità di generalizzazione per ReFT.
Il grounding visivo-linguistico 3D, che si concentra sull'allineamento del linguaggio con l'ambiente fisico tridimensionale, rappresenta una pietra angolare nello sviluppo di agenti incarnati. Rispetto ai recenti progressi nel dominio 2D, il grounding del linguaggio nelle scene 3D affronta diverse sfide significative: (i) la complessità intrinseca delle scene 3D dovuta alle configurazioni diversificate degli oggetti, ai loro attributi ricchi e alle relazioni intricate; (ii) la scarsità di dati accoppiati visivo-linguistici 3D per supportare l'apprendimento basato sul grounding; e (iii) l'assenza di un framework di apprendimento unificato per distillare la conoscenza dai dati 3D con grounding. In questo lavoro, miriamo a affrontare queste tre principali sfide nel campo visivo-linguistico 3D esaminando il potenziale di un ampliamento sistematico dell'apprendimento visivo-linguistico 3D in ambienti indoor. Introduciamo il primo dataset su larga scala per il visivo-linguistico 3D, SceneVerse, che comprende circa 68K scene 3D indoor e 2.5M coppie visivo-linguistiche derivate sia da annotazioni umane che dal nostro approccio scalabile di generazione basato su scene-graph. Dimostriamo che questa scalabilità consente un framework di pre-training unificato, Grounded Pre-training for Scenes (GPS), per l'apprendimento visivo-linguistico 3D. Attraverso esperimenti estensivi, evidenziamo l'efficacia di GPS ottenendo prestazioni all'avanguardia su tutti i benchmark esistenti di grounding visivo 3D. Il vasto potenziale di SceneVerse e GPS viene rivelato attraverso esperimenti di trasferimento zero-shot in impegnativi compiti visivo-linguistici 3D. Sito web del progetto: https://scene-verse.github.io.
Il raggruppamento è intrinsecamente ambiguo a causa dei molteplici livelli di granularità con cui è possibile scomporre una scena: le ruote di un escavatore dovrebbero essere considerate separate o parte dell'insieme? Presentiamo Group Anything with Radiance Fields (GARField), un approccio per scomporre scene 3D in una gerarchia di gruppi semanticamente significativi a partire da immagini con pose note. Per fare ciò, abbracciamo l'ambiguità del raggruppamento attraverso la scala fisica: ottimizzando un campo di caratteristiche di affinità 3D condizionato alla scala, un punto nel mondo può appartenere a diversi gruppi di dimensioni differenti. Ottimizziamo questo campo a partire da un insieme di maschere 2D fornite da Segment Anything (SAM) in modo da rispettare una gerarchia dal generale al dettagliato, utilizzando la scala per fondere in modo coerente maschere in conflitto provenienti da punti di vista diversi. Da questo campo possiamo derivare una gerarchia di possibili raggruppamenti attraverso la costruzione automatica di alberi o l'interazione dell'utente. Valutiamo GARField su una varietà di scene reali e scopriamo che estrae efficacemente gruppi a molti livelli: cluster di oggetti, oggetti singoli e varie parti componenti. GARField rappresenta intrinsecamente raggruppamenti coerenti tra più viste e produce gruppi con una fedeltà superiore rispetto alle maschere SAM di input. Il raggruppamento gerarchico di GARField potrebbe avere interessanti applicazioni a valle, come l'estrazione di asset 3D o la comprensione dinamica delle scene. Visita il sito del progetto all'indirizzo https://www.garfield.studio/
I modelli del mondo svolgono un ruolo cruciale nella comprensione e nella previsione delle dinamiche del mondo, essenziale per la generazione di video. Tuttavia, i modelli del mondo esistenti sono limitati a scenari specifici come i giochi o la guida, riducendo la loro capacità di catturare la complessità degli ambienti dinamici generali del mondo. Pertanto, introduciamo WorldDreamer, un modello del mondo pionieristico per favorire una comprensione completa della fisica e dei movimenti generali del mondo, che migliora significativamente le capacità di generazione video. Traendo ispirazione dal successo dei grandi modelli linguistici, WorldDreamer inquadra la modellazione del mondo come una sfida di modellazione sequenziale visiva non supervisionata. Questo viene ottenuto mappando gli input visivi su token discreti e prevedendo quelli mascherati. Durante questo processo, incorporiamo prompt multimodali per facilitare l'interazione all'interno del modello del mondo. I nostri esperimenti dimostrano che WorldDreamer eccelle nella generazione di video in diversi scenari, inclusi ambienti naturali e di guida. WorldDreamer mostra versatilità nell'esecuzione di compiti come la conversione da testo a video, la sintesi da immagine a video e l'editing video. Questi risultati sottolineano l'efficacia di WorldDreamer nel catturare elementi dinamici all'interno di diversi ambienti generali del mondo.
La generazione di video basata su modelli di diffusione ha ricevuto ampia attenzione e ha ottenuto un notevole successo sia nella comunità accademica che in quella industriale. Tuttavia, gli sforzi attuali si concentrano principalmente sulla generazione di video con obiettivo singolo o su singoli compiti, come la generazione guidata da testo, da immagini o da una combinazione di testo e immagini. Questo non soddisfa pienamente le esigenze degli scenari applicativi del mondo reale, poiché è probabile che gli utenti inseriscano condizioni di immagini e testo in modo flessibile, sia individualmente che in combinazione. Per affrontare questo problema, proponiamo un sistema di Generazione Video Unificata (Unified-modal Video Generation) in grado di gestire molteplici compiti di generazione video attraverso le modalità di testo e immagini. A tal fine, esaminiamo i vari compiti di generazione video all'interno del nostro sistema dal punto di vista della libertà generativa e li classifichiamo in categorie di generazione video ad alta libertà e a bassa libertà. Per la generazione video ad alta libertà, utilizziamo l'attenzione incrociata multi-condizione (Multi-condition Cross Attention) per generare video che si allineano con la semantica delle immagini o del testo in input. Per la generazione video a bassa libertà, introduciamo il rumore gaussiano polarizzato (Biased Gaussian Noise) per sostituire il rumore gaussiano puramente casuale, il che aiuta a preservare meglio il contenuto delle condizioni di input. Il nostro metodo raggiunge il punteggio più basso nella distanza di Fréchet video (FVD) sul benchmark accademico pubblico MSR-VTT, supera i metodi open-source attuali nelle valutazioni umane e si colloca allo stesso livello del metodo closed-source attuale Gen2. Per ulteriori esempi, visitare https://univg-baidu.github.io.
Il dispiegamento e il ridimensionamento dei grandi modelli linguistici (LLM) sono diventati cruciali man mano che permeano varie applicazioni, richiedendo sistemi di servizio ad alta produttività e bassa latenza. I framework esistenti faticano a bilanciare questi requisiti, specialmente per carichi di lavoro con prompt lunghi. Questo articolo introduce DeepSpeed-FastGen, un sistema che utilizza Dynamic SplitFuse, una nuova strategia di composizione di prompt e generazione, per offrire fino a 2,3 volte una produttività effettiva maggiore, una latenza media 2 volte inferiore e fino a 3,7 volte una latenza di coda (a livello di token) inferiore, rispetto a sistemi all'avanguardia come vLLM. Sfruttiamo una combinazione sinergica di DeepSpeed-MII e DeepSpeed-Inference per fornire un sistema di servizio efficiente e facile da usare per gli LLM. L'implementazione avanzata di DeepSpeed-FastGen supporta una gamma di modelli e offre opzioni di dispiegamento sia non persistenti che persistenti, adattandosi a diversi scenari d'uso, dalle sessioni interattive alle applicazioni di lunga durata. Presentiamo una metodologia di benchmarking dettagliata, analizziamo le prestazioni attraverso curve di latenza-produttività e investigiamo la scalabilità tramite bilanciamento del carico. Le nostre valutazioni dimostrano miglioramenti sostanziali nella produttività e nella latenza attraverso vari modelli e configurazioni hardware. Discutiamo la nostra roadmap per futuri miglioramenti, inclusi un supporto più ampio per i modelli e nuovi backend hardware. Il codice di DeepSpeed-FastGen è prontamente disponibile per il coinvolgimento e il contributo della comunità.
La generazione di video da testo mira a produrre un video basato su un prompt specifico. Recentemente, diversi modelli video commerciali sono stati in grado di generare video plausibili con rumore minimo, dettagli eccellenti e punteggi estetici elevati. Tuttavia, questi modelli si basano su video su larga scala, ben filtrati e di alta qualità che non sono accessibili alla comunità. Molti lavori di ricerca esistenti, che addestrano modelli utilizzando il dataset WebVid-10M di bassa qualità, faticano a generare video di alta qualità perché i modelli sono ottimizzati per adattarsi a WebVid-10M. In questo lavoro, esploriamo lo schema di addestramento di modelli video estesi da Stable Diffusion e investigiamo la fattibilità di sfruttare video di bassa qualità e immagini sintetizzate di alta qualità per ottenere un modello video di alta qualità. Inizialmente analizziamo la connessione tra i moduli spaziali e temporali dei modelli video e lo spostamento della distribuzione verso video di bassa qualità. Osserviamo che l'addestramento completo di tutti i moduli risulta in un accoppiamento più forte tra i moduli spaziali e temporali rispetto al solo addestramento dei moduli temporali. Basandoci su questo accoppiamento più forte, spostiamo la distribuzione verso una qualità superiore senza degradazione del movimento, ottimizzando i moduli spaziali con immagini di alta qualità, ottenendo così un modello video generico di alta qualità. Le valutazioni condotte dimostrano la superiorità del metodo proposto, in particolare nella qualità dell'immagine, nel movimento e nella composizione del concetto.
Presentiamo Scalable Interpolant Transformers (SiT), una famiglia di modelli generativi basati sull'architettura dei Diffusion Transformers (DiT). Il framework degli interpolanti, che consente di connettere due distribuzioni in modo più flessibile rispetto ai modelli di diffusione standard, permette uno studio modulare di varie scelte progettuali che influenzano i modelli generativi costruiti su trasporto dinamico: l'uso di apprendimento in tempo discreto rispetto a continuo, la definizione dell'obiettivo per il modello da apprendere, la scelta dell'interpolante che connette le distribuzioni e l'implementazione di un campionatore deterministico o stocastico. Introducendo attentamente gli ingredienti sopra citati, SiT supera DiT in modo uniforme su tutte le dimensioni del modello nel benchmark condizionale ImageNet 256x256, utilizzando esattamente la stessa architettura, numero di parametri e GFLOPs. Esplorando vari coefficienti di diffusione, che possono essere regolati separatamente dall'apprendimento, SiT raggiunge un punteggio FID-50K di 2.06.
La discesa del gradiente stocastica locale (Local-SGD), anche nota come media federata, è un approccio all'ottimizzazione distribuita in cui ogni dispositivo esegue più di un aggiornamento SGD per comunicazione. Questo lavoro presenta uno studio empirico della Local-SGD {\it asincrona} per l'addestramento di modelli linguistici; ovvero, ogni worker aggiorna i parametri globali non appena ha completato i suoi passi SGD. Condurremo un'indagine approfondita esaminando come l'eterogeneità hardware dei worker, la dimensione del modello, il numero di worker e l'ottimizzatore possano influenzare le prestazioni di apprendimento. Scopriamo che, con implementazioni naive, la Local-SGD asincrona richiede più iterazioni per convergere rispetto alla sua controparte sincrona, nonostante aggiorni i parametri del modello (globali) più frequentemente. Identifichiamo l'accelerazione del momento sui parametri globali quando i gradienti dei worker sono obsoleti come una sfida chiave. Proponiamo un metodo innovativo che utilizza un aggiornamento del momento di Nesterov ritardato e regola i passi di addestramento locali dei worker in base alla loro velocità di calcolo. Questo approccio, valutato con modelli fino a 150M di parametri sul dataset C4, eguaglia le prestazioni della Local-SGD sincrona in termini di perplessità per passo di aggiornamento e la supera significativamente in termini di tempo di clock.
Presentiamo TextureDreamer, un metodo innovativo di sintesi delle texture guidata da immagini per trasferire texture rilucenti da un numero ridotto di immagini di input (da 3 a 5) a forme 3D target di categorie arbitrarie. La creazione di texture rappresenta una sfida cruciale nel campo della visione e della grafica. Le aziende industriali assumono artisti esperti per creare manualmente texture per asset 3D. I metodi classici richiedono viste campionate in modo denso e geometrie allineate con precisione, mentre i metodi basati sull'apprendimento sono limitati a forme specifiche della categoria all'interno del dataset. Al contrario, TextureDreamer è in grado di trasferire texture altamente dettagliate e complesse da ambienti reali a oggetti arbitrari utilizzando solo poche immagini catturate casualmente, potenzialmente democratizzando in modo significativo la creazione di texture. La nostra idea centrale, la distillazione del punteggio geometrico personalizzato (PGSD), trae ispirazione dai recenti progressi nei modelli diffusi, inclusa la modellazione personalizzata per l'estrazione delle informazioni sulla texture, la distillazione del punteggio variazionale per la sintesi di aspetti dettagliati e la guida geometrica esplicita con ControlNet. La nostra integrazione e diverse modifiche essenziali migliorano sostanzialmente la qualità della texture. Esperimenti su immagini reali che coprono diverse categorie dimostrano che TextureDreamer può trasferire con successo texture altamente realistiche e semanticamente significative a oggetti arbitrari, superando la qualità visiva dei precedenti state-of-the-art.
Affrontando i limiti del testo come fonte di rappresentazione accurata del layout nei modelli di diffusione condizionati al testo, molti lavori incorporano segnali aggiuntivi per condizionare determinati attributi all'interno di un'immagine generata. Sebbene di successo, i lavori precedenti non tengono conto della specifica localizzazione di detti attributi estesa nel piano tridimensionale. In questo contesto, presentiamo un modello di diffusione condizionata che integra il controllo sul posizionamento tridimensionale degli oggetti con rappresentazioni disaccoppiate della semantica stilistica globale da più immagini esemplari. Nello specifico, introduciamo prima un addestramento di disaccoppiamento della profondità per sfruttare la profondità relativa degli oggetti come stimatore, consentendo al modello di identificare le posizioni assolute di oggetti non visti attraverso l'uso di triplette di immagini sintetiche. Introduciamo anche la guida soft, un metodo per imporre la semantica globale su regioni target senza l'uso di ulteriori indizi di localizzazione. Il nostro framework integrato, Compose and Conquer (CnC), unifica queste tecniche per localizzare più condizioni in modo disaccoppiato. Dimostriamo che il nostro approccio consente la percezione di oggetti a diverse profondità, offrendo un framework versatile per comporre oggetti localizzati con diverse semantiche globali. Codice: https://github.com/tomtom1103/compose-and-conquer/
I Neural Radiance Fields (NeRF) dimostrano prestazioni eccezionali nella Sintesi di Nuove Visualizzazioni (NVS) a partire da un insieme di immagini 2D. Tuttavia, l'addestramento di NeRF richiede pose della fotocamera accurate per ciascuna vista di input, tipicamente ottenute tramite pipeline di Structure-from-Motion (SfM). Recenti lavori hanno cercato di rilassare questo vincolo, ma spesso continuano a dipendere da pose iniziali decenti che possono essere affinate. In questo lavoro, miriamo a eliminare la necessità di un'inizializzazione delle pose. Presentiamo Incremental CONfidence (ICON), una procedura di ottimizzazione per l'addestramento di NeRF a partire da fotogrammi di video 2D. ICON assume solo un movimento fluido della fotocamera per stimare un'ipotesi iniziale delle pose. Inoltre, ICON introduce il concetto di "confidenza": una misura adattativa della qualità del modello utilizzata per ponderare dinamicamente i gradienti. ICON si affida a pose ad alta confidenza per apprendere il NeRF e a una struttura 3D ad alta confidenza (codificata dal NeRF) per apprendere le pose. Dimostriamo che ICON, senza un'inizializzazione preliminare delle pose, raggiunge prestazioni superiori sia in CO3D che in HO3D rispetto ai metodi che utilizzano pose ottenute tramite SfM.