Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici (LLM) vengono abitualmente pre-addestrati su miliardi di token, solo per ricominciare il processo da capo una volta che nuovi dati diventano disponibili. Una soluzione molto più efficiente è pre-addestrare continuamente questi modelli, risparmiando un significativo quantitativo di calcolo rispetto al ri-addestramento. Tuttavia, lo spostamento della distribuzione causato dai nuovi dati tipicamente porta a una performance degradata sui dati precedenti o a un adattamento insufficiente ai nuovi dati. In questo lavoro, dimostriamo che una combinazione semplice e scalabile di riscaldamento del tasso di apprendimento (LR), decadimento del LR e replay dei dati precedenti è sufficiente per eguagliare la performance di un ri-addestramento completo da zero su tutti i dati disponibili, misurata dalla perdita finale e dai benchmark di valutazione del modello linguistico (LM). Nello specifico, lo dimostriamo per uno spostamento di distribuzione debole ma realistico tra due comuni dataset di pre-addestramento per LLM (Inglese→Inglese) e uno spostamento di distribuzione più forte (Inglese→Tedesco) su un modello da 405M di parametri con grandi dimensioni dei dataset (centinaia di miliardi di token). Selezionando lo spostamento debole ma realistico per esperimenti su scala più ampia, troviamo inoltre che le nostre strategie di apprendimento continuo eguagliano la baseline di ri-addestramento per un LLM da 10B di parametri. I nostri risultati dimostrano che gli LLM possono essere aggiornati con successo tramite strategie di apprendimento continuo semplici e scalabili, eguagliando la baseline di ri-addestramento utilizzando solo una frazione del calcolo. Infine, ispirati da lavori precedenti, proponiamo alternative alla pianificazione del tasso di apprendimento coseno che aiutano a evitare la dimenticanza indotta dal riscaldamento del LR e che non sono vincolate a un budget fisso di token.
Questo lavoro introduce Gemma, una famiglia di modelli open leggeri e all'avanguardia, sviluppati a partire dalla ricerca e dalla tecnologia utilizzate per creare i modelli Gemini. I modelli Gemma dimostrano prestazioni solide in benchmark accademici per la comprensione del linguaggio, il ragionamento e la sicurezza. Rilasciamo due dimensioni di modelli (2 miliardi e 7 miliardi di parametri) e forniamo checkpoint sia pre-addestrati che fine-tuned. Gemma supera modelli open di dimensioni simili in 11 su 18 task basati su testo, e presentiamo valutazioni complete degli aspetti di sicurezza e responsabilità dei modelli, insieme a una descrizione dettagliata dello sviluppo del modello. Crediamo che il rilascio responsabile di LLM sia fondamentale per migliorare la sicurezza dei modelli di frontiera e per abilitare la prossima ondata di innovazioni negli LLM.
Proponiamo VLOGGER, un metodo per la generazione di video umani guidati da audio a partire da una singola immagine in input di una persona, che si basa sul successo dei recenti modelli generativi di diffusione. Il nostro metodo consiste in 1) un modello stocastico di diffusione da umano a movimento 3D, e 2) una nuova architettura basata su diffusione che potenzia i modelli text-to-image con controlli sia spaziali che temporali. Ciò supporta la generazione di video di alta qualità e lunghezza variabile, facilmente controllabili attraverso rappresentazioni di alto livello di volti e corpi umani. A differenza dei lavori precedenti, il nostro metodo non richiede addestramento per ogni persona, non si basa sul rilevamento e ritaglio del volto, genera l’immagine completa (non solo il volto o le labbra) e considera un ampio spettro di scenari (ad esempio torso visibile o identità diverse dei soggetti) che sono cruciali per sintetizzare correttamente esseri umani che comunicano. Abbiamo inoltre curato MENTOR, un nuovo e diversificato dataset con annotazioni di pose 3D ed espressioni, un ordine di grandezza più ampio rispetto ai precedenti (800.000 identità) e con gesti dinamici, su cui addestriamo e analizziamo i nostri principali contributi tecnici. VLOGGER supera i metodi all’avanguardia in tre benchmark pubblici, considerando qualità dell’immagine, preservazione dell’identità e coerenza temporale, generando anche gesti della parte superiore del corpo. Analizziamo le prestazioni di VLOGGER rispetto a molteplici metriche di diversità, dimostrando che le nostre scelte architetturali e l’uso di MENTOR favoriscono l’addestramento di un modello equo e imparziale su larga scala. Infine, mostriamo applicazioni nell’editing video e nella personalizzazione.
Gli esseri umani apprendono le abilità sociali sia attraverso l'imitazione che l'interazione sociale. Questo processo di apprendimento sociale è ampiamente sottostudiato dalla ricerca esistente sulla costruzione di agenti linguistici. Motivati da questa lacuna, proponiamo un metodo di apprendimento interattivo, SOTOPIA-pi, che migliora l'intelligenza sociale degli agenti linguistici. Questo metodo sfrutta il clonaggio comportamentale e l'addestramento di auto-rinforzo su dati di interazione sociale filtrati in base alle valutazioni di modelli linguistici di grandi dimensioni (LLM). Dimostriamo che il nostro metodo di addestramento consente a un LLM da 7B di raggiungere la capacità di completamento degli obiettivi sociali di un modello esperto (agente basato su GPT-4), migliorando al contempo la sicurezza degli agenti linguistici e mantenendo la capacità generale di risposta alle domande sul benchmark MMLU. Troviamo inoltre che questo paradigma di addestramento rivela alcune difficoltà nella valutazione dell'intelligenza sociale basata su LLM: i valutatori basati su LLM sovrastimano le capacità degli agenti linguistici addestrati specificamente per l'interazione sociale.
I modelli di base sono tecnologie potenti: il modo in cui vengono rilasciati pubblicamente influenza direttamente il loro impatto sociale. In questo position paper, ci concentriamo sui modelli di base aperti, definiti qui come quelli con pesi del modello ampiamente disponibili (ad esempio, Llama 2, Stable Diffusion XL). Identifichiamo cinque proprietà distintive (ad esempio, maggiore personalizzabilità, monitoraggio insufficiente) dei modelli di base aperti che portano sia ai loro benefici che ai loro rischi. I modelli di base aperti presentano significativi benefici, con alcune avvertenze, che abbracciano l'innovazione, la concorrenza, la distribuzione del potere decisionale e la trasparenza. Per comprendere i loro rischi di uso improprio, progettiamo un framework di valutazione del rischio per analizzare il loro rischio marginale. Attraverso diversi vettori di uso improprio (ad esempio, attacchi informatici, armi biologiche), scopriamo che la ricerca attuale è insufficiente per caratterizzare efficacemente il rischio marginale dei modelli di base aperti rispetto alle tecnologie preesistenti. Il framework aiuta a spiegare perché il rischio marginale è basso in alcuni casi, chiarisce i disaccordi sui rischi di uso improprio rivelando che i lavori precedenti si sono concentrati su diversi sottoinsiemi del framework con diverse ipotesi, e articola una via da seguire per un dibattito più costruttivo. Nel complesso, il nostro lavoro contribuisce a supportare una valutazione più fondata dell'impatto sociale dei modelli di base aperti delineando la ricerca necessaria per convalidare empiricamente i loro benefici e rischi teorici.
Le leggi di scalabilità sono guide utili per lo sviluppo di modelli linguistici, ma esistono ancora lacune tra gli studi attuali sulla scalabilità e il modo in cui i modelli linguistici vengono effettivamente addestrati e valutati. Ad esempio, la scalabilità viene solitamente studiata nel regime di addestramento ottimale dal punto di vista computazionale (cioè il regime "ottimale di Chinchilla"); tuttavia, nella pratica, i modelli vengono spesso sovra-addestrati per ridurre i costi di inferenza. Inoltre, le leggi di scalabilità prevedono principalmente la perdita nella previsione del token successivo, ma alla fine i modelli vengono confrontati in base alle prestazioni su task downstream. In questo articolo, affrontiamo entrambe queste carenze. Per farlo, creiamo un banco di prova composto da 104 modelli con parametri che vanno da 0,011 miliardi a 6,9 miliardi, addestrati con vari numeri di token su tre distribuzioni di dati. In primo luogo, investigiamo la scalabilità nel regime di sovra-addestramento. Adattiamo leggi di scalabilità che estrapolano sia il numero di parametri del modello sia il rapporto tra token di addestramento e parametri. Questo ci permette di prevedere la perdita di validazione di un'esecuzione con 1,4 miliardi di parametri e 900 miliardi di token (cioè 32 volte sovra-addestrata) e di un'esecuzione con 6,9 miliardi di parametri e 138 miliardi di token—ciascuna derivata da esperimenti che richiedono 300 volte meno calcolo. In secondo luogo, colleghiamo la perplessità di un modello linguistico alle sue prestazioni su task downstream attraverso una legge di potenza. Utilizziamo questa legge per prevedere l'errore top-1 mediato su task downstream per i due modelli sopra citati, utilizzando esperimenti che richiedono 20 volte meno calcolo. I nostri esperimenti sono disponibili all'indirizzo https://github.com/mlfoundations/scaling.
Affrontando le sfide della scarsità di dati e della sintesi avanzata del movimento nella modellazione delle interazioni uomo-ambiente, introduciamo il dataset TRUMANS insieme a un nuovo metodo di sintesi del movimento per le interazioni uomo-scena (HSI). TRUMANS rappresenta il dataset HSI basato su motion capture più completo attualmente disponibile, comprendendo oltre 15 ore di interazioni umane in 100 ambienti interni. Cattura in modo dettagliato i movimenti corporei completi e le dinamiche a livello di parti degli oggetti, con un focus sul realismo del contatto. Questo dataset viene ulteriormente ampliato trasformando ambienti fisici in modelli virtuali esatti e applicando estese aumentazioni all'aspetto e al movimento sia per gli esseri umani che per gli oggetti, mantenendo al contempo la fedeltà dell'interazione. Utilizzando TRUMANS, progettiamo un modello autoregressivo basato sulla diffusione che genera in modo efficiente sequenze HSI di qualsiasi lunghezza, tenendo conto sia del contesto della scena che delle azioni intenzionali. Negli esperimenti, il nostro approccio dimostra una notevole generalizzabilità zero-shot su una gamma di dataset di scene 3D (ad esempio, PROX, Replica, ScanNet, ScanNet++), producendo movimenti che si avvicinano molto alle sequenze originali catturate con motion capture, come confermato da esperimenti quantitativi e studi umani.
Nonostante i recenti progressi nella generazione da immagine a video, una migliore controllabilità e l'animazione locale sono meno esplorate. La maggior parte dei metodi esistenti per la generazione da immagine a video non sono localmente consapevoli e tendono a muovere l'intera scena. Tuttavia, gli artisti umani potrebbero aver bisogno di controllare il movimento di diversi oggetti o regioni. Inoltre, gli attuali metodi I2V richiedono agli utenti non solo di descrivere il movimento target, ma anche di fornire descrizioni dettagliate ridondanti dei contenuti dei frame. Questi due problemi ostacolano l'utilizzo pratico degli attuali strumenti I2V. In questo articolo, proponiamo un framework pratico, denominato Follow-Your-Click, per ottenere l'animazione di un'immagine con un semplice clic dell'utente (per specificare cosa muovere) e una breve indicazione di movimento (per specificare come muovere). Tecnicamente, proponiamo la strategia di mascheramento del primo frame, che migliora significativamente la qualità della generazione video, e un modulo arricchito di movimento dotato di un dataset di brevi indicazioni di movimento per migliorare le capacità del nostro modello di seguire brevi indicazioni. Per controllare ulteriormente la velocità del movimento, proponiamo un controllo della magnitudine del movimento basato sul flusso per controllare più precisamente la velocità del movimento target. Il nostro framework ha un controllo utente più semplice ma preciso e una migliore performance di generazione rispetto ai metodi precedenti. Esperimenti estensivi confrontati con 7 baseline, inclusi sia strumenti commerciali che metodi di ricerca su 8 metriche, suggeriscono la superiorità del nostro approccio. Pagina del progetto: https://follow-your-click.github.io/
Le rappresentazioni neurali implicite (INR) hanno recentemente ottenuto un grande successo nella rappresentazione e compressione delle immagini, offrendo un'elevata qualità visiva e velocità di rendering elevate, con 10-1000 FPS, a condizione che siano disponibili sufficienti risorse GPU. Tuttavia, questo requisito spesso ne ostacola l'utilizzo su dispositivi di fascia bassa con memoria limitata. In risposta, proponiamo un paradigma innovativo di rappresentazione e compressione delle immagini mediante 2D Gaussian Splatting, denominato GaussianImage. Iniziamo introducendo la Gaussiana 2D per rappresentare l'immagine, dove ogni Gaussiana ha 8 parametri, inclusi posizione, covarianza e colore. Successivamente, presentiamo un nuovo algoritmo di rendering basato sulla somma accumulata. Notevolmente, il nostro metodo, con un utilizzo della memoria GPU almeno 3 volte inferiore e un tempo di adattamento 5 volte più veloce, non solo rivaleggia con le INR (ad esempio, WIRE, I-NGP) in termini di prestazioni di rappresentazione, ma offre anche una velocità di rendering più elevata di 1500-2000 FPS, indipendentemente dalla dimensione dei parametri. Inoltre, integriamo una tecnica di quantizzazione vettoriale esistente per costruire un codec di immagini. I risultati sperimentali dimostrano che il nostro codec raggiunge prestazioni di rate-distortion comparabili a quelle delle INR basate sulla compressione come COIN e COIN++, facilitando velocità di decodifica di circa 1000 FPS. Inoltre, una prova preliminare di concetto mostra che il nostro codec supera COIN e COIN++ in termini di prestazioni quando si utilizza la codifica parziale a bit-back.