Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Large Language Model (LLM) hanno compiuto grandi progressi negli ultimi anni, raggiungendo prestazioni senza precedenti in diversi compiti. Tuttavia, a causa di interessi commerciali, i modelli più competitivi come GPT, Gemini e Claude sono stati resi accessibili solo attraverso interfacce proprietarie, senza divulgare i dettagli del training. Recentemente, molte istituzioni hanno reso open-source diversi LLM potenti, come LLaMA-3, comparabili ai modelli closed-source esistenti. Tuttavia, vengono forniti solo i pesi del modello, mentre la maggior parte dei dettagli (ad esempio, checkpoint intermedi, corpus di pre-training e codice di training) rimane non divulgata. Per migliorare la trasparenza degli LLM, la comunità di ricerca si è unita per rendere open-source veri LLM aperti (ad esempio, Pythia, Amber, OLMo), fornendo maggiori dettagli (ad esempio, corpus di pre-training e codice di training). Questi modelli hanno notevolmente avanzato lo studio scientifico di questi grandi modelli, inclusi i loro punti di forza, debolezze, bias e rischi. Tuttavia, osserviamo che gli attuali LLM veramente aperti nelle attività di ragionamento, conoscenza e codifica sono ancora inferiori rispetto agli LLM state-of-the-art esistenti con dimensioni simili del modello. A tal fine, rendiamo open-source MAP-Neo, un modello linguistico bilingue altamente capace e trasparente con 7 miliardi di parametri, addestrato da zero su 4,5 trilioni di token di alta qualità. Il nostro MAP-Neo è il primo LLM bilingue completamente open-source con prestazioni comparabili agli LLM state-of-the-art esistenti. Inoltre, rendiamo open-source tutti i dettagli per riprodurre il nostro MAP-Neo, fornendo il corpus di pre-training pulito, la pipeline di pulizia dei dati, i checkpoint e un framework di training/valutazione ben ottimizzato. Infine, speriamo che il nostro MAP-Neo possa potenziare e rafforzare la comunità di ricerca aperta e ispirare ulteriori innovazioni e creatività per facilitare ulteriori miglioramenti degli LLM.
L'ottimizzazione delle preferenze, in particolare attraverso il Reinforcement Learning from Human Feedback (RLHF), ha ottenuto un successo significativo nell'allineare i Large Language Models (LLMs) alle intenzioni umane. A differenza dell'allineamento offline con un dataset fisso, la raccolta di feedback online da parte di umani o AI sulle generazioni del modello porta tipicamente a modelli di ricompensa più capaci e a LLMs meglio allineati attraverso un processo iterativo. Tuttavia, ottenere un modello di ricompensa globalmente accurato richiede un'esplorazione sistematica per generare risposte diversificate che coprano il vasto spazio del linguaggio naturale. Il campionamento casuale da LLMs standard che massimizzano la ricompensa da solo è insufficiente per soddisfare questo requisito. Per affrontare questo problema, proponiamo un obiettivo bilivello ottimisticamente orientato verso risposte potenzialmente ad alta ricompensa per esplorare attivamente regioni fuori distribuzione. Risolvendo il problema a livello interno con la funzione di ricompensa riparametrizzata, l'algoritmo risultante, denominato Self-Exploring Language Models (SELM), elimina la necessità di un modello di ricompensa separato e aggiorna iterativamente l'LLM con un obiettivo semplice. Rispetto al Direct Preference Optimization (DPO), l'obiettivo SELM riduce la preferenza indiscriminata per estrapolazioni non viste e migliora l'efficienza dell'esplorazione. I nostri risultati sperimentali dimostrano che, quando ottimizzato sui modelli Zephyr-7B-SFT e Llama-3-8B-Instruct, SELM migliora significativamente le prestazioni su benchmark di seguito delle istruzioni come MT-Bench e AlpacaEval 2.0, nonché su vari benchmark accademici standard in diverse impostazioni. Il nostro codice e i nostri modelli sono disponibili su https://github.com/shenao-zhang/SELM.
I modelli di text-to-video (T2V) basati su diffusione hanno ottenuto un successo significativo, ma continuano a essere limitati dalla lentezza del processo di campionamento iterativo. Per affrontare questa sfida, sono stati proposti modelli di consistenza per facilitare un'inferenza veloce, sebbene a scapito della qualità del campionamento. In questo lavoro, miriamo a superare il collo di bottiglia qualitativo di un modello di consistenza video (VCM) per ottenere una generazione video sia veloce che di alta qualità. Introduciamo T2V-Turbo, che integra feedback provenienti da una miscela di modelli di ricompensa differenziabili nel processo di distillazione della consistenza (CD) di un modello T2V pre-addestrato. In particolare, ottimizziamo direttamente le ricompense associate a generazioni a singolo passo che emergono naturalmente dal calcolo della perdita CD, aggirando efficacemente i vincoli di memoria imposti dalla retropropagazione dei gradienti attraverso un processo di campionamento iterativo. Notevolmente, le generazioni a 4 passi del nostro T2V-Turbo raggiungono il punteggio totale più alto su VBench, superando persino Gen-2 e Pika. Abbiamo inoltre condotto valutazioni umane per corroborare i risultati, confermando che le generazioni a 4 passi del nostro T2V-Turbo sono preferite rispetto ai campioni a 50 passi DDIM dei loro modelli insegnanti, rappresentando un'accelerazione di oltre dieci volte mentre migliorano la qualità della generazione video.
Questo articolo esamina fino a che punto i grandi modelli linguistici (LLM) abbiano sviluppato una teoria della mente (ToM) di ordine superiore; la capacità umana di ragionare su stati mentali ed emotivi multipli in modo ricorsivo (ad esempio, penso che tu creda che lei sappia). Questo lavoro si basa su ricerche precedenti introducendo una suite di test scritti a mano -- Multi-Order Theory of Mind Q&A -- e utilizzandola per confrontare le prestazioni di cinque LLM con un nuovo benchmark raccolto da adulti umani. Scopriamo che GPT-4 e Flan-PaLM raggiungono prestazioni a livello adulto e quasi adulto nei compiti di ToM complessivamente, e che GPT-4 supera le prestazioni degli adulti nelle inferenze di 6° ordine. I nostri risultati suggeriscono che esiste un'interazione tra la dimensione del modello e l'ottimizzazione per la realizzazione delle capacità di ToM, e che i migliori LLM hanno sviluppato una capacità generalizzata per la ToM. Considerando il ruolo che la ToM di ordine superiore svolge in una vasta gamma di comportamenti umani cooperativi e competitivi, questi risultati hanno implicazioni significative per le applicazioni LLM rivolte agli utenti.
The dominant framework for alignment of large language models (LLM), whether through reinforcement learning from human feedback or direct preference optimisation, is to learn from preference data. This involves building datasets where each element is a quadruplet composed of a prompt, two independent responses (completions of the prompt) and a human preference between the two independent responses, yielding a preferred and a dis-preferred response. Such data is typically scarce and expensive to collect. On the other hand, single-trajectory datasets where each element is a triplet composed of a prompt, a response and a human feedback is naturally more abundant. The canonical element of such datasets is for instance an LLM's response to a user's prompt followed by a user's feedback such as a thumbs-up/down. Consequently, in this work, we propose DRO, or Direct Reward Optimisation, as a framework and associated algorithms that do not require pairwise preferences. DRO uses a simple mean-squared objective that can be implemented in various ways. We validate our findings empirically, using T5 encoder-decoder language models, and show DRO's performance over selected baselines such as Kahneman-Tversky Optimization (KTO). Thus, we confirm that DRO is a simple and empirically compelling method for single-trajectory policy optimisation.
I grandi modelli linguistici (LLM) spesso producono allucinazioni e mancano della capacità di fornire attribuzioni per le loro generazioni. I modelli linguistici semi-parametrici, come il kNN-LM, affrontano queste limitazioni affinando l'output di un modello linguistico per un dato prompt utilizzando le corrispondenze dei vicini più prossimi in un archivio dati non parametrico. Tuttavia, questi modelli spesso presentano velocità di inferenza lente e producono testi non fluenti. In questo articolo, introduciamo il Nearest Neighbor Speculative Decoding (NEST), un nuovo approccio di modellazione linguistica semi-parametrica in grado di incorporare segmenti di testo del mondo reale di lunghezza arbitraria nelle generazioni del modello linguistico e di fornire attribuzioni alle loro fonti. NEST esegue il recupero a livello di token in ogni passo di inferenza per calcolare una distribuzione mista semi-parametrica e identificare promettenti continuazioni di segmenti in un corpus. Utilizza quindi una procedura approssimata di decodifica speculativa che accetta un prefisso del segmento recuperato o genera un nuovo token. NEST migliora significativamente la qualità della generazione e il tasso di attribuzione del modello linguistico di base in una varietà di task ad alta intensità di conoscenza, superando il metodo convenzionale kNN-LM e competendo con l'aumento contestuale del recupero. Inoltre, NEST migliora sostanzialmente la velocità di generazione, ottenendo un'accelerazione di 1,8x nel tempo di inferenza quando applicato a Llama-2-Chat 70B.
Questo articolo presenta EasyAnimate, un metodo avanzato per la generazione di video che sfrutta la potenza dell'architettura transformer per ottenere risultati ad alte prestazioni. Abbiamo ampliato il framework DiT, originariamente progettato per la sintesi di immagini 2D, per adattarlo alle complessità della generazione di video 3D, incorporando un blocco modulo di movimento. Questo modulo è utilizzato per catturare le dinamiche temporali, garantendo così la produzione di frame coerenti e transizioni di movimento fluide. Il modulo di movimento può essere adattato a vari metodi di base DiT per generare video con stili diversi. Può inoltre generare video con diversi frame rate e risoluzioni sia durante la fase di addestramento che di inferenza, adatti sia per immagini che per video. Inoltre, introduciamo slice VAE, un approccio innovativo per condensare l'asse temporale, facilitando la generazione di video di lunga durata. Attualmente, EasyAnimate dimostra la capacità di generare video con 144 frame. Forniamo un ecosistema completo per la produzione di video basato su DiT, che comprende aspetti come la pre-elaborazione dei dati, l'addestramento di VAE, l'addestramento dei modelli DiT (sia il modello di base che il modello LoRA) e l'inferenza end-to-end dei video. Il codice è disponibile all'indirizzo: https://github.com/aigc-apps/EasyAnimate. Stiamo continuamente lavorando per migliorare le prestazioni del nostro metodo.
Integrare più modelli generativi di base, specialmente quelli addestrati su diverse modalità, in qualcosa di maggiore della somma delle sue parti presenta sfide significative. Due ostacoli chiave sono la disponibilità di dati allineati (concetti che contengono significati simili ma sono espressi in modo diverso in diverse modalità) e lo sfruttamento efficace delle rappresentazioni unimodali in compiti generativi cross-domain, senza compromettere le loro capacità unimodali originali. Proponiamo Zipper, un'architettura decoder multi-torre che affronta queste problematiche utilizzando l'attenzione incrociata per comporre in modo flessibile modelli generativi multimodali a partire da decoder unimodali pre-addestrati in modo indipendente. Nei nostri esperimenti che fondono le modalità di parlato e testo, dimostriamo che l'architettura proposta si comporta in modo molto competitivo in scenari con dati allineati testo-parlato limitati. Mostriamo inoltre la flessibilità del nostro modello nel mantenere selettivamente le prestazioni di generazione unimodale (ad esempio, generazione testo-to-testo) congelando la torre modale corrispondente (ad esempio, testo). Nei compiti cross-modali come il riconoscimento automatico del parlato (ASR), dove la modalità di output è il testo, dimostriamo che il congelamento del backbone testuale comporta un degrado delle prestazioni trascurabile. Nei compiti cross-modali come la generazione testo-to-parlato (TTS), dove la modalità di output è il parlato, dimostriamo che l'utilizzo di un backbone parlato pre-addestrato porta a prestazioni superiori rispetto alla baseline.
La creazione di versioni digitali ad alta fedeltà di teste umane rappresenta un importante passo avanti nel processo di integrazione di componenti virtuali nella nostra vita quotidiana. Costruire tali avatar è un problema di ricerca impegnativo, a causa dell'elevata richiesta di fotorealismo e di prestazioni di rendering in tempo reale. In questo lavoro, proponiamo Neural Parametric Gaussian Avatars (NPGA), un approccio basato sui dati per creare avatar ad alta fedeltà e controllabili a partire da registrazioni video multi-vista. Costruiamo il nostro metodo attorno al 3D Gaussian Splatting per la sua altamente efficiente capacità di rendering e per ereditare la flessibilità topologica delle nuvole di punti. A differenza dei lavori precedenti, condizioniamo la dinamica dei nostri avatar sullo spazio espressivo ricco dei modelli di testa neurali parametrici (NPHM), anziché su modelli 3DMM basati su mesh. A tal fine, distilliamo il campo di deformazione inversa del nostro NPHM sottostante in deformazioni dirette compatibili con il rendering basato su rasterizzazione. Tutti i dettagli su scala fine dipendenti dall'espressione vengono appresi dai video multi-vista. Per aumentare la capacità rappresentativa dei nostri avatar, arricchiamo la nuvola di punti gaussiana canonica utilizzando caratteristiche latenti per primitiva che governano il suo comportamento dinamico. Per regolarizzare questa maggiore espressività dinamica, proponiamo termini di Laplaciano sulle caratteristiche latenti e sulle dinamiche previste. Valutiamo il nostro metodo sul dataset pubblico NeRSemble, dimostrando che NPGA supera significativamente i precedenti avatar all'avanguardia nel compito di auto-reinterpretazione di 2.6 PSNR. Inoltre, dimostriamo capacità di animazione accurate a partire da video monoculari del mondo reale.
L'apprendimento per rinforzo basato sul feedback umano (RLHF) ha dimostrato un grande potenziale nell'allineare i grandi modelli linguistici (LLM) alle preferenze umane. A seconda della disponibilità di dati sulle preferenze, sia l'RLHF online che offline sono aree di ricerca attive. Un collo di bottiglia chiave è comprendere come incorporare la stima dell'incertezza nella funzione di ricompensa appresa dai dati sulle preferenze per l'RLHF, indipendentemente da come tali dati vengono raccolti. Sebbene i principi di ottimismo o pessimismo in condizioni di incertezza siano ben consolidati nell'apprendimento per rinforzo standard (RL), una forma praticamente implementabile e teoricamente solida adatta ai grandi modelli linguistici non è ancora disponibile, poiché le tecniche standard per la costruzione di intervalli di confidenza diventano intrattabili con parametrizzazioni arbitrarie delle politiche. In questo articolo, introduciamo un approccio unificato per l'RLHF online e offline: l'ottimizzazione delle preferenze incentivata dal valore (VPO) — che regolarizza la stima di massima verosimiglianza della funzione di ricompensa con la corrispondente funzione di valore, modulata da un segno per indicare se viene scelto l'ottimismo o il pessimismo. VPO ottimizza direttamente la politica con una modellazione implicita della ricompensa, condividendo quindi una pipeline RLHF più semplice, simile all'ottimizzazione diretta delle preferenze. Vengono fornite garanzie teoriche per VPO sia in contesti online che offline, corrispondenti ai tassi delle loro controparti RL standard. Inoltre, esperimenti su riassunto di testo e dialogo verificano la praticità e l'efficacia di VPO.
Il suono è un elemento indispensabile per opere multimediali come videogiochi, musica e film. I recenti modelli di generazione sonora basati su diffusione di alta qualità possono rappresentare strumenti preziosi per i creatori. Tuttavia, nonostante producano suoni di alta qualità, questi modelli spesso soffrono di velocità di inferenza lenta. Questo inconveniente rappresenta un onere per i creatori, che tipicamente affinano i loro suoni attraverso tentativi ed errori per allinearli alle loro intenzioni artistiche. Per affrontare questo problema, introduciamo i Sound Consistency Trajectory Models (SoundCTM). Il nostro modello consente una transizione flessibile tra la generazione sonora di alta qualità in un singolo passaggio e una qualità sonora superiore attraverso la generazione multi-passaggio. Ciò permette ai creatori di controllare inizialmente i suoni con campioni a un singolo passaggio prima di affinarli attraverso la generazione multi-passaggio. Sebbene il CTM raggiunga fondamentalmente una generazione flessibile sia a un singolo che a multi-passaggio, le sue prestazioni impressionanti dipendono fortemente da un estrattore di caratteristiche pre-addestrato aggiuntivo e da una perdita avversaria, che sono costosi da addestrare e non sempre disponibili in altri domini. Pertanto, riformuliamo il framework di addestramento del CTM e introduciamo una nuova distanza delle caratteristiche utilizzando la rete del docente per una perdita di distillazione. Inoltre, mentre distilliamo traiettorie guidate senza classificatore, addestriamo simultaneamente modelli studente condizionali e non condizionali e interpoliamo tra questi modelli durante l'inferenza. Proponiamo anche framework controllabili senza addestramento per SoundCTM, sfruttando la sua capacità di campionamento flessibile. SoundCTM raggiunge sia una promettente generazione sonora in tempo reale a un singolo passaggio che multi-passaggio senza utilizzare alcuna rete preesistente aggiuntiva. Inoltre, dimostriamo la capacità di SoundCTM di generazione sonora controllabile in modo senza addestramento.
I metodi esistenti basati sulla diffusione per la generazione di testo-3D si concentrano principalmente sulla produzione di forme e aspetti visivamente realistici, spesso trascurando i vincoli fisici necessari per le attività successive. I modelli generati spesso non riescono a mantenere l'equilibrio quando vengono inseriti in simulazioni basate sulla fisica o stampati in 3D. Questo equilibrio è cruciale per soddisfare le intenzioni di progettazione dell'utente in contesti come i giochi interattivi, l'AI incarnata e la robotica, dove sono necessari modelli stabili per interazioni affidabili. Inoltre, i modelli stabili garantiscono che gli oggetti stampati in 3D, come le statuine per la decorazione domestica, possano stare in piedi da soli senza richiedere supporti aggiuntivi. Per colmare questa lacuna, introduciamo Atlas3D, un metodo automatico e di facile implementazione che migliora gli strumenti esistenti basati su Score Distillation Sampling (SDS) per la generazione di testo-3D. Atlas3D assicura la generazione di modelli 3D autoportanti che rispettano le leggi fisiche della stabilità sotto gravità, contatto e attrito. Il nostro approccio combina una nuova funzione di perdita basata su simulazione differenziabile con una regolarizzazione ispirata alla fisica, fungendo sia come modulo di raffinamento che di post-elaborazione per i framework esistenti. Verifichiamo l'efficacia di Atlas3D attraverso ampie attività di generazione e convalidiamo i modelli 3D risultanti sia in ambienti simulati che nel mondo reale.