Articoli di ricerca IA selezionati quotidianamente con traduzioni
Presentiamo DeepSeek-Prover-V1.5, un modello linguistico open-source progettato per il teorema proving in Lean 4, che migliora DeepSeek-Prover-V1 ottimizzando sia i processi di addestramento che di inferenza. Pre-addestrato su DeepSeekMath-Base con specializzazione nei linguaggi matematici formali, il modello viene sottoposto a fine-tuning supervisionato utilizzando un dataset potenziato di teorema proving formale derivato da DeepSeek-Prover-V1. Un ulteriore affinamento è ottenuto attraverso il reinforcement learning basato sul feedback dell'assistente di prove (RLPAF). Oltre all'approccio di generazione dell'intera prova in un singolo passaggio di DeepSeek-Prover-V1, proponiamo RMaxTS, una variante della ricerca ad albero Monte-Carlo che impiega una strategia di esplorazione guidata da ricompense intrinseche per generare percorsi di prova diversificati. DeepSeek-Prover-V1.5 dimostra miglioramenti significativi rispetto a DeepSeek-Prover-V1, raggiungendo nuovi risultati all'avanguardia sul test set del benchmark miniF2F di livello liceale (63,5%) e del benchmark ProofNet di livello universitario (25,3%).
I Large Language Models (LLMs) hanno raggiunto progressi significativi; tuttavia, il paradigma di apprendimento comune li tratta come repository passivi di informazioni, trascurando il loro potenziale per l'apprendimento attivo e l'allineamento. Alcuni approcci addestrano i LLMs utilizzando dati sintetici generati da loro stessi, esplorando la possibilità di un allineamento attivo. Tuttavia, esiste ancora un enorme divario tra questi metodi di allineamento una tantum e l'allineamento automatico continuo degli esseri umani. In questo articolo, introduciamo I-SHEEP, un paradigma di Iterative Self-EnHancEmEnt (Miglioramento Iterativo Autonomo). Questo paradigma simile a quello umano consente ai LLMs di allinearsi continuamente da zero senza alcun input esterno. Rispetto al metodo di allineamento una tantum Dromedary (sun2023principledriven), che si riferisce alla prima iterazione in questo articolo, I-SHEEP può migliorare significativamente le capacità sia dei modelli Qwen che Llama. I-SHEEP raggiunge un miglioramento relativo massimo del 78,2% nell'Alpaca Eval, del 24,0% nel MT Bench e un aumento assoluto dell'8,88% nell'accuratezza di IFEval nelle iterazioni successive del modello Qwen-1.5 72B. Inoltre, I-SHEEP supera il modello base in vari task di generazione su benchmark standard, ottenendo un miglioramento medio del 24,77% nei task di generazione di codice, del 12,04% in TrivialQA e del 20,29% in SQuAD. Forniamo anche nuove intuizioni basate sui risultati degli esperimenti. I nostri codici, dataset e modelli sono disponibili all'indirizzo https://anonymous.4open.science/r/I-SHEEP.
Addestrare una rete neurale è un'impresa monolitica, paragonabile a scolpire la conoscenza nella pietra: una volta completato il processo, modificare la conoscenza all'interno di una rete è quasi impossibile, poiché tutte le informazioni sono distribuite tra i pesi della rete. Qui esploriamo un'alternativa semplice e convincente, unendo il potere rappresentativo delle reti neurali profonde con la flessibilità di un database. Scomponendo il compito della classificazione delle immagini in similarità delle immagini (da un embedding pre-addestrato) e ricerca (tramite un rapido recupero dei vicini più prossimi da un database di conoscenza), costruiamo una memoria visiva semplice e flessibile che possiede le seguenti capacità chiave: (1.) La capacità di aggiungere dati in modo flessibile su diverse scale: da singoli campioni fino a intere classi e dati su scala miliardaria; (2.) La capacità di rimuovere dati attraverso l'eliminazione selettiva (unlearning) e la potatura della memoria; (3.) Un meccanismo decisionale interpretabile su cui possiamo intervenire per controllarne il comportamento. Nel complesso, queste capacità dimostrano in modo esaustivo i vantaggi di una memoria visiva esplicita. Speriamo che ciò possa contribuire a una discussione su come la conoscenza dovrebbe essere rappresentata nei modelli di visione profonda -- oltre a scolpirla nei pesi "di pietra".
La distillazione o condensazione di dataset mira a comprimere un ampio dataset di addestramento in uno sintetico molto più piccolo, in modo che le prestazioni di addestramento su reti neurali siano simili tra il dataset distillato e quello originale. Sebbene il numero di campioni di addestramento possa essere ridotto in modo significativo, i metodi attuali all'avanguardia si basano pesantemente su etichette soft di grandi dimensioni per ottenere prestazioni soddisfacenti. Di conseguenza, lo spazio di archiviazione richiesto può essere paragonabile a quello dei dataset originali, specialmente per quelli su larga scala. Per risolvere questo problema, invece di memorizzare queste etichette pesanti, proponiamo un nuovo framework di alleggerimento delle etichette denominato HeLlO, che mira a proiettori efficaci da immagine a etichetta, con i quali le etichette sintetiche possono essere generate direttamente online dalle immagini sintetiche. Nello specifico, per costruire tali proiettori, sfruttiamo la conoscenza pregressa nei modelli di base open-source, ad esempio CLIP, e introduciamo una strategia di fine-tuning simile a LoRA per ridurre il divario tra le distribuzioni pre-addestrate e quelle target, in modo che i modelli originali per la generazione di etichette soft possano essere distillati in un gruppo di matrici a basso rango. Inoltre, viene proposto un metodo efficace di ottimizzazione delle immagini per ridurre ulteriormente l'errore potenziale tra i generatori di etichette originali e quelli distillati. Esperimenti estensivi dimostrano che con solo circa lo 0,003% dello spazio di archiviazione originale richiesto per un set completo di etichette soft, otteniamo prestazioni comparabili ai metodi attuali all'avanguardia per la distillazione di dataset su dataset su larga scala. Il nostro codice sarà disponibile.
La sintesi di video ricchi di movimento e temporalmente coerenti rimane una sfida nell'intelligenza artificiale, specialmente quando si tratta di durate estese. I modelli esistenti di testo-a-video (T2V) comunemente impiegano l'attenzione incrociata spaziale per il controllo del testo, guidando in modo equivalente la generazione di diversi fotogrammi senza una guida testuale specifica per ciascun fotogramma. Di conseguenza, la capacità del modello di comprendere la logica temporale espressa nei prompt e di generare video con movimenti coerenti è limitata. Per affrontare questa limitazione, introduciamo FancyVideo, un innovativo generatore di video che migliora il meccanismo di controllo del testo esistente con il modulo ben progettato di Guida Testuale Inter-fotogramma (CTGM). Nello specifico, CTGM incorpora l'Iniettore di Informazioni Temporali (TII), il Raffinatore di Affinità Temporale (TAR) e il Potenziatore di Caratteristiche Temporali (TFB) rispettivamente all'inizio, al centro e alla fine dell'attenzione incrociata, per ottenere una guida testuale specifica per ciascun fotogramma. In primo luogo, TII inietta informazioni specifiche per fotogramma dalle caratteristiche latenti nelle condizioni testuali, ottenendo così condizioni testuali inter-fotogramma. Successivamente, TAR raffina la matrice di correlazione tra le condizioni testuali inter-fotogramma e le caratteristiche latenti lungo la dimensione temporale. Infine, TFB potenzia la coerenza temporale delle caratteristiche latenti. Esperimenti estensivi comprendenti valutazioni sia quantitative che qualitative dimostrano l'efficacia di FancyVideo. Il nostro approccio raggiunge risultati all'avanguardia nella generazione T2V sul benchmark EvalCrafter e facilita la sintesi di video dinamici e coerenti. I risultati dei video sono disponibili all'indirizzo https://fancyvideo.github.io/, e renderemo pubblicamente disponibili il nostro codice e i pesi del modello.
Mentre molte capacità dei modelli linguistici (LM) migliorano con l'aumento del budget di addestramento, l'influenza della scala sulle allucinazioni non è ancora completamente compresa. Le allucinazioni si presentano in molte forme e non esiste una definizione universalmente accettata. Ci concentriamo quindi sullo studio solo di quelle allucinazioni in cui una risposta corretta appare testualmente nel set di addestramento. Per controllare completamente il contenuto dei dati di addestramento, costruiamo un dataset basato su una knowledge graph (KG) e lo utilizziamo per addestrare una serie di LM progressivamente più grandi. Scopriamo che, per un dataset fisso, LM più grandi e addestrati più a lungo allucinano meno. Tuttavia, allucinare su ≤5% dei dati di addestramento richiede un modello di un ordine di grandezza più grande e, quindi, un ordine di grandezza più elevato di calcolo rispetto a quanto riportato da Hoffmann et al. (2022) come ottimale. Data questa costosità, studiamo come i rilevatori di allucinazioni dipendano dalla scala. Mentre osserviamo che le dimensioni del rilevatore migliorano le prestazioni sugli output di LM fissi, troviamo una relazione inversa tra la scala del LM e la rilevabilità delle sue allucinazioni.
Mentre l'addestramento di grandi modelli linguistici (LLM) da zero può effettivamente portare a modelli con capacità e punti di forza distinti, comporta costi sostanziali e può generare ridondanza nelle competenze. La fusione della conoscenza mira a integrare LLM esistenti con architetture e capacità diverse in un LLM più potente attraverso un addestramento continuo leggero, riducendo così la necessità di sviluppare LLM costosi. In questo lavoro, proponiamo un nuovo framework per la fusione della conoscenza di LLM per chat attraverso due fasi principali, dando vita a FuseChat. In primo luogo, eseguiamo una fusione della conoscenza a coppie su LLM per chat sorgente con strutture e dimensioni variabili per creare più LLM target con struttura e dimensione identiche tramite un fine-tuning leggero. Durante questo processo, introduciamo un approccio di allineamento dei token basato su statistiche come elemento fondamentale per fondere LLM con strutture diverse. In secondo luogo, uniamo questi LLM target nello spazio dei parametri, dove proponiamo un metodo innovativo per determinare i coefficienti di fusione basati sull'entità degli aggiornamenti dei parametri prima e dopo il fine-tuning. Implementiamo e validiamo FuseChat utilizzando sei importanti LLM per chat con architetture e dimensioni diverse, tra cui OpenChat-3.5-7B, Starling-LM-7B-alpha, NH2-SOLAR-10.7B, InternLM2-Chat-20B, Mixtral-8x7B-Instruct e Qwen-1.5-Chat-72B. I risultati sperimentali su due benchmark di esecuzione di istruzioni, AlpacaEval 2.0 e MT-Bench, dimostrano la superiorità di FuseChat-7B rispetto ai modelli di riferimento di varie dimensioni. Il nostro modello è persino paragonabile al più grande Mixtral-8x7B-Instruct e si avvicina a GPT-3.5-Turbo-1106 su MT-Bench. Il nostro codice, i pesi del modello e i dati sono pubblici all'indirizzo https://github.com/fanqiwan/FuseAI.
Il framework Mixture of Experts (MoE) è diventato un'architettura popolare per i grandi modelli linguistici grazie alle sue prestazioni superiori rispetto ai modelli densi. Tuttavia, addestrare MoE da zero su larga scala è proibitivamente costoso. I metodi esistenti mitigano questo problema pre-addestrando in modo indipendente più modelli densi di esperti e utilizzandoli per inizializzare un MoE. Questo viene fatto utilizzando la rete feed-forward (FFN) degli esperti per inizializzare gli esperti del MoE, mentre si fondono altri parametri. Tuttavia, questo metodo limita il riutilizzo dei parametri dei modelli densi solo agli strati FFN, limitando così i vantaggi quando si "riciclano" questi modelli in MoE. Proponiamo BAM (Branch-Attend-Mix), un metodo semplice ma efficace che affronta questa carenza. BAM sfrutta appieno i modelli densi specializzati non solo utilizzando la loro FFN per inizializzare gli strati MoE, ma anche sfruttando completamente i parametri di attenzione degli esperti inizializzandoli in una variante soft degli strati Mixture of Attention (MoA). Esploriamo due metodi per riciclare i parametri di attenzione: 1) inizializzare esperti di attenzione separati dai modelli densi includendo tutti i parametri di attenzione per ottenere le migliori prestazioni del modello; e 2) condividere i parametri di chiave e valore tra tutti gli esperti per favorire una migliore efficienza inferenziale. Per migliorare ulteriormente l'efficienza, adottiamo un'architettura transformer con attenzione parallela per i MoE, che consente di calcolare contemporaneamente gli esperti di attenzione e gli esperti FFN. I nostri esperimenti su modelli di partenza che vanno da 590 milioni a 2 miliardi di parametri dimostrano che BAM supera i baseline sia in termini di perplessità che di prestazioni su task downstream, mantenendo gli stessi vincoli computazionali e di dati.
Le conversazioni uomo-modello offrono una finestra sugli scenari del mondo reale, sui comportamenti e sulle esigenze degli utenti, rappresentando quindi una risorsa preziosa per lo sviluppo e la ricerca sui modelli. Mentre le aziende a scopo di lucro raccolgono dati degli utenti attraverso le API dei loro modelli, utilizzandoli internamente per migliorare i propri sistemi, la comunità open source e di ricerca rimane indietro. Presentiamo la raccolta ShareLM, un insieme unificato di conversazioni umane con modelli linguistici di grandi dimensioni, e il relativo plugin, un'estensione web per contribuire volontariamente alle conversazioni utente-modello. Mentre poche piattaforme condividono le loro chat, il plugin ShareLM aggiunge questa funzionalità, consentendo agli utenti di condividere conversazioni dalla maggior parte delle piattaforme. Il plugin permette all'utente di valutare le proprie conversazioni, sia a livello di dialogo che di singola risposta, e di eliminare le conversazioni che preferisce mantenere private prima che queste lascino la memoria locale dell'utente. Rilasciamo le conversazioni raccolte tramite il plugin come parte della raccolta ShareLM e invitiamo a un maggiore impegno della comunità nel campo dei dati aperti sulle interazioni uomo-modello. Il codice, il plugin e i dati sono disponibili.
Questo articolo introduce PeriodWave-Turbo, un modello di generazione di waveform ad alta fedeltà ed efficienza tramite ottimizzazione adversarial flow matching. Recentemente, i modelli generativi conditional flow matching (CFM) sono stati adottati con successo per compiti di generazione di waveform, sfruttando un obiettivo di stima di un singolo campo vettoriale per l'addestramento. Sebbene questi modelli possano generare segnali waveform ad alta fedeltà, richiedono un numero significativamente maggiore di passaggi ODE rispetto ai modelli basati su GAN, che necessitano di un solo passaggio di generazione. Inoltre, i campioni generati spesso mancano di informazioni ad alta frequenza a causa della stima rumorosa del campo vettoriale, che non garantisce una riproduzione fedele delle alte frequenze. Per affrontare questa limitazione, abbiamo potenziato i modelli generativi pre-addestrati basati su CFM incorporando una modifica del generatore a passi fissi. Abbiamo utilizzato perdite di ricostruzione e feedback adversarial per accelerare la generazione di waveform ad alta fedeltà. Attraverso l'ottimizzazione adversarial flow matching, sono necessari solo 1.000 passaggi di fine-tuning per raggiungere prestazioni all'avanguardia su varie metriche oggettive. Inoltre, abbiamo ridotto significativamente la velocità di inferenza da 16 passaggi a 2 o 4 passaggi. In aggiunta, aumentando la dimensione del backbone di PeriodWave da 29M a 70M parametri per migliorare la generalizzazione, PeriodWave-Turbo raggiunge prestazioni senza precedenti, con un punteggio di valutazione percettiva della qualità del parlato (PESQ) di 4.454 sul dataset LibriTTS. Campioni audio, codice sorgente e checkpoint saranno disponibili su https://github.com/sh-lee-prml/PeriodWave.
La sintesi di nuove viste (Novel View Synthesis, NVS) e la generazione 3D hanno recentemente ottenuto miglioramenti significativi. Tuttavia, questi lavori si concentrano principalmente su categorie limitate o su risorse 3D sintetiche, il che ne impedisce la generalizzazione a scene complesse del mondo reale e rende difficile l'integrazione diretta con la sintesi 2D. Inoltre, questi metodi dipendono fortemente dalle pose della telecamera, limitandone le applicazioni pratiche. Per superare questi problemi, proponiamo MVInpainter, riformulando l'editing 3D come un'attività di inpainting 2D multi-vista. Nello specifico, MVInpainter esegue l'inpainting parziale di immagini multi-vista con guida di riferimento, anziché generare da zero una vista completamente nuova, semplificando notevolmente la complessità della NVS in contesti reali e sfruttando indizi non mascherati invece di condizioni esplicite sulla posa. Per garantire la coerenza tra le viste, MVInpainter è potenziato da prior video derivate da componenti di movimento e da una guida sull'aspetto basata sull'attenzione concatenata di chiavi e valori di riferimento. Inoltre, MVInpainter incorpora l'attenzione a slot per aggregare caratteristiche di flusso ottico di alto livello da regioni non mascherate, consentendo il controllo del movimento della telecamera senza bisogno di pose durante l'addestramento e l'inferenza. Esperimenti sufficienti a livello di scena, sia su dataset centrati sugli oggetti che su dataset frontali, confermano l'efficacia di MVInpainter in diverse attività, come la rimozione, la sintesi, l'inserimento e la sostituzione di oggetti multi-vista. La pagina del progetto è disponibile all'indirizzo https://ewrfcas.github.io/MVInpainter/.
Valutare le capacità dei grandi modelli linguistici (LLM) è spesso impegnativo, in parte perché è difficile trovare compiti a cui non siano stati esposti durante l'addestramento. Facciamo un passo avanti per affrontare questa sfida rivolgendoci a un nuovo compito: concentrarci sui programmi grafici simbolici, che sono una rappresentazione popolare per i contenuti grafici che generano in modo procedurale dati visivi. I LLM hanno mostrato promettenti potenzialità nella sintesi di programmi, ma comprendono i programmi grafici simbolici? A differenza dei programmi convenzionali, i programmi grafici simbolici possono essere tradotti in contenuti grafici. Qui, caratterizziamo la comprensione di un LLM dei programmi simbolici in termini della loro capacità di rispondere a domande relative ai contenuti grafici. Questo compito è impegnativo perché le domande sono difficili da rispondere basandosi solo sui programmi simbolici — eppure, sarebbero facili da rispondere osservando i corrispondenti contenuti grafici, come verifichiamo attraverso un esperimento umano. Per comprendere i programmi simbolici, i LLM potrebbero aver bisogno di possedere la capacità di immaginare come apparirebbero i corrispondenti contenuti grafici senza accedere direttamente ai contenuti visivi renderizzati. Utilizziamo questo compito per valutare i LLM creando un ampio benchmark per la comprensione semantica dei programmi grafici simbolici. Questo benchmark è costruito tramite corrispondenza programma-grafica, richiedendo quindi uno sforzo umano minimo. Valutiamo i LLM attuali sul nostro benchmark per ottenere una valutazione preliminare della loro capacità di ragionare sulle scene visive a partire dai programmi. Troviamo che questo compito distingue i LLM esistenti e i modelli considerati bravi nel ragionamento performano meglio. Infine, introduciamo il Symbolic Instruction Tuning (SIT) per migliorare questa capacità. Nello specifico, interroghiamo GPT4-o con domande e immagini generate da programmi simbolici. Tali dati vengono poi utilizzati per affinare un LLM. Troviamo anche che i dati SIT possono migliorare la capacità generale dei LLM di seguire le istruzioni.