Articoli di ricerca IA selezionati quotidianamente con traduzioni
Questo articolo presenta Diffusion Forcing, un nuovo paradigma di addestramento in cui un modello di diffusione viene allenato per rimuovere il rumore da un insieme di token con livelli di rumore indipendenti per ciascun token. Applichiamo Diffusion Forcing alla modellazione generativa di sequenze addestrando un modello causale di previsione del token successivo a generare uno o più token futuri senza diffondere completamente quelli passati. Il nostro approccio dimostra di combinare i punti di forza dei modelli di previsione del token successivo, come la generazione a lunghezza variabile, con i punti di forza dei modelli di diffusione a sequenza completa, come la capacità di guidare il campionamento verso traiettorie desiderabili. Il nostro metodo offre una gamma di capacità aggiuntive, come (1) la generazione di sequenze continue di token, come video, con lunghezze oltre l'orizzonte di addestramento, dove i metodi di base divergono, e (2) nuovi schemi di campionamento e guida che traggono vantaggio unico dall'architettura a orizzonte variabile e causale di Diffusion Forcing, portando a significativi miglioramenti nelle prestazioni in compiti di decision-making e pianificazione. Oltre al successo empirico, il nostro metodo è dimostrato ottimizzare un limite inferiore variazionale sulle probabilità di tutte le sottosequenze di token estratte dalla distribuzione congiunta vera. Sito web del progetto: https://boyuan.space/diffusion-forcing/
Il fine-tuning efficiente in termini di parametri (PEFT) è cruciale per personalizzare i Large Language Models (LLM) con risorse limitate. Sebbene esistano vari metodi PEFT per LLM con architettura densa, il PEFT per LLM con architettura sparsa è ancora poco esplorato. In questo lavoro, studiamo il metodo PEFT per LLM con architettura Mixture-of-Experts (MoE) e i contenuti di questo lavoro si articolano principalmente in tre punti: (1) Indaghiamo il grado di dispersione degli esperti attivati nei task personalizzati e scopriamo che la distribuzione del routing per un task specifico tende a essere altamente concentrata, mentre la distribuzione degli esperti attivati varia significativamente tra task diversi. (2) Proponiamo il Fine-Tuning Specializzato sugli Esperti, o ESFT, che ottimizza gli esperti più rilevanti per i task downstream mentre congela gli altri esperti e moduli; i risultati sperimentali dimostrano che il nostro metodo non solo migliora l'efficienza del tuning, ma eguaglia o addirittura supera le prestazioni del fine-tuning completo dei parametri. (3) Analizziamo ulteriormente l'impatto dell'architettura MoE sul fine-tuning specializzato sugli esperti. Scopriamo che i modelli MoE con esperti a granularità più fine sono più vantaggiosi nella selezione della combinazione di esperti più rilevanti per i task downstream, migliorando così sia l'efficienza che l'efficacia dell'addestramento.
Molti lavori recenti hanno esplorato l'uso di modelli linguistici per problemi di pianificazione. Una linea di ricerca si concentra sulla traduzione di descrizioni in linguaggio naturale di compiti di pianificazione in linguaggi di pianificazione strutturati, come il Planning Domain Definition Language (PDDL). Sebbene questo approccio sia promettente, misurare accuratamente la qualità del codice PDDL generato continua a rappresentare una sfida significativa. In primo luogo, il codice PDDL generato viene tipicamente valutato utilizzando validatori di pianificazione che verificano se il problema può essere risolto con un planner. Questo metodo è insufficiente perché un modello linguistico potrebbe generare codice PDDL valido che non corrisponde alla descrizione in linguaggio naturale del compito. In secondo luogo, i set di valutazione esistenti spesso hanno descrizioni in linguaggio naturale del compito di pianificazione che assomigliano molto al PDDL di riferimento, riducendo la difficoltà del compito. Per colmare questa lacuna, introduciamo \benchmarkName, un benchmark progettato per valutare la capacità dei modelli linguistici di generare codice PDDL a partire da descrizioni in linguaggio naturale di compiti di pianificazione. Iniziamo creando un algoritmo di equivalenza PDDL che valuta rigorosamente la correttezza del codice PDDL generato dai modelli linguistici confrontandolo in modo flessibile con un PDDL di riferimento. Successivamente, presentiamo un dataset di 132.037 coppie testo-PDDL relative a 13 diversi compiti, con livelli di difficoltà variabili. Infine, valutiamo diversi modelli linguistici ad accesso API e open-weight che rivelano la complessità di questo compito. Ad esempio, l'87,6% delle descrizioni di problemi PDDL generate da GPT-4o sono sintatticamente analizzabili, l'82,2% sono problemi validi e risolvibili, ma solo il 35,1% sono semanticamente corretti, evidenziando la necessità di un benchmark più rigoroso per questo problema.