Articoli di ricerca IA selezionati quotidianamente con traduzioni
Il Reinforcement Learning from Human Feedback (RLHF) è emerso come un paradigma popolare per allineare i modelli con l'intento umano. Tipicamente, gli algoritmi RLHF operano in due fasi: prima, utilizzano le preferenze umane per apprendere una funzione di ricompensa e, in secondo luogo, allineano il modello ottimizzando la ricompensa appresa tramite il reinforcement learning (RL). Questo paradigma presuppone che le preferenze umane siano distribuite in base alla ricompensa, ma lavori recenti suggeriscono che invece seguano il rimpianto (regret) sotto la politica ottimale dell'utente. Pertanto, apprendere una funzione di ricompensa dal feedback non solo si basa su un'assunzione errata delle preferenze umane, ma porta anche a sfide di ottimizzazione complesse derivanti dai gradienti delle politiche o dal bootstrapping nella fase di RL. A causa di queste sfide di ottimizzazione, i metodi RLHF contemporanei si limitano a contesti di bandit contestuali (ad esempio, come nei grandi modelli linguistici) o riducono la dimensionalità delle osservazioni (ad esempio, nella robotica basata su stati). Superiamo queste limitazioni introducendo una nuova famiglia di algoritmi per ottimizzare il comportamento dal feedback umano utilizzando il modello basato sul rimpianto delle preferenze umane. Utilizzando il principio della massima entropia, deriviamo il Contrastive Preference Learning (CPL), un algoritmo per apprendere politiche ottimali dalle preferenze senza apprendere funzioni di ricompensa, aggirando la necessità del RL. Il CPL è completamente off-policy, utilizza solo un semplice obiettivo contrastivo e può essere applicato a MDP arbitrari. Ciò consente al CPL di scalare elegantemente a problemi RLHF sequenziali e ad alta dimensionalità, risultando più semplice rispetto ai metodi precedenti.
*Sintesi dei Dati* rappresenta un approccio promettente per addestrare un modello di piccole dimensioni con una quantità molto limitata di dati etichettati. Una strategia per la sintesi dei dati consiste nello sfruttare la ricca conoscenza dei modelli linguistici di grandi dimensioni per generare esempi di addestramento pseudo-labelati per modelli più piccoli, rendendo possibile ottenere sia efficienza nei dati che nel calcolo contemporaneamente. Tuttavia, una delle principali sfide nella sintesi dei dati è che il dataset sintetizzato spesso presenta una significativa discrepanza distributiva rispetto alla distribuzione dei dati del *compito reale*. Pertanto, in questo articolo, proponiamo *Sintesi Passo dopo Passo* (**S3**), un framework di sintesi dei dati che riduce questo divario distributivo estrapolando iterativamente gli errori commessi da un modello di piccole dimensioni addestrato sul dataset sintetizzato, utilizzando un piccolo dataset di validazione reale e un modello linguistico di grandi dimensioni. Esperimenti estesi su molteplici task di NLP dimostrano che il nostro approccio migliora le prestazioni di un modello di piccole dimensioni riducendo il divario tra il dataset sintetico e i dati reali, ottenendo un miglioramento significativo rispetto a diverse baseline: un miglioramento del 9,48% rispetto a ZeroGen e del 2,73% rispetto a GoldGen, e un miglioramento massimo del 15,17% rispetto al modello di piccole dimensioni addestrato su dati annotati manualmente.
I modelli probabilistici di diffusione (DPM) hanno dimostrato prestazioni eccellenti nella generazione di immagini ad alta fedeltà, pur soffrendo di un campionamento inefficiente. Recenti lavori accelerano la procedura di campionamento proponendo risolutori ODE veloci che sfruttano la specifica forma ODE dei DPM. Tuttavia, questi si basano fortemente su una specifica parametrizzazione durante l'inferenza (come la previsione del rumore/dati), che potrebbe non essere la scelta ottimale. In questo lavoro, proponiamo una nuova formulazione verso la parametrizzazione ottimale durante il campionamento che minimizza l'errore di discretizzazione del primo ordine della soluzione ODE. Basandoci su tale formulazione, proponiamo DPM-Solver-v3, un nuovo risolutore ODE veloce per i DPM, introducendo diversi coefficienti calcolati in modo efficiente sul modello preaddestrato, che chiamiamo statistiche empiriche del modello. Inoltre, incorporiamo metodi multistep e un framework predittore-correttore, e proponiamo alcune tecniche per migliorare la qualità del campionamento con un numero ridotto di valutazioni di funzione (NFE) o scale di guida elevate. Gli esperimenti mostrano che DPM-Solver-v3 ottiene prestazioni costantemente migliori o comparabili sia nel campionamento incondizionato che condizionato con DPM sia nello spazio dei pixel che in quello latente, specialmente con 5-10 NFE. Raggiungiamo FID di 12.21 (5 NFE) e 2.51 (10 NFE) su CIFAR10 incondizionato, e MSE di 0.55 (5 NFE, scala di guida 7.5) su Stable Diffusion, ottenendo un'accelerazione del 15%-30% rispetto ai precedenti metodi state-of-the-art senza addestramento. Il codice è disponibile all'indirizzo https://github.com/thu-ml/DPM-Solver-v3.
L'udito è senza dubbio un'abilità essenziale per gli agenti di intelligenza artificiale (AI) nel mondo fisico, riferendosi alla percezione e comprensione di informazioni uditive generali che comprendono almeno tre tipi di suoni: il parlato, gli eventi audio e la musica. In questo articolo, proponiamo SALMONN, una rete neurale aperta per il parlato, l'audio, il linguaggio e la musica, costruita integrando un modello linguistico di grandi dimensioni (LLM) pre-addestrato su testo con codificatori per il parlato e l'audio in un unico modello multimodale. SALMONN consente all'LLM di elaborare e comprendere direttamente input audio generali, ottenendo prestazioni competitive in numerosi compiti di parlato e audio utilizzati durante l'addestramento, come il riconoscimento e la traduzione automatica del parlato, la risposta a domande basate su informazioni uditive, il riconoscimento delle emozioni, la verifica del parlante e la descrizione di musica e audio, tra gli altri. SALMONN possiede anche un insieme diversificato di abilità emergenti non osservate durante l'addestramento, che includono, ma non si limitano a, la traduzione del parlato in lingue non addestrate, il riempimento di slot basato sul parlato, la risposta a domande basate su query vocali, la narrazione basata su audio e il ragionamento congiunto su parlato e audio, tra gli altri. La presenza di queste abilità emergenti cross-modali viene studiata, e viene proposto un nuovo approccio di attivazione few-shot per attivare tali abilità di SALMONN. Per quanto ne sappiamo, SALMONN è il primo modello di questo tipo e può essere considerato un passo verso l'AI con abilità uditive generiche. Una demo interattiva di SALMONN è disponibile all'indirizzo \url{https://github.com/bytedance/SALMONN}, e il codice di addestramento e i checkpoint del modello verranno rilasciati dopo l'accettazione.
I grandi modelli linguistici (LLM) dimostrano impressionanti abilità emergenti nell'elaborazione del linguaggio naturale, ma la loro democratizzazione è ostacolata dagli enormi requisiti computazionali e dalla natura closed-source. Ricerche recenti sul miglioramento di modelli linguistici più piccoli e open-source, distillando conoscenza da LLM black-box, hanno ottenuto risultati promettenti nella capacità di seguire istruzioni. Tuttavia, la capacità di ragionamento, che è più difficile da sviluppare, è stata relativamente poco esplorata. In questo articolo, proponiamo un approccio di apprendimento personalizzato per distillare tale capacità di ragionamento in modelli linguistici più piccoli, al fine di facilitare la democratizzazione di questa abilità esclusiva. A differenza del semplice utilizzo dell'LLM come annotatore di dati, sfruttiamo il potenziale dell'LLM come insegnante di ragionamento, costruendo un paradigma di apprendimento interattivo a più round. Questo paradigma consente allo studente di esporre le proprie carenze al docente black-box, che può quindi fornire dati di addestramento personalizzati in cambio. Inoltre, per sfruttare il potenziale di ragionamento del modello linguistico più piccolo, proponiamo un apprendimento basato sull'autoriflessione per motivare lo studente a imparare dai propri errori. L'apprendimento dall'autoriflessione e dall'LLM è tutto personalizzato in base allo stato di apprendimento dello studente, grazie alla perfetta integrazione con il paradigma di apprendimento a più round. Esperimenti e analisi completi su compiti di ragionamento matematico e di senso comune dimostrano l'efficacia del nostro metodo. Il codice sarà disponibile all'indirizzo https://github.com/Raibows/Learn-to-Reason.
I grandi modelli linguistici (LLM) hanno dimostrato potenti capacità decisionali e di pianificazione nella risoluzione di complessi problemi del mondo reale. Gli agenti autonomi basati su LLM possono interagire con una varietà di strumenti (ad esempio, API funzionali) e generare piani di soluzione che eseguono una serie di chiamate a funzioni API in modo graduale. La moltitudine di possibili chiamate a funzioni API espande significativamente lo spazio delle azioni, amplificando la necessità critica di una navigazione efficiente in tale spazio. Tuttavia, i metodi esistenti faticano a esplorare in modo unidirezionale in spazi di azione ampi, rimanendo bloccati in soluzioni localmente ottimali, o soffrono di un'attraversamento esaustivo di tutte le azioni potenziali, causando una navigazione inefficiente. Per affrontare questi problemi, proponiamo ToolChain*, un algoritmo di pianificazione basato su ricerca ad albero efficiente per agenti basati su LLM. Esso formula l'intero spazio delle azioni come un albero decisionale, dove ogni nodo rappresenta una possibile chiamata a funzione API coinvolta in un piano di soluzione. Incorporando l'algoritmo di ricerca A* con una progettazione specifica della funzione di costo, esso pota in modo efficiente i rami ad alto costo che potrebbero includere azioni errate, identificando il percorso valido a costo più basso come soluzione. Esperimenti estesi su molteplici compiti di utilizzo di strumenti e ragionamento dimostrano che ToolChain* bilancia in modo efficiente esplorazione e sfruttamento all'interno di un ampio spazio di azione. Esso supera i migliori metodi di riferimento nei compiti di pianificazione e ragionamento rispettivamente del 3,1% e del 3,5% in media, richiedendo 7,35x e 2,31x meno tempo.
I metodi basati sulla diffusione hanno ottenuto un successo significativo nella generazione di contenuti 2D. Tuttavia, raggiungere competenze simili per la texturizzazione di mesh a livello di scena in applicazioni spaziali 3D, come XR/VR, rimane limitato, principalmente a causa della natura complessa della geometria 3D e della necessità di rendering immersivo da punti di vista liberi. In questo articolo, proponiamo un nuovo framework per la texturizzazione di scene interne, che offre la generazione di texture guidata da testo con dettagli affascinanti e coerenza spaziale autentica. L'idea chiave è quella di immaginare prima una texture panoramica stilizzata a 360° dal punto di vista centrale della scena, e poi propagarla alle restanti aree utilizzando tecniche di inpainting e imitazione. Per garantire texture significative e allineate alla scena, sviluppiamo un nuovo approccio di generazione di texture panoramica da grossolana a fine con doppio allineamento delle texture, che considera sia gli indizi geometrici che quelli testurali delle scene catturate. Per superare le geometrie disordinate durante la propagazione delle texture, progettiamo una strategia separata, che esegue l'inpainting delle texture nelle regioni affidabili e poi apprende una rete di imitazione implicita per sintetizzare le texture nelle aree occluse e di piccole strutture. Esperimenti estesi e l'applicazione VR immersiva su scene interne del mondo reale dimostrano l'alta qualità delle texture generate e l'esperienza coinvolgente sui visori VR. Pagina del progetto: https://ybbbbt.com/publication/dreamspace
I modelli linguistici di grandi dimensioni (LLM) possono eseguire un'ampia gamma di attività seguendo istruzioni in linguaggio naturale, senza la necessità di un fine-tuning specifico per ogni compito. Sfortunatamente, le prestazioni degli LLM sono fortemente influenzate dalla qualità di queste istruzioni, e la scrittura manuale di istruzioni efficaci per ogni attività è un processo laborioso e soggettivo. In questo articolo, introduciamo Auto-Instruct, un metodo innovativo per migliorare automaticamente la qualità delle istruzioni fornite agli LLM. Il nostro metodo sfrutta la capacità generativa intrinseca degli LLM per produrre istruzioni candidate diverse per un determinato compito, e poi le classifica utilizzando un modello di valutazione addestrato su una varietà di 575 attività NLP esistenti. Negli esperimenti su 118 attività fuori dominio, Auto-Instruct supera sia le istruzioni scritte da esseri umani che i baseline esistenti di istruzioni generate da LLM. Inoltre, il nostro metodo mostra una notevole generalizzabilità anche con altri LLM che non sono stati incorporati nel suo processo di addestramento.
La capacità di auto-miglioramento dei grandi modelli linguistici (LLM), resa possibile spingendoli ad analizzare e revisionare i propri output, ha attirato un notevole interesse nella ricerca recente. Tuttavia, è stato dimostrato che questa capacità è assente e difficile da apprendere per modelli più piccoli, ampliando così il divario di prestazioni tra gli LLM all'avanguardia e quelli più economici e veloci. Per ridurre questo divario, introduciamo TriPosT, un algoritmo di addestramento che conferisce ai modelli più piccoli tale capacità di auto-miglioramento, e dimostriamo che il nostro approccio può migliorare le prestazioni di un LLaMA-7b su compiti di matematica e ragionamento fino al 7,13%. A differenza dei lavori precedenti, raggiungiamo questo risultato facendo interagire il modello più piccolo con gli LLM per raccogliere feedback e miglioramenti sulle proprie generazioni. Successivamente, riproponiamo questa esperienza per addestrare il modello piccolo. I nostri esperimenti su quattro dataset di matematica e ragionamento dimostrano che l'esperienza interattiva di apprendere e correggere i propri errori è cruciale per migliorare le prestazioni dei modelli più piccoli.
L'uso di strumenti è un segno distintivo dell'intelligenza avanzata, esemplificato sia nel comportamento animale che nelle capacità robotiche. Questo articolo indaga la fattibilità di dotare i robot della capacità di utilizzare strumenti in modo creativo in compiti che coinvolgono vincoli fisici impliciti e pianificazione a lungo termine. Sfruttando i Large Language Models (LLM), sviluppiamo RoboTool, un sistema che accetta istruzioni in linguaggio naturale e produce codice eseguibile per il controllo dei robot in ambienti sia simulati che reali. RoboTool incorpora quattro componenti fondamentali: (i) un "Analizzatore" che interpreta il linguaggio naturale per individuare i concetti chiave relativi al compito, (ii) un "Pianificatore" che genera strategie complete basate sull'input linguistico e sui concetti chiave, (iii) un "Calcolatore" che determina i parametri per ciascuna abilità, e (iv) un "Codificatore" che traduce questi piani in codice Python eseguibile. I nostri risultati dimostrano che RoboTool non solo è in grado di comprendere vincoli fisici espliciti o impliciti e fattori ambientali, ma dimostra anche un uso creativo degli strumenti. A differenza dei metodi tradizionali di Task and Motion Planning (TAMP) che si basano su ottimizzazione esplicita, il nostro sistema basato su LLM offre una soluzione più flessibile, efficiente e user-friendly per compiti robotici complessi. Attraverso esperimenti estensivi, validiamo che RoboTool è competente nel gestire compiti che altrimenti sarebbero irrealizzabili senza l'uso creativo degli strumenti, ampliando così le capacità dei sistemi robotici. Le demo sono disponibili sulla nostra pagina del progetto: https://creative-robotool.github.io/.
Il fine-tuning per istruzioni di modelli linguistici di grandi dimensioni (LLM) open-source come LLaMA, utilizzando output diretti di LLM più potenti come Instruct-GPT e GPT-4, si è dimostrato un metodo economico per allineare i comportamenti del modello alle preferenze umane. Tuttavia, il modello fine-tuned per istruzioni ha visto solo una risposta per ogni istruzione, mancando della conoscenza di potenziali risposte migliori. In questo articolo, proponiamo di effettuare il fine-tuning di un LLM già ottimizzato per istruzioni utilizzando i nostri nuovi approcci di ranking probabilistico e ranking contestuale, per aumentare la probabilità di generare risposte migliori. Il ranking probabilistico consente al modello fine-tuned per istruzioni di ereditare le classificazioni relative di risposte di alta e bassa qualità dal LLM insegnante. D'altra parte, l'apprendimento con ranking contestuale permette al modello di affinare la propria distribuzione di risposte utilizzando la capacità di comprensione contestuale di LLM più potenti. Inoltre, applichiamo sequenzialmente il ranking probabilistico e il ranking contestuale al LLM fine-tuned per istruzioni. Il modello risultante, che chiamiamo Tuna, migliora costantemente le prestazioni su Super Natural Instructions (119 task di test), LMentry (25 task di test), Vicuna QA, e può persino ottenere risultati migliori rispetto a diverse baseline di apprendimento per rinforzo. Il nostro codice e i dati sono disponibili all'indirizzo https://github.com/microsoft/LMOps.
I modelli linguistici di grandi dimensioni (LLM) rappresentano una rivoluzione nell'ambito dell'IA. Tuttavia, presentano anche molti rischi significativi, come la presenza di testi distorti, privati, protetti da copyright o dannosi. Per questo motivo, abbiamo bisogno di soluzioni aperte, trasparenti e sicure. Introduciamo un ecosistema open-source completo per lo sviluppo e il testing degli LLM. L'obiettivo di questo progetto è promuovere alternative aperte agli approcci closed-source. Rilasciamo h2oGPT, una famiglia di LLM ottimizzati che vanno da 7 a 70 miliardi di parametri. Presentiamo inoltre H2O LLM Studio, un framework e un'interfaccia grafica no-code progettati per l'ottimizzazione, la valutazione e il deployment efficiente degli LLM utilizzando le tecniche più avanzate. Il nostro codice e i nostri modelli sono rilasciati con licenze completamente permissive Apache 2.0. Crediamo che i modelli linguistici open-source contribuiscano a promuovere lo sviluppo dell'IA, rendendola più accessibile e affidabile. La demo è disponibile all'indirizzo: https://gpt.h2o.ai/
Il pre-addestramento immagine-testo su dataset di didascalie di immagini su scala web è diventato la ricetta predefinita per i modelli di classificazione e retrieval a vocabolario aperto grazie al successo di CLIP e delle sue varianti. Diversi lavori hanno anche utilizzato le caratteristiche di CLIP per task di predizione densa, dimostrando l'emergere di capacità open-set. Tuttavia, l'obiettivo contrastivo si concentra solo sull'allineamento immagine-testo e non incentiva l'apprendimento di caratteristiche dell'immagine per task di predizione densa. In questo lavoro, proponiamo la semplice aggiunta di un apprendimento di corrispondenza locale-globale tramite auto-distillazione come obiettivo aggiuntivo per il pre-addestramento contrastivo, dando vita a SILC. Dimostriamo che la distillazione di caratteristiche locali dell'immagine da un modello insegnante con media mobile esponenziale (EMA) migliora significativamente le prestazioni del modello su diversi task di visione artificiale, tra cui classificazione, retrieval e soprattutto segmentazione. Inoltre, mostriamo che SILC scala meglio rispetto ai baseline con la stessa durata di addestramento. Il nostro modello SILC stabilisce un nuovo stato dell'arte per la classificazione zero-shot, la classificazione few-shot, il retrieval di immagini e testo, la segmentazione zero-shot e la segmentazione a vocabolario aperto.
L'apprendimento per rinforzo basato sul feedback umano (RLHF) è una tecnica popolare per addestrare assistenti AI di alta qualità. Tuttavia, l'RLHF può anche incoraggiare risposte del modello che si allineano alle convinzioni dell'utente piuttosto che a risposte veritiere, un comportamento noto come "sincofantia". Investigiamo la prevalenza della sincofantia nei modelli addestrati con RLHF e se i giudizi di preferenza umana ne siano responsabili. In primo luogo, dimostriamo che cinque assistenti AI all'avanguardia mostrano costantemente comportamenti sincofantici in quattro diverse attività di generazione di testo libero. Per capire se le preferenze umane guidino questo comportamento ampiamente osservato nei modelli RLHF, analizziamo i dati esistenti sulle preferenze umane. Scopriamo che quando una risposta corrisponde alle opinioni di un utente, è più probabile che venga preferita. Inoltre, sia gli esseri umani che i modelli di preferenza (PM) preferiscono risposte sincofantiche scritte in modo convincente rispetto a quelle corrette in una frazione trascurabile dei casi. Ottimizzare le uscite del modello rispetto ai PM talvolta sacrifica anche la veridicità in favore della sincofantia. Nel complesso, i nostri risultati indicano che la sincofantia è un comportamento generale dei modelli RLHF, probabilmente guidato in parte dai giudizi di preferenza umana che favoriscono risposte sincofantiche.
Nei modelli di diffusione, UNet è l'architettura di rete più popolare, poiché le sue connessioni a salto lungo (LSC) che collegano blocchi di rete distanti possono aggregare informazioni a lunga distanza e alleviare il problema del gradiente scomparso. Sfortunatamente, UNet spesso soffre di instabilità durante l'addestramento nei modelli di diffusione, che può essere mitigata riducendo i coefficienti delle LSC. Tuttavia, una comprensione teorica dell'instabilità di UNet nei modelli di diffusione e del miglioramento delle prestazioni ottenuto ridimensionando le LSC è ancora assente. Per risolvere questo problema, dimostriamo teoricamente che i coefficienti delle LSC in UNet hanno un grande impatto sulla stabilità della propagazione in avanti e indietro e sulla robustezza di UNet. Nello specifico, la feature nascosta e il gradiente di UNet in qualsiasi livello possono oscillare, e i loro intervalli di oscillazione sono effettivamente ampi, il che spiega l'instabilità dell'addestramento di UNet. Inoltre, UNet è anche dimostrabilmente sensibile a input perturbati e predice un output lontano da quello desiderato, generando una perdita oscillatoria e quindi un gradiente oscillatorio. Oltre a ciò, osserviamo anche i benefici teorici del ridimensionamento dei coefficienti delle LSC di UNet nella stabilità delle feature nascoste e del gradiente, nonché nella robustezza. Infine, ispirati dalla nostra teoria, proponiamo un framework efficace di ridimensionamento dei coefficienti chiamato ScaleLong, che ridimensiona i coefficienti delle LSC in UNet e migliora ulteriormente la stabilità dell'addestramento di UNet. I risultati sperimentali su quattro famosi dataset mostrano che i nostri metodi sono superiori nel stabilizzare l'addestramento e producono un'accelerazione dell'addestramento di circa 1,5x su diversi modelli di diffusione con architetture UNet o UViT. Codice: https://github.com/sail-sg/ScaleLong