Articoli di ricerca IA selezionati quotidianamente con traduzioni
I grandi modelli linguistici sono emersi come strumenti versatili, ma risulta impegnativo applicarli a compiti che non dispongono di ampi budget di inferenza e di grandi set di addestramento in dominio. Questo lavoro formalizza tali vincoli e distingue quattro variabili importanti: il budget di pre-addestramento (per l'addestramento prima che il dominio target sia noto), il budget di specializzazione (per l'addestramento dopo che il dominio target è noto), il budget di inferenza e la dimensione del set di addestramento in dominio. In queste configurazioni, confrontiamo diversi approcci tratti dalla letteratura del machine learning. Limitati dal costo di inferenza, individuiamo alternative migliori rispetto alla pratica standard di addestrare modelli transformer molto grandi e standard. In particolare, dimostriamo che le iper-reti e le miscele di esperti offrono una migliore perplessità per grandi budget di pre-addestramento, mentre modelli di piccole dimensioni addestrati su dataset campionati in base all'importanza risultano vantaggiosi per grandi budget di specializzazione.
Il progresso dei modelli linguistici di grandi dimensioni (LLM) ha dato un notevole impulso al campo della generazione di codice. Ricerche precedenti hanno integrato l'apprendimento per rinforzo (RL) con il feedback del compilatore per esplorare lo spazio di output degli LLM, al fine di migliorare la qualità della generazione di codice. Tuttavia, il codice di lunga durata generato dagli LLM in risposta a requisiti umani complessi rende l'esplorazione RL una sfida. Inoltre, poiché i test unitari potrebbero non coprire il codice complesso, ottimizzare gli LLM utilizzando questi frammenti di codice non eseguiti risulta inefficace. Per affrontare queste sfide, introduciamo StepCoder, un nuovo framework RL per la generazione di codice, composto da due componenti principali: CCCS affronta la sfida dell'esplorazione suddividendo il compito di generazione di sequenze di codice lunghe in un Curriculum di Sottocompiti di Completamento del Codice, mentre FGO ottimizza il modello solo mascherando i segmenti di codice non eseguiti per fornire un'Ottimizzazione Fine-Grained. Inoltre, abbiamo ulteriormente costruito il dataset APPS+ per l'addestramento RL, che è stato verificato manualmente per garantire la correttezza dei test unitari. I risultati sperimentali dimostrano che il nostro metodo migliora la capacità di esplorare lo spazio di output e supera gli approcci all'avanguardia nei benchmark corrispondenti.
La pianificazione è stata parte integrante della ricerca fondamentale nell'intelligenza artificiale sin dalla sua concezione, ma i primi agenti di IA si sono concentrati principalmente su contesti limitati, poiché molti dei substrati cognitivi necessari per una pianificazione di livello umano erano carenti. Recentemente, gli agenti linguistici basati su modelli linguistici di grandi dimensioni (LLM) hanno dimostrato capacità interessanti, come l'uso di strumenti e il ragionamento. Questi agenti linguistici sono in grado di pianificare in contesti più complessi, al di là delle capacità dei precedenti agenti di IA? Per approfondire questa indagine, proponiamo TravelPlanner, un nuovo benchmark di pianificazione che si concentra sulla pianificazione di viaggi, uno scenario di pianificazione comune nel mondo reale. Offre un ambiente sandbox ricco, vari strumenti per accedere a quasi quattro milioni di record di dati e 1.225 intenti di pianificazione e piani di riferimento accuratamente curati. Valutazioni complete mostrano che gli attuali agenti linguistici non sono ancora in grado di gestire compiti di pianificazione così complessi: persino GPT-4 raggiunge un tasso di successo dello 0,6%. Gli agenti linguistici faticano a rimanere focalizzati sul compito, a utilizzare gli strumenti giusti per raccogliere informazioni o a tenere traccia di vincoli multipli. Tuttavia, osserviamo che la mera possibilità per gli agenti linguistici di affrontare un problema così complesso rappresenta di per sé un progresso non banale. TravelPlanner fornisce un banco di prova impegnativo ma significativo per i futuri agenti linguistici.
Presentiamo Pok\'eLLMon, il primo agente incarnato da un LLM che raggiunge prestazioni pari a quelle umane nei giochi di battaglia tattici, come dimostrato nelle battaglie Pok\'emon. Il design di Pok\'eLLMon incorpora tre strategie chiave: (i) Apprendimento per rinforzo in contesto che consuma istantaneamente feedback testuali derivati dalle battaglie per affinare iterativamente la politica; (ii) Generazione aumentata dalla conoscenza che recupera informazioni esterne per contrastare l'allucinazione e consente all'agente di agire tempestivamente e correttamente; (iii) Generazione coerente di azioni per mitigare il fenomeno del cambio panico quando l'agente si trova di fronte a un avversario potente e desidera eludere la battaglia. Dimostriamo che le battaglie online contro esseri umani evidenziano le strategie di battaglia simili a quelle umane e il processo decisionale tempestivo di Pok\'eLLMon, raggiungendo un tasso di vittoria del 49% nelle competizioni Ladder e del 56% nelle battaglie invitate. La nostra implementazione e i log delle battaglie giocabili sono disponibili all'indirizzo: https://github.com/git-disl/PokeLLMon.
Generare movimenti ricchi e controllabili rappresenta una sfida cruciale nella sintesi video. Proponiamo Boximator, un nuovo approccio per il controllo fine del movimento. Boximator introduce due tipi di vincoli: hard box e soft box. Gli utenti selezionano gli oggetti nel frame condizionale utilizzando hard box e poi impiegano uno dei due tipi di box per definire approssimativamente o rigorosamente la posizione, la forma o il percorso di movimento dell'oggetto nei frame futuri. Boximator funziona come un plug-in per i modelli di diffusione video esistenti. Il suo processo di addestramento preserva la conoscenza del modello di base congelando i pesi originali e addestrando solo il modulo di controllo. Per affrontare le sfide dell'addestramento, introduciamo una nuova tecnica di self-tracking che semplifica notevolmente l'apprendimento delle correlazioni box-oggetto. Empiricamente, Boximator raggiunge punteggi di qualità video (FVD) all'avanguardia, migliorando due modelli di base, con ulteriori miglioramenti dopo l'incorporazione dei vincoli box. La sua robusta controllabilità del movimento è validata da un drastico aumento nella metrica di allineamento del bounding box. La valutazione umana mostra inoltre che gli utenti preferiscono i risultati generati da Boximator rispetto al modello di base.
I transformer sono l'architettura dominante per la modellazione di sequenze, ma c'è un crescente interesse verso modelli che utilizzano uno stato latente di dimensione fissa che non dipende dalla lunghezza della sequenza, che definiamo "modelli di spazio degli stati generalizzati" (GSSM). In questo articolo dimostriamo che, sebbene i GSSM siano promettenti in termini di efficienza durante l'inferenza, presentano limitazioni rispetto ai transformer in compiti che richiedono la copia dal contesto di input. Iniziamo con un'analisi teorica del semplice compito di copia di stringhe e dimostriamo che un transformer a due strati può copiare stringhe di lunghezza esponenziale, mentre i GSSM sono fondamentalmente limitati dal loro stato latente di dimensione fissa. Empiricamente, osserviamo che i transformer superano i GSSM in termini di efficienza e generalizzazione su compiti sintetici che richiedono la copia del contesto. Infine, valutiamo modelli linguistici preaddestrati di grandi dimensioni e scopriamo che i transformer superano in modo significativo i modelli di spazio degli stati nella copia e nel recupero di informazioni dal contesto. Nel complesso, questi risultati suggeriscono un divario fondamentale tra transformer e GSSM in compiti di interesse pratico.
Sebbene i Modelli Linguistici di Grande Dimensione (LLM) abbiano dimostrato la loro competenza in compiti di ragionamento complesso, le loro prestazioni in scenari dinamici, interattivi e competitivi - come la strategia aziendale e l'analisi del mercato azionario - rimangono poco esplorate. Per colmare questa lacuna, esploriamo formalmente le capacità di ragionamento dinamico degli LLM per il processo decisionale in ambienti in rapida evoluzione. Introduciamo due sfide pilota basate sulla teoria dei giochi che riflettono le complessità del processo decisionale dinamico nel mondo reale. Queste sfide sono ben definite, consentendo una valutazione chiara, controllabile e precisa delle capacità di ragionamento dinamico degli LLM. Attraverso esperimenti estesi, scopriamo che i metodi di ragionamento esistenti tendono a fallire in contesti dinamici che richiedono un pensiero di livello k - un concetto chiave non affrontato dai lavori precedenti. Per affrontare questo problema, proponiamo un nuovo approccio di ragionamento per gli LLM, denominato "Ragionamento a Livello K". Questo approccio adotta la prospettiva dei rivali per impiegare ricorsivamente il pensiero di livello k basandosi sulle informazioni storiche disponibili, il che migliora significativamente l'accuratezza nella previsione delle mosse successive dei rivali e informa un processo decisionale più strategico. Questa ricerca non solo stabilisce un solido benchmark quantitativo per la valutazione del ragionamento dinamico, ma migliora anche notevolmente la competenza degli LLM in contesti dinamici.
Questo rapporto tecnico descrive l'addestramento di nomic-embed-text-v1, il primo modello di embedding di testo in inglese completamente riproducibile, open-source, con pesi aperti e dati aperti, con una lunghezza di contesto di 8192 token, che supera sia OpenAI Ada-002 che OpenAI text-embedding-3-small in compiti di contesto breve e lungo. Rilasciamo il codice di addestramento e i pesi del modello sotto licenza Apache 2. A differenza di altri modelli open-source, rilasciamo un caricatore di dati di addestramento con 235 milioni di coppie di testo curate che consente la completa replicazione di nomic-embed-text-v1. È possibile trovare il codice e i dati per replicare il modello all'indirizzo https://github.com/nomic-ai/contrastors.
L'avvento dei Large Models segna una nuova era nel machine learning, superando significativamente i modelli più piccoli sfruttando vasti dataset per catturare e sintetizzare pattern complessi. Nonostante questi progressi, l'esplorazione del ridimensionamento, in particolare nel dominio della generazione audio, rimane limitata, con precedenti sforzi che non si sono estesi nel dominio ad alta fedeltà (HiFi) a 44,1 kHz e che hanno sofferto sia di discontinuità spettrali che di sfocature nel dominio delle alte frequenze, oltre a una mancanza di robustezza contro dati fuori dominio. Queste limitazioni restringono l'applicabilità dei modelli a diversi casi d'uso, inclusa la generazione di musica e canto. Il nostro lavoro introduce Enhanced Various Audio Generation via Scalable Generative Adversarial Networks (EVA-GAN), che offre miglioramenti significativi rispetto allo stato dell'arte precedente nella ricostruzione spettrale e delle alte frequenze e nella robustezza delle prestazioni su dati fuori dominio, consentendo la generazione di audio HiFi impiegando un ampio dataset di 36.000 ore di audio a 44,1 kHz, un modulo context-aware, un toolkit Human-In-The-Loop per la misurazione degli artefatti e ampliando il modello a circa 200 milioni di parametri. Le dimostrazioni del nostro lavoro sono disponibili su https://double-blind-eva-gan.cc.