Articoli di ricerca IA selezionati quotidianamente con traduzioni
Recentemente, l'utilizzo di un potente modello linguistico proprietario di grandi dimensioni (LLM) (ad esempio, GPT-4) come valutatore per risposte di lunga durata è diventato lo standard de facto. Tuttavia, per i professionisti con compiti di valutazione su larga scala e criteri personalizzati da considerare (ad esempio, la leggibilità per i bambini), l'uso di LLM proprietari come valutatori è inaffidabile a causa della natura closed-source, del versioning non controllato e dei costi proibitivi. In questo lavoro, proponiamo Prometheus, un LLM completamente open-source che è alla pari con le capacità di valutazione di GPT-4 quando sono accompagnati i materiali di riferimento appropriati (risposta di riferimento, griglia di valutazione). In primo luogo, costruiamo il Feedback Collection, un nuovo dataset che consiste in 1K griglie di valutazione dettagliate, 20K istruzioni e 100K risposte e feedback linguistici generati da GPT-4. Utilizzando il Feedback Collection, addestriamo Prometheus, un LLM valutatore da 13B che può valutare qualsiasi testo di lunga durata in base alla griglia di valutazione personalizzata fornita dall'utente. I risultati sperimentali mostrano che Prometheus ottiene un coefficiente di correlazione di Pearson di 0.897 con i valutatori umani quando valuta con 45 griglie di valutazione personalizzate, che è alla pari con GPT-4 (0.882), e supera di gran lunga ChatGPT (0.392). Inoltre, la misurazione della correlazione con GPT-4 con 1222 griglie di valutazione personalizzate su quattro benchmark (MT Bench, Vicuna Bench, Feedback Bench, Flask Eval) mostra tendenze simili, rafforzando la capacità di Prometheus come LLM valutatore. Infine, Prometheus raggiunge la massima accuratezza su due benchmark di preferenze umane (HHH Alignment & MT Bench Human Judgment) rispetto ai modelli di ricompensa open-source esplicitamente addestrati su dataset di preferenze umane, evidenziando il suo potenziale come modello di ricompensa universale. Rendiamo disponibili il nostro codice, dataset e modello su https://github.com/kaistAI/Prometheus.
Plan-and-Write è un approccio gerarchico comune nella generazione di testi narrativi di lunga durata, che prevede innanzitutto la creazione di un piano per guidare la scrittura narrativa. Seguendo questo approccio, diversi studi si basano semplicemente sul prompt di grandi modelli linguistici per la pianificazione, il che spesso produce risultati subottimali. In questo articolo, proponiamo un nuovo framework chiamato Evaluation-guided Iterative Plan Extraction per la generazione di testi narrativi di lunga durata (EIPE-text), che estrae piani dal corpus di narrazioni e utilizza i piani estratti per costruire un pianificatore migliore. EIPE-text si articola in tre fasi: estrazione del piano, apprendimento e inferenza. Nella fase di estrazione del piano, esso estrae e migliora iterativamente i piani dal corpus narrativo e costruisce un corpus di piani. Proponiamo un meccanismo di valutazione basato su domande e risposte (QA) per valutare automaticamente i piani e generare istruzioni dettagliate per il perfezionamento del piano, al fine di guidare il miglioramento iterativo. Nella fase di apprendimento, costruiamo un pianificatore migliore attraverso il fine-tuning con il corpus di piani o l'apprendimento in-context con esempi presenti nel corpus di piani. Infine, sfruttiamo un approccio gerarchico per generare narrazioni di lunga durata. Valutiamo l'efficacia di EIPE-text nei domini dei romanzi e della narrazione. Sia le valutazioni basate su GPT-4 che quelle umane dimostrano che il nostro metodo può generare narrazioni di lunga durata più coerenti e pertinenti. Il nostro codice verrà rilasciato in futuro.
Esploriamo l'uso del linguaggio come rappresentazione percettiva per la navigazione visiva e linguistica. Il nostro approccio utilizza sistemi di visione preesistenti (per la generazione di didascalie e il rilevamento di oggetti) per convertire la vista panoramica egocentrica di un agente in ogni passo temporale in descrizioni in linguaggio naturale. Successivamente, ottimizziamo un modello linguistico preaddestrato per selezionare un'azione, basata sulla vista corrente e sulla storia della traiettoria, che meglio soddisfi le istruzioni di navigazione. A differenza dell'impostazione standard che adatta un modello linguistico preaddestrato per lavorare direttamente con caratteristiche visive continue provenienti da modelli di visione preaddestrati, il nostro approccio utilizza invece il linguaggio (discreto) come rappresentazione percettiva. Esploriamo due casi d'uso del nostro approccio di navigazione basata sul linguaggio (LangNav) sul benchmark di navigazione visiva e linguistica R2R: generare traiettorie sintetiche da un modello linguistico di grandi dimensioni (GPT-4) con cui ottimizzare un modello linguistico più piccolo; e il trasferimento da simulazione a realtà, in cui trasferiamo una politica appresa in un ambiente simulato (ALFRED) a un ambiente reale (R2R). Il nostro approccio si è dimostrato in grado di migliorare rispetto a baseline robuste che si basano su caratteristiche visive in contesti in cui sono disponibili solo poche traiettorie di riferimento (10-100), dimostrando il potenziale dell'uso del linguaggio come rappresentazione percettiva per compiti di navigazione.