Articoli di ricerca IA selezionati quotidianamente con traduzioni
Poiché i grandi modelli linguistici (LLMs) hanno dimostrato le loro potenti capacità in numerosi domini e compiti, tra cui la comprensione del contesto, la generazione di codice, la generazione di linguaggio, la narrazione di dati, ecc., molti analisti di dati potrebbero sollevare preoccupazioni riguardo alla possibilità che i loro lavori vengano sostituiti dall'IA. Questo tema controverso ha attirato molta attenzione pubblica. Tuttavia, ci troviamo ancora in una fase di opinioni divergenti senza alcuna conclusione definitiva. Motivati da ciò, in questo lavoro solleviamo la questione di ricerca "GPT-4 è un buon analista di dati?" e miriamo a rispondere conducendo studi comparativi diretti. Nel dettaglio, consideriamo GPT-4 come un analista di dati per eseguire analisi end-to-end con database provenienti da un'ampia gamma di domini. Proponiamo un framework per affrontare i problemi progettando attentamente i prompt per GPT-4 per condurre esperimenti. Progettiamo anche diverse metriche di valutazione specifiche per i compiti per confrontare sistematicamente le prestazioni tra diversi analisti di dati umani professionisti e GPT-4. I risultati sperimentali mostrano che GPT-4 può raggiungere prestazioni comparabili a quelle degli esseri umani. Forniamo anche discussioni approfondite sui nostri risultati per gettare luce su ulteriori studi prima di giungere alla conclusione che GPT-4 possa sostituire gli analisti di dati.
Con la recente comparsa dei LLM in contesti pratici, disporre di metodi che possano rilevare efficacemente le incongruenze fattuali è cruciale per ridurre la diffusione di disinformazione e migliorare la fiducia negli output dei modelli. Testando su benchmark esistenti per la coerenza fattuale, abbiamo riscontrato che alcuni grandi modelli linguistici (LLM) ottengono prestazioni competitive nei benchmark di classificazione per il rilevamento di incongruenze fattuali rispetto ai metodi tradizionali non basati su LLM. Tuttavia, un'analisi più approfondita rivela che la maggior parte dei LLM fallisce su formulazioni più complesse del compito e mette in luce problemi con i benchmark di valutazione esistenti, influenzando la precisione della valutazione. Per affrontare questo problema, proponiamo un nuovo protocollo per la creazione di benchmark per il rilevamento di incongruenze e lo implementiamo in un benchmark chiamato SummEdits, che copre 10 domini. Questo nuovo benchmark è 20 volte più conveniente per campione rispetto ai benchmark precedenti e altamente riproducibile, con un accordo inter-annotatori stimato intorno a 0,9. La maggior parte dei LLM ha difficoltà su SummEdits, con prestazioni vicine al caso. Il modello con le migliori prestazioni, GPT-4, è ancora dell'8% al di sotto della performance umana stimata, evidenziando le lacune nella capacità dei LLM di ragionare sui fatti e rilevare incongruenze quando si verificano.
I giochi di sopravvivenza in mondi aperti presentano sfide significative per gli algoritmi di intelligenza artificiale a causa delle loro esigenze di multi-tasking, esplorazione approfondita e priorità degli obiettivi. Nonostante l'apprendimento per rinforzo (RL) sia popolare per risolvere giochi, la sua elevata complessità campionaria ne limita l'efficacia in giochi complessi in mondi aperti come Crafter o Minecraft. Proponiamo un approccio innovativo, SPRING, per leggere il documento accademico originale del gioco e utilizzare le conoscenze apprese per ragionare e giocare attraverso un modello linguistico di grandi dimensioni (LLM). Sollecitato con il sorgente LaTeX come contesto del gioco e una descrizione dell'osservazione corrente dell'agente, il nostro framework SPRING impiega un grafo aciclico diretto (DAG) con domande relative al gioco come nodi e dipendenze come archi. Identifichiamo l'azione ottimale da intraprendere nell'ambiente attraversando il DAG e calcolando le risposte dell'LLM per ciascun nodo in ordine topologico, con la risposta dell'LLM al nodo finale che si traduce direttamente in azioni ambientali. Nei nostri esperimenti, studiamo la qualità del "ragionamento" in contesto indotto da diverse forme di prompt nell'ambiente di gioco aperto di Crafter. I nostri esperimenti suggeriscono che gli LLM, quando sollecitati con una catena di pensiero coerente, hanno un grande potenziale nel completare traiettorie sofisticate di alto livello. Quantitativamente, SPRING con GPT-4 supera tutti i benchmark RL all'avanguardia, addestrati per 1 milione di passi, senza alcun addestramento. Infine, mostriamo il potenziale dei giochi come banco di prova per gli LLM.
Sebbene la Traduzione Automatica Neurale (NMT) rappresenti l'approccio principale alla Traduzione Automatica (MT), gli output dei modelli NMT richiedono ancora una post-edizione della traduzione per correggere errori e migliorare la qualità, specialmente in contesti critici. In questo lavoro, formalizziamo il compito della post-edizione della traduzione con Modelli Linguistici di Grande Dimensione (LLMs) ed esploriamo l'uso di GPT-4 per post-editare automaticamente gli output NMT su diverse coppie di lingue. I nostri risultati dimostrano che GPT-4 è abile nella post-edizione della traduzione e produce modifiche significative anche quando la lingua di destinazione non è l'inglese. In particolare, otteniamo prestazioni all'avanguardia su WMT-22 per le coppie di lingue inglese-cinese, inglese-tedesco, cinese-inglese e tedesco-inglese utilizzando la post-edizione basata su GPT-4, come valutato dalle metriche di qualità MT più avanzate.
Strategie come il prompting a catena di pensiero migliorano le prestazioni dei grandi modelli linguistici (LLM) su compiti di ragionamento complesso scomponendo gli esempi di input in passaggi intermedi. Tuttavia, rimane poco chiaro come applicare tali metodi per ragionare su documenti di input lunghi, in cui sia la scomposizione che l'output di ciascun passaggio intermedio sono non banali da ottenere. In questo lavoro, proponiamo PEARL, un framework di prompting per migliorare il ragionamento su documenti lunghi, che consiste in tre fasi: estrazione di azioni, formulazione del piano ed esecuzione del piano. Più specificamente, data una domanda su un documento lungo, PEARL scompone la domanda in una sequenza di azioni (ad esempio, RIASSUNTO, TROVA_EVENTO, TROVA_RELAZIONE) e poi le esegue sul documento per ottenere la risposta. Ogni fase di PEARL è implementata tramite prompting zero-shot o few-shot di LLM (nel nostro lavoro, GPT-4) con un input umano minimo. Valutiamo PEARL su un sottoinsieme impegnativo del dataset QuALITY, che contiene domande che richiedono un ragionamento complesso su testi narrativi lunghi. PEARL supera il prompting zero-shot e a catena di pensiero su questo dataset, e gli esperimenti di ablazione mostrano che ogni fase di PEARL è cruciale per le sue prestazioni. Nel complesso, PEARL rappresenta un primo passo verso lo sfruttamento degli LLM per ragionare su documenti lunghi.