Articoli di ricerca IA selezionati quotidianamente con traduzioni
I modelli linguistici di grandi dimensioni (LLM) sono emersi come una tecnologia rivoluzionaria grazie alle loro capacità senza pari nella generazione di testi in varie applicazioni. Tuttavia, permangono preoccupazioni riguardo all'accuratezza e all'appropriatezza dei contenuti da essi generati. Una metodologia contemporanea, l'autocorrezione, è stata proposta come rimedio a questi problemi. Partendo da questa premessa, questo articolo esamina in modo critico il ruolo e l'efficacia dell'autocorrezione all'interno degli LLM, gettando luce sul suo vero potenziale e sui suoi limiti. Al centro della nostra indagine vi è il concetto di autocorrezione intrinseca, in cui un LLM tenta di correggere le proprie risposte iniziali basandosi esclusivamente sulle sue capacità intrinseche, senza il supporto di feedback esterni. Nel contesto del ragionamento, la nostra ricerca indica che gli LLM faticano a correggere autonomamente le proprie risposte senza feedback esterni e, in alcuni casi, le loro prestazioni potrebbero persino peggiorare dopo l'autocorrezione. Sulla base di queste osservazioni, offriamo suggerimenti per future ricerche e applicazioni pratiche in questo campo.
Recentemente, sono stati sviluppati una miriade di modelli di generazione e modifica condizionata di immagini per servire diverse attività downstream, tra cui la generazione di immagini da testo, la modifica di immagini guidata da testo, la generazione di immagini basata su soggetti, la generazione di immagini guidata da controlli, ecc. Tuttavia, osserviamo grandi incongruenze nelle condizioni sperimentali: dataset, inferenza e metriche di valutazione, rendendo difficile un confronto equo. Questo articolo propone ImagenHub, una libreria one-stop per standardizzare l'inferenza e la valutazione di tutti i modelli di generazione condizionata di immagini. In primo luogo, definiamo sette compiti principali e curiamo dataset di valutazione di alta qualità per essi. In secondo luogo, abbiamo costruito una pipeline di inferenza unificata per garantire un confronto equo. In terzo luogo, progettiamo due punteggi di valutazione umana, ovvero Coerenza Semantica e Qualità Percettiva, insieme a linee guida complete per valutare le immagini generate. Addestriamo valutatori esperti per valutare gli output dei modelli in base alle metriche proposte. La nostra valutazione umana raggiunge un elevato accordo inter-operatore di Krippendorff's alpha sul 76% dei modelli con un valore superiore a 0.4. Abbiamo valutato in modo completo un totale di circa 30 modelli e osservato tre punti chiave: (1) le prestazioni dei modelli esistenti sono generalmente insoddisfacenti, ad eccezione della Generazione di Immagini Guidata da Testo e della Generazione di Immagini Basata su Soggetti, con il 74% dei modelli che ottiene un punteggio complessivo inferiore a 0.5. (2) Abbiamo esaminato le affermazioni dei paper pubblicati e abbiamo scoperto che l'83% di esse è valido, con poche eccezioni. (3) Nessuna delle metriche automatiche esistenti ha una correlazione di Spearman superiore a 0.2, ad eccezione della generazione di immagini basata su soggetti. Andando avanti, continueremo i nostri sforzi per valutare i modelli pubblicati di recente e aggiorneremo la nostra classifica per tenere traccia dei progressi nella generazione condizionata di immagini.
Il prompting a catena di pensiero (Chain-of-Thought, CoT) per i modelli linguistici dimostra prestazioni impressionanti in compiti di ragionamento, ma tipicamente richiede esempi etichettati del processo di ragionamento. In questo lavoro, introduciamo un nuovo approccio di prompting, il Prompting Analogico, progettato per guidare automaticamente il processo di ragionamento dei grandi modelli linguistici. Ispirato dal ragionamento analogico, un processo cognitivo in cui gli esseri umani attingono da esperienze passate rilevanti per affrontare nuovi problemi, il nostro approccio spinge i modelli linguistici a generare autonomamente esempi o conoscenze rilevanti nel contesto, prima di procedere a risolvere il problema dato. Questo metodo presenta diversi vantaggi: elimina la necessità di etichettare o recuperare esempi, offrendo generalità e convenienza; può anche adattare gli esempi e le conoscenze generate a ciascun problema, garantendo adattabilità. I risultati sperimentali mostrano che il nostro approccio supera il CoT a zero colpi (0-shot) e il CoT manuale a pochi colpi (few-shot) in una varietà di compiti di ragionamento, inclusa la risoluzione di problemi matematici in GSM8K e MATH, la generazione di codice in Codeforces e altri compiti di ragionamento in BIG-Bench.
I recenti modelli linguistici di grandi dimensioni (LLM) hanno dimostrato un grande potenziale verso agenti intelligenti e l'automazione di prossima generazione, ma attualmente manca un benchmark sistematico per valutare le capacità degli LLM come agenti. Introduciamo SmartPlay: sia un benchmark impegnativo che una metodologia per valutare gli LLM come agenti. SmartPlay è composto da 6 giochi diversi, tra cui Morra Cinese, Torre di Hanoi, Minecraft. Ogni gioco presenta un'ambientazione unica, offrendo fino a 20 impostazioni di valutazione e infinite variazioni ambientali. Ogni gioco in SmartPlay mette alla prova in modo unico un sottoinsieme di 9 importanti capacità di un agente LLM intelligente, tra cui il ragionamento con dipendenze oggettuali, la pianificazione anticipata, il ragionamento spaziale, l'apprendimento dalla storia e la comprensione della casualità. La distinzione tra l'insieme di capacità testate da ciascun gioco ci consente di analizzare separatamente ciascuna capacità. SmartPlay funge non solo come un rigoroso terreno di prova per valutare le prestazioni complessive degli agenti LLM, ma anche come una mappa per identificare le lacune nelle metodologie attuali. Rilasciamo il nostro benchmark su github.com/LLMsmartplay/SmartPlay.