HuggingFace Daily Papers

Paper Giornalieri

Articoli di ricerca IA selezionati quotidianamente con traduzioni

Seleziona una data

19 papers found

RWKV: Reinvenzione delle RNN per l'era dei Transformer
RWKV: Reinventing RNNs for the Transformer Era

May 22

ByBo Peng, Eric Alcaide, Quentin Anthony, Alon Albalak, Samuel Arcadinho, Huanqi Cao, Xin Cheng, Michael Chung, Matteo Grella, Kranthi Kiran GV, Xuzheng He, Haowen Hou, Przemyslaw Kazienko, Jan Kocon, Jiaming Kong, Bartlomiej Koptyra, Hayden Lau, Krishna Sri Ipsit Mantri, Ferdinand Mom, Atsushi Saito, Xiangru Tang, Bolun Wang, Johan S. Wind, Stansilaw Wozniak, Ruichong Zhang, Zhenyuan Zhang, Qihang Zhao, Peng Zhou, Jian Zhu, Rui-Jie Zhu

I Transformer hanno rivoluzionato quasi tutti i compiti di elaborazione del linguaggio naturale (NLP), ma soffrono di una complessità di memoria e computazionale che scala quadraticamente con la lunghezza della sequenza. Al contrario, le reti neurali ricorrenti (RNN) mostrano un scaling lineare nei requisiti di memoria e computazionali, ma faticano a raggiungere le stesse prestazioni dei Transformer a causa di limitazioni nella parallelizzazione e nella scalabilità. Proponiamo una nuova architettura di modello, Receptance Weighted Key Value (RWKV), che combina l'addestramento efficiente e parallelizzabile dei Transformer con l'inferenza efficiente delle RNN. Il nostro approccio sfrutta un meccanismo di attenzione lineare e ci permette di formulare il modello sia come Transformer che come RNN, parallelizzando i calcoli durante l'addestramento e mantenendo una complessità computazionale e di memoria costante durante l'inferenza, portando alla prima architettura non-Transformer scalata a decine di miliardi di parametri. I nostri esperimenti rivelano che RWKV performa alla pari con Transformer di dimensioni simili, suggerendo che lavori futuri possano sfruttare questa architettura per creare modelli più efficienti. Questo lavoro rappresenta un passo significativo verso la riconciliazione dei compromessi tra efficienza computazionale e prestazioni del modello nei compiti di elaborazione delle sequenze.

CRITIC: I Grandi Modelli Linguistici Possono Autocorreggersi con Strumenti Interattivi di Critica
CRITIC: Large Language Models Can Self-Correct with Tool-Interactive Critiquing

May 19

ByZhibin Gou, Zhihong Shao, Yeyun Gong, Yelong Shen, Yujiu Yang, Nan Duan, Weizhu Chen

I recenti sviluppi nei grandi modelli linguistici (LLM) sono stati impressionanti. Tuttavia, questi modelli mostrano talvolta inconsistenze e comportamenti problematici, come l'invenzione di fatti, la generazione di codice difettoso o la creazione di contenuti offensivi e tossici. A differenza di questi modelli, gli esseri umani utilizzano tipicamente strumenti esterni per verificare e affinare i contenuti iniziali, come l'uso di un motore di ricerca per il fact-checking o di un interprete di codice per il debug. Ispirati da questa osservazione, introduciamo un framework chiamato CRITIC che consente agli LLM, essenzialmente "scatole nere", di convalidare e modificare progressivamente i propri output in modo simile all'interazione umana con gli strumenti. Più specificamente, partendo da un output iniziale, CRITIC interagisce con strumenti appropriati per valutare determinati aspetti del testo, e poi rivede l'output basandosi sul feedback ottenuto durante questo processo di validazione. Valutazioni complete che coinvolgono risposte a domande libere, sintesi di programmi matematici e riduzione della tossicità dimostrano che CRITIC migliora costantemente le prestazioni degli LLM. Nel frattempo, la nostra ricerca evidenzia l'importanza cruciale del feedback esterno nel promuovere il continuo auto-miglioramento degli LLM.

ControlVideo: Generazione Controllabile di Video da Testo Senza Addestramento
ControlVideo: Training-free Controllable Text-to-Video Generation

May 22

ByYabo Zhang, Yuxiang Wei, Dongsheng Jiang, Xiaopeng Zhang, Wangmeng Zuo, Qi Tian

I modelli di diffusione guidati da testo hanno sbloccato capacità senza precedenti nella generazione di immagini, mentre la loro controparte video è ancora in ritardo a causa degli eccessivi costi di addestramento richiesti per la modellazione temporale. Oltre al carico di addestramento, i video generati soffrono anche di incoerenza nell'aspetto e di sfarfallio strutturale, specialmente nella sintesi di video lunghi. Per affrontare queste sfide, abbiamo progettato un framework senza addestramento chiamato ControlVideo per abilitare una generazione video da testo naturale ed efficiente. ControlVideo, adattato da ControlNet, sfrutta la coerenza strutturale approssimativa proveniente dalle sequenze di movimento in input e introduce tre moduli per migliorare la generazione video. In primo luogo, per garantire la coerenza dell'aspetto tra i fotogrammi, ControlVideo aggiunge un'interazione completamente incrociata tra i fotogrammi nei moduli di self-attention. In secondo luogo, per mitigare l'effetto di sfarfallio, introduce uno smussatore a fotogrammi intervallati che utilizza l'interpolazione di fotogrammi su fotogrammi alternati. Infine, per produrre video lunghi in modo efficiente, utilizza un campionatore gerarchico che sintetizza separatamente ogni breve clip con coerenza complessiva. Potenziato da questi moduli, ControlVideo supera lo stato dell'arte su coppie estese di prompt di movimento sia quantitativamente che qualitativamente. In particolare, grazie ai design efficienti, genera sia video brevi che lunghi in pochi minuti utilizzando una NVIDIA 2080Ti. Il codice è disponibile all'indirizzo https://github.com/YBYBZhang/ControlVideo.

Navigazione Web Multimodale con Modelli Fondamentali Ottimizzati per Istruzioni
Multimodal Web Navigation with Instruction-Finetuned Foundation Models

May 19

ByHiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur

Il progresso della navigazione web autonoma è stato ostacolato dalla dipendenza da miliardi di interazioni esplorative tramite apprendimento per rinforzo online e da progetti di modelli specifici per dominio che rendono difficile sfruttare la generalizzazione da dati ricchi provenienti da domini diversi. In questo lavoro, studiamo l'addestramento offline basato sui dati per agenti web con modelli di base visione-linguaggio. Proponiamo un agente multimodale che segue istruzioni, WebGUM, che osserva sia screenshot di pagine web che pagine HTML e produce azioni di navigazione web, come cliccare e digitare. WebGUM viene addestrato attraverso il fine-tuning congiunto di un modello linguistico ottimizzato per seguire istruzioni e di un vision transformer su un ampio corpus di dimostrazioni. Dimostriamo empiricamente che questo approccio migliora la capacità dell'agente di percepire visivamente in modo contestuale, comprendere l'HTML e ragionare in più passaggi, superando significativamente i lavori precedenti. Sul benchmark MiniWoB, miglioriamo rispetto ai migliori metodi offline precedenti di oltre il 31,9%, avvicinandoci allo stato dell'arte ottenuto con fine-tuning online. Sul benchmark WebShop, il nostro modello da 3 miliardi di parametri raggiunge prestazioni superiori rispetto allo stato dell'arte esistente, PaLM-540B. Abbiamo anche raccolto 347.000 dimostrazioni di alta qualità utilizzando i nostri modelli addestrati, 38 volte più numerose rispetto ai lavori precedenti, e le rendiamo disponibili per promuovere future ricerche in questa direzione.

Addestramento di Modelli di Diffusione con Apprendimento per Rinforzo
Training Diffusion Models with Reinforcement Learning

May 22

ByKevin Black, Michael Janner, Yilun Du, Ilya Kostrikov, Sergey Levine

I modelli di diffusione sono una classe di modelli generativi flessibili addestrati con un'approssimazione dell'obiettivo di massimizzazione della log-verosimiglianza. Tuttavia, la maggior parte degli utilizzi pratici dei modelli di diffusione non è interessata alle verosimiglianze, ma piuttosto a obiettivi downstream come la qualità percepita delle immagini dagli esseri umani o l'efficacia dei farmaci. In questo articolo, esploriamo metodi di apprendimento per rinforzo per ottimizzare direttamente i modelli di diffusione rispetto a tali obiettivi. Descriviamo come il porre il problema di denoising come un processo decisionale multi-step abilita una classe di algoritmi di policy gradient, che chiamiamo ottimizzazione della policy di diffusione del denoising (DDPO), che si dimostrano più efficaci rispetto ad approcci alternativi basati sulla verosimiglianza ponderata per ricompensa. Empiricamente, DDPO è in grado di adattare modelli di diffusione testo-immagine a obiettivi difficili da esprimere tramite prompt, come la comprimibilità delle immagini, e quelli derivati da feedback umano, come la qualità estetica. Infine, dimostriamo che DDPO può migliorare l'allineamento tra prompt e immagine utilizzando feedback da un modello visione-linguaggio senza la necessità di raccolta dati aggiuntiva o annotazioni umane.

AudioToken: Adattamento di Modelli di Diffusione Condizionati al Testo per la Generazione di Immagini da Audio
AudioToken: Adaptation of Text-Conditioned Diffusion Models for Audio-to-Image Generation

May 22

ByGuy Yariv, Itai Gat, Lior Wolf, Yossi Adi, Idan Schwartz

Negli ultimi anni, la generazione di immagini ha compiuto un notevole salto in termini di prestazioni, con i modelli di diffusione che svolgono un ruolo centrale. Sebbene questi modelli generino immagini di alta qualità, sono principalmente condizionati da descrizioni testuali. Ciò solleva la domanda: "come possiamo adattare tali modelli per essere condizionati da altre modalità?". In questo articolo, proponiamo un metodo innovativo che utilizza modelli di diffusione latente addestrati per la generazione di immagini da testo per generare immagini condizionate da registrazioni audio. Utilizzando un modello di codifica audio pre-addestrato, il metodo proposto codifica l'audio in un nuovo token, che può essere considerato come uno strato di adattamento tra le rappresentazioni audio e testuali. Tale paradigma di modellizzazione richiede un numero ridotto di parametri addestrabili, rendendo l'approccio proposto interessante per un'ottimizzazione leggera. I risultati suggeriscono che il metodo proposto è superiore ai metodi di base valutati, considerando metriche sia oggettive che soggettive. Codice e campioni sono disponibili all'indirizzo: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.

Come si adatta il recupero generativo a milioni di passaggi?
How Does Generative Retrieval Scale to Millions of Passages?

May 19

ByRonak Pradeep, Kai Hui, Jai Gupta, Adam D. Lelkes, Honglei Zhuang, Jimmy Lin, Donald Metzler, Vinh Q. Tran

Popolarizzato dal Differentiable Search Index, il paradigma emergente del retrieval generativo riformula il classico problema del recupero delle informazioni come un'attività di modellazione sequenza-a-sequenza, rinunciando a indici esterni e codificando un intero corpus documentale all'interno di un singolo Transformer. Sebbene siano stati proposti molti approcci diversi per migliorare l'efficacia del retrieval generativo, questi sono stati valutati solo su corpora documentali di dimensioni dell'ordine di 100k elementi. Conduriamo il primo studio empirico sulle tecniche di retrieval generativo su varie scale di corpus, arrivando a scalare fino all'intero task di ranking dei passaggi di MS MARCO con un corpus di 8,8 milioni di passaggi e valutando modelli con dimensioni fino a 11 miliardi di parametri. Scopriamo diversi risultati riguardo al ridimensionamento del retrieval generativo a milioni di passaggi; in particolare, l'importanza centrale dell'uso di query sintetiche come rappresentazioni documentali durante l'indicizzazione, l'inefficacia delle modifiche architetturali proposte esistenti quando si tiene conto del costo computazionale, e i limiti del ridimensionamento ingenuo dei parametri del modello rispetto alle prestazioni di retrieval. Sebbene troviamo che il retrieval generativo sia competitivo con i dual encoder all'avanguardia su piccoli corpora, il ridimensionamento a milioni di passaggi rimane una sfida importante e irrisolta. Crediamo che questi risultati saranno preziosi per la comunità per chiarire lo stato attuale del retrieval generativo, evidenziare le sfide uniche e ispirare nuove direzioni di ricerca.

La supervisione cross-linguale migliora il pre-addestramento dei modelli linguistici su larga scala
Cross-Lingual Supervision improves Large Language Models Pre-training

May 19

ByAndrea Schioppa, Xavier Garcia, Orhan Firat

I recenti rapidi progressi nel pre-addestramento di Modelli Linguistici di Grande Scala si sono basati sull'uso di obiettivi di modellazione linguistica auto-supervisionati come la previsione del token successivo o la corruzione di segmenti. D'altra parte, i Sistemi di Traduzione Automatica sono principalmente addestrati utilizzando supervisione cross-linguale che richiede dati allineati tra le lingue sorgente e target. Dimostriamo che il pre-addestramento di Modelli Linguistici di Grande Scala su una miscela di un obiettivo di modellazione linguistica auto-supervisionato e l'obiettivo supervisionato di traduzione automatica, includendo quindi dati paralleli cross-linguali durante il pre-addestramento, produce modelli con migliori capacità di apprendimento in contesto. Poiché il pre-addestramento è un processo molto dispendioso in termini di risorse e una ricerca a griglia sul miglior rapporto di miscelazione tra i due obiettivi è proibitivamente costosa, proponiamo una strategia semplice ma efficace per apprenderlo durante il pre-addestramento.

Visualizzare la Diversità Linguistica dei Dataset di Testo Sintetizzati da Modelli Linguistici di Grande Scala
Visualizing Linguistic Diversity of Text Datasets Synthesized by Large Language Models

May 19

ByEmily Reif, Minsuk Kahng, Savvas Petridis

I modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per generare dataset più piccoli e raffinati attraverso il prompting few-shot, utili per benchmarking, fine-tuning o altri casi d'uso. Tuttavia, comprendere e valutare questi dataset è complesso, e le modalità di fallimento dei dati generati da LLM non sono ancora ben comprese. In particolare, i dati possono risultare ripetitivi in modi sorprendenti, non solo semanticamente ma anche sintatticamente e lessicalmente. Presentiamo LinguisticLens, un nuovo strumento di visualizzazione interattivo per analizzare e comprendere la diversità sintattica dei dataset generati da LLM. LinguisticLens raggruppa il testo lungo assi sintattici, lessicali e semantici. Supporta la visualizzazione gerarchica di un dataset testuale, consentendo agli utenti di ottenere rapidamente una panoramica e di ispezionare singoli esempi. La demo live è disponibile all'indirizzo shorturl.at/zHOUV.

Controllo dell'Estrazione di Dati Memorizzati da Modelli Linguistici di Grandi Dimensioni tramite Prompt-Tuning
Controlling the Extraction of Memorized Data from Large Language Models via Prompt-Tuning

May 19

ByMustafa Safa Ozdayi, Charith Peris, Jack FitzGerald, Christophe Dupuy, Jimit Majmudar, Haidar Khan, Rahil Parikh, Rahul Gupta

I Large Language Model (LLM) sono noti per memorizzare porzioni significative dei loro dati di addestramento. È stato dimostrato che parti di questo contenuto memorizzato possono essere estratte semplicemente interrogando il modello, il che rappresenta un rischio per la privacy. Presentiamo un approccio innovativo che utilizza il prompt-tuning per controllare i tassi di estrazione del contenuto memorizzato nei LLM. Proponiamo due strategie di addestramento dei prompt per aumentare e diminuire i tassi di estrazione, che corrispondono rispettivamente a un attacco e a una difesa. Dimostriamo l'efficacia delle nostre tecniche utilizzando modelli della famiglia GPT-Neo su un benchmark pubblico. Per il modello GPT-Neo da 1,3 miliardi di parametri, il nostro attacco produce un aumento del 9,3% nel tasso di estrazione rispetto alla nostra baseline. La nostra difesa può essere regolata per ottenere diversi compromessi tra privacy e utilità attraverso un iperparametro specificato dall'utente. Raggiungiamo una riduzione del tasso di estrazione fino al 97,7% rispetto alla nostra baseline, con un aumento della perplessità del 16,9%.

Pengi: Un Modello Linguistico Audio per Compiti Audio
Pengi: An Audio Language Model for Audio Tasks

May 19

BySoham Deshmukh, Benjamin Elizalde, Rita Singh, Huaming Wang

Nel dominio dell'elaborazione audio, il Transfer Learning ha favorito l'ascesa delle tecniche di Self-Supervised Learning e Zero-Shot Learning. Questi approcci hanno portato allo sviluppo di modelli versatili in grado di affrontare un'ampia gamma di compiti, ottenendo prestazioni all'avanguardia. Tuttavia, i modelli attuali mancano intrinsecamente della capacità di produrre il linguaggio necessario per compiti aperti, come la generazione di didascalie audio o il rispondere a domande basate su audio. Introduciamo Pengi, un nuovo Audio Language Model che sfrutta il Transfer Learning inquadrando tutti i compiti audio come compiti di generazione di testo. Prende in input una registrazione audio e del testo, e genera testo libero come output. L'audio in input è rappresentato come una sequenza di embedding continui da un encoder audio. Un encoder testo fa lo stesso per il corrispondente input testuale. Entrambe le sequenze sono combinate come prefisso per stimolare un modello linguistico pre-addestrato e congelato. L'architettura unificata di Pengi consente di affrontare sia compiti aperti che compiti chiusi senza ulteriori operazioni di fine-tuning o estensioni specifiche per il compito. Quando valutato su 22 compiti downstream, il nostro approccio ottiene prestazioni all'avanguardia in diversi di essi. I nostri risultati dimostrano che collegare modelli linguistici con modelli audio rappresenta un passo significativo verso una comprensione audio a scopo generale.

Confrontare Macchine e Bambini: Utilizzare Esperimenti di Psicologia dello Sviluppo per Valutare Punti di Forza e Debolezze delle Risposte di LaMDA
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses

May 18

ByEliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb

Gli psicologi dello sviluppo hanno trascorso decenni ideando esperimenti per testare l'intelligenza e la conoscenza di neonati e bambini, tracciando l'origine di concetti e capacità cruciali. Inoltre, le tecniche sperimentali della psicologia dello sviluppo sono state progettate con cura per discriminare le capacità cognitive che sottendono comportamenti specifici. Proponiamo che l'utilizzo di esperimenti classici dello sviluppo infantile sia un modo particolarmente efficace per esplorare le capacità computazionali dei modelli di intelligenza artificiale, in generale, e dei modelli linguistici di grandi dimensioni (LLM) in particolare. In primo luogo, le tecniche metodologiche della psicologia dello sviluppo, come l'uso di stimoli nuovi per controllare l'esperienza passata o condizioni di controllo per determinare se i bambini stanno utilizzando semplici associazioni, possono essere ugualmente utili per valutare le capacità degli LLM. Parallelamente, testare gli LLM in questo modo può dirci se le informazioni codificate nel testo siano sufficienti per abilitare risposte specifiche, o se tali risposte dipendano da altri tipi di informazioni, come quelle derivanti dall'esplorazione del mondo fisico. In questo lavoro adattiamo esperimenti classici dello sviluppo per valutare le capacità di LaMDA, un modello linguistico di grandi dimensioni di Google. Proponiamo una nuova metrica chiamata LLM Response Score (LRS), che può essere utilizzata per valutare altri modelli linguistici, come GPT. Scopriamo che LaMDA genera risposte appropriate simili a quelle dei bambini in esperimenti che coinvolgono la comprensione sociale, forse fornendo evidenza che la conoscenza di questi domini sia scoperta attraverso il linguaggio. D'altra parte, le risposte di LaMDA in compiti di comprensione precoce di oggetti e azioni, teoria della mente e, in particolare, ragionamento causale, sono molto diverse da quelle dei bambini piccoli, suggerendo che questi domini richiedano un'esplorazione autonoma del mondo reale e non possano essere semplicemente appresi dai modelli presenti nel linguaggio.

Potenzia i Modelli Linguistici di Grande Scala per Migliorare le Prestazioni nel Rispondere a Domande Specifiche del Dominio Industriale
Empower Large Language Model to Perform Better on Industrial Domain-Specific Question Answering

May 19

ByZezhong Wang, Fangkai Yang, Pu Zhao, Lu Wang, Jue Zhang, Mohit Garg, Qingwei Lin, Dongmei Zhang

I Large Language Model (LLM) hanno guadagnato popolarità e ottenuto risultati notevoli in compiti a dominio aperto, ma le loro prestazioni in scenari industriali specifici sono mediocri poiché non contengono conoscenze specifiche. Questo problema ha attirato un'attenzione diffusa, ma sono disponibili pochi benchmark rilevanti. In questo articolo, forniamo un dataset di benchmark per il Question Answering (QA) denominato MSQA, che riguarda i prodotti Microsoft e i problemi tecnici IT riscontrati dai clienti. Questo dataset contiene conoscenze QA specifiche per il cloud industriale, non disponibili per i LLM generici, quindi è particolarmente adatto per valutare metodi mirati a migliorare le capacità specifiche per dominio dei LLM. Inoltre, proponiamo un nuovo paradigma di interazione tra modelli che può potenziare i LLM per ottenere prestazioni migliori in compiti specifici per dominio in cui non sono esperti. Esperimenti estesi dimostrano che l'approccio che segue il nostro framework di fusione di modelli supera i metodi comunemente utilizzati con LLM e retrieval.

Suggerimenti Introspettivi: Modelli Linguistici di Grandi Dimensioni per il Processo Decisionale in Contesto
Introspective Tips: Large Language Model for In-Context Decision Making

May 19

ByLiting Chen, Lu Wang, Hang Dong, Yali Du, Jie Yan, Fangkai Yang, Shuang Li, Pu Zhao, Si Qin, Saravan Rajmohan, Qingwei Lin, Dongmei Zhang

L'emergenza dei grandi modelli linguistici (LLM) ha influenzato significativamente l'elaborazione del linguaggio naturale, dimostrando risultati eccezionali in vari compiti. In questo studio, utilizziamo "Suggerimenti Introspettivi" per facilitare gli LLM nell'ottimizzazione autonoma del loro processo decisionale. Esaminando introspettivamente le traiettorie, l'LLM affina la sua politica generando suggerimenti concisi e utili. Il nostro metodo migliora le prestazioni dell'agente sia in situazioni di apprendimento few-shot che zero-shot, considerando tre scenari essenziali: apprendere dalle esperienze passate dell'agente, integrare dimostrazioni di esperti e generalizzare attraverso diversi giochi. È importante sottolineare che otteniamo questi miglioramenti senza fine-tuning dei parametri dell'LLM; piuttosto, adattiamo il prompt per generalizzare le intuizioni derivanti dai tre scenari menzionati. Il nostro framework non solo supporta, ma enfatizza anche il vantaggio di impiegare l'LLM nel processo decisionale in-context. Esperimenti che coinvolgono oltre 100 giochi in TextWorld dimostrano la prestazione superiore del nostro approccio.

QUEST: Un Dataset di Recupero di Query alla Ricerca di Entità con Operazioni Implicite su Insiemi
QUEST: A Retrieval Dataset of Entity-Seeking Queries with Implicit Set Operations

May 19

ByChaitanya Malaviya, Peter Shaw, Ming-Wei Chang, Kenton Lee, Kristina Toutanova

La formulazione di esigenze informative selettive si traduce in query che specificano implicitamente operazioni sugli insiemi, come intersezione, unione e differenza. Ad esempio, si potrebbe cercare "uccelli costieri che non sono piovanelli" o "film di fantascienza girati in Inghilterra". Per studiare la capacità dei sistemi di recupero di soddisfare tali esigenze informative, abbiamo costruito QUEST, un dataset di 3357 query in linguaggio naturale con operazioni sugli insiemi implicite, che si mappano su un insieme di entità corrispondenti a documenti di Wikipedia. Il dataset mette alla prova i modelli nel confrontare i vincoli multipli menzionati nelle query con le evidenze corrispondenti nei documenti e nell'eseguire correttamente varie operazioni sugli insiemi. Il dataset è stato costruito in modo semi-automatico utilizzando i nomi delle categorie di Wikipedia. Le query sono state composte automaticamente a partire da singole categorie, poi parafrasate e ulteriormente validate per naturalezza e fluidità da lavoratori crowdsourcing. I lavoratori crowdsourcing valutano anche la rilevanza delle entità in base ai loro documenti e evidenziano l'attribuzione dei vincoli delle query a porzioni di testo dei documenti. Analizziamo diversi moderni sistemi di recupero, riscontrando che spesso hanno difficoltà con tali query. Le query che coinvolgono negazione e congiunzione sono particolarmente impegnative e i sistemi sono ulteriormente messi alla prova con combinazioni di queste operazioni.

Leggi di scala per i modelli di codifica del linguaggio nella risonanza magnetica funzionale (fMRI)
Scaling laws for language encoding models in fMRI

May 19

ByRichard Antonello, Aditya Vaidya, Alexander G. Huth

Le rappresentazioni ottenute da modelli linguistici unidirezionali basati su trasformatori sono note per essere efficaci nel prevedere le risposte cerebrali al linguaggio naturale. Tuttavia, la maggior parte degli studi che confrontano i modelli linguistici con il cervello hanno utilizzato GPT-2 o modelli linguistici di dimensioni simili. In questo studio, abbiamo testato se modelli open-source più grandi, come quelli delle famiglie OPT e LLaMA, siano migliori nel prevedere le risposte cerebrali registrate tramite fMRI. Rispetto ai risultati di scalabilità in altri contesti, abbiamo riscontrato che le prestazioni nella previsione cerebrale scalano in modo log-lineare con la dimensione del modello, da modelli con 125M a 30B di parametri, con un aumento delle prestazioni di codifica di circa il 15%, misurato attraverso la correlazione con un set di test separato su 3 soggetti. Un comportamento log-lineare simile è stato osservato quando si è scalata la dimensione del set di training fMRI. Abbiamo inoltre caratterizzato la scalabilità per i modelli di codifica acustica che utilizzano HuBERT, WavLM e Whisper, riscontrando miglioramenti comparabili con l'aumento della dimensione del modello. Un'analisi del rumore di fondo per questi modelli di codifica grandi e ad alte prestazioni ha mostrato che le prestazioni si stanno avvicinando al massimo teorico per aree cerebrali come il precuneo e la corteccia uditiva superiore. Questi risultati suggeriscono che l'aumento della scala sia nei modelli che nei dati produrrà modelli estremamente efficaci per l'elaborazione del linguaggio nel cervello, consentendo una migliore comprensione scientifica nonché applicazioni come il decoding.

SeeGULL: Un Benchmark sugli Stereotipi con Ampia Copertura Geo-Culturale Basato su Modelli Generativi
SeeGULL: A Stereotype Benchmark with Broad Geo-Cultural Coverage Leveraging Generative Models

May 19

ByAkshita Jha, Aida Davani, Chandan K. Reddy, Shachi Dave, Vinodkumar Prabhakaran, Sunipa Dev

I dataset di riferimento sugli stereotipi sono cruciali per rilevare e mitigare gli stereotipi sociali riguardanti gruppi di persone nei modelli di NLP. Tuttavia, i dataset esistenti sono limitati in termini di dimensioni e copertura, e sono per lo più ristretti agli stereotipi prevalenti nella società occidentale. Questo è particolarmente problematico man mano che le tecnologie linguistiche si diffondono in tutto il mondo. Per colmare questa lacuna, presentiamo SeeGULL, un dataset sugli stereotipi ad ampia copertura, costruito sfruttando le capacità generative di modelli linguistici di grandi dimensioni come PaLM e GPT-3, e utilizzando un pool di valutatori globalmente diversificato per convalidare la prevalenza di tali stereotipi nella società. SeeGULL è in inglese e contiene stereotipi su gruppi identitari che abbracciano 178 paesi in 8 diverse regioni geopolitiche distribuite su 6 continenti, nonché identità a livello statale negli Stati Uniti e in India. Includiamo anche punteggi dettagliati di offensività per diversi stereotipi e dimostriamo le loro disparità globali. Inoltre, includiamo annotazioni comparative sugli stessi gruppi da parte di annotatori che vivono nella regione rispetto a quelli basati in Nord America, e dimostriamo che gli stereotipi all'interno della regione sui gruppi differiscono da quelli prevalenti in Nord America. AVVERTENZA SUL CONTENUTO: Questo articolo contiene esempi di stereotipi che potrebbero essere offensivi.

Confronto tra Sviluppatori Software e ChatGPT: Un'Indagine Empirica
Comparing Software Developers with ChatGPT: An Empirical Investigation

May 19

ByNathalia Nascimento, Paulo Alencar, Donald Cowan

L'avvento dell'automazione in specifici compiti di Ingegneria del Software (SE) è passato dalla teoria alla realtà. Numerosi articoli accademici hanno documentato l'applicazione con successo dell'Intelligenza Artificiale per affrontare problemi in aree come la gestione dei progetti, la modellazione, i test e lo sviluppo. Un'innovazione recente è l'introduzione di ChatGPT, un chatbot basato su Machine Learning, considerato una risorsa competente nella generazione di codici di programmazione e nella formulazione di strategie di test del software per sviluppatori e tester rispettivamente. Sebbene si speculi che il calcolo basato sull'IA possa aumentare la produttività e persino sostituire gli ingegneri del software nello sviluppo del software, attualmente mancano prove empiriche per verificare questa ipotesi. Inoltre, nonostante l'attenzione primaria sia rivolta a migliorare l'accuratezza dei sistemi di IA, i requisiti non funzionali, tra cui l'efficienza energetica, la vulnerabilità, l'equità (cioè, il bias umano) e la sicurezza, ricevono spesso un'attenzione insufficiente. Questo articolo sostiene che un confronto completo tra ingegneri del software e soluzioni basate sull'IA, considerando vari criteri di valutazione, sia fondamentale per promuovere la collaborazione uomo-macchina, migliorare l'affidabilità dei metodi basati sull'IA e comprendere l'idoneità dei compiti per gli esseri umani o l'IA. Inoltre, facilita l'implementazione efficace di strutture di lavoro cooperative e processi con l'uomo nel ciclo. Questo articolo conduce un'indagine empirica, confrontando le prestazioni degli ingegneri del software e dei sistemi di IA, come ChatGPT, attraverso diverse metriche di valutazione. Lo studio empirico include un caso di valutazione del codice generato da ChatGPT rispetto al codice prodotto dagli sviluppatori e caricato su Leetcode.

Controfattuali per il Design: Un Metodo Agnosticamente Modellistico per Raccomandazioni di Progettazione
Counterfactuals for Design: A Model-Agnostic Method For Design Recommendations

May 18

ByLyle Regenwetter, Yazan Abu Obaideh, Faez Ahmed

Introduciamo Multi-Objective Counterfactuals for Design (MCD), un nuovo metodo per l'ottimizzazione controfattuale nei problemi di progettazione. I controfattuali sono situazioni ipotetiche che possono portare a una decisione o scelta diversa. In questo articolo, gli autori inquadrano il problema della ricerca controfattuale come uno strumento di raccomandazione per la progettazione che può aiutare a identificare modifiche a un design, portando a una migliore performance funzionale. MCD migliora i metodi esistenti di ricerca controfattuale supportando query multi-obiettivo, cruciali nei problemi di progettazione, e separando i processi di ricerca e campionamento controfattuale, migliorando così l'efficienza e facilitando la visualizzazione dei compromessi tra obiettivi. L'articolo dimostra la funzionalità principale di MCD utilizzando un caso di test bidimensionale, seguito da tre studi di caso sulla progettazione di biciclette che mostrano l'efficacia di MCD nei problemi di progettazione del mondo reale. Nel primo studio di caso, MCD eccelle nel raccomandare modifiche ai design di query che possono migliorare significativamente la performance funzionale, come il risparmio di peso e i miglioramenti al fattore di sicurezza strutturale. Il secondo studio di caso dimostra che MCD può lavorare con un modello linguistico pre-addestrato per suggerire cambiamenti al design basati su un prompt testuale soggettivo in modo efficace. Infine, gli autori affidano a MCD il compito di aumentare la somiglianza di un design di query a un'immagine target e a un prompt testuale, riducendo contemporaneamente il peso e migliorando la performance strutturale, dimostrando le prestazioni di MCD su una query multimodale complessa. Nel complesso, MCD ha il potenziale di fornire raccomandazioni preziose per i professionisti e i ricercatori dell'automazione della progettazione che cercano risposte alle loro domande "E se" esplorando modifiche ipotetiche al design e il loro impatto su molteplici obiettivi di progettazione. Il codice, i problemi di test e i dataset utilizzati nell'articolo sono disponibili al pubblico su decode.mit.edu/projects/counterfactuals/.

Confrontare Macchine e Bambini: Utilizzare Esperimenti di Psicologia dello Sviluppo per Valutare Punti di Forza e Debolezze delle Risposte di LaMDA
Comparing Machines and Children: Using Developmental Psychology Experiments to Assess the Strengths and Weaknesses of LaMDA Responses

May 18

ByEliza Kosoy, Emily Rose Reagan, Leslie Lai, Alison Gopnik, Danielle Krettek Cobb