Articoli di ricerca IA selezionati quotidianamente con traduzioni
I Transformer hanno rivoluzionato quasi tutti i compiti di elaborazione del linguaggio naturale (NLP), ma soffrono di una complessità di memoria e computazionale che scala quadraticamente con la lunghezza della sequenza. Al contrario, le reti neurali ricorrenti (RNN) mostrano un scaling lineare nei requisiti di memoria e computazionali, ma faticano a raggiungere le stesse prestazioni dei Transformer a causa di limitazioni nella parallelizzazione e nella scalabilità. Proponiamo una nuova architettura di modello, Receptance Weighted Key Value (RWKV), che combina l'addestramento efficiente e parallelizzabile dei Transformer con l'inferenza efficiente delle RNN. Il nostro approccio sfrutta un meccanismo di attenzione lineare e ci permette di formulare il modello sia come Transformer che come RNN, parallelizzando i calcoli durante l'addestramento e mantenendo una complessità computazionale e di memoria costante durante l'inferenza, portando alla prima architettura non-Transformer scalata a decine di miliardi di parametri. I nostri esperimenti rivelano che RWKV performa alla pari con Transformer di dimensioni simili, suggerendo che lavori futuri possano sfruttare questa architettura per creare modelli più efficienti. Questo lavoro rappresenta un passo significativo verso la riconciliazione dei compromessi tra efficienza computazionale e prestazioni del modello nei compiti di elaborazione delle sequenze.
I recenti sviluppi nei grandi modelli linguistici (LLM) sono stati impressionanti. Tuttavia, questi modelli mostrano talvolta inconsistenze e comportamenti problematici, come l'invenzione di fatti, la generazione di codice difettoso o la creazione di contenuti offensivi e tossici. A differenza di questi modelli, gli esseri umani utilizzano tipicamente strumenti esterni per verificare e affinare i contenuti iniziali, come l'uso di un motore di ricerca per il fact-checking o di un interprete di codice per il debug. Ispirati da questa osservazione, introduciamo un framework chiamato CRITIC che consente agli LLM, essenzialmente "scatole nere", di convalidare e modificare progressivamente i propri output in modo simile all'interazione umana con gli strumenti. Più specificamente, partendo da un output iniziale, CRITIC interagisce con strumenti appropriati per valutare determinati aspetti del testo, e poi rivede l'output basandosi sul feedback ottenuto durante questo processo di validazione. Valutazioni complete che coinvolgono risposte a domande libere, sintesi di programmi matematici e riduzione della tossicità dimostrano che CRITIC migliora costantemente le prestazioni degli LLM. Nel frattempo, la nostra ricerca evidenzia l'importanza cruciale del feedback esterno nel promuovere il continuo auto-miglioramento degli LLM.
I modelli di diffusione guidati da testo hanno sbloccato capacità senza precedenti nella generazione di immagini, mentre la loro controparte video è ancora in ritardo a causa degli eccessivi costi di addestramento richiesti per la modellazione temporale. Oltre al carico di addestramento, i video generati soffrono anche di incoerenza nell'aspetto e di sfarfallio strutturale, specialmente nella sintesi di video lunghi. Per affrontare queste sfide, abbiamo progettato un framework senza addestramento chiamato ControlVideo per abilitare una generazione video da testo naturale ed efficiente. ControlVideo, adattato da ControlNet, sfrutta la coerenza strutturale approssimativa proveniente dalle sequenze di movimento in input e introduce tre moduli per migliorare la generazione video. In primo luogo, per garantire la coerenza dell'aspetto tra i fotogrammi, ControlVideo aggiunge un'interazione completamente incrociata tra i fotogrammi nei moduli di self-attention. In secondo luogo, per mitigare l'effetto di sfarfallio, introduce uno smussatore a fotogrammi intervallati che utilizza l'interpolazione di fotogrammi su fotogrammi alternati. Infine, per produrre video lunghi in modo efficiente, utilizza un campionatore gerarchico che sintetizza separatamente ogni breve clip con coerenza complessiva. Potenziato da questi moduli, ControlVideo supera lo stato dell'arte su coppie estese di prompt di movimento sia quantitativamente che qualitativamente. In particolare, grazie ai design efficienti, genera sia video brevi che lunghi in pochi minuti utilizzando una NVIDIA 2080Ti. Il codice è disponibile all'indirizzo https://github.com/YBYBZhang/ControlVideo.
Il progresso della navigazione web autonoma è stato ostacolato dalla dipendenza da miliardi di interazioni esplorative tramite apprendimento per rinforzo online e da progetti di modelli specifici per dominio che rendono difficile sfruttare la generalizzazione da dati ricchi provenienti da domini diversi. In questo lavoro, studiamo l'addestramento offline basato sui dati per agenti web con modelli di base visione-linguaggio. Proponiamo un agente multimodale che segue istruzioni, WebGUM, che osserva sia screenshot di pagine web che pagine HTML e produce azioni di navigazione web, come cliccare e digitare. WebGUM viene addestrato attraverso il fine-tuning congiunto di un modello linguistico ottimizzato per seguire istruzioni e di un vision transformer su un ampio corpus di dimostrazioni. Dimostriamo empiricamente che questo approccio migliora la capacità dell'agente di percepire visivamente in modo contestuale, comprendere l'HTML e ragionare in più passaggi, superando significativamente i lavori precedenti. Sul benchmark MiniWoB, miglioriamo rispetto ai migliori metodi offline precedenti di oltre il 31,9%, avvicinandoci allo stato dell'arte ottenuto con fine-tuning online. Sul benchmark WebShop, il nostro modello da 3 miliardi di parametri raggiunge prestazioni superiori rispetto allo stato dell'arte esistente, PaLM-540B. Abbiamo anche raccolto 347.000 dimostrazioni di alta qualità utilizzando i nostri modelli addestrati, 38 volte più numerose rispetto ai lavori precedenti, e le rendiamo disponibili per promuovere future ricerche in questa direzione.
I modelli di diffusione sono una classe di modelli generativi flessibili addestrati con un'approssimazione dell'obiettivo di massimizzazione della log-verosimiglianza. Tuttavia, la maggior parte degli utilizzi pratici dei modelli di diffusione non è interessata alle verosimiglianze, ma piuttosto a obiettivi downstream come la qualità percepita delle immagini dagli esseri umani o l'efficacia dei farmaci. In questo articolo, esploriamo metodi di apprendimento per rinforzo per ottimizzare direttamente i modelli di diffusione rispetto a tali obiettivi. Descriviamo come il porre il problema di denoising come un processo decisionale multi-step abilita una classe di algoritmi di policy gradient, che chiamiamo ottimizzazione della policy di diffusione del denoising (DDPO), che si dimostrano più efficaci rispetto ad approcci alternativi basati sulla verosimiglianza ponderata per ricompensa. Empiricamente, DDPO è in grado di adattare modelli di diffusione testo-immagine a obiettivi difficili da esprimere tramite prompt, come la comprimibilità delle immagini, e quelli derivati da feedback umano, come la qualità estetica. Infine, dimostriamo che DDPO può migliorare l'allineamento tra prompt e immagine utilizzando feedback da un modello visione-linguaggio senza la necessità di raccolta dati aggiuntiva o annotazioni umane.
Negli ultimi anni, la generazione di immagini ha compiuto un notevole salto in termini di prestazioni, con i modelli di diffusione che svolgono un ruolo centrale. Sebbene questi modelli generino immagini di alta qualità, sono principalmente condizionati da descrizioni testuali. Ciò solleva la domanda: "come possiamo adattare tali modelli per essere condizionati da altre modalità?". In questo articolo, proponiamo un metodo innovativo che utilizza modelli di diffusione latente addestrati per la generazione di immagini da testo per generare immagini condizionate da registrazioni audio. Utilizzando un modello di codifica audio pre-addestrato, il metodo proposto codifica l'audio in un nuovo token, che può essere considerato come uno strato di adattamento tra le rappresentazioni audio e testuali. Tale paradigma di modellizzazione richiede un numero ridotto di parametri addestrabili, rendendo l'approccio proposto interessante per un'ottimizzazione leggera. I risultati suggeriscono che il metodo proposto è superiore ai metodi di base valutati, considerando metriche sia oggettive che soggettive. Codice e campioni sono disponibili all'indirizzo: https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken.
Popolarizzato dal Differentiable Search Index, il paradigma emergente del retrieval generativo riformula il classico problema del recupero delle informazioni come un'attività di modellazione sequenza-a-sequenza, rinunciando a indici esterni e codificando un intero corpus documentale all'interno di un singolo Transformer. Sebbene siano stati proposti molti approcci diversi per migliorare l'efficacia del retrieval generativo, questi sono stati valutati solo su corpora documentali di dimensioni dell'ordine di 100k elementi. Conduriamo il primo studio empirico sulle tecniche di retrieval generativo su varie scale di corpus, arrivando a scalare fino all'intero task di ranking dei passaggi di MS MARCO con un corpus di 8,8 milioni di passaggi e valutando modelli con dimensioni fino a 11 miliardi di parametri. Scopriamo diversi risultati riguardo al ridimensionamento del retrieval generativo a milioni di passaggi; in particolare, l'importanza centrale dell'uso di query sintetiche come rappresentazioni documentali durante l'indicizzazione, l'inefficacia delle modifiche architetturali proposte esistenti quando si tiene conto del costo computazionale, e i limiti del ridimensionamento ingenuo dei parametri del modello rispetto alle prestazioni di retrieval. Sebbene troviamo che il retrieval generativo sia competitivo con i dual encoder all'avanguardia su piccoli corpora, il ridimensionamento a milioni di passaggi rimane una sfida importante e irrisolta. Crediamo che questi risultati saranno preziosi per la comunità per chiarire lo stato attuale del retrieval generativo, evidenziare le sfide uniche e ispirare nuove direzioni di ricerca.
I recenti rapidi progressi nel pre-addestramento di Modelli Linguistici di Grande Scala si sono basati sull'uso di obiettivi di modellazione linguistica auto-supervisionati come la previsione del token successivo o la corruzione di segmenti. D'altra parte, i Sistemi di Traduzione Automatica sono principalmente addestrati utilizzando supervisione cross-linguale che richiede dati allineati tra le lingue sorgente e target. Dimostriamo che il pre-addestramento di Modelli Linguistici di Grande Scala su una miscela di un obiettivo di modellazione linguistica auto-supervisionato e l'obiettivo supervisionato di traduzione automatica, includendo quindi dati paralleli cross-linguali durante il pre-addestramento, produce modelli con migliori capacità di apprendimento in contesto. Poiché il pre-addestramento è un processo molto dispendioso in termini di risorse e una ricerca a griglia sul miglior rapporto di miscelazione tra i due obiettivi è proibitivamente costosa, proponiamo una strategia semplice ma efficace per apprenderlo durante il pre-addestramento.
I modelli linguistici di grandi dimensioni (LLM) possono essere utilizzati per generare dataset più piccoli e raffinati attraverso il prompting few-shot, utili per benchmarking, fine-tuning o altri casi d'uso. Tuttavia, comprendere e valutare questi dataset è complesso, e le modalità di fallimento dei dati generati da LLM non sono ancora ben comprese. In particolare, i dati possono risultare ripetitivi in modi sorprendenti, non solo semanticamente ma anche sintatticamente e lessicalmente. Presentiamo LinguisticLens, un nuovo strumento di visualizzazione interattivo per analizzare e comprendere la diversità sintattica dei dataset generati da LLM. LinguisticLens raggruppa il testo lungo assi sintattici, lessicali e semantici. Supporta la visualizzazione gerarchica di un dataset testuale, consentendo agli utenti di ottenere rapidamente una panoramica e di ispezionare singoli esempi. La demo live è disponibile all'indirizzo shorturl.at/zHOUV.
I Large Language Model (LLM) sono noti per memorizzare porzioni significative dei loro dati di addestramento. È stato dimostrato che parti di questo contenuto memorizzato possono essere estratte semplicemente interrogando il modello, il che rappresenta un rischio per la privacy. Presentiamo un approccio innovativo che utilizza il prompt-tuning per controllare i tassi di estrazione del contenuto memorizzato nei LLM. Proponiamo due strategie di addestramento dei prompt per aumentare e diminuire i tassi di estrazione, che corrispondono rispettivamente a un attacco e a una difesa. Dimostriamo l'efficacia delle nostre tecniche utilizzando modelli della famiglia GPT-Neo su un benchmark pubblico. Per il modello GPT-Neo da 1,3 miliardi di parametri, il nostro attacco produce un aumento del 9,3% nel tasso di estrazione rispetto alla nostra baseline. La nostra difesa può essere regolata per ottenere diversi compromessi tra privacy e utilità attraverso un iperparametro specificato dall'utente. Raggiungiamo una riduzione del tasso di estrazione fino al 97,7% rispetto alla nostra baseline, con un aumento della perplessità del 16,9%.
Nel dominio dell'elaborazione audio, il Transfer Learning ha favorito l'ascesa delle tecniche di Self-Supervised Learning e Zero-Shot Learning. Questi approcci hanno portato allo sviluppo di modelli versatili in grado di affrontare un'ampia gamma di compiti, ottenendo prestazioni all'avanguardia. Tuttavia, i modelli attuali mancano intrinsecamente della capacità di produrre il linguaggio necessario per compiti aperti, come la generazione di didascalie audio o il rispondere a domande basate su audio. Introduciamo Pengi, un nuovo Audio Language Model che sfrutta il Transfer Learning inquadrando tutti i compiti audio come compiti di generazione di testo. Prende in input una registrazione audio e del testo, e genera testo libero come output. L'audio in input è rappresentato come una sequenza di embedding continui da un encoder audio. Un encoder testo fa lo stesso per il corrispondente input testuale. Entrambe le sequenze sono combinate come prefisso per stimolare un modello linguistico pre-addestrato e congelato. L'architettura unificata di Pengi consente di affrontare sia compiti aperti che compiti chiusi senza ulteriori operazioni di fine-tuning o estensioni specifiche per il compito. Quando valutato su 22 compiti downstream, il nostro approccio ottiene prestazioni all'avanguardia in diversi di essi. I nostri risultati dimostrano che collegare modelli linguistici con modelli audio rappresenta un passo significativo verso una comprensione audio a scopo generale.
Gli psicologi dello sviluppo hanno trascorso decenni ideando esperimenti per testare l'intelligenza e la conoscenza di neonati e bambini, tracciando l'origine di concetti e capacità cruciali. Inoltre, le tecniche sperimentali della psicologia dello sviluppo sono state progettate con cura per discriminare le capacità cognitive che sottendono comportamenti specifici. Proponiamo che l'utilizzo di esperimenti classici dello sviluppo infantile sia un modo particolarmente efficace per esplorare le capacità computazionali dei modelli di intelligenza artificiale, in generale, e dei modelli linguistici di grandi dimensioni (LLM) in particolare. In primo luogo, le tecniche metodologiche della psicologia dello sviluppo, come l'uso di stimoli nuovi per controllare l'esperienza passata o condizioni di controllo per determinare se i bambini stanno utilizzando semplici associazioni, possono essere ugualmente utili per valutare le capacità degli LLM. Parallelamente, testare gli LLM in questo modo può dirci se le informazioni codificate nel testo siano sufficienti per abilitare risposte specifiche, o se tali risposte dipendano da altri tipi di informazioni, come quelle derivanti dall'esplorazione del mondo fisico. In questo lavoro adattiamo esperimenti classici dello sviluppo per valutare le capacità di LaMDA, un modello linguistico di grandi dimensioni di Google. Proponiamo una nuova metrica chiamata LLM Response Score (LRS), che può essere utilizzata per valutare altri modelli linguistici, come GPT. Scopriamo che LaMDA genera risposte appropriate simili a quelle dei bambini in esperimenti che coinvolgono la comprensione sociale, forse fornendo evidenza che la conoscenza di questi domini sia scoperta attraverso il linguaggio. D'altra parte, le risposte di LaMDA in compiti di comprensione precoce di oggetti e azioni, teoria della mente e, in particolare, ragionamento causale, sono molto diverse da quelle dei bambini piccoli, suggerendo che questi domini richiedano un'esplorazione autonoma del mondo reale e non possano essere semplicemente appresi dai modelli presenti nel linguaggio.
I Large Language Model (LLM) hanno guadagnato popolarità e ottenuto risultati notevoli in compiti a dominio aperto, ma le loro prestazioni in scenari industriali specifici sono mediocri poiché non contengono conoscenze specifiche. Questo problema ha attirato un'attenzione diffusa, ma sono disponibili pochi benchmark rilevanti. In questo articolo, forniamo un dataset di benchmark per il Question Answering (QA) denominato MSQA, che riguarda i prodotti Microsoft e i problemi tecnici IT riscontrati dai clienti. Questo dataset contiene conoscenze QA specifiche per il cloud industriale, non disponibili per i LLM generici, quindi è particolarmente adatto per valutare metodi mirati a migliorare le capacità specifiche per dominio dei LLM. Inoltre, proponiamo un nuovo paradigma di interazione tra modelli che può potenziare i LLM per ottenere prestazioni migliori in compiti specifici per dominio in cui non sono esperti. Esperimenti estesi dimostrano che l'approccio che segue il nostro framework di fusione di modelli supera i metodi comunemente utilizzati con LLM e retrieval.
L'emergenza dei grandi modelli linguistici (LLM) ha influenzato significativamente l'elaborazione del linguaggio naturale, dimostrando risultati eccezionali in vari compiti. In questo studio, utilizziamo "Suggerimenti Introspettivi" per facilitare gli LLM nell'ottimizzazione autonoma del loro processo decisionale. Esaminando introspettivamente le traiettorie, l'LLM affina la sua politica generando suggerimenti concisi e utili. Il nostro metodo migliora le prestazioni dell'agente sia in situazioni di apprendimento few-shot che zero-shot, considerando tre scenari essenziali: apprendere dalle esperienze passate dell'agente, integrare dimostrazioni di esperti e generalizzare attraverso diversi giochi. È importante sottolineare che otteniamo questi miglioramenti senza fine-tuning dei parametri dell'LLM; piuttosto, adattiamo il prompt per generalizzare le intuizioni derivanti dai tre scenari menzionati. Il nostro framework non solo supporta, ma enfatizza anche il vantaggio di impiegare l'LLM nel processo decisionale in-context. Esperimenti che coinvolgono oltre 100 giochi in TextWorld dimostrano la prestazione superiore del nostro approccio.
La formulazione di esigenze informative selettive si traduce in query che specificano implicitamente operazioni sugli insiemi, come intersezione, unione e differenza. Ad esempio, si potrebbe cercare "uccelli costieri che non sono piovanelli" o "film di fantascienza girati in Inghilterra". Per studiare la capacità dei sistemi di recupero di soddisfare tali esigenze informative, abbiamo costruito QUEST, un dataset di 3357 query in linguaggio naturale con operazioni sugli insiemi implicite, che si mappano su un insieme di entità corrispondenti a documenti di Wikipedia. Il dataset mette alla prova i modelli nel confrontare i vincoli multipli menzionati nelle query con le evidenze corrispondenti nei documenti e nell'eseguire correttamente varie operazioni sugli insiemi. Il dataset è stato costruito in modo semi-automatico utilizzando i nomi delle categorie di Wikipedia. Le query sono state composte automaticamente a partire da singole categorie, poi parafrasate e ulteriormente validate per naturalezza e fluidità da lavoratori crowdsourcing. I lavoratori crowdsourcing valutano anche la rilevanza delle entità in base ai loro documenti e evidenziano l'attribuzione dei vincoli delle query a porzioni di testo dei documenti. Analizziamo diversi moderni sistemi di recupero, riscontrando che spesso hanno difficoltà con tali query. Le query che coinvolgono negazione e congiunzione sono particolarmente impegnative e i sistemi sono ulteriormente messi alla prova con combinazioni di queste operazioni.
Le rappresentazioni ottenute da modelli linguistici unidirezionali basati su trasformatori sono note per essere efficaci nel prevedere le risposte cerebrali al linguaggio naturale. Tuttavia, la maggior parte degli studi che confrontano i modelli linguistici con il cervello hanno utilizzato GPT-2 o modelli linguistici di dimensioni simili. In questo studio, abbiamo testato se modelli open-source più grandi, come quelli delle famiglie OPT e LLaMA, siano migliori nel prevedere le risposte cerebrali registrate tramite fMRI. Rispetto ai risultati di scalabilità in altri contesti, abbiamo riscontrato che le prestazioni nella previsione cerebrale scalano in modo log-lineare con la dimensione del modello, da modelli con 125M a 30B di parametri, con un aumento delle prestazioni di codifica di circa il 15%, misurato attraverso la correlazione con un set di test separato su 3 soggetti. Un comportamento log-lineare simile è stato osservato quando si è scalata la dimensione del set di training fMRI. Abbiamo inoltre caratterizzato la scalabilità per i modelli di codifica acustica che utilizzano HuBERT, WavLM e Whisper, riscontrando miglioramenti comparabili con l'aumento della dimensione del modello. Un'analisi del rumore di fondo per questi modelli di codifica grandi e ad alte prestazioni ha mostrato che le prestazioni si stanno avvicinando al massimo teorico per aree cerebrali come il precuneo e la corteccia uditiva superiore. Questi risultati suggeriscono che l'aumento della scala sia nei modelli che nei dati produrrà modelli estremamente efficaci per l'elaborazione del linguaggio nel cervello, consentendo una migliore comprensione scientifica nonché applicazioni come il decoding.
I dataset di riferimento sugli stereotipi sono cruciali per rilevare e mitigare gli stereotipi sociali riguardanti gruppi di persone nei modelli di NLP. Tuttavia, i dataset esistenti sono limitati in termini di dimensioni e copertura, e sono per lo più ristretti agli stereotipi prevalenti nella società occidentale. Questo è particolarmente problematico man mano che le tecnologie linguistiche si diffondono in tutto il mondo. Per colmare questa lacuna, presentiamo SeeGULL, un dataset sugli stereotipi ad ampia copertura, costruito sfruttando le capacità generative di modelli linguistici di grandi dimensioni come PaLM e GPT-3, e utilizzando un pool di valutatori globalmente diversificato per convalidare la prevalenza di tali stereotipi nella società. SeeGULL è in inglese e contiene stereotipi su gruppi identitari che abbracciano 178 paesi in 8 diverse regioni geopolitiche distribuite su 6 continenti, nonché identità a livello statale negli Stati Uniti e in India. Includiamo anche punteggi dettagliati di offensività per diversi stereotipi e dimostriamo le loro disparità globali. Inoltre, includiamo annotazioni comparative sugli stessi gruppi da parte di annotatori che vivono nella regione rispetto a quelli basati in Nord America, e dimostriamo che gli stereotipi all'interno della regione sui gruppi differiscono da quelli prevalenti in Nord America. AVVERTENZA SUL CONTENUTO: Questo articolo contiene esempi di stereotipi che potrebbero essere offensivi.
L'avvento dell'automazione in specifici compiti di Ingegneria del Software (SE) è passato dalla teoria alla realtà. Numerosi articoli accademici hanno documentato l'applicazione con successo dell'Intelligenza Artificiale per affrontare problemi in aree come la gestione dei progetti, la modellazione, i test e lo sviluppo. Un'innovazione recente è l'introduzione di ChatGPT, un chatbot basato su Machine Learning, considerato una risorsa competente nella generazione di codici di programmazione e nella formulazione di strategie di test del software per sviluppatori e tester rispettivamente. Sebbene si speculi che il calcolo basato sull'IA possa aumentare la produttività e persino sostituire gli ingegneri del software nello sviluppo del software, attualmente mancano prove empiriche per verificare questa ipotesi. Inoltre, nonostante l'attenzione primaria sia rivolta a migliorare l'accuratezza dei sistemi di IA, i requisiti non funzionali, tra cui l'efficienza energetica, la vulnerabilità, l'equità (cioè, il bias umano) e la sicurezza, ricevono spesso un'attenzione insufficiente. Questo articolo sostiene che un confronto completo tra ingegneri del software e soluzioni basate sull'IA, considerando vari criteri di valutazione, sia fondamentale per promuovere la collaborazione uomo-macchina, migliorare l'affidabilità dei metodi basati sull'IA e comprendere l'idoneità dei compiti per gli esseri umani o l'IA. Inoltre, facilita l'implementazione efficace di strutture di lavoro cooperative e processi con l'uomo nel ciclo. Questo articolo conduce un'indagine empirica, confrontando le prestazioni degli ingegneri del software e dei sistemi di IA, come ChatGPT, attraverso diverse metriche di valutazione. Lo studio empirico include un caso di valutazione del codice generato da ChatGPT rispetto al codice prodotto dagli sviluppatori e caricato su Leetcode.
Introduciamo Multi-Objective Counterfactuals for Design (MCD), un nuovo metodo per l'ottimizzazione controfattuale nei problemi di progettazione. I controfattuali sono situazioni ipotetiche che possono portare a una decisione o scelta diversa. In questo articolo, gli autori inquadrano il problema della ricerca controfattuale come uno strumento di raccomandazione per la progettazione che può aiutare a identificare modifiche a un design, portando a una migliore performance funzionale. MCD migliora i metodi esistenti di ricerca controfattuale supportando query multi-obiettivo, cruciali nei problemi di progettazione, e separando i processi di ricerca e campionamento controfattuale, migliorando così l'efficienza e facilitando la visualizzazione dei compromessi tra obiettivi. L'articolo dimostra la funzionalità principale di MCD utilizzando un caso di test bidimensionale, seguito da tre studi di caso sulla progettazione di biciclette che mostrano l'efficacia di MCD nei problemi di progettazione del mondo reale. Nel primo studio di caso, MCD eccelle nel raccomandare modifiche ai design di query che possono migliorare significativamente la performance funzionale, come il risparmio di peso e i miglioramenti al fattore di sicurezza strutturale. Il secondo studio di caso dimostra che MCD può lavorare con un modello linguistico pre-addestrato per suggerire cambiamenti al design basati su un prompt testuale soggettivo in modo efficace. Infine, gli autori affidano a MCD il compito di aumentare la somiglianza di un design di query a un'immagine target e a un prompt testuale, riducendo contemporaneamente il peso e migliorando la performance strutturale, dimostrando le prestazioni di MCD su una query multimodale complessa. Nel complesso, MCD ha il potenziale di fornire raccomandazioni preziose per i professionisti e i ricercatori dell'automazione della progettazione che cercano risposte alle loro domande "E se" esplorando modifiche ipotetiche al design e il loro impatto su molteplici obiettivi di progettazione. Il codice, i problemi di test e i dataset utilizzati nell'articolo sono disponibili al pubblico su decode.mit.edu/projects/counterfactuals/.