Articoli di ricerca IA selezionati quotidianamente con traduzioni
La capacità dei grandi modelli linguistici (LLM) di seguire istruzioni in linguaggio naturale con una fluidità paragonabile a quella umana suggerisce numerose opportunità nel settore sanitario per ridurre il carico amministrativo e migliorare la qualità delle cure. Tuttavia, valutare gli LLM su compiti realistici di generazione di testo per il settore sanitario rimane una sfida. I dataset esistenti di risposta a domande basati sui dati delle cartelle cliniche elettroniche (EHR) non riescono a catturare la complessità dei bisogni informativi e del carico documentale affrontato dai clinici. Per affrontare queste sfide, introduciamo MedAlign, un dataset di riferimento composto da 983 istruzioni in linguaggio naturale per dati EHR. MedAlign è stato curato da 15 clinici (7 specialità), include risposte di riferimento scritte da clinici per 303 istruzioni e fornisce 276 EHR longitudinali per contestualizzare le coppie istruzione-risposta. Abbiamo utilizzato MedAlign per valutare 6 LLM di dominio generale, facendo classificare ai clinici l'accuratezza e la qualità di ciascuna risposta generata dagli LLM. Abbiamo riscontrato tassi di errore elevati, che vanno dal 35% (GPT-4) al 68% (MPT-7B-Instruct), e un calo dell'8,3% nell'accuratezza passando da una lunghezza di contesto di 32k a 2k per GPT-4. Infine, riportiamo le correlazioni tra le classificazioni dei clinici e le metriche automatiche di generazione del linguaggio naturale come metodo per classificare gli LLM senza revisione umana. Rendiamo disponibile MedAlign con un accordo di utilizzo dei dati per la ricerca, per consentire valutazioni degli LLM su compiti allineati con le esigenze e le preferenze dei clinici.
Evitare la sintesi di specifici concetti visivi rappresenta una sfida essenziale nella sintesi visiva responsabile. Tuttavia, il concetto visivo che deve essere evitato per una sintesi visiva responsabile tende a essere diverso, a seconda della regione, del contesto e degli scenari di utilizzo. In questo lavoro, formalizziamo un nuovo compito, la Sintesi Visiva Responsabile a Vocabolario Aperto (ORES), in cui il modello di sintesi è in grado di evitare concetti visivi proibiti consentendo agli utenti di inserire qualsiasi contenuto desiderato. Per affrontare questo problema, presentiamo un framework di Intervento in Due Fasi (TIN). Introducendo 1) la riscrittura con istruzioni apprendibili attraverso un modello linguistico su larga scala (LLM) e 2) la sintesi con intervento sui prompt in un modello di sintesi basato su diffusione, è possibile sintetizzare efficacemente immagini evitando qualsiasi concetto indesiderato, seguendo il più possibile la query dell'utente. Per valutare ORES, forniamo un dataset disponibile pubblicamente, modelli di base e un benchmark. I risultati sperimentali dimostrano l'efficacia del nostro metodo nel ridurre i rischi nella generazione di immagini. Il nostro lavoro evidenzia il potenziale degli LLM nella sintesi visiva responsabile. Il nostro codice e il dataset sono disponibili pubblicamente.