Dagelijks geselecteerde AI onderzoekspapers met vertalingen
Het vermogen van grote taalmodellen (LLMs) om natuurlijke taal instructies met menselijke vloeiendheid te volgen, biedt veel mogelijkheden in de gezondheidszorg om de administratieve last te verminderen en de kwaliteit van zorg te verbeteren. Het evalueren van LLMs op realistische tekstgeneratietaken voor de gezondheidszorg blijft echter een uitdaging. Bestaande vraag-antwoorddatasets voor elektronische patiëntendossiers (EHR) vangen niet de complexiteit van informatiebehoeften en documentatielasten die clinici ervaren. Om deze uitdagingen aan te pakken, introduceren we MedAlign, een benchmarkdataset van 983 natuurlijke taal instructies voor EHR-gegevens. MedAlign is samengesteld door 15 clinici (7 specialismen), bevat door clinici geschreven referentieresponses voor 303 instructies, en biedt 276 longitudinale EHRs om instructie-responseparen te onderbouwen. We gebruikten MedAlign om 6 algemene domein LLMs te evalueren, waarbij clinici de nauwkeurigheid en kwaliteit van elke LLM-response beoordeelden. We vonden hoge foutpercentages, variërend van 35% (GPT-4) tot 68% (MPT-7B-Instruct), en een daling van 8,3% in nauwkeurigheid bij het veranderen van 32k naar 2k contextlengtes voor GPT-4. Tot slot rapporteren we correlaties tussen de beoordelingen van clinici en geautomatiseerde natuurlijke taalgeneratiemetrics als een manier om LLMs te rangschikken zonder menselijke beoordeling. We stellen MedAlign beschikbaar onder een onderzoeksdata gebruiksovereenkomst om LLM-evaluaties mogelijk te maken op taken die aansluiten bij de behoeften en voorkeuren van clinici.
Het vermijden van het synthetiseren van specifieke visuele concepten is een essentiële uitdaging in verantwoorde visuele synthese. Het visuele concept dat vermeden moet worden voor verantwoorde visuele synthese, is echter vaak divers en hangt af van de regio, context en gebruiksscenario's. In dit werk formaliseren we een nieuwe taak, Open-vocabulary Responsible Visual Synthesis (ORES), waarbij het synthese-model in staat is verboden visuele concepten te vermijden, terwijl gebruikers elke gewenste inhoud kunnen invoeren. Om dit probleem aan te pakken, presenteren we een Two-stage Intervention (TIN) raamwerk. Door 1) herschrijven met leerbare instructies via een grootschalig taalmodel (LLM) en 2) synthetiseren met promptinterventie op een diffusiesynthesemodel te introduceren, kan het effectief afbeeldingen synthetiseren die elk concept vermijden, maar de query van de gebruiker zoveel mogelijk volgen. Om ORES te evalueren, bieden we een openbaar beschikbare dataset, basismodellen en een benchmark. Experimentele resultaten tonen de effectiviteit van onze methode aan in het verminderen van risico's bij beeldgeneratie. Ons werk benadrukt het potentieel van LLM's in verantwoorde visuele synthese. Onze code en dataset zijn openbaar beschikbaar.