Artigos de pesquisa em IA selecionados diariamente com traduções
A capacidade dos grandes modelos de linguagem (LLMs) de seguir instruções em linguagem natural com fluência em nível humano sugere diversas oportunidades na área da saúde para reduzir a carga administrativa e melhorar a qualidade do atendimento. No entanto, avaliar LLMs em tarefas realistas de geração de texto para a saúde continua sendo um desafio. Os conjuntos de dados existentes de perguntas e respostas para dados de prontuários eletrônicos (EHR) não capturam a complexidade das necessidades de informação e dos encargos de documentação enfrentados pelos clínicos. Para abordar esses desafios, apresentamos o MedAlign, um conjunto de dados de referência composto por 983 instruções em linguagem natural para dados de EHR. O MedAlign foi curado por 15 clínicos (7 especialidades), inclui respostas de referência escritas por clínicos para 303 instruções e fornece 276 EHRs longitudinais para contextualizar pares de instrução-resposta. Utilizamos o MedAlign para avaliar 6 LLMs de domínio geral, solicitando que clínicos classificassem a precisão e a qualidade de cada resposta gerada pelos modelos. Encontramos altas taxas de erro, variando de 35% (GPT-4) a 68% (MPT-7B-Instruct), e uma queda de 8,3% na precisão ao reduzir o comprimento de contexto de 32k para 2k no GPT-4. Por fim, relatamos correlações entre as classificações dos clínicos e métricas automatizadas de geração de linguagem natural como uma forma de classificar LLMs sem revisão humana. Disponibilizamos o MedAlign sob um acordo de uso de dados para pesquisa, permitindo avaliações de LLMs em tarefas alinhadas com as necessidades e preferências dos clínicos.
Evitar a síntese de conceitos visuais específicos é um desafio essencial na síntese visual responsável. No entanto, o conceito visual que precisa ser evitado para uma síntese visual responsável tende a ser diverso, dependendo da região, contexto e cenários de uso. Neste trabalho, formalizamos uma nova tarefa, a Síntese Visual Responsável de Vocabulário Aberto (ORES), na qual o modelo de síntese é capaz de evitar conceitos visuais proibidos, permitindo que os usuários insiram qualquer conteúdo desejado. Para abordar esse problema, apresentamos uma estrutura de Intervenção em Duas Etapas (TIN). Ao introduzir 1) a reescrita com instrução aprendível por meio de um modelo de linguagem de grande escala (LLM) e 2) a síntese com intervenção de prompt em um modelo de síntese por difusão, é possível sintetizar imagens de forma eficaz, evitando quaisquer conceitos, mas seguindo a consulta do usuário o máximo possível. Para avaliar o ORES, fornecemos um conjunto de dados publicamente disponível, modelos de referência e um benchmark. Os resultados experimentais demonstram a eficácia do nosso método na redução dos riscos da geração de imagens. Nosso trabalho destaca o potencial dos LLMs na síntese visual responsável. Nosso código e conjunto de dados estão disponíveis publicamente.