Artículos de investigación en IA seleccionados diariamente con traducciones
La capacidad de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) para seguir instrucciones en lenguaje natural con fluidez a nivel humano sugiere numerosas oportunidades en el ámbito de la salud para reducir la carga administrativa y mejorar la calidad de la atención. Sin embargo, evaluar los LLMs en tareas realistas de generación de texto para el sector sanitario sigue siendo un desafío. Los conjuntos de datos existentes de preguntas y respuestas para registros de salud electrónicos (EHR, por sus siglas en inglés) no logran capturar la complejidad de las necesidades de información y las cargas documentales que experimentan los clínicos. Para abordar estos desafíos, presentamos MedAlign, un conjunto de datos de referencia que incluye 983 instrucciones en lenguaje natural para datos de EHR. MedAlign ha sido curado por 15 clínicos (de 7 especialidades), incluye respuestas de referencia escritas por clínicos para 303 instrucciones y proporciona 276 EHR longitudinales para contextualizar los pares de instrucción-respuesta. Utilizamos MedAlign para evaluar 6 LLMs de dominio general, haciendo que los clínicos clasificaran la precisión y calidad de cada respuesta generada por los LLMs. Encontramos altas tasas de error, que oscilaron entre el 35% (GPT-4) y el 68% (MPT-7B-Instruct), y una caída del 8.3% en la precisión al reducir la longitud de contexto de 32k a 2k tokens en GPT-4. Finalmente, reportamos correlaciones entre las clasificaciones de los clínicos y las métricas automatizadas de generación de lenguaje natural como una forma de clasificar los LLMs sin revisión humana. Ponemos MedAlign a disposición bajo un acuerdo de uso de datos para investigación, con el fin de permitir evaluaciones de LLMs en tareas alineadas con las necesidades y preferencias de los clínicos.
Evitar la síntesis de conceptos visuales específicos es un desafío esencial en la síntesis visual responsable. Sin embargo, el concepto visual que debe evitarse para una síntesis visual responsable tiende a ser diverso, dependiendo de la región, el contexto y los escenarios de uso. En este trabajo, formalizamos una nueva tarea, la Síntesis Visual Responsable de Vocabulario Abierto (ORES, por sus siglas en inglés), donde el modelo de síntesis es capaz de evitar conceptos visuales prohibidos mientras permite a los usuarios ingresar cualquier contenido deseado. Para abordar este problema, presentamos un marco de Intervención en Dos Etapas (TIN, por sus siglas en inglés). Al introducir 1) la reescritura con instrucciones aprendibles a través de un modelo de lenguaje a gran escala (LLM) y 2) la síntesis con intervención de prompts en un modelo de síntesis basado en difusión, se puede sintetizar imágenes de manera efectiva evitando cualquier concepto prohibido, pero siguiendo la consulta del usuario tanto como sea posible. Para evaluar ORES, proporcionamos un conjunto de datos disponible públicamente, modelos de referencia y un punto de comparación. Los resultados experimentales demuestran la efectividad de nuestro método para reducir los riesgos en la generación de imágenes. Nuestro trabajo destaca el potencial de los LLM en la síntesis visual responsable. Nuestro código y conjunto de datos están disponibles públicamente.