Ежедневно отобранные исследовательские статьи по ИИ с переводами
Способность крупных языковых моделей (LLM) следовать инструкциям на естественном языке с человеческой беглостью открывает множество возможностей в здравоохранении для снижения административной нагрузки и повышения качества медицинской помощи. Однако оценка LLM на реалистичных задачах генерации текста для здравоохранения остается сложной задачей. Существующие наборы данных для вопросно-ответных систем, основанные на данных электронных медицинских записей (EHR), не отражают сложности информационных потребностей и документационной нагрузки, с которой сталкиваются врачи. Для решения этих проблем мы представляем MedAlign — эталонный набор данных, содержащий 983 инструкции на естественном языке для работы с EHR. MedAlign был разработан при участии 15 врачей (7 специальностей), включает эталонные ответы, написанные врачами для 303 инструкций, и предоставляет 276 долгосрочных EHR для привязки пар "инструкция-ответ". Мы использовали MedAlign для оценки 6 LLM общего назначения, попросив врачей оценить точность и качество каждого ответа модели. Мы обнаружили высокий уровень ошибок, варьирующийся от 35% (GPT-4) до 68% (MPT-7B-Instruct), а также снижение точности на 8,3% при переходе от длины контекста в 32 тыс. токенов к 2 тыс. для GPT-4. Наконец, мы сообщаем о корреляциях между оценками врачей и автоматическими метриками генерации естественного языка как способе ранжирования LLM без участия человека. Мы предоставляем MedAlign в рамках соглашения об использовании исследовательских данных, чтобы обеспечить оценку LLM на задачах, соответствующих потребностям и предпочтениям врачей.
Избежание синтеза определенных визуальных концепций представляет собой важную задачу в ответственной визуальной синтезе. Однако визуальные концепции, которые необходимо избегать для ответственного визуального синтеза, могут быть разнообразными и зависят от региона, контекста и сценариев использования. В данной работе мы формализуем новую задачу, называемую Open-vocabulary Responsible Visual Synthesis (ORES), в которой модель синтеза способна избегать запрещенных визуальных концепций, одновременно позволяя пользователям вводить любой желаемый контент. Для решения этой проблемы мы предлагаем двухэтапную структуру вмешательства (Two-stage Intervention, TIN). Внедряя 1) переписывание с обучаемыми инструкциями через крупномасштабную языковую модель (LLM) и 2) синтез с вмешательством в подсказки на модели диффузионного синтеза, она может эффективно синтезировать изображения, избегая любых концепций, но максимально следуя запросу пользователя. Для оценки на ORES мы предоставляем общедоступный набор данных, базовые модели и эталонные тесты. Экспериментальные результаты демонстрируют эффективность нашего метода в снижении рисков генерации изображений. Наша работа подчеркивает потенциал LLM в ответственной визуальной синтезе. Наш код и набор данных доступны публично.