Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последние месяцы наблюдается появление мощного нового тренда, в рамках которого крупные языковые модели (LLM) дополняются для превращения в автономные языковые агенты, способные самостоятельно выполнять многошаговые задачи, ориентированные на достижение целей, а не просто отвечать на запросы пользователей. Однако большинство существующих языковых агентов не оптимизируются с использованием вознаграждений, специфичных для среды. Хотя некоторые агенты позволяют итеративно улучшать результаты через вербальную обратную связь, они не рассуждают и не планируют способами, совместимыми с градиентным обучением на основе вознаграждений. В данной статье представлена принципиальная структура для усиления крупных языковых агентов путем обучения ретроспективной модели, которая автоматически настраивает подсказки для языкового агента на основе обратной связи от среды через метод градиента политики. В частности, предлагаемая архитектура агента обучается на вознаграждениях в различных средах и задачах, чтобы тонко настраивать предварительно обученную языковую модель, которая уточняет подсказку для агента, суммируя корневые причины предыдущих неудачных попыток и предлагая планы действий. Экспериментальные результаты на различных задачах показывают, что языковые агенты со временем улучшаются, и наш подход значительно превосходит базовые методы, которые не используют градиенты из среды должным образом. Это демонстрирует, что использование оптимизации градиента политики для улучшения языковых агентов, что, как мы считаем, является одним из первых примеров в нашей работе, выглядит перспективным и может быть применено для оптимизации других моделей в архитектуре агента с целью повышения их производительности со временем.
Мы представляем MM-Vet, оценочный эталон, который исследует крупные мультимодальные модели (LMM) на сложных мультимодальных задачах. Современные LMM демонстрируют различные увлекательные способности, такие как решение математических задач, написанных на доске, рассуждение о событиях и знаменитостях на новостных изображениях и объяснение визуальных шуток. Быстрое развитие моделей создает вызовы для разработки оценочных эталонов. Проблемы включают: (1) Как систематически структурировать и оценивать сложные мультимодальные задачи; (2) Как разработать метрики оценки, которые хорошо работают для различных типов вопросов и ответов; и (3) Как получить инсайты о моделях, выходящие за рамки простого ранжирования производительности. Для этого мы представляем MM-Vet, разработанный на основе идеи, что увлекательная способность решать сложные задачи часто достигается благодаря универсальной модели, способной интегрировать различные базовые возможности в области зрения и языка (VL). MM-Vet определяет 6 базовых VL-способностей и исследует 16 интеграций, представляющих интерес, выведенных из комбинации этих способностей. Для метрик оценки мы предлагаем оценщик на основе LLM для открытых ответов. Этот оценщик позволяет проводить оценку для различных типов вопросов и стилей ответов, что приводит к единой метрике оценки. Мы оцениваем репрезентативные LMM на MM-Vet, предоставляя инсайты о возможностях различных парадигм и моделей LMM. Код и данные доступны по адресу https://github.com/yuweihao/MM-Vet.
Сегментация с открытым словарем представляет собой сложную задачу, требующую разделения и распознавания объектов из открытого набора категорий. Одним из способов решения этой проблемы является использование многомодальных моделей, таких как CLIP, которые предоставляют признаки изображений и текста в общем пространстве вложений, что устраняет разрыв между распознаванием с закрытым и открытым словарем. Таким образом, существующие методы часто используют двухэтапную структуру для решения задачи, где входные данные сначала проходят через генератор масок, а затем через модель CLIP вместе с предсказанными масками. Этот процесс предполагает многократное извлечение признаков из изображений, что может быть неэффективным и затратным по времени. В отличие от этого, мы предлагаем объединить все в одноэтапную структуру, используя общий замороженный сверточный бэкбон CLIP, что не только значительно упрощает текущий двухэтапный процесс, но и обеспечивает лучший баланс между точностью и затратами. Предложенный FC-CLIP основывается на следующих наблюдениях: замороженный бэкбон CLIP сохраняет способность к классификации с открытым словарем и также может служить мощным генератором масок, а сверточный CLIP хорошо обобщается на более высокое разрешение входных данных, чем то, которое использовалось во время контрастного предобучения на изображениях и тексте. При обучении только на данных COCO panoptic и тестировании в режиме zero-shot, FC-CLIP достигает 26.8 PQ, 16.8 AP и 34.1 mIoU на ADE20K, 18.2 PQ и 27.9 mIoU на Mapillary Vistas, 44.0 PQ, 26.8 AP и 56.2 mIoU на Cityscapes, превосходя предыдущие результаты на +4.2 PQ, +2.4 AP, +4.2 mIoU на ADE20K, +4.0 PQ на Mapillary Vistas и +20.1 PQ на Cityscapes соответственно. Кроме того, время обучения и тестирования FC-CLIP в 7.5 и 6.6 раз быстрее, чем у предыдущих методов, при использовании в 5.9 раз меньшего количества параметров. FC-CLIP также устанавливает новый рекорд производительности на различных наборах данных для семантической сегментации с открытым словарем. Код доступен по адресу: https://github.com/bytedance/fc-clip.
Подбор пациентов для клинических испытаний является ключевым процессом в здравоохранении и научных исследованиях. На практике этот процесс сталкивается с проблемами, связанными с огромным объемом неструктурированных данных и невозможностью масштабирования ручной обработки. В данной статье мы проводим систематическое исследование масштабирования подбора клинических испытаний с использованием крупных языковых моделей (LLM), уделяя особое внимание онкологии. Наше исследование основано на системе подбора клинических испытаний, которая в настоящее время тестируется в крупной сети здравоохранения США. Первоначальные результаты обнадеживают: современные LLM, такие как GPT-4, уже способны структурировать сложные критерии отбора для клинических испытаний и извлекать сложную логику сопоставления (например, вложенные операторы AND/OR/NOT). Хотя эти модели еще далеки от совершенства, они значительно превосходят предыдущие сильные базовые подходы и могут служить предварительным решением для отбора кандидатов на участие в испытаниях с участием человека в процессе. Наше исследование также выявляет несколько важных областей для улучшения применения LLM в сквозном подборе клинических испытаний, таких как ограничения контекста и точность, особенно в структурировании информации о пациентах из долгосрочных медицинских записей.
Биомиметические, ловкие роботизированные руки обладают потенциалом для воспроизведения большей части задач, которые может выполнять человек, и достижения статуса универсальной платформы для манипуляций. Последние достижения в рамках обучения с подкреплением (RL) продемонстрировали впечатляющие результаты в задачах передвижения четвероногих роботов и ловкого манипулирования. В сочетании с высокопараллельными симуляциями на основе GPU, способными моделировать тысячи роботов одновременно, RL-контроллеры стали более масштабируемыми и доступными. Однако для переноса политик, обученных с помощью RL, в реальный мир необходимы обучающие фреймворки, которые генерируют политики, совместимые с физическими приводами и сенсорами, а также аппаратная платформа, которая может быть изготовлена из доступных материалов, но при этом достаточно надежна для выполнения интерактивных политик. В данной работе представлена биомиметическая сухожильно-приводная рука Faive Hand и её системная архитектура, которая использует сухожильно-приводные катящиеся контактные соединения для создания высокостепенной конструкции руки, пригодной для 3D-печати и обладающей высокой надежностью. Мы моделируем каждый элемент руки и интегрируем его в GPU-симуляционную среду для обучения политики с помощью RL, достигая нулевого переноса навыка ловкого вращения сферы в руке на физическую роботизированную руку.
Мы представляем Компартментализованные Диффузионные Модели (CDM) — метод, который позволяет обучать различные диффузионные модели (или промпты) на отдельных источниках данных и произвольно комбинировать их на этапе вывода. Отдельные модели могут обучаться изолированно, в разное время и на различных распределениях и доменах, а затем объединяться для достижения производительности, сопоставимой с эталонной моделью, обученной на всех данных одновременно. Более того, каждая модель содержит информацию только о подмножестве данных, с которыми она взаимодействовала во время обучения, что обеспечивает несколько форм защиты обучающих данных. В частности, CDM — это первый метод, который позволяет реализовать как избирательное забывание, так и непрерывное обучение для крупномасштабных диффузионных моделей, а также предоставлять персонализированные модели в зависимости от прав доступа пользователя. CDM также позволяют определять важность подмножества данных в генерации конкретных образцов.