Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние оценки больших языковых моделей (LLM) были сосредоточены на тестировании их способностей к выполнению задач в условиях zero-shot/few-shot для базовых задач обработки естественного языка, а также их способности переводить инструкции в API инструментов. Однако оценка LLM, использующих сложные инструменты для выполнения многошаговых, мультимодальных инструкций в сложной мультимодальной среде, до сих пор не исследовалась. Чтобы восполнить этот пробел, мы представляем бенчмарк PowerPoint Task Completion (PPTC) для оценки способности LLM создавать и редактировать файлы PPT на основе пользовательских инструкций. Он содержит 279 многошаговых сессий, охватывающих различные темы, и сотни инструкций, включающих мультимодальные операции. Мы также предлагаем систему оценки PPTX-Match, которая проверяет, выполнила ли LLM инструкцию на основе предсказанного файла, а не последовательности API меток, что позволяет поддерживать различные последовательности API, сгенерированные LLM. Мы протестировали 3 закрытые и 6 открытых LLM. Результаты показывают, что GPT-4 превосходит другие модели с точностью 75,1% в тестировании одношагового диалога, но сталкивается с трудностями при завершении целых сессий, достигая точности всего 6%. Мы выделяем три основные причины ошибок в нашем бенчмарке: накопление ошибок в многошаговых сессиях, обработка длинных шаблонов PPT и восприятие мультимодальности. Эти проблемы представляют серьезные вызовы для будущих систем LLM и агентов. Мы публикуем данные, код и систему оценки PPTC по адресу https://github.com/gydpku/PPTC.
Мы предлагаем Fast Language-Audio Pre-training (FLAP) — самообучаемый подход, который эффективно и результативно изучает согласованные аудио- и языковые представления с использованием маскирования, контрастного обучения и реконструкции. Для повышения эффективности FLAP случайным образом отбрасывает токены аудиоспектрограмм, сосредотачиваясь исключительно на оставшихся для самообучения. С помощью межмодального контрастного обучения FLAP учится выравнивать парные аудио- и текстовые представления в общем латентном пространстве. Примечательно, что FLAP использует несколько усиленных представлений через маскирование для межмодального контраста и учится восстанавливать замаскированную часть аудиотокенов. Кроме того, FLAP задействует большие языковые модели (LLM) для улучшения текстовых входных данных, что способствует повышению производительности. Эти подходы приводят к созданию более устойчивых и информативных аудио-текстовых представлений, позволяя FLAP достичь передовых результатов (SoTA) в задачах аудио-текстового поиска на наборах данных AudioCaps (достигая 53,0% R@1) и Clotho (достигая 25,5% R@1).
Мы представляем EmerNeRF — простой, но мощный подход для обучения пространственно-временных представлений динамических сцен вождения. Основанный на нейронных полях, EmerNeRF одновременно захватывает геометрию сцены, внешний вид, движение и семантику с помощью самозапускающегося механизма. EmerNeRF опирается на два ключевых компонента: во-первых, он разделяет сцены на статические и динамические поля. Это разложение возникает исключительно за счет самоконтроля, что позволяет нашей модели обучаться на общих, реальных данных. Во-вторых, EmerNeRF параметризует индуцированное поле потока из динамического поля и использует это поле для дальнейшего агрегирования признаков из нескольких кадров, повышая точность рендеринга динамических объектов. Связывание этих трех полей (статического, динамического и потока) позволяет EmerNeRF самостоятельно представлять высокодинамичные сцены, не полагаясь на аннотации объектов с точным разметкой или предобученные модели для сегментации динамических объектов или оценки оптического потока. Наш метод достигает наилучших результатов в симуляции сенсоров, значительно превосходя предыдущие методы при реконструкции статических (+2.93 PSNR) и динамических (+3.70 PSNR) сцен. Кроме того, для усиления семантической обобщаемости EmerNeRF мы переносим признаки 2D визуальных базовых моделей в 4D пространство-время и устраняем общее позиционное смещение в современных трансформерах, что значительно улучшает производительность 3D восприятия (например, относительное улучшение точности предсказания занятости в среднем на 37.50%). Наконец, мы создаем разнообразный и сложный набор данных из 120 последовательностей для тестирования нейронных полей в экстремальных и высокодинамичных условиях.