Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последние годы наблюдаются значительные успехи в производительности крупных языковых моделей (LLM), основанных на архитектуре Transformer, в различных областях. По мере того как эти LLM применяются для решения всё более сложных задач, они часто сталкиваются с необходимостью проводить более длительные процессы рассуждений или понимать более обширные контексты. В таких ситуациях проблема обобщения на длинные последовательности у LLM становится более заметной. Большинство схем предварительного обучения усекают обучающие последовательности до фиксированной длины (например, 2048 для LLaMa). LLM часто испытывают трудности с генерацией связного текста, не говоря уже о выполнении задач, после более длинных контекстов, даже при использовании относительного позиционного кодирования, которое разработано для решения этой проблемы. Распространённые решения, такие как дообучение на более длинных корпусах, часто требуют значительных затрат на оборудование и время, а также тщательной разработки процесса обучения. Чтобы более эффективно использовать генеративные способности существующих LLM, мы теоретически и эмпирически исследуем основные факторы, связанные с выходом за пределы распределения (OOD), которые способствуют этой проблеме. Вдохновлённые этим анализом, мы предлагаем простое, но эффективное решение для обобщения на длинные последовательности на лету — LM-Infinite, которое включает только маску внимания в форме лямбды и ограничение по расстоянию, не требуя обновления параметров или обучения. Мы обнаружили, что оно применимо к различным LLM, использующим методы относительного позиционного кодирования. LM-Infinite вычислительно эффективен с временной и пространственной сложностью O(n) и демонстрирует стабильную связность и качество генерации на последовательностях длиной до 32 тысяч токенов на наборах данных ArXiv и OpenWebText2, с ускорением декодирования в 2.72 раза. На задачах, таких как извлечение ключевой информации, он продолжает работать на входах, значительно превышающих длину обучающих последовательностей, где стандартные модели терпят неудачу сразу же.
Мультимодальные крупные языковые модели в последнее время вызывают значительный интерес. Однако большинство работ сосредоточено на визуально-языковых мультимодальных моделях, которые демонстрируют высокие способности в выполнении инструкций, связанных с визуальными и языковыми данными. Тем не менее, мы утверждаем, что речь также является важной модальностью, через которую люди взаимодействуют с миром. Следовательно, для универсального ассистента крайне важно уметь выполнять мультимодальные инструкции, связанные с речью и языком. В данной работе мы представляем модель Large Language and Speech Model (LLaSM). LLaSM — это крупная мультимодальная модель, обученная сквозным образом, обладающая кросс-модальными способностями к ведению диалога и способная выполнять инструкции, связанные с речью и языком. Наши предварительные эксперименты показывают, что LLaSM предлагает более удобный и естественный способ взаимодействия человека с искусственным интеллектом. В частности, мы также публикуем крупный набор данных LLaSM-Audio-Instructions, предназначенный для выполнения речевых инструкций. Код и демонстрация доступны по адресам https://github.com/LinkSoul-AI/LLaSM и https://huggingface.co/spaces/LinkSoul/LLaSM. Набор данных LLaSM-Audio-Instructions доступен по адресу https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions.
Мы представляем Jais и Jais-chat — новые передовые генеративные большие языковые модели (LLM), ориентированные на арабский язык, с базовой архитектурой и настроенные на выполнение инструкций. Модели основаны на архитектуре GPT-3 с использованием только декодера и предварительно обучены на смеси арабских и английских текстов, включая исходный код на различных языках программирования. С 13 миллиардами параметров они демонстрируют значительно более высокие знания и способности к рассуждению на арабском языке по сравнению с любыми существующими открытыми арабскими и многоязычными моделями, что подтверждается обширной оценкой. Кроме того, модели конкурентоспособны в английском языке по сравнению с аналогичными по размеру моделями, ориентированными на английский, несмотря на обучение на значительно меньшем объеме английских данных. Мы предоставляем подробное описание процесса обучения, настройки, обеспечения безопасности и оценки моделей. Мы выпускаем две открытые версии модели — базовую модель Jais и настроенную на выполнение инструкций версию Jais-chat — с целью стимулирования исследований в области арабских LLM. Модели доступны по адресу https://huggingface.co/inception-mbzuai/jais-13b-chat.
Для того чтобы роботы могли быть полезными за пределами лабораторий и специализированных заводов, нам необходим способ быстро обучать их новым полезным действиям. Современные подходы либо не обладают достаточной универсальностью для освоения новых задач без специфической инженерной подготовки, либо не обеспечивают достаточной эффективности использования данных, чтобы сделать это за время, позволяющее практическое применение. В данной работе мы исследуем плотное отслеживание как репрезентационный инструмент, позволяющий ускорить и сделать более универсальным обучение на основе демонстраций. Наш подход использует модели Track-Any-Point (TAP) для выделения релевантного движения в демонстрации и параметризации низкоуровневого контроллера для воспроизведения этого движения при изменении конфигурации сцены. Мы показываем, что это приводит к созданию устойчивых стратегий управления роботами, способных решать сложные задачи по упорядочиванию объектов, такие как сопоставление форм, укладка, а также задачи по полному следованию траектории, такие как нанесение клея и склеивание объектов, — всё это на основе демонстраций, которые могут быть собраны за считанные минуты.
WeatherBench 2 представляет собой обновление глобального эталона для среднесрочного (1–14 дней) прогнозирования погоды, предложенного Rasp и соавт. (2020), разработанного с целью ускорения прогресса в области моделей прогнозирования погоды, основанных на данных. WeatherBench 2 включает в себя открытую платформу для оценки, общедоступные данные для обучения, эталонные данные и базовые наборы данных, а также постоянно обновляемый веб-сайт с последними метриками и передовыми моделями: https://sites.research.google/weatherbench. В данной статье описаны принципы разработки платформы оценки и представлены результаты для современных физических и основанных на данных моделей прогнозирования погоды. Метрики основаны на устоявшихся практиках оценки прогнозов погоды, используемых в ведущих оперативных метеорологических центрах. Мы определяем набор ключевых показателей для обзора производительности моделей. Кроме того, обсуждаются ограничения текущей системы оценки и вызовы, стоящие перед будущим прогнозирования погоды на основе данных.
Обучение стратегическому поведению робота — например, необходимому в ситуациях преследования и уклонения — в условиях реального мира представляет собой крайне сложную задачу. Это требует использования динамики взаимодействия и планирования с учетом неопределенности как физического состояния, так и скрытых намерений. В данной работе мы преобразуем эту трудноразрешимую проблему в задачу обучения с учителем, где полностью наблюдаемая политика робота генерирует обучающие данные для частично наблюдаемой политики. Мы обнаруживаем, что качество обучающего сигнала для частично наблюдаемой политики преследователя зависит от двух ключевых факторов: баланса между разнообразием и оптимальностью поведения уклоняющегося и силы предположений модели в полностью наблюдаемой политике. Мы внедряем нашу политику на физическом четвероногом роботе с RGB-D камерой для взаимодействий преследования и уклонения в естественных условиях. Несмотря на все сложности, ограничения в восприятии стимулируют творческий подход: робот вынужден собирать информацию в условиях неопределенности, предсказывать намерения на основе зашумленных измерений и предвидеть события, чтобы перехватить цель. Веб-страница проекта: https://abajcsy.github.io/vision-based-pursuit/