Ежедневно отобранные исследовательские статьи по ИИ с переводами
Данный отчет представляет серию Qwen2, последнее дополнение к нашим большим языковым моделям и большим мультимодальным моделям. Мы выпустили всесторонний набор основных и инструкционно настроенных языковых моделей, охватывающих диапазон параметров от 0,5 до 72 миллиардов, включающих плотные модели и модель Mixture-of-Experts. Qwen2 превосходит большинство предыдущих моделей с открытым весом, включая своего предшественника Qwen1.5, и демонстрирует конкурентоспособную производительность по сравнению с собственными моделями на различных бенчмарках по пониманию языка, генерации, мультиязычной компетентности, программированию, математике и рассуждениям. Флагманская модель, Qwen2-72B, демонстрирует выдающуюся производительность: 84,2 по MMLU, 37,9 по GPQA, 64,6 по HumanEval, 89,5 по GSM8K и 82,4 по BBH в качестве базовой языковой модели. Вариант с инструкционной настройкой, Qwen2-72B-Instruct, достигает 9,1 по MT-Bench, 48,1 по Arena-Hard и 35,7 по LiveCodeBench. Более того, Qwen2 демонстрирует надежные мультиязычные возможности, владея примерно 30 языками, охватывая английский, китайский, испанский, французский, немецкий, арабский, русский, корейский, японский, тайский, вьетнамский и другие, подчеркивая свою универсальность и глобальную охват. Для поощрения инноваций и доступности в сообществе мы сделали веса модели Qwen2 открыто доступными на платформах Hugging Face и ModelScope, а также дополнительные материалы, включая примеры кода на GitHub. Эти платформы также включают ресурсы для квантизации, дообучения и развертывания, облегчая широкий спектр приложений и исследовательских усилий.
Большие языковые модели (LLM) обладают выдающимися способностями в понимании и генерации естественного языка. Однако эти модели могут ненамеренно запоминать личную информацию, представляя значительные риски для конфиденциальности. В данном исследовании рассматривается проблема обеспечения возможности LLM защищать конкретные личные данные без необходимости полной переобучения. Мы предлагаем \return, набор данных Real-world pErsonal daTa UnleaRNing, включающий 2 492 человека из Википедии с соответствующими вопросами и ответами, для оценки методов машинного забывания (MU) по защите личных данных в реалистичной ситуации. Кроме того, мы представляем Name-Aware Unlearning Framework (NAUF) для защиты конфиденциальности, который позволяет модели узнавать, информацию о каких людях следует защищать, не влияя на ее способность отвечать на вопросы, касающиеся других несвязанных личностей. Наши обширные эксперименты показывают, что NAUF достигает современного среднего показателя забывания, превосходя лучший базовый метод на 5,65 пункта, эффективно защищая личные данные целевых лиц и сохраняя общие возможности модели.
В последние время исследуются законы масштабирования в области Воплощенного ИИ. Учитывая огромные затраты на сбор данных из реального мира, мы считаем, что парадигма Симуляции-в-Реальность (Sim2Real) является ключевым шагом для масштабирования обучения моделей воплощенного ИИ. В данной статье представлен проект GRUtopia, первое симулированное интерактивное 3D общество, разработанное для различных роботов. Он включает в себя несколько усовершенствований: (a) Набор сцен GRScenes включает 100 тыс. интерактивных, тщательно аннотированных сцен, которые могут быть свободно объединены в городские среды. В отличие от предыдущих работ, сосредоточенных в основном на домашних условиях, GRScenes охватывает 89 разнообразных категорий сцен, устраняя разрыв в средах, ориентированных на обслуживание, где обычные роботы могли бы быть начально развернуты. (b) GRResidents - это система Неигровых Персонажей (NPC), управляемая Большой Языковой Моделью (LLM), которая отвечает за социальное взаимодействие, генерацию задач и назначение задач, тем самым моделируя социальные сценарии для приложений воплощенного ИИ. (c) Бенчмарк GRBench поддерживает различных роботов, но сосредоточен на роботах с ногами в качестве основных агентов и предлагает умеренно сложные задачи, включающие Локо-Навигацию Объектов, Социальную Локо-Навигацию и Локо-Манипуляцию. Мы надеемся, что эта работа сможет смягчить дефицит высококачественных данных в этой области и обеспечить более всестороннюю оценку исследований по воплощенному ИИ. Проект доступен по ссылке https://github.com/OpenRobotLab/GRUtopia.
Текущие оценки больших языковых моделей (LLM) часто не учитывают недетерминированность, обычно сосредотачиваясь на одном выводе на пример. Это ограничивает наше понимание изменчивости производительности LLM в реальных приложениях. Наше исследование решает эту проблему, исследуя ключевые вопросы о различиях в производительности между жадным декодированием и сэмплированием, определяя согласованность бенчмарков в отношении недетерминированности и изучая уникальные поведенческие модели. Через обширные эксперименты мы замечаем, что жадное декодирование в целом превосходит методы сэмплирования для большинства оцениваемых задач. Мы также отмечаем согласованную производительность при различных размерах LLM и методах выравнивания, отмечая, что выравнивание может снизить дисперсию сэмплирования. Более того, наш подход с выбором лучшего из N демонстрирует, что более маленькие LLM могут соответствовать или превосходить более крупные модели, такие как GPT-4-Turbo, подчеркивая неиспользованный потенциал более маленьких LLM. Это исследование показывает важность учета недетерминированности в оценках LLM и предоставляет понимание для будущего развития и оценки LLM.
Мы представляем Q-Sparse - простой, но эффективный подход к обучению разреженных больших языковых моделей (LLM). Q-Sparse обеспечивает полную разреженность активаций в LLM, что может привести к значительному повышению эффективности вывода. Это достигается путем применения разреживания top-K к активациям и прямого оценщика к обучению. Основные результаты этой работы: (1) Q-Sparse может достичь результатов, сравнимых с базовыми LLM, при этом значительно повышая эффективность во время вывода; (2) Мы представляем оптимальный для вывода закон масштабирования для разреженных LLM; (3) Q-Sparse эффективен в различных сценариях, включая обучение с нуля, продолжение обучения стандартных LLM и донастройку; (4) Q-Sparse работает как для полной точности, так и для 1-битных LLM (например, BitNet b1.58). Особенно синергия BitNet b1.58 и Q-Sparse (может быть оснащена MoE) представляет собой основу и ясный путь к революции в эффективности, включая стоимость и энергопотребление, будущих LLM.
По мере развития крупных языковых моделей (LLM) становится все сложнее надежно оценивать их результаты из-за высоких затрат на человеческую оценку. Для продвижения в направлении более точных авторейтингов LLM мы представляем FLAMe, семейство Фундаментальных Больших Моделей Авторейтинга. FLAMe обучается на нашей обширной и разнообразной коллекции из 100+ задач оценки качества, включающей более 5 миллионов человеческих оценок, отобранных и стандартизированных с использованием публично доступных человеческих оценок из предыдущих исследований. FLAMe значительно улучшает обобщение на широкий спектр задач, не входящих в обучающий набор, превосходя LLM, обученные на собственных данных, такие как GPT-4 и Claude-3, во многих задачах. Мы показываем, что FLAMe также может служить мощным отправным пунктом для дальнейшей настройки, используя оценку модели вознаграждения как кейс-стади (FLAMe-RM). Значительно, на RewardBench наша модель FLAMe-RM-24B (с точностью 87.8%) является лучшей генеративной моделью, обученной исключительно на данных с разрешением на использование, превосходя как GPT-4-0125 (85.9%), так и GPT-4o (84.7%). Кроме того, мы исследуем более эффективный подход с использованием новой стратегии тонкой настройки хвостового участка для оптимизации нашего мультитаскового смешивания FLAMe для оценки моделирования вознаграждения (FLAMe-Opt-RM), предлагая конкурентоспособную производительность на RewardBench, требуя при этом примерно в 25 раз меньше обучающих точек данных. В целом, наши варианты FLAMe превосходят все популярные собственные модели LLM-как-судьи, которые мы рассматриваем, в 8 из 12 бенчмарков оценки авторейтинга, охватывающих 53 задачи оценки качества, включая RewardBench и LLM-AggreFact. Наконец, наш анализ показывает, что FLAMe значительно менее предвзят, чем эти модели LLM-как-судьи на бенчмарке предвзятости авторейтинга CoBBLEr, эффективно идентифицируя высококачественные ответы для генерации кода.
Можем ли мы создать стратегию управления для агента, используя только одно демонстрацию желаемого поведения в качестве подсказки, так же легко, как создание изображения по текстовому описанию? В данной статье мы представляем Make-An-Agent, новый генератор параметров стратегии, который использует мощь условных моделей диффузии для генерации стратегии из поведения. Руководствуясь вложениями поведения, которые кодируют информацию о траектории, наш генератор стратегии синтезирует латентные представления параметров, которые затем могут быть декодированы в сети стратегии. Обученная на точках контрольных точек сетей стратегии и соответствующих им траекториях, наша модель генерации демонстрирует замечательную гибкость и масштабируемость на нескольких задачах и обладает сильной обобщающей способностью на невидимых задачах для вывода хорошо выполняемых стратегий с вводом только нескольких демонстраций. Мы демонстрируем ее эффективность и эффективность на различных областях и задачах, включая различные цели, поведения, и даже на различных манипуляторах роботов. Помимо симуляции, мы напрямую развертываем стратегии, созданные Make-An-Agent, на реальных роботах в задачах локомоции.
Хотя модели диффузии текста в изображение показали себя как лучшие в области синтеза изображений, они до сих пор не доказали свою эффективность в прикладных задачах. В предыдущих работах предлагалось генерировать данные для обучения классификатора изображений при ограниченном доступе к реальным данным. Однако эти методы испытывают затруднения при генерации изображений в пределах распределения или изображении детализированных особенностей, что затрудняет обобщение моделей классификации, обученных на синтетических наборах данных. Мы предлагаем DataDream, фреймворк для синтеза наборов данных для классификации, который более точно отражает реальное распределение данных при помощи нескольких примеров целевых классов. DataDream донастраивает веса LoRA для модели генерации изображений на нескольких реальных изображениях перед генерацией обучающих данных с использованием адаптированной модели. Затем мы донастраиваем веса LoRA для CLIP с использованием синтетических данных для улучшения классификации изображений в прикладных задачах по сравнению с предыдущими подходами на большом количестве наборов данных. Мы демонстрируем эффективность DataDream через обширные эксперименты, превосходя современную точность классификации с небольшим количеством данных на 7 из 10 наборов данных, при этом оставаясь конкурентоспособными на остальных 3. Кроме того, мы предоставляем понимание влияния различных факторов, таких как количество реальных и сгенерированных изображений, а также вычислительную донастройку на производительность модели. Код доступен по ссылке https://github.com/ExplainableML/DataDream.
Генерация аудио из видео (V2A) использует только визуальные признаки видео для создания правдоподобных звуков, соответствующих сцене. Важно, чтобы созданные звуковые начала соответствовали визуальным действиям, с которыми они согласованы, в противном случае возникают неестественные артефакты синхронизации. Недавние работы исследовали прогрессирование генераторов звука на основе статических изображений, а затем видеопризнаков, сосредотачиваясь на качестве и семантическом соответствии, игнорируя синхронизацию или жертвуя некоторым уровнем качества, чтобы сосредоточиться только на улучшении синхронизации. В данной работе мы предлагаем генеративную модель V2A, названную MaskVAT, которая соединяет полосовой высококачественный общий аудиокодек с маскированной генеративной моделью последовательности. Это сочетание позволяет моделировать как высокое качество звука, семантическое соответствие, так и временную синхронизацию одновременно. Наши результаты показывают, что, объединяя высококачественный кодек с соответствующими предварительно обученными аудиовизуальными признаками и параллельной структурой последовательности к последовательности, мы можем достичь высокой синхронизации с одной стороны, оставаясь конкурентоспособными с передовыми моделями генерации аудио без кодека. Образцы видео и созданные аудиозаписи доступны на https://maskvat.github.io.
Мы представляем новое семейство моделей прогнозирования видео, разработанных для поддержки управляющих задач. Мы называем эти модели моделями занятости видео (Video Occupancy models, VOCs). VOCs работают в компактном латентном пространстве, избегая необходимости делать прогнозы по отдельным пикселям. В отличие от предыдущих моделей миров в латентном пространстве, VOCs напрямую прогнозируют дисконтированное распределение будущих состояний за один шаг, избегая необходимости многошаговых прогнозов. Мы показываем, что обе эти характеристики полезны при построении прогностических моделей видео для использования в управляющих задачах. Код доступен по ссылке https://github.com/manantomar/video-occupancy-models.
Процессы науки о данных и инженерии часто охватывают несколько этапов, начиная с хранения данных и заканчивая оркестрацией, с использованием инструментов, таких как BigQuery, dbt и Airbyte. По мере развития моделей видео-языка (VLM) в мультимодальном понимании и генерации кода, агенты на основе VLM могут потенциально автоматизировать эти рабочие процессы путем создания SQL-запросов, кода Python и операций в графическом интерфейсе. Эта автоматизация может повысить производительность экспертов, обеспечивая демократизацию доступа к анализу данных большого масштаба. В данной статье мы представляем Spider2-V, первый мультимодальный бенчмарк агентов, сосредоточенный на профессиональных рабочих процессах в области науки о данных и инженерии, включающий 494 задачи из реального мира в подлинных компьютерных средах и включающий 20 профессиональных приложений уровня предприятия. Эти задачи, происходящие из реальных сценариев использования, оценивают способность мультимодального агента выполнять задачи, связанные с данными, путем написания кода и управления графическим интерфейсом в системах программного обеспечения для предприятий. Для достижения баланса между реалистичным моделированием и простотой оценки мы уделяем значительные усилия разработке автоматических конфигураций для настройки задач и тщательному созданию метрик оценки для каждой задачи. Более того, мы дополняем мультимодальных агентов подробными документами по этим системам программного обеспечения для предприятий. Наша эмпирическая оценка показывает, что существующие передовые агенты на основе LLM/VLM не надежно автоматизируют полные рабочие процессы с данными (14,0% успеха). Даже при пошаговом руководстве эти агенты все еще показывают недостаточную производительность в задачах, требующих тонких, знаниевооруженных действий в графическом интерфейсе (16,2%) и включающих удаленные облачные рабочие пространства (10,6%). Мы надеемся, что Spider2-V проложит путь для автономных мультимодальных агентов в трансформации автоматизации рабочих процессов в области науки о данных и инженерии. Наш код и данные доступны по адресу https://spider2-v.github.io.
Существует широкий оптимизм относительно того, что передовые модели больших языков (Large Language Models, LLM) и системы, усиленные LLM, имеют потенциал быстрого ускорения научных открытий в различных областях. В настоящее время существует множество бенчмарков для измерения знаний и рассуждений LLM на вопросы научного стиля учебников, но мало, если вообще есть, бенчмарков, разработанных для оценки производительности языковых моделей в практических задачах, необходимых для научных исследований, таких как поиск литературы, планирование протоколов и анализ данных. В качестве шага к созданию таких бенчмарков мы представляем Биологический бенчмарк языкового агента (LAB-Bench), обширный набор данных из более чем 2 400 вопросов с выбором ответа для оценки производительности ИИ-систем в различных практических возможностях биологических исследований, включая воспроизведение и рассуждения над литературой, интерпретацию фигур, доступ и навигацию по базам данных, понимание и манипулирование последовательностями ДНК и белков. Важно отметить, что, в отличие от предыдущих научных бенчмарков, мы ожидаем, что ИИ-система, способная последовательно достигать высоких баллов в более сложных задачах LAB-Bench, будет служить полезным помощником для исследователей в областях, таких как поиск литературы и молекулярное клонирование. В качестве начальной оценки возникающих научных возможностей передовых языковых моделей мы измеряем производительность нескольких моделей по нашему бенчмарку и сообщаем о результатах по сравнению с биологами-экспертами. Мы будем продолжать обновлять и расширять LAB-Bench со временем и ожидаем, что он станет полезным инструментом в разработке автоматизированных систем исследований в будущем. Публичный набор данных LAB-Bench доступен для использования по следующему URL-адресу: https://huggingface.co/datasets/futurehouse/lab-bench
Передача знаний с минимальным количеством параметров (PETL) стала процветающим исследовательским направлением для адаптации крупных предварительно обученных моделей к последующим задачам, значительно сокращая количество обучаемых параметров и решая проблемы с памятью во время настройки. Для решения этой проблемы серии с памятью (METL) избегают обратного распространения градиентов через крупный основной блок. Однако они идут на компромисс, полностью полагаясь на замороженные промежуточные выходы и ограничивая исчерпывающее исследование предварительных знаний из предварительно обученных моделей. Более того, зависимость и избыточность между признаками межслойного взаимодействия часто игнорируются, что приводит к погружению более дискриминативных представлений и вызывает врожденный разрыв в производительности (по сравнению с традиционными методами PETL). Поэтому мы предлагаем инновационную стратегию METL под названием SHERL для сценариев с ограниченными ресурсами, чтобы разделить всю адаптацию на два последовательных и взаимодополняющих процесса. На раннем этапе промежуточные выходы объединяются с помощью операции против избыточности, улучшая их совместимость для последующего взаимодействия; таким образом, на позднем этапе использование минимального количества поздних предварительно обученных слоев могло бы смягчить пиковую нагрузку на память и преобразовать эти достаточно гибкие признаки в более адаптивные и мощные представления для новых областей. Обширные анализы на задачах видео и языка и только языковых задачах показывают, что SHERL объединяет преимущества как параметрических, так и память-эффективных техник, проявляя себя на уровне или лучше по различным архитектурам с меньшим объемом памяти во время настройки. Наш код доступен публично по ссылке: https://github.com/Paranioar/SHERL.
Эффект взаимного усиления (MRE) представляет собой многообещающее направление в исследованиях по извлечению информации и многозадачности. Тем не менее, его применимость ограничена из-за исключительной доступности наборов данных MRE mix на японском языке, что ограничивает полноценное исследование мировым научным сообществом. Для преодоления этого ограничения мы представляем мультиязычный набор данных MRE mix (MMM), который включает 21 суб-набор данных на английском, японском и китайском языках. В данной статье мы также предлагаем метод перевода набора данных с помощью больших языковых моделей (LLM), что значительно сокращает время ручной аннотации, необходимое для создания набора данных, используя LLM для перевода исходных японских наборов данных. Кроме того, мы обогатили набор данных, включив в него задачи распознавания именованных сущностей (NER) в открытой области и классификации предложений. Используя этот расширенный набор данных, мы разработали единый входно-выходной каркас для обучения большой языковой модели извлечения информации в открытой области (OIELLM). Модель OIELLM демонстрирует способность эффективно обрабатывать новые наборы данных MMM, проявляя значительное улучшение в производительности.
Большинство в настоящее время используемых крупных языковых моделей (LLM) проходят непрерывное обучение или дополнительное донастройку. В отличие от этого, большинство исследований внутренних механизмов LLM фокусируются на моделях на одном снимке во времени (в конце предварительного обучения), возникает вопрос о том, обобщаются ли их результаты на реальные ситуации. Существующие исследования механизмов во времени сосредотачиваются на моделях только с кодировщиком или игрушечных моделях, которые значительно отличаются от большинства развернутых моделей. В данном исследовании мы отслеживаем, как механизмы модели, операционализированные как цепи, появляются и развиваются на протяжении 300 миллиардов токенов обучения в моделях только с декодером, в моделях от 70 миллионов до 2.8 миллиарда параметров. Мы обнаруживаем, что способности к выполнению задач и функциональные компоненты, поддерживающие их, появляются последовательно при сходных значениях токенов на различных масштабах. Более того, хотя такие компоненты могут быть реализованы различными головами внимания во времени, преобладающий алгоритм, который они реализуют, остается. Удивительно, что как сами эти алгоритмы, так и типы включенных в них компонентов могут воспроизводиться на различных масштабах модели. Эти результаты подтверждают, что анализ цепей, проведенный на небольших моделях в конце предварительного обучения, может предоставить идеи, которые по-прежнему применимы после дополнительного предварительного обучения и на различных масштабах модели.
Для улучшения качества синтезированных видео в настоящее время преобладающим методом является повторное обучение экспертной модели диффузии, а затем применение процесса добавления шума и его удаления для улучшения. Несмотря на значительные затраты на обучение, сохранение согласованности контента между оригинальным и улучшенным видео остается основной проблемой. Для решения этой проблемы мы предлагаем новую формулировку, которая учитывает как визуальное качество, так и согласованность контента. Согласованность контента обеспечивается предложенной функцией потерь, которая сохраняет структуру ввода, а визуальное качество улучшается за счет использования процесса удаления шума предварительно обученных моделей диффузии. Для решения сформулированной задачи оптимизации мы разработали стратегию оптимизации шума "Калибровка шума". Путем уточнения начального случайного шума через несколько итераций контент оригинального видео может быть в значительной степени сохранен, и эффект улучшения демонстрирует заметное улучшение. Обширные эксперименты продемонстрировали эффективность предложенного метода.