Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) регулярно предварительно обучаются на миллиардах токенов, лишь чтобы начать процесс заново, как только появляются новые данные. Гораздо более эффективным решением является непрерывное предварительное обучение этих моделей, что позволяет сэкономить значительные вычислительные ресурсы по сравнению с повторным обучением. Однако сдвиг распределения, вызванный новыми данными, обычно приводит к ухудшению производительности на предыдущих данных или плохой адаптации к новым данным. В данной работе мы показываем, что простое и масштабируемое сочетание пересмотра скорости обучения (LR), уменьшения LR и воспроизведения предыдущих данных достаточно для достижения производительности полного повторного обучения с нуля на всех доступных данных, измеряемой по окончательной потере и оценочным показателям языковой модели (LM). В частности, мы демонстрируем это для слабого, но реалистичного сдвига распределения между двумя часто используемыми наборами данных для предварительного обучения LLM (с английского на английский) и более сильного сдвига распределения (с английского на немецкий) на модели с параметрами 405 миллионов с большими объемами данных (сотни миллиардов токенов). Выбрав слабый, но реалистичный сдвиг для экспериментов большего масштаба, мы также обнаружили, что наши стратегии непрерывного обучения соответствуют базовой линии повторного обучения для LLM с 10 миллиардами параметров. Наши результаты демонстрируют, что LLM могут быть успешно обновлены с помощью простых и масштабируемых стратегий непрерывного обучения, соответствуя базовой линии повторного обучения с использованием лишь части вычислительных ресурсов. Наконец, вдохновленные предыдущими работами, мы предлагаем альтернативы косинусному графику скорости обучения, которые помогают избежать забывания, вызванного пересмотром LR, и не привязаны к фиксированному бюджету токенов.
Эта работа представляет Gemma, семейство легких передовых открытых моделей, построенных на исследованиях и технологиях, использованных для создания моделей Gemini. Модели Gemma демонстрируют высокую производительность на академических бенчмарках для понимания языка, рассуждений и безопасности. Мы выпускаем два размера моделей (2 миллиарда и 7 миллиардов параметров) и предоставляем как предварительно обученные, так и дообученные контрольные точки. Gemma превосходит модели схожего размера на 11 из 18 текстовых задач, и мы представляем всесторонние оценки аспектов безопасности и ответственности моделей, наряду с подробным описанием разработки модели. Мы считаем, что ответственный выпуск LLM-моделей критичен для улучшения безопасности фронтовых моделей и для обеспечения следующей волны инноваций в области LLM.
Мы предлагаем VLOGGER, метод генерации видео человека по аудио с использованием одного входного изображения человека, основанный на успехе недавних генеративных моделей диффузии. Наш метод состоит из 1) стохастической модели диффузии человека в трехмерное движение и 2) новой архитектуры на основе диффузии, которая дополняет модели текста к изображению как пространственными, так и временными контролями. Это поддерживает генерацию видео высокого качества переменной длины, легко управляемую через высокоуровневые представления лиц и тел человека. В отличие от предыдущих работ, наш метод не требует обучения для каждого человека, не зависит от обнаружения и обрезки лица, генерирует полное изображение (а не только лицо или губы) и учитывает широкий спектр сценариев (например, видимый торс или разнообразные идентичности объектов), что критически важно для правильного синтеза людей, взаимодействующих друг с другом. Мы также создаем MENTOR, новый и разнообразный набор данных с аннотациями трехмерной позы и выражениями, в десять раз больший, чем предыдущие (800 000 идентичностей), с динамическими жестами, на котором мы обучаем и анализируем наши основные технические вклады. VLOGGER превосходит методы новейших технологий в трех общедоступных бенчмарках, учитывая качество изображения, сохранение идентичности и временную последовательность, а также генерирует жесты верхней части тела. Мы анализируем производительность VLOGGER по множеству метрик разнообразия, показывая, что наши архитектурные решения и использование MENTOR способствуют обучению справедливой и неискаженной модели в масштабе. Наконец, мы показываем применения в видеомонтаже и персонализации.
Люди учатся социальным навыкам через имитацию и социальное взаимодействие. Этот процесс социального обучения в значительной степени недостаточно изучен в существующих исследованиях по созданию языковых агентов. Вдохновленные этим пробелом, мы предлагаем интерактивный метод обучения, SOTOPIA-pi, улучшающий социальный интеллект языковых агентов. Данный метод использует клонирование поведения и обучение методом самоусиления на отфильтрованных данных социального взаимодействия в соответствии с рейтингами большой языковой модели (LLM). Мы показываем, что наш метод обучения позволяет 7B LLM достичь способности к завершению социальных целей экспертной модели (агент на основе GPT-4), улучшая при этом безопасность языковых агентов и сохраняя общую способность к вопросам и ответам на бенчмарке MMLU. Мы также обнаружили, что данный парадигма обучения выявляет некоторые трудности в оценке социального интеллекта на основе LLM: оценщики на основе LLM завышают способности языковых агентов, обученных специально для социального взаимодействия.
Фундаментальные модели - это мощные технологии: то, как они публично выпускаются, непосредственно формирует их общественное воздействие. В данной позиционной статье мы сосредотачиваемся на открытых фундаментальных моделях, определяемых здесь как те, у которых широко доступны веса моделей (например, Llama 2, Stable Diffusion XL). Мы выделяем пять характерных свойств (например, большая настраиваемость, недостаточный мониторинг) открытых фундаментальных моделей, которые приводят как к их преимуществам, так и к рискам. Открытые фундаментальные модели представляют значительные преимущества, с некоторыми оговорками, которые охватывают инновации, конкуренцию, распределение принятия решений и прозрачность. Для понимания рисков их неправильного использования мы разрабатываем рамочную оценку рисков для анализа их предельного риска. По нескольким векторам неправильного использования (например, кибератаки, биологическое оружие) мы приходим к выводу, что текущих исследований недостаточно для эффективной характеристики предельного риска открытых фундаментальных моделей по сравнению с существующими технологиями. Рамочная модель помогает объяснить, почему предельный риск в некоторых случаях низок, разъясняет разногласия относительно рисков неправильного использования, показывая, что предыдущие работы фокусировались на различных подмножествах рамочной модели с разными предположениями, и определяет путь к более конструктивному обсуждению. В целом, наша работа помогает поддержать более обоснованную оценку общественного воздействия открытых фундаментальных моделей, определяя, какие исследования необходимы для эмпирической проверки их теоретических преимуществ и рисков.
Преодолевая вызовы нехватки данных и продвинутого синтеза движения в моделировании взаимодействия человека с сценой, мы представляем набор данных TRUMANS наряду с новым методом синтеза движения HSI. TRUMANS является наиболее полным набором данных HSI с захватом движения, доступным на данный момент, охватывая более 15 часов взаимодействия людей в 100 внутренних сценах. Он тщательно записывает движения всего тела человека и динамику объектов на уровне частей, сосредотачиваясь на реализме контакта. Этот набор данных дополнительно масштабируется путем преобразования физических сред в точные виртуальные модели и применения обширных улучшений внешности и движения как для людей, так и для объектов, сохраняя при этом достоверность взаимодействия. Используя TRUMANS, мы разрабатываем модель авторегрессии на основе диффузии, которая эффективно генерирует последовательности HSI любой длины, учитывая как контекст сцены, так и задуманные действия. В экспериментах наш подход показывает замечательную обобщаемость без обучения на ряде наборов данных 3D сцен (например, PROX, Replica, ScanNet, ScanNet++), производя движения, которые близко имитируют оригинальные записанные последовательности движения, как подтверждено количественными экспериментами и исследованиями с участием людей.
Законы масштабирования являются полезными руководствами для разработки языковых моделей, однако все еще существуют разрывы между текущими исследованиями масштабирования и тем, как в конечном итоге происходит обучение и оценка языковых моделей. Например, масштабирование обычно изучается в режиме оптимального вычисления обучения (т.е. режим "оптимальный для шиншиллы"); однако на практике модели часто переобучаются для снижения затрат на вывод. Более того, законы масштабирования в основном предсказывают потери при предсказании следующего токена, но в конечном итоге модели сравниваются на основе производительности на задачах последующего использования. В данной статье мы решаем оба недостатка. Для этого мы создаем набор из 104 моделей с 0.011B до 6.9B параметров, обученных с различным количеством токенов на трех распределениях данных. Во-первых, мы исследуем масштабирование в режиме переобучения. Мы подгоняем законы масштабирования, которые экстраполируются как по количеству параметров модели, так и по соотношению обучающих токенов к параметрам. Это позволяет нам предсказать потери на валидации для запуска с 1.4B параметрами и 900B токенами (т.е. переобучение в 32 раза) и для запуска с 6.9B параметрами и 138B токенами — каждый из экспериментов требует в 300 раз меньше вычислительных ресурсов. Во-вторых, мы связываем непонимание языка модели с ее производительностью на задачах последующего использования через степенной закон. Мы используем этот закон для прогнозирования ошибки top-1, усредненной по задачам последующего использования, для двух вышеупомянутых моделей, используя эксперименты, требующие в 20 раз меньше вычислительных ресурсов. Наши эксперименты доступны по адресу https://github.com/mlfoundations/scaling.
Несмотря на недавние достижения в области генерации изображений в видеоформат, лучшая управляемость и локальная анимация остаются менее исследованными. Большинство существующих методов генерации изображений в видео не обладают локальным осознанием и склонны перемещать всю сцену. Однако художники-люди могут нуждаться в управлении движением различных объектов или областей. Кроме того, текущие методы генерации изображений в видео требуют от пользователей не только описания целевого движения, но и предоставления избыточных подробных описаний содержания кадра. Эти две проблемы затрудняют практическое использование существующих инструментов генерации изображений в видео. В данной статье мы предлагаем практическую структуру, названную "Follow-Your-Click", для достижения анимации изображения с помощью простого клика пользователя (для указания, что двигать) и краткого подсказывающего движения (для указания, как двигать). Технически мы предлагаем стратегию маскирования первого кадра, которая значительно улучшает качество генерации видео, а также модуль с увеличенным движением, оснащенный набором кратких подсказывающих движений для улучшения способностей нашей модели к следованию кратким подсказкам. Для дальнейшего контроля скорости движения мы предлагаем управление магнитудой движения на основе потока для более точного контроля скорости целевого движения. Наша структура обладает более простым, но точным управлением пользователем и лучшей производительностью генерации по сравнению с предыдущими методами. Обширные эксперименты, сравниваемые с 7 базовыми вариантами, включая как коммерческие инструменты, так и исследовательские методы по 8 метрикам, указывают на превосходство нашего подхода. Страница проекта: https://follow-your-click.github.io/
Неявные нейронные представления (INR) недавно достигли большого успеха в представлении и сжатии изображений, обеспечивая высокое качество изображения и быструю скорость визуализации от 10 до 1000 кадров в секунду, при наличии достаточных ресурсов GPU. Однако это требование часто затрудняет их использование на устройствах с ограниченной памятью. В ответ на это мы предлагаем новаторскую парадигму представления и сжатия изображений с помощью 2D Гауссовского сплетения, названную GaussianImage. Сначала мы вводим 2D Гауссово распределение для представления изображения, где каждое Гауссово распределение имеет 8 параметров, включая позицию, ковариацию и цвет. Затем мы представляем новый алгоритм визуализации на основе накопленной суммы. Замечательно, что наш метод с использованием минимум в 3 раза меньшего объема памяти GPU и в 5 раз быстрее времени подгонки не только конкурирует с INR (например, WIRE, I-NGP) по производительности представления, но также обеспечивает более быструю скорость визуализации от 1500 до 2000 кадров в секунду независимо от размера параметра. Кроме того, мы интегрируем существующую технику векторного квантования для создания кодека изображений. Экспериментальные результаты показывают, что наш кодек достигает производительности по скорости искажения, сравнимой с сжатием на основе INR, таким как COIN и COIN++, обеспечивая скорость декодирования около 1000 кадров в секунду. Кроме того, предварительное доказательство концепции показывает, что наш кодек превосходит COIN и COIN++ по производительности при использовании частичного кодирования "биты-назад".