Ежедневно отобранные исследовательские статьи по ИИ с переводами
Давно установлено, что прогностические модели могут быть преобразованы в сжатие данных без потерь и наоборот. В последние годы сообщество машинного обучения сосредоточилось на обучении всё более крупных и мощных моделей с самоконтролем (языковых моделей). Поскольку эти крупные языковые модели демонстрируют впечатляющие прогностические способности, они хорошо подходят для выполнения функций эффективных компрессоров. В данной работе мы предлагаем рассматривать задачу прогнозирования через призму сжатия данных и оцениваем способности крупных (фундаментальных) моделей к сжатию. Мы показываем, что крупные языковые модели являются мощными универсальными прогностическими инструментами, а подход с точки зрения сжатия данных предоставляет новые инсайты в законы масштабирования, токенизацию и обучение в контексте. Например, модель Chinchilla 70B, обученная преимущественно на текстовых данных, сжимает патчи ImageNet до 43,4% и образцы LibriSpeech до 16,4% от их исходного размера, превосходя специализированные компрессоры, такие как PNG (58,5%) или FLAC (30,3%). Наконец, мы показываем, что эквивалентность прогнозирования и сжатия позволяет использовать любой компрессор (например, gzip) для построения условной генеративной модели.
В данной работе мы представляем масштабируемый метод обучения с подкреплением для тренировки политик, способных решать множество задач, на основе больших оффлайн-датасетов, которые могут включать как демонстрации, выполненные человеком, так и данные, собранные автономно. Наш метод использует Transformer для создания масштабируемого представления Q-функций, обученных с помощью оффлайн-временных разностных обновлений. Поэтому мы называем этот метод Q-Transformer. Дискретизируя каждое измерение действия и представляя Q-значение каждого измерения действия в виде отдельных токенов, мы можем применять эффективные методы моделирования последовательностей с высокой емкостью для Q-обучения. Мы описываем несколько ключевых решений, которые обеспечивают высокую производительность при оффлайн-обучении с подкреплением, и показываем, что Q-Transformer превосходит предыдущие алгоритмы оффлайн-обучения с подкреплением и методы обучения с подражанием на большом и разнообразном наборе задач манипуляции с реальными роботами. Сайт проекта и видеоматериалы доступны по адресу https://q-transformer.github.io.
Крупные языковые модели (LLMs) с миллиардами параметров продемонстрировали выдающуюся производительность в различных задачах обработки естественного языка. В данном отчете представлена OpenBA — открытая 15-миллиардная двуязычная асимметричная модель seq2seq, которая вносит вклад в сообщество открытых моделей, ориентированных на китайский язык. Мы улучшили OpenBA с помощью эффективных и производительных методов, а также применили трехэтапную стратегию обучения для тренировки модели с нуля. Наше решение демонстрирует конкурентоспособные результаты, используя всего 380 миллиардов токенов, превосходя LLaMA-70B на бенчмарке BELEBELE, BLOOM-176B на бенчмарке MMLU и GLM-130B на сложном бенчмарке C-Eval. В отчете приведены основные детали предварительного обучения аналогичной модели, включая обработку данных для предварительного обучения, сбор двуязычных данных Flan, эмпирические наблюдения, вдохновившие нашу архитектуру модели, цели обучения на разных этапах и другие методы улучшения. Мы реорганизовали наш код в соответствии с принципами библиотеки Huggingface Transformers, что делает его более удобным для разработчиков, и опубликовали контрольные точки различных этапов обучения на https://huggingface.co/openBA. Дополнительные сведения о нашем проекте доступны на https://github.com/OpenNLG/openBA.git.
Данная работа направлена на изучение влияния различных комбинаций данных (например, веб-тексты, Wikipedia, GitHub, книги) на обучение крупных языковых моделей с использованием набора данных SlimPajama. SlimPajama представляет собой тщательно дедуплицированный мультиисточниковый набор данных, который был уточнен и дополнительно дедуплицирован до 627 миллиардов токенов из обширного набора данных RedPajama объемом 1,2 триллиона токенов, предоставленного компанией Together. Мы назвали наше исследование SlimPajama-DC — это эмпирический анализ, предназначенный для выявления фундаментальных характеристик и лучших практик, связанных с использованием SlimPajama при обучении крупных языковых моделей. В ходе исследования с использованием SlimPajama были сделаны два ключевых наблюдения: (1) Глобальная дедупликация против локальной дедупликации. Мы анализируем и обсуждаем, как глобальная (между различными источниками данных) и локальная (внутри одного источника данных) дедупликация влияют на производительность обученных моделей. (2) Пропорции высококачественных/сильно дедуплицированных мультиисточниковых наборов данных в комбинации. Для изучения этого мы создали шесть конфигураций набора данных SlimPajama и обучили каждую из них с использованием модели Cerebras-GPT объемом 1,3 миллиарда параметров с применением Alibi и SwiGLU. Наша лучшая конфигурация значительно превосходит модель объемом 1,3 миллиарда параметров, обученную на RedPajama, при том же количестве токенов для обучения. Все наши модели объемом 1,3 миллиарда параметров были обучены на кластере Cerebras 16x CS-2 с общей производительностью 80 PFLOP/s в смешанной точности bf16. Мы также расширили наши открытия (например, увеличение разнообразия данных является критически важным после глобальной дедупликации) на модель объемом 7 миллиардов параметров с обучением на больших размерах батчей. Наши модели и отдельные наборы данных SlimPajama-DC доступны по адресам: https://huggingface.co/MBZUAI-LLM и https://huggingface.co/datasets/cerebras/SlimPajama-627B.
Последние достижения в области генерации аудио были стимулированы развитием крупномасштабных моделей глубокого обучения и обширных наборов данных. Однако задача генерации аудио по видео (V2A) по-прежнему остается сложной, главным образом из-за сложной взаимосвязи между высокоразмерными визуальными и аудиоданными, а также проблем, связанных с временной синхронизацией. В данном исследовании мы представляем FoleyGen — систему генерации аудио по видео в открытой области, основанную на парадигме языкового моделирования. FoleyGen использует готовый нейронный аудиокодек для двунаправленного преобразования между звуковыми волнами и дискретными токенами. Генерация аудиотокенов осуществляется с помощью одной модели Transformer, которая учитывает визуальные признаки, извлеченные визуальным кодировщиком. Распространенной проблемой в генерации V2A является несоответствие сгенерированного аудио видимым действиям в видео. Для решения этой проблемы мы исследуем три новых механизма визуального внимания. Кроме того, мы проводим всестороннюю оценку нескольких визуальных кодировщиков, каждый из которых предварительно обучался на задачах с одним или несколькими модальностями. Экспериментальные результаты на наборе данных VGGSound показывают, что предложенная система FoleyGen превосходит предыдущие системы по всем объективным метрикам и оценкам пользователей.
Мы представляем POP3D — новый фреймворк, который создает полную 360-градусную 3D-модель из одного изображения. POP3D решает две ключевые проблемы, ограничивающие реконструкцию по одному виду. Во-первых, POP3D обеспечивает высокую обобщаемость для произвольных категорий, что было сложно достичь в предыдущих методах. Во-вторых, POP3D значительно улучшает точность и естественность реконструкции, что является важным аспектом, с которым не справляются современные аналоги. Наш подход объединяет преимущества четырех основных компонентов: (1) предсказатель монохромной глубины и нормалей, который предсказывает ключевые геометрические подсказки, (2) метод пространственного вырезания, способный обозначить потенциально невидимые части целевого объекта, (3) генеративная модель, предварительно обученная на большом наборе изображений, которая может достраивать невидимые области объекта, и (4) метод нейронной неявной реконструкции поверхностей, адаптированный для восстановления объектов с использованием RGB-изображений и монохромных геометрических подсказок. Сочетание этих компонентов позволяет POP3D легко обобщать данные для различных изображений из реального мира и создавать реконструкции, превосходящие современные аналоги с заметным отрывом. Страница проекта: http://cg.postech.ac.kr/research/POP3D.