Ежедневно отобранные исследовательские статьи по ИИ с переводами
Вращающиеся позиционные эмбеддинги (RoPE) доказали свою эффективность в кодировании позиционной информации в трансформаторных языковых моделях. Однако такие модели не способны обобщать данные за пределами длины последовательности, на которой они обучались. Мы представляем YaRN (Yet another RoPE extensioN method), вычислительно эффективный метод расширения контекстного окна таких моделей, требующий в 10 раз меньше токенов и в 2,5 раза меньше шагов обучения по сравнению с предыдущими методами. Используя YaRN, мы показываем, что модели LLaMA могут эффективно использовать и экстраполировать на контекстные длины, значительно превышающие те, что были доступны при их исходном предварительном обучении, одновременно превосходя предыдущие достижения в области расширения контекстного окна. Кроме того, мы демонстрируем, что YaRN обладает способностью экстраполировать за пределы ограниченного контекста набора данных для тонкой настройки. Мы публикуем чекпоинты моделей Llama 2 7B/13B, тонко настроенных с использованием YaRN с контекстными окнами 64k и 128k, по адресу https://github.com/jquesnelle/yarn.
Обучение с подкреплением на основе человеческой обратной связи (RLHF) эффективно для согласования крупных языковых моделей (LLM) с предпочтениями человека, однако сбор высококачественных меток человеческих предпочтений является ключевым ограничением. Мы провели прямое сравнение RLHF и обучения с подкреплением на основе обратной связи от ИИ (RLAIF) — метода, в котором предпочтения маркируются готовой языковой моделью вместо людей, и обнаружили, что они приводят к схожим улучшениям. В задаче суммаризации человеческие оценщики предпочитают результаты как RLAIF, так и RLHF по сравнению с базовой моделью, дообученной с учителем, примерно в 70% случаев. Более того, при оценке суммаризаций RLAIF и RLHF люди предпочитают их в равной степени. Эти результаты свидетельствуют о том, что RLAIF может достигать уровня человеческой производительности, предлагая потенциальное решение для масштабируемости RLHF.
В данной статье мы представляем VideoGen — подход к генерации видео по текстовому описанию, который позволяет создавать видео высокой четкости с высокой точностью кадров и сильной временной согласованностью, используя латентную диффузию с опорой на эталонное изображение. Мы используем готовую модель генерации изображений по тексту, такую как Stable Diffusion, для создания изображения с высоким качеством контента на основе текстового запроса, которое служит эталонным изображением для генерации видео. Затем мы вводим эффективный каскадный модуль латентной диффузии, учитывающий как эталонное изображение, так и текстовый запрос, для генерации латентных представлений видео, за которым следует этап временного повышения разрешения на основе потоков для улучшения временного разрешения. Наконец, мы преобразуем латентные представления видео в видео высокой четкости с помощью улучшенного видеодекодера. Во время обучения мы используем первый кадр эталонного видео в качестве эталонного изображения для обучения каскадного модуля латентной диффузии. Основные особенности нашего подхода включают: эталонное изображение, созданное моделью генерации изображений по тексту, повышает визуальную точность; его использование в качестве условия позволяет диффузионной модели сосредоточиться на изучении динамики видео; видеодекодер обучается на неразмеченных видеоданных, что позволяет использовать высококачественные и легко доступные видео. VideoGen устанавливает новый эталон в области генерации видео по тексту как по качественным, так и по количественным показателям.
Шеннон в своей основополагающей работе, посвящённой теории информации, разделил коммуникацию на три уровня: технический, семантический и уровень эффективности. В то время как технический уровень связан с точным восстановлением передаваемых символов, семантический уровень и уровень эффективности касаются выводимого значения и его воздействия на получателя. Благодаря телекоммуникациям, проблема первого уровня привела к значительным достижениям, таким как интернет. Крупные языковые модели (LLM) добились некоторого прогресса в достижении второй цели, но третий уровень остаётся в значительной степени неисследованным. Третья проблема связана с прогнозированием и оптимизацией коммуникации для достижения желаемого поведения получателя. LLM, демонстрируя широкие возможности обобщения в различных задачах, не способны решить эту проблему. Одной из причин недостаточной эффективности может быть отсутствие "токенов поведения" в обучающих корпусах LLM. Токены поведения определяют поведение получателя в ходе коммуникации, например, лайки, клики, покупки, ретвиты и т.д. При предварительной обработке данных для обучения LLM токены поведения часто удаляются из корпусов как шум. Поэтому в данной статье мы делаем первые шаги к повторному внедрению токенов поведения в обучение LLM. Обученные модели, помимо схожей с LLM производительности в задачах понимания контента, демонстрируют способности к обобщению в симуляции поведения, симуляции контента, пониманию поведения и адаптации к поведенческим доменам. Используя широкий спектр задач на двух корпусах, мы показываем результаты по всем этим способностям. Мы называем эти модели Крупными моделями контента и поведения (LCBM). Кроме того, чтобы стимулировать дальнейшие исследования в области LCBM, мы публикуем наш новый Корпус контента и поведения (CBC), репозиторий, содержащий коммуникатора, сообщение и соответствующее поведение получателя.
Модели компьютерного зрения демонстрируют различия в производительности в зависимости от таких атрибутов, как пол и тон кожи. Это означает, что при выполнении задач, таких как классификация и обнаружение, производительность модели различается для определённых классов в зависимости от демографических характеристик людей на изображении. Хотя существование таких различий было доказано, до сих пор не было единого подхода для их измерения в типичных сценариях использования моделей компьютерного зрения. Мы представляем новый эталонный набор под названием FACET (FAirness in Computer Vision EvaluaTion) — крупный, общедоступный набор данных для оценки, содержащий 32 тыс. изображений, предназначенных для наиболее распространённых задач компьютерного зрения: классификации изображений, обнаружения объектов и сегментации. Для каждого изображения в FACET мы привлекли экспертов для ручной аннотации атрибутов, связанных с людьми, таких как воспринимаемый тон кожи и тип волос, ручного рисования ограничивающих рамок и маркировки детализированных классов, связанных с людьми, например, диджей или гитарист. Кроме того, мы используем FACET для тестирования современных моделей компьютерного зрения и предоставляем более глубокое понимание потенциальных различий в производительности и проблем, связанных с чувствительными демографическими атрибутами. Собрав исчерпывающие аннотации, мы исследуем модели, используя как отдельные демографические атрибуты, так и их комбинации, применяя интерсекциональный подход (например, цвет волос и воспринимаемый тон кожи). Наши результаты показывают, что модели классификации, обнаружения, сегментации и визуального связывания демонстрируют различия в производительности в зависимости от демографических атрибутов и их комбинаций. Эти недостатки указывают на то, что не все люди, представленные в наборах данных, получают справедливое и равноправное отношение при выполнении этих задач компьютерного зрения. Мы надеемся, что текущие и будущие результаты, полученные с использованием нашего эталонного набора, будут способствовать созданию более справедливых и устойчивых моделей компьютерного зрения. FACET доступен по адресу: https://facet.metademolab.com/