Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) достигли значительного прогресса в обработке длинных контекстов, но по-прежнему испытывают трудности с рассуждениями в длинных контекстах. Существующие подходы обычно включают донастройку LLM с использованием синтетических данных, которые зависят от аннотаций от человеческих экспертов или продвинутых моделей, таких как GPT-4, что ограничивает дальнейшее развитие. Для решения этой проблемы мы исследуем потенциал самоусовершенствования LLM в рассуждениях в длинных контекстах и предлагаем наш подход, специально разработанный для этой цели. Этот подход прост: мы выбираем несколько вариантов ответов на каждый вопрос, оцениваем их с использованием минимального байесовского риска, а затем применяем надзорную донастройку или оптимизацию предпочтений на основе этих вариантов. Обширные эксперименты на нескольких ведущих LLM демонстрируют эффективность нашего подхода, с абсолютным улучшением на 4,2 пункта для Llama-3.1-8B-Instruct. Более того, наш подход достигает более высокой производительности по сравнению с предыдущими подходами, зависящими от данных, созданных человеческими экспертами или продвинутыми моделями. Мы предвидим, что данная работа откроет новые пути для техник самоусовершенствования в сценариях с длинными контекстами, которые являются необходимыми для постоянного развития LLM.
Генерация видео стала многообещающим инструментом для моделирования мира, используя визуальные данные для воссоздания реальных сред. В этом контексте эгоцентрическая генерация видео, сосредоточенная на человеческой перспективе, имеет значительный потенциал для улучшения приложений в виртуальной реальности, дополненной реальности и играх. Однако генерация эгоцентрических видео представляет существенные трудности из-за динамичной природы эгоцентрических точек зрения, сложного разнообразия действий и разнообразия сцен. Существующие наборы данных недостаточны для эффективного решения этих проблем. Для заполнения этой пробела мы представляем EgoVid-5M, первый высококачественный набор данных, специально подготовленный для генерации эгоцентрических видео. EgoVid-5M включает в себя 5 миллионов видеороликов с эгоцентрической перспективой и обогащен детальными аннотациями действий, включая детализированный кинематический контроль и высокоуровневые текстовые описания. Для обеспечения целостности и использования набора данных мы реализуем сложный процесс очистки данных, разработанный для поддержания согласованности кадров, последовательности действий и плавности движения в условиях эгоцентрической перспективы. Кроме того, мы представляем EgoDreamer, способный генерировать эгоцентрические видео, управляемые одновременно описаниями действий и сигналами кинематического контроля. Набор данных EgoVid-5M, связанные аннотации действий и все метаданные по очистке данных будут опубликованы для продвижения исследований в области генерации эгоцентрических видео.
Выравнивание больших языковых моделей (LLM) с предпочтениями человека остается одним из ключевых вызовов. В то время как техники посттренировочного обучения, такие как Обучение с подкреплением по обратной связи от человека (RLHF) и Прямая оптимизация предпочтений (DPO), достигли значительного успеха, они часто вносят вычислительные неэффективности и нестабильность обучения. В данной статье мы предлагаем метод Оптимизации предпочтений с ограничением на уровне признаков (FPO), новаторский метод, разработанный для упрощения процесса выравнивания, обеспечивая при этом стабильность. FPO использует предварительно обученные разреженные автоэнкодеры (SAE) и вводит ограничения на уровне признаков, что позволяет эффективное выравнивание с учетом разреженности. Наш подход обеспечивает эффективность за счет использования разреженных признаков, активированных в хорошо обученном разреженном автоэнкодере, и качества последовательного дивергенции Кульбака-Лейблера за счет использования оффлайн-ссылки на уровне признаков. Экспериментальные результаты на эталонных наборах данных показывают, что FPO достигает абсолютного улучшения победного коэффициента на 5,08% при значительно более низкой вычислительной стоимости по сравнению с передовыми базовыми моделями, что делает его многообещающим решением для эффективного и управляемого выравнивания LLM.
Французские языковые модели, такие как CamemBERT, широко приняты в различных отраслях для обработки естественного языка (NLP), причем модели, подобные CamemBERT, ежемесячно загружаются более чем 4 миллионов раз. Однако эти модели сталкиваются с вызовами из-за временного концептуального сдвига, когда устаревшие обучающие данные приводят к снижению производительности, особенно при работе с новыми темами и терминологией. Эта проблема подчеркивает необходимость обновленных моделей, отражающих текущие лингвистические тенденции. В данной статье мы представляем две новые версии базовой модели CamemBERT - CamemBERTav2 и CamemBERTv2, разработанные для решения этих вызовов. CamemBERTav2 основана на архитектуре DeBERTaV3 и использует цель обнаружения замененного токена (RTD) для лучшего контекстного понимания, в то время как CamemBERTv2 построена на RoBERTa, которая использует цель маскированного моделирования языка (MLM). Обе модели обучаются на значительно более крупном и более свежем наборе данных с более длинной длиной контекста и обновленным токенизатором, который улучшает производительность токенизации для французского языка. Мы оцениваем производительность этих моделей как на общедоступных задачах NLP, так и на прикладных областях, таких как задачи в медицинской сфере, демонстрируя их универсальность и эффективность в различных сценариях использования. Наши результаты показывают, что эти обновленные модели значительно превосходят своих предшественников, делая их ценными инструментами для современных систем NLP. Все наши новые модели, а также промежуточные контрольные точки, доступны для общего использования на Huggingface.
Векторы управления - это многообещающий подход к управлению поведением больших языковых моделей. Однако их базовые механизмы остаются плохо понятыми. В то время как разреженные автокодировщики (SAE) могут предложить потенциальный метод интерпретации векторов управления, недавние исследования показывают, что восстановленные SAE-векторы часто лишены свойств управления оригинальными векторами. В данной статье исследуется, почему прямое применение SAE к векторам управления приводит к вводящим в заблуждение декомпозициям, выявляя две причины: (1) векторы управления выходят за пределы распределения ввода, для которого предназначены SAE, и (2) векторы управления могут иметь смысловые отрицательные проекции в направлениях признаков, для которых SAE не предназначены. Эти ограничения затрудняют прямое использование SAE для интерпретации векторов управления.
Генерация музыки значительно продвинулась, особенно в области генерации звука. Однако создание символьной музыки, которая одновременно имеет длинную структуру и выразительность, остается значительным вызовом. В данной статье мы предлагаем PerceiverS (Segmentation and Scale), новую архитектуру, разработанную для решения этой проблемы за счет использования эффективных механизмов сегментации и многомасштабного внимания. Наш подход улучшает генерацию символьной музыки путем одновременного изучения долгосрочных структурных зависимостей и краткосрочных выразительных деталей. Сочетая кросс-внимание и самовнимание в многомасштабной среде, PerceiverS улавливает структуру музыки на длинные расстояния, сохраняя нюансы исполнения. Предложенная модель, оцененная на наборах данных, таких как Maestro, демонстрирует улучшения в генерации согласованной и разнообразной музыки с одновременным сохранением структурной последовательности и выразительного разнообразия. Демонстрации проекта и сгенерированные образцы музыки можно посмотреть по ссылке: https://perceivers.github.io.
Существующие модели текст-видео (T2V) часто испытывают затруднения при создании видеороликов с достаточно выраженными или сложными действиями. Одним из основных ограничений является неспособность текстового подсказа точно передать сложные детали движения. Для решения этой проблемы мы предлагаем новую структуру, MVideo, разработанную для создания видеороликов большой продолжительности с точными, плавными действиями. MVideo преодолевает ограничения текстовых подсказов, интегрируя последовательности масок в качестве дополнительного входа для условий движения, обеспечивая более ясное, точное представление задуманных действий. Используя основные модели зрения, такие как GroundingDINO и SAM2, MVideo автоматически генерирует последовательности масок, улучшая как эффективность, так и надежность. Наши результаты показывают, что после обучения MVideo эффективно выравнивает текстовые подсказы с условиями движения для создания видеороликов, которые одновременно удовлетворяют оба критерия. Этот двойной механизм управления позволяет более динамично генерировать видеоролики, позволяя изменять как текстовую подсказку, так и условие движения независимо друг от друга или совместно. Более того, MVideo поддерживает редактирование и компоновку условий движения, облегчая создание видеороликов с более сложными действиями. Таким образом, MVideo продвигает генерацию движения в T2V, устанавливая сильный стандарт для улучшения изображения действий в текущих моделях диффузии видео. Наша страница проекта доступна по адресу https://mvideo-v1.github.io/.