Ежедневно отобранные исследовательские статьи по ИИ с переводами
Разработка крупных языковых моделей вызвала широкий интерес среди исследователей к пониманию их внутренних способностей к рассуждению и решению задач. Несмотря на значительное количество исследований, направленных на изучение этих способностей, по-прежнему существует заметный пробел в понимании морального развития и суждений этих моделей. Современные подходы к оценке этических способностей рассуждения моделей, рассматриваемые как задача классификации, содержат множество неточностей из-за чрезмерного упрощения. В данном исследовании мы установили психологическую связь, объединив две различные области — психологию человека и искусственный интеллект. Мы предложили эффективную оценочную структуру, которая может помочь определить способность модели к этическому рассуждению с точки зрения моральной согласованности и стадий морального развития Кольберга с использованием психометрического инструмента оценки — теста на определение ключевых вопросов (Defining Issues Test).
Хотя недавние методы генерации видео из текста (T2V) достигли значительного прогресса, большинство этих работ сосредоточено на создании коротких видеоклипов, изображающих одно событие с одним фоном (т.е. видео с одной сценой). В то же время современные крупные языковые модели (LLM) продемонстрировали свою способность генерировать макеты и программы для управления визуальными модулями, такими как модели генерации изображений. Это поднимает важный вопрос: можем ли мы использовать знания, заложенные в этих LLM, для генерации длинных видео с временной согласованностью? В данной статье мы предлагаем VideoDirectorGPT, новый фреймворк для согласованной генерации многосценовых видео, который использует знания LLM для планирования контента видео и обоснованной генерации видео. В частности, для заданного текстового запроса мы сначала просим нашу LLM-планировщик видео (GPT-4) расширить его в «план видео», который включает генерацию описаний сцен, объектов с их макетами, фона для каждой сцены и группировок объектов и фонов для обеспечения согласованности. Затем, руководствуясь этим планом, наш генератор видео, Layout2Vid, получает явный контроль над пространственными макетами и может поддерживать временную согласованность объектов/фонов между сценами, будучи обученным только на аннотациях уровня изображений. Наши эксперименты показывают, что фреймворк VideoDirectorGPT значительно улучшает контроль над макетами и движением как в односценовой, так и в многосценовой генерации видео, а также способен создавать многосценовые видео с визуальной согласованностью между сценами, достигая при этом конкурентоспособных результатов с современными методами (SOTA) в генерации односценовых видео из текста в открытой области. Мы также демонстрируем, что наш фреймворк может динамически контролировать силу руководства макетами и может генерировать видео с использованием изображений, предоставленных пользователем. Мы надеемся, что наш фреймворк вдохновит будущие исследования на лучшее интегрирование планирующих способностей LLM в генерацию согласованных длинных видео.
Крупные мультимодальные модели (LMM) строятся на основе различных модальностей, и рассогласование между двумя модальностями может приводить к "галлюцинациям", то есть генерации текстовых выводов, не основанных на мультимодальной информации в контексте. Для решения проблемы мультимодального рассогласования мы адаптировали метод обучения с подкреплением на основе обратной связи от человека (RLHF) из текстовой области к задаче согласования визуальной и языковой информации. В этом процессе аннотаторы сравнивают два ответа и указывают на тот, который содержит больше галлюцинаций, а модель обучается максимизировать смоделированные человеческие оценки. Мы предлагаем новый алгоритм согласования под названием Factually Augmented RLHF, который дополняет модель вознаграждения дополнительной фактической информацией, такой как подписи к изображениям и правильные варианты ответов в тестах с множественным выбором. Это смягчает проблему "взлома вознаграждения" в RLHF и дополнительно улучшает производительность. Мы также улучшаем данные для обучения, сгенерированные GPT-4 (для настройки визуальных инструкций), добавляя ранее доступные пары "изображение-текст", написанные человеком, чтобы повысить общие возможности нашей модели. Для оценки предложенного подхода в реальных сценариях мы разработали новый эталонный тест MMHAL-BENCH, который уделяет особое внимание наказанию за галлюцинации. Как первая LMM, обученная с использованием RLHF, наш подход демонстрирует значительное улучшение на наборе данных LLaVA-Bench, достигая 94% уровня производительности GPT-4, работающего только с текстом (в то время как предыдущие лучшие методы достигали только 87%), и улучшение на 60% на MMHAL-BENCH по сравнению с другими базовыми методами. Мы открываем исходный код, модель и данные на https://llava-rlhf.github.io.
Большинство существующих мультимодальных моделей, ограниченные своей неспособностью эффективно обрабатывать чередующиеся изображения и текстовые данные в диалогах с несколькими изображениями и множеством раундов, сталкиваются с существенными ограничениями в распределении ресурсов для обучения и доступности данных, что влияет на их адаптивность и масштабируемость в различных областях взаимодействия. Для решения этой проблемы мы представляем фреймворк DeepSpeed-VisualChat, разработанный для оптимизации больших языковых моделей (LLM) путем интеграции мультимодальных возможностей, с акцентом на повышение эффективности больших моделей зрения и языка в обработке чередующихся входных данных. Наш фреймворк выделяется (1) открытой поддержкой диалогов с несколькими раундами и изображениями, (2) введением инновационного механизма мультимодального каузального внимания и (3) использованием техник смешивания данных на существующих наборах данных для обеспечения плавного взаимодействия в многораундовых диалогах с несколькими изображениями. По сравнению с существующими фреймворками, DeepSpeed-VisualChat демонстрирует превосходную масштабируемость до размера языковой модели с 70 миллиардами параметров, что представляет собой значительный прогресс в области мультимодальных языковых моделей и закладывает прочную основу для будущих исследований.
Команды, обучавшие крупные модели на основе архитектуры Transformer, сообщали о нестабильностях в процессе обучения на больших масштабах, которые не наблюдались при использовании тех же гиперпараметров на меньших масштабах. Хотя причины таких нестабильностей представляют научный интерес, объем ресурсов, необходимых для их воспроизведения, затрудняет их исследование. В данной работе мы ищем способы воспроизведения и изучения стабильности и нестабильности обучения на меньших масштабах. Сначала мы сосредотачиваемся на двух источниках нестабильности обучения, описанных в предыдущих работах: росте значений logits в слоях внимания (Dehghani et al., 2023) и расхождении выходных logits с логарифмическими вероятностями (Chowdhery et al., 2022). Измеряя зависимость между скоростью обучения и потерей на разных масштабах, мы показываем, что эти нестабильности также проявляются в небольших моделях при обучении с высокой скоростью обучения, и что методы устранения, ранее применявшиеся на больших масштабах, одинаково эффективны и в этом режиме. Это побуждает нас исследовать, в какой степени другие известные вмешательства в оптимизатор и модель влияют на чувствительность итоговой потери к изменениям скорости обучения. С этой целью мы изучаем такие методы, как разогрев (warm-up), затухание весов (weight decay) и muParam (Yang et al., 2022), и комбинируем техники для обучения небольших моделей, которые достигают схожих потерь при изменении скорости обучения на порядки величины. Наконец, завершая наше исследование, мы изучаем два случая, когда нестабильности можно предсказать до их появления, анализируя масштабирование норм активаций и градиентов модели.
Крупные языковые модели (LLM) могут повышать свою точность в различных задачах за счет итеративного уточнения и пересмотра своих результатов на основе обратной связи. Мы наблюдаем, что такие пересмотры могут приводить к ошибкам, и в таких случаях лучше вернуться к предыдущему результату. Кроме того, пересмотры обычно однородны: они используют тот же метод рассуждений, который привел к первоначальному ответу, что может не исправлять ошибки. Для исследования в этой области мы представляем SCREWS — модульную структуру для рассуждений с пересмотрами. Она состоит из трех основных модулей: выборка, условная повторная выборка и отбор, каждый из которых включает подмодули, которые можно выбирать вручную для каждой задачи. Мы показываем, что SCREWS не только объединяет несколько предыдущих подходов в рамках общей структуры, но и раскрывает несколько новых стратегий для выявления улучшенных цепочек рассуждений. Мы оцениваем нашу структуру с использованием современных LLM (ChatGPT и GPT-4) на разнообразных задачах рассуждений и обнаруживаем полезные новые стратегии для каждой из них: арифметические текстовые задачи, многошаговые вопросы с ответами и отладка кода. Гетерогенные стратегии пересмотра оказываются важными, как и выбор между оригинальными и пересмотренными кандидатами.
Последние достижения в области крупных языковых моделей (LLM) в моделировании языка и их возникающие способности делают их перспективным инструментом для оценки качества генерации естественного языка без использования эталонов, а также компетентной альтернативой человеческой оценке. Однако, ограниченные закрытым исходным кодом или высокими вычислительными требованиями для размещения и настройки, существует недостаток практики для дальнейшей калибровки готовых LLM-оценщиков с целью лучшего соответствия человеческим предпочтениям. В данной работе мы предлагаем AutoCalibrate — многоэтапный подход без использования градиентов для автоматической калибровки и согласования LLM-оценщика с человеческими предпочтениями. Вместо явного моделирования человеческих предпочтений мы сначала неявно включаем их в набор человеческих меток. Затем начальный набор критериев оценки формулируется самой языковой моделью, используя обучение в контексте на различных примерах с малым количеством данных. Для дальнейшей калибровки этого набора критериев мы выбираем лучшие варианты и переформулируем их с помощью саморефлексии. Наши эксперименты на нескольких наборах данных для оценки качества текста демонстрируют значительное улучшение корреляции с экспертной оценкой благодаря калибровке. Наш всесторонний качественный анализ предоставляет ценные интуиции и наблюдения относительно сущности эффективных критериев оценки.
Разделение длинных видео на главы позволяет пользователям быстро находить интересующую их информацию. Эта важная тема оставалась малоизученной из-за отсутствия публично доступных наборов данных. Чтобы решить эту проблему, мы представляем VidChapters-7M — набор данных, содержащий 817K видео с разметкой глав от пользователей, включая в общей сложности 7M глав. VidChapters-7M автоматически создается из онлайн-видео масштабируемым способом путем сбора глав, аннотированных пользователями, и, следовательно, не требует дополнительной ручной разметки. Мы предлагаем три задачи на основе этих данных. Во-первых, задача генерации глав видео заключается в временной сегментации видео и создании заголовка для каждого сегмента. Чтобы глубже изучить проблему, мы также определяем два варианта этой задачи: генерация заголовка главы при наличии точных границ сегмента, что требует создания заголовка для аннотированного сегмента видео, и локализация главы, что требует временного определения местоположения главы по ее аннотированному заголовку. Мы тестируем как простые базовые модели, так и современные модели для обработки видео и текста на этих трех задачах. Мы также показываем, что предварительное обучение на VidChapters-7M хорошо переносится на задачи плотного описания видео как в условиях нулевого обучения, так и при дообучении, значительно улучшая современные результаты на бенчмарках YouCook2 и ViTT. Наконец, наши эксперименты показывают, что производительность на последующих задачах хорошо масштабируется с увеличением размера набора данных для предварительного обучения. Наш набор данных, код и модели доступны по адресу https://antoyang.github.io/vidchapters.html.