Ежедневно отобранные исследовательские статьи по ИИ с переводами
Проприетарные языковые модели, такие как GPT-4, часто используются для оценки качества ответов различных языковых моделей. Однако проблемы, такие как недостаточная прозрачность, управляемость и доступность, сильно мотивируют разработку открытых языковых моделей, специализированных на оценке. С другой стороны, существующие открытые оценочные языковые модели обнаруживают серьезные недостатки: 1) они выдают оценки, значительно отличающиеся от оценок, присвоенных людьми, и 2) им не хватает гибкости для выполнения как прямой оценки, так и попарного ранжирования, двух наиболее распространенных форм оценки. Кроме того, они не обладают способностью оценивать на основе пользовательских критериев оценки, фокусируясь вместо этого на общих характеристиках, таких как полезность и безопасность. Для решения этих проблем мы представляем Prometheus 2, более мощную оценочную языковую модель, чем ее предшественник, которая тесно соответствует суждениям людей и GPT-4. Более того, она способна обрабатывать как прямую оценку, так и формат попарного ранжирования, сгруппированный с пользовательскими критериями оценки. На четырех бенчмарках прямой оценки и четырех бенчмарках попарного ранжирования Prometheus 2 показывает наивысшую корреляцию и согласованность с людьми и проприетарными судьями языковых моделей среди всех протестированных открытых оценочных языковых моделей. Наши модели, код и данные доступны публично по адресу https://github.com/prometheus-eval/prometheus-eval.
Адаптация низкого ранга (LoRA) стала одним из наиболее широко применяемых методов для эффективной настройки параметров (PEFT) крупных языковых моделей (LLM). LoRA снижает количество обучаемых параметров и использование памяти, сохраняя при этом сопоставимую производительность с полной настройкой. Наша цель - оценить возможность обучения и обслуживания LLM, настроенных с помощью LoRA, в реальных приложениях. Сначала мы измеряем качество LLM, настроенных с помощью квантованных адаптеров низкого ранга на 10 базовых моделях и 31 задаче, всего 310 моделей. Мы обнаружили, что модели, настроенные с помощью 4-битного LoRA, превосходят базовые модели в среднем на 34 пункта и GPT-4 на 10 пунктов. Во-вторых, мы исследуем наиболее эффективные базовые модели для настройки и оцениваем корреляционные и прогностические способности эвристик сложности задачи в прогнозировании результатов настройки. Наконец, мы оцениваем пропускную способность и возможности параллелизма LoRAX, сервера вывода Multi-LoRA с открытым исходным кодом, который облегчает развертывание нескольких моделей, настроенных с помощью LoRA, на одном графическом процессоре с использованием общих весов базовой модели и динамической загрузки адаптеров. LoRAX поддерживает LoRA Land, веб-приложение, которое размещает 25 моделей Mistral-7B LLM, настроенных с помощью LoRA, на одном графическом процессоре NVIDIA A100 с памятью 80 ГБ. LoRA Land подчеркивает качество и экономичность использования нескольких специализированных LLM вместо одной универсальной LLM.
Чатботы, такие как GPT-4 и ChatGPT, сейчас обслуживают миллионы пользователей. Несмотря на их широкое использование, остается недостаток общедоступных наборов данных, демонстрирующих, как эти инструменты используются пользовательской аудиторией на практике. Для заполнения этой пробела мы предложили бесплатный доступ к ChatGPT для онлайн-пользователей в обмен на их согласие на анонимное сбор чат-транскриптов и заголовков запросов. На основе этого мы составили WildChat, корпус из 1 миллиона диалогов пользователь-ChatGPT, включающий более 2,5 миллионов обменов сообщениями. Мы сравнили WildChat с другими популярными наборами данных по взаимодействию пользователь-чатбот и обнаружили, что наш набор данных предлагает самые разнообразные пользовательские запросы, содержит наибольшее количество языков и представляет наиболее богатое разнообразие потенциально токсичных случаев использования для исследования. В дополнение к таймстампам чат-транскриптов, мы обогатили набор данных демографическими данными, включая штат, страну и хешированные IP-адреса, наряду с заголовками запросов. Это дополнение позволяет более детально анализировать поведение пользователей в различных географических регионах и временных измерениях. Наконец, поскольку набор данных охватывает широкий спектр случаев использования, мы демонстрируем потенциальную полезность набора данных для настройки моделей, следующих за инструкциями. WildChat доступен по ссылке https://wildchat.allen.ai под лицензией AI2 ImpACT.
Для недавно разработанных генеративных моделей на основе диффузии поддержание согласованного контента в серии сгенерированных изображений, особенно содержащих объекты и сложные детали, представляет существенное испытание. В данной статье мы предлагаем новый способ вычисления самовнимания, названный Согласованным Самовниманием, который значительно повышает согласованность между сгенерированными изображениями и усиливает распространенные предварительно обученные модели текст-к-изображению на основе диффузии в нулевом режиме. Для расширения нашего метода на генерацию видео большого диапазона, мы дополнительно вводим новый модуль прогнозирования временного движения в семантическом пространстве, названный Семантическим Предсказателем Движения. Он обучен оценивать условия движения между двумя предоставленными изображениями в семантических пространствах. Этот модуль преобразует сгенерированную последовательность изображений в видео с плавными переходами и согласованными объектами, которые значительно более стабильны, чем модули, основанные только на скрытых пространствах, особенно в контексте генерации длинных видео. Объединив эти два новаторских компонента, наша структура, названная StoryDiffusion, может описывать историю на основе текста с согласованными изображениями или видео, охватывающими богатое разнообразие содержания. Предложенный StoryDiffusion включает в себя первооткрывательные исследования в области генерации визуальных историй с представлением изображений и видео, что, надеемся, может вдохновить на проведение дальнейших исследований с точки зрения архитектурных модификаций. Наш код доступен публично по ссылке https://github.com/HVision-NKU/StoryDiffusion.
Выравнивание больших языковых моделей (LLM) с человеческими ценностями и предпочтениями является необходимым для обеспечения их полезности и безопасности. Однако создание эффективных инструментов для выполнения выравнивания может быть сложным, особенно для самых крупных и компетентных LLM, которые часто содержат десятки или сотни миллиардов параметров. Мы создали NeMo-Aligner, набор инструментов для выравнивания моделей, способный эффективно масштабироваться для использования сотен графических процессоров для обучения. NeMo-Aligner поставляется с высоко оптимизированными и масштабируемыми реализациями основных парадигм выравнивания моделей, таких как: обучение с подкреплением по обратной связи от человека (RLHF), прямая оптимизация предпочтений (DPO), SteerLM и самонастройка через игру (SPIN). Кроме того, наш набор инструментов поддерживает запуск большинства техник выравнивания в режиме эффективной настройки параметров (PEFT). NeMo-Aligner разработан с учетом расширяемости, обеспечивая поддержку других техник выравнивания с минимальными усилиями. Он предоставляется в открытом доступе под лицензией Apache 2.0, и мы приглашаем сообщество к участию по адресу https://github.com/NVIDIA/NeMo-Aligner
Выравнивание является стандартной процедурой для настройки заранее обученных крупных языковых моделей (КЯМ) на естественные языковые инструкции и их использования в качестве полезных помощников по искусственному интеллекту. Однако мы обнаружили, что традиционный процесс выравнивания не способствует улучшению фактической точности КЯМ и часто приводит к генерации большего количества ложных фактов (т.е. галлюцинации). В данной статье мы изучаем, как сделать процесс выравнивания КЯМ более фактическим, сначала выявив факторы, приводящие к галлюцинациям на обоих этапах выравнивания: надзорное дообучение (SFT) и обучение с подкреплением (RL). В частности, мы обнаружили, что обучение КЯМ на новых знаниях или незнакомых текстах может способствовать галлюцинациям. Это делает SFT менее фактическим, поскольку он обучается на данных, размеченных людьми, которые могут быть новыми для КЯМ. Более того, функции вознаграждения, используемые в стандартном RL, также могут способствовать галлюцинациям, поскольку они направляют КЯМ на предоставление более полезных ответов на разнообразные инструкции, часто предпочитая более длинные и подробные ответы. Исходя из этих наблюдений, мы предлагаем выравнивание, ориентированное на фактичность, состоящее из выравнивания, ориентированного на фактичность, и RL, ориентированного на фактичность, через прямую оптимизацию предпочтений. Эксперименты показывают, что наше предложенное выравнивание, ориентированное на фактичность, направляет КЯМ на вывод более фактических ответов, сохраняя при этом способность следовать инструкциям.
Переинтерпретация искусства - это практика создания вариации исходного произведения, создание парного произведения, демонстрирующего отличный художественный стиль. Мы исследуем, можно ли использовать такую пару изображений для настройки генеративной модели на улавливание показанного стилевого различия. Мы предлагаем метод Парной Настройки, новый метод настройки, который изучает стилевое различие на основе одной пары изображений, а затем применяет усвоенный стиль к процессу генерации. В отличие от существующих методов, которые учатся имитировать один концепт из коллекции изображений, наш метод улавливает стилевое различие между парами изображений. Это позволяет нам применять стилевые изменения, не переобучаясь на конкретном содержании изображений в примерах. Для решения этой новой задачи мы используем метод совместной оптимизации, который явно разделяет стиль и содержание на различные пространства весов LoRA. Мы оптимизируем эти веса стиля и содержания для воспроизведения стилевых и содержательных изображений, содействуя их ортогональности. Во время вывода мы модифицируем процесс диффузии с помощью нового стилевого руководства на основе наших изученных весов. Качественные и количественные эксперименты показывают, что наш метод может эффективно изучать стиль, избегая переобучения на содержании изображения, подчеркивая потенциал моделирования таких стилевых различий на основе одной пары изображений.
Развитие аудиоописания (AD) стало ключевым шагом в обеспечении более доступного и инклюзивного видеоконтента. Традиционно производство AD требовало значительного количества квалифицированного труда, в то время как существующие автоматизированные подходы все еще требуют обширного обучения для интеграции мультимодальных входов и преобразования вывода из стиля подписей в стиль AD. В данной статье мы представляем автоматизированный конвейер генерации AD, который использует мощные мультимодальные и инструкционно-следящие возможности GPT-4V(ision). Значительно, наш метод использует легкодоступные компоненты, исключая необходимость дополнительного обучения. Он создает AD, которые не только соответствуют установленным стандартам производства AD на естественном языке, но также поддерживают контекстуально согласованную информацию о персонажах через кадры благодаря модулю распознавания персонажей на основе трекинга. Тщательный анализ на наборе данных MAD показывает, что наш подход достигает производительности на уровне методов, основанных на обучении, в автоматизированном производстве AD, подтвержденной показателем CIDEr в 20.5.