Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

Kandinsky: усовершенствованный синтез изображений из текста с использованием априорной информации об изображении и латентной диффузии
Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and Latent Diffusion

Oct 5, 2023

Anton Razzhigaev, Arseniy Shakhmatov, Anastasia Maltseva, Vladimir Arkhipkin, Igor Pavlov, Ilya Ryabov, Angelina Kuts, Alexander Panchenko, Andrey Kuznetsov, Denis Dimitrov

795

Генерация изображений по тексту является важным направлением в современной компьютерной графике и достигла значительных улучшений благодаря эволюции генеративных архитектур. Среди них выделяются модели на основе диффузии, которые продемонстрировали существенное повышение качества. Эти модели обычно делятся на два подхода: на уровне пикселей и на уровне латентных представлений. Мы представляем Kandinsky1 — новое исследование архитектуры латентной диффузии, объединяющее принципы моделей априорного изображения с техниками латентной диффузии. Модель априорного изображения обучается отдельно для отображения текстовых эмбеддингов в эмбеддинги изображений CLIP. Еще одной отличительной особенностью предложенной модели является модифицированная реализация MoVQ, которая выступает в качестве компонента автоэнкодера изображений. В целом, разработанная модель содержит 3,3 миллиарда параметров. Мы также развернули удобную демонстрационную систему, поддерживающую различные генеративные режимы, такие как генерация изображений по тексту, слияние изображений, слияние текста и изображений, генерация вариаций изображений, а также текстово-управляемое восстановление/дополнение изображений. Кроме того, мы опубликовали исходный код и контрольные точки для моделей Kandinsky. Экспериментальные оценки демонстрируют показатель FID, равный 8,03 на наборе данных COCO-30K, что делает нашу модель лучшей среди открытых решений с точки зрения измеримого качества генерации изображений.

Улучшенные базовые модели с визуальной настройкой инструкций
Improved Baselines with Visual Instruction Tuning

Oct 5, 2023

Haotian Liu, Chunyuan Li, Yuheng Li, Yong Jae Lee

388

Крупные мультимодальные модели (LMM) недавно продемонстрировали обнадеживающий прогресс благодаря настройке с визуальными инструкциями. В данной заметке мы показываем, что полностью связанный кросс-модальный коннектор между визуальными и языковыми данными в LLaVA оказывается удивительно мощным и эффективным по данным. С помощью простых модификаций LLaVA, а именно использования CLIP-ViT-L-336px с MLP-проекцией и добавления данных VQA, ориентированных на академические задачи, с простыми подсказками для форматирования ответов, мы устанавливаем более сильные базовые линии, которые достигают наилучших результатов на 11 бенчмарках. Наша финальная модель с 13B параметров использует всего 1.2M общедоступных данных и завершает полное обучение примерно за 1 день на одном узле с 8 GPU A100. Мы надеемся, что это сделает исследования в области передовых LMM более доступными. Код и модель будут общедоступны.

MathCoder: Бесшовная интеграция кода в языковые модели для улучшения математического мышления
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning

Oct 5, 2023

Ke Wang, Houxing Ren, Aojun Zhou, Zimu Lu, Sichun Luo, Weikang Shi, Renrui Zhang, Linqi Song, Mingjie Zhan, Hongsheng Li

294

Недавно выпущенный GPT-4 Code Interpreter продемонстрировал впечатляющую способность решать сложные математические задачи, что в первую очередь связано с его возможностью бесшовно рассуждать на естественном языке, генерировать код, выполнять его и продолжать рассуждения на основе результатов выполнения. В данной статье мы представляем метод тонкой настройки открытых языковых моделей, позволяющий им использовать код для моделирования и вывода математических уравнений, что, в свою очередь, улучшает их способности к математическим рассуждениям. Мы предлагаем метод создания новых и высококачественных наборов данных с математическими задачами и их решениями на основе кода, называемый MathCodeInstruct. Каждое решение чередует естественный язык, код и результаты выполнения. Мы также представляем специализированный подход к обучению с учителем и выводу. Этот подход приводит к созданию моделей MathCoder — семейства моделей, способных генерировать решения на основе кода для решения сложных математических задач. Впечатляюще, что модели MathCoder достигают наивысших результатов среди открытых языковых моделей на наборах данных MATH (45.2%) и GSM8K (83.9%), значительно превосходя другие открытые альтернативы. Примечательно, что модель MathCoder не только превосходит ChatGPT-3.5 и PaLM-2 на GSM8K и MATH, но также опережает GPT-4 на соревновательном наборе данных MATH. Набор данных и модели будут опубликованы по адресу https://github.com/mathllm/MathCoder.

Согласование моделей диффузии текст-изображение с обратным распространением вознаграждения
Aligning Text-to-Image Diffusion Models with Reward Backpropagation

Oct 5, 2023

Mihir Prabhudesai, Anirudh Goyal, Deepak Pathak, Katerina Fragkiadaki

224

Модели диффузии для генерации изображений по тексту недавно вышли на передний план в области создания изображений, благодаря использованию очень крупномасштабных наборов данных для обучения без учителя или с слабым контролем. Из-за их обучения без учителя управление их поведением в последующих задачах, таких как максимизация воспринимаемого человеком качества изображения, соответствия изображения и текста или этичной генерации изображений, является сложной задачей. Недавние работы адаптируют модели диффузии к целевым функциям с использованием классического обучения с подкреплением, известного высокой дисперсией оценок градиента. В данной статье мы предлагаем AlignProp — метод, который выравнивает модели диффузии по целевым функциям с помощью сквозного обратного распространения градиента награды через процесс удаления шума. Хотя наивная реализация такого обратного распространения потребовала бы непомерных ресурсов памяти для хранения частных производных современных моделей генерации изображений по тексту, AlignProp адаптирует низкоранговые модули весов и использует контрольные точки градиента, чтобы сделать использование памяти приемлемым. Мы тестируем AlignProp в адаптации моделей диффузии к различным целям, таким как семантическое соответствие изображения и текста, эстетика, сжимаемость и управляемость количества объектов, а также их комбинации. Мы показываем, что AlignProp достигает более высоких значений награды за меньшее количество шагов обучения по сравнению с альтернативами, оставаясь концептуально более простым, что делает его прямым выбором для оптимизации моделей диффузии по дифференцируемым целевым функциям. Код и визуализация результатов доступны по адресу https://align-prop.github.io/.

UniAudio: Универсальная модель для генерации аудио, направленная на создание универсальных аудиосистем
UniAudio: An Audio Foundation Model Toward Universal Audio Generation

Oct 1, 2023

Dongchao Yang, Jinchuan Tian, Xu Tan, Rongjie Huang, Songxiang Liu, Xuankai Chang, Jiatong Shi, Sheng Zhao, Jiang Bian, Xixin Wu, Zhou Zhao, Helen Meng

211

Языковые модели (LMs) продемонстрировали способность справляться с разнообразными генеративными задачами. В данной статье представлена система UniAudio, которая, в отличие от предыдущих подходов, ориентированных на конкретные задачи, использует методы LMs для генерации различных типов аудио (включая речь, звуки, музыку и пение) на основе заданных входных условий. UniAudio 1) сначала токенизирует все типы целевого аудио вместе с другими модальностями условий, 2) объединяет пару источник-цель в единую последовательность и 3) выполняет предсказание следующего токена с использованием LMs. Также предложена многоуровневая модель Transformer для обработки чрезмерно длинных последовательностей, вызванных нейронным кодеком на основе остаточной векторной квантизации при токенизации. Обучение UniAudio масштабировано до 165 тысяч часов аудио и 1 миллиарда параметров, охватывая все генеративные задачи, с целью получения достаточных априорных знаний не только о внутренних свойствах аудио, но и о взаимосвязях между аудио и другими модальностями. Таким образом, обученная модель UniAudio имеет потенциал стать базовой моделью для универсальной генерации аудио: она демонстрирует высокую производительность во всех обученных задачах и может легко поддерживать новые задачи генерации аудио после простой дообучения. Эксперименты показывают, что UniAudio достигает наилучших или, по крайней мере, конкурентоспособных результатов в большинстве из 11 задач. Демо и код доступны по адресу https://github.com/yangdongchao/UniAudio.

FreshLLMs: Обновление больших языковых моделей с помощью расширения поисковыми системами
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Oct 5, 2023

Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong

201

Большинство крупных языковых моделей (LLM) обучаются один раз и никогда не обновляются, что лишает их способности динамически адаптироваться к постоянно меняющемуся миру. В данной работе мы проводим детальное исследование фактической точности текста, генерируемого LLM, в контексте ответов на вопросы, проверяющие актуальные знания о мире. В частности, мы представляем FreshQA — новый динамический бенчмарк для вопросов и ответов, охватывающий разнообразные типы вопросов и ответов, включая вопросы, требующие знаний о быстро меняющихся событиях, а также вопросы с ложными предпосылками, которые необходимо опровергнуть. Мы тестируем широкий спектр как закрытых, так и открытых LLM с использованием двухэтапной процедуры оценки, которая позволяет измерять как правильность, так и склонность к галлюцинациям. На основе человеческой оценки, включающей более 50 тысяч суждений, мы выявляем ограничения этих моделей и демонстрируем значительный потенциал для улучшения: например, все модели (независимо от их размера) испытывают трудности с вопросами, связанными с быстро меняющимися знаниями и ложными предпосылками. Вдохновленные этими результатами, мы представляем FreshPrompt — простой метод немногих примеров (few-shot prompting), который значительно повышает производительность LLM на FreshQA за счет включения актуальной информации, извлеченной из поисковой системы, в промпт. Наши эксперименты показывают, что FreshPrompt превосходит как конкурирующие методы, такие как Self-Ask (Press et al., 2022), так и коммерческие системы, такие как Perplexity.AI. Дополнительный анализ FreshPrompt показывает, что как количество извлеченных доказательств, так и их порядок играют ключевую роль в влиянии на правильность ответов, генерируемых LLM. Кроме того, указание модели генерировать краткие и прямые ответы помогает снизить склонность к галлюцинациям по сравнению с поощрением более пространных ответов. Для содействия будущим исследованиям мы публикуем FreshQA на github.com/freshllms/freshqa и обязуемся регулярно обновлять его.

Использование несопоставленных данных для генеративных моделей "визуальный язык" с помощью цикличной согласованности
Leveraging Unpaired Data for Vision-Language Generative Models via Cycle Consistency

Oct 5, 2023

Tianhong Li, Sangnie Bhardwaj, Yonglong Tian, Han Zhang, Jarred Barber, Dina Katabi, Guillaume Lajoie, Huiwen Chang, Dilip Krishnan

151

Современные генеративные модели, работающие с визуальными и текстовыми данными, требуют обширных корпусов парных изображений и текстов для достижения оптимальной производительности и способности к обобщению. Однако автоматический сбор таких данных (например, с помощью крупномасштабного веб-скрапинга) приводит к низкому качеству и слабой корреляции между изображениями и текстами, в то время как ручная аннотация более точна, но требует значительных усилий и затрат. Мы представляем ITIT (InTegrating Image Text): инновационную парадигму обучения, основанную на концепции цикличной согласованности, которая позволяет обучать модели на непарных изображениях и текстах. ITIT состоит из совместного кодировщика изображений и текстов с раздельными декодерами, которые обеспечивают двунаправленную генерацию изображений из текстов и текстов из изображений в единой структуре. Во время обучения ITIT использует небольшой набор парных изображений и текстов, чтобы гарантировать, что выходные данные достаточно хорошо соответствуют входным в обоих направлениях. Одновременно модель обучается на значительно больших наборах данных, содержащих только изображения или тексты. Это достигается за счет обеспечения цикличной согласованности между исходными непарными образцами и их сгенерированными аналогами. Например, модель генерирует описание для заданного изображения, а затем использует это описание для создания выходного изображения, обеспечивая сходство между входным и выходным изображениями. Наши эксперименты показывают, что ITIT с непарными наборами данных демонстрирует схожее масштабирование, как и при использовании высококачественных парных данных. Мы демонстрируем, что производительность генерации изображений и создания описаний сопоставима с современными моделями для генерации изображений из текстов и текстов из изображений, используя на порядки меньше (всего 3 миллиона) парных изображений и текстов.

Долгий путь: Исследование корреляций длины в RLHF
A Long Way to Go: Investigating Length Correlations in RLHF

Oct 5, 2023

Prasann Singhal, Tanya Goyal, Jiacheng Xu, Greg Durrett

101

Значительные успехи были достигнуты с использованием обучения с подкреплением на основе человеческой обратной связи (RLHF) для согласования крупных языковых моделей. Открытые наборы данных предпочтений и модели вознаграждения позволили расширить эксперименты за пределы общих чат-сценариев, особенно для повышения "полезности" систем в таких задачах, как веб-поиск ответов, суммаризация и многоходовые диалоги. При оптимизации на полезность RLHF неизменно приводит к тому, что модели генерируют более длинные ответы. В данной работе демонстрируется, что оптимизация на длину ответа является значимым фактором, лежащим в основе улучшений, достигаемых с помощью RLHF в этих сценариях. Сначала мы исследуем взаимосвязь между вознаграждением и длиной для моделей вознаграждения, обученных на трех открытых наборах данных предпочтений для полезности. Здесь длина сильно коррелирует с вознаграждением, а улучшения в оценке вознаграждения в значительной степени обусловлены смещением распределения длин выходных данных. Затем мы исследуем вмешательства как в процессе обучения с подкреплением, так и в процессе обучения модели вознаграждения, чтобы выяснить, можно ли достичь тех же улучшений, что и с RLHF, без увеличения длины. Хотя наши вмешательства смягчают увеличение длины, они не одинаково эффективны во всех сценариях. Более того, мы обнаруживаем, что даже запуск RLHF с вознаграждением, основанным исключительно на длине, может воспроизвести большую часть улучшений по сравнению с исходной моделью политики, что показывает, что модели вознаграждения в этих сценариях еще далеки от совершенства.

SteP: Многоуровневые политики LLM для веб-действий
SteP: Stacked LLM Policies for Web Actions

Oct 5, 2023

Paloma Sodhi, S. R. K. Branavan, Ryan McDonald

Выполнение задач в интернете представляет фундаментальные вызовы для больших языковых моделей (LLM), включая комбинаторно сложные задачи в открытом мире и вариации веб-интерфейсов. Простое задание большого промпта для обработки всех возможных поведений и состояний является крайне сложным и приводит к утечкам поведения между несвязанными действиями. Разделение на отдельные политики может решить эту проблему, но требует тщательной передачи управления между ними. Мы предлагаем подход Stacked LLM Policies for Web Actions (SteP), который динамически комбинирует политики для решения разнообразных веб-задач. SteP определяет Марковский процесс принятия решений, где состояние представляет собой стек политик, отражающих состояние управления, то есть цепочку вызовов политик. В отличие от традиционных методов, ограниченных статическими иерархиями, SteP обеспечивает динамическое управление, адаптирующееся к сложности задачи. Мы оцениваем SteP на нескольких базовых уровнях и веб-средах, включая WebArena, MiniWoB++ и CRM. На WebArena SteP показывает улучшение (от 14,9\% до 33,5\%) по сравнению с современными методами, использующими политики GPT-4, а на MiniWob++ демонстрирует конкурентоспособность с предыдущими работами при значительно меньшем объеме данных. Наш код и данные доступны по адресу https://asappresearch.github.io/webagents-step.

Drag View: Обобщаемый синтез новых видов на основе непоставленных изображений
Drag View: Generalizable Novel View Synthesis with Unposed Imagery

Oct 5, 2023

Zhiwen Fan, Panwang Pan, Peihao Wang, Yifan Jiang, Hanwen Jiang, Dejia Xu, Zehao Zhu, Dilin Wang, Zhangyang Wang

Мы представляем DragView — новый интерактивный фреймворк для генерации новых видов ранее невидимых сцен. DragView инициализирует новый вид на основе одного исходного изображения, а рендеринг поддерживается разреженным набором неориентированных многовидовых изображений, все это выполняется в рамках одного прямого прохода. Наш подход начинается с того, что пользователи перемещают исходный вид через локальную относительную систему координат. Пиксельно-выровненные признаки получаются путем проекции выборки 3D-точек вдоль целевого луча на исходный вид. Затем мы включаем слой модуляции, зависящий от вида, чтобы эффективно обрабатывать окклюзии во время проекции. Кроме того, мы расширяем механизм эпиполярного внимания, чтобы охватить все исходные пиксели, что облегчает агрегацию инициализированных признаков точек, выровненных по координатам, из других неориентированных видов. Наконец, мы используем еще один трансформер для декодирования признаков лучей в финальные интенсивности пикселей. Важно отметить, что наш фреймворк не полагается ни на 2D-приоритетные модели, ни на явное оценивание поз камер. В ходе тестирования DragView демонстрирует способность обобщать новые сцены, не встречавшиеся во время обучения, а также использует только неориентированные вспомогательные изображения, что позволяет генерировать фотореалистичные новые виды с гибкими траекториями камер. В наших экспериментах мы проводим всестороннее сравнение производительности DragView с недавними сетями представления сцен, работающими в условиях отсутствия поз, а также с обобщаемыми NeRF, подверженными шумным тестовым позам камер. DragView неизменно демонстрирует превосходное качество синтеза видов, а также оказывается более удобным для пользователя. Страница проекта: https://zhiwenfan.github.io/DragView/.

FreshLLMs: Обновление больших языковых моделей с помощью расширения поисковыми системами
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Oct 5, 2023

Tu Vu, Mohit Iyyer, Xuezhi Wang, Noah Constant, Jerry Wei, Jason Wei, Chris Tar, Yun-Hsuan Sung, Denny Zhou, Quoc Le, Thang Luong

201

Ежедневные статьи

Улучшенные базовые модели с визуальной настройкой инструкций
Improved Baselines with Visual Instruction Tuning

MathCoder: Бесшовная интеграция кода в языковые модели для улучшения математического мышления
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning

Согласование моделей диффузии текст-изображение с обратным распространением вознаграждения
Aligning Text-to-Image Diffusion Models with Reward Backpropagation

UniAudio: Универсальная модель для генерации аудио, направленная на создание универсальных аудиосистем
UniAudio: An Audio Foundation Model Toward Universal Audio Generation

FreshLLMs: Обновление больших языковых моделей с помощью расширения поисковыми системами
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Долгий путь: Исследование корреляций длины в RLHF
A Long Way to Go: Investigating Length Correlations in RLHF

SteP: Многоуровневые политики LLM для веб-действий
SteP: Stacked LLM Policies for Web Actions

Drag View: Обобщаемый синтез новых видов на основе непоставленных изображений
Drag View: Generalizable Novel View Synthesis with Unposed Imagery

Support

Support

Ежедневные статьи

Улучшенные базовые модели с визуальной настройкой инструкций
Improved Baselines with Visual Instruction Tuning

MathCoder: Бесшовная интеграция кода в языковые модели для улучшения математического мышления
MathCoder: Seamless Code Integration in LLMs for Enhanced Mathematical Reasoning

Согласование моделей диффузии текст-изображение с обратным распространением вознаграждения
Aligning Text-to-Image Diffusion Models with Reward Backpropagation

UniAudio: Универсальная модель для генерации аудио, направленная на создание универсальных аудиосистем
UniAudio: An Audio Foundation Model Toward Universal Audio Generation

FreshLLMs: Обновление больших языковых моделей с помощью расширения поисковыми системами
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Долгий путь: Исследование корреляций длины в RLHF
A Long Way to Go: Investigating Length Correlations in RLHF

SteP: Многоуровневые политики LLM для веб-действий
SteP: Stacked LLM Policies for Web Actions

Drag View: Обобщаемый синтез новых видов на основе непоставленных изображений
Drag View: Generalizable Novel View Synthesis with Unposed Imagery