Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация изображений по тексту является важным направлением в современной компьютерной графике и достигла значительных улучшений благодаря эволюции генеративных архитектур. Среди них выделяются модели на основе диффузии, которые продемонстрировали существенное повышение качества. Эти модели обычно делятся на два подхода: на уровне пикселей и на уровне латентных представлений. Мы представляем Kandinsky1 — новое исследование архитектуры латентной диффузии, объединяющее принципы моделей априорного изображения с техниками латентной диффузии. Модель априорного изображения обучается отдельно для отображения текстовых эмбеддингов в эмбеддинги изображений CLIP. Еще одной отличительной особенностью предложенной модели является модифицированная реализация MoVQ, которая выступает в качестве компонента автоэнкодера изображений. В целом, разработанная модель содержит 3,3 миллиарда параметров. Мы также развернули удобную демонстрационную систему, поддерживающую различные генеративные режимы, такие как генерация изображений по тексту, слияние изображений, слияние текста и изображений, генерация вариаций изображений, а также текстово-управляемое восстановление/дополнение изображений. Кроме того, мы опубликовали исходный код и контрольные точки для моделей Kandinsky. Экспериментальные оценки демонстрируют показатель FID, равный 8,03 на наборе данных COCO-30K, что делает нашу модель лучшей среди открытых решений с точки зрения измеримого качества генерации изображений.
Крупные мультимодальные модели (LMM) недавно продемонстрировали обнадеживающий прогресс благодаря настройке с визуальными инструкциями. В данной заметке мы показываем, что полностью связанный кросс-модальный коннектор между визуальными и языковыми данными в LLaVA оказывается удивительно мощным и эффективным по данным. С помощью простых модификаций LLaVA, а именно использования CLIP-ViT-L-336px с MLP-проекцией и добавления данных VQA, ориентированных на академические задачи, с простыми подсказками для форматирования ответов, мы устанавливаем более сильные базовые линии, которые достигают наилучших результатов на 11 бенчмарках. Наша финальная модель с 13B параметров использует всего 1.2M общедоступных данных и завершает полное обучение примерно за 1 день на одном узле с 8 GPU A100. Мы надеемся, что это сделает исследования в области передовых LMM более доступными. Код и модель будут общедоступны.
Недавно выпущенный GPT-4 Code Interpreter продемонстрировал впечатляющую способность решать сложные математические задачи, что в первую очередь связано с его возможностью бесшовно рассуждать на естественном языке, генерировать код, выполнять его и продолжать рассуждения на основе результатов выполнения. В данной статье мы представляем метод тонкой настройки открытых языковых моделей, позволяющий им использовать код для моделирования и вывода математических уравнений, что, в свою очередь, улучшает их способности к математическим рассуждениям. Мы предлагаем метод создания новых и высококачественных наборов данных с математическими задачами и их решениями на основе кода, называемый MathCodeInstruct. Каждое решение чередует естественный язык, код и результаты выполнения. Мы также представляем специализированный подход к обучению с учителем и выводу. Этот подход приводит к созданию моделей MathCoder — семейства моделей, способных генерировать решения на основе кода для решения сложных математических задач. Впечатляюще, что модели MathCoder достигают наивысших результатов среди открытых языковых моделей на наборах данных MATH (45.2%) и GSM8K (83.9%), значительно превосходя другие открытые альтернативы. Примечательно, что модель MathCoder не только превосходит ChatGPT-3.5 и PaLM-2 на GSM8K и MATH, но также опережает GPT-4 на соревновательном наборе данных MATH. Набор данных и модели будут опубликованы по адресу https://github.com/mathllm/MathCoder.
Модели диффузии для генерации изображений по тексту недавно вышли на передний план в области создания изображений, благодаря использованию очень крупномасштабных наборов данных для обучения без учителя или с слабым контролем. Из-за их обучения без учителя управление их поведением в последующих задачах, таких как максимизация воспринимаемого человеком качества изображения, соответствия изображения и текста или этичной генерации изображений, является сложной задачей. Недавние работы адаптируют модели диффузии к целевым функциям с использованием классического обучения с подкреплением, известного высокой дисперсией оценок градиента. В данной статье мы предлагаем AlignProp — метод, который выравнивает модели диффузии по целевым функциям с помощью сквозного обратного распространения градиента награды через процесс удаления шума. Хотя наивная реализация такого обратного распространения потребовала бы непомерных ресурсов памяти для хранения частных производных современных моделей генерации изображений по тексту, AlignProp адаптирует низкоранговые модули весов и использует контрольные точки градиента, чтобы сделать использование памяти приемлемым. Мы тестируем AlignProp в адаптации моделей диффузии к различным целям, таким как семантическое соответствие изображения и текста, эстетика, сжимаемость и управляемость количества объектов, а также их комбинации. Мы показываем, что AlignProp достигает более высоких значений награды за меньшее количество шагов обучения по сравнению с альтернативами, оставаясь концептуально более простым, что делает его прямым выбором для оптимизации моделей диффузии по дифференцируемым целевым функциям. Код и визуализация результатов доступны по адресу https://align-prop.github.io/.
Языковые модели (LMs) продемонстрировали способность справляться с разнообразными генеративными задачами. В данной статье представлена система UniAudio, которая, в отличие от предыдущих подходов, ориентированных на конкретные задачи, использует методы LMs для генерации различных типов аудио (включая речь, звуки, музыку и пение) на основе заданных входных условий. UniAudio 1) сначала токенизирует все типы целевого аудио вместе с другими модальностями условий, 2) объединяет пару источник-цель в единую последовательность и 3) выполняет предсказание следующего токена с использованием LMs. Также предложена многоуровневая модель Transformer для обработки чрезмерно длинных последовательностей, вызванных нейронным кодеком на основе остаточной векторной квантизации при токенизации. Обучение UniAudio масштабировано до 165 тысяч часов аудио и 1 миллиарда параметров, охватывая все генеративные задачи, с целью получения достаточных априорных знаний не только о внутренних свойствах аудио, но и о взаимосвязях между аудио и другими модальностями. Таким образом, обученная модель UniAudio имеет потенциал стать базовой моделью для универсальной генерации аудио: она демонстрирует высокую производительность во всех обученных задачах и может легко поддерживать новые задачи генерации аудио после простой дообучения. Эксперименты показывают, что UniAudio достигает наилучших или, по крайней мере, конкурентоспособных результатов в большинстве из 11 задач. Демо и код доступны по адресу https://github.com/yangdongchao/UniAudio.
Большинство крупных языковых моделей (LLM) обучаются один раз и никогда не обновляются, что лишает их способности динамически адаптироваться к постоянно меняющемуся миру. В данной работе мы проводим детальное исследование фактической точности текста, генерируемого LLM, в контексте ответов на вопросы, проверяющие актуальные знания о мире. В частности, мы представляем FreshQA — новый динамический бенчмарк для вопросов и ответов, охватывающий разнообразные типы вопросов и ответов, включая вопросы, требующие знаний о быстро меняющихся событиях, а также вопросы с ложными предпосылками, которые необходимо опровергнуть. Мы тестируем широкий спектр как закрытых, так и открытых LLM с использованием двухэтапной процедуры оценки, которая позволяет измерять как правильность, так и склонность к галлюцинациям. На основе человеческой оценки, включающей более 50 тысяч суждений, мы выявляем ограничения этих моделей и демонстрируем значительный потенциал для улучшения: например, все модели (независимо от их размера) испытывают трудности с вопросами, связанными с быстро меняющимися знаниями и ложными предпосылками. Вдохновленные этими результатами, мы представляем FreshPrompt — простой метод немногих примеров (few-shot prompting), который значительно повышает производительность LLM на FreshQA за счет включения актуальной информации, извлеченной из поисковой системы, в промпт. Наши эксперименты показывают, что FreshPrompt превосходит как конкурирующие методы, такие как Self-Ask (Press et al., 2022), так и коммерческие системы, такие как Perplexity.AI. Дополнительный анализ FreshPrompt показывает, что как количество извлеченных доказательств, так и их порядок играют ключевую роль в влиянии на правильность ответов, генерируемых LLM. Кроме того, указание модели генерировать краткие и прямые ответы помогает снизить склонность к галлюцинациям по сравнению с поощрением более пространных ответов. Для содействия будущим исследованиям мы публикуем FreshQA на github.com/freshllms/freshqa и обязуемся регулярно обновлять его.
Современные генеративные модели, работающие с визуальными и текстовыми данными, требуют обширных корпусов парных изображений и текстов для достижения оптимальной производительности и способности к обобщению. Однако автоматический сбор таких данных (например, с помощью крупномасштабного веб-скрапинга) приводит к низкому качеству и слабой корреляции между изображениями и текстами, в то время как ручная аннотация более точна, но требует значительных усилий и затрат. Мы представляем ITIT (InTegrating Image Text): инновационную парадигму обучения, основанную на концепции цикличной согласованности, которая позволяет обучать модели на непарных изображениях и текстах. ITIT состоит из совместного кодировщика изображений и текстов с раздельными декодерами, которые обеспечивают двунаправленную генерацию изображений из текстов и текстов из изображений в единой структуре. Во время обучения ITIT использует небольшой набор парных изображений и текстов, чтобы гарантировать, что выходные данные достаточно хорошо соответствуют входным в обоих направлениях. Одновременно модель обучается на значительно больших наборах данных, содержащих только изображения или тексты. Это достигается за счет обеспечения цикличной согласованности между исходными непарными образцами и их сгенерированными аналогами. Например, модель генерирует описание для заданного изображения, а затем использует это описание для создания выходного изображения, обеспечивая сходство между входным и выходным изображениями. Наши эксперименты показывают, что ITIT с непарными наборами данных демонстрирует схожее масштабирование, как и при использовании высококачественных парных данных. Мы демонстрируем, что производительность генерации изображений и создания описаний сопоставима с современными моделями для генерации изображений из текстов и текстов из изображений, используя на порядки меньше (всего 3 миллиона) парных изображений и текстов.
Значительные успехи были достигнуты с использованием обучения с подкреплением на основе человеческой обратной связи (RLHF) для согласования крупных языковых моделей. Открытые наборы данных предпочтений и модели вознаграждения позволили расширить эксперименты за пределы общих чат-сценариев, особенно для повышения "полезности" систем в таких задачах, как веб-поиск ответов, суммаризация и многоходовые диалоги. При оптимизации на полезность RLHF неизменно приводит к тому, что модели генерируют более длинные ответы. В данной работе демонстрируется, что оптимизация на длину ответа является значимым фактором, лежащим в основе улучшений, достигаемых с помощью RLHF в этих сценариях. Сначала мы исследуем взаимосвязь между вознаграждением и длиной для моделей вознаграждения, обученных на трех открытых наборах данных предпочтений для полезности. Здесь длина сильно коррелирует с вознаграждением, а улучшения в оценке вознаграждения в значительной степени обусловлены смещением распределения длин выходных данных. Затем мы исследуем вмешательства как в процессе обучения с подкреплением, так и в процессе обучения модели вознаграждения, чтобы выяснить, можно ли достичь тех же улучшений, что и с RLHF, без увеличения длины. Хотя наши вмешательства смягчают увеличение длины, они не одинаково эффективны во всех сценариях. Более того, мы обнаруживаем, что даже запуск RLHF с вознаграждением, основанным исключительно на длине, может воспроизвести большую часть улучшений по сравнению с исходной моделью политики, что показывает, что модели вознаграждения в этих сценариях еще далеки от совершенства.
Выполнение задач в интернете представляет фундаментальные вызовы для больших языковых моделей (LLM), включая комбинаторно сложные задачи в открытом мире и вариации веб-интерфейсов. Простое задание большого промпта для обработки всех возможных поведений и состояний является крайне сложным и приводит к утечкам поведения между несвязанными действиями. Разделение на отдельные политики может решить эту проблему, но требует тщательной передачи управления между ними. Мы предлагаем подход Stacked LLM Policies for Web Actions (SteP), который динамически комбинирует политики для решения разнообразных веб-задач. SteP определяет Марковский процесс принятия решений, где состояние представляет собой стек политик, отражающих состояние управления, то есть цепочку вызовов политик. В отличие от традиционных методов, ограниченных статическими иерархиями, SteP обеспечивает динамическое управление, адаптирующееся к сложности задачи. Мы оцениваем SteP на нескольких базовых уровнях и веб-средах, включая WebArena, MiniWoB++ и CRM. На WebArena SteP показывает улучшение (от 14,9\% до 33,5\%) по сравнению с современными методами, использующими политики GPT-4, а на MiniWob++ демонстрирует конкурентоспособность с предыдущими работами при значительно меньшем объеме данных. Наш код и данные доступны по адресу https://asappresearch.github.io/webagents-step.
Мы представляем DragView — новый интерактивный фреймворк для генерации новых видов ранее невидимых сцен. DragView инициализирует новый вид на основе одного исходного изображения, а рендеринг поддерживается разреженным набором неориентированных многовидовых изображений, все это выполняется в рамках одного прямого прохода. Наш подход начинается с того, что пользователи перемещают исходный вид через локальную относительную систему координат. Пиксельно-выровненные признаки получаются путем проекции выборки 3D-точек вдоль целевого луча на исходный вид. Затем мы включаем слой модуляции, зависящий от вида, чтобы эффективно обрабатывать окклюзии во время проекции. Кроме того, мы расширяем механизм эпиполярного внимания, чтобы охватить все исходные пиксели, что облегчает агрегацию инициализированных признаков точек, выровненных по координатам, из других неориентированных видов. Наконец, мы используем еще один трансформер для декодирования признаков лучей в финальные интенсивности пикселей. Важно отметить, что наш фреймворк не полагается ни на 2D-приоритетные модели, ни на явное оценивание поз камер. В ходе тестирования DragView демонстрирует способность обобщать новые сцены, не встречавшиеся во время обучения, а также использует только неориентированные вспомогательные изображения, что позволяет генерировать фотореалистичные новые виды с гибкими траекториями камер. В наших экспериментах мы проводим всестороннее сравнение производительности DragView с недавними сетями представления сцен, работающими в условиях отсутствия поз, а также с обобщаемыми NeRF, подверженными шумным тестовым позам камер. DragView неизменно демонстрирует превосходное качество синтеза видов, а также оказывается более удобным для пользователя. Страница проекта: https://zhiwenfan.github.io/DragView/.