Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем LlamaGen - новое семейство моделей генерации изображений, которые применяют оригинальную парадигму "предсказания следующего токена" крупных языковых моделей в области визуальной генерации. Это утвердительный ответ на вопрос о том, могут ли авторегрессивные модели, например, Llama, без индуктивных предвзятостей к визуальным сигналам достичь передовой производительности генерации изображений при правильном масштабировании. Мы пересматриваем пространства проектирования токенизаторов изображений, свойства масштабируемости моделей генерации изображений и качество обучающих данных. Результатом этого исследования являются: (1) Токенизатор изображений с коэффициентом понижения разрешения 16, качеством восстановления 0.94 rFID и использованием кодовой книги на уровне 97% на базе данных ImageNet. (2) Серия классовых моделей генерации изображений с числом параметров от 111 млн до 3.1 млрд, достигающих значения 2.18 FID на базе данных ImageNet 256x256, превосходя популярные модели диффузии, такие как LDM, DiT. (3) Модель генерации изображений с условием текста с 775 млн параметров, обученная в два этапа на LAION-COCO и изображениях высокого качества эстетики, демонстрирующая конкурентоспособную производительность по качеству изображения и выравниванию текста. (4) Мы проверяем эффективность фреймворков обслуживания LLM в оптимизации скорости вывода моделей генерации изображений и достигаем ускорения от 326% до 414%. Мы предоставляем все модели и коды для облегчения работы сообщества с открытым исходным кодом в области визуальной генерации и мультимодальных базовых моделей.
Языковые агенты выполняют сложные задачи, используя инструменты для точного выполнения каждого шага. Однако большинство существующих агентов основаны на собственных моделях или разработаны для выполнения конкретных задач, таких как математика или многошаговые вопросно-ответные системы. Мы представляем Husky, целостного, открытого языкового агента, который учится рассуждать в рамках объединенного пространства действий для решения разнообразных сложных задач, включающих числовое, табличное и знаниевое рассуждение. Husky итерирует между двумя этапами: 1) генерация следующего действия для решения данной задачи и 2) выполнение действия с использованием экспертных моделей и обновление текущего состояния решения. Мы выделяем тщательную онтологию действий для решения сложных задач и курируем высококачественные данные для обучения экспертных моделей для выполнения этих действий. Наши эксперименты показывают, что Husky превосходит предыдущие языковые агенты на 14 наборах оценочных данных. Более того, мы представляем HuskyQA, новый набор оценки, который тестирует языковые агенты на смешанном рассуждении с использованием различных инструментов, с акцентом на поиск недостающих знаний и выполнение числового рассуждения. Несмотря на использование моделей 7B, Husky соответствует или даже превосходит передовые языковые модели, такие как GPT-4, на этих задачах, демонстрируя эффективность нашего целостного подхода к решению сложных проблем рассуждения. Наш код и модели доступны по адресу https://github.com/agent-husky/Husky-v1.
Продвижения в мультимодальном обучении, особенно в понимании и генерации видео, требуют высококачественных видео-текстовых наборов данных для улучшения производительности моделей. Vript решает эту проблему с тщательно аннотированным корпусом из 12 тыс. видеороликов высокого разрешения, предлагая подробные, плотные и сценарийные подписи для более чем 420 тыс. клипов. Каждый клип имеет подпись примерно в 145 слов, что в более чем 10 раз длиннее, чем у большинства видео-текстовых наборов данных. В отличие от подписей, документирующих только статический контент в предыдущих наборах данных, мы улучшаем подписывание видео, превращая его в видеосценарий, документируя не только содержание, но и операции камеры, включая типы кадров (средний план, крупный план и т. д.) и движения камеры (панорамирование, наклон и т. д.). Используя Vript, мы исследуем три парадигмы обучения, выравнивающие больше текста с видео-модальностью, чем пары клип-подпись. Это приводит к Vriptor, модели подписывания видео с лучшей производительностью среди моделей с открытым исходным кодом, сравнимой с GPT-4V по производительности. Vriptor также является мощной моделью, способной к генерации плотных и подробных подписей для длинных видеороликов от начала и до конца. Более того, мы представляем Vript-Hard, бенчмарк, состоящий из трех задач понимания видео, более сложных, чем существующие бенчмарки: Vript-HAL - первый бенчмарк, оценивающий действия и объектные галлюцинации в видео LLMs, Vript-RR объединяет рассуждения с поиском, разрешая неоднозначность вопросов в длинных видео-вопросах и ответах, а Vript-ERO - новая задача для оценки временного понимания событий в длинных видеороликах, а не действий в коротких видео, как это было в предыдущих работах. Весь код, модели и наборы данных доступны на https://github.com/mutonix/Vript.
В области здравоохранения большинство исследований с использованием крупных языковых моделей (LLM) сосредоточено на клинических задачах. Однако мобильные и носимые устройства, которые редко интегрируются в такие задачи, предоставляют обширные, долговременные данные для мониторинга личного здоровья. Здесь мы представляем Личную Здоровье-ориентированную Большую Языковую Модель (PH-LLM), настроенную на понимание и рассуждение по числовым временным рядам личных данных о здоровье, обученную на основе Gemini. Мы создали и подготовили три набора данных для тестирования: 1) создание персонализированных идей и рекомендаций на основе образцов сна, физической активности и физиологических реакций, 2) экспертные знания в области, и 3) прогнозирование самооцененных результатов сна. Для первой задачи мы разработали 857 кейсовых исследований в сотрудничестве с экспертами в области для оценки реальных сценариев в области сна и фитнеса. Проведя всестороннюю оценку областных рубрик, мы обнаружили, что Gemini Ultra 1.0 и PH-LLM не имеют статистически значимых различий с профессиональным исполнением в области фитнеса, и хотя эксперты остаются превосходящими в области сна, настройка PH-LLM привела к значительным улучшениям в использовании соответствующих областных знаний и персонализации информации для анализа сна. Мы оценили областные знания PH-LLM с использованием экзаменов по сну и фитнесу с выбором из нескольких вариантов ответов. PH-LLM достигла 79% по сну и 88% по фитнесу, превзойдя средние баллы из выборки человеческих экспертов. Наконец, мы обучили PH-LLM предсказывать результаты качества самооценки сна на основе текстового и мультимодального кодирования представлений данных с носимых устройств и продемонстрировали, что мультимодальное кодирование необходимо для достижения производительности специализированных дискриминативных моделей. Хотя дальнейшее развитие и оценка необходимы в области критической безопасности личного здоровья, эти результаты демонстрируют как широкие знания и возможности моделей Gemini, так и пользу контекстуализации физиологических данных для личных здоровье-ориентированных приложений, как это сделано с PH-LLM.
Методы объемного визуализации, такие как NeRF, отличаются в синтезе HDR-изображений из RAW-изображений, особенно для ночных сцен. Однако они страдают от длительного времени обучения и не могут обеспечить реальном времени визуализацию из-за требований к плотной выборке. Появление трехмерного гауссова сплэттинга (3DGS) позволяет реализовать визуализацию в реальном времени и ускорить обучение. Однако непосредственная реализация синтеза изображений RAW с использованием 3DGS представляет сложность из-за его врожденных недостатков: 1) в ночных сценах крайне низкий SNR приводит к плохой оценке структуры движения в дальних видов; 2) ограниченная емкость представления функции сферических гармоник (SH) не подходит для RAW-линейного цветового пространства; и 3) неточная структура сцены затрудняет последующие задачи, такие как переключение фокуса. Для решения этих проблем мы предлагаем LE3D (Lighting Every darkness with 3DGS). Наш метод предлагает Инициализацию конусного рассеивания для обогащения оценки структуры движения и заменяет SH на Color MLP для представления RAW-линейного цветового пространства. Кроме того, мы вводим искажение глубины и регуляризацию близко-дальних плоскостей для улучшения точности структуры сцены для последующих задач. Эти решения позволяют LE3D выполнять синтез нового вида в реальном времени, визуализацию HDR, переключение фокуса и изменения тономаппинга. По сравнению с предыдущими методами на основе объемной визуализации, LE3D сокращает время обучения до 1% и увеличивает скорость визуализации до 4 000 раз для изображений разрешением 2K в терминах FPS. Код и просмотрщик можно найти по ссылке https://github.com/Srameo/LE3D.
Разработка терапевтических препаратов - это длительный и дорогостоящий процесс, требующий удовлетворения множества различных критериев, и модели искусственного интеллекта, способные ускорить этот процесс, были бы бесценны. Однако большинство текущих подходов в области искусственного интеллекта решают лишь узко определенный набор задач, часто ограниченный в рамках конкретной области. Для устранения этого разрыва мы представляем Tx-LLM, обобщенную крупную языковую модель (LLM), донастроенную из PaLM-2, которая кодирует знания о различных терапевтических методах. Tx-LLM обучается с использованием коллекции из 709 наборов данных, охватывающих 66 задач, охватывающих различные этапы процесса открытия лекарств. Используя один набор весов, Tx-LLM одновременно обрабатывает широкий спектр химических или биологических сущностей (малые молекулы, белки, нуклеиновые кислоты, линии клеток, заболевания), чередуя их с свободным текстом, что позволяет ему предсказывать широкий спектр связанных свойств, достигая конкурентоспособной производительности по сравнению с передовыми достижениями (SOTA) в 43 из 66 задач и превосходя SOTA в 22 из них. Среди них Tx-LLM особенно мощен и превосходит лучшие показатели в среднем для задач, объединяющих молекулярные представления SMILES с текстом, такими как названия линий клеток или заболеваний, вероятно, благодаря контексту, изученному во время предварительного обучения. Мы наблюдаем признаки положительного переноса между задачами с различными типами лекарств (например, задачи, связанные с малыми молекулами, и задачи, связанные с белками), и изучаем влияние размера модели, донастройки области и стратегий подсказки на производительность. Мы считаем, что Tx-LLM представляет собой важный шаг к LLM, кодирующим биохимические знания, и может сыграть будущую роль как инструмент от начала и до конца в процессе разработки открытия лекарств.
Этот документ представляет VALL-E 2, последнее достижение в нейронных кодеках языковых моделей, которое является вехой в синтезе речи из текста "нулевого шага", впервые достигнув человеческого уровня. Основываясь на своем предшественнике, VALL-E, новая версия вводит два значительных улучшения: Repetition Aware Sampling улучшает исходный процесс ядерной выборки, учитывая повторение токенов в истории декодирования. Это не только стабилизирует декодирование, но и обходит проблему бесконечного цикла. Моделирование сгруппированных кодов организует коды кодека в группы для эффективного сокращения длины последовательности, что не только увеличивает скорость вывода, но и решает проблемы моделирования длинных последовательностей. Наши эксперименты на наборах данных LibriSpeech и VCTK показывают, что VALL-E 2 превосходит предыдущие системы в устойчивости речи, естественности и сходстве диктора. Это первый в своем роде случай достижения человеческого уровня по этим показателям. Более того, VALL-E 2 последовательно синтезирует речь высокого качества, даже для предложений, которые традиционно сложны из-за своей сложности или повторяющихся фраз. Преимущества этой работы могут способствовать ценным усилиям, таким как создание речи для людей с афазией или боковым амиотрофическим склерозом. Демонстрации VALL-E 2 будут опубликованы на https://aka.ms/valle2.
Современные методы выравнивания на основе предпочтений человека, такие как RLHF и DPO, обычно используют регуляризацию расхождения относительно эталонной модели для обеспечения стабильности обучения. Однако это часто ограничивает гибкость моделей во время выравнивания, особенно когда существует явное расхождение в распределении между данными предпочтений и эталонной моделью. В данной статье мы фокусируемся на выравнивании недавних моделей диффузии текста в изображение, таких как Stable Diffusion XL (SDXL), и обнаруживаем, что "несоответствие эталону" действительно является значительной проблемой при выравнивании этих моделей из-за неструктурированной природы визуальных модальностей: например, предпочтение определенного стилистического аспекта легко может вызвать такое расхождение. Вдохновленные этим наблюдением, мы предлагаем новый и дружественный к памяти метод выравнивания предпочтений для моделей диффузии, не зависящий от какой-либо эталонной модели, названный оптимизацией предпочтений с учетом отступа (MaPO). MaPO одновременно максимизирует вероятностный зазор между предпочтительными и непредпочтительными наборами изображений и вероятность предпочтительных наборов, одновременно обучая общие стилистические особенности и предпочтения. Для оценки мы вводим два новых набора данных парных предпочтений, включающих самостоятельно созданные пары изображений из SDXL, Pick-Style и Pick-Safety, имитируя разнообразные сценарии несоответствия эталону. Наши эксперименты подтверждают, что MaPO может значительно улучшить выравнивание на Pick-Style и Pick-Safety, а также общее выравнивание предпочтений при использовании Pick-a-Pic v2, превосходя базовый SDXL и другие существующие методы. Наш код, модели и наборы данных доступны публично по ссылке https://mapo-t2i.github.io.
Большие языковые модели (LLM) продемонстрировали впечатляющую производительность на языковых задачах, но сталкиваются с вызовами при развертывании на устройствах с ограниченными ресурсами из-за обширных параметров и зависимости от плотных умножений, что приводит к высоким требованиям к памяти и узким местам в задержке. Репараметризация сдвига и сложения предлагает многообещающее решение, заменяя дорогостоящие умножения аппаратно-приятными примитивами как в слоях внимания, так и в многослойном персептроне (MLP) LLM. Однако текущие техники репараметризации требуют обучения с нуля или полного донастройки параметров для восстановления точности, что затратно для LLM. Для решения этой проблемы мы предлагаем ускорение предварительно обученных LLM через послеобучение репараметризацией сдвига и сложения, создавая эффективные модели без умножений, названные ShiftAddLLM. В частности, мы квантизируем каждую матрицу весов в бинарные матрицы в паре с масштабирующими факторами по группам. Связанные умножения репараметризуются в (1) сдвиги между активациями и масштабирующими факторами и (2) запросы и сложения в соответствии с бинарными матрицами. Для уменьшения потери точности мы представляем метод многокритериальной оптимизации для минимизации ошибок репараметризации как весов, так и активаций вывода. Кроме того, на основе различной чувствительности слоев к репараметризации мы разрабатываем стратегию автоматического выделения битов для дальнейшего снижения использования памяти и задержки. Эксперименты на пяти семействах LLM и восьми задачах последовательно подтверждают эффективность ShiftAddLLM, достигая средних улучшений перплексии на 5,6 и 22,7 пунктов при сравнимой или более низкой задержке по сравнению с наиболее конкурентоспособными квантованными LLM на 3 и 2 бита, соответственно, а также более чем 80% сокращения памяти и энергии по сравнению с исходными LLM. Коды и модели доступны по адресу https://github.com/GATECH-EIC/ShiftAddLLM.
Как люди могут эффективно и эффективно получать изображения, всегда было вечным вопросом. Типичным решением является поиск текста по изображению из существующей базы данных по текстовому запросу; однако ограниченная база данных обычно не обладает креативностью. В отличие от этого, недавние достижения в области генерации текста по изображению позволили создавать изысканный и разнообразный визуальный контент, но сталкиваются с проблемами синтеза знаниевых изображений. В данной работе мы переосмысливаем отношение между генерацией текста по изображению и поиском и предлагаем единый каркас в контексте Мультимодельных Больших Языковых Моделей (МБЯМ). Конкретно, мы сначала исследуем внутренние дискриминационные способности МБЯМ и представляем метод генеративного поиска для выполнения поиска в режиме обучения. Затем мы объединяем генерацию и поиск в авторегрессионном способе генерации и предлагаем автономный модуль принятия решений для выбора наилучшего соответствия между сгенерированными и найденными изображениями в качестве ответа на текстовый запрос. Кроме того, мы создаем стандартизированный бенчмарк под названием TIGeR-Bench, включающий творческие и знаниевые области, для оценки единого поиска и генерации текста по изображению. Обширные экспериментальные результаты на TIGeR-Bench и двух бенчмарках поиска, а именно, Flickr30K и MS-COCO, демонстрируют превосходство и эффективность нашего предложенного метода.
Существующие методы синтеза обзора с возможностью изменения освещения - используют набор изображений объекта под неизвестным освещением для восстановления трехмерного представления, которое может быть визуализировано с новых точек зрения под целевым освещением - основаны на обратной рендеринге и пытаются разделить геометрию объекта, материалы и освещение, объясняющие входные изображения. Более того, это обычно включает оптимизацию через дифференцируемый рендеринг методом Монте-Карло, который является хрупким и вычислительно затратным. В данной работе мы предлагаем более простой подход: сначала изменяем освещение каждого входного изображения с использованием модели диффузии изображения, условионной освещением, а затем восстанавливаем Нейронное Поле Яркости (NeRF) с этими измененными изображениями, из которого визуализируем новые виды под целевым освещением. Мы продемонстрировали, что эта стратегия удивительно конкурентоспособна и достигает лучших результатов на нескольких бенчмарках по изменению освещения. Пожалуйста, посетите нашу страницу проекта по адресу https://illuminerf.github.io/.
Сокращение объемных моделей латентной диффузии (LDM) для ускорения процесса выборки привлекает все больший интерес исследователей. Однако большинство существующих методов сталкиваются с дилеммой, где либо (i) зависят от нескольких отдельных упрощенных моделей для различных бюджетов выборки, либо (ii) жертвуют качеством генерации при ограниченном (например, 2-4) и/или умеренном (например, 5-8) количестве шагов выборки. Для решения этих проблем мы расширяем недавнюю стратегию многошаговой консистентности дистилляции (MCD) на представительные LDM, устанавливая подход Многошаговых Моделей Латентной Консистентности (MLCM) для синтеза изображений высокого качества по низкой стоимости. MLCM служит объединенной моделью для различных шагов выборки благодаря потенциалу MCD. Мы дополняем MCD прогрессивной стратегией обучения для укрепления межсегментной консистентности для улучшения качества генерации на небольшом количестве шагов. Мы используем состояния из траекторий выборки модели-учителя в качестве обучающих данных для MLCM для снижения требований к обучающим наборам данных высокого качества и для сокращения разрыва между обучением и выводом упрощенной модели. MLCM совместим с стратегиями предпочтительного обучения для дальнейшего улучшения визуального качества и эстетического воздействия. Эмпирически MLCM способен генерировать изображения высокого качества с помощью всего 2-8 шагов выборки. На тестовом наборе MSCOCO-2017 5K MLCM, упрощенная из SDXL, получает CLIP Score 33.30, Aesthetic Score 6.19 и Image Reward 1.20 всего за 4 шага, значительно превосходя 4-шаговую LCM [23], 8-шаговую SDXL-Lightning [17] и 8-шаговую HyperSD [33]. Мы также демонстрируем универсальность MLCM в приложениях, включая контролируемую генерацию, перенос стиля изображения и генерацию изображений по китайскому тексту.
Мы предлагаем ExtraNeRF, новый метод для экстраполяции диапазона видов, обрабатываемых Нейронным полем радиации (NeRF). Наша основная идея заключается в использовании NeRF для моделирования сцен-специфических, мелкозернистых деталей, а также в использовании моделей диффузии для экстраполяции за пределы наших наблюдаемых данных. Ключевым элементом является отслеживание видимости для определения тех частей сцены, которые не были наблюдены, и фокус на реконструкции этих областей согласованно с моделями диффузии. Наши основные вклады включают модуль заполнения на основе диффузии, учитывающий видимость, который донастраивается на входных изображениях, обеспечивая начальное NeRF с умеренным качеством (часто размытыми) заполненными областями, за которым следует вторая модель диффузии, обученная на входных изображениях, для последующего улучшения, в частности, уточнения заполненных изображений с первого прохода. Мы демонстрируем результаты высокого качества, экстраполируя за пределы небольшого количества (обычно шести или менее) входных видов, эффективно превосходя NeRF как в отображении, так и в заполнении новых областей внутри исходного объема просмотра. Мы сравниваем с сопоставимыми работами как количественно, так и качественно, и показываем значительные преимущества по сравнению с предыдущими достижениями.
Мы предлагаем новый подход к восстановлению 3D сеток из многоплановых изображений. Наш метод черпает вдохновение из крупных моделей реконструкции, таких как LRM, которые используют генератор триплана на основе трансформера и модель нейронного излучения (NeRF), обученную на многоплановых изображениях. Однако в нашем методе мы вносим несколько важных модификаций, позволяющих значительно улучшить качество 3D реконструкции. Прежде всего, мы изучаем оригинальную архитектуру LRM и выявляем несколько недостатков. Затем мы вносим соответствующие изменения в архитектуру LRM, которые приводят к улучшению представления многоплановых изображений и более эффективному обучению с вычислительной точки зрения. Во-вторых, для улучшения восстановления геометрии и обеспечения надзора на полном разрешении изображения мы извлекаем сетки из поля NeRF дифференцируемым образом и настраиваем модель NeRF через рендеринг сеток. Эти изменения позволяют нам достичь передовых результатов как по метрикам оценки 2D, так и 3D, таких как PSNR 28,67 на наборе данных Google Scanned Objects (GSO). Несмотря на эти превосходные результаты, наша модель прямого распространения все еще испытывает трудности с восстановлением сложных текстур, таких как текст и портреты на объектах. Для решения этой проблемы мы вводим легкую процедуру улучшения текстуры для каждого экземпляра. Эта процедура настраивает представление триплана и модель оценки цвета NeRF на поверхности сетки с использованием входных многоплановых изображений всего за 4 секунды. Это улучшение повышает PSNR до 29,79 и обеспечивает точное восстановление сложных текстур, таких как текст. Кроме того, наш подход позволяет различные прикладные задачи, включая генерацию 3D из текста или изображений.