Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние исследования, такие как BitNet, прокладывают путь к новой эре 1-битных крупных языковых моделей (LLM). В данной работе мы представляем вариант 1-битной LLM, а именно BitNet b1.58, в котором каждый параметр (или вес) модели является троичным {-1, 0, 1}. Эта модель соответствует полноточным (например, FP16 или BF16) трансформерным LLM с тем же размером модели и количеством обучающих токенов как по перплексии, так и по производительности на конечных задачах, при этом значительно превосходя их по экономической эффективности в плане задержек, использования памяти, пропускной способности и энергопотребления. Более того, 1.58-битная LLM определяет новый закон масштабирования и подход к обучению новых поколений LLM, которые одновременно являются высокопроизводительными и экономически эффективными. Кроме того, она открывает новую вычислительную парадигму и создает возможности для разработки специализированного оборудования, оптимизированного для 1-битных LLM.
В данной работе мы решаем задачу повышения реалистичности и выразительности в генерации видео с говорящими головами, сосредоточившись на динамической и тонкой взаимосвязи между аудиосигналами и мимическими движениями. Мы выявляем ограничения традиционных методов, которые часто не способны охватить весь спектр человеческих выражений и уникальность индивидуальных черт лица. Для решения этих проблем мы предлагаем EMO — новый фреймворк, использующий подход прямого синтеза видео из аудио, минуя необходимость в промежуточных 3D-моделях или лицевых ориентирах. Наш метод обеспечивает плавные переходы между кадрами и сохранение идентичности на протяжении всего видео, что приводит к созданию высоко выразительных и реалистичных анимаций. Экспериментальные результаты демонстрируют, что EMO способен генерировать не только убедительные видео с речью, но и видео с пением в различных стилях, значительно превосходя существующие передовые методики по показателям выразительности и реалистичности.
Sora — это генеративная модель искусственного интеллекта для преобразования текста в видео, выпущенная OpenAI в феврале 2024 года. Модель обучена генерировать видео с реалистичными или фантазийными сценами на основе текстовых инструкций и демонстрирует потенциал в симуляции физического мира. На основе публичных технических отчетов и обратного инжиниринга в данной статье представлен всесторонний обзор фона модели, связанных технологий, областей применения, существующих проблем и будущих направлений развития моделей генерации видео из текста. Мы сначала прослеживаем этапы разработки Sora и исследуем лежащие в ее основе технологии, используемые для создания этого "симулятора мира". Затем подробно описываем области применения и потенциальное влияние Sora в различных отраслях, включая кинопроизводство, образование и маркетинг. Мы обсуждаем основные вызовы и ограничения, которые необходимо преодолеть для широкого внедрения Sora, такие как обеспечение безопасной и беспристрастной генерации видео. В заключение рассматриваем будущее развитие Sora и моделей генерации видео в целом, а также то, как достижения в этой области могут открыть новые способы взаимодействия человека и ИИ, повышая производительность и креативность в создании видео.
На протяжении десятилетий взаимодействие человека с компьютером было преимущественно ручным. Даже сегодня практически вся продуктивная работа на компьютере требует человеческого вмешательства на каждом этапе. Автономные виртуальные агенты представляют собой важный шаг в автоматизации многих из этих рутинных задач. Виртуальные агенты позволят пользователям с ограниченными техническими навыками использовать все возможности компьютерных систем. Они также могут способствовать эффективной оптимизации множества компьютерных задач, от управления календарем до сложных бронирований путешествий, с минимальным вмешательством человека. В данной статье мы представляем OmniACT — первый в своем роде набор данных и эталонный тест для оценки способности агента генерировать исполняемые программы для выполнения компьютерных задач. Наш подход выходит за рамки традиционной автоматизации веб-приложений, охватывая широкий спектр настольных приложений. Набор данных включает как базовые задачи, такие как "Воспроизвести следующую песню", так и более сложные, например "Отправить письмо Джону Доу с указанием времени и места встречи". Конкретно, задача заключается в генерации скрипта, способного полностью выполнить задачу, на основе пары "изображение экрана" и "естественно-языковой задачи, привязанной к визуальному контексту". Мы протестировали несколько мощных языковых моделей на нашем эталонном тесте. Наилучший результат показала модель GPT-4, однако ее уровень производительности достигает лишь 15% от человеческого мастерства в генерации исполняемых скриптов, способных выполнить задачу, что подчеркивает сложность нашей задачи для традиционных веб-агентов. Наш эталонный тест предоставляет платформу для измерения и оценки прогресса языковых моделей в автоматизации компьютерных задач и стимулирует дальнейшие исследования в области создания мультимодальных моделей, объединяющих крупные языковые модели и визуальное восприятие компьютерных экранов.
Хотя крупные языковые модели (LLM) часто используют тонкую настройку для раскрытия своих возможностей в прикладных задачах, наше понимание индуктивных смещений (особенно свойств масштабирования) различных методов тонкой настройки остается ограниченным. Чтобы заполнить этот пробел, мы проводим систематические эксперименты, изучая, влияют ли и как различные факторы масштабирования, включая размер модели LLM, объем данных предварительного обучения, количество новых параметров для тонкой настройки и объем данных для тонкой настройки, на эффективность тонкой настройки. Мы рассматриваем два типа тонкой настройки — полную настройку модели (FMT) и параметрически эффективную настройку (PET, включая настройку промптов и LoRA), и исследуем их поведение при масштабировании в условиях ограниченных данных, когда размер модели LLM значительно превышает объем данных для тонкой настройки. На основе двух наборов предварительно обученных двуязычных LLM размером от 1B до 16B и экспериментов на бенчмарках двуязычного машинного перевода и многоязычного суммаризации мы обнаруживаем, что: 1) тонкая настройка LLM следует степенному мультипликативному закону совместного масштабирования между объемом данных для тонкой настройки и каждым другим фактором масштабирования; 2) тонкая настройка LLM выигрывает больше от масштабирования размера модели, чем от масштабирования объема данных предварительного обучения, а масштабирование параметров PET в целом неэффективно; и 3) оптимальный метод тонкой настройки сильно зависит от задачи и объема данных для тонкой настройки. Мы надеемся, что наши результаты помогут лучше понять, выбирать и разрабатывать методы тонкой настройки LLM.
Способность крупных языковых моделей (LLM) обрабатывать и генерировать связный текст значительно снижается, когда количество входных токенов превышает их длину предварительного обучения. Учитывая высокую стоимость дообучения крупномасштабных моделей на более длинных последовательностях, мы предлагаем Dual Chunk Attention (DCA), который позволяет модели Llama2 70B поддерживать контекстные окна более 100 тысяч токенов без необходимости постоянного обучения. Разделяя вычисления внимания для длинных последовательностей на модули, основанные на чанках, DCA эффективно захватывает информацию о относительном положении токенов внутри одного чанка (Intra-Chunk) и между различными чанками (Inter-Chunk), а также интегрируется с Flash Attention. Помимо впечатляющей способности к экстраполяции, DCA демонстрирует производительность на практических задачах с длинным контекстом, которая сравнима или даже превосходит производительность дообученных моделей. По сравнению с проприетарными моделями, наша 70B модель, не требующая обучения, достигает 94% производительности gpt-3.5-16k, что делает её жизнеспособной открытой альтернативой. Весь код и данные, использованные в этой работе, доступны по адресу https://github.com/HKUNLP/ChunkLlama.
В области генеративных моделей для создания изображений на основе текста (T2I), ориентированных на конкретные объекты, последние разработки, такие как DreamBooth и BLIP-Diffusion, демонстрируют впечатляющие результаты, однако сталкиваются с ограничениями из-за требований к интенсивной тонкой настройке и значительным параметрам. Хотя модуль низкоранговой адаптации (LoRA) в DreamBooth позволяет сократить количество обучаемых параметров, он вносит повышенную чувствительность к гиперпараметрам, что приводит к компромиссу между эффективностью параметров и качеством персонализированного синтеза изображений T2I. Для решения этих ограничений мы представляем \textit{DiffuseKronA} — новый модуль адаптации на основе произведения Кронекера, который не только значительно сокращает количество параметров на 35\% и 99,947\% по сравнению с LoRA-DreamBooth и оригинальным DreamBooth соответственно, но и повышает качество синтеза изображений. Важно, что DiffuseKronA смягчает проблему чувствительности к гиперпараметрам, обеспечивая стабильно высокое качество генерации при широком диапазоне гиперпараметров, тем самым уменьшая необходимость в интенсивной тонкой настройке. Более того, более контролируемая декомпозиция делает DiffuseKronA более интерпретируемым и даже позволяет достичь сокращения параметров до 50\% с результатами, сопоставимыми с LoRA-DreamBooth. Оцененный на разнообразных и сложных входных изображениях и текстовых запросах, DiffuseKronA стабильно превосходит существующие модели, создавая разнообразные изображения более высокого качества с улучшенной точностью и более точным распределением цветов объектов, сохраняя при этом исключительную эффективность параметров, что представляет собой значительный прогресс в области генеративного моделирования T2I. Наша страница проекта, содержащая ссылки на код и предварительно обученные контрольные точки, доступна по адресу https://diffusekrona.github.io/{https://diffusekrona.github.io/}.
Как текстовые, так и видеоданные в изобилии представлены в интернете и поддерживают масштабное самообучение через предсказание следующего токена или кадра. Однако они используются неравномерно: языковые модели оказали значительное влияние на реальный мир, тогда как генерация видео в основном ограничивалась сферой медиаразвлечений. Тем не менее, видеоданные содержат важную информацию о физическом мире, которую сложно выразить языком. Чтобы устранить этот разрыв, мы обсуждаем недооцененную возможность расширения генерации видео для решения задач в реальном мире. Мы отмечаем, что видео, подобно языку, может служить унифицированным интерфейсом, способным поглощать знания из интернета и представлять разнообразные задачи. Более того, мы показываем, что, как и языковые модели, генерация видео может выступать в роли планировщиков, агентов, вычислительных движков и симуляторов среды с использованием таких методов, как обучение в контексте, планирование и обучение с подкреплением. Мы выделяем ключевые возможности для влияния в таких областях, как робототехника, автономное вождение и наука, подкрепляя это недавними работами, демонстрирующими, что такие продвинутые возможности в генерации видео вполне достижимы. Наконец, мы определяем основные вызовы в генерации видео, которые сдерживают прогресс. Решение этих задач позволит моделям генерации видео продемонстрировать уникальную ценность наряду с языковыми моделями в более широком спектре приложений искусственного интеллекта.
Существующие работы по долгосрочным открытым диалогам сосредоточены на оценке ответов моделей в контекстах, охватывающих не более пяти сессий чата. Несмотря на прогресс в области моделей с длинным контекстом (LLM) и методов генерации с использованием извлечения данных (RAG), их эффективность в очень долгосрочных диалогах остается неисследованной. Чтобы восполнить этот пробел, мы представляем машинно-человеческий конвейер для генерации высококачественных, очень долгосрочных диалогов, используя архитектуры агентов на основе LLM и основывая их диалоги на персонажах и временных графах событий. Кроме того, мы наделяем каждого агента возможностью делиться изображениями и реагировать на них. Сгенерированные диалоги проверяются и редактируются аннотаторами для обеспечения долгосрочной согласованности и привязки к графам событий. С помощью этого конвейера мы собираем LoCoMo — набор данных очень долгосрочных диалогов, каждый из которых включает в среднем 300 реплик и 9K токенов, охватывая до 35 сессий. На основе LoCoMo мы представляем комплексный эталонный тест для оценки долгосрочной памяти моделей, включающий задачи ответов на вопросы, суммирования событий и генерации мультимодальных диалогов. Наши экспериментальные результаты показывают, что LLM сталкиваются с трудностями в понимании длинных диалогов и осмыслении долгосрочных временных и причинно-следственных динамик внутри них. Использование стратегий, таких как LLM с длинным контекстом или RAG, может предложить улучшения, но эти модели все еще значительно отстают от человеческой производительности.
Данная работа исследует общие принципы улучшения обучения языковых моделей (ЯМ), направленные на сокращение необходимых шагов обучения для достижения превосходной производительности. В частности, мы представляем теорию оптимального обучения ЯМ. Сначала мы предлагаем целевую функцию, которая оптимизирует обучение ЯМ путем максимизации коэффициента сжатия данных в рамках подхода "обучение ЯМ как сжатие без потерь". Затем мы выводим теорему, названную Законом Обучения, чтобы раскрыть свойства динамики в процессе оптимального обучения в рамках нашей целевой функции. Теорема подтверждается экспериментами на задаче линейной классификации и реальной задаче языкового моделирования. Наконец, мы эмпирически подтверждаем, что оптимальное обучение ЯМ по сути связано с улучшением коэффициентов в законе масштабирования ЯМ, что указывает на значительный потенциал и важность для разработки практических методов ускорения обучения. Наш код доступен по ссылке: https://aka.ms/LearningLaw.
Недавно разработанная модель Sora [1] продемонстрировала впечатляющие возможности в генерации видео, вызвав активные обсуждения относительно её способности моделировать реальные явления. Несмотря на растущую популярность, до сих пор отсутствуют устоявшиеся метрики для количественной оценки её соответствия законам физики реального мира. В данной статье мы представляем новый бенчмарк, который оценивает качество сгенерированных видео на основе их соответствия принципам реальной физики. Мы используем метод, преобразующий сгенерированные видео в 3D-модели, основываясь на предпосылке, что точность 3D-реконструкции существенно зависит от качества видео. С точки зрения 3D-реконструкции, мы используем точность выполнения геометрических ограничений построенными 3D-моделями как показатель, позволяющий оценить, насколько сгенерированные видео соответствуют законам физики реального мира. Страница проекта: https://sora-geometrical-consistency.github.io/
Создание видео- и аудиоконтента является ключевой технологией для киноиндустрии и профессиональных пользователей. В последнее время существующие методы, основанные на диффузии, решают задачи генерации видео и аудио по отдельности, что затрудняет перенос этих технологий из академической среды в промышленность. В данной работе мы стремимся заполнить этот пробел, предлагая тщательно разработанную оптимизационную структуру для кросс-визуально-аудио и совместной визуально-аудио генерации. Мы отмечаем мощные возможности генерации существующих моделей для создания видео или аудио. Поэтому вместо обучения крупных моделей с нуля мы предлагаем объединить существующие сильные модели через общее пространство латентных представлений. В частности, мы предлагаем мультимодальный латентный выравниватель с использованием предварительно обученной модели ImageBind. Наш латентный выравниватель имеет схожую основу с классификаторным управлением, которое направляет процесс удаления шума в диффузии во время вывода. Благодаря тщательно разработанной стратегии оптимизации и функциям потерь, мы демонстрируем превосходную производительность нашего метода в задачах совместной генерации видео и аудио, визуально-управляемой генерации аудио и аудио-управляемой генерации визуального контента. Проектный веб-сайт доступен по адресу https://yzxing87.github.io/Seeing-and-Hearing/.
В данной работе мы представляем три ключевых идеи для достижения передового уровня эстетического качества в генеративных моделях преобразования текста в изображения. Мы сосредоточились на трех критических аспектах улучшения моделей: усиление цветовой гаммы и контраста, улучшение генерации для различных соотношений сторон и повышение детализации в изображениях с акцентом на человеческие элементы. Во-первых, мы исследуем важность графика шума при обучении диффузионной модели, демонстрируя его значительное влияние на реалистичность и визуальную точность. Во-вторых, мы рассматриваем задачу адаптации генерации изображений к различным соотношениям сторон, подчеркивая важность подготовки сбалансированного набора данных с группировкой по бакетам. В-третьих, мы изучаем ключевую роль согласования выходных данных модели с человеческими предпочтениями, обеспечивая, чтобы сгенерированные изображения соответствовали ожиданиям человеческого восприятия. Благодаря обширному анализу и экспериментам, Playground v2.5 демонстрирует передовые показатели эстетического качества в различных условиях и соотношениях сторон, превосходя как широко используемые открытые модели, такие как SDXL и Playground v2, так и коммерческие закрытые системы, такие как DALLE 3 и Midjourney v5.2. Наша модель является открытой, и мы надеемся, что разработка Playground v2.5 предоставит ценные рекомендации для исследователей, стремящихся повысить эстетическое качество диффузионных моделей генерации изображений.
Мы представляем метод генерации 3D-сцен, которые разделяются на составляющие их объекты. Это разделение осуществляется без учителя, опираясь исключительно на знания крупной предобученной модели для преобразования текста в изображение. Наше ключевое наблюдение заключается в том, что объекты могут быть обнаружены путем поиска частей 3D-сцены, которые при пространственной перестановке всё ещё образуют допустимые конфигурации той же сцены. Конкретно, наш метод совместно оптимизирует несколько NeRF с нуля — каждый из которых представляет свой объект — вместе с набором компоновок, которые объединяют эти объекты в сцены. Затем мы стимулируем, чтобы эти составленные сцены соответствовали распределению данных, согласно генератору изображений. Мы показываем, что, несмотря на свою простоту, наш подход успешно генерирует 3D-сцены, разложенные на отдельные объекты, что открывает новые возможности в создании контента "текст-в-3D". Для результатов и интерактивной демонстрации посетите нашу страницу проекта по адресу https://dave.ml/layoutlearning/.
Существующие методы реконструкции крупных сцен на основе NeRF часто имеют ограничения в визуальном качестве и скорости рендеринга. Хотя недавно предложенный метод 3D Gaussian Splatting хорошо работает на небольших и объектно-ориентированных сценах, его масштабирование на крупные сцены сталкивается с трудностями из-за ограниченной видеопамяти, длительного времени оптимизации и заметных вариаций внешнего вида. Для решения этих проблем мы представляем VastGaussian — первый метод высококачественной реконструкции и рендеринга в реальном времени для крупных сцен на основе 3D Gaussian Splatting. Мы предлагаем прогрессивную стратегию разделения крупной сцены на несколько ячеек, где тренировочные камеры и облако точек распределяются с учетом критерия видимости в воздушном пространстве. Эти ячейки объединяются в полную сцену после параллельной оптимизации. Мы также вводим разделенное моделирование внешнего вида в процесс оптимизации, чтобы уменьшить вариации внешнего вида в рендеренных изображениях. Наш подход превосходит существующие методы на основе NeRF и достигает передовых результатов на нескольких наборах данных крупных сцен, обеспечивая быструю оптимизацию и высококачественный рендеринг в реальном времени.