Ежедневно отобранные исследовательские статьи по ИИ с переводами
В недавних исследованиях была предложена гипотеза линейного представления: что языковые модели выполняют вычисления, манипулируя одномерными представлениями концепций ("признаков") в пространстве активации. В отличие от этого, мы исследуем, могут ли некоторые представления языковых моделей быть в принципе многомерными. Мы начинаем с разработки строгого определения неразложимых многомерных признаков на основе того, могут ли они быть разложены на независимые или невзаимосвязанные более низкоразмерные признаки. Вдохновленные этими определениями, мы разрабатываем масштабируемый метод, использующий разреженные автокодировщики для автоматического обнаружения многомерных признаков в GPT-2 и Mistral 7B. Эти автоматически обнаруженные признаки включают удивительно интерпретируемые примеры, например, круговые признаки, представляющие дни недели и месяцы года. Мы выявляем задачи, в которых эти точные круги используются для решения вычислительных проблем, связанных с модульной арифметикой в днях недели и месяцах года. Наконец, мы предоставляем доказательства того, что эти круговые признаки действительно являются фундаментальной единицей вычислений в этих задачах, проводя интервенционные эксперименты на Mistral 7B и Llama 3 8B, и обнаруживая дополнительные круговые представления, разбирая скрытые состояния для этих задач на интерпретируемые компоненты.
Доказательные помощники, такие как Lean, революционизировали верификацию математических доказательств, обеспечивая высокую точность и надежность. Хотя большие языковые модели (LLM) показывают потенциал в математическом рассуждении, их развитие в формальном доказательстве теорем затруднено из-за недостатка обучающих данных. Для решения этой проблемы мы предлагаем подход к созданию обширных данных доказательств Lean 4, полученных из задач математических соревнований средней школы и университетского уровня. Этот подход включает перевод задач на естественном языке в формальные утверждения, фильтрацию низкокачественных утверждений и генерацию доказательств для создания синтетических данных. После настройки модели DeepSeekMath 7B на этом синтетическом наборе данных, включающем 8 миллионов формальных утверждений с доказательствами, наша модель достигла точности генерации целого доказательства 46,3% с 64 образцами и 52% кумулятивно на тесте Lean 4 miniF2F, превзойдя базовую модель GPT-4 с 23,0% с 64 образцами и метод обучения с подкреплением поиска по дереву на уровне 41,0%. Кроме того, наша модель успешно доказала 5 из 148 задач в Lean 4 Формализованной Международной Математической Олимпиаде (FIMO), в то время как GPT-4 не смогла доказать ни одной. Эти результаты демонстрируют потенциал использования масштабных синтетических данных для улучшения возможностей доказательства теорем в LLM. Как синтетический набор данных, так и модель будут доступны для облегчения дальнейших исследований в этой перспективной области.
Несмотря на значительные достижения в генерации и редактировании видео с использованием моделей диффузии, достижение точного и локализованного видеоредактирования остается значительным вызовом. Кроме того, большинство существующих методов видеоредактирования в основном сосредоточены на изменении визуального контента, с ограниченным исследованием, посвященным редактированию движения. В данной статье мы представляем новую попытку пересоздания видео (ReVideo), которая выделяется из существующих методов, позволяя точное редактирование видео в конкретных областях путем указания как контента, так и движения. Редактирование контента облегчается путем модификации первого кадра, в то время как управление движением на основе траектории предлагает интуитивный опыт взаимодействия с пользователем. ReVideo решает новую задачу, связанную с сопряжением и дисбалансом обучения между контентом и управлением движением. Для решения этой проблемы мы разрабатываем трехэтапную стратегию обучения, которая постепенно разъединяет эти два аспекта от грубого к тонкому. Кроме того, мы предлагаем модуль адаптивного объединения пространственно-временных данных для интеграции контента и управления движением на различных этапах выборки и пространственных местоположениях. Обширные эксперименты показывают, что наш ReVideo демонстрирует многообещающую производительность в нескольких точных приложениях видеоредактирования, таких как (1) локальное изменение видеоконтента при сохранении постоянного движения, (2) сохранение неизменного контента и настройка новых траекторий движения, (3) модификация как контента, так и траекторий движения. Наш метод также легко расширяет эти приложения до редактирования нескольких областей без специального обучения, демонстрируя его гибкость и надежность.
Полностью ли мы используем потенциал визуального кодера в Мультимодальных Больших Языковых Моделях (MLLM)? Недавние выдающиеся результаты MLLM в мультимодальном понимании привлекли широкое внимание как из академического сообщества, так и из индустрии. В текущей гонке за MLLM основное внимание кажется сосредоточенным в основном на лингвистической стороне. Мы наблюдаем появление более крупных и высококачественных наборов инструкций, а также участие более крупных LLM. Тем не менее, мало внимания уделяется визуальным сигналам, используемым MLLM, часто предполагается, что это конечные высокоуровневые признаки, извлеченные замороженным визуальным кодером. В данной статье мы представляем Плотный Коннектор - простой, эффективный и готовый к использованию визуально-языковой коннектор, который значительно улучшает существующие MLLM за счет использования многослойных визуальных признаков с минимальными дополнительными вычислительными затратами. Более того, наша модель, обученная исключительно на изображениях, демонстрирует замечательные возможности нулевого обучения в понимании видео. Экспериментальные результаты на различных визуальных кодерах, разрешениях изображений, масштабах наборов данных для обучения, различных размерах LLM (2,7 млрд -> 70 млрд) и различных архитектурах MLLM (например, LLaVA и Mini-Gemini) подтверждают гибкость и масштабируемость нашего подхода, достигая передовых результатов на 19 изображениях и видео-тестах. Мы надеемся, что это исследование предоставит ценный опыт и послужит базовым модулем для будущего развития MLLM.
Прогресс в моделях латентной диффузии (LDM) революционизировал генерацию изображений высокого разрешения, однако пространство проектирования автоэнкодера, центрального элемента этих систем, остается недостаточно исследованным. В данной статье мы представляем LiteVAE, семейство автоэнкодеров для LDM, которые используют 2D дискретное вейвлет-преобразование для улучшения масштабируемости и вычислительной эффективности по сравнению со стандартными вариационными автоэнкодерами (VAE) без ущерба качеству вывода. Мы также исследуем методики обучения и архитектуру декодера LiteVAE, предлагая несколько улучшений, которые повышают динамику обучения и качество восстановления. Наша базовая модель LiteVAE соответствует качеству установленных VAE в текущих LDM с шестикратным сокращением параметров энкодера, что приводит к более быстрому обучению и меньшим требованиям памяти GPU, в то время как наша более крупная модель превосходит VAE сопоставимой сложности по всем оцениваемым метрикам (rFID, LPIPS, PSNR и SSIM).
Ускорение вывода больших языковых моделей (LLM) является важной задачей в искусственном интеллекте. В данной статье представлен распределенный спекулятивный вывод (DSI), новый алгоритм распределенного вывода, который доказанно быстрее, чем спекулятивный вывод (SI) [leviathan2023fast, chen2023accelerating, miao2023specinfer] и традиционный авторегрессионный вывод (не-SI). Как и другие алгоритмы SI, DSI работает с замороженными LLM, не требуя обучения или архитектурных модификаций, и сохраняет целевое распределение. Предыдущие исследования по SI продемонстрировали эмпирическое ускорение (по сравнению с не-SI), но требуют быстрого и точного чернового LLM. На практике готовые LLM часто не имеют соответствующих чернов, которые были бы достаточно быстрыми и точными. Мы показываем разрыв: SI замедляется по сравнению с не-SI при использовании медленных или менее точных чернов. Мы устраняем этот разрыв, доказывая, что DSI быстрее как SI, так и не-SI при любых черновых. Оркестрируя несколько экземпляров целевого и черновых моделей, DSI не только быстрее SI, но также поддерживает LLM, которые не могут быть ускорены с помощью SI. Наши симуляции показывают ускорение готовых LLM в реалистичных условиях: DSI быстрее SI на 1.29-1.92 раза.
Модели диффузии достигли большого успеха в генерации изображений, пройдя путь от U-Net к Vision Transformers. Однако вычислительная сложность трансформеров квадратично зависит от количества токенов, что создает значительные трудности при работе с изображениями высокого разрешения. В данной работе мы предлагаем модель Diffusion Mamba (DiM), которая объединяет эффективность Mamba, модели последовательности на основе моделей пространства состояний (SSM), с выразительной мощностью моделей диффузии для эффективного синтеза изображений высокого разрешения. Для решения проблемы того, что Mamba не способна обобщаться на 2D сигналы, мы предлагаем несколько архитектурных решений, включая многонаправленные сканирования, обучаемые токены-заполнители в конце каждой строки и столбца, а также легкое улучшение локальных признаков. Наша архитектура DiM обеспечивает эффективность времени вывода для изображений высокого разрешения. Кроме того, для дальнейшего улучшения эффективности обучения генерации изображений высокого разрешения с помощью DiM мы исследуем стратегию обучения "от слабого к сильному", которая предварительно обучает DiM на изображениях низкого разрешения (256 на 256), а затем донастраивает его на изображениях высокого разрешения (512 на 512). Мы также исследуем стратегии повышения разрешения без обучения, чтобы позволить модели генерировать изображения более высокого разрешения (например, 1024 на 1024 и 1536 на 1536) без дополнительной донастройки. Эксперименты демонстрируют эффективность и эффективность нашей модели DiM.
Методы обучения второго порядка имеют лучшие свойства сходимости по сравнению с градиентным спуском, но редко используются на практике для обучения на больших масштабах из-за вычислительной нагрузки. Это можно рассматривать как ограничение оборудования (наложенное цифровыми компьютерами). Здесь мы показываем, что естественный градиентный спуск (NGD), метод второго порядка, может иметь сходную вычислительную сложность на итерацию с методом первого порядка при использовании соответствующего оборудования. Мы представляем новый гибридный цифро-аналоговый алгоритм для обучения нейронных сетей, эквивалентный NGD в определенном режиме параметров, но избегающий чрезмерно дорогих решений линейных систем. Наш алгоритм использует термодинамические свойства аналоговой системы в равновесии и, следовательно, требует аналогового термодинамического компьютера. Обучение происходит в гибридном цифро-аналоговом цикле, где градиент и матрица информации Фишера (или любая другая положительно полуопределенная кривизна матрица) вычисляются через определенные временные интервалы, в то время как происходят аналоговые динамики. Мы численно демонстрируем превосходство этого подхода над современными цифровыми методами обучения первого и второго порядка на задачах классификации и настройки языковой модели.
Недавние подходы показали перспективы сжатия моделей диффузии в эффективные генераторы одного шага. Среди них Distribution Matching Distillation (DMD) создает генераторы одного шага, соответствующие своему учителю по распределению, не требуя однозначного соответствия с траекториями выборки своих учителей. Однако для обеспечения стабильного обучения DMD требует дополнительной потери регрессии, вычисленной с использованием большого набора пар шум-изображение, сгенерированных учителем с помощью множества шагов детерминированного сэмплера. Это затратно для синтеза текста в изображение в крупном масштабе и ограничивает качество студента, слишком тесно связывая его с исходными траекториями выборки учителя. Мы представляем DMD2, набор техник, которые преодолевают это ограничение и улучшают обучение DMD. Во-первых, мы устраняем потерю регрессии и необходимость в дорогостоящем построении набора данных. Мы показываем, что возникшая нестабильность обусловлена тем, что фальшивый критик недостоверно оценивает распределение сгенерированных образцов и предлагаем правило обновления на двух временных шкалах в качестве лекарства. Во-вторых, мы интегрируем потерю GAN в процедуру дистилляции, различая сгенерированные образцы и реальные изображения. Это позволяет обучать модель студента на реальных данных, смягчая недостаточную оценку реального балла от модели учителя и улучшая качество. Наконец, мы модифицируем процедуру обучения для возможности многократной выборки. Мы выявляем и решаем проблему несоответствия ввода обучения и вывода в этой ситуации, симулируя образцы генератора во время вывода во время обучения. В целом, наши улучшения устанавливают новые показатели в генерации изображений одного шага, с оценками FID 1,28 на ImageNet-64x64 и 8,35 на zero-shot COCO 2014, превосходя исходного учителя несмотря на 500-кратное снижение стоимости вывода. Кроме того, мы показываем, что наш подход может генерировать мегапиксельные изображения, дистиллируя SDXL, демонстрируя исключительное визуальное качество среди методов с небольшим количеством шагов.
В последние годы, с реалистичными результатами генерации и широким спектром персонализированных приложений, модели генерации на основе диффузии привлекают огромное внимание как в области визуальной, так и звуковой генерации. По сравнению с значительными достижениями в генерации текста в изображение или текста в аудио, исследования в области аудио-визуальной или визуально-аудио генерации продвигались относительно медленно. Современные методы аудио-визуальной генерации обычно прибегают к огромным языковым моделям или составным моделям диффузии. Вместо разработки еще одной гигантской модели для аудио-визуальной генерации, в данной статье мы делаем шаг назад, показывая, что простой и легкий генеративный трансформер, который не полностью исследован в мульти-модальной генерации, может достичь отличных результатов в генерации изображения в аудио. Трансформер работает в дискретном аудио и визуальном пространстве GAN с векторным квантованием и обучается в режиме масочной денойзинг. После обучения, руководство без классификатора может быть использовано без дополнительного обучения или модификации, что приводит к лучшей производительности. Поскольку модель трансформера симметрична по модальности, ее также можно прямо применять для генерации аудио в изображение и совместной генерации. В экспериментах мы показываем, что наш простой метод превосходит недавние методы генерации изображения в аудио. Сгенерированные аудиообразцы можно найти по ссылке: https://docs.google.com/presentation/d/1ZtC0SeblKkut4XJcRaDsSTuCRIXB3ypxmSi7HTY3IyQ
Многомодельные модели с большим языковым объемом (MLLM) широко признаются как ключевые в исследовании искусственного общего интеллекта (AGI). Основа MLLM заключается в их способности достигать кросс-модального выравнивания. Для достижения этой цели текущие MLLM обычно следуют двухфазной парадигме обучения: фазе предварительного обучения и фазе настройки инструкций. Несмотря на их успех, существуют недостатки в моделировании возможностей выравнивания в этих моделях. Во-первых, во время предварительного обучения модель обычно предполагает, что все пары изображение-текст равномерно выровнены, но на самом деле степень выравнивания между различными парами изображение-текст неоднородна. Во-вторых, используемые в настоящее время инструкции для донастройки включают различные задачи, инструкции различных задач обычно требуют различных уровней возможностей выравнивания, но предыдущие MLLM не учитывают эти дифференцированные потребности в выравнивании. Для решения этих проблем мы предлагаем новую многомодельную модель с большим языковым объемом AlignGPT. На этапе предварительного обучения, вместо того чтобы рассматривать все пары изображение-текст равнозначно, мы назначаем разные уровни возможностей выравнивания различным парам изображение-текст. Затем на этапе настройки инструкций мы адаптивно комбинируем эти разные уровни возможностей выравнивания, чтобы удовлетворить динамические потребности в выравнивании различных инструкций. Обширные экспериментальные результаты показывают, что наша модель достигает конкурентоспособной производительности на 12 бенчмарках.
Настройка моделей диффузии для создания изображений, сохраняющих идентичность, на основе пользовательских исходных изображений - это увлекательная новая задача. Преобладающие подходы обычно требуют обучения на обширных изображениях, специфичных для области, для достижения сохранения идентичности, что ограничивает гибкость в различных сценариях использования. Для решения этой проблемы мы используем руководство классификатора, технику обучения без обучения, которая направляет модели диффузии с использованием существующего классификатора, для персонализированного создания изображений. Наше исследование показывает, что на основе недавней структуры исправленного потока основное ограничение обычного руководства классификатором, требующее специального классификатора, может быть устранено с помощью простого решения с фиксированной точкой, позволяющего гибкую персонализацию с использованием готовых дискриминаторов изображений. Более того, процедура его решения оказывается стабильной, когда она привязана к траектории опорного потока, с гарантией сходимости. Полученный метод реализован на исправленном потоке с различными готовыми дискриминаторами изображений, обеспечивая преимущественные результаты персонализации для человеческих лиц, живых объектов и определенных объектов. Код доступен по адресу https://github.com/feifeiobama/RectifID.
Мы расширяем мультимодальные трансформеры, чтобы включить 3D движение камеры в качестве условного сигнала для задачи генерации видео. Генеративные модели видео становятся все более мощными, поэтому усилия в исследованиях сосредотачиваются на методах управления выводом таких моделей. Мы предлагаем добавить виртуальное управление 3D камерой к генеративным методам видео, условиями генерации видео на кодировании трехмерного движения камеры на протяжении создаваемого видео. Результаты показывают, что мы (1) способны успешно управлять камерой во время генерации видео, начиная с одного кадра и сигнала камеры, и (2) мы демонстрируем точность сгенерированных 3D траекторий камеры с использованием традиционных методов компьютерного зрения.
Мы исследуем задачу адаптации генеративных моделей изображений к различным наборам данных без донастройки. В этой связи мы представляем Semantica, диффузионную модель, зависящую от изображения, способную генерировать изображения на основе семантики условного изображения. Semantica обучается исключительно на парах изображений веб-масштаба, то есть она получает случайное изображение с веб-страницы в качестве условного ввода и моделирует другое случайное изображение с той же веб-страницы. Наши эксперименты подчеркивают экспрессивность предварительно обученных кодировщиков изображений и необходимость фильтрации данных на основе семантики для достижения высококачественной генерации изображений. После обучения она может адаптивно генерировать новые изображения из набора данных, просто используя изображения из этого набора данных в качестве ввода. Мы изучаем свойства передачи Semantica на ImageNet, LSUN церкви, LSUN спальни и SUN397.
Нейронные поля радиантности (NeRF) обычно испытывают затруднения с восстановлением и отображением высокоотражающих объектов, чей внешний вид быстро изменяется при изменении точки обзора. Недавние работы улучшили способность NeRF к отображению детального отражательного вида далекого окружающего освещения, но не могут синтезировать последовательные отражения близкого контента. Более того, эти техники полагаются на большие вычислительно затратные нейронные сети для моделирования исходящей радиантности, что серьезно ограничивает оптимизацию и скорость отображения. Мы решаем эти проблемы с помощью подхода, основанного на трассировке лучей: вместо запроса дорогостоящей нейронной сети для исходящей видозависимой радиантности в точках вдоль каждого луча камеры, наша модель испускает лучи отражения из этих точек и прослеживает их через представление NeRF для отображения векторов признаков, которые декодируются в цвет с использованием небольшой недорогой сети. Мы демонстрируем, что наша модель превосходит предыдущие методы для синтеза обзора сцен, содержащих блестящие объекты, и что это единственный существующий метод NeRF, который может синтезировать фотореалистичный отражательный вид и отражения в сценах реального мира, требуя при этом сравнимого времени оптимизации с современными моделями синтеза обзора.
Синтез нового вида для зеркальных объектов, таких как блестящие металлы или глянцевые краски, остается значительным вызовом. Не только блестящий внешний вид, но и глобальные эффекты освещения, включая отражения других объектов в окружающей среде, являются ключевыми компонентами для точного воспроизведения сцены. В этой статье мы представляем Нейронное Угловое Кодирование (NDE), зависящее от вида кодирование внешнего вида нейронных поля радиации (NeRF) для визуализации зеркальных объектов. NDE переносит концепцию кодирования пространства на основе сетки признаков в угловую область, значительно улучшая способность моделировать высокочастотные угловые сигналы. В отличие от предыдущих методов, использующих функции кодирования только с угловым входом, мы дополнительно конусно трассируем пространственные признаки для получения пространственно изменяющегося углового кодирования, что позволяет решить сложные эффекты взаимных отражений. Обширные эксперименты как на синтетических, так и на реальных наборах данных показывают, что модель NeRF с NDE (1) превосходит существующие методы в синтезе нового вида для зеркальных объектов и (2) работает с небольшими сетями для быстрого (в реальном времени) вывода. Веб-страница проекта и исходный код доступны по адресу: https://lwwu2.github.io/nde/.
В данной статье мы представляем недорогую и высокоаутентичную двустороннюю телеприсутствие систему Tele-Aloha, ориентированную на сценарии однорангового общения. По сравнению с предыдущими системами, Tele-Aloha использует только четыре разреженные RGB камеры, один GPU для потребительского рынка и один автостереоскопический экран для достижения высокого разрешения (2048x2048), реального времени (30 fps), низкой задержки (менее 150 мс) и надежного удаленного общения. В качестве основы Tele-Aloha мы предлагаем эффективный новый алгоритм синтеза видов для верхней части тела. Во-первых, мы разрабатываем каскадный оценщик разности для получения надежного геометрического признака. Кроме того, вводится нейронный растропроцессор через гауссовское сплетение для проецирования латентных признаков на целевой вид и их декодирования в уменьшенном разрешении. Далее, учитывая высококачественные захваченные данные, мы используем механизм взвешенного смешивания для улучшения декодированного изображения до окончательного разрешения 2K. Используя ведущий в мире автостереоскопический дисплей и отслеживание радужки с низкой задержкой, пользователи могут испытать сильное трехмерное ощущение даже без ношения устройства гарнитуры. В целом, наша система телеприсутствия демонстрирует ощущение сосуществования в реальных экспериментах, вдохновляя следующее поколение коммуникации.