Ежедневно отобранные исследовательские статьи по ИИ с переводами
Область моделей видео-языка (VLM), которые принимают изображения и тексты в качестве входных данных и выдают тексты, стремительно развивается и пока не достигла согласия по нескольким ключевым аспектам процесса разработки, включая данные, архитектуру и методы обучения. Этот документ можно рассматривать как руководство по созданию VLM. Мы начинаем с обзора текущих передовых подходов, выделяя сильные и слабые стороны каждого из них, рассматривая основные проблемы в области и предлагая перспективные направления исследований для недостаточно изученных областей. Затем мы переходим к практическим шагам по созданию Idefics3-8B, мощного VLM, который значительно превосходит своего предшественника Idefics2-8B, обучаясь эффективно, исключительно на открытых наборах данных и используя простой процесс. Эти шаги включают создание Docmatix, набора данных для улучшения способностей понимания документов, который в 240 раз больше, чем ранее доступные наборы данных. Мы предоставляем модель вместе с созданными для ее обучения наборами данных.
Комплексная оценка Мультимодальных Больших Языковых Моделей (MLLMs) недавно привлекла широкое внимание исследовательского сообщества. Однако мы отмечаем, что существующие бенчмарки имеют несколько общих препятствий, которые затрудняют измерение значительных вызовов, с которыми модели сталкиваются в реальном мире, включая: 1) небольшой объем данных приводит к большой вариации в производительности; 2) зависимость от аннотаций на основе модели приводит к ограниченному качеству данных; 3) недостаточная сложность задачи, особенно вызванная ограниченным разрешением изображения. Для решения этих проблем мы представляем MME-RealWorld. Конкретно, мы собрали более 300 тыс. изображений из общедоступных наборов данных и Интернета, отобрав 13 366 изображений высокого качества для аннотации. Это включает усилия 25 профессиональных аннотаторов и 7 экспертов в области MLLMs, внесших свой вклад в 29 429 пар вопрос-ответ, охватывающих 43 подзадачи в 5 сценариях реального мира, крайне сложных даже для людей. На настоящий момент MME-RealWorld является самым крупным вручную аннотированным бенчмарком, представляющим самое высокое разрешение и целевую ориентацию на прикладные задачи в реальном мире. Мы также проводим тщательную оценку, включающую 28 ведущих MLLMs, таких как GPT-4o, Gemini 1.5 Pro и Claude 3.5 Sonnet. Наши результаты показывают, что даже самые передовые модели испытывают трудности с нашими бенчмарками, где ни одна из них не достигает точности 60%. Проблемы восприятия изображений высокого разрешения и понимания сложных сценариев реального мира остаются насущными задачами, требующими решения. Данные и код оценки доступны по ссылке https://mme-realworld.github.io/.
Генерация трехмерных иммерсивных сцен представляет собой сложную, но критически важную задачу в области компьютерного зрения и графики. Желаемая виртуальная трехмерная сцена должна 1) обладать консистентностью обзора во всех направлениях и 2) позволять свободное исследование в сложных иерархиях сцен. Существующие методы либо основаны на последовательном расширении сцены с помощью заполнения пробелов, либо используют панорамное представление для отображения сцен с широким углом обзора. Однако сгенерированная сцена страдает от семантического сдвига во время расширения и не способна обрабатывать заслонение между иерархиями сцен. Для решения этих проблем мы представляем LayerPano3D, новую структуру для генерации полнозначительных, исследуемых панорамных трехмерных сцен из одного текстового запроса. Наш ключевой принцип заключается в разложении ссылочной двухмерной панорамы на несколько слоев на разных уровнях глубины, где каждый слой раскрывает невидимое пространство из исходных видов с помощью предварительного диффузионного процесса. LayerPano3D включает в себя несколько специализированных решений: 1) мы представляем новую конвейерную синтезирующую анкерную точку, управляемую текстом, для генерации панорам высокого качества и согласованности. 2) Мы вводим Layered 3D Panorama в качестве базового представления для управления сложными иерархиями сцен и преобразуем его в трехмерные гауссовы функции для отображения детализированных 360-градусных сцен с неограниченными путями обзора. Обширные эксперименты показывают, что наша структура генерирует современные трехмерные панорамные сцены с полной согласованностью обзора и иммерсивным исследовательским опытом. Мы считаем, что LayerPano3D обладает потенциалом для продвижения создания трехмерных панорамных сцен с множеством приложений.
Квадратическая вычислительная сложность в механизме самовнимания популярных архитектур трансформеров представляет существенные вызовы для обучения и вывода, особенно в плане эффективности и требований к памяти. Для решения этих проблем в данной статье представлен новый быстрый метод вычисления градиента в многослойных моделях трансформеров. Наш подход позволяет вычислять градиенты для всей многослойной модели трансформера практически за линейное время n^{1+o(1)}, где n - длина входной последовательности. Этот прорыв значительно снижает вычислительное узкое место, связанное с традиционной квадратичной сложностью по времени. Наша теория справедлива для любой функции потерь и обеспечивает ограниченную погрешность аппроксимации по всей модели. Более того, наш анализ может быть применен, когда многослойная модель трансформера содержит множество практических подмодулей, таких как остаточное соединение, случайная маска и многоголовое внимание. Улучшая эффективность вычисления градиента в больших языковых моделях, мы надеемся, что наша работа упростит более эффективное обучение и развертывание языковых моделей с длинным контекстом на основе наших теоретических результатов.
В последнее время широкое распространение получили алгоритмы обучения с пониженным потреблением памяти для моделей с ограниченной памятью. Эти методы используют структуру низкого ранга градиентов для проецирования состояний оптимизатора в подпространство с использованием матрицы проекции, найденной с помощью сингулярного разложения (SVD). Однако сходимость этих алгоритмов в значительной степени зависит от правил обновления их матрицы проекции. В данной работе мы предоставляем первое гарантированное условие сходимости для произвольных правил обновления матрицы проекции. Это условие общим образом применимо к оптимизаторам, которые могут быть проанализированы с помощью метода гамильтонова спуска, включая наиболее распространенные, такие как LION, Adam. Вдохновленные нашим теоретическим пониманием, мы предлагаем метод Онлайн спуска в подпространство, новое семейство оптимизаторов спуска в подпространство без использования SVD. Вместо обновления матрицы проекции собственными векторами, Онлайн спуск в подпространство обновляет матрицу проекции с помощью онлайн метода главных компонент. Онлайн спуск в подпространство гибок и вносит минимальные накладные расходы на обучение. Мы показываем, что для задачи предварительного обучения моделей LLaMA с числом параметров от 60 миллионов до 7 миллиардов на наборе данных C4, метод Онлайн спуска в подпространство достигает более низкой перплексии и лучшей производительности на последующих задачах, чем передовые методы обучения с низким рангом в различных настройках и сокращает разрыв с полными базовыми значениями.
Синтез трехмерного движения по голосу направлен на создание реалистичной анимации на основе человеческой речи с возможным применением в виртуальной реальности, играх и киноиндустрии. Существующие подходы полагаются исключительно на аудиозапись речи для генерации движения, что приводит к неточным и неэластичным результатам синтеза. Для решения этой проблемы мы представляем новый метод синтеза трехмерного движения человека под управлением текста, названный T3M. В отличие от традиционных подходов, T3M позволяет точное управление синтезом движения с помощью текстового ввода, увеличивая степень разнообразия и настройки пользователей. Результаты экспериментов показывают, что T3M может значительно превзойти современные методы как по количественным метрикам, так и по качественным оценкам. Мы публично опубликовали наш код на https://github.com/Gloria2tt/T3M.git.
Генерация индивидуализированных видео направлена на создание видеороликов высокого качества под руководством текстовых подсказок и изображений субъекта. Однако, поскольку модель обучена только на статических изображениях, процесс настройки обучения субъекта нарушает способности моделей диффузии видео (VDM) комбинировать концепции и генерировать движения. Для восстановления этих способностей некоторые методы используют дополнительное видео, аналогичное подсказке, для настройки или руководства моделью. Это требует частых изменений руководящих видеороликов и даже повторной настройки модели при генерации различных движений, что является очень неудобным для пользователей. В данной статье мы предлагаем CustomCrafter, новую структуру, которая сохраняет способность модели к генерации движений и комбинированию концепций без использования дополнительного видео и повторной настройки для восстановления. Для сохранения способности к комбинированию концепций мы разрабатываем модуль "подключи и используй" для обновления небольшого количества параметров в VDM, улучшая способность модели улавливать детали внешности и способность комбинирования концепций для новых субъектов. Для генерации движений мы заметили, что VDM склонны восстанавливать движение видео на ранней стадии удаления шумов, сосредотачиваясь на восстановлении деталей субъекта на более поздней стадии. Поэтому мы предлагаем динамическую стратегию взвешенной выборки видео. Используя возможность подключения наших модулей обучения субъектов, мы уменьшаем влияние этого модуля на генерацию движения на ранней стадии удаления шумов, сохраняя способность генерации движения VDM. На более поздней стадии удаления шумов мы восстанавливаем этот модуль для восстановления деталей внешности указанного субъекта, тем самым обеспечивая достоверность внешности субъекта. Экспериментальные результаты показывают, что наш метод имеет значительное улучшение по сравнению с предыдущими методами.
Модели видео-языка высокого разрешения (VLM) широко используются в мультимодальных задачах для повышения точности за счет сохранения детальной информации об изображении. Однако эти модели часто генерируют избыточные визуальные токены из-за кодирования нескольких разделов входного изображения. Обработка этих избыточных визуальных токенов является вычислительно сложной, особенно в условиях ограниченных ресурсов с использованием обычных графических процессоров. Для поддержки изображений высокого разрешения при соблюдении ограничений ресурсов мы предлагаем схему отбрасывания токенов на ранней стадии с высоким разрешением (HiRED), которая работает в рамках фиксированного бюджета токенов до стадии большой языковой модели (LLM). HiRED может быть интегрирован с существующими моделями VLM высокого разрешения путем подключения и использования, поскольку не требует дополнительного обучения, сохраняя при этом превосходную точность. Мы стратегически используем внимание кодера видения в начальных слоях для оценки визуального содержимого каждого раздела изображения и распределения бюджета токенов соответственно. Затем, используя внимание в конечном слое, мы выбираем наиболее важные визуальные токены из каждого раздела в рамках выделенного бюджета, отбрасывая остальные. Эмпирически, примененный к LLaVA-Next-7B на графическом процессоре NVIDIA TESLA P40, HiRED с бюджетом токенов 20% увеличивает пропускную способность генерации токенов на 4,7, сокращает задержку генерации первого токена на 15 секунд и экономит 2,3 ГБ памяти графического процессора для одного вывода.
Федеративное обучение (FL) предлагает многообещающий подход для совместного машинного обучения на распределенных устройствах. Однако его принятие затруднено сложностью построения надежных архитектур коммуникации и необходимостью экспертизы как в машинном обучении, так и в сетевом программировании. В данной статье представлено комплексное решение, упрощающее оркестрацию задач FL при интеграции автоматизации на основе намерений. Мы разработали удобное веб-приложение, поддерживающее алгоритм федеративного усреднения (FedAvg), позволяющее пользователям настраивать параметры через интуитивный интерфейс. Бэкенд-решение эффективно управляет коммуникацией между сервером параметров и краевыми узлами. Мы также реализовали алгоритмы сжатия модели и планирования для оптимизации производительности FL. Более того, мы исследуем автоматизацию на основе намерений в FL с использованием тонко настроенной языковой модели (LLM), обученной на настроенном наборе данных, позволяя пользователям выполнять задачи FL с использованием высокоуровневых подсказок. Мы отмечаем, что автоматизированное решение на основе LLM достигает сравнимой точности тестирования с стандартным веб-решением, снижая объем переданных байтов до 64% и время ЦП на до 46% для задач FL. Также мы используем поиск нейронной архитектуры (NAS) и оптимизацию гиперпараметров (HPO) с использованием LLM для улучшения производительности. Мы отмечаем, что с использованием этого подхода точность тестирования может быть увеличена на 10-20% для проводимых задач FL.
3D Gaussian Splatting (3DGS) достигает быстрой и высококачественной визуализации за счет использования множества маленьких гауссов, что приводит к значительному расходу памяти. Эта зависимость от большого количества гауссов ограничивает применение моделей на основе 3DGS на устройствах с ограниченной памятью из-за ограничений памяти. Однако простое сокращение количества гауссов для совместимости с устройствами с меньшим объемом памяти приводит к ухудшению качества по сравнению с качеством, которое можно достичь на высококлассном оборудовании. Для решения этой проблемы масштабируемости мы предлагаем интегрировать Гибкий Уровень Детализации (FLoD) в 3DGS, чтобы позволить сцене отображаться на разных уровнях детализации в соответствии с возможностями оборудования. В то время как существующие 3DGS с LoD сосредотачиваются на детальной реконструкции, наш метод обеспечивает реконструкции с использованием небольшого количества гауссов для снижения требований к памяти и большего количества гауссов для более детальной визуализации. Эксперименты демонстрируют наши различные варианты визуализации с компромиссами между качеством визуализации и использованием памяти, что позволяет реальное время визуализации при различных ограничениях памяти. Более того, мы показываем, что наш метод обобщается на различные фреймворки 3DGS, указывая на его потенциал для интеграции в будущие передовые разработки. Страница проекта: https://3dgs-flod.github.io/flod.github.io/
С развитием крупных языковых моделей (LLM) возникло значительное применение - запрос к базам данных на обычном английском языке, перевод вопросов пользователей в исполнимые запросы к базе данных, что значительно улучшило процесс. Однако реальные наборы данных часто содержат огромное количество атрибутов и сложные значения, что затрудняет задачу LLM в точной идентификации соответствующих столбцов или значений из запросов на естественном языке. Традиционные методы не могут полностью передать размер и сложность наборов данных LLM. Для решения этих проблем мы предлагаем новую структуру, которая использует Полнотекстовый поиск (FTS) во входной таблице. Этот подход не только обеспечивает точное обнаружение конкретных значений и столбцов, но также сужает пространство поиска для языковых моделей, тем самым повышая точность запросов. Кроме того, он поддерживает функцию автозаполнения, которая предлагает запросы на основе данных в таблице. Эта интеграция значительно улучшает взаимодействие между пользователем и сложными наборами данных, предлагая изощренное решение для ограничений, с которыми сталкиваются текущие возможности запросов к таблицам. Эта работа сопровождается приложением для платформ Mac и Windows, которое читатели могут попробовать на своих собственных данных.
Генерация изображений с условиями облегчает безшовное редактирование и создание фотореалистичных изображений. Однако использование шумных или вне диапазона (Out-of-Distribution, OoD) изображений в качестве условий представляет существенные трудности, особенно в балансировке точности входных данных и реализма выходных данных. Мы представляем метод Confident Ordinary Differential Editing (CODE), новый подход к синтезу изображений, который эффективно обрабатывает OoD руководящие изображения. Используя модель диффузии в качестве генеративного априорного распределения, CODE улучшает изображения с помощью обновлений на основе оценки вдоль траектории обыкновенного дифференциального уравнения (ODE) потока вероятности. Этот метод не требует обучения, специфичного для задачи, ручных модулей и предположений относительно искажений, влияющих на условное изображение. Наш метод совместим с любой моделью диффузии. Расположенный на пересечении условной генерации изображений и слепого восстановления изображений, CODE работает полностью слепо, полагаясь исключительно на предварительно обученную генеративную модель. Наш метод представляет альтернативный подход к слепому восстановлению: вместо того чтобы нацеливаться на конкретное истинное изображение на основе предположений о лежащих в основе искажениях, CODE стремится увеличить вероятность входного изображения, сохраняя при этом точность. Это приводит к наиболее вероятному изображению в диапазоне входных данных. Наши вклады двойные. Во-первых, CODE представляет собой новый метод редактирования на основе ODE, обеспечивающий улучшенный контроль, реализм и точность по сравнению с его аналогом на основе SDE. Во-вторых, мы представляем метод обрезки на основе доверительного интервала, который улучшает эффективность CODE, позволяя ему игнорировать определенные пиксели или информацию, тем самым улучшая процесс восстановления слепым образом. Экспериментальные результаты демонстрируют эффективность CODE по сравнению с существующими методами, особенно в сценариях с серьезным ухудшением или входными данными вне диапазона.