Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Построение и более глубокое понимание моделей видео-языкового взаимодействия: идеи и перспективы развития
Building and better understanding vision-language models: insights and future directions

Aug 22

ByHugo Laurençon, Andrés Marafioti, Victor Sanh, Léo Tronchon

133

Область моделей видео-языка (VLM), которые принимают изображения и тексты в качестве входных данных и выдают тексты, стремительно развивается и пока не достигла согласия по нескольким ключевым аспектам процесса разработки, включая данные, архитектуру и методы обучения. Этот документ можно рассматривать как руководство по созданию VLM. Мы начинаем с обзора текущих передовых подходов, выделяя сильные и слабые стороны каждого из них, рассматривая основные проблемы в области и предлагая перспективные направления исследований для недостаточно изученных областей. Затем мы переходим к практическим шагам по созданию Idefics3-8B, мощного VLM, который значительно превосходит своего предшественника Idefics2-8B, обучаясь эффективно, исключительно на открытых наборах данных и используя простой процесс. Эти шаги включают создание Docmatix, набора данных для улучшения способностей понимания документов, который в 240 раз больше, чем ранее доступные наборы данных. Мы предоставляем модель вместе с созданными для ее обучения наборами данных.

MME-RealWorld: Сможет ли ваш мультимодальный LLM справиться с вызовом высокоразрешающих реальных сценариев, которые сложны для людей?
MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

Aug 23

ByYi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan

Комплексная оценка Мультимодальных Больших Языковых Моделей (MLLMs) недавно привлекла широкое внимание исследовательского сообщества. Однако мы отмечаем, что существующие бенчмарки имеют несколько общих препятствий, которые затрудняют измерение значительных вызовов, с которыми модели сталкиваются в реальном мире, включая: 1) небольшой объем данных приводит к большой вариации в производительности; 2) зависимость от аннотаций на основе модели приводит к ограниченному качеству данных; 3) недостаточная сложность задачи, особенно вызванная ограниченным разрешением изображения. Для решения этих проблем мы представляем MME-RealWorld. Конкретно, мы собрали более 300 тыс. изображений из общедоступных наборов данных и Интернета, отобрав 13 366 изображений высокого качества для аннотации. Это включает усилия 25 профессиональных аннотаторов и 7 экспертов в области MLLMs, внесших свой вклад в 29 429 пар вопрос-ответ, охватывающих 43 подзадачи в 5 сценариях реального мира, крайне сложных даже для людей. На настоящий момент MME-RealWorld является самым крупным вручную аннотированным бенчмарком, представляющим самое высокое разрешение и целевую ориентацию на прикладные задачи в реальном мире. Мы также проводим тщательную оценку, включающую 28 ведущих MLLMs, таких как GPT-4o, Gemini 1.5 Pro и Claude 3.5 Sonnet. Наши результаты показывают, что даже самые передовые модели испытывают трудности с нашими бенчмарками, где ни одна из них не достигает точности 60%. Проблемы восприятия изображений высокого разрешения и понимания сложных сценариев реального мира остаются насущными задачами, требующими решения. Данные и код оценки доступны по ссылке https://mme-realworld.github.io/.

LayerPano3D: Слойная 3D-панорама для генерации гипер-иммерсивных сцен
LayerPano3D: Layered 3D Panorama for Hyper-Immersive Scene Generation

Aug 23

ByShuai Yang, Jing Tan, Mengchen Zhang, Tong Wu, Yixuan Li, Gordon Wetzstein, Ziwei Liu, Dahua Lin

Генерация трехмерных иммерсивных сцен представляет собой сложную, но критически важную задачу в области компьютерного зрения и графики. Желаемая виртуальная трехмерная сцена должна 1) обладать консистентностью обзора во всех направлениях и 2) позволять свободное исследование в сложных иерархиях сцен. Существующие методы либо основаны на последовательном расширении сцены с помощью заполнения пробелов, либо используют панорамное представление для отображения сцен с широким углом обзора. Однако сгенерированная сцена страдает от семантического сдвига во время расширения и не способна обрабатывать заслонение между иерархиями сцен. Для решения этих проблем мы представляем LayerPano3D, новую структуру для генерации полнозначительных, исследуемых панорамных трехмерных сцен из одного текстового запроса. Наш ключевой принцип заключается в разложении ссылочной двухмерной панорамы на несколько слоев на разных уровнях глубины, где каждый слой раскрывает невидимое пространство из исходных видов с помощью предварительного диффузионного процесса. LayerPano3D включает в себя несколько специализированных решений: 1) мы представляем новую конвейерную синтезирующую анкерную точку, управляемую текстом, для генерации панорам высокого качества и согласованности. 2) Мы вводим Layered 3D Panorama в качестве базового представления для управления сложными иерархиями сцен и преобразуем его в трехмерные гауссовы функции для отображения детализированных 360-градусных сцен с неограниченными путями обзора. Обширные эксперименты показывают, что наша структура генерирует современные трехмерные панорамные сцены с полной согласованностью обзора и иммерсивным исследовательским опытом. Мы считаем, что LayerPano3D обладает потенциалом для продвижения создания трехмерных панорамных сцен с множеством приложений.

Градиент многослойных трансформеров можно приблизить практически линейным образом.
Multi-Layer Transformers Gradient Can be Approximated in Almost Linear Time

Aug 23

ByYingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song, Yufa Zhou

Квадратическая вычислительная сложность в механизме самовнимания популярных архитектур трансформеров представляет существенные вызовы для обучения и вывода, особенно в плане эффективности и требований к памяти. Для решения этих проблем в данной статье представлен новый быстрый метод вычисления градиента в многослойных моделях трансформеров. Наш подход позволяет вычислять градиенты для всей многослойной модели трансформера практически за линейное время n^{1+o(1)}, где n - длина входной последовательности. Этот прорыв значительно снижает вычислительное узкое место, связанное с традиционной квадратичной сложностью по времени. Наша теория справедлива для любой функции потерь и обеспечивает ограниченную погрешность аппроксимации по всей модели. Более того, наш анализ может быть применен, когда многослойная модель трансформера содержит множество практических подмодулей, таких как остаточное соединение, случайная маска и многоголовое внимание. Улучшая эффективность вычисления градиента в больших языковых моделях, мы надеемся, что наша работа упростит более эффективное обучение и развертывание языковых моделей с длинным контекстом на основе наших теоретических результатов.

Эффективное с точки зрения памяти обучение LLM с использованием метода онлайн-спуска в подпространство.
Memory-Efficient LLM Training with Online Subspace Descent

Aug 23

ByKaizhao Liang, Bo Liu, Lizhang Chen, Qiang Liu

В последнее время широкое распространение получили алгоритмы обучения с пониженным потреблением памяти для моделей с ограниченной памятью. Эти методы используют структуру низкого ранга градиентов для проецирования состояний оптимизатора в подпространство с использованием матрицы проекции, найденной с помощью сингулярного разложения (SVD). Однако сходимость этих алгоритмов в значительной степени зависит от правил обновления их матрицы проекции. В данной работе мы предоставляем первое гарантированное условие сходимости для произвольных правил обновления матрицы проекции. Это условие общим образом применимо к оптимизаторам, которые могут быть проанализированы с помощью метода гамильтонова спуска, включая наиболее распространенные, такие как LION, Adam. Вдохновленные нашим теоретическим пониманием, мы предлагаем метод Онлайн спуска в подпространство, новое семейство оптимизаторов спуска в подпространство без использования SVD. Вместо обновления матрицы проекции собственными векторами, Онлайн спуск в подпространство обновляет матрицу проекции с помощью онлайн метода главных компонент. Онлайн спуск в подпространство гибок и вносит минимальные накладные расходы на обучение. Мы показываем, что для задачи предварительного обучения моделей LLaMA с числом параметров от 60 миллионов до 7 миллиардов на наборе данных C4, метод Онлайн спуска в подпространство достигает более низкой перплексии и лучшей производительности на последующих задачах, чем передовые методы обучения с низким рангом в различных настройках и сокращает разрыв с полными базовыми значениями.

T3M: Синтез движения человека в 3D по текстовому направлению из речи
T3M: Text Guided 3D Human Motion Synthesis from Speech

Aug 23

ByWenshuo Peng, Kaipeng Zhang, Sai Qian Zhang

Синтез трехмерного движения по голосу направлен на создание реалистичной анимации на основе человеческой речи с возможным применением в виртуальной реальности, играх и киноиндустрии. Существующие подходы полагаются исключительно на аудиозапись речи для генерации движения, что приводит к неточным и неэластичным результатам синтеза. Для решения этой проблемы мы представляем новый метод синтеза трехмерного движения человека под управлением текста, названный T3M. В отличие от традиционных подходов, T3M позволяет точное управление синтезом движения с помощью текстового ввода, увеличивая степень разнообразия и настройки пользователей. Результаты экспериментов показывают, что T3M может значительно превзойти современные методы как по количественным метрикам, так и по качественным оценкам. Мы публично опубликовали наш код на https://github.com/Gloria2tt/T3M.git.

CustomCrafter: Пользовательская генерация видео с сохранением возможностей движения и композиции концепций
CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities

Aug 23

ByTao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li

Генерация индивидуализированных видео направлена на создание видеороликов высокого качества под руководством текстовых подсказок и изображений субъекта. Однако, поскольку модель обучена только на статических изображениях, процесс настройки обучения субъекта нарушает способности моделей диффузии видео (VDM) комбинировать концепции и генерировать движения. Для восстановления этих способностей некоторые методы используют дополнительное видео, аналогичное подсказке, для настройки или руководства моделью. Это требует частых изменений руководящих видеороликов и даже повторной настройки модели при генерации различных движений, что является очень неудобным для пользователей. В данной статье мы предлагаем CustomCrafter, новую структуру, которая сохраняет способность модели к генерации движений и комбинированию концепций без использования дополнительного видео и повторной настройки для восстановления. Для сохранения способности к комбинированию концепций мы разрабатываем модуль "подключи и используй" для обновления небольшого количества параметров в VDM, улучшая способность модели улавливать детали внешности и способность комбинирования концепций для новых субъектов. Для генерации движений мы заметили, что VDM склонны восстанавливать движение видео на ранней стадии удаления шумов, сосредотачиваясь на восстановлении деталей субъекта на более поздней стадии. Поэтому мы предлагаем динамическую стратегию взвешенной выборки видео. Используя возможность подключения наших модулей обучения субъектов, мы уменьшаем влияние этого модуля на генерацию движения на ранней стадии удаления шумов, сохраняя способность генерации движения VDM. На более поздней стадии удаления шумов мы восстанавливаем этот модуль для восстановления деталей внешности указанного субъекта, тем самым обеспечивая достоверность внешности субъекта. Экспериментальные результаты показывают, что наш метод имеет значительное улучшение по сравнению с предыдущими методами.

HiRED: Внимание-управляемое отбрасывание токенов для эффективного вывода моделей высокоразрешающего зрения-языка в ресурсоограниченных средах.
HiRED: Attention-Guided Token Dropping for Efficient Inference of High-Resolution Vision-Language Models in Resource-Constrained Environments

Aug 20

ByKazi Hasan Ibn Arif, JinYi Yoon, Dimitrios S. Nikolopoulos, Hans Vandierendonck, Deepu John, Bo Ji

Модели видео-языка высокого разрешения (VLM) широко используются в мультимодальных задачах для повышения точности за счет сохранения детальной информации об изображении. Однако эти модели часто генерируют избыточные визуальные токены из-за кодирования нескольких разделов входного изображения. Обработка этих избыточных визуальных токенов является вычислительно сложной, особенно в условиях ограниченных ресурсов с использованием обычных графических процессоров. Для поддержки изображений высокого разрешения при соблюдении ограничений ресурсов мы предлагаем схему отбрасывания токенов на ранней стадии с высоким разрешением (HiRED), которая работает в рамках фиксированного бюджета токенов до стадии большой языковой модели (LLM). HiRED может быть интегрирован с существующими моделями VLM высокого разрешения путем подключения и использования, поскольку не требует дополнительного обучения, сохраняя при этом превосходную точность. Мы стратегически используем внимание кодера видения в начальных слоях для оценки визуального содержимого каждого раздела изображения и распределения бюджета токенов соответственно. Затем, используя внимание в конечном слое, мы выбираем наиболее важные визуальные токены из каждого раздела в рамках выделенного бюджета, отбрасывая остальные. Эмпирически, примененный к LLaVA-Next-7B на графическом процессоре NVIDIA TESLA P40, HiRED с бюджетом токенов 20% увеличивает пропускную способность генерации токенов на 4,7, сокращает задержку генерации первого токена на 15 секунд и экономит 2,3 ГБ памяти графического процессора для одного вывода.

Веб-ориентированное решение для Федеративного обучения с автоматизацией на основе LLM.
A Web-Based Solution for Federated Learning with LLM-Based Automation

Aug 23

ByChamith Mawela, Chaouki Ben Issaid, Mehdi Bennis

Федеративное обучение (FL) предлагает многообещающий подход для совместного машинного обучения на распределенных устройствах. Однако его принятие затруднено сложностью построения надежных архитектур коммуникации и необходимостью экспертизы как в машинном обучении, так и в сетевом программировании. В данной статье представлено комплексное решение, упрощающее оркестрацию задач FL при интеграции автоматизации на основе намерений. Мы разработали удобное веб-приложение, поддерживающее алгоритм федеративного усреднения (FedAvg), позволяющее пользователям настраивать параметры через интуитивный интерфейс. Бэкенд-решение эффективно управляет коммуникацией между сервером параметров и краевыми узлами. Мы также реализовали алгоритмы сжатия модели и планирования для оптимизации производительности FL. Более того, мы исследуем автоматизацию на основе намерений в FL с использованием тонко настроенной языковой модели (LLM), обученной на настроенном наборе данных, позволяя пользователям выполнять задачи FL с использованием высокоуровневых подсказок. Мы отмечаем, что автоматизированное решение на основе LLM достигает сравнимой точности тестирования с стандартным веб-решением, снижая объем переданных байтов до 64% и время ЦП на до 46% для задач FL. Также мы используем поиск нейронной архитектуры (NAS) и оптимизацию гиперпараметров (HPO) с использованием LLM для улучшения производительности. Мы отмечаем, что с использованием этого подхода точность тестирования может быть увеличена на 10-20% для проводимых задач FL.

Круглый стол: Использование динамической схемы и контекстуального автозаполнения для повышения точности запросов в системах вопросов и ответов на табличных данных
RoundTable: Leveraging Dynamic Schema and Contextual Autocomplete for Enhanced Query Precision in Tabular Question Answering

Aug 22

ByPratyush Kumar, Kuber Vijaykumar Bellad, Bharat Vadlamudi, Aman Chadha

С развитием крупных языковых моделей (LLM) возникло значительное применение - запрос к базам данных на обычном английском языке, перевод вопросов пользователей в исполнимые запросы к базе данных, что значительно улучшило процесс. Однако реальные наборы данных часто содержат огромное количество атрибутов и сложные значения, что затрудняет задачу LLM в точной идентификации соответствующих столбцов или значений из запросов на естественном языке. Традиционные методы не могут полностью передать размер и сложность наборов данных LLM. Для решения этих проблем мы предлагаем новую структуру, которая использует Полнотекстовый поиск (FTS) во входной таблице. Этот подход не только обеспечивает точное обнаружение конкретных значений и столбцов, но также сужает пространство поиска для языковых моделей, тем самым повышая точность запросов. Кроме того, он поддерживает функцию автозаполнения, которая предлагает запросы на основе данных в таблице. Эта интеграция значительно улучшает взаимодействие между пользователем и сложными наборами данных, предлагая изощренное решение для ограничений, с которыми сталкиваются текущие возможности запросов к таблицам. Эта работа сопровождается приложением для платформ Mac и Windows, которое читатели могут попробовать на своих собственных данных.

FLoD: Интеграция гибкого уровня детализации в трехмерное гауссовское сглаживание для настраиваемого рендеринга
FLoD: Integrating Flexible Level of Detail into 3D Gaussian Splatting for Customizable Rendering

Aug 23

ByYunji Seo, Young Sun Choi, Hyun Seung Son, Youngjung Uh

3D Gaussian Splatting (3DGS) достигает быстрой и высококачественной визуализации за счет использования множества маленьких гауссов, что приводит к значительному расходу памяти. Эта зависимость от большого количества гауссов ограничивает применение моделей на основе 3DGS на устройствах с ограниченной памятью из-за ограничений памяти. Однако простое сокращение количества гауссов для совместимости с устройствами с меньшим объемом памяти приводит к ухудшению качества по сравнению с качеством, которое можно достичь на высококлассном оборудовании. Для решения этой проблемы масштабируемости мы предлагаем интегрировать Гибкий Уровень Детализации (FLoD) в 3DGS, чтобы позволить сцене отображаться на разных уровнях детализации в соответствии с возможностями оборудования. В то время как существующие 3DGS с LoD сосредотачиваются на детальной реконструкции, наш метод обеспечивает реконструкции с использованием небольшого количества гауссов для снижения требований к памяти и большего количества гауссов для более детальной визуализации. Эксперименты демонстрируют наши различные варианты визуализации с компромиссами между качеством визуализации и использованием памяти, что позволяет реальное время визуализации при различных ограничениях памяти. Более того, мы показываем, что наш метод обобщается на различные фреймворки 3DGS, указывая на его потенциал для интеграции в будущие передовые разработки. Страница проекта: https://3dgs-flod.github.io/flod.github.io/

КОД: Уверенное редактирование обыкновенных дифференциальных уравнений
CODE: Confident Ordinary Differential Editing

Aug 22

ByBastien van Delft, Tommaso Martorella, Alexandre Alahi

Генерация изображений с условиями облегчает безшовное редактирование и создание фотореалистичных изображений. Однако использование шумных или вне диапазона (Out-of-Distribution, OoD) изображений в качестве условий представляет существенные трудности, особенно в балансировке точности входных данных и реализма выходных данных. Мы представляем метод Confident Ordinary Differential Editing (CODE), новый подход к синтезу изображений, который эффективно обрабатывает OoD руководящие изображения. Используя модель диффузии в качестве генеративного априорного распределения, CODE улучшает изображения с помощью обновлений на основе оценки вдоль траектории обыкновенного дифференциального уравнения (ODE) потока вероятности. Этот метод не требует обучения, специфичного для задачи, ручных модулей и предположений относительно искажений, влияющих на условное изображение. Наш метод совместим с любой моделью диффузии. Расположенный на пересечении условной генерации изображений и слепого восстановления изображений, CODE работает полностью слепо, полагаясь исключительно на предварительно обученную генеративную модель. Наш метод представляет альтернативный подход к слепому восстановлению: вместо того чтобы нацеливаться на конкретное истинное изображение на основе предположений о лежащих в основе искажениях, CODE стремится увеличить вероятность входного изображения, сохраняя при этом точность. Это приводит к наиболее вероятному изображению в диапазоне входных данных. Наши вклады двойные. Во-первых, CODE представляет собой новый метод редактирования на основе ODE, обеспечивающий улучшенный контроль, реализм и точность по сравнению с его аналогом на основе SDE. Во-вторых, мы представляем метод обрезки на основе доверительного интервала, который улучшает эффективность CODE, позволяя ему игнорировать определенные пиксели или информацию, тем самым улучшая процесс восстановления слепым образом. Экспериментальные результаты демонстрируют эффективность CODE по сравнению с существующими методами, особенно в сценариях с серьезным ухудшением или входными данными вне диапазона.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Построение и более глубокое понимание моделей видео-языкового взаимодействия: идеи и перспективы развития
Building and better understanding vision-language models: insights and future directions

Aug 22

ByHugo Laurençon, Andrés Marafioti, Victor Sanh, Léo Tronchon

133

MME-RealWorld: Сможет ли ваш мультимодальный LLM справиться с вызовом высокоразрешающих реальных сценариев, которые сложны для людей?
MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

Aug 23

ByYi-Fan Zhang, Huanyu Zhang, Haochen Tian, Chaoyou Fu, Shuangqing Zhang, Junfei Wu, Feng Li, Kun Wang, Qingsong Wen, Zhang Zhang, Liang Wang, Rong Jin, Tieniu Tan