Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Блок-диффузия: Интерполяция между авторегрессивными и диффузионными языковыми моделями
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models

Mar 12

ByMarianne Arriola, Aaron Gokaslan, Justin T Chiu, Zhihan Yang, Zhixuan Qi, Jiaqi Han, Subham Sekhar Sahoo, Volodymyr Kuleshov

Диффузионные языковые модели предлагают уникальные преимущества по сравнению с авторегрессивными моделями благодаря их потенциалу для параллелизованной генерации и управляемости, однако они уступают в моделировании правдоподобия и ограничены генерацией фиксированной длины. В данной работе мы представляем класс блочных диффузионных языковых моделей, которые интерполируют между дискретной диффузией с удалением шума и авторегрессивными моделями. Блочная диффузия преодолевает ключевые ограничения обоих подходов, поддерживая генерацию гибкой длины и повышая эффективность вывода за счет кэширования ключей и значений (KV) и параллельной выборки токенов. Мы предлагаем рецепт для создания эффективных блочных диффузионных моделей, включающий эффективный алгоритм обучения, оценщики дисперсии градиента и основанные на данных расписания шума для минимизации дисперсии. Блочная диффузия устанавливает новый уровень производительности среди диффузионных моделей на тестах языкового моделирования и позволяет генерировать последовательности произвольной длины. Мы предоставляем код, веса модели и блог-пост на странице проекта: https://m-arriola.com/bd3lms/

TPDiff: Временная пирамидальная модель диффузии видео
TPDiff: Temporal Pyramid Video Diffusion Model

Mar 12

ByLingmin Ran, Mike Zheng Shou

Разработка моделей диффузии для видео выявила значительную проблему: высокие вычислительные требования. Чтобы смягчить эту проблему, мы отмечаем, что обратный процесс диффузии обладает присущей ему природой снижения энтропии. Учитывая избыточность между кадрами в видео, поддержание полной частоты кадров на этапах с высокой энтропией не является необходимым. Основываясь на этом инсайте, мы предлагаем TPDiff — унифицированную структуру для повышения эффективности обучения и вывода. Разделяя процесс диффузии на несколько этапов, наша структура постепенно увеличивает частоту кадров в процессе диффузии, причем только на последнем этапе используется полная частота кадров, что оптимизирует вычислительную эффективность. Для обучения многоэтапной модели диффузии мы вводим специализированную структуру обучения: поэтапную диффузию. Решая разделенные обыкновенные дифференциальные уравнения (ОДУ) потока вероятности для диффузии при согласованных данных и шуме, наша стратегия обучения применима к различным формам диффузии и дополнительно повышает эффективность обучения. Комплексные экспериментальные оценки подтверждают универсальность нашего метода, демонстрируя снижение затрат на обучение на 50% и улучшение эффективности вывода в 1,5 раза.

Search-R1: Обучение больших языковых моделей рассуждению и использованию поисковых систем с помощью обучения с подкреплением
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning

Mar 12

ByBowen Jin, Hansi Zeng, Zhenrui Yue, Dong Wang, Hamed Zamani, Jiawei Han

Эффективное получение внешних знаний и актуальной информации имеет решающее значение для качественного рассуждения и генерации текста в больших языковых моделях (LLM). Подходы, основанные на расширении с помощью поиска и обучении использованию инструментов, где поисковая система рассматривается как инструмент, либо не обладают гибкостью для сложного многошагового поиска, либо требуют больших объемов размеченных данных. Использование продвинутых LLM с возможностями рассуждения для взаимодействия с поисковыми системами во время вывода не является оптимальным, поскольку модель не обучается оптимальному взаимодействию с поисковой системой. В данной статье представлена модель Search-R1, расширение модели DeepSeek-R1, где LLM обучается — исключительно с помощью обучения с подкреплением (RL) — автономно генерировать (несколько) поисковых запросов в процессе пошагового рассуждения с реальным поиском. Search-R1 оптимизирует выполнение LLM с многошаговым поисковым взаимодействием, используя маскирование извлеченных токенов для стабильного обучения RL и простую функцию вознаграждения, основанную на результатах. Эксперименты на семи наборах данных для ответов на вопросы показывают, что Search-R1 улучшает производительность на 26% (Qwen2.5-7B), 21% (Qwen2.5-3B) и 10% (LLaMA3.2-3B) по сравнению с современными базовыми моделями. В статье также представлены эмпирические данные о методах оптимизации RL, выборе LLM и динамике длины ответов в рассуждениях, дополненных поиском. Код и контрольные точки модели доступны по адресу https://github.com/PeterGriffinJin/Search-R1.

Motion Anything: Генерация движения из чего угодно
Motion Anything: Any to Motion Generation

Mar 10

ByZeyu Zhang, Yiran Wang, Wei Mao, Danning Li, Rui Zhao, Biao Wu, Zirui Song, Bohan Zhuang, Ian Reid, Richard Hartley

Генерация условного движения активно изучается в области компьютерного зрения, однако остаются две ключевые проблемы. Во-первых, хотя маскированные авторегрессивные методы недавно превзошли подходы на основе диффузии, существующие модели с маскированием не имеют механизма для приоритизации динамических кадров и частей тела на основе заданных условий. Во-вторых, существующие методы для различных модальностей условий часто не способны эффективно интегрировать несколько модальностей, что ограничивает контроль и согласованность в генерируемом движении. Для решения этих проблем мы предлагаем Motion Anything — мультимодальную структуру для генерации движения, которая вводит подход Attention-based Mask Modeling, обеспечивая детализированный пространственный и временной контроль над ключевыми кадрами и действиями. Наша модель адаптивно кодирует мультимодальные условия, включая текст и музыку, повышая управляемость. Кроме того, мы представляем Text-Music-Dance (TMD) — новый набор данных о движении, состоящий из 2 153 пар текста, музыки и танца, что вдвое превышает размер AIST++, тем самым заполняя критический пробел в сообществе. Многочисленные эксперименты демонстрируют, что Motion Anything превосходит современные методы на нескольких тестовых наборах, достигая улучшения FID на 15% на HumanML3D и показывая стабильные улучшения производительности на AIST++ и TMD. См. наш проект на сайте https://steve-zeyu-zhang.github.io/MotionAnything.

Reangle-A-Video: Генерация 4D-видео как задача перевода видео в видео
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation

Mar 12

ByHyeonho Jeong, Suhyeon Lee, Jong Chul Ye

Мы представляем Reangle-A-Video, унифицированную платформу для генерации синхронизированных многовидовых видео из одного входного видео. В отличие от основных подходов, которые обучают модели диффузии многовидового видео на крупномасштабных 4D-наборах данных, наш метод переосмысливает задачу генерации многовидового видео как преобразование видео в видео, используя общедоступные априорные знания о диффузии изображений и видео. По сути, Reangle-A-Video работает в два этапа. (1) Обучение многовидового движения: трансформер для преобразования изображений в видео синхронно дообучается в самообучаемом режиме для извлечения инвариантного к виду движения из набора искаженных видео. (2) Согласованное преобразование изображений в изображения для многовидового контекста: первый кадр входного видео искажается и восстанавливается в различных перспективах камеры с использованием DUSt3R для обеспечения согласованности между видами на этапе вывода, что позволяет генерировать согласованные начальные изображения для многовидового контекста. Многочисленные эксперименты по статической транспортировке вида и динамическому управлению камерой показывают, что Reangle-A-Video превосходит существующие методы, предлагая новое решение для генерации многовидового видео. Мы опубликуем наш код и данные. Страница проекта: https://hyeonho99.github.io/reangle-a-video/

GTR: Управляемое Усиление Мышления Предотвращает Коллапс Мысли при Обучении Агентов VLM на Основе RL
GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training

Mar 11

ByTong Wei, Yijun Yang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye

Обучение с подкреплением с проверяемыми наградами за результат (RLVR) успешно масштабировало цепочку рассуждений (CoT) в больших языковых моделях (LLMs). Однако его эффективность в обучении агентов на основе визуально-языковых моделей (VLM) для целеориентированного рассуждения в визуальных средах изучена недостаточно. В данной работе эта проблема исследуется с помощью обширных экспериментов на сложных карточных играх, таких как "24 точки", и задачах из ALFWorld. Мы обнаружили, что когда награды основываются исключительно на результатах действий, RL не стимулирует CoT-рассуждения в VLMs, что приводит к явлению, которое мы назвали коллапсом мышления, характеризующимся быстрой потерей разнообразия в мыслях агента, нерелевантными и неполными рассуждениями, а также последующими недействительными действиями, что приводит к отрицательным наградам. Для противодействия коллапсу мышления мы подчеркиваем необходимость руководства процессом и предлагаем автоматический корректор, который оценивает и улучшает рассуждения агента на каждом шаге RL. Этот простой и масштабируемый фреймворк GTR (Guided Thought Reinforcement) обучает рассуждения и действия одновременно, не требуя плотной пошаговой разметки человеком. Наши эксперименты показывают, что GTR значительно повышает производительность и обобщаемость модели LLaVA-7b в различных визуальных средах, достигая в 3-5 раз более высоких показателей успешности задач по сравнению с современными моделями при значительно меньших размерах моделей.

Больше документов, та же длина: выделение проблемы работы с несколькими документами в RAG
More Documents, Same Length: Isolating the Challenge of Multiple Documents in RAG

Mar 6

ByShahar Levy, Nir Mazor, Lihi Shalmon, Michael Hassid, Gabriel Stanovsky

Генерация с использованием извлечения информации (RAG) предоставляет большим языковым моделям (LLM) доступ к релевантным документам. Хотя предыдущие исследования отмечали, что извлечение большого количества документов может ухудшить производительность, они не изолировали влияние количества документов на производительность при контроле длины контекста. Мы оцениваем различные языковые модели на пользовательских наборах данных, созданных на основе задачи многошагового вопросно-ответного взаимодействия (multi-hop QA). Мы сохраняем длину контекста и позицию релевантной информации постоянными, варьируя количество документов, и обнаруживаем, что увеличение числа документов в настройках RAG создает значительные трудности для LLM. Кроме того, наши результаты показывают, что обработка нескольких документов представляет собой отдельную задачу, отличную от работы с длинными контекстами. Мы также делаем наборы данных и код доступными: https://github.com/shaharl6000/MoreDocsSameLen.

RewardSDS: Согласование дистилляции оценок через взвешенную по вознаграждению выборку
RewardSDS: Aligning Score Distillation via Reward-Weighted Sampling

Mar 12

ByItay Chachy, Guy Yariv, Sagie Benaim

Score Distillation Sampling (SDS) зарекомендовал себя как эффективный метод использования 2D диффузионных априорных моделей для задач, таких как генерация 3D-моделей из текста. Однако, несмотря на свою мощь, SDS испытывает трудности с достижением точного соответствия пользовательским намерениям. Чтобы преодолеть это, мы представляем RewardSDS — новый подход, который взвешивает шумовые выборки на основе оценок соответствия от модели вознаграждения, создавая взвешенную функцию потерь SDS. Эта функция потерь отдает приоритет градиентам от шумовых выборок, которые приводят к согласованному и высокооцененному результату. Наш подход имеет широкую применимость и может расширять методы, основанные на SDS. В частности, мы демонстрируем его применимость к Variational Score Distillation (VSD), вводя RewardVSD. Мы оцениваем RewardSDS и RewardVSD на задачах генерации изображений из текста, 2D-редактирования и генерации 3D-моделей из текста, показывая значительные улучшения по сравнению с SDS и VSD на разнообразных метриках, измеряющих качество генерации и соответствие целевым моделям вознаграждения, что позволяет достичь передовых результатов. Страница проекта доступна по адресу https://itaychachy.github.io/reward-sds/.

Самообучение с самокоррекцией для небольших языковых моделей
Self-Taught Self-Correction for Small Language Models

Mar 11

ByViktor Moskvoretskii, Chris Biemann, Irina Nikishina

Хотя крупные языковые модели (LLM) демонстрируют выдающиеся результаты в различных задачах, они всё ещё склонны к ошибкам. Ключевой задачей является обеспечение их способности к самокоррекции. В то время как предыдущие исследования полагались на внешние инструменты или крупные проприетарные модели, в данной работе исследуется самокоррекция в малых языковых моделях (SLM) посредством итеративной тонкой настройки с использованием исключительно самостоятельно сгенерированных данных. Мы представляем алгоритм Self-Taught Self-Correction (STaSC), который включает в себя несколько алгоритмических решений. Экспериментальные результаты на задаче ответов на вопросы показывают, что STaSC эффективно обучается самокоррекции, что приводит к значительному улучшению производительности. Наш анализ также предоставляет понимание механизмов самокоррекции и влияния различных решений на динамику обучения и общую производительность. Для поддержки будущих исследований мы публикуем наш удобный код и облегчённые модели.

WildIFEval: Следование инструкциям в реальных условиях
WildIFEval: Instruction Following in the Wild

Mar 9

ByGili Lior, Asaf Yehudai, Ariel Gera, Liat Ein-Dor

Современные крупные языковые модели (LLM) демонстрируют впечатляющие успехи в выполнении пользовательских инструкций, однако обработка инструкций с множественными ограничениями остается серьезной проблемой. В данной работе мы представляем WildIFEval — масштабный набор данных, содержащий 12 тысяч реальных пользовательских инструкций с разнообразными условиями, включающими несколько ограничений. В отличие от предыдущих наборов данных, наша коллекция охватывает широкий лексический и тематический спектр ограничений, встречающихся в естественных пользовательских запросах. Мы классифицируем эти ограничения на восемь высокоуровневых категорий, чтобы отразить их распределение и динамику в реальных сценариях. Используя WildIFEval, мы проводим обширные эксперименты для оценки способностей ведущих LLM следовать инструкциям. Наши результаты показывают, что все протестированные модели демонстрируют снижение производительности с увеличением числа ограничений. Таким образом, мы показываем, что все модели имеют значительный потенциал для улучшения в таких задачах. Кроме того, мы отмечаем, что конкретный тип ограничения играет ключевую роль в производительности модели. Мы публикуем наш набор данных, чтобы способствовать дальнейшим исследованиям в области выполнения инструкций в сложных, реалистичных условиях.

Мультиагентный медицинский помощник для периферийных устройств
Multi Agent based Medical Assistant for Edge Devices

Mar 7

BySakharam Gawade, Shivam Akhouri, Chinmay Kulkarni, Jagdish Samant, Pragya Sahu, Aastik, Jai Pahal, Saswat Meher

Модели больших действий (LAM) произвели революцию в области интеллектуальной автоматизации, однако их применение в здравоохранении сталкивается с трудностями из-за проблем конфиденциальности, задержек и зависимости от доступа к интернету. В данном отчете представлен локальный мультиагентный помощник для здравоохранения, который преодолевает эти ограничения. Система использует небольшие специализированные агенты для оптимизации ресурсов, обеспечения масштабируемости и высокой производительности. Наше предложенное решение выступает как универсальный инструмент для удовлетворения медицинских потребностей, включая такие функции, как запись на прием, мониторинг здоровья, напоминания о приеме лекарств и ежедневные отчеты о состоянии здоровья. Благодаря модели Qwen Code Instruct 2.5 7B, агенты планирования и вызова достигают среднего показателя RougeL 85.5 для планирования и 96.5 для вызова при выполнении задач, оставаясь при этом легковесными для локального развертывания. Этот инновационный подход сочетает преимущества локальных систем с мультиагентными архитектурами, прокладывая путь к ориентированным на пользователя решениям в здравоохранении.

PhysicsGen: Могут ли генеративные модели обучаться на изображениях для прогнозирования сложных физических взаимосвязей?
PhysicsGen: Can Generative Models Learn from Images to Predict Complex Physical Relations?

Mar 7

ByMartin Spitznagel, Jan Vaillant, Janis Keuper

Способности моделей генеративного обучения к преобразованию изображений в изображения недавно достигли значительного прогресса в оценке сложных (управляемых) отображений между распределениями изображений. В то время как задачи, основанные на внешнем виде, такие как восстановление изображений или перенос стиля, были тщательно изучены, мы предлагаем исследовать потенциал генеративных моделей в контексте физических симуляций. Предоставляя набор данных из 300 тысяч пар изображений и базовые оценки для трех различных задач физического моделирования, мы предлагаем эталонный тест для изучения следующих исследовательских вопросов: i) способны ли генеративные модели изучать сложные физические отношения на основе пар входных и выходных изображений? ii) какие ускорения могут быть достигнуты за счет замены симуляций, основанных на дифференциальных уравнениях? Хотя базовые оценки различных современных моделей показывают потенциал для значительного ускорения (ii), эти результаты также демонстрируют серьезные ограничения в отношении физической корректности (i). Это подчеркивает необходимость разработки новых методов для обеспечения физической корректности. Данные, базовые модели и код для оценки доступны по адресу http://www.physics-gen.org.

VLog: Видео-языковые модели через генеративное извлечение нарратива Словарь
VLog: Video-Language Models by Generative Retrieval of Narration Vocabulary

Mar 12

ByKevin Qinghong Lin, Mike Zheng Shou

Повседневная деятельность человека может быть кратко описана как последовательность рутинных событий (например, выключение будильника) в видеопотоках, формируя словарь событий. Вдохновленные этим, мы представляем VLog — новый фреймворк для понимания видео, который определяет видеонарративы как словарь, выходя за рамки типичных субсловных словарей в существующих генеративных моделях видео и языка. Основанный на легковесной языковой модели GPT-2, VLog включает три ключевых инновации: (i) Генеративная модель поиска, объединяющая сложные рассуждения языковой модели с эффективным поиском сходства в контрастном поиске. (ii) Иерархический словарь, созданный из крупномасштабных видеонарративов с использованием нашего алгоритма кодирования пар нарративов, позволяющий эффективно индексировать конкретные события (например, нарезка помидора) путем идентификации более широких сценариев (например, кухня) с выразительными постфиксами (например, левой рукой). (iii) Стратегия обновления словаря, использующая генеративные модели для расширения словаря для новых событий, встречающихся во время вывода. Для проверки нашего подхода мы представляем VidCap-Eval — набор данных для разработки, требующий кратких нарративов с логическими связями (например, до и после). Эксперименты на EgoSchema, COIN и HiREST дополнительно демонстрируют эффективность VLog, подчеркивая его способность генерировать краткие, контекстуально точные и эффективные нарративы, предлагая новый взгляд на понимание видео. Код доступен по адресу https://github.com/showlab/VLog.

Квантование крупных языковых моделей для генерации кода: дифференцированная репликация
Quantizing Large Language Models for Code Generation: A Differentiated Replication

Mar 10

ByAlessandro Giagnorio, Antonio Mastropaolo, Saima Afrin, Massimiliano Di Penta, Gabriele Bavota

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в генерации кода, в частности, в автоматической реализации требований, описанных на естественном языке. Эффективность LLM, как правило, возрастает с увеличением их размера: чем больше обучаемых параметров у модели, тем лучше её способность генерировать код. Однако при развертывании LLM-генераторов кода более крупные модели создают значительные проблемы, связанные с их объемом памяти (и, как следствие, углеродным следом). В предыдущей работе Wei et al. предложили использовать методы квантования для уменьшения объема памяти LLM-генераторов кода без существенного снижения их эффективности. Вкратце, они исследовали LLM с количеством параметров до 16 миллиардов, квантуя их точность с 32-битных чисел с плавающей запятой до 8-битных целых чисел, и показали ограниченное влияние этого на производительность генерации кода. Учитывая быстрый темп развития возможностей LLM и методов квантования, в данной работе мы представляем дифференцированное воспроизведение исследования Wei et al., в котором мы рассматриваем (i) более современные и крупные LLM, связанные с кодом, с количеством параметров до 34 миллиардов; (ii) последние достижения в методах квантования моделей, которые позволяют довести сжатие до экстремального уровня квантования в 2 бита на параметр модели; и (iii) различные типы калибровочных наборов данных для управления процессом квантования, включая специализированные наборы для кода. Наше эмпирическое исследование показывает, что новая граница для квантования LLM — это 4-битная точность, что приводит к среднему сокращению объема памяти на 70% по сравнению с исходной моделью без заметного снижения производительности. Кроме того, при более экстремальном квантовании (3 и 2 бита) специализированный калибровочный набор данных для кода помогает ограничить потерю производительности.

Когда большая модель обработки изображений и текста встречается с крупномасштабными снимками дистанционного зондирования: Постепенная обрезка токенов с текстовым управлением от грубой к детальной
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning

Mar 10

ByJunwei Luo, Yingying Zhang, Xue Yang, Kang Wu, Qi Zhu, Lei Liang, Jingdong Chen, Yansheng Li

Эффективное понимание визуально-языковых данных для крупномасштабных изображений дистанционного зондирования (RSI) является важной, но сложной задачей. Современные крупные визуально-языковые модели (LVLM) обычно используют ограниченные предопределенные сетки для обработки изображений, что приводит к потере информации при работе с гигапиксельными RSI. С другой стороны, использование неограниченных сеток значительно увеличивает вычислительные затраты. Для сохранения деталей изображения при снижении вычислительной сложности мы предлагаем метод текстово-ориентированного сокращения токенов с интеграцией динамической пирамиды изображений (DIP). Наш метод включает: (i) модуль фокусировки на регионах (RFM), который использует текстово-ориентированную локализацию для выявления ключевых визуальных токенов, и (ii) стратегию выбора фрагментов изображения и сокращения визуальных токенов от грубого к точному на основе DIP, которая направляется выходами RFM и избегает прямой обработки всего крупного изображения. Кроме того, существующие бенчмарки для оценки способности LVLM воспринимать крупные RSI страдают от ограниченного разнообразия вопросов и ограниченных размеров изображений. Мы создаем новый бенчмарк под названием LRS-VQA, который содержит 7 333 пары вопросов и ответов в 8 категориях, с длиной изображения до 27 328 пикселей. Наш метод превосходит существующие стратегии обработки высокого разрешения на четырех наборах данных с использованием тех же данных. Более того, по сравнению с существующими методами сокращения токенов, наш подход демонстрирует более высокую эффективность в условиях высокого разрешения. Набор данных и код доступны по адресу: https://github.com/VisionXLab/LRS-VQA.

Мультимодальное языковое моделирование для высокоточного анализа и генерации данных транскриптомики единичных клеток
Multimodal Language Modeling for High-Accuracy Single Cell Transcriptomics Analysis and Generation

Mar 12

ByYaorui Shi, Jiaqi Yang, Sihang Li, Junfeng Fang, Xiang Wang, Zhiyuan Liu, Yang Zhang

Предобученные языковые модели (PLM) произвели революцию в научных исследованиях, однако их применение в анализе одноклеточных данных остается ограниченным. Текстовые PLM не способны обрабатывать данные секвенирования РНК отдельных клеток, в то время как клеточные PLM не могут работать со свободным текстом, что ограничивает их использование в многомодальных задачах. Существующие попытки объединить эти модальности часто страдают от потери информации или недостаточной предобученности на отдельных модальностях, что приводит к неоптимальным результатам. Для решения этих проблем мы предлагаем Single-Cell MultiModal Generative Pre-trained Transformer (scMMGPT) — унифицированную PLM для совместного моделирования клеток и текста. scMMGPT эффективно интегрирует современные клеточные и текстовые PLM, способствуя обмену знаниями между модальностями для повышения производительности. Для преодоления разрыва между текстовой и клеточной модальностями scMMGPT использует специализированные кросс-модальные проекторы и проходит масштабное предобучение на 27 миллионах клеток — крупнейшем на сегодняшний день наборе данных для многомодальных клеточно-текстовых PLM. Такое масштабное предобучение позволяет scMMGPT превосходно справляться с совместными клеточно-текстовыми задачами, демонстрируя 84\% относительного улучшения в генерации текстовых описаний клеток, 20.5\% более высокую точность в аннотации типов клеток и 4\% улучшение точности k-NN для генерации псевдоклеток на основе текста, превосходя базовые модели.

Модели латентного диффузионного синтеза без псевдонимов: улучшение эквивариантности к дробным сдвигам в латентном пространстве диффузии
Alias-Free Latent Diffusion Models:Improving Fractional Shift Equivariance of Diffusion Latent Space

Mar 12

ByYifan Zhou, Zeqi Xiao, Shuai Yang, Xingang Pan

Латентные диффузионные модели (LDMs) известны своей нестабильностью в процессе генерации, когда даже небольшие изменения или сдвиги во входном шуме могут привести к существенно различающимся результатам. Это ограничивает их применимость в задачах, требующих согласованных результатов. В данной работе мы перепроектируем LDMs для повышения согласованности, делая их сдвиго-инвариантными. Хотя введение антиалиасинговых операций может частично улучшить сдвиго-инвариантность, значительные искажения и несогласованность сохраняются из-за уникальных проблем в LDMs, включая 1) усиление алиасинга во время обучения VAE и множественных выводов U-Net, а также 2) модули самовнимания, которые по своей природе не обладают сдвиго-инвариантностью. Для решения этих проблем мы перепроектируем модули внимания, делая их сдвиго-инвариантными, и предлагаем функцию потерь на инвариантность, которая эффективно подавляет частотную полосу признаков в непрерывной области. Полученная модель без алиасинга (AF-LDM) демонстрирует высокую сдвиго-инвариантность и устойчивость к нерегулярным искажениям. Многочисленные эксперименты показывают, что AF-LDM обеспечивает значительно более согласованные результаты по сравнению с базовой LDM в различных приложениях, включая редактирование видео и перевод изображений. Код доступен по адресу: https://github.com/SingleZombie/AFLDM.

Оптимизированное по стоимости групповое внимание с запросами для языковых моделей с длинным контекстом
Cost-Optimal Grouped-Query Attention for Long-Context LLMs

Mar 12

ByYingfa Chen, Yutong Wu, Xu Han, Zhiyuan Liu, Maosong Sun

Создание эффективных и производительных крупномасштабных языковых моделей (LLM) на основе архитектуры Transformer стало в последнее время ключевым направлением исследований, требующим максимизации языковых возможностей моделей при минимизации затрат на обучение и развертывание. Существующие работы в основном описывают сложные взаимосвязи между производительностью модели, размером параметров и объемом данных, а также исследуют оптимальное распределение вычислительных ресурсов для обучения LLM. Однако они упускают из виду влияние длины контекста и конфигурации механизма внимания (количество голов запросов и ключей-значений в группированном внимании) на обучение и вывод. В данной работе мы систематически сравниваем модели с различными размерами параметров, длинами контекста и конфигурациями механизма внимания с точки зрения производительности модели, вычислительных затрат и затрат на память. Затем мы расширяем существующие методы масштабирования, основанные исключительно на размере параметров и вычислительных ресурсах для обучения, чтобы направлять создание экономически оптимальных LLM как в процессе обучения, так и при выводе. Наши количественные исследования масштабирования показывают, что при обработке достаточно длинных последовательностей более крупная модель с меньшим количеством голов внимания может достичь меньшей потери, одновременно снижая вычислительные затраты и затраты на память. Наши результаты предоставляют ценные инсайты для разработки практических LLM, особенно в сценариях обработки длинных контекстов. Мы опубликуем наш код и данные в открытом доступе.

MoC: Ансамбли моделей для сегментации текстовых блоков в системе генерации с расширением на основе поиска
MoC: Mixtures of Text Chunking Learners for Retrieval-Augmented Generation System

Mar 12

ByJihao Zhao, Zhiyuan Ji, Zhaoxin Fan, Hanyu Wang, Simin Niu, Bo Tang, Feiyu Xiong, Zhiyu Li

Генерация с использованием поиска (Retrieval-Augmented Generation, RAG), хотя и служит эффективным дополнением к большим языковым моделям (LLM), часто упускает из виду важный аспект разбиения текста на фрагменты в рамках своего конвейера. В данной работе сначала представлен метод двойной метрики, включающий Ясность границ и Сцепляемость фрагментов, который позволяет напрямую количественно оценивать качество разбиения. Используя этот метод оценки, мы подчеркиваем присущие ограничения традиционного и семантического разбиения при обработке сложных контекстуальных нюансов, тем самым обосновывая необходимость интеграции LLM в процесс разбиения. Для решения компромисса между вычислительной эффективностью и точностью разбиения в подходах на основе LLM мы разработали гранулярно-ориентированную структуру Mixture-of-Chunkers (MoC), которая состоит из трехэтапного механизма обработки. Важно отметить, что наша цель — направить разбиватель на создание структурированного списка регулярных выражений для разбиения, которые затем используются для извлечения фрагментов из исходного текста. Многочисленные эксперименты демонстрируют, что как предложенные нами метрики, так и структура MoC эффективно решают задачи разбиения, раскрывая ядро процесса разбиения и повышая производительность системы RAG.

BIMBA: Селективное сканирование сжатия для задач видео-вопросов с длинным диапазоном
BIMBA: Selective-Scan Compression for Long-Range Video Question Answering

Mar 12

ByMd Mohaiminul Islam, Tushar Nagarajan, Huiyu Wang, Gedas Bertasius, Lorenzo Torresani

Видео-вопросно-ответные системы (VQA) для длинных видео сталкиваются с ключевой задачей извлечения релевантной информации и моделирования долгосрочных зависимостей из множества избыточных кадров. Механизм самовнимания предлагает общее решение для моделирования последовательностей, но его применение к огромному количеству пространственно-временных токенов в длинных видео связано с непомерно высокой вычислительной стоимостью. Большинство существующих методов полагаются на стратегии сжатия для снижения вычислительных затрат, такие как уменьшение длины входных данных за счет разреженной выборки кадров или сжатие выходной последовательности, передаваемой в большую языковую модель (LLM), с помощью пространственно-временного пулинга. Однако такие упрощенные подходы избыточно представляют повторяющуюся информацию и часто упускают важные события или быстро меняющиеся пространственно-временные паттерны. В данной работе мы представляем BIMBA — эффективную модель пространства состояний для обработки длинных видео. Наша модель использует алгоритм избирательного сканирования, чтобы научиться эффективно выбирать критически важную информацию из высокоразмерного видео и преобразовывать её в сокращенную последовательность токенов для эффективной обработки LLM. Многочисленные эксперименты демонстрируют, что BIMBA достигает наивысшей точности на нескольких бенчмарках для длинных видео-VQA, включая PerceptionTest, NExT-QA, EgoSchema, VNBench, LongVideoBench и Video-MME. Код и модели доступны по адресу https://sites.google.com/view/bimba-mllm.

Монте-Карло диффузия для обобщаемого обучения в RANSAC на основе машинного обучения
Monte Carlo Diffusion for Generalizable Learning-Based RANSAC

Mar 12

ByJiale Wang, Chen Zhao, Wei Ke, Tong Zhang

Random Sample Consensus (RANSAC) — это фундаментальный подход для устойчивого оценивания параметрических моделей на основе зашумленных данных. Существующие методы RANSAC, основанные на обучении, используют глубокое обучение для повышения устойчивости RANSAC к выбросам. Однако эти подходы обучаются и тестируются на данных, сгенерированных теми же алгоритмами, что приводит к ограниченной обобщающей способности на данные, выходящие за пределы распределения, во время вывода. Поэтому в данной работе мы представляем новую парадигму, основанную на диффузии, которая постепенно добавляет шум в эталонные данные, моделируя зашумленные условия для обучения RANSAC на основе обучения. Для повышения разнообразия данных мы интегрируем метод Монте-Карло в парадигму диффузии, аппроксимируя различные распределения данных за счет введения различных типов случайности на нескольких этапах. Мы оцениваем наш подход в контексте сопоставления признаков с помощью всесторонних экспериментов на наборах данных ScanNet и MegaDepth. Результаты экспериментов показывают, что наш механизм диффузии с использованием Монте-Карло значительно улучшает способность к обобщению RANSAC на основе обучения. Мы также проводим обширные исследования, которые подчеркивают эффективность ключевых компонентов нашей структуры.

Понимание и смягчение сдвигов распределения в машинном обучении Силовые поля
Understanding and Mitigating Distribution Shifts For Machine Learning Force Fields

Mar 11

ByTobias Kreiman, Aditi S. Krishnapriyan

Машинное обучение силовых полей (MLFF) представляет собой перспективную альтернативу дорогостоящим квантово-механическим молекулярным симуляциям ab initio. Учитывая разнообразие химических пространств, представляющих интерес, и стоимость генерации новых данных, важно понимать, как MLFF обобщаются за пределы своих обучающих распределений. Чтобы охарактеризовать и лучше понять сдвиги распределений в MLFF, мы проводим диагностические эксперименты на химических наборах данных, выявляя общие сдвиги, которые представляют значительные трудности даже для крупных базовых моделей, обученных на обширных данных. На основе этих наблюдений мы выдвигаем гипотезу, что текущие методы обучения с учителем недостаточно регуляризуют MLFF, что приводит к переобучению и плохому представлению систем, выходящих за пределы распределения. Затем мы предлагаем два новых метода в качестве начальных шагов для смягчения сдвигов распределений в MLFF. Наши методы сосредоточены на стратегиях уточнения во время тестирования, которые требуют минимальных вычислительных затрат и не используют дорогостоящие эталонные метки ab initio. Первая стратегия, основанная на спектральной теории графов, изменяет ребра тестовых графов, чтобы они соответствовали структурам графов, наблюдаемым во время обучения. Наша вторая стратегия улучшает представления для систем, выходящих за пределы распределения, во время тестирования, делая шаги градиента с использованием вспомогательной цели, такой как дешевый физический априор. Наши стратегии уточнения во время тестирования значительно снижают ошибки на системах, выходящих за пределы распределения, что позволяет предположить, что MLFF способны и могут двигаться в сторону моделирования разнообразных химических пространств, но не обучаются эффективно для этого. Наши эксперименты устанавливают четкие ориентиры для оценки обобщающих способностей следующего поколения MLFF. Наш код доступен по адресу https://tkreiman.github.io/projects/mlff_distribution_shifts/.