Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Позиционное вложение Фурье: улучшение периодического расширения внимания для обобщения по длине.
Fourier Position Embedding: Enhancing Attention's Periodic Extension for Length Generalization

Dec 23

ByErmo Hua, Che Jiang, Xingtai Lv, Kaiyan Zhang, Ning Ding, Youbang Sun, Biqing Qi, Yuchen Fan, Xue Kai Zhu, Bowen Zhou

Увеличение длины контекста моделей языка (LMs) путем улучшения вращающегося позиционного вложения (RoPE) стало тенденцией. В то время как существующие работы в основном решают ограничения RoPE в рамках механизма внимания, настоящая статья предоставляет анализ почти всех частей LMs, раскрывая их негативное влияние на обобщение длины для внимания на основе RoPE. Используя теорию дискретной обработки сигналов, мы показываем, что RoPE позволяет периодическое внимание, неявно достигая Неравномерного Дискретного Преобразования Фурье. Однако эту периодичность подрывает спектральное повреждение, вызванное: 1) линейными слоями и функциями активации вне внимания; 2) недостаточно обученными частотными компонентами, привнесенными усечением по временной области. Основываясь на наших наблюдениях, мы предлагаем Позиционное Вложение Фурье (FoPE), которое улучшает частотные свойства внимания для улучшения как его периодического расширения, так и обобщения длины. FoPE строит ряды Фурье и обнуляет разрушительные частотные компоненты, увеличивая устойчивость модели к спектральному повреждению. Эксперименты на различных масштабах моделей показывают, что в различных окнах контекста FoPE может поддерживать более стабильную перплексию и более последовательную точность в задаче поиска иголки в стоге по сравнению с RoPE и ALiBi. Несколько анализов и абляций приносят дополнительную поддержку нашему методу и теоретическому моделированию.

Глубинная лаборатория: от частичного к полному
DepthLab: From Partial to Complete

Dec 24

ByZhiheng Liu, Ka Leong Cheng, Qiuyu Wang, Shuzhe Wang, Hao Ouyang, Bin Tan, Kai Zhu, Yujun Shen, Qifeng Chen, Ping Luo

Отсутствующие значения остаются общей проблемой для данных глубины во всех их разнообразных областях применения, обусловленной различными причинами, такими как неполное сбор данных и изменение перспективы. В данной работе преодолевается эта проблема с помощью DepthLab, модели восстановления глубины на основе диффузии изображения. Наша модель обладает двумя значительными преимуществами: (1) она демонстрирует устойчивость к областям с недостаточной глубиной, обеспечивая надежное восстановление как для непрерывных областей, так и для изолированных точек, и (2) она точно сохраняет согласованность масштаба с известной глубиной при заполнении отсутствующих значений. Основываясь на этих преимуществах, наш подход доказывает свою ценность в различных задачах, включая восстановление трехмерных сцен, генерацию текста в трехмерные сцены, реконструкцию с разреженным видом с помощью DUST3R и восстановление глубины LiDAR, превосходя текущие решения как по числовым показателям, так и по качеству визуализации. Наша страница проекта с исходным кодом доступна по адресу https://johanan528.github.io/depthlab_web/.

3DGraphLLM: Сочетание семантических графов и больших языковых моделей для понимания трехмерных сцен
3DGraphLLM: Combining Semantic Graphs and Large Language Models for 3D Scene Understanding

Dec 24

ByTatiana Zemskova, Dmitry Yudin

Граф сцены в 3D представляет собой компактную модель сцены, хранящую информацию об объектах и семантических отношениях между ними, что делает его использование многообещающим для робототехнических задач. При взаимодействии с пользователем воплощенный интеллектуальный агент должен быть способен отвечать на различные запросы о сцене, сформулированные естественным языком. Большие языковые модели (LLM) являются выгодными решениями для взаимодействия пользователя с роботом благодаря своим способностям понимания естественного языка и рассуждения. Недавние методы создания обучаемых представлений 3D сцен продемонстрировали потенциал улучшения качества ответов LLM путем адаптации к 3D миру. Однако существующие методы не используют информацию о семантических отношениях между объектами явно, ограничиваясь информацией о их координатах. В данной работе мы предлагаем метод 3DGraphLLM для построения обучаемого представления графа 3D сцены. Обучаемое представление используется в качестве входных данных для LLM для выполнения задач 3D зрения и языка. В наших экспериментах на популярных наборах данных ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D и Scan2cap мы демонстрируем преимущество этого подхода перед базовыми методами, которые не используют информацию о семантических отношениях между объектами. Код общедоступен по адресу https://github.com/CognitiveAISystems/3DGraphLLM.

DiTCtrl: Исследование управления вниманием в мультимодальном диффузионном трансформере для генерации длинных видеороликов с несколькими подсказками без настройки.
DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation

Dec 24

ByMinghong Cai, Xiaodong Cun, Xiaoyu Li, Wenze Liu, Zhaoyang Zhang, Yong Zhang, Ying Shan, Xiangyu Yue

Модели генерации видео, подобные Sora, достигли значительного прогресса с архитектурой Multi-Modal Diffusion Transformer (MM-DiT). Однако текущие модели генерации видео в основном сосредотачиваются на одиночных подсказках, сталкиваясь с трудностями в создании согласованных сцен с несколькими последовательными подсказками, лучше отражающими динамические сценарии реального мира. Хотя некоторые первоначальные работы исследовали многоподсказочную генерацию видео, они сталкиваются с значительными проблемами, включая строгие требования к обучающим данным, слабое следование подсказкам и неестественные переходы. Для решения этих проблем мы предлагаем DiTCtrl - метод генерации видео с несколькими подсказками без обучения под MM-DiT архитектур впервые. Наша основная идея заключается в том, чтобы рассматривать задачу генерации видео с несколькими подсказками как временное редактирование видео с плавными переходами. Для достижения этой цели мы сначала анализируем механизм внимания MM-DiT, обнаруживая, что трехмерное полное внимание ведет себя аналогично блокам кросс- и самовнимания в моделях диффузии, похожих на UNet, обеспечивая управление семантикой с помощью маски через различные подсказки с общим вниманием для многоподсказочной генерации видео. Основываясь на нашем тщательном дизайне, видео, созданное DiTCtrl, обеспечивает плавные переходы и последовательное движение объектов при нескольких последовательных подсказках без дополнительного обучения. Кроме того, мы также представляем MPVBench - новый бенчмарк, специально разработанный для оценки производительности многоподсказочной генерации видео. Обширные эксперименты демонстрируют, что наш метод достигает передовой производительности без дополнительного обучения.

PartGen: Генерация и восстановление трехмерных объектов на уровне частей с использованием моделей диффузии из нескольких видов данных.
PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models

Dec 24

ByMinghao Chen, Roman Shapovalov, Iro Laina, Tom Monnier, Jianyuan Wang, David Novotny, Andrea Vedaldi

Генераторы трехмерных объектов по тексту или изображению, а также трехмерные сканеры теперь могут создавать трехмерные ресурсы с высококачественными формами и текстурами. Эти ресурсы обычно представляют собой единую объединенную структуру, такую как неявное нейронное поле, гауссова смесь или сетка, без какой-либо полезной структуры. Однако большинство приложений и творческих рабочих процессов требуют, чтобы ресурсы состояли из нескольких значимых частей, которые можно было бы манипулировать независимо. Для решения этой проблемы мы представляем PartGen, новый подход, который генерирует трехмерные объекты, состоящие из значимых частей, начиная с текста, изображения или неструктурированного трехмерного объекта. Сначала, имея несколько видов трехмерного объекта, сгенерированных или отрендеренных, многовидовая модель диффузии извлекает набор правдоподобных и согласованных с видом сегментаций частей, разделяя объект на части. Затем вторая многовидовая модель диффузии берет каждую часть отдельно, заполняет заслонки и использует завершенные виды для трехмерной реконструкции, передавая их в сеть трехмерной реконструкции. Этот процесс завершения учитывает контекст всего объекта, чтобы гарантировать согласованное объединение частей. Генеративная модель завершения может восстанавливать информацию, отсутствующую из-за заслонок; в экстремальных случаях она может галлюцинировать полностью невидимые части на основе входного трехмерного ресурса. Мы оцениваем наш метод на сгенерированных и реальных трехмерных ресурсах и показываем, что он превосходит базовые линии сегментации и извлечения частей с большим отрывом. Мы также демонстрируем прикладные программы, такие как редактирование трехмерных частей.

Совмещение больших языковых моделей с деревом поиска с наградой процесса для улучшения сложного рассуждения.
Ensembling Large Language Models with Process Reward-Guided Tree Search for Better Complex Reasoning

Dec 20

BySungjin Park, Xiao Liu, Yeyun Gong, Edward Choi

Несмотря на недавние достижения в области крупных языковых моделей, модели с открытым исходным кодом часто испытывают трудности с постоянным успешным выполнением сложных задач рассуждения. Существующие методы ансамблей, будь то применяемые на уровне токенов или выходных данных, не справляются с этими вызовами. В ответ на это мы представляем модель ансамбля языковых моделей с Монте-Карло деревом поиска (LE-MCTS), новую концепцию для ансамблевого объединения языковых моделей на уровне процесса. LE-MCTS формулирует пошаговое рассуждение с ансамблем языковых моделей как процесс принятия решений Маркова. В этой концепции состояния представляют собой промежуточные пути рассуждения, а действия состоят в генерации следующего шага рассуждения с использованием одной из языковых моделей, выбранных из заранее определенного пула. Руководствуясь моделью вознаграждения на основе процесса, LE-MCTS выполняет поиск по дереву по шагам рассуждения, сгенерированным различными языковыми моделями, выявляя наиболее точную цепочку рассуждения. Экспериментальные результаты на пяти бенчмарках математического рассуждения показывают, что наш подход превосходит как алгоритмы декодирования одиночных языковых моделей, так и методы ансамблей языковых моделей. Заметно, что LE-MCTS повышает производительность на 3,6% и 4,3% на наборах данных MATH и MQA соответственно, подчеркивая его эффективность в решении сложных задач рассуждения.

Если вы пропустили: ARC-«вызов» не так уж и сложен.
In Case You Missed It: ARC 'Challenge' Is Not That Challenging

Dec 23

ByŁukasz Borchmann

Вызов ARC кажется более сложным, чем ARC Easy, для современных LLMs в основном из-за схемы оценки, которая не позволяет прямого сравнения вариантов ответов, а не из-за врожденной сложности. Хотя некоторые исследователи тихо перешли к более подходящей схеме за последний год, последствия этого изменения пока еще не получили широкого признания. Мы выделяем это недооцененное изменение, показываем, как похожие практики оценки ложно подразумевают недостатки в рассуждениях в других бенчмарках, и демонстрируем, что более справедливые методы значительно сокращают разрывы в производительности (например, на SIQA) и даже приводят к сверхчеловеческим результатам (OpenBookQA). Таким образом, мы раскрываем, как оценка формирует воспринимаемую сложность и предлагаем рекомендации, чтобы гарантировать, что многовариантные оценки точно отражают фактические возможности модели.

ReMoE: Полностью дифференцируемая смесь экспертов с маршрутизацией ReLU
ReMoE: Fully Differentiable Mixture-of-Experts with ReLU Routing

Dec 19

ByZiteng Wang, Jianfei Chen, Jun Zhu

Модели Mixture-of-Experts (MoE) с разреженной активацией широко применяются для увеличения объема модели без увеличения вычислительного бюджета. Однако стандартные маршрутизаторы TopK обучаются дискретно, недифференцируемо, что ограничивает их производительность и масштабируемость. Для решения этой проблемы мы предлагаем ReMoE, полностью дифференцируемую архитектуру MoE, которая представляет собой простую, но эффективную замену стандартной маршрутизации TopK+Softmax, используя в качестве маршрутизатора ReLU. Мы также предлагаем методы регулирования разреженности маршрутизатора при балансировке нагрузки между экспертами. Непрерывная природа ReMoE обеспечивает эффективное динамическое распределение вычислений между токенами и слоями, а также проявляет специализацию на область. Наши эксперименты показывают, что ReMoE последовательно превосходит стандартные MoE с маршрутизацией TopK по различным размерам моделей, количеству экспертов и уровням детализации. Более того, ReMoE обладает превосходной масштабируемостью по сравнению с традиционными архитектурами MoE. Реализация на основе Megatron-LM доступна по ссылке https://github.com/thu-ml/ReMoE.

Преодоление разрыва в истории данных между текстом, речью и видео.
Bridging the Data Provenance Gap Across Text, Speech and Video

Dec 19

ByShayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Naana Obeng-Marnu, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara

Прогресс в области искусственного интеллекта в значительной степени зависит от масштаба и качества обучающих данных. Тем не менее, существует дефицит эмпирического анализа, изучающего характеристики хорошо установленных наборов данных помимо текста. В данной работе мы проводим крупнейший и первого вида продольный аудит по модальностям - популярные текстовые, речевые и видео наборы данных - от их детальных тенденций источников и ограничений использования до их географического и языкового представления. Наше ручное исследование охватывает почти 4000 публичных наборов данных с 1990 по 2024 год, охватывая 608 языков, 798 источников, 659 организаций и 67 стран. Мы обнаружили, что мультимодальные приложения машинного обучения в основном обращаются к веб-сканированным, синтетическим и платформам социальных медиа, таким как YouTube, для своих обучающих наборов данных, вытесняя все другие источники с 2019 года. Во-вторых, проследив цепочку происхождения наборов данных, мы обнаружили, что хотя менее 33% наборов данных имеют ограниченную лицензию, более 80% контента источников в широко используемых текстовых, речевых и видео наборах данных несут ограничения на коммерческое использование. Наконец, вопреки растущему числу языков и географий, представленных в публичных наборах данных для обучения искусственного интеллекта, наш аудит показывает, что меры относительного географического и многоязычного представления не смогли значительно улучшить их охват с 2013 года. Мы считаем, что широта нашего аудита позволяет нам эмпирически изучить тенденции в источниках данных, ограничениях и западно-центричности на уровне экосистемы, и что прозрачность в отношении этих вопросов является необходимой для прогресса в области ответственного искусственного интеллекта. В качестве вклада в текущие улучшения прозрачности наборов данных и ответственного использования, мы публикуем весь наш мультимодальный аудит, позволяя практикующим отслеживать происхождение данных в тексте, речи и видео.

ЭСКИЗ: Структурированное знание для улучшения понимания текста для комплексного извлечения
SKETCH: Structured Knowledge Enhanced Text Comprehension for Holistic Retrieval

Dec 19

ByAakash Mahalingam, Vinesh Kumar Gande, Aman Chadha, Vinija Jain, Divya Chaudhary

Системы с извлечением для генерации (Retrieval-Augmented Generation, RAG) стали ключевыми в использовании обширных корпусов для генерации информированных и контекстно значимых ответов, заметно снижая галлюцинации в больших языковых моделях. Несмотря на значительные достижения, эти системы испытывают затруднения в эффективной обработке и извлечении информации из больших наборов данных, сохраняя при этом всеобъемлющее понимание контекста. В данной статье представлена методология SKETCH, которая улучшает процесс извлечения в RAG путем интеграции семантического текстового поиска с графами знаний, объединяя структурированные и неструктурированные данные для более глубокого понимания. SKETCH демонстрирует значительное улучшение производительности извлечения и сохраняет превосходное целостное понимание контекста по сравнению с традиционными методами. Оцененный на четырех разнообразных наборах данных: QuALITY, QASPER, NarrativeQA и Italian Cuisine, SKETCH последовательно превосходит базовые подходы по ключевым метрикам RAGAS, таким как релевантность_ответа, верность, точность_контекста и полнота_контекста. Особенно на наборе данных Italian Cuisine SKETCH достиг релевантности ответа 0.94 и точности контекста 0.99, представляя самую высокую производительность среди всех оцениваемых метрик. Эти результаты подчеркивают способность SKETCH обеспечивать более точные и контекстно значимые ответы, устанавливая новые стандарты для будущих систем извлечения.

МотиФ: Учет текста в анимации изображений с использованием потерь движения фокуса.
MotiF: Making Text Count in Image Animation with Motion Focal Loss

Dec 20

ByShijie Wang, Samaneh Azadi, Rohit Girdhar, Saketh Rambhatla, Chen Sun, Xi Yin

Генерация видео из изображения по тексту (TI2V) направлена на создание видео изображения по текстовому описанию, что также называется анимацией изображения по тексту. Большинство существующих методов испытывают трудности при создании видео, которые хорошо соответствуют текстовым подсказкам, особенно при указании движения. Чтобы преодолеть это ограничение, мы представляем MotiF, простой, но эффективный подход, который направляет обучение модели на области с более выраженным движением, тем самым улучшая соответствие текста и генерацию движения. Мы используем оптический поток для создания тепловой карты движения и взвешиваем потери в соответствии с интенсивностью движения. Эта модифицированная цель приводит к заметным улучшениям и дополняет существующие методы, использующие движущиеся априорные данные в качестве входных данных модели. Кроме того, из-за отсутствия разнообразного набора данных для оценки генерации TI2V, мы предлагаем TI2V Bench, набор данных, состоящий из 320 пар изображение-текст для надежной оценки. Мы представляем протокол оценки людей, который просит аннотаторов выбрать общее предпочтение между двумя видео, а затем обосновать свой выбор. После всесторонней оценки на TI2V Bench, MotiF превосходит девять моделей с открытым исходным кодом, достигая среднего предпочтения на уровне 72%. Набор данных TI2V Bench доступен по ссылке https://wang-sj16.github.io/motif/.