Ежедневно отобранные исследовательские статьи по ИИ с переводами
Увеличение длины контекста моделей языка (LMs) путем улучшения вращающегося позиционного вложения (RoPE) стало тенденцией. В то время как существующие работы в основном решают ограничения RoPE в рамках механизма внимания, настоящая статья предоставляет анализ почти всех частей LMs, раскрывая их негативное влияние на обобщение длины для внимания на основе RoPE. Используя теорию дискретной обработки сигналов, мы показываем, что RoPE позволяет периодическое внимание, неявно достигая Неравномерного Дискретного Преобразования Фурье. Однако эту периодичность подрывает спектральное повреждение, вызванное: 1) линейными слоями и функциями активации вне внимания; 2) недостаточно обученными частотными компонентами, привнесенными усечением по временной области. Основываясь на наших наблюдениях, мы предлагаем Позиционное Вложение Фурье (FoPE), которое улучшает частотные свойства внимания для улучшения как его периодического расширения, так и обобщения длины. FoPE строит ряды Фурье и обнуляет разрушительные частотные компоненты, увеличивая устойчивость модели к спектральному повреждению. Эксперименты на различных масштабах моделей показывают, что в различных окнах контекста FoPE может поддерживать более стабильную перплексию и более последовательную точность в задаче поиска иголки в стоге по сравнению с RoPE и ALiBi. Несколько анализов и абляций приносят дополнительную поддержку нашему методу и теоретическому моделированию.
Граф сцены в 3D представляет собой компактную модель сцены, хранящую информацию об объектах и семантических отношениях между ними, что делает его использование многообещающим для робототехнических задач. При взаимодействии с пользователем воплощенный интеллектуальный агент должен быть способен отвечать на различные запросы о сцене, сформулированные естественным языком. Большие языковые модели (LLM) являются выгодными решениями для взаимодействия пользователя с роботом благодаря своим способностям понимания естественного языка и рассуждения. Недавние методы создания обучаемых представлений 3D сцен продемонстрировали потенциал улучшения качества ответов LLM путем адаптации к 3D миру. Однако существующие методы не используют информацию о семантических отношениях между объектами явно, ограничиваясь информацией о их координатах. В данной работе мы предлагаем метод 3DGraphLLM для построения обучаемого представления графа 3D сцены. Обучаемое представление используется в качестве входных данных для LLM для выполнения задач 3D зрения и языка. В наших экспериментах на популярных наборах данных ScanRefer, RIORefer, Multi3DRefer, ScanQA, Sqa3D и Scan2cap мы демонстрируем преимущество этого подхода перед базовыми методами, которые не используют информацию о семантических отношениях между объектами. Код общедоступен по адресу https://github.com/CognitiveAISystems/3DGraphLLM.
Отсутствующие значения остаются общей проблемой для данных глубины во всех их разнообразных областях применения, обусловленной различными причинами, такими как неполное сбор данных и изменение перспективы. В данной работе преодолевается эта проблема с помощью DepthLab, модели восстановления глубины на основе диффузии изображения. Наша модель обладает двумя значительными преимуществами: (1) она демонстрирует устойчивость к областям с недостаточной глубиной, обеспечивая надежное восстановление как для непрерывных областей, так и для изолированных точек, и (2) она точно сохраняет согласованность масштаба с известной глубиной при заполнении отсутствующих значений. Основываясь на этих преимуществах, наш подход доказывает свою ценность в различных задачах, включая восстановление трехмерных сцен, генерацию текста в трехмерные сцены, реконструкцию с разреженным видом с помощью DUST3R и восстановление глубины LiDAR, превосходя текущие решения как по числовым показателям, так и по качеству визуализации. Наша страница проекта с исходным кодом доступна по адресу https://johanan528.github.io/depthlab_web/.
Модели генерации видео, подобные Sora, достигли значительного прогресса с архитектурой Multi-Modal Diffusion Transformer (MM-DiT). Однако текущие модели генерации видео в основном сосредотачиваются на одиночных подсказках, сталкиваясь с трудностями в создании согласованных сцен с несколькими последовательными подсказками, лучше отражающими динамические сценарии реального мира. Хотя некоторые первоначальные работы исследовали многоподсказочную генерацию видео, они сталкиваются с значительными проблемами, включая строгие требования к обучающим данным, слабое следование подсказкам и неестественные переходы. Для решения этих проблем мы предлагаем DiTCtrl - метод генерации видео с несколькими подсказками без обучения под MM-DiT архитектур впервые. Наша основная идея заключается в том, чтобы рассматривать задачу генерации видео с несколькими подсказками как временное редактирование видео с плавными переходами. Для достижения этой цели мы сначала анализируем механизм внимания MM-DiT, обнаруживая, что трехмерное полное внимание ведет себя аналогично блокам кросс- и самовнимания в моделях диффузии, похожих на UNet, обеспечивая управление семантикой с помощью маски через различные подсказки с общим вниманием для многоподсказочной генерации видео. Основываясь на нашем тщательном дизайне, видео, созданное DiTCtrl, обеспечивает плавные переходы и последовательное движение объектов при нескольких последовательных подсказках без дополнительного обучения. Кроме того, мы также представляем MPVBench - новый бенчмарк, специально разработанный для оценки производительности многоподсказочной генерации видео. Обширные эксперименты демонстрируют, что наш метод достигает передовой производительности без дополнительного обучения.
Генераторы трехмерных объектов по тексту или изображению, а также трехмерные сканеры теперь могут создавать трехмерные ресурсы с высококачественными формами и текстурами. Эти ресурсы обычно представляют собой единую объединенную структуру, такую как неявное нейронное поле, гауссова смесь или сетка, без какой-либо полезной структуры. Однако большинство приложений и творческих рабочих процессов требуют, чтобы ресурсы состояли из нескольких значимых частей, которые можно было бы манипулировать независимо. Для решения этой проблемы мы представляем PartGen, новый подход, который генерирует трехмерные объекты, состоящие из значимых частей, начиная с текста, изображения или неструктурированного трехмерного объекта. Сначала, имея несколько видов трехмерного объекта, сгенерированных или отрендеренных, многовидовая модель диффузии извлекает набор правдоподобных и согласованных с видом сегментаций частей, разделяя объект на части. Затем вторая многовидовая модель диффузии берет каждую часть отдельно, заполняет заслонки и использует завершенные виды для трехмерной реконструкции, передавая их в сеть трехмерной реконструкции. Этот процесс завершения учитывает контекст всего объекта, чтобы гарантировать согласованное объединение частей. Генеративная модель завершения может восстанавливать информацию, отсутствующую из-за заслонок; в экстремальных случаях она может галлюцинировать полностью невидимые части на основе входного трехмерного ресурса. Мы оцениваем наш метод на сгенерированных и реальных трехмерных ресурсах и показываем, что он превосходит базовые линии сегментации и извлечения частей с большим отрывом. Мы также демонстрируем прикладные программы, такие как редактирование трехмерных частей.
Несмотря на недавние достижения в области крупных языковых моделей, модели с открытым исходным кодом часто испытывают трудности с постоянным успешным выполнением сложных задач рассуждения. Существующие методы ансамблей, будь то применяемые на уровне токенов или выходных данных, не справляются с этими вызовами. В ответ на это мы представляем модель ансамбля языковых моделей с Монте-Карло деревом поиска (LE-MCTS), новую концепцию для ансамблевого объединения языковых моделей на уровне процесса. LE-MCTS формулирует пошаговое рассуждение с ансамблем языковых моделей как процесс принятия решений Маркова. В этой концепции состояния представляют собой промежуточные пути рассуждения, а действия состоят в генерации следующего шага рассуждения с использованием одной из языковых моделей, выбранных из заранее определенного пула. Руководствуясь моделью вознаграждения на основе процесса, LE-MCTS выполняет поиск по дереву по шагам рассуждения, сгенерированным различными языковыми моделями, выявляя наиболее точную цепочку рассуждения. Экспериментальные результаты на пяти бенчмарках математического рассуждения показывают, что наш подход превосходит как алгоритмы декодирования одиночных языковых моделей, так и методы ансамблей языковых моделей. Заметно, что LE-MCTS повышает производительность на 3,6% и 4,3% на наборах данных MATH и MQA соответственно, подчеркивая его эффективность в решении сложных задач рассуждения.
Вызов ARC кажется более сложным, чем ARC Easy, для современных LLMs в основном из-за схемы оценки, которая не позволяет прямого сравнения вариантов ответов, а не из-за врожденной сложности. Хотя некоторые исследователи тихо перешли к более подходящей схеме за последний год, последствия этого изменения пока еще не получили широкого признания. Мы выделяем это недооцененное изменение, показываем, как похожие практики оценки ложно подразумевают недостатки в рассуждениях в других бенчмарках, и демонстрируем, что более справедливые методы значительно сокращают разрывы в производительности (например, на SIQA) и даже приводят к сверхчеловеческим результатам (OpenBookQA). Таким образом, мы раскрываем, как оценка формирует воспринимаемую сложность и предлагаем рекомендации, чтобы гарантировать, что многовариантные оценки точно отражают фактические возможности модели.
Модели Mixture-of-Experts (MoE) с разреженной активацией широко применяются для увеличения объема модели без увеличения вычислительного бюджета. Однако стандартные маршрутизаторы TopK обучаются дискретно, недифференцируемо, что ограничивает их производительность и масштабируемость. Для решения этой проблемы мы предлагаем ReMoE, полностью дифференцируемую архитектуру MoE, которая представляет собой простую, но эффективную замену стандартной маршрутизации TopK+Softmax, используя в качестве маршрутизатора ReLU. Мы также предлагаем методы регулирования разреженности маршрутизатора при балансировке нагрузки между экспертами. Непрерывная природа ReMoE обеспечивает эффективное динамическое распределение вычислений между токенами и слоями, а также проявляет специализацию на область. Наши эксперименты показывают, что ReMoE последовательно превосходит стандартные MoE с маршрутизацией TopK по различным размерам моделей, количеству экспертов и уровням детализации. Более того, ReMoE обладает превосходной масштабируемостью по сравнению с традиционными архитектурами MoE. Реализация на основе Megatron-LM доступна по ссылке https://github.com/thu-ml/ReMoE.
Системы с извлечением для генерации (Retrieval-Augmented Generation, RAG) стали ключевыми в использовании обширных корпусов для генерации информированных и контекстно значимых ответов, заметно снижая галлюцинации в больших языковых моделях. Несмотря на значительные достижения, эти системы испытывают затруднения в эффективной обработке и извлечении информации из больших наборов данных, сохраняя при этом всеобъемлющее понимание контекста. В данной статье представлена методология SKETCH, которая улучшает процесс извлечения в RAG путем интеграции семантического текстового поиска с графами знаний, объединяя структурированные и неструктурированные данные для более глубокого понимания. SKETCH демонстрирует значительное улучшение производительности извлечения и сохраняет превосходное целостное понимание контекста по сравнению с традиционными методами. Оцененный на четырех разнообразных наборах данных: QuALITY, QASPER, NarrativeQA и Italian Cuisine, SKETCH последовательно превосходит базовые подходы по ключевым метрикам RAGAS, таким как релевантность_ответа, верность, точность_контекста и полнота_контекста. Особенно на наборе данных Italian Cuisine SKETCH достиг релевантности ответа 0.94 и точности контекста 0.99, представляя самую высокую производительность среди всех оцениваемых метрик. Эти результаты подчеркивают способность SKETCH обеспечивать более точные и контекстно значимые ответы, устанавливая новые стандарты для будущих систем извлечения.
Прогресс в области искусственного интеллекта в значительной степени зависит от масштаба и качества обучающих данных. Тем не менее, существует дефицит эмпирического анализа, изучающего характеристики хорошо установленных наборов данных помимо текста. В данной работе мы проводим крупнейший и первого вида продольный аудит по модальностям - популярные текстовые, речевые и видео наборы данных - от их детальных тенденций источников и ограничений использования до их географического и языкового представления. Наше ручное исследование охватывает почти 4000 публичных наборов данных с 1990 по 2024 год, охватывая 608 языков, 798 источников, 659 организаций и 67 стран. Мы обнаружили, что мультимодальные приложения машинного обучения в основном обращаются к веб-сканированным, синтетическим и платформам социальных медиа, таким как YouTube, для своих обучающих наборов данных, вытесняя все другие источники с 2019 года. Во-вторых, проследив цепочку происхождения наборов данных, мы обнаружили, что хотя менее 33% наборов данных имеют ограниченную лицензию, более 80% контента источников в широко используемых текстовых, речевых и видео наборах данных несут ограничения на коммерческое использование. Наконец, вопреки растущему числу языков и географий, представленных в публичных наборах данных для обучения искусственного интеллекта, наш аудит показывает, что меры относительного географического и многоязычного представления не смогли значительно улучшить их охват с 2013 года. Мы считаем, что широта нашего аудита позволяет нам эмпирически изучить тенденции в источниках данных, ограничениях и западно-центричности на уровне экосистемы, и что прозрачность в отношении этих вопросов является необходимой для прогресса в области ответственного искусственного интеллекта. В качестве вклада в текущие улучшения прозрачности наборов данных и ответственного использования, мы публикуем весь наш мультимодальный аудит, позволяя практикующим отслеживать происхождение данных в тексте, речи и видео.
Генерация видео из изображения по тексту (TI2V) направлена на создание видео изображения по текстовому описанию, что также называется анимацией изображения по тексту. Большинство существующих методов испытывают трудности при создании видео, которые хорошо соответствуют текстовым подсказкам, особенно при указании движения. Чтобы преодолеть это ограничение, мы представляем MotiF, простой, но эффективный подход, который направляет обучение модели на области с более выраженным движением, тем самым улучшая соответствие текста и генерацию движения. Мы используем оптический поток для создания тепловой карты движения и взвешиваем потери в соответствии с интенсивностью движения. Эта модифицированная цель приводит к заметным улучшениям и дополняет существующие методы, использующие движущиеся априорные данные в качестве входных данных модели. Кроме того, из-за отсутствия разнообразного набора данных для оценки генерации TI2V, мы предлагаем TI2V Bench, набор данных, состоящий из 320 пар изображение-текст для надежной оценки. Мы представляем протокол оценки людей, который просит аннотаторов выбрать общее предпочтение между двумя видео, а затем обосновать свой выбор. После всесторонней оценки на TI2V Bench, MotiF превосходит девять моделей с открытым исходным кодом, достигая среднего предпочтения на уровне 72%. Набор данных TI2V Bench доступен по ссылке https://wang-sj16.github.io/motif/.