Ежедневно отобранные исследовательские статьи по ИИ с переводами
Извлечение содержимого документа имеет важное значение в компьютерном зрении, особенно для удовлетворения потребностей крупных языковых моделей (LLM) и технологий генерации с использованием поиска (RAG) в высококачественных данных. Однако текущие методы разбора документов страдают от значительных ограничений в разнообразии и полноценной оценке. Для решения этих проблем мы представляем OmniDocBench, новый многоканальный бенчмарк, разработанный для продвижения автоматизированного извлечения содержимого документов. OmniDocBench включает тщательно подобранный и аннотированный высококачественный набор данных для оценки, включающий девять различных типов документов, таких как научные статьи, учебники, слайды и другие. Наш бенчмарк предоставляет гибкую и всестороннюю систему оценки с 19 метками категорий макета и 14 атрибутными метками, обеспечивая многоуровневые оценки по всему набору данных, отдельным модулям или конкретным типам данных. С использованием OmniDocBench мы проводим исчерпывающий сравнительный анализ существующих модульных конвейеров и мультимодальных методов end-to-end, выявляя их ограничения в работе с разнообразием документов и обеспечивая справедливую оценку. OmniDocBench устанавливает надежный, разнообразный и справедливый стандарт оценки для области извлечения содержимого документов, предлагая важные идеи для будущих усовершенствований и способствуя развитию технологий разбора документов. Коды и набор данных доступны по ссылке https://github.com/opendatalab/OmniDocBench.
Большие языковые модели (LLM) ограничены возможностью рассуждать в "языковом пространстве", где они обычно выражают процесс рассуждения цепочкой мыслей (CoT) для решения сложной проблемы рассуждения. Однако мы утверждаем, что языковое пространство не всегда оптимально для рассуждения. Например, большинство словесных токенов предназначены в основном для текстовой связности и не являются существенными для рассуждения, в то время как некоторые критические токены требуют сложного планирования и представляют собой огромные вызовы для LLM. Для исследования потенциала рассуждения LLM в неограниченном латентном пространстве вместо использования естественного языка мы представляем новую парадигму Coconut (Цепочка Непрерывных Мыслей). Мы используем последнее скрытое состояние LLM в качестве представления состояния рассуждения (называемого "непрерывными мыслями"). Вместо декодирования этого в словесный токен мы подаем его обратно в LLM как встраивание последующего ввода напрямую в непрерывном пространстве. Эксперименты показывают, что Coconut может эффективно дополнять LLM на нескольких задачах рассуждения. Эта новая латентная парадигма рассуждения приводит к возникновению продвинутых шаблонов рассуждения: непрерывные мысли могут кодировать несколько альтернативных следующих шагов рассуждения, позволяя модели выполнять поиск в ширину (BFS) для решения проблемы, вместо преждевременного принятия решения о единственном детерминированном пути, как CoT. Coconut превосходит CoT в некоторых логических задачах рассуждения, требующих значительного возврата назад во время планирования, с меньшим количеством мысленных токенов во время вывода. Эти результаты демонстрируют перспективы латентного рассуждения и предлагают ценные идеи для будущих исследований.
Поскольку языковые модели регулярно допускают ошибки при решении математических задач, автоматизированная идентификация ошибок в процессе рассуждений становится все более значимой для их масштабного контроля. В данной статье мы представляем ProcessBench для измерения способности выявлять ошибочные шаги в математических рассуждениях. Он состоит из 3 400 тестовых случаев, в основном сосредоточенных на математических задачах уровня соревнований и олимпиад. Каждый тестовый случай содержит пошаговое решение с указанием места ошибки экспертами. Модели должны определить самый ранний шаг, содержащий ошибку, или заключить, что все шаги верны. Мы проводим обширную оценку на ProcessBench, включая два типа моделей: модели наград за процесс (PRM) и модели-критики, где для последних мы подталкиваем общие языковые модели к критике каждого шага решения. Мы делаем два основных наблюдения: (1) Существующие PRM обычно не могут обобщиться на более сложные математические задачи за пределами GSM8K и MATH. Они уступают как моделям-критикам (т.е. подталкиваемым общим языковым моделям), так и нашей собственной обученной PRM, которая просто настроена на набор данных PRM800K. (2) Лучшая модель с открытым исходным кодом, QwQ-32B-Preview, продемонстрировала способность к критике, конкурентную с собственной моделью GPT-4o, хотя она все еще уступает специализированной на рассуждениях o1-mini. Мы надеемся, что ProcessBench сможет способствовать будущим исследованиям в оценке процесса рассуждений, открывая путь к масштабному контролю языковых моделей.
Внедрение памяти в агентов является неотъемлемым для многих задач в области Обучения с Подкреплением (RL). В частности, память имеет первостепенное значение для задач, требующих использования прошлой информации, адаптации к новым средам и повышения эффективности выборки. Однако термин "память" охватывает широкий спектр концепций, что в сочетании с отсутствием унифицированной методологии для проверки памяти агента приводит к ошибочным суждениям о способностях памяти агентов и мешает объективному сравнению с другими агентами с улучшенной памятью. Настоящая статья нацелена на упрощение концепции памяти в RL путем предоставления практических точных определений типов памяти агента, таких как долгосрочная по сравнению с краткосрочной памятью и декларативная по сравнению с процедурной памятью, вдохновленных когнитивной наукой. Используя эти определения, мы классифицируем различные классы памяти агента, предлагаем надежную экспериментальную методологию для оценки способностей памяти агентов RL и стандартизируем оценки. Более того, мы эмпирически демонстрируем важность соблюдения предложенной методологии при оценке различных типов памяти агента путем проведения экспериментов с различными агентами RL и последствий ее нарушения.
Быстрое развитие крупных моделей видео-языкового восприятия (VLM) привело к впечатляющим результатам на академических бенчмарках, в основном на широко используемых языках. Однако существуют значительные пробелы в способности текущих VLM обрабатывать языки с ограниченными ресурсами и разнообразные культурные контексты, в значительной степени из-за отсутствия качественных, разнообразных и проверенных на безопасность данных. В результате эти модели часто испытывают затруднения в понимании языков с ограниченными ресурсами и культурных нюансов таким образом, чтобы избежать токсичности. Для преодоления этих ограничений мы представляем Maya, модель мультимодального мультиязыкового восприятия с открытым исходным кодом. Наши вклады тройные: 1) мультиязыковый набор данных для предварительного обучения изображение-текст на восьми языках, основанный на наборе данных предварительного обучения LLaVA; 2) тщательный анализ токсичности в наборе данных LLaVA, за которым последовало создание новой версии без токсичности на восьми языках; и 3) мультиязыковая модель изображение-текст, поддерживающая эти языки, улучшая культурное и языковое понимание в задачах видео-языкового восприятия. Код доступен по ссылке https://github.com/nahidalam/maya.
Глобальная визуальная геолокация предсказывает местоположение, где было сделано изображение на Земле. Поскольку изображения различаются по степени точности локализации, эта задача неизбежно связана с значительной степенью неопределенности. Однако существующие подходы детерминированы и не учитывают этот аспект. В данной статье мы стремимся сократить разрыв между традиционной геолокацией и современными генеративными методами. Мы предлагаем первый генеративный подход к геолокации на основе диффузии и сопоставления потока Римана, где процесс денойзинга работает непосредственно на поверхности Земли. Наша модель достигает передовых результатов на трех визуальных бенчмарках геолокации: OpenStreetView-5M, YFCC-100M и iNat21. Кроме того, мы представляем задачу вероятностной визуальной геолокации, где модель предсказывает распределение вероятностей по всем возможным местоположениям вместо одной точки. Мы вводим новые метрики и базовые значения для этой задачи, демонстрируя преимущества нашего подхода на основе диффузии. Коды и модели будут доступны.
Многомодельные модели на больших языковых корпусах (MLLM) превосходят в задачах вид-язык благодаря предварительному обучению исключительно на грубых аннотациях концепций (например, подписям к изображениям). Мы предполагаем, что интеграция аннотаций тонкой детализации концепций (например, меток объектов и областей объектов) дополнительно улучшит производительность, поскольку обе гранулярности данных дополняют друг друга в плане ширины и глубины представления концепций. Мы представляем новый набор данных с аннотациями многомодальных мультигранулярных концепций (MMGiC) для MLLM. При создании MMGiC мы исследуем влияние различных методов обработки данных на многомодальное понимание и генерацию. Наши анализы показывают, что мультигранулярные аннотации концепций интегрируются и дополняют друг друга в рамках нашего структурированного шаблона и общей структуры MLLM. Мы ясно исследуем и демонстрируем потенциал MMGiC в помощи MLLM в лучшем определении и изучении концепций, выравнивая вид и язык на разных уровнях детализации. Мы также подтверждаем нашу гипотезу, исследуя справедливое сравнение и эффективное взаимодействие между MMGiC и данными изображения-подпись на 12 многомодальных бенчмарках понимания и генерации, например, их сочетание достигает улучшений на 3.95% и 2.34% по сравнению только с данными изображения-подпись на POPE и SEED-Bench. Код, данные и модели будут доступны на https://github.com/LooperXX/MMGiC.
В последние годы наблюдается значительный рост интереса к объединению понимания и генерации изображений в рамках больших языковых моделей (LLM). Этот растущий интерес побудил нас исследовать расширение этого объединения на видео. Основное препятствие заключается в разработке универсального видео-токенизатора, который бы учитывал как пространственные характеристики, так и временные динамики видео для получения представлений для LLM, а эти представления могли бы быть декодированы в реалистичные видеоролики для возможности генерации видео. В данной работе мы представляем Divot, Токенизатор Видео на Основе Диффузии, который использует процесс диффузии для обучения представлений видео методом самообучения. Мы полагаем, что если модель диффузии видео может эффективно устранять шум видеороликов, принимая признаки видео-токенизатора в качестве условия, то токенизатор успешно захватил надежную пространственную и временную информацию. Кроме того, модель диффузии видео по своей сути действует как де-токенизатор, декодируя видеоролики из их представлений. На основе токенизатора Divot мы представляем Divot-Vicuna через авторегрессию видео-в-текст и генерацию текста-в-видео, моделируя распределения непрерывных признаков Divot смесью гауссовских моделей. Экспериментальные результаты показывают, что наш диффузионный видео-токенизатор, интегрированный с предварительно обученной LLM, достигает конкурентоспособной производительности на различных бенчмарках по пониманию и генерации видео. Инструкция, настроенная на Divot-Vicuna, также превосходит в рассказах о видео, генерируя переплетенные повествования и соответствующие видеоролики.
Современные модели генерации 3D-изображений обычно полагаются на ограниченные 3D-`золотые метки' или 2D-приоритеты диффузии для создания 3D-контента. Однако их производительность ограничена ограниченными 3D-приоритетами из-за отсутствия масштабируемых обучающих парадигм. В данной работе мы представляем See3D, визуально-условную многозрительную модель диффузии, обученную на крупномасштабных интернет-видео для создания 3D-изображений в открытом мире. Модель стремится получить знания о 3D, исключительно видя визуальный контент из обширных и быстрорастущих видеоданных - Вы видите это, Вы получаете это. Для достижения этой цели мы сначала увеличиваем обучающие данные с помощью предложенного конвейера курирования данных, который автоматически фильтрует многозрительные несоответствия и недостаточные наблюдения из исходных видео. Это приводит к высококачественному, богато разнообразному, крупномасштабному набору данных многозрительных изображений, названному WebVi3D, содержащему 320 млн кадров из 16 млн видеороликов. Тем не менее, обучение общих 3D-приоритетов из видео без явной 3D-геометрии или аннотаций камеры является нетривиальной задачей, и аннотация положений для видеороликов веб-масштаба является чрезмерно дорогостоящей. Чтобы устранить необходимость в условиях положения, мы представляем инновационный визуальный признак - чисто 2D-индуктивный визуальный сигнал, генерируемый путем добавления зависящего от времени шума к маскированным видеоданным. Наконец, мы представляем новую визуально-условную 3D-модель генерации, интегрируя See3D в основанную на искажениях конвейерную систему для создания 3D-изображений высокой точности. Наши численные и визуальные сравнения на одиночных и разреженных бенчмарках реконструкции показывают, что See3D, обученная на экономичных и масштабируемых видеоданных, достигает значительных возможностей генерации без обучения и создания в открытом мире, заметно превосходя модели, обученные на дорогостоящих и ограниченных 3D-наборах данных. Пожалуйста, обратитесь к нашей странице проекта по адресу: https://vision.baai.ac.cn/see3d
Линейные трансформеры привлекли внимание как эффективная альтернатива стандартным трансформерам, однако их производительность в задачах поиска и обработки длинных контекстов ограничена. Для преодоления этих ограничений недавние исследования исследовали два различных механизма: ворота для адаптивного управления памятью и правило обновления дельта для точных модификаций памяти. Мы замечаем, что эти механизмы дополняют друг друга: ворота обеспечивают быстрое стирание памяти, в то время как правило дельта облегчает целенаправленные обновления. Основываясь на этом понимании, мы представляем воротно-дельтовое правило и разрабатываем параллельный алгоритм обучения, оптимизированный для современного оборудования. Наша предложенная архитектура, Gated DeltaNet, последовательно превосходит существующие модели, такие как Mamba2 и DeltaNet, на нескольких бенчмарках, включая языковое моделирование, рассуждения на здравый смысл, поиск в контексте, экстраполяцию длины и понимание длинных контекстов. Мы дополнительно улучшаем производительность, разрабатывая гибридные архитектуры, которые объединяют слои Gated DeltaNet с вниманием со скользящим окном или слоями Mamba2, достигая как улучшенной эффективности обучения, так и превосходной производительности в задачах.
В данной работе мы предлагаем первый подход к передаче движения в диффузионном трансформере с использованием Смеси Руководства Оценками (MSG), теоретически обоснованной концепции для передачи движения в моделях диффузии. Наш важный теоретический вклад заключается в переформулировании условной оценки для декомпозиции оценки движения и оценки содержимого в моделях диффузии. Формулируя передачу движения как смесь потенциальных энергий, MSG естественным образом сохраняет композицию сцены и обеспечивает креативные преобразования сцены, сохраняя целостность переданных образцов движения. Эта новаторская выборка работает непосредственно с предварительно обученными видеомоделями диффузии без дополнительного обучения или настройки. Через обширные эксперименты MSG продемонстрировал успешное решение различных сценариев, включая передачу движения одного объекта, нескольких объектов и межобъектную передачу движения, а также сложную передачу камерного движения. Кроме того, мы представляем MotionBench, первый набор данных по передаче движения, состоящий из 200 исходных видеороликов и 1000 переданных движений, охватывающий передачу одного/нескольких объектов и сложные камерные движения.
С увеличивающимися объемами данных обсервации Земли, представленными в архивах крупных программ, таких как Copernicus, возрастает потребность в эффективных векторных представлениях исходных данных. Подход извлечения признаков из предварительно обученных глубоких нейронных сетей является мощным методом, способным обеспечить семантические абстракции входных данных. Однако способ, которым это делается для архивов изображений, содержащих геопространственные данные, пока не был определен. В данной работе предлагается расширение существующего сообщественного проекта Major TOM, сосредоточенного на предоставлении и стандартизации открытых и бесплатных наборов данных, готовых к использованию в области обсервации Земли с использованием искусственного интеллекта. Кроме того, вместе с публикацией данного документа были открыто и бесплатно опубликованы четыре глобальных и плотных набора данных встраивания, что привело к созданию наиболее полного глобального открытого набора данных геопространственных визуальных встраиваний по покрытию поверхности Земли.
В обучении роботизированной визуомоторной политики модели на основе диффузии достигли значительного успеха в улучшении точности генерации траектории действий по сравнению с традиционными авторегрессионными моделями. Однако они страдают от неэффективности из-за нескольких этапов денойзинга и ограниченной гибкости из-за сложных ограничений. В данной статье мы представляем Coarse-to-Fine AutoRegressive Policy (CARP), новую парадигму обучения визуомоторной политики, которая переопределяет процесс авторегрессионной генерации действий как грубо-конечный подход следующего масштаба. CARP разделяет генерацию действий на два этапа: сначала автоэнкодер действий изучает многомасштабные представления всей последовательности действий; затем трансформер в стиле GPT уточняет прогнозирование последовательности через грубо-конечный авторегрессионный процесс. Этот простой и интуитивный подход обеспечивает высокую точность и плавность действий, соответствующих или даже превосходящих производительность политик на основе диффузии, сохраняя при этом эффективность на уровне авторегрессионных политик. Мы проводим обширные оценки в различных средах, включая сценарии однозадачных и многозадачных на базе состояний и изображений в симуляционных бенчмарках, а также в реальных задачах. CARP достигает конкурентоспособных показателей успешности, с улучшением до 10%, и обеспечивает 10-кратное ускорение вывода по сравнению с передовыми политиками, устанавливая высокопроизводительную, эффективную и гибкую парадигму для генерации действий в робототехнических задачах.
Мы представляем новую модель внешнего вида, которая одновременно обеспечивает явное восстановление трехмерной поверхности высокого качества и фотореалистичный синтез нового вида из ограниченного числа образцов видов. Наш ключевой идеей является моделирование базовой геометрии сцены в виде атласа диаграмм, который мы визуализируем с помощью двумерных гауссовских сурфелей (MAtCha Гауссианы). MAtCha извлекает высокочастотные детали поверхности сцены из готового монокулярного оценщика глубины и улучшает их с помощью визуализации гауссовских сурфелей. Гауссовские сурфели присоединяются к диаграммам на лету, обеспечивая фотореализм нейронной объемной визуализации и четкую геометрию модели сетки, то есть две кажущиеся противоречащие цели в одной модели. В основе MAtCha лежит новая модель нейронной деформации и потеря структуры, которые сохраняют тонкие детали поверхности, извлеченные из изученных монокулярных глубин, решая их фундаментальные неоднозначности масштаба. Результаты обширной экспериментальной проверки демонстрируют высокое качество восстановления поверхности и фотореализма MAtCha на уровне лучших конкурентов, но с драматическим сокращением числа входных видов и вычислительного времени. Мы считаем, что MAtCha станет фундаментальным инструментом для любого визуального приложения в области зрения, графики и робототехники, которые требуют явной геометрии в дополнение к фотореализму. Наша страница проекта находится по следующему адресу: https://anttwo.github.io/matcha/
Мы предлагаем незаметный многобитный текстовый водяной знак, встроенный путем перефразирования с использованием языковых моделей с ограниченной длиной. Мы донастраиваем пару перефразирующих языковых моделей, которые специально разработаны для различного поведения, так чтобы разница в перефразировании между ними, отраженная в семантике текста, могла быть идентифицирована обученным декодером. Для встраивания нашего многобитного водяного знака мы используем две перефразирующие модели поочередно для кодирования заранее определенного двоичного кода на уровне предложения. Затем мы используем текстовый классификатор в качестве декодера для расшифровки каждого бита водяного знака. Через обширные эксперименты мы показываем, что наши водяные знаки могут достигать более 99,99\% AUC обнаружения при использовании небольших (1,1 млрд) перефразирующих моделей текста, сохраняя семантическую информацию исходного предложения. Более того, наша система устойчива к замене слов и изменениям в перефразировании предложений, а также хорошо обобщается на данные, не входящие в распределение. Мы также демонстрируем незаметность нашего водяного знака с помощью оценки на основе языковых моделей с ограниченной длиной. Мы предоставляем исходный код открытым доступом по ссылке: https://github.com/xiaojunxu/multi-bit-text-watermark.
Слияние моделей показало большой потенциал в объединении экспертных моделей, однако польза от слияния неясна при объединении моделей "универсального" типа, обученных на множестве задач. Мы исследуем слияние в контексте крупных (прибл. 100 млрд) моделей, путем повторного использования контрольных точек, демонстрирующих компромиссы между различными задачами. Такие контрольные точки часто создаются в процессе разработки фронтовой модели, и многие из них обычно отбрасываются как неоптимальные. Учитывая набор контрольных точек моделей, полученных из различных запусков обучения (например, различные этапы, цели, гиперпараметры и смеси данных), которые естественным образом демонстрируют компромиссы между различными языковыми возможностями (например, следование инструкциям против генерации кода), мы исследуем, может ли слияние повторно использовать такие неоптимальные модели для создания Парето-оптимальной. Наш алгоритм оптимизации настраивает вес каждой контрольной точки в линейной комбинации, что приводит к Парето-оптимальным моделям, превосходящим как отдельные модели, так и базовые модели на основе слияния. Дальнейший анализ показывает, что хорошие слияния обычно включают практически все контрольные точки с ненулевыми весами, что указывает на то, что даже кажущиеся плохими начальные контрольные точки могут способствовать созданию хороших конечных слияний.
Мы представляем Turbo3D, ультра-быструю систему текст в 3D, способную генерировать высококачественные гауссовы сглаживающие ресурсы менее чем за одну секунду. Turbo3D использует быстрый 4-шаговый, 4-видовой генератор диффузии и эффективный прямой гауссов реконструктор, оба работающих в скрытом пространстве. 4-шаговый, 4-видовой генератор - это модель студента, дистиллированная через новый подход с двумя учителями, который побуждает студента учиться согласованности вида от многовидового учителя и фотореализму от одновидового учителя. Перемещая входы гауссова реконструктора из пространства пикселей в скрытое пространство, мы устраняем дополнительное время декодирования изображения и уменьшаем длину последовательности трансформатора вдвое для достижения максимальной эффективности. Наш метод демонстрирует превосходные результаты генерации 3D по сравнению с предыдущими базовыми уровнями, работая в долю их времени выполнения.