Ежедневно отобранные исследовательские статьи по ИИ с переводами
Традиционные системы OCR (OCR-1.0) все чаще не могут удовлетворить потребности людей из-за растущего спроса на интеллектуальную обработку оптических символов, созданных человеком. В данной статье мы обобщаем все искусственные оптические сигналы (например, обычные тексты, математические/молекулярные формулы, таблицы, графики, ноты и даже геометрические фигуры) как "символы" и предлагаем Общую Теорию OCR вместе с отличной моделью, названной GOT, для поощрения появления OCR-2.0. GOT, с 580 миллионами параметров, является объединенной, элегантной и конечной моделью, состоящей из высококомпрессионного кодера и декодера с длинными контекстами. Как модель OCR-2.0, GOT способен обрабатывать все вышеупомянутые "символы" в рамках различных задач OCR. На входе модель поддерживает широко используемые изображения в стиле сцены и документа в виде срезов и целых страниц. На выходе GOT может генерировать простые или форматированные результаты (markdown/tikz/smiles/kern) с помощью простого запроса. Кроме того, модель обладает интерактивными функциями OCR, то есть распознавание на уровне области, управляемое координатами или цветами. Кроме того, мы также адаптируем технологии динамического разрешения и многостраничное OCR к GOT для лучшей практичности. В экспериментах мы предоставляем достаточные результаты, чтобы доказать превосходство нашей модели.
Мы представляем OLMoE, полностью открытую передовую языковую модель, использующую разреженную смесь экспертов (MoE). OLMoE-1B-7B имеет 7 миллиардов (B) параметров, но использует только 1B на входной токен. Мы предварительно обучаем ее на 5 триллионах токенов и далее адаптируем для создания OLMoE-1B-7B-Instruct. Наши модели превосходят все доступные модели с аналогичным количеством активных параметров, даже превосходя более крупные, такие как Llama2-13B-Chat и DeepSeekMoE-16B. Мы представляем различные эксперименты по обучению MoE, анализируем маршрутизацию в нашей модели, демонстрируя высокую специализацию, и открываем все аспекты нашей работы: веса модели, обучающие данные, код и журналы.
Мы представляем Kvasir-VQA, расширенный набор данных, производный от наборов данных HyperKvasir и Kvasir-Instrument, дополненный аннотациями вопросов и ответов для облегчения продвинутых задач машинного обучения в области диагностики желудочно-кишечного тракта (ЖКТ). Этот набор данных включает 6 500 аннотированных изображений, охватывающих различные состояния ЖКТ и хирургические инструменты, и поддерживает несколько типов вопросов, включая да/нет, выбор, местоположение и числовой подсчет. Набор данных предназначен для приложений, таких как описания изображений, визуальное вопросно-ответное взаимодействие (VQA), текстовое создание синтетических медицинских изображений, детектирование объектов и классификация. Наши эксперименты демонстрируют эффективность набора данных при обучении моделей для трех выбранных задач, показывая значительные применения в медицинском анализе изображений и диагностике. Мы также представляем метрики оценки для каждой задачи, подчеркивая удобство и гибкость нашего набора данных. Набор данных и соответствующие артефакты доступны по адресу https://datasets.simula.no/kvasir-vqa.
Большие языковые модели (LLM) сталкиваются с серьезными проблемами при выполнении задач с длинным контекстом из-за ограниченного размера эффективного окна контекста во время предварительного обучения, что ограничивает их способность к обобщению на продолжительные последовательности. В то же время расширение окна контекста в LLM через пост-предварительное обучение требует значительных ресурсов. Для решения этой проблемы мы представляем **LongRecipe**, эффективную стратегию обучения для расширения окна контекста LLM, включающую анализ влиятельных токенов, преобразование позиционного индекса и стратегии оптимизации обучения. Она моделирует входы с длинными последовательностями, сохраняя при этом эффективность обучения и значительно улучшая понимание моделью долгосрочных зависимостей. Эксперименты на трех типах LLM показывают, что LongRecipe может использовать длинные последовательности, требуя всего 30% от целевого размера окна контекста и снижая вычислительные ресурсы для обучения на более чем 85% по сравнению с обучением на полной последовательности. Более того, LongRecipe также сохраняет возможности исходной LLM в общих задачах. В конечном итоге *мы можем расширить эффективное окно контекста открытых LLM с 8k до 128k, достигая производительности, близкой к GPT-4, всего за один день специализированного обучения с использованием одного GPU с памятью 80G.* Наш код доступен по ссылке (https://github.com/zhiyuanhubj/LongRecipe).
Несмотря на значительные достижения в оценке глубины по монокулярным изображениям, оценка глубины видео в открытом мире остается сложной, поскольку видео в открытом мире чрезвычайно разнообразны по содержанию, движению, движению камеры и длительности. Мы представляем DepthCrafter, инновационный метод генерации временно согласованных длинных последовательностей глубины с тонкими деталями для видео в открытом мире, не требующий какой-либо дополнительной информации, такой как позы камеры или оптический поток. DepthCrafter достигает способности обобщения к видео в открытом мире путем обучения модели видео-к-глубине на основе предварительно обученной модели диффузии изображения в видео, через нашу тщательно разработанную трехэтапную стратегию обучения с составленными сопоставленными наборами данных видео-глубина. Наш подход к обучению позволяет модели генерировать последовательности глубины переменной длины за один раз, до 110 кадров, и извлекать как точные детали глубины, так и богатое разнообразие контента из реалистичных и синтетических наборов данных. Мы также предлагаем стратегию вывода, которая обрабатывает чрезвычайно длинные видео через сегментное оценивание и плавное сшивание. Комплексные оценки на нескольких наборах данных показывают, что DepthCrafter достигает передовой производительности в оценке глубины видео в открытом мире в условиях нулевой настройки. Более того, DepthCrafter облегчает различные прикладные задачи, включая визуальные эффекты на основе глубины и условную генерацию видео.
Современные модели диффузии, особенно те, которые используют Transformer-основанный UNet для подавления шума, сильно полагаются на операции самовнимания для управления сложными пространственными отношениями, что позволяет достичь впечатляющей производительности генерации. Однако существующая парадигма сталкивается с существенными вызовами при создании визуального контента высокого разрешения из-за квадратичной сложности по времени и памяти относительно количества пространственных токенов. Для преодоления этого ограничения мы предлагаем в данной статье новый линейный механизм внимания в качестве альтернативы. Конкретно, мы начинаем наше исследование с недавно представленных моделей с линейной сложностью, например, Mamba, Mamba2 и Gated Linear Attention, и выделяем две ключевые особенности - нормализацию внимания и некаузальное вывод, которые улучшают производительность генерации визуального контента высокого разрешения. Основываясь на этих идеях, мы представляем обобщенную парадигму линейного внимания, которая служит низкоранговым приближением широкого спектра популярных линейных смесителей токенов. Для снижения затрат на обучение и более эффективного использования предварительно обученных моделей мы инициализируем наши модели и дистиллируем знания из предварительно обученной StableDiffusion (SD). Мы обнаружили, что дистиллированная модель, названная LinFusion, достигает производительности на уровне или превосходящей оригинальную SD уже после небольшого обучения, при этом значительно снижая временную и памятьную сложность. Обширные эксперименты на SD-v1.5, SD-v2.1 и SD-XL показывают, что LinFusion обеспечивает удовлетворительную производительность по генерации изображений разного разрешения без обучения на таких разрешениях, как 16K. Более того, он хорошо совместим с предварительно обученными компонентами SD, такими как ControlNet и IP-Adapter, не требуя усилий по адаптации. Коды доступны по адресу https://github.com/Huage001/LinFusion.
Данный документ исследует простое расширение диффузионного потока с прямым выпрямлением для генерации музыки из текста, названное FluxMusic. В общем, вместе с разработкой в продвинутой модели Flux, мы переносим ее в латентное пространство VAE мел-спектра. Это включает в себя первоначальное применение последовательности независимого внимания к двойному потоку текста-музыки, за которым следует упорядоченный одиночный поток музыки для предсказания зашумленного патча. Мы используем несколько предварительно обученных текстовых кодировщиков для достаточного улавливания семантической информации подписи, а также гибкости вывода. Между тем, грубая текстовая информация, в сочетании с эмбеддингами временных шагов, используется в механизме модуляции, в то время как детали текста более низкого уровня конкатенируются с последовательностью музыкальных патчей в качестве входных данных. Через глубокое исследование мы демонстрируем, что обучение с прямым выпрямлением с оптимизированной архитектурой значительно превосходит установленные методы диффузии для задачи текст-музыка, как показывают различные автоматические метрики и оценки предпочтений человека. Наши экспериментальные данные, код и веса модели доступны публично по адресу: https://github.com/feizc/FluxMusic.
Последние достижения в области моделей видео-языка большого масштаба показали значительный потенциал для планирования в реальном времени и детального взаимодействия. Однако их высокие вычислительные требования и недостаток размеченных наборов данных ограничивают их практичность для академических исследователей. В данной работе мы представляем VideoLLaMB, новую структуру, которая использует временные токены памяти в мостовых слоях для кодирования целых последовательностей видео наряду с историческими визуальными данными, эффективно сохраняя семантическую непрерывность и улучшая производительность модели в различных задачах. Этот подход включает в себя рекуррентные токены памяти и алгоритм SceneTilling, который разбивает видео на независимые семантические блоки для сохранения семантической целостности. Эмпирически VideoLLaMB значительно превосходит существующие модели видео-языка, демонстрируя улучшение на 5,5 пункта по сравнению с конкурентами на трех бенчмарках VideoQA и на 2,06 пункта в планировании от первого лица. Комплексные результаты на MVBench показывают, что VideoLLaMB-7B достигает значительно лучших результатов, чем предыдущие модели 7B той же LLM. Замечательно, она поддерживает стабильную производительность, как PLLaVA, даже при увеличении длины видео вплоть до 8 раз. Кроме того, результаты по извлечению кадров нашего специализированного бенчмарка "Игла в видео сене" (NIAVH) дополнительно подтверждают мастерство VideoLLaMB в точной идентификации конкретных кадров в длинных видео. Наш алгоритм SceneTilling также позволяет генерировать подписи к потоковому видео напрямую, без необходимости дополнительного обучения. В терминах эффективности VideoLLaMB, обученная на 16 кадрах, поддерживает до 320 кадров на одном графическом процессоре Nvidia A100 с линейным масштабированием памяти GPU, обеспечивая как высокую производительность, так и экономичность, тем самым заложив новые основы для моделей длинных видео-языка как в академических, так и в практических приложениях.
Мы представляем алгоритмический фреймворк Diffusion Policy Policy Optimization, DPPO, включающий bewt практики для настройки политик на основе диффузии (например, Diffusion Policy) в задачах непрерывного управления и обучения роботов с использованием метода градиента политики (PG) из обучения с подкреплением (RL). Методы PG широко используются при обучении политик RL с другими параметризациями политики; тем не менее, их считали менее эффективными для политик на основе диффузии. Удивительно, мы показываем, что DPPO достигает наилучшей общей производительности и эффективности для настройки в общих бенчмарках по сравнению с другими методами RL для политик на основе диффузии, а также по сравнению с настройкой PG других параметризаций политики. Через экспериментальное исследование мы обнаруживаем, что DPPO использует уникальные синергии между настройкой RL и параметризацией диффузии, что приводит к структурированному и на-многообразному исследованию, стабильному обучению и высокой устойчивости политики. Мы демонстрируем преимущества DPPO в ряде реалистичных сценариев, включая симулированные задачи с роботами с пиксельными наблюдениями, а также через нулевое развертывание политик, обученных в симуляции, на аппаратуре робота в задаче манипулирования на длительном горизонте и в многоэтапной задаче. Веб-сайт с кодом: diffusion-ppo.github.io
Значительные успехи были достигнуты в генерации текста в видео благодаря использованию мощных генеративных моделей и масштабных интернет-данных. Однако остаются существенные вызовы в точном контроле отдельных концепций в созданном видео, таких как движение и внешний вид конкретных персонажей и изменение точек зрения. В данной работе мы предлагаем новую парадигму, которая генерирует каждый концепт в трехмерном представлении отдельно, а затем объединяет их с априорными знаниями от крупных языковых моделей (LLM) и двумерных моделей диффузии. Конкретно, учитывая входное текстовое подсказывание, наша схема состоит из трех этапов: 1) Мы используем LLM в качестве директора для начального декомпозирования сложного запроса на несколько подподсказываний, указывающих на отдельные концепции в видео (например, сцена, объекты, движения), затем мы позволяем LLM вызывать предварительно обученные экспертные модели для получения соответствующих трехмерных представлений концепций. 2) Для объединения этих представлений мы подталкиваем мультимодальные LLM для создания грубого руководства по масштабам и координатам траекторий объектов. 3) Чтобы сделать сгенерированные кадры соответствующими естественному распределению изображений, мы дополнительно используем априорные знания двумерной диффузии и применяем метод Score Distillation Sampling для улучшения композиции. Обширные эксперименты демонстрируют, что наш метод способен генерировать видео высокой точности из текста с разнообразным движением и гибким контролем над каждым концептом. Страница проекта: https://aka.ms/c3v.
Вариационный автокодировщик (VAE), сжимающий видео в латентные представления, является ключевым предшествующим компонентом моделей латентной диффузии видео (LVDM). При одинаковом качестве восстановления, чем более достаточное сжатие видео обеспечивает VAE, тем эффективнее становятся LVDM. Однако большинство LVDM используют 2D изображения VAE, сжимающие видео только по пространственному измерению и часто игнорирующие временное измерение. Как провести временное сжатие видео в VAE для получения более кратких латентных представлений, сохраняя точность восстановления, редко исследуется. Для заполнения этого пробела мы предлагаем VAE с общим сжатием по всем измерениям, названный OD-VAE, который может сжимать видео как по временной, так и по пространственной размерностям. Хотя более достаточное сжатие OD-VAE представляет собой большое испытание для восстановления видео, оно все равно может достичь высокой точности восстановления благодаря нашему тщательному проектированию. Для достижения лучшего баланса между качеством восстановления видео и скоростью сжатия, мы представляем и анализируем четыре варианта OD-VAE. Кроме того, разработана новая стратегия инициализации для более эффективного обучения OD-VAE, а также предложена новая стратегия вывода, позволяющая OD-VAE обрабатывать видео произвольной длины с ограниченной памятью GPU. Обширные эксперименты по восстановлению видео и генерации видео на основе LVDM демонстрируют эффективность и эффективность наших предложенных методов.
Как языковые модели используют предоставленную информацию в качестве контекста при генерации ответа? Можем ли мы сделать вывод, основан ли конкретный сгенерированный ответ на контексте, является ли он неправильным пониманием или выдумкой? Чтобы помочь ответить на эти вопросы, мы представляем проблему атрибуции контекста: определение частей контекста (если таковые имеются), которые привели модель к генерации конкретного высказывания. Затем мы представляем ContextCite, простой и масштабируемый метод атрибуции контекста, который может быть применен поверх любой существующей языковой модели. Наконец, мы демонстрируем полезность ContextCite через три приложения: (1) помощь в верификации сгенерированных высказываний, (2) улучшение качества ответа путем обрезки контекста и (3) обнаружение атак методом отравления. Мы предоставляем код для ContextCite по адресу https://github.com/MadryLab/context-cite.
Модели диффузии текста в изображение стали мощной основой для генерации изображений высокого качества по текстовым подсказкам. Их успех способствовал быстрому развитию моделей диффузии производственного уровня, которые постоянно увеличиваются в размере и уже содержат миллиарды параметров. В результате современные модели текст в изображение становятся менее доступными на практике, особенно в ресурсоограниченных средах. Преодоление этой проблемы осуществляется сжатием весов предварительно обученной модели с помощью квантизации после обучения (PTQ). Недавние техники квантизации диффузии в основном опираются на равномерную скалярную квантизацию, обеспечивая приемлемую производительность для моделей, сжатых до 4 бит. В данной работе показано, что более универсальная векторная квантизация (VQ) может обеспечить более высокие уровни сжатия для масштабных моделей диффузии текста в изображение. Конкретно, мы настраиваем методы векторной PTQ для недавних миллиардных моделей текста в изображение (SDXL и SDXL-Turbo) и показываем, что модели диффузии с 2 миллиардами параметров, сжатые до примерно 3 бит с использованием VQ, демонстрируют сходное качество изображения и соответствие тексту, как и предыдущие методы сжатия до 4 бит.
Большая часть предыдущих исследований в области искусственного интеллекта сосредоточена на разработке монолитных моделей для максимизации их интеллекта и способностей с основной целью улучшения производительности по конкретным задачам. В отличие от этого, данная статья исследует альтернативный подход: совместные системы искусственного интеллекта, использующие рабочие процессы для интеграции моделей, источников данных и конвейеров для решения сложных и разнообразных задач. Мы представляем GenAgent, основанную на LLM фреймворк, который автоматически генерирует сложные рабочие процессы, предлагая большую гибкость и масштабируемость по сравнению с монолитными моделями. Основное новшество GenAgent заключается в представлении рабочих процессов с помощью кода, а также в пошаговом создании рабочих процессов совместными агентами. Мы реализуем GenAgent на платформе ComfyUI и предлагаем новый бенчмарк, OpenComfy. Результаты демонстрируют, что GenAgent превосходит базовые подходы как на уровне выполнения, так и на уровне задач, показывая его способность генерировать сложные рабочие процессы с превосходной эффективностью и стабильностью.
Данная статья исследует увеличение разрешения видео с обширной генерацией контента. Мы выявляем распространенные проблемы, с которыми сталкиваются существующие методы при попытках значительно увеличить видео: генерация контента низкого качества и ограничения, накладываемые памятью GPU. Для решения этих проблем мы предлагаем метод на основе диффузии под названием Follow-Your-Canvas. Он основан на двух основных концепциях. Во-первых, вместо применения распространенной практики "одноразового" увеличения видео, мы распределяем задачу по пространственным окнам и плавно объединяем их. Это позволяет нам увеличивать видео любого размера и разрешения без ограничений памятью GPU. Во-вторых, исходное видео и его относительное пространственное положение вводятся в процесс генерации каждого окна. Это позволяет сгенерированной пространственной композиции в каждом окне гармонировать с исходным видео. Сочетание этих двух концепций позволяет нам генерировать видео с увеличенным разрешением с богатым контентом, сохраняя пространственную и временную согласованность. Follow-Your-Canvas превосходит в увеличении видео крупного масштаба, например, с 512X512 до 1152X2048 (9X), обеспечивая высококачественные и эстетически приятные результаты. Он достигает лучших количественных результатов при различных настройках разрешения и масштаба. Код доступен по ссылке https://github.com/mayuelala/FollowYourCanvas
Выявление депрессии на основе речи представляет существенные трудности для автоматизированного обнаружения из-за ее уникального проявления у различных людей и недостатка данных. Для решения этих проблем мы представляем DAAMAudioCNNLSTM и DAAMAudioTransformer - две параметрически эффективные и объяснимые модели для извлечения аудиофункций и выявления депрессии. DAAMAudioCNNLSTM представляет собой новую структуру CNN-LSTM с механизмом многоголовочной адаптивной плотности внимания (DAAM), динамически фокусирующимся на информативных сегментах речи. DAAMAudioTransformer, используя кодировщик трансформера вместо архитектуры CNN-LSTM, включает тот же модуль DAAM для улучшенного внимания и интерпретируемости. Эти подходы не только повышают устойчивость и интерпретируемость обнаружения, но и достигают передовых результатов: DAAMAudioCNNLSTM с макро F1-оценкой 0,702 и DAAMAudioTransformer с макро F1-оценкой 0,72 на наборе данных DAIC-WOZ, без использования дополнительной информации, такой как положения гласных и информация о дикторе во время обучения/валидации, как в предыдущих подходах. Значительная объяснимость и эффективность обоих моделей в использовании речевых сигналов для выявления депрессии представляют собой шаг к более надежным, клинически полезным диагностическим инструментам, обещающим прогресс в области речи и психического здоровья. Для поощрения дальнейших исследований в этой области мы предоставляем наш код публично доступным.
Гибридный поиск стал эффективной стратегией для компенсации ограничений различных парадигм сопоставления, особенно в контекстах вне области, где наблюдаются значительные улучшения качества извлечения. Однако существующие исследования в основном сосредоточены на ограниченном наборе методов извлечения, оцениваемых парами на общих для области наборах данных исключительно на английском языке. В данной работе мы изучаем эффективность гибридного поиска с использованием различных ведущих моделей извлечения в неисследованной области права на французском языке, оценивая как сценарии нулевого примера, так и внутриобластные сценарии. Наши результаты показывают, что в контексте нулевого примера объединение различных общедоменных моделей последовательно улучшает производительность по сравнению с использованием автономной модели, независимо от метода слияния. Удивительно, что когда модели обучены внутри области, мы обнаруживаем, что слияние в общем снижает производительность по сравнению с использованием лучшей одиночной системы, если только объединять оценки с тщательно настроенными весами. Эти новые идеи, среди прочего, расширяют применимость предыдущих результатов на новую область и язык, и способствуют более глубокому пониманию гибридного поиска в специализированных областях, не на английском языке.
Данный документ представляет набор данных MERIT, мультимодальный (текст + изображение + макет), полностью размеченный в контексте школьных отчетов. Включающий более 400 меток и 33 тыс. образцов, набор данных MERIT является ценным ресурсом для обучения моделей в сложных задачах понимания визуально насыщенных документов (VrDU). По своей природе (отчеты об успеваемости студентов), набор данных MERIT потенциально может включать предвзятости контролируемым образом, что делает его ценным инструментом для оценки предвзятостей, вызванных языковыми моделями (LLM). В документе описан процесс создания набора данных и выделены его основные особенности в текстовой, визуальной, макетной и предвзятостной областях. Для демонстрации полезности набора данных мы представляем показатель с токенными моделями классификации, показывая, что набор данных представляет собой значительное испытание даже для передовых моделей и что они могли бы значительно выиграть от включения образцов из набора данных MERIT в фазу предварительного обучения.
Поскольку языковые модели (LM) широко используются в сценариях персонализированного общения (например, отправка электронных писем, написание сообщений в социальных сетях) и обладают определенным уровнем агентности, обеспечение их действий в соответствии с контекстуальными нормами конфиденциальности становится все более важным. Однако оценка осведомленности LM о нормах конфиденциальности и возникающего риска конфиденциальности в коммуникации через LM является сложной из-за (1) контекстуальной и длиннохвостой природы случаев, требующих конфиденциальности, и (2) отсутствия подходов к оценке, учитывающих реалистичные сценарии применения. Для решения этих проблем мы предлагаем PrivacyLens, новую концепцию, разработанную для расширения конфиденциальных семян в выразительные виньетки и дальнейшего превращения их в траектории агентов, обеспечивая многоуровневую оценку утечки конфиденциальной информации в действиях агентов LM. Мы реализуем PrivacyLens с помощью набора норм конфиденциальности, основанных на литературе по конфиденциальности и семенах, собранных при помощи массового участия. Используя этот набор данных, мы выявляем расхождение между производительностью LM в ответах на провокационные вопросы и их фактическим поведением при выполнении инструкций пользователя в агентской среде. Современные LM, такие как GPT-4 и Llama-3-70B, утекают конфиденциальную информацию в 25,68% и 38,69% случаев, даже при запросе конфиденциальности улучшающих инструкций. Мы также демонстрируем динамическую природу PrivacyLens, расширяя каждое семя в несколько траекторий для оценки риска утечки конфиденциальности LM. Набор данных и код доступны по ссылке https://github.com/SALT-NLP/PrivacyLens.