Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) произвели революцию в области обработки естественного языка (NLP), улучшив современные результаты по многим существующим задачам и продемонстрировав новые возможности. Однако LLM до сих пор не были успешно применены для извлечения информации из полуструктурированных документов, что является ключевым элементом многих процессов обработки документов и заключается в извлечении ключевых сущностей из визуально насыщенных документов (VRD) в соответствии с заданной целевой схемой. Основными препятствиями для использования LLM в этой задаче являются отсутствие кодирования макета в LLM, что критически важно для качественного извлечения, и отсутствие механизма проверки, гарантирующего, что ответ не является вымышленным. В данной статье мы представляем методологию Language Model-based Document Information Extraction and Localization (LMDX), которая позволяет адаптировать произвольные LLM для извлечения информации из документов. LMDX способна извлекать единичные, повторяющиеся и иерархические сущности как с обучающими данными, так и без них, обеспечивая гарантии проверки и локализуя сущности в документе. В частности, мы применяем LMDX к модели PaLM 2-S и оцениваем её на наборах данных VRDU и CORD, устанавливая новый современный стандарт и демонстрируя, как LMDX позволяет создавать высококачественные и эффективные по данным парсеры.
В данной работе мы раскрываем неиспользованный потенциал диффузионной U-Net, которая служит "бесплатным обедом", существенно улучшающим качество генерации на лету. Мы начинаем с исследования ключевого вклада архитектуры U-Net в процесс удаления шума и выявляем, что её основной каркас в первую очередь способствует дениойзингу, тогда как её пропускные соединения в основном вносят высокочастотные признаки в декодер, что заставляет сеть упускать семантику каркаса. Опираясь на это открытие, мы предлагаем простой, но эффективный метод, названный "FreeU", который повышает качество генерации без дополнительного обучения или тонкой настройки. Наше ключевое понимание заключается в стратегическом перевзвешивании вкладов, поступающих от пропускных соединений и карт признаков каркаса U-Net, чтобы использовать сильные стороны обеих компонент архитектуры U-Net. Обещающие результаты в задачах генерации изображений и видео демонстрируют, что наш FreeU может быть легко интегрирован в существующие диффузионные модели, такие как Stable Diffusion, DreamBooth, ModelScope, Rerender и ReVersion, для улучшения качества генерации всего несколькими строками кода. Всё, что вам нужно, — это настроить два масштабирующих коэффициента во время вывода. Страница проекта: https://chenyangsi.top/FreeU/.
В данной статье представлен DreamLLM — обучающий фреймворк, который впервые реализует универсальные мультимодальные большие языковые модели (MLLM), усиленные часто упускаемой синергией между пониманием и созданием мультимодальных данных. DreamLLM основывается на двух фундаментальных принципах. Первый принцип сосредоточен на генеративном моделировании апостериорных распределений как для языка, так и для изображений путем прямого сэмплирования в исходном мультимодальном пространстве. Этот подход позволяет обойти ограничения и потери информации, присущие внешним экстракторам признаков, таким как CLIP, и обеспечивает более глубокое мультимодальное понимание. Второй принцип заключается в стимулировании генерации исходных, переплетенных документов, моделирующих как текстовые, так и графические элементы, а также неструктурированные макеты. Это позволяет DreamLLM эффективно изучать все условные, маргинальные и совместные мультимодальные распределения. В результате DreamLLM становится первой MLLM, способной генерировать свободно переплетенный контент. Комплексные эксперименты демонстрируют превосходную производительность DreamLLM в качестве мультимодального универсала с нулевым обучением, что достигается благодаря усиленной синергии обучения.
Мы представляем Kosmos-2.5, мультимодальную грамотную модель для машинного чтения текстоемких изображений. Предварительно обученная на больших объемах текстоемких изображений, Kosmos-2.5 преуспевает в двух различных, но взаимодополняющих задачах транскрипции: (1) генерации пространственно-ориентированных текстовых блоков, где каждому блоку текста присваиваются его пространственные координаты в изображении, и (2) создании структурированного текстового вывода, который фиксирует стили и структуры в формате markdown. Эта унифицированная мультимодальная грамотная способность достигается за счет общей архитектуры Transformer, специализированных подсказок для задач и гибких текстовых представлений. Мы оцениваем Kosmos-2.5 на задачах сквозного распознавания текста на уровне документов и генерации текста из изображения в формате markdown. Кроме того, модель может быть легко адаптирована для любой задачи понимания текстоемких изображений с использованием различных подсказок посредством контролируемого дообучения, что делает её универсальным инструментом для реальных приложений, связанных с изображениями, насыщенными текстом. Эта работа также прокладывает путь для будущего масштабирования мультимодальных больших языковых моделей.
Генерация правдоподобной, но фактически неверной информации, называемая галлюцинацией, остается нерешенной проблемой в больших языковых моделях. Мы исследуем способность языковых моделей анализировать свои ответы с целью исправления ошибок. Мы разработали метод "Цепочка проверки" (Chain-of-Verification, CoVe), в рамках которого модель сначала (i) создает черновой ответ; затем (ii) формулирует проверочные вопросы для подтверждения достоверности черновика; (iii) отвечает на эти вопросы независимо, чтобы ответы не были искажены другими данными; и (iv) генерирует окончательный проверенный ответ. В экспериментах мы показываем, что CoVe снижает количество галлюцинаций в различных задачах, включая вопросы на основе списков из Wikidata, закрытые вопросы MultiSpanQA и генерацию длинных текстов.
Сообщество ИИ добилось значительных успехов в разработке мощных базовых моделей, чему способствовали крупномасштабные мультимодальные наборы данных. Однако в области обучения представлений аудио текущие наборы данных, связывающих аудио и текст, страдают от ограничений, таких как недостаточный объем, упрощенное содержание и трудоемкие процедуры сбора. Для решения этих проблем мы представляем инновационный и автоматизированный конвейер генерации аудиоописаний, основанный на серии общедоступных инструментов или API, и создаем крупномасштабный, высококачественный набор данных, связывающих аудио и текст, под названием Auto-ACD, содержащий более 1,9 млн пар аудио-текст. Чтобы продемонстрировать эффективность предложенного набора данных, мы обучаем популярные модели на наших данных и показываем улучшение производительности в различных задачах, а именно: поиск по аудио и тексту, генерация аудиоописаний и классификация окружающей среды. Кроме того, мы создаем новый тестовый набор и предоставляем эталон для задач, связанных с аудио и текстом. Предложенный набор данных будет опубликован по адресу https://auto-acd.github.io/.
В последние годы крупные языковые модели (LLM) привлекли значительное внимание исследовательского сообщества благодаря своим выдающимся характеристикам и способности к обобщению. В данной статье мы представляем новый метод контекстуализации моделей распознавания речи с использованием LLM. Наш подход рассматривает распознавание речи как задачу смешанного модального языкового моделирования на основе предварительно обученной LLM. Мы предоставляем аудио-признаки, а также опциональные текстовые токены для контекста, чтобы обучить систему завершать транскрипции в декодер-ориентированном режиме. В результате система неявно стимулируется к обучению использованию неструктурированной контекстной информации в процессе тренировки. Наши эмпирические результаты демонстрируют значительное улучшение производительности: снижение WER на 6% при предоставлении дополнительного текстового контекста. Более того, мы обнаружили, что наш метод конкурентоспособен и улучшает общий показатель WER на 7,5%, а на редких словах — на 17% по сравнению с базовой контекстуализированной системой RNN-T, обученной на наборе речевых данных, более чем в 25 раз превышающем по объему. В целом, мы показываем, что, добавляя лишь небольшое количество обучаемых параметров через адаптеры, можно раскрыть способность к контекстуализированному распознаванию речи для предварительно обученной LLM, сохраняя при этом функциональность работы только с текстовым вводом.
Languini Kitchen представляет собой как исследовательское сообщество, так и кодобазу, предназначенные для того, чтобы дать исследователям с ограниченными вычислительными ресурсами возможность вносить значимый вклад в область языкового моделирования. Мы представляем экспериментальный протокол, который позволяет сравнивать модели на основе эквивалентных вычислительных ресурсов, измеряемых в часах работы акселераторов. Количество токенов, на которых обучается модель, определяется её пропускной способностью и выбранным классом вычислительных ресурсов. Важно отметить, что этот подход избегает ограничений на ключевые гиперпараметры, которые влияют на общее количество параметров или количество операций с плавающей запятой. Для оценки мы предварительно обрабатываем существующий большой, разнообразный и высококачественный набор данных книг, который превосходит существующие академические бенчмарки по качеству, разнообразию и длине документов. На этом наборе данных мы сравниваем методы на основе их эмпирических законов масштабирования, которые оцениваются через эксперименты на различных уровнях вычислительных ресурсов. Эта работа также предоставляет две базовые модели: прямую модель, основанную на архитектуре GPT-2, и рекуррентную модель в виде новой LSTM с десятикратной пропускной способностью. Хотя базовая модель GPT демонстрирует лучшую перплексию на всех уровнях вычислительных ресурсов, наша базовая LSTM модель показывает предсказуемый и более благоприятный закон масштабирования. Это связано с улучшенной пропускной способностью и меньшим количеством токенов, необходимых для достижения того же снижения тестовой перплексии. Экстраполяция законов масштабирования обеих моделей приводит к пересечению примерно на 50 000 часов работы акселераторов. Мы надеемся, что эта работа может послужить основой для значимых и воспроизводимых исследований в области языкового моделирования.
Последние достижения в области нейронных полей излучения (NeRF) сделали возможным реконструкцию и анимацию динамических портретных сцен с контролем над положением головы, мимикой и направлением взгляда. Однако обучение таких моделей предполагает фотометрическую согласованность в деформируемой области, например, лицо должно быть равномерно освещено при изменении положения головы и мимики. Такая фотометрическая согласованность между кадрами видео трудно достижима даже в студийных условиях, что делает создаваемые анимируемые нейронные портреты подверженными артефактам при анимации. В данной работе мы предлагаем CoDyNeRF — систему, которая позволяет создавать полностью управляемые 3D-портреты в условиях реальной съемки. CoDyNeRF обучается аппроксимировать эффекты, зависящие от освещения, с помощью динамической модели внешнего вида в каноническом пространстве, которая учитывает предсказанные нормали поверхности, а также мимику и деформации положения головы. Предсказание нормалей поверхности направляется с использованием нормалей 3DMM, которые служат грубым априорным приближением для нормалей человеческой головы, где прямое предсказание нормалей затруднено из-за жестких и нежестких деформаций, вызванных изменением положения головы и мимики. Используя только короткое видео, снятое на смартфон, для обучения, мы демонстрируем эффективность нашего метода в синтезе свободного вида портретной сцены с явным управлением положением головы и мимикой, а также реалистичными эффектами освещения. Страница проекта доступна по ссылке: http://shahrukhathar.github.io/2023/08/22/CoDyNeRF.html