Ежедневно отобранные исследовательские статьи по ИИ с переводами
Научные знания преимущественно хранятся в книгах и научных журналах, часто в формате PDF. Однако этот формат приводит к потере семантической информации, особенно для математических выражений. Мы предлагаем Nougat (Neural Optical Understanding for Academic Documents) — модель на основе Visual Transformer, которая выполняет задачу оптического распознавания символов (OCR) для преобразования научных документов в язык разметки, и демонстрируем эффективность нашей модели на новом наборе данных научных документов. Предложенный подход предлагает перспективное решение для повышения доступности научных знаний в цифровую эпоху, устраняя разрыв между документами, удобочитаемыми для человека, и текстом, пригодным для машинной обработки. Мы публикуем модели и код, чтобы ускорить дальнейшие исследования в области распознавания научных текстов.
Крупные языковые модели (LLMs) произвели революцию в задачах обработки естественного языка. Однако их практическое применение ограничивается огромными требованиями к памяти и вычислительным ресурсам. Хотя современные методы посттренировочного квантования (PTQ) эффективно сокращают объем памяти и повышают вычислительную эффективность LLM, они используют ручную настройку параметров квантования, что приводит к низкой производительности и неспособности справляться с квантованием в крайне низких битовых диапазонах. Для решения этой проблемы мы представляем технику OmniQuant (всесторонне калиброванное квантование) для LLM, которая обеспечивает высокую производительность в различных настройках квантования, сохраняя при этом вычислительную эффективность PTQ за счет оптимизации различных параметров квантования. OmniQuant включает два инновационных компонента: Learnable Weight Clipping (LWC) и Learnable Equivalent Transformation (LET). LWC регулирует экстремальные значения весов путем оптимизации порога отсечения, в то время как LET решает проблему выбросов в активациях, перенося сложность квантования с активаций на веса через обучаемое эквивалентное преобразование. Работая в рамках дифференцируемой структуры с использованием блочной минимизации ошибок, OmniQuant может эффективно оптимизировать процесс квантования как для квантования только весов, так и для квантования весов и активаций. Например, семейство моделей LLaMA-2 размером 7-70B может быть обработано с помощью OmniQuant на одном GPU A100-40G за 1-16 часов с использованием 128 образцов. Многочисленные эксперименты подтверждают превосходную производительность OmniQuant в различных конфигурациях квантования, таких как W4A4, W6A6, W4A16, W3A16 и W2A16. Кроме того, OmniQuant демонстрирует эффективность в моделях, настроенных на выполнение инструкций, и обеспечивает значительное улучшение скорости вывода и сокращение объема памяти на реальных устройствах. Коды и модели доступны по адресу https://github.com/OpenGVLab/OmniQuant.
Разработка программного обеспечения играет ключевую роль в стимулировании инноваций и повышении эффективности в современных обществах. Чтобы удовлетворить требования этой динамичной области, возрастает потребность в эффективном помощнике для разработки программного обеспечения. Однако существующие крупные языковые модели, представленные ChatGPT, страдают от ограниченной доступности, включая данные для обучения и веса модели. Хотя другие крупные модели с открытым исходным кодом, такие как LLaMA, показали перспективность, они всё ещё испытывают трудности с пониманием человеческих намерений. В данной статье мы представляем SoTaNa — помощника для разработки программного обеспечения с открытым исходным кодом. SoTaNa использует ChatGPT для генерации высококачественных данных на основе инструкций в области программной инженерии и применяет параметрически эффективный подход тонкой настройки для улучшения базовой модели с открытым исходным кодом, LLaMA. Мы оцениваем эффективность SoTaNa в ответах на вопросы Stack Overflow и демонстрируем её возможности. Кроме того, мы обсуждаем её способности в области суммирования и генерации кода, а также влияние изменения объёма сгенерированных данных на производительность модели. Примечательно, что SoTaNa может работать на одном графическом процессоре, что делает её доступной для более широкого круга исследователей. Наш код, веса модели и данные доступны по адресу https://github.com/DeepSoftwareAnalytics/SoTaNa.
Трансформеры для обработки изображений демонстрируют впечатляющую точность в широком спектре задач визуального распознавания. К сожалению, их высокая точность часто сопровождается значительными вычислительными затратами. Это особенно актуально для задач распознавания видео, где модели обычно применяются многократно к отдельным кадрам или временным отрезкам. В данной работе мы используем временную избыточность между последовательными входными данными для снижения вычислительной стоимости трансформеров при обработке видео. Мы описываем метод, который позволяет выявлять и повторно обрабатывать только те токены, которые существенно изменились с течением времени. Предлагаемое семейство моделей, Eventful Transformers, может быть адаптировано из существующих трансформеров (часто без необходимости повторного обучения) и обеспечивает адаптивный контроль над вычислительными затратами во время выполнения. Мы оцениваем наш метод на крупномасштабных наборах данных для обнаружения объектов в видео (ImageNet VID) и распознавания действий (EPIC-Kitchens 100). Наш подход позволяет достичь значительной экономии вычислительных ресурсов (в 2-4 раза) при незначительном снижении точности.
В данной статье представлено новое нейронное неявное представление излучения для свободного изменения точки обзора и переосвещения на основе небольшого набора неструктурированных фотографий объекта, освещенного движущимся точечным источником света, отличным от позиции наблюдения. Мы выражаем форму объекта через функцию знакового расстояния, моделируемую многослойным перцептроном. В отличие от предыдущих переосвещаемых неявных нейронных представлений, мы не разделяем различные компоненты отражения, а моделируем как локальное, так и глобальное отражение в каждой точке с помощью второго многослойного перцептрона, который, помимо характеристик плотности, текущей позиции, нормали (полученной из функции знакового расстояния), направления обзора и позиции света, также учитывает подсказки теней и бликов, чтобы помочь сети моделировать соответствующие высокочастотные эффекты транспортировки света. Эти подсказки предоставляются в качестве рекомендации, и мы оставляем за сетью право решать, как включить их в итоговый результат переосвещения. Мы демонстрируем и подтверждаем наше нейронное неявное представление на синтетических и реальных сценах, демонстрирующих широкий спектр форм, свойств материалов и глобального освещения с учетом транспортировки света.