Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) играют ключевую роль в современной обработке естественного языка, демонстрируя выдающиеся результаты в различных задачах. Однако их высокие вычислительные и ресурсные требования, особенно к объему оперативной памяти (DRAM), создают значительные трудности, особенно для устройств с ограниченной емкостью DRAM. В данной работе рассматривается задача эффективного выполнения LLM, размер которых превышает доступный объем DRAM, путем хранения параметров модели на флэш-памяти с их подгрузкой в DRAM по мере необходимости. Наш метод включает создание модели затрат на вывод, которая учитывает особенности работы флэш-памяти, что позволяет оптимизировать два ключевых аспекта: уменьшение объема данных, передаваемых с флэш-памяти, и чтение данных более крупными и последовательными блоками. В рамках этого подхода, учитывающего особенности флэш-памяти, мы представляем две основные техники. Во-первых, "оконный метод" стратегически сокращает объем передаваемых данных за счет повторного использования ранее активированных нейронов, а во-вторых, "группировка строк и столбцов", адаптированная к последовательному доступу к данным на флэш-памяти, увеличивает размер блоков данных, считываемых с флэш-памяти. Эти методы в совокупности позволяют выполнять модели, размер которых вдвое превышает доступный объем DRAM, с увеличением скорости вывода в 4-5 раз на CPU и 20-25 раз на GPU по сравнению с наивными подходами к загрузке. Наша интеграция учета разреженности, контекстно-адаптивной загрузки и аппаратно-ориентированного дизайна открывает путь для эффективного выполнения LLM на устройствах с ограниченной памятью.
Масштабируемая векторная графика (SVG) стала неотъемлемой частью современных приложений для рендеринга изображений благодаря своей бесконечной масштабируемости в разрешении, универсальности использования и возможностям редактирования. SVG особенно популярны в областях веб-разработки и графического дизайна. Существующие подходы к моделированию SVG с использованием глубокого обучения часто сталкиваются с трудностями при генерации сложных SVG и ограничиваются более простыми, которые требуют значительной обработки и упрощения. В данной статье представлен StarVector, мультимодальная модель генерации SVG, которая эффективно интегрирует крупные языковые модели для генерации кода (CodeLLMs) и модели компьютерного зрения. Наш подход использует CLIP-кодировщик изображений для извлечения визуальных представлений из пиксельных изображений, которые затем преобразуются в визуальные токены через адаптерный модуль. Эти визуальные токены добавляются к токенам SVG, и последовательность моделируется с помощью модели StarCoder с использованием предсказания следующего токена, что позволяет эффективно выравнивать визуальные и кодовые токены. Это позволяет StarVector генерировать неограниченные SVG, которые точно представляют пиксельные изображения. Для оценки производительности StarVector мы представляем SVG-Bench, комплексный бенчмарк для оценки методов SVG на основе нескольких наборов данных и соответствующих метрик. В рамках этого бенчмарка мы вводим новые наборы данных, включая SVG-Stack, крупномасштабный набор данных реальных примеров SVG, и используем его для предварительного обучения StarVector в качестве крупной базовой модели для SVG. Наши результаты демонстрируют значительное улучшение визуального качества и обработки сложности по сравнению с текущими методами, что отмечает заметный прогресс в технологии генерации SVG. Код и модели: https://github.com/joanrod/star-vector
Восстановление 3D-структуры и параметров камеры по 2D-опорным точкам лежит в основе всей дисциплины компьютерного зрения. Традиционные методы ограничивались конкретными жесткими объектами, такими как в задачах Perspective-n-Point (PnP), однако глубокое обучение расширило наши возможности для реконструкции широкого спектра классов объектов (например, C3PDO и PAUL) с устойчивостью к шумам, окклюзиям и перспективным искажениям. Однако все эти методы ограничены фундаментальной необходимостью установления соответствий в 3D-тренировочных данных, что существенно сужает их применимость к задачам, где доступно большое количество 3D-данных с установленными соответствиями. Наш подход использует присущую трансформерам эквивариантность к перестановкам для работы с переменным количеством точек в каждом экземпляре 3D-данных, устойчив к окклюзиям и обобщается на неизвестные категории. Мы демонстрируем передовые результаты на бенчмарках задач восстановления 2D-3D. Поскольку наш подход может быть обучен на таком широком классе структур, мы называем его просто 3D Lifting Foundation Model (3D-LFM) — первой в своем роде.
Способность крупных языковых моделей (LLM) обрабатывать визуальные данные привела к появлению универсальных систем компьютерного зрения, объединяющих различные задачи на стыке зрения и языка (VL) с помощью настройки по инструкциям. Однако из-за огромного разнообразия форматов входных и выходных данных в области зрения существующие универсальные модели не могут успешно интегрировать задачи сегментации и обработки нескольких изображений с задачами более общего уровня в единую структуру. В данной работе мы представляем VistaLLM — мощную визуальную систему, которая решает как общие, так и детализированные задачи VL для одного и нескольких входных изображений с использованием унифицированного подхода. VistaLLM использует токенизатор изображений, управляемый инструкциями, который фильтрует глобальные эмбеддинги с помощью описаний задач для извлечения сжатых и уточнённых признаков из множества изображений. Кроме того, VistaLLM применяет метод адаптивной выборки с учётом градиента для представления бинарных масок сегментации в виде последовательностей, что значительно улучшает результаты по сравнению с ранее используемой равномерной выборкой. Для усиления возможностей VistaLLM мы создали CoinIt — всеобъемлющий набор данных для настройки по инструкциям от общего к детальному, содержащий 6,8 млн образцов. Мы также устраняем недостаток наборов данных для привязки к нескольким изображениям, введя новую задачу AttCoSeg (Атрибутивная Совместная Сегментация), которая улучшает способность модели к рассуждению и привязке на основе нескольких входных изображений. Многочисленные эксперименты на широком спектре задач V и VL демонстрируют эффективность VistaLLM, показывая стабильно наилучшие результаты по сравнению с сильными базовыми моделями во всех последующих задачах. Наш проект доступен по адресу: https://shramanpramanick.github.io/VistaLLM/.
Мы представляем HAAR — новую генеративную модель для создания 3D-причесок на основе отдельных волосков. В частности, HAAR генерирует 3D-прически на основе текстовых описаний, которые могут использоваться как готовые ресурсы в современных графических движках. Современные генеративные модели на основе ИИ используют мощные 2D-представления для реконструкции 3D-контента в виде облаков точек, сеток или объемных функций. Однако, опираясь на 2D-представления, они по своей природе ограничены восстановлением только видимых частей. Сильно затененные структуры волос не могут быть реконструированы такими методами, и они моделируют только «внешнюю оболочку», что не подходит для использования в физически точных рендерингах или симуляциях. В отличие от этого, мы предлагаем первый метод генерации, управляемый текстом, который использует 3D-волоски в качестве базового представления. Используя системы визуального вопросно-ответного взаимодействия (VQA), мы автоматически аннотируем синтетические модели волос, созданные на основе небольшого набора причесок, разработанных художниками. Это позволяет нам обучить латентную диффузионную модель, работающую в общем UV-пространстве причесок. В качественных и количественных исследованиях мы демонстрируем возможности предложенной модели и сравниваем её с существующими подходами к генерации причесок.
Амодальное восприятие — способность понимать полную структуру объектов при их частичной видимости — является фундаментальным навыком, даже для младенцев. Его значимость распространяется на такие приложения, как автономное вождение, где критически важно четкое понимание сильно загороженных объектов. Однако современные алгоритмы обнаружения и отслеживания часто упускают эту важную способность, возможно, из-за преобладания модальных аннотаций в большинстве наборов данных. Чтобы решить проблему нехватки амодальных данных, мы представляем эталонный набор TAO-Amodal, включающий 880 разнообразных категорий в тысячах видеопоследовательностей. Наш набор данных содержит амодальные и модальные ограничивающие рамки для видимых и загороженных объектов, включая объекты, частично выходящие за пределы кадра. Для улучшения амодального отслеживания с учетом постоянства объектов мы используем легковесный модуль — амодальный расширитель, который преобразует стандартные модальные трекеры в амодальные путем тонкой настройки на нескольких сотнях видеопоследовательностей с применением аугментации данных. Мы достигаем улучшения на 3,3% и 1,6% в обнаружении и отслеживании загороженных объектов на TAO-Amodal. При оценке на людях наш метод демонстрирует значительное улучшение в 2 раза по сравнению с современными модальными базовыми методами.
Нейронное поле излучения (NeRF) стало ведущей технологией для синтеза новых видов благодаря своей впечатляющей способности к фотореалистичной реконструкции и рендерингу. Однако достижение рендеринга NeRF в реальном времени для крупномасштабных сцен остается сложной задачей, что часто приводит к использованию либо сложных предварительно рассчитанных полигональных сеток с большим количеством треугольников, либо ресурсоемкого метода лучевого марша в предварительно рассчитанных представлениях. Мы оспариваем эти традиционные подходы, отмечая, что высококачественная геометрия, представленная сетками с большим количеством треугольников, не является необходимой для достижения фотореалистичного качества рендеринга. В связи с этим мы предлагаем MixRT — новое представление NeRF, которое включает низкокачественную сетку, карту смещений, зависящую от угла обзора, и сжатую модель NeRF. Этот дизайн эффективно использует возможности существующего графического оборудования, что позволяет реализовать рендеринг NeRF в реальном времени на устройствах с ограниченными ресурсами. Благодаря высокооптимизированной системе рендеринга на основе WebGL, наш подход MixRT достигает скорости рендеринга в реальном времени на устройствах (более 30 кадров в секунду при разрешении 1280 x 720 на ноутбуке MacBook M1 Pro), улучшенного качества рендеринга (на 0.2 PSNR выше в помещениях из набора данных Unbounded-360) и меньшего объема хранения (менее 80% по сравнению с современными методами).
Методы суперразрешения (SR) недавно были предложены для масштабирования выходных данных нейронных полей излучения (NeRF) и генерации высококачественных изображений с увеличенной скоростью вывода. Однако существующие подходы NeRF+SR увеличивают нагрузку на обучение за счет использования дополнительных входных признаков, функций потерь и/или дорогостоящих процедур обучения, таких как дистилляция знаний. В данной работе мы стремимся использовать SR для повышения эффективности без затратных изменений в обучении или архитектуре. В частности, мы создаем простой конвейер NeRF+SR, который напрямую объединяет существующие модули, и предлагаем легковесную технику аугментации — случайную выборку патчей — для обучения. По сравнению с существующими методами NeRF+SR, наш конвейер снижает вычислительные затраты на SR и может обучаться до 23 раз быстрее, что делает его пригодным для работы на потребительских устройствах, таких как Apple MacBook. Эксперименты показывают, что наш конвейер может масштабировать выходные данные NeRF в 2-4 раза, сохраняя высокое качество, и увеличивает скорость вывода до 18 раз на GPU NVIDIA V100 и до 12,8 раз на чипе M1 Pro. Мы делаем вывод, что SR может быть простым, но эффективным методом для повышения эффективности моделей NeRF на потребительских устройствах.
В данной статье мы представляем новый двухэтапный подход, который полностью использует информацию, предоставляемую эталонным изображением, для создания персонализированного априорного знания в задаче генерации 3D-моделей из изображений. В то время как предыдущие подходы в основном полагаются на общий диффузионный априор, который часто не позволяет достичь согласованности с эталонным изображением, мы предлагаем предметно-ориентированную и многомодальную диффузионную модель. Эта модель не только способствует оптимизации NeRF за счет учета режима затенения для улучшения геометрии, но также улучшает текстуру, начиная с грубых результатов, чтобы достичь превосходного уточнения. Оба аспекта способствуют точному согласованию 3D-контента с объектом. Многочисленные эксперименты демонстрируют превосходство нашего метода, Customize-It-3D, значительно опережающего предыдущие работы. Он создает точные 360-градусные реконструкции с впечатляющим визуальным качеством, что делает его хорошо подходящим для различных приложений, включая создание 3D-моделей из текста.
Видео представляют собой высоко избыточный источник данных, и зачастую достаточно выделить несколько ключевых моментов для решения поставленной задачи. В данной работе мы представляем модуль текстово-обусловленного ресемплинга видео (TCR), который использует предварительно обученный и замороженный визуальный кодировщик и крупную языковую модель (LLM) для обработки длинных видеопоследовательностей в рамках задачи. TCR локализует релевантные визуальные признаки из видео на основе текстового условия и предоставляет их языковой модели для генерации текстового ответа. Благодаря своей легковесной архитектуре и использованию кросс-внимания, TCR способен обрабатывать более 100 кадров за раз, что позволяет модели работать с гораздо более длинными фрагментами видео по сравнению с предыдущими работами. Мы делаем следующие вклады: (i) разрабатываем трансформерную архитектуру для выборки, способную обрабатывать длинные видео с учетом задачи, а также метод обучения, который позволяет ей связывать предварительно обученные визуальные и языковые модели; (ii) эмпирически подтверждаем ее эффективность на широком спектре оценочных задач и устанавливаем новый эталонный результат на NextQA, EgoSchema и в рамках задачи EGO4D-LTA; и (iii) определяем задачи, которые требуют более длинных видеоконтекстов и, следовательно, могут быть эффективно использованы для дальнейшей оценки моделей, работающих с длинными видеопоследовательностями.
Диффузионные модели, управляемые текстом, становятся все более популярными для различных задач редактирования изображений, включая восстановление, стилизацию и замену объектов. Однако остается открытой исследовательской проблемой адаптация этой языково-визуальной парадигмы для более тонких задач обработки изображений, таких как удаление шума, повышение разрешения, устранение размытия и удаление артефактов сжатия. В данной статье мы разрабатываем TIP — фреймворк для обработки изображений, управляемый текстом, который использует естественный язык как удобный интерфейс для управления процессом восстановления изображений. Мы рассматриваем возможности текстовой информации в двух аспектах. Во-первых, мы используем контентно-ориентированные подсказки для улучшения семантического согласования, эффективно устраняя неоднозначность идентичности в результатах восстановления. Во-вторых, наш подход является первым фреймворком, поддерживающим детальные инструкции через языковое количественное указание степени восстановления, без необходимости явного проектирования для конкретных задач. Кроме того, мы вводим новый механизм слияния, который расширяет существующую архитектуру ControlNet, обучаясь перемасштабированию генеративного приора, тем самым достигая лучшей точности восстановления. Наши обширные эксперименты демонстрируют превосходную производительность TIP по сравнению с современными методами, а также предлагают гибкость текстового управления эффектами восстановления.
В данной статье представлен новый подход к тематическому моделированию, использующий латентные кодовые книги из векторно-квантованного вариационного автоэнкодера (VQ-VAE), которые дискретно инкапсулируют богатую информацию предобученных эмбеддингов, таких как предобученные языковые модели. На основе новой интерпретации латентных кодовых книг и эмбеддингов как концептуального мешка слов мы предлагаем новую генеративную модель тем, называемую Topic-VQ-VAE (TVQ-VAE), которая обратно генерирует исходные документы, связанные с соответствующими латентными кодовыми книгами. TVQ-VAE позволяет визуализировать темы с помощью различных генеративных распределений, включая традиционное распределение мешка слов и авторегрессивную генерацию изображений. Наши экспериментальные результаты в области анализа документов и генерации изображений демонстрируют, что TVQ-VAE эффективно захватывает контекст тем, раскрывая скрытые структуры набора данных и поддерживая гибкие формы генерации документов. Официальная реализация предложенной модели TVQ-VAE доступна по адресу https://github.com/clovaai/TVQ-VAE.