Ежедневно отобранные исследовательские статьи по ИИ с переводами
Растущий размер крупных языковых моделей создает сложности для их развертывания и вызывает опасения относительно экологического воздействия из-за высокого энергопотребления. В данной работе мы представляем BitNet, масштабируемую и стабильную архитектуру Transformer с 1-битными параметрами, разработанную для крупных языковых моделей. В частности, мы вводим BitLinear в качестве замены слоя nn.Linear для обучения 1-битных весов с нуля. Экспериментальные результаты в области языкового моделирования показывают, что BitNet демонстрирует конкурентоспособную производительность, значительно сокращая объем используемой памяти и энергопотребление по сравнению с современными методами 8-битной квантизации и базовыми моделями Transformer с FP16. Более того, BitNet демонстрирует закон масштабирования, аналогичный полноточным Transformer, что указывает на его потенциал для эффективного масштабирования до еще более крупных языковых моделей при сохранении преимуществ в эффективности и производительности.
Данная работа направлена на синтез высококачественных и реалистичных видов динамических 3D-сцен в разрешении 4K в режиме реального времени. В последнее время некоторые методы синтеза динамических видов продемонстрировали впечатляющее качество визуализации. Однако их скорость остается ограниченной при рендеринге изображений высокого разрешения. Для решения этой проблемы мы предлагаем 4K4D — представление 4D-облака точек, которое поддерживает аппаратную растеризацию и обеспечивает беспрецедентную скорость рендеринга. Наше представление построено на основе 4D-сетки признаков, что естественным образом регуляризует точки и позволяет эффективно их оптимизировать. Кроме того, мы разработали новую гибридную модель внешнего вида, которая значительно повышает качество рендеринга, сохраняя при этом эффективность. Также мы создали дифференцируемый алгоритм послойного анализа глубины для эффективного обучения предложенной модели на основе RGB-видео. Эксперименты показывают, что наше представление может быть визуализировано со скоростью более 400 кадров в секунду на наборе данных DNA-Rendering в разрешении 1080p и 80 кадров в секунду на наборе данных ENeRF-Outdoor в разрешении 4K с использованием GPU RTX 4090, что в 30 раз быстрее предыдущих методов и достигает наилучшего на сегодняшний день качества рендеринга. Мы опубликуем код для обеспечения воспроизводимости результатов.
Низкоранговая адаптация (LoRA) — это популярный метод, который сокращает количество обучаемых параметров при тонкой настройке больших языковых моделей, но по-прежнему сталкивается с серьезными проблемами хранения при масштабировании до еще более крупных моделей или развертывании множества адаптированных моделей для каждого пользователя или задачи. В данной работе мы представляем Векторную адаптацию случайных матриц (VeRA), которая сокращает количество обучаемых параметров в 10 раз по сравнению с LoRA, сохраняя при этом ту же производительность. Это достигается за счет использования одной пары низкоранговых матриц, общих для всех слоев, и обучения небольших масштабирующих векторов. Мы демонстрируем ее эффективность на тестах GLUE и E2E, а также показываем ее применение в выполнении инструкций с использованием всего 1,4 млн параметров на модели Llama2 7B.
Мы представляем метод визуального подсказывания Set-of-Mark (SoM), который позволяет раскрыть способности крупных мультимодальных моделей (LMMs), таких как GPT-4V, к визуальному заземлению. Как показано на рис. 1 (справа), мы используем готовые модели интерактивной сегментации, такие как SAM, чтобы разделить изображение на области с различной степенью детализации и наложить на эти области набор меток, например, буквенно-цифровые обозначения, маски или рамки. Используя размеченное изображение в качестве входных данных, GPT-4V может отвечать на вопросы, требующие визуального заземления. Мы проводим всестороннее эмпирическое исследование, чтобы подтвердить эффективность SoM на широком спектре задач, связанных с детальным анализом изображений и мультимодальными задачами. Например, наши эксперименты показывают, что GPT-4V с использованием SoM превосходит современную полностью дообученную модель сегментации с привязкой на наборе данных RefCOCOg в условиях zero-shot.
В последние годы наблюдается бурный рост генеративных моделей, работающих с визуальными и языковыми данными. Для генерации видео выпущены различные модели с открытым исходным кодом и общедоступные сервисы, способные создавать видео с высоким визуальным качеством. Однако эти методы часто используют ограниченный набор академических метрик, таких как FVD или IS, для оценки производительности. Мы утверждаем, что судить о крупных условных генеративных моделях по простым метрикам сложно, поскольку такие модели обычно обучаются на очень больших наборах данных и обладают многогранными способностями. Таким образом, мы предлагаем новый фреймворк и подход для всесторонней оценки качества генерируемых видео. Для этого мы сначала создаем новый список промптов для генерации видео на основе текста, анализируя реальные запросы с помощью крупной языковой модели. Затем мы оцениваем современные модели генерации видео на наших тщательно разработанных бенчмарках, учитывая визуальное качество, качество контента, качество движения и соответствие текстовому описанию с использованием около 18 объективных метрик. Чтобы получить итоговый рейтинг моделей, мы также подбираем ряд коэффициентов для согласования объективных метрик с мнениями пользователей. На основе предложенного метода согласования с мнениями наш итоговый показатель демонстрирует более высокую корреляцию, чем простое усреднение метрик, что подтверждает эффективность предложенного метода оценки.
Крупные языковые модели, такие как ChatGPT, демонстрируют впечатляющую способность изучать новые концепции в процессе вывода без необходимости тонкой настройки. Однако визуальные модели, обученные обнаруживать новые объекты в процессе вывода, не смогли воспроизвести эту способность и либо показывают низкую производительность, либо требуют метаобучения и/или тонкой настройки на схожих объектах. В данной работе мы предлагаем метаалгоритм обучения, который имитирует крупные языковые модели, изучая новые визуальные концепции в процессе вывода без тонкой настройки. Наш подход использует замороженный предварительно обученный экстрактор признаков и, аналогично обучению в контексте, переосмысливает метаобучение как моделирование последовательности по точкам данных с известными метками и тестовой точке данных с неизвестной меткой. На 8 из 11 бенчмарков метаобучения наш подход — без метаобучения или тонкой настройки — превосходит или соответствует современному алгоритму P>M>F, который проходит метаобучение на этих бенчмарках.
Как уменьшить требования к вычислительным ресурсам и памяти для нейронных сетей (НС) без ущерба для производительности? Многие недавние работы используют разреженные смеси экспертов (MoEs) для создания ресурсоэффективных крупных языковых моделей (LMs). В данной статье мы представляем несколько новых взглядов на MoEs, предлагая общую структуру, которая объединяет различные методы аппроксимации двухслойных НС (например, прямые блоки трансформеров), включая продукт-ключевые памяти (PKMs). Используя идеи из этой структуры, мы предлагаем методы улучшения как MoEs, так и PKMs. В отличие от предыдущих работ, которые сравнивают MoEs с плотными базовыми моделями в условиях равных вычислительных ресурсов, наше условие оценки — равное количество параметров, что крайне важно для корректной оценки LMs. Мы показываем, что наши MoEs конкурируют с плотной моделью Transformer-XL на наборах данных WikiText-103 и enwiki8 в двух различных масштабах, при этом будучи значительно более ресурсоэффективными. Это демонстрирует, что MoEs актуальны не только для чрезвычайно крупных LMs, но и для ресурсоэффективных LMs любого масштаба. Наш код находится в открытом доступе.
По мере того как крупные языковые модели (LLMs) становятся все более распространенными, возникает растущая потребность в новых и улучшенных методах квантования, которые могут удовлетворить вычислительные требования современных архитектур, сохраняя при этом точность. В данной статье мы представляем TEQ — обучаемое эквивалентное преобразование, которое сохраняет точность FP32 на выходе модели, одновременно используя преимущества низкоточного квантования, особенно квантования весов только с 3 и 4 битами. Процесс обучения является легковесным, требуя всего 1K шагов и менее 0,1% обучаемых параметров исходной модели. Кроме того, преобразование не добавляет вычислительных накладных расходов во время вывода. Наши результаты соответствуют современным (SOTA) методам для типичных LLMs. Наш подход может быть объединен с другими методами для достижения еще более высокой производительности. Код доступен по адресу https://github.com/intel/neural-compressor.
С впечатляющим прогрессом в генерации изображений на основе диффузии, расширение таких мощных генеративных возможностей до текстово-видео вызывает значительный интерес. Существующие методы либо требуют больших наборов текстово-видео пар и значительных ресурсов для обучения, либо изучают движения, которые точно соответствуют шаблонным видео. Найти баланс между степенью свободы генерации и затратами ресурсов для создания видео является нетривиальной задачей. В нашем исследовании мы представляем фреймворк для тонкой настройки с использованием малого количества данных, LAMP, который позволяет модели генерации изображений на основе диффузии изучить определенный шаблон движения с использованием 8–16 видео на одном GPU. В частности, мы разработали конвейер, основанный на первом кадре, который использует готовую модель текстово-видео для генерации контента, чтобы наша настроенная модель видео-диффузии в основном сосредоточилась на изучении движения. Хорошо развитые техники текстово-видео могут предоставить визуально привлекательный и разнообразный контент в качестве условий генерации, что значительно повышает качество видео и свободу генерации. Для захвата особенностей временного измерения мы расширяем предварительно обученные 2D сверточные слои модели T2I до наших новых временно-пространственных слоев обучения движению и модифицируем блоки внимания до временного уровня. Кроме того, мы разработали эффективный трюк для вывода, shared-noise sampling, который может улучшить стабильность видео с учетом вычислительных затрат. Наш метод также может быть гибко применен к другим задачам, например, анимации реальных изображений и редактированию видео. Многочисленные эксперименты демонстрируют, что LAMP может эффективно изучать шаблон движения на ограниченных данных и генерировать высококачественные видео. Код и модели доступны по адресу https://rq-wu.github.io/projects/LAMP.
Модели автодополнения кода достигли значительного прогресса в последние годы, однако популярные наборы данных для оценки, такие как HumanEval и MBPP, в основном сосредоточены на задачах автодополнения в рамках одного файла. Этот чрезмерно упрощённый сценарий не отражает реальные условия разработки программного обеспечения, где репозитории включают множество файлов с многочисленными межфайловыми зависимостями, и для корректного завершения кода часто требуется доступ и понимание контекста между файлами. Чтобы заполнить этот пробел, мы предлагаем CrossCodeEval — разнообразный и многоязычный бенчмарк для автодополнения кода, который требует глубокого понимания межфайлового контекста для точного завершения кода. CrossCodeEval построен на основе разнообразного набора реальных, открытых репозиториев с разрешительными лицензиями на четырёх популярных языках программирования: Python, Java, TypeScript и C#. Для создания примеров, которые строго требуют межфайлового контекста для точного завершения, мы предлагаем простой, но эффективный подход на основе статического анализа для выявления использования межфайлового контекста в текущем файле. Экстенсивные эксперименты с современными языковыми моделями для работы с кодом, такими как CodeGen и StarCoder, демонстрируют, что CrossCodeEval представляет собой крайне сложную задачу при отсутствии соответствующего межфайлового контекста, и мы наблюдаем явные улучшения при добавлении этого контекста в запрос. Однако, несмотря на такие улучшения, пик производительности остаётся недостигнутым даже для самой эффективной модели, что указывает на способность CrossCodeEval оценивать возможности модели в использовании обширного контекста для улучшения автодополнения кода. Наконец, мы провели сравнительный анализ различных методов извлечения межфайлового контекста и показали, что CrossCodeEval также может использоваться для оценки возможностей систем извлечения кода.