Ежедневно отобранные исследовательские статьи по ИИ с переводами
Сообщество BigCode, занимающееся открытой научной коллаборацией в области ответственной разработки крупных языковых моделей для кода (Code LLMs), представляет StarCoder и StarCoderBase: модели с 15,5 миллиардами параметров, длиной контекста в 8 тысяч токенов, возможностью заполнения пропусков и быстрым выводом в условиях больших пакетов данных благодаря механизму multi-query attention. StarCoderBase обучена на 1 триллионе токенов, извлечённых из The Stack — обширной коллекции репозиториев GitHub с разрешительными лицензиями, инструментами для проверки и процедурой отказа. Мы дообучили StarCoderBase на 35 миллиардах токенов Python, что привело к созданию StarCoder. Мы провели наиболее всестороннюю на сегодняшний день оценку Code LLMs и показали, что StarCoderBase превосходит все открытые Code LLM, поддерживающие несколько языков программирования, и соответствует или превосходит модель OpenAI code-cushman-001. Более того, StarCoder превосходит все модели, дообученные на Python, способна достигать 40\% pass@1 на HumanEval, сохраняя при этом производительность на других языках программирования. Мы предприняли несколько важных шагов для безопасного открытого доступа к модели, включая улучшенный конвейер удаления персональных данных (PII) и новый инструмент для отслеживания атрибуции, и сделали модели StarCoder общедоступными под более коммерчески жизнеспособной версией лицензии Open Responsible AI Model.
В данном исследовании мы начинаем изучение понимания видео, представляя VideoChat — сквозную систему понимания видео, ориентированную на чат. Она объединяет базовые модели для видео и крупные языковые модели через обучаемый нейронный интерфейс, демонстрируя превосходство в пространственно-временном анализе, локализации событий и выводе причинно-следственных связей. Для настройки этой системы мы предлагаем видеоцентричный набор данных с инструкциями, состоящий из тысяч видео, сопоставленных с подробными описаниями и диалогами. Этот набор данных акцентирует внимание на пространственно-временном анализе и причинно-следственных связях, предоставляя ценный ресурс для обучения систем понимания видео, ориентированных на чат. Предварительные качественные эксперименты демонстрируют потенциал нашей системы в широком спектре видеоприложений и задают стандарт для будущих исследований. Наш код и данные доступны по адресу https://github.com/OpenGVLab/Ask-Anything.
Генеративный ИИ (AIGC, также известный как контент, создаваемый ИИ) добился значительных успехов за последние несколько лет, среди которых наиболее практичным является генерация контента на основе текстовых инструкций, поскольку она позволяет взаимодействовать между человеческими указаниями и AIGC. Благодаря развитию технологий преобразования текста в изображение, а также 3D-моделирования (таких как NeRF), преобразование текста в 3D стало новой, но активно развивающейся областью исследований. Наша работа представляет собой первое всестороннее исследование в области преобразования текста в 3D, которое поможет заинтересованным читателям быстро ознакомиться с его стремительным развитием. Сначала мы рассматриваем представления 3D-данных, включая как евклидовы, так и неевклидовы данные. На основе этого мы описываем различные базовые технологии, а также обобщаем, как последние работы комбинируют эти технологии для достижения удовлетворительного преобразования текста в 3D. Кроме того, мы обобщаем, как технология преобразования текста в 3D используется в различных приложениях, включая генерацию аватаров, создание текстур, преобразование форм и генерацию сцен.
Высококачественное представление человеческой деятельности является важным элементом в различных приложениях, таких как кинопроизводство, компьютерные игры или видеоконференции. Чтобы сократить разрыв до уровня производственного качества, мы представляем HumanRF — 4D динамическое нейронное представление сцены, которое захватывает полный внешний вид тела в движении на основе многовидеового ввода и позволяет воспроизводить его с новых, ранее невидимых ракурсов. Наше новое представление действует как динамическое кодирование видео, которое захватывает мелкие детали при высоких коэффициентах сжатия за счет факторизации пространства-времени в виде временной матрично-векторной декомпозиции. Это позволяет нам получать временно согласованные реконструкции человеческих актеров для длинных последовательностей, сохраняя при этом высокое разрешение деталей даже в условиях сложного движения. В то время как большинство исследований сосредоточено на синтезе с разрешением 4 МП или ниже, мы решаем задачу работы с разрешением 12 МП. Для этого мы представляем ActorsHQ — новый многовидеовой набор данных, который предоставляет 12 МП видеоматериалы с 160 камер для 16 последовательностей с высококачественными пофреймовыми реконструкциями сетки. Мы демонстрируем проблемы, возникающие при использовании таких данных высокого разрешения, и показываем, что наш новый HumanRF эффективно использует эти данные, делая значительный шаг к производственному качеству синтеза новых ракурсов.
Создание анимируемых 3D-моделей является сложной задачей из-за необходимости 3D-сканирования, трудоемкой регистрации и ручной настройки скелета, что затрудняет масштабирование на произвольные категории. В последнее время дифференцируемый рендеринг предоставляет возможность получения высококачественных 3D-моделей из монохромных видео, но эти методы ограничены жесткими категориями или отдельными экземплярами. Мы представляем RAC, который строит 3D-модели категорий из монохромных видео, разделяя вариации между экземплярами и движение во времени. Для решения этой проблемы вводятся три ключевые идеи: (1) специализация скелета для конкретных экземпляров через оптимизацию, (2) метод регуляризации латентного пространства, который способствует общей структуре для категории, сохраняя при этом детали экземпляров, и (3) использование 3D-моделей фона для отделения объектов от фона. Мы показываем, что 3D-модели людей, кошек и собак могут быть обучены на основе 50–100 интернет-видео.
Мы представляем Integrated Multimodal Perception (IMP) — простой и масштабируемый подход к обучению и моделированию для многозадачных мультимодальных систем. IMP интегрирует мультимодальные входные данные, включая изображения, видео, текст и аудио, в единый Transformer-энкодер с минимальным количеством модально-специфичных компонентов. IMP использует новую архитектуру, сочетающую Alternating Gradient Descent (AGD) и Mixture-of-Experts (MoE) для эффективного масштабирования модели и задач. Мы провели обширные эмпирические исследования IMP и выявили следующие ключевые инсайты: 1) выполнение обновлений градиентного спуска с чередованием на разнородных модальностях, функциях потерь и задачах, а также варьирование разрешений входных данных, эффективно улучшает мультимодальное понимание. 2) разрежение модели с использованием MoE в едином модально-независимом энкодере значительно повышает производительность, превосходя плотные модели, использующие модально-специфичные энкодеры или дополнительные слои слияния, и существенно смягчает конфликты между модальностями. IMP демонстрирует конкурентоспособные результаты на широком спектре задач, включая классификацию изображений, классификацию видео, поиск по изображениям и тексту, а также поиск по видео и тексту. Наиболее примечательно, что мы обучили разреженную модель IMP-MoE-L, ориентированную на задачи с видео, которая устанавливает новый рекорд в zero-shot классификации видео. Наша модель достигает точности 77,0% на Kinetics-400, 76,8% на Kinetics-600 и 76,8% на Kinetics-700 в zero-shot классификации, улучшая предыдущие рекорды на +5%, +6,7% и +5,8% соответственно, при использовании всего 15% от их общего объема вычислительных затрат на обучение.
Мы предлагаем новый подход для разработки масштабируемых рекомендательных систем с сохранением конфиденциальности, использующих дифференциально приватные (DP) большие языковые модели (LLMs), который преодолевает определённые трудности и ограничения, связанные с DP-обучением таких сложных систем. Наш метод особенно хорошо подходит для развивающейся области рекомендательных систем на основе LLM, но может быть легко применён для любых рекомендательных систем, обрабатывающих представления входных данных на естественном языке. Наш подход предполагает использование методов DP-обучения для тонкой настройки публично предобученной LLM на задаче генерации запросов. Полученная модель способна генерировать приватные синтетические запросы, репрезентативные для исходных запросов, которые могут свободно использоваться для любых последующих процедур обучения рекомендательных систем без дополнительных затрат на приватность. Мы оцениваем наш метод с точки зрения возможности безопасного обучения эффективных моделей глубокого поиска и наблюдаем значительное улучшение их качества поиска без ущерба для гарантий приватности на уровне запросов по сравнению с методами, где модели поиска обучаются непосредственно с использованием DP.
Для создания универсальных роботов необходимо, чтобы они могли ежедневно взаимодействовать с шарнирными объектами так же, как это делают люди. Современные манипуляции роботов в значительной степени полагаются на использование параллельного захвата, что ограничивает робота работой с узким набором объектов. С другой стороны, использование многофункциональной роботизированной руки с несколькими пальцами позволит лучше приблизить поведение робота к человеческому и даст возможность работать с разнообразными шарнирными объектами. С этой целью мы предлагаем новый эталонный тест под названием DexArt, который включает в себя ловкие манипуляции с шарнирными объектами в физическом симуляторе. В нашем тесте мы определяем несколько сложных задач по манипуляции, в рамках которых роботизированная рука должна взаимодействовать с различными шарнирными объектами. Основное внимание уделяется оценке обобщаемости изученной стратегии на ранее не встречавшиеся шарнирные объекты. Это крайне сложная задача, учитывая высокую степень свободы как рук, так и объектов. Мы используем обучение с подкреплением в сочетании с обучением 3D-представлений для достижения обобщения. В ходе обширных исследований мы предоставляем новые данные о том, как обучение 3D-представлений влияет на принятие решений в обучении с подкреплением при работе с входными данными в виде 3D-облаков точек. Подробнее можно узнать на сайте https://www.chenbao.tech/dexart/.
В данной статье мы анализируем производительность многозадачной end-to-end трансформаторной модели в задаче рекомендаций в диалоге, цель которой — предоставлять рекомендации на основе явных предпочтений пользователя, выраженных в ходе беседы. В то время как предыдущие работы в этой области используют сложные многокомпонентные подходы, где управление диалогом и рекомендация сущностей выполняются отдельными компонентами, мы показываем, что унифицированная трансформаторная модель, основанная на T5 (текст-в-текст трансформаторной модели), может успешно справляться как с рекомендацией релевантных элементов, так и с генерацией диалога. Мы дообучаем нашу модель на наборе данных ReDIAL для рекомендации фильмов в диалоге и создаем дополнительные обучающие задачи на основе MovieLens (например, предсказание атрибутов фильма и связанных фильмов на основе входного фильма) в рамках многозадачного обучения. С помощью серии пробных исследований мы демонстрируем, что знания, полученные в дополнительных задачах, переносятся в контекст диалога, где каждая задача приводит к увеличению связанного пробного показателя на 9%-52%.