Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем модель EXAONE 3.0, настроенную на инструкции, первую открытую модель в семействе больших языковых моделей (LLM), разработанную исследовательским отделом LG AI. Среди различных размеров моделей мы публично выпускаем модель, настроенную на инструкции, объемом 7,8 миллиарда, чтобы содействовать открытым исследованиям и инновациям. Через обширные оценки на широком спектре общедоступных и внутренних бенчмарков, EXAONE 3.0 демонстрирует высокую конкурентоспособность в реальных условиях с возможностью следовать инструкциям по сравнению с другими передовыми открытыми моделями схожего размера. Наше сравнительное аналитическое исследование показывает, что EXAONE 3.0 выделяется особенно в корейском языке, обеспечивая убедительную производительность в общих задачах и сложном рассуждении. Благодаря своей сильной эффективности в реальном мире и двуязычной компетентности, мы надеемся, что EXAONE продолжит способствовать прогрессу в области экспертных исследований в области искусственного интеллекта. Наша модель EXAONE 3.0, настроенная на инструкции, доступна по адресу https://huggingface.co/LGAI-EXAONE/EXAONE-3.0-7.8B-Instruct.
Построение агента общего назначения является давней целью в области искусственного интеллекта. Существующие агенты достигли значительного прогресса во многих областях, однако они все еще испытывают трудности с выполнением задач долгосрочного планирования в открытом мире. Мы связываем это с недостатком необходимых знаний о мире и мультимодального опыта, который может направлять агентов через разнообразие долгосрочных задач. В данной статье мы предлагаем гибридный мультимодальный модуль памяти для решения вышеупомянутых проблем. Он 1) преобразует знания в Иерархический Направленный Граф Знаний, который позволяет агентам явно представлять и учить мировые знания, и 2) обобщает историческую информацию в Абстрагированный Мультимодальный Пул Опыта, который предоставляет агентам богатые ссылки для контекстного обучения. На основе гибридного мультимодального модуля памяти строится мультимодальный агент Optimus-1 с посвященным Планировщиком на основе Знаний и Отражателем, основанным на Опыте, что способствует лучшему планированию и рефлексии в условиях долгосрочных задач в Minecraft. Обширные экспериментальные результаты показывают, что Optimus-1 значительно превосходит все существующие агенты на сложных бенчмарках долгосрочных задач и проявляет производительность, близкую к уровню человека во многих задачах. Кроме того, мы представляем различные Мультимодальные Большие Языковые Модели (MLLMs) как основу Optimus-1. Экспериментальные результаты показывают, что Optimus-1 проявляет сильную обобщаемость с помощью гибридного мультимодального модуля памяти, превосходя базовую модель GPT-4V во многих задачах.
Достижение скорости и производительности на уровне человека в реальных задачах является целью для исследовательского сообщества робототехники. Эта работа делает шаг в направлении этой цели и представляет первого обученного робота-агента, достигающего уровня профессионального человека в соревновательном настольном теннисе. Настольный теннис - это физически сложный вид спорта, который требует от человеческих игроков многолетней тренировки для достижения высокого уровня мастерства. В данной статье мы представляем (1) иерархическую и модульную архитектуру политики, состоящую из (i) контроллеров низкого уровня с их подробными описаниями навыков, которые моделируют возможности агента и помогают сократить разрыв между симуляцией и реальностью, и (ii) контроллер высокого уровня, который выбирает навыки низкого уровня, (2) техники для обеспечения переноса из симуляции в реальность без обучения, включая итеративный подход к определению распределения задач, основанный на реальном мире и определяющий автоматический учебный план, и (3) адаптацию в реальном времени к незнакомым противникам. Производительность политики была оценена через 29 матчей робота против человека, из которых робот выиграл 45% (13 из 29). Все люди были незнакомыми игроками, и их уровень мастерства варьировался от начинающих до уровня турнира. Хотя робот проиграл все матчи против самых опытных игроков, он выиграл 100% матчей против начинающих и 55% матчей против игроков среднего уровня, демонстрируя прочное профессиональное человеческое мастерство. Видеозаписи матчей можно посмотреть на сайте https://sites.google.com/view/competitive-robot-table-tennis
Большие языковые модели (LLM) отлично справляются с самостоятельными задачами кода, такими как HumanEval и MBPP, но испытывают трудности с обработкой целых репозиториев кода. Эта проблема стимулировала исследования по улучшению взаимодействия LLM с кодовыми базами на уровне репозитория. Существующие решения опираются на поиск на основе сходства или на ручные инструменты и API, каждый из которых имеет существенные недостатки. Поиск на основе сходства часто характеризуется низким уровнем полноты при выполнении сложных задач, в то время как ручные инструменты и API обычно ориентированы на конкретные задачи и требуют экспертных знаний, что снижает их обобщаемость на разнообразные задачи кода и прикладные сценарии в реальном мире. Для преодоления этих ограничений мы представляем \framework, систему, которая интегрирует агентов LLM с интерфейсами графовых баз данных, извлеченных из репозиториев кода. Используя структурные свойства графовых баз данных и гибкость языка запросов к графам, \framework позволяет агенту LLM создавать и выполнять запросы, обеспечивая точное извлечение контекста, осведомленного о структуре кода, и навигацию по коду. Мы оцениваем \framework с помощью трех бенчмарков: CrossCodeEval, SWE-bench и EvoCodeBench. Кроме того, мы разрабатываем пять прикладных приложений для кодирования в реальном мире. С унифицированной схемой графовой базы данных \framework демонстрирует конкурентоспособную производительность и потенциал как в академической среде, так и в реальных приложениях, показывая свою универсальность и эффективность в области инженерии программного обеспечения. Наше демонстрационное приложение: https://github.com/modelscope/modelscope-agent/tree/master/apps/codexgraph_agent.
WalledEval - это комплексный набор инструментов для тестирования безопасности искусственного интеллекта, разработанный для оценки больших языковых моделей (LLM). Он поддерживает широкий спектр моделей, включая как модели с открытым весом, так и те, которые основаны на API, и включает более 35 показателей безопасности, охватывающих такие области, как мультиязычная безопасность, преувеличенная безопасность и инъекции подсказок. Фреймворк поддерживает как оценку LLM, так и судейскую оценку, и включает пользовательские мутаторы для тестирования безопасности относительно различных стилей текста, таких как будущее время и перефразирование. Кроме того, WalledEval представляет WalledGuard - новый, небольшой и производительный инструмент модерации контента, а также SGXSTest - показатель для оценки преувеличенной безопасности в культурных контекстах. Мы предоставляем WalledEval для общего доступа по ссылке https://github.com/walledai/walledevalA.
3D гауссово сглаживание (3DGS) недавно появилось как альтернативное представление, использующее гауссово трехмерное представление и вводящее приближенную объемную рендеринг, достигая очень высокой скорости рендеринга и обещающего качества изображения. Более того, последующие исследования успешно расширили 3DGS до динамических трехмерных сцен, демонстрируя его широкий спектр применений. Однако возникает значительный недостаток, поскольку 3DGS и его последующие методы требуют значительного количества гауссов, чтобы сохранить высокую точность визуализированных изображений, что требует большого объема памяти и хранилища. Для решения этой критической проблемы мы уделяем особое внимание двум ключевым целям: уменьшению количества гауссов без ущерба производительности и сжатию гауссовских атрибутов, таких как зависящий от вида цвет и ковариация. Для этого мы предлагаем стратегию обучаемой маски, которая значительно уменьшает количество гауссов, сохраняя при этом высокую производительность. Кроме того, мы предлагаем компактное, но эффективное представление зависящего от вида цвета, используя сеточное нейронное поле вместо сферических гармоник. Наконец, мы обучаем кодовые книги для компактного представления геометрических и временных атрибутов с помощью остаточного векторного квантования. С помощью техник сжатия модели, таких как квантование и кодирование энтропии, мы последовательно показываем более чем в 25 раз уменьшенное хранилище и улучшенную скорость рендеринга по сравнению с 3DGS для статических сцен, сохраняя при этом качество представления сцены. Для динамических сцен наш подход обеспечивает более чем в 12 раз большую эффективность хранения и сохраняет высококачественную реконструкцию по сравнению с существующими передовыми методами. Наша работа предоставляет комплексную структуру для представления трехмерных сцен, достигая высокой производительности, быстрого обучения, компактности и реального времени рендеринга. Наша страница проекта доступна по адресу https://maincold2.github.io/c3dgs/.
Современные модели генерации изображений отличаются в создании качественных изображений по кратким описаниям. Однако они не способны сохранить согласованность множественных экземпляров на изображениях при обработке длинных контекстов. Эта несогласованность в значительной степени обусловлена отсутствием детализированной разметки характеристик экземпляров в существующих обучающих наборах данных. Для решения этих проблем мы представляем Openstory++, крупномасштабный набор данных, объединяющий дополнительные аннотации на уровне экземпляров с изображениями и текстом. Более того, мы разрабатываем методику обучения, которая акцентирует генерацию изображений и текста, сосредотачиваясь на сущностях, что гарантирует, что модели научатся эффективно переплетать визуальную и текстовую информацию. Конкретно, Openstory++ упрощает процесс извлечения ключевых кадров из видеороликов общего доступа, используя модели видео-языка для генерации подписей, которые затем улучшаются большой языковой моделью для сохранения повествовательной целостности. Он превосходит предыдущие наборы данных, предлагая более обширный ресурс общего доступа, который включает автоматическое создание подписей, изображения высокого разрешения, адаптированные для количества экземпляров, и обширные последовательности кадров для временной согласованности. Кроме того, мы представляем Cohere-Bench, новаторскую бенчмарк-платформу для оценки задач генерации изображений при предоставлении длинного мультимодального контекста, включая способность сохранять фон, стиль, экземпляры в данном контексте согласованными. По сравнению с существующими бенчмарками, наша работа заполняет критические пробелы в мультимодальной генерации, способствуя развитию моделей, способных ловко генерировать и интерпретировать сложные повествования в средах общего доступа. Эксперименты, проведенные в рамках Cohere-Bench, подтверждают превосходство Openstory++ в развитии моделей высококачественного визуального повествования, улучшая их способность решать задачи генерации в средах общего доступа. Более подробную информацию можно найти на https://openstorypp.github.io/
Мы представляем Speech-MASSIVE, многоязычный набор данных для понимания устной речи (SLU), включающий речевую составляющую для части текстового корпуса MASSIVE. Speech-MASSIVE охватывает 12 языков различных языковых семей и наследует от MASSIVE аннотации для задач предсказания намерений и заполнения слотов. Наше дополнение вызвано дефицитом массово многоязычных наборов данных SLU и растущей потребностью в универсальных речевых наборах данных для оценки базовых моделей (LLM, речевых кодировщиков) на разных языках и задачах. Мы предоставляем мультимодальный, многозадачный, многоязычный набор данных и сообщаем о базовых значениях SLU, используя как каскадные, так и конечные архитектуры в различных сценариях обучения (нулевое, малое количество данных, и полное дообучение). Кроме того, мы демонстрируем пригодность Speech-MASSIVE для оценки других задач, таких как транскрибирование речи, идентификация языка и перевод речи. Набор данных, модели и код доступны публично по адресу: https://github.com/hlt-mt/Speech-MASSIVE
Методы, основанные на дифференцируемой объемной визуализации, значительно продвинулись в синтезе нового вида. С одной стороны, инновационные методы заменили сеть Neural Radiance Fields (NeRF) на локально параметризованные структуры, обеспечивая высококачественную визуализацию за разумное время. С другой стороны, подходы использовали дифференцируемое сглаживание вместо лучевого литья NeRF для быстрой оптимизации радиационных полей с помощью гауссовских ядер, позволяя тонко адаптироваться к сцене. Однако дифференцируемое лучевое литье с нерегулярно распределенными ядрами было мало исследовано, в то время как сглаживание, несмотря на быстрые времена визуализации, подвержено видимым артефактам. Наша работа закрывает этот разрыв, предоставляя физически согласованную формулировку излучаемой радиации c и плотности {\sigma}, декомпозированную с помощью гауссовских функций, ассоциированных с сферическими гауссианами/гармониками для цветовой репрезентации всех частот. Мы также представляем метод, позволяющий дифференцируемое лучевое литье с нерегулярно распределенными гауссианами с использованием алгоритма, который интегрирует радиационные поля слой за слоем и использует структуру BVH. Это позволяет нашему подходу тонко адаптироваться к сцене, избегая артефактов сглаживания. В результате мы достигаем превосходного качества визуализации по сравнению с современными методами, сохраняя разумные времена обучения и достигая скорости вывода 25 кадров в секунду на наборе данных Blender. Страница проекта с видео и кодом: https://raygauss.github.io/
В данной статье представлен подход к декомпозиции анимированной графики на спрайты, набор базовых элементов или слоев. Наш подход основан на оптимизации параметров спрайтов для соответствия растровому видео. Для повышения эффективности мы предполагаем использование статических текстур для спрайтов для уменьшения пространства поиска и предотвращения артефактов с помощью модели текстурного приора. Для дальнейшего ускорения оптимизации мы вводим инициализацию параметров спрайтов с использованием предварительно обученной модели сегментации объектов на видео и пользовательского ввода однокадровых аннотаций. Для нашего исследования мы создаем набор данных Crello Animation из онлайн-сервиса дизайна и определяем количественные метрики для измерения качества извлеченных спрайтов. Эксперименты показывают, что наш метод значительно превосходит базовые решения для аналогичных задач декомпозиции с точки зрения компромисса между качеством и эффективностью.
Кинематографическое разделение аудиоисточников (CASS) является довольно новым подзаданием разделения аудиоисточников. Типичная конфигурация CASS представляет собой проблему с тремя компонентами, с целью разделения смеси на дорожку диалога (DX), музыкальную дорожку (MX) и звуковую дорожку (FX). Однако на практике существует несколько граничных случаев, поскольку некоторые звуковые источники не подходят четко ни в одну из этих трех дорожек, что требует использования дополнительных вспомогательных дорожек в производстве. Очень распространенным граничным случаем является пение в фильмовом аудио, которое может принадлежать как к DX, так и к MX, в зависимости от кинематографического контекста. В данной работе мы демонстрируем очень простое расширение моделей Bandit с отдельным декодером и Banquet с запросным однодекодерным подходом до проблемы с четырьмя компонентами, рассматривая немузыкальный диалог, инструментальную музыку, пение и звуковые эффекты как отдельные компоненты. Интересно, что модель Banquet с запросным подходом превзошла модель Bandit с отдельным декодером. Мы предположили, что это обусловлено лучшим выравниванием признаков в узком месте, обеспеченным слоем FiLM, независимым от полосы. Набор данных и реализация модели будут доступны по адресу https://github.com/kwatcharasupat/source-separation-landing.