Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современные системы искусственного интеллекта (ИИ) работают на основе фундаментальных моделей. В данной статье представлен новый набор фундаментальных моделей под названием Llama 3. Это стадо языковых моделей, которые естественно поддерживают мультиязычность, кодирование, рассуждения и использование инструментов. Наша крупнейшая модель - плотный трансформер с 405 миллиардами параметров и окном контекста до 128 тыс. токенов. В данной статье представлено обширное эмпирическое исследование Llama 3. Мы обнаружили, что Llama 3 обеспечивает сравнимое качество с ведущими языковыми моделями, такими как GPT-4, на множестве задач. Мы публично выпустили Llama 3, включая предварительно обученные и последующие версии языковой модели с 405 миллиардами параметров и нашу модель Llama Guard 3 для безопасности ввода и вывода. В статье также представлены результаты экспериментов, в ходе которых мы интегрировали возможности работы с изображениями, видео и речью в Llama 3 с помощью композиционного подхода. Мы заметили, что данный подход конкурентоспособен с передовыми достижениями в задачах распознавания изображений, видео и речи. Полученные модели пока не были широко выпущены, так как они все еще находятся в стадии разработки.
Недавние достижения в области Диффузионного Трансформера (DiT) продемонстрировали выдающуюся профессиональную компетентность в создании видеоконтента высокого качества. Тем не менее, потенциал моделей диффузии на основе трансформеров для эффективной генерации видео с управляемым движением остается малоисследованным направлением. В данной статье представлен Tora, первая траекторно-ориентированная структура DiT, которая одновременно интегрирует текстовые, визуальные и траекторные условия для генерации видео. Конкретно, Tora состоит из Экстрактора Траекторий (TE), Пространственно-Временного DiT и Модуля Управления Движением (MGF). TE кодирует произвольные траектории в иерархические пространственно-временные патчи движения с помощью сети 3D видеокомпрессии. MGF интегрирует патчи движения в блоки DiT для генерации последовательных видео, следующих за траекториями. Наш дизайн гармонично сочетается с масштабируемостью DiT, обеспечивая точное управление динамикой видеоконтента с различной продолжительностью, соотношением сторон и разрешением. Обширные эксперименты демонстрируют превосходство Tora в достижении высокой точности движения, а также тщательное моделирование движения физического мира. Страницу можно найти по адресу https://ali-videoai.github.io/tora_video.
Мы представляем MoMa, новую архитектуру модальности-осведомленного смешанного экспертного (MoE) подхода, разработанную для предварительного обучения смешанных, раннего слияния языковых моделей. MoMa обрабатывает изображения и текст в произвольной последовательности, разделяя экспертные модули на модально-специфические группы. Эти группы исключительно обрабатывают назначенные токены, используя изученное маршрутизирование внутри каждой группы для поддержания семантически информированной адаптивности. Наши эмпирические результаты показывают значительное увеличение эффективности предварительного обучения благодаря этому модально-специфическому распределению параметров. При бюджете обучения в 1 трлн токенов модель MoMa 1.4B, включающая 4 текстовых эксперта и 4 эксперта по изображениям, достигает впечатляющих сбережений FLOPs: общий показатель уменьшается в 3.7 раза, сокращение для текста составляет 2.6 раза, а для обработки изображений - 5.2 раза по сравнению с плотной базовой моделью с эквивалентным вычислительным объемом, измеренным по потере предварительного обучения. Это превосходит стандартный выбор эксперта MoE с 8 смешанными модальными экспертами, который достигает сбережения FLOPs в 3 раза (3 для текста, 2.8 для изображения). Комбинирование MoMa с смесью глубин (MoD) дополнительно улучшает сбережения FLOPs предварительного обучения до 4.2 раза в общем (текст: 3.4 раза, изображение: 5.3 раза), хотя эта комбинация вредит производительности в причинном выводе из-за увеличенной чувствительности к точности маршрутизатора. Эти результаты демонстрируют потенциал MoMa значительно улучшить эффективность предварительного обучения смешанных, раннего слияния языковых моделей, открывая путь к более ресурсоэффективным и способным мультимодальным системам искусственного интеллекта.
В данной статье мы представляем Cross Language Agent - Simultaneous Interpretation, CLASI, высококачественную и человекоподобную Систему одновременного перевода речи (SiST). Вдохновленные профессиональными человеческими переводчиками, мы используем новую стратегию чтения-записи на основе данных для балансировки качества перевода и задержки. Для решения проблемы перевода терминов в предметной области CLASI использует многомодульный модуль поиска для получения соответствующей информации для дополнения перевода. Поддерживаемый LLMs, наш подход может генерировать перевод с допуском ошибок, учитывая входной аудиофайл, исторический контекст и полученную информацию. Экспериментальные результаты показывают, что наша система превосходит другие системы значительно. В соответствии с профессиональными человеческими переводчиками, мы оцениваем CLASI с использованием лучшей метрики оценки человека, доля действительной информации (VIP), которая измеряет количество информации, которое может быть успешно передано слушателям. В реальных сценариях, где выступления часто нечеткие, неформальные и неясные, CLASI достигает VIP в размере 81,3% и 78,0% для направлений перевода с китайского на английский и с английского на китайский соответственно. В отличие от современных коммерческих или открытых систем, которые достигают только 35,4% и 41,6%, на крайне сложном наборе данных, где другие системы достигают менее 13% VIP, CLASI все равно может достичь 70% VIP.
Мы представляем ShieldGemma, комплексный набор моделей модерации контента безопасности на основе LLM, построенных на Gemma2. Эти модели обеспечивают надежные, современные прогнозы рисков безопасности по ключевым типам вреда (сексуально откровенный, опасный контент, домогательства, ненавистная речь) как в пользовательском вводе, так и в выводе, сгенерированном LLM. Оцениваясь на общедоступных и внутренних бенчмарках, мы демонстрируем превосходную производительность по сравнению с существующими моделями, такими как Llama Guard (+10.8\% AU-PRC на общедоступных бенчмарках) и WildCard (+4.3%). Кроме того, мы представляем новый конвейер кураторства данных на основе LLM, адаптируемый для различных задач, связанных с безопасностью, и не только. Мы продемонстрировали сильную обобщающую производительность модели, обученной в основном на синтетических данных. Предоставляя ShieldGemma, мы предоставляем ценный ресурс исследовательскому сообществу, продвигая безопасность LLM и обеспечивая создание более эффективных решений модерации контента для разработчиков.
Первая конференция по загрязнению данных (CONDA 2024) фокусируется на всех соответствующих аспектах загрязнения данных в обработке естественного языка, где загрязнение данных понимается как ситуации, когда данные для оценки включены в корпуса предварительного обучения, используемые для обучения моделей крупного масштаба, что негативно сказывается на результатах оценки. На конференции было проведено совместное задание по сбору доказательств загрязнения данных в текущих доступных наборах данных и моделях. Цель совместного задания и связанной базы данных заключается в помощи сообществу в понимании масштаба проблемы и помощи исследователям в избегании публикации результатов оценки на известных загрязненных ресурсах. Совместное задание предоставляет структурированную, централизованную общедоступную базу данных для сбора доказательств загрязнения, открытую для вклада от сообщества через запросы на пул-запросы на GitHub. Этот первый сборочный документ основан на 566 сообщенных записях о 91 загрязненном источнике от общего числа 23 участников. Подробности отдельных случаев загрязнения доступны на платформе. Платформа продолжает быть доступной онлайн и открытой для вклада от сообщества.
Аудиовизуальная семантическая сегментация (AVSS) направлена на сегментацию и классификацию звуковых объектов в видео с акустическими подсказками. Однако большинство подходов оперируют на предположении о близких множествах и только идентифицируют заранее определенные категории из обучающих данных, лишаясь обобщающей способности обнаруживать новые категории в практических приложениях. В данной статье мы представляем новую задачу: открытую аудиовизуальную семантическую сегментацию, расширяя задачу AVSS до сценариев открытого мира за пределами аннотированного пространства меток. Это более сложная задача, требующая распознавания всех категорий, даже тех, которые никогда не были видены или услышаны во время обучения. Более того, мы предлагаем первую открытую аудиовизуальную семантическую сегментацию с расширенным словарем, OV-AVSS, которая в основном состоит из двух частей: 1) универсального модуля локализации источника звука для выполнения аудиовизуального слияния и определения всех потенциальных звуковых объектов и 2) модуля классификации с открытым словарем для предсказания категорий с помощью предварительных знаний из масштабных предварительно обученных моделей видео-языка. Для правильной оценки открытой аудиовизуальной семантической сегментации мы разделили обучающие и тестовые подмножества нулевого шага на основе бенчмарка AVSBench-semantic, именуемого AVSBench-OV. Обширные эксперименты демонстрируют сильную сегментацию и способность к нулевому обобщению нашей модели на всех категориях. На наборе данных AVSBench-OV OV-AVSS достигает 55.43% mIoU на базовых категориях и 29.14% mIoU на новых категориях, превосходя метод нулевого шага на 41.88%/20.61% и метод с открытым словарем на 10.2%/11.6%. Код доступен по ссылке https://github.com/ruohaoguo/ovavss.
Мы представляем Berkeley Humanoid - надежную и недорогую платформу для исследований среднего масштаба по управлению на основе обучения. Наш легкий робот, созданный внутри университета, специально разработан для алгоритмов обучения с низкой сложностью симуляции, антропоморфного движения и высокой надежности от падений. Узкая разница между симуляцией и реальностью робота обеспечивает легкое и надежное передвижение по различным местностям на открытом воздухе, достигаемое с помощью простого контроллера обучения с подкреплением с использованием легкой доменной рандомизации. Более того, мы демонстрируем, что робот способен преодолевать сотни метров, ходить по крутой грунтовой тропе и прыгать на одной и двух ногах в качестве свидетельства его высокой производительности в динамичном ходьбе. Обладая способностью к омнидирекциональному передвижению и способностью выдерживать значительные воздействия с компактной настройкой, наша система нацелена на масштабируемое развертывание систем гуманоидов на основе обучения симуляции и реальности. Дополнительные подробности доступны на сайте http://berkeley-humanoid.com.
Мимика лица и движения рук необходимы для выражения наших эмоций и взаимодействия с миром. Тем не менее, большинство трехмерных человеческих аватаров, созданных на основе случайно захваченного видео, поддерживают только движения тела без выражения лица и движений рук. В данной работе мы представляем ExAvatar - выразительный трехмерный человеческий аватар с цельным телом, обученный на коротком монокулярном видео. Мы разработали ExAvatar как комбинацию параметрической сетки целого тела (SMPL-X) и трехмерного гауссовского сплетения (3DGS). Основные проблемы заключаются в том, что 1) в видео ограниченное разнообразие выражений лица и поз и 2) отсутствие трехмерных наблюдений, таких как трехмерные сканы и RGBD-изображения. Ограниченное разнообразие в видео затрудняет создание анимаций с новыми выражениями лица и позами. Кроме того, отсутствие трехмерных наблюдений может привести к значительной неоднозначности в частях тела человека, которые не наблюдались на видео, что может привести к заметным артефактам при новых движениях. Для их решения мы представляем наше гибридное представление сетки и трехмерных гауссов. Наше гибридное представление рассматривает каждый трехмерный гауссиан как вершину на поверхности с заранее определенной информацией о соединениях (т.е. треугольные грани) между ними в соответствии с топологией сетки SMPL-X. Это позволяет нашему ExAvatar анимироваться с новыми выражениями лица, управляемыми пространством выражений лица SMPL-X. Кроме того, используя регуляризаторы на основе соединений, мы значительно уменьшаем артефакты при новых выражениях лица и позах.
Обфускация авторства направлена на скрытие личности автора в тексте путем изменения стиля письма, словарного запаса, синтаксиса и других лингвистических особенностей, связанных с автором текста. Это изменение должно сбалансировать конфиденциальность и полезность. Хотя сильные методы обфускации могут эффективно скрывать личность автора, они часто ухудшают качество и полезность текста для его предполагаемого назначения. Напротив, сохранение высокой полезности обычно обеспечивает недостаточную конфиденциальность, что упрощает деанонимизацию автора для противника. Таким образом, достижение оптимального баланса между этими двумя противоречащими целями критично. В данной статье мы предлагаем TAROT: Task-Oriented Authorship Obfuscation Using Policy Optimization, новый метод обфускации авторства без учителя, целью которого является оптимизация компромисса между конфиденциальностью и полезностью путем пересоздания всего текста с учетом его последующей полезности. Наш подход использует оптимизацию политики в качестве парадигмы настройки малых языковых моделей для переписывания текстов с сохранением идентичности автора и полезности для последующей задачи. Мы показываем, что наш подход в значительной степени снижает точность атакующих, сохраняя при этом полезность. Мы предоставляем наш код и модели общественности.
Существующие модели визуальных основ основаны исключительно на неструктурированных 2D данных, что ограничивает их понимание 3D структуры объектов и сцен. В данной работе мы показываем, что донастройка на 3D-осознанных данных улучшает качество возникающих семантических признаков. Мы разрабатываем метод для преобразования семантических 2D признаков в эффективное 3D гауссовское представление, что позволяет нам повторно отобразить их для произвольных видов. Используя отображенные 3D-осознанные признаки, мы разрабатываем стратегию донастройки для передачи такого 3D осознания в 2D модель основы. Мы демонстрируем, что модели, донастроенные таким образом, производят признаки, которые значительно улучшают производительность последующих задач в семантической сегментации и оценке глубины через простое линейное зондирование. Особенно стоит отметить, что хотя донастроены на одном внутреннем наборе данных, улучшения могут быть переданы на различные внутренние и внедоменные наборы данных. Мы надеемся, что наше исследование побудит сообщество рассмотреть внедрение 3D осознания при обучении 2D моделей основы. Страница проекта: https://ywyue.github.io/FiT3D.
Внедрение временного измерения в предварительно обученные модели диффузии изображений для генерации видео является распространенным подходом. Однако этот метод требует значительных вычислительных ресурсов и больших наборов видеоданных. Более того, гетерогенность между наборами данных изображений и видео часто приводит к катастрофическому забыванию экспертизы изображений. Недавние попытки напрямую извлечь видеофрагменты из моделей диффузии изображений в некоторой степени смягчили эти проблемы. Тем не менее, эти методы могут генерировать только краткие видеоролики с простыми движениями и не способны улавливать мелкозернистое движение или деформацию, не соответствующую сетке. В данной статье мы предлагаем новый алгоритм Zero-Shot видео-сэмплирования, обозначенный как ZS^2, способный напрямую сэмплировать качественные видеоролики из существующих методов синтеза изображений, таких как Stable Diffusion, без какого-либо обучения или оптимизации. Конкретно, ZS^2 использует модель шума зависимости и внимание на временной импульс для обеспечения согласованности контента и анимационной согласованности соответственно. Эта способность позволяет ему выделяться в связанных задачах, таких как условная и контекстно-специализированная генерация видео и редактирование видео по инструкциям. Экспериментальные результаты показывают, что ZS^2 достигает передового уровня производительности в генерации видео с нулевым обучением, иногда превосходя недавние методы с учителем. Домашняя страница: https://densechen.github.io/zss/.
Нейронные поля превосходят в области компьютерного зрения и робототехники благодаря своей способности понимать трехмерный визуальный мир, такой как вывод семантики, геометрии и динамики. Учитывая возможности нейронных полей в плотном представлении трехмерной сцены по двумерным изображениям, мы задаем вопрос: можем ли мы масштабировать их самообучение, в частности, с использованием маскированных автокодировщиков, для создания эффективных трехмерных представлений на основе цветных RGB изображений. В связи с поразительным успехом расширения трансформеров на новые модальности данных, мы используем стандартные трехмерные видовые трансформеры для адаптации к уникальной формулировке NeRF. Мы используем объемную сетку NeRF в качестве плотного входа для трансформера, противопоставляя ее другим трехмерным представлениям, таким как облака точек, где плотность информации может быть неравномерной, а представление неоднородным. В связи с трудностями применения маскированных автокодировщиков к неявному представлению, такому как NeRF, мы выбираем извлечение явного представления, которое канонизирует сцены в различных областях путем использования траектории камеры для выборки. Наша цель становится возможной благодаря маскированию случайных участков из сетки яркости и плотности NeRF и использованию стандартного трехмерного трансформера Swin для восстановления маскированных участков. Таким образом, модель может изучить семантическую и пространственную структуру полных сцен. Мы предварительно обучаем это представление в масштабе на наших предложенных отобранных данных цветных RGB, общим объемом более 1,8 миллиона изображений. После предварительного обучения кодировщик используется для эффективного трехмерного обучения передачи. Наше новаторское самообучение NeRF, NeRF-MAE, масштабируется замечательно и улучшает производительность на различных сложных трехмерных задачах. Используя неразмеченные цветные двумерные данные для предварительного обучения, NeRF-MAE значительно превосходит самообучение трехмерных данных и базовые показатели понимания сцены NeRF на наборах данных Front3D и ScanNet с абсолютным улучшением производительности более 20% AP50 и 8% AP25 для обнаружения трехмерных объектов.