Ежедневно отобранные исследовательские статьи по ИИ с переводами
Замечательные мультимодальные возможности и интерактивный опыт GPT-4o подчеркивают их необходимость в практических приложениях, однако модели с открытым исходным кодом редко выдают выдающиеся результаты в обеих областях. В данной статье мы представляем VITA, первую в своем роде открытую мультимодальную крупномасштабную языковую модель (MLLM), способную к одновременной обработке и анализу видео-, изображений-, текстовых и аудио-модальностей, обладающую при этом продвинутым мультимодальным интерактивным опытом. Начиная с Mixtral 8x7B в качестве языкового фундамента, мы расширяем его китайский словарный запас, а затем проводим настройку двуязычных инструкций. Мы также наделяем языковую модель возможностями видео- и аудио-обработки через двухэтапное многозадачное обучение мультимодальной выравнивающей и настраивающей инструкции. VITA демонстрирует надежные базовые возможности мультиязычного, видео- и аудио-понимания, что подтверждается ее высокой производительностью на ряде как унимодальных, так и мультимодальных бенчмарков. Помимо базовых возможностей, мы сделали значительные успехи в улучшении естественного мультимодального человеко-компьютерного взаимодействия. На наш взгляд, мы первые, кто использует невозбуждающее взаимодействие и аудио-прерывание в MLLM. VITA - первый шаг для сообщества с открытым исходным кодом в исследовании плавного интегрирования мультимодального понимания и взаимодействия. Хотя еще много работы предстоит сделать над VITA, чтобы приблизиться к закрытым аналогам, мы надеемся, что ее роль пионера может послужить угловым камнем для последующих исследований. Страница проекта: https://vita-home.github.io.
Разреженные автокодировщики (SAE) представляют собой метод без учителя для изучения разреженного разложения латентных представлений нейронной сети на кажущиеся интерпретируемые признаки. Несмотря на недавнее возбуждение относительно их потенциала, исследовательские применения вне промышленности ограничены высокой стоимостью обучения полного комплекта SAE. В данной работе мы представляем Gemma Scope, открытый набор JumpReLU SAE, обученных на всех слоях и подслоях моделей Gemma 2 2B и 9B, а также на выбранных слоях базовых моделей Gemma 2 27B. Мы в основном обучаем SAE на предварительно обученных моделях Gemma 2, но также выпускаем SAE, обученные на инструкциях Gemma 2 9B для сравнения. Мы оцениваем качество каждого SAE по стандартным метрикам и публикуем эти результаты. Мы надеемся, что, выпустив эти веса SAE, мы сможем помочь сообществу сделать более амбициозные исследования по безопасности и интерпретируемости более доступными. Веса и руководство можно найти на https://huggingface.co/google/gemma-scope, а интерактивный демонстрационный материал доступен на https://www.neuronpedia.org/gemma-scope
Многомодельные модели с большим языковым объемом (MLLMs) продемонстрировали выдающиеся возможности в выполнении инструкций для различных задач с одиночным изображением. Несмотря на этот прогресс, остаются значительные проблемы в моделировании длинных последовательностей изображений. В данной работе мы представляем универсальную многомодельную модель с большим языковым объемом, mPLUG-Owl3, которая улучшает способность понимания длинных последовательностей изображений в сценариях, включающих полученные знания об изображениях и тексте, чередующиеся изображения и текст, а также длинные видеоролики. Конкретно, мы предлагаем новые гипервнимательные блоки для эффективного интегрирования зрительной и языковой информации в общее языково-управляемое семантическое пространство, тем самым облегчая обработку расширенных сценариев с несколькими изображениями. Обширные экспериментальные результаты показывают, что mPLUG-Owl3 достигает передовых показателей среди моделей с аналогичным размером на одиночных изображениях, многократных изображениях и видео. Более того, мы предлагаем сложную оценку длинной визуальной последовательности под названием "Сопротивление отвлекателям", чтобы оценить способность моделей сохранять фокус в условиях отвлечений. Наконец, с предложенной архитектурой mPLUG-Owl3 демонстрирует выдающиеся результаты на входах с ультрадлинными визуальными последовательностями. Мы надеемся, что mPLUG-Owl3 сможет способствовать развитию более эффективных и мощных многомодельных моделей с большим языковым объемом.
Значительные исследовательские усилия были предприняты для масштабирования и улучшения подходов к обучению моделей видео-языкового взаимодействия (VLM). Тем не менее, с постоянно растущим количеством бенчмарков исследователям приходится столкнуться с тяжелым бременем реализации каждого протокола, несущественными вычислительными затратами и пониманием того, как все эти бенчмарки переводятся в значимые оси прогресса. Для облегчения систематической оценки прогресса в области VLM мы представляем UniBench: унифицированную реализацию более 50 бенчмарков VLM, охватывающих широкий спектр тщательно категоризированных возможностей от распознавания объектов до пространственного восприятия, подсчета и многого другого. Мы демонстрируем полезность UniBench для измерения прогресса, оценивая почти 60 публично доступных моделей видео-языкового взаимодействия, обученных на масштабах до 12,8 млрд примеров. Мы обнаружили, что хотя увеличение объема обучающих данных или размера модели может улучшить многие возможности моделей видео-языкового взаимодействия, увеличение масштаба мало приносит пользы для рассуждений или отношений. К удивлению, мы также обнаружили, что лучшие сегодня модели VLM испытывают трудности с простым распознаванием цифр и подсчетом, например, на датасете MNIST, с которыми справляются намного более простые сети. Где масштаб не справляется, мы обнаружили, что более точные вмешательства, такие как качество данных или индивидуальные цели обучения, обещают больше. Для практиков мы также предлагаем рекомендации по выбору подходящей модели VLM для конкретного приложения. Наконец, мы выпустили легко запускаемую кодовую базу UniBench с полным набором более 50 бенчмарков и сравнений по 59 моделям, а также упрощенный, представительный набор бенчмарков, который запускается за 5 минут на одном графическом процессоре.
Недавние значительные достижения в области крупных языковых моделей (LLM) вызвали растущий интерес исследователей к использованию инструментов для решения реальных задач, что требует всесторонней оценки возможностей использования инструментов. В то время как предыдущие работы сосредотачивались либо на оценке через бессостояний веб-сервис (RESTful API) на основе одноразового запроса пользователя, либо на диалоговой траектории вне политики, ToolSandbox включает выполнение инструментов с сохранением состояния, неявные зависимости состояний между инструментами, встроенный симулятор пользователя, поддерживающий оценку разговоров в рамках политики, а также динамическую стратегию оценки для промежуточных и конечных этапов по произвольной траектории. Мы показываем, что у открытых и закрытых моделей существует значительный разрыв в производительности, и сложные задачи, такие как Зависимость от Состояния, Канонизация и Недостаточная Информация, определенные в ToolSandbox, представляют сложность даже для самых продвинутых LLM по состоянию на сегодня, предоставляя совершенно новые идеи о возможностях использования инструментов LLM. Оценочная платформа ToolSandbox доступна по ссылке https://github.com/apple/ToolSandbox
Несмотря на многообещающий прогресс в области суперразрешения изображений лиц, суперразрешение видеоизображений лиц остается относительно малоисследованным. Существующие подходы либо адаптируют общие сети суперразрешения видео к наборам данных с лицами, либо применяют установленные модели суперразрешения изображений лиц независимо к отдельным кадрам видео. Эти парадигмы сталкиваются с проблемами восстановления деталей лица или поддержания временной согласованности. Для решения этих проблем мы представляем новую структуру под названием KEEP (Kalman-inspired Feature Propagation), разработанную для поддержания стабильного приоритета лица во времени. Принципы фильтра Калмана предоставляют нашему методу рекуррентную способность использовать информацию из ранее восстановленных кадров для направления и регулирования процесса восстановления текущего кадра. Обширные эксперименты демонстрируют эффективность нашего метода в последовательном воспроизведении деталей лица на кадрах видео. Код и демонстрационное видео доступны по адресу https://jnjaby.github.io/projects/KEEP.
Текстовая инверсия остается популярным методом для персонализации моделей диффузии с целью обучения моделей новым темам и стилям. Мы отмечаем, что текстовая инверсия была мало исследована с использованием альтернатив UNet, и проводим эксперименты с текстовой инверсией с использованием видео-трансформера. Мы также стремимся оптимизировать текстовую инверсию с использованием стратегии, которая не требует явного использования UNet и его идиосинкратических слоев, поэтому мы добавляем бонусные токены и обеспечиваем ортогональность. Мы обнаружили, что использование бонусного токена улучшает соблюдение исходных изображений, а использование видео-трансформера улучшает соблюдение запроса. Код доступен по ссылке https://github.com/jamesBaker361/tex_inv_plus.
В данной статье мы представляем MooER - модель автоматического распознавания речи (ASR) / автоматического перевода речи (AST) на основе LLM от Moore Threads. Для обучения использовался псевдо-размеченный набор данных объемом 5000 часов, содержащий открытые и собранные самостоятельно речевые данные. Мы достигли производительности, сопоставимой с другими открытыми моделями, обученными на сотни тысяч часов размеченных речевых данных. Тем временем эксперименты, проведенные на тестовом наборе данных Covost2 Zh2en, показывают, что наша модель превосходит другие открытые речевые LLM. Мы получили оценку BLEU в 25,2. Основные вклады данной статьи можно свести к следующему. Во-первых, представлена стратегия обучения для кодировщиков и LLM на задачах, связанных с речью (включая ASR и AST), с использованием небольшого объема псевдо-размеченных данных без дополнительной ручной аннотации и выбора. Во-вторых, мы выпустили наши модели ASR и AST и планируем в ближайшем будущем предоставить наш код и стратегию обучения в открытый доступ. Более того, модель, обученная на данных обучения масштабом 8 часов, планируется выпустить позже.
Конверсия голоса направлена на изменение голоса исходного диктора так, чтобы он напоминал голос целевого диктора, сохраняя при этом оригинальное речевое содержание. Несмотря на значительные достижения в области конверсии голоса в наши дни, мультиязычная конверсия голоса (включая как одноязычные, так и межъязычные сценарии) до сих пор не получила должного изучения. Она сталкивается с двумя основными проблемами: 1) значительной изменчивостью в просодии и артикуляционных привычках между языками; и 2) редкостью парных мультиязычных наборов данных от одного и того же диктора. В данной статье мы предлагаем MulliVC, новую систему конверсии голоса, которая изменяет только тембр и сохраняет оригинальное содержание и просодию исходного языка без наличия парных мультиязычных данных. Конкретно, каждый этап обучения MulliVC содержит три подэтапа: на первом этапе модель обучается на одноязычных речевых данных; затем второй и третий этапы черпают вдохновение из обратного перевода, создают циклический процесс для разъединения тембра и другой информации (содержание, просодия и другая языковая информация) в отсутствие мультиязычных данных от одного и того же диктора. Как объективные, так и субъективные результаты показывают, что MulliVC значительно превосходит другие методы как в одноязычных, так и в межъязычных контекстах, демонстрируя эффективность системы и жизнеспособность трехэтапного подхода с циклической последовательностью. Аудио образцы можно найти на нашей демонстрационной странице (mullivc.github.io).
Языковые модели нейронных сетей (ЯМ) показали свою способность успешно улавливать сложные лингвистические знания. Однако их полезность для понимания процесса усвоения языка все еще обсуждается. Мы вносим свой вклад в этот дискурс, представляя кейс-стади, в котором мы используем ЯМ в качестве моделируемых обучающихся для выведения новых экспериментальных гипотез, которые будут проверены на людях. Мы применяем этот подход для изучения кросс-дативной обобщенности (КДО): продуктивной обобщенности новых глаголов через дативные конструкции (она передала мне мяч/она передала мяч мне) - усвоение которой известно как процесс, включающий большое количество контекстуальных признаков - с использованием ЯМ, обученных на речи, адресованной детям. Мы конкретно задаем вопрос: "какие свойства обучающего воздействия способствуют обобщению нового глагола на (не моделируемую) альтернативную конструкцию?" Для ответа на этот вопрос мы систематически изменяем контекст обучения, в котором новый дативный глагол встречается, с учетом свойств темы и получателя, а затем анализируем использование ЯМ нового глагола в не моделируемой дативной конструкции. Мы обнаруживаем, что ЯМ воспроизводят известные закономерности кросс-дативной обобщенности у детей, что является предпосылкой для исследования новых гипотез. Последующие симуляции раскрывают тонкую роль признаков контекста обучения новых глаголов на кросс-дативную обобщенность ЯМ. Мы обнаруживаем, что КДО облегчается, когда первый постглагольный аргумент контекста обучения является местоименным, определенным, коротким и соответствует прототипическим ожиданиям оживленности в дативе обучения. Эти закономерности характерны для гармонического выравнивания в дативах, где аргумент с признаками, занимающими более высокое положение в шкале дискурсивной выдачи, обычно предшествует другому. Это приводит к новой гипотезе о том, что КДО облегчается в той степени, в которой признаки контекста обучения - в частности, его первый постглагольный аргумент - гармонически выровнены. Мы заканчиваем, предлагая будущие эксперименты, которые могут проверить эту гипотезу на детях.