Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

VITA: К открытому исходному коду интерактивной общей мультимодальной модели языка.
VITA: Towards Open-Source Interactive Omni Multimodal LLM

Aug 9

ByChaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun

Замечательные мультимодальные возможности и интерактивный опыт GPT-4o подчеркивают их необходимость в практических приложениях, однако модели с открытым исходным кодом редко выдают выдающиеся результаты в обеих областях. В данной статье мы представляем VITA, первую в своем роде открытую мультимодальную крупномасштабную языковую модель (MLLM), способную к одновременной обработке и анализу видео-, изображений-, текстовых и аудио-модальностей, обладающую при этом продвинутым мультимодальным интерактивным опытом. Начиная с Mixtral 8x7B в качестве языкового фундамента, мы расширяем его китайский словарный запас, а затем проводим настройку двуязычных инструкций. Мы также наделяем языковую модель возможностями видео- и аудио-обработки через двухэтапное многозадачное обучение мультимодальной выравнивающей и настраивающей инструкции. VITA демонстрирует надежные базовые возможности мультиязычного, видео- и аудио-понимания, что подтверждается ее высокой производительностью на ряде как унимодальных, так и мультимодальных бенчмарков. Помимо базовых возможностей, мы сделали значительные успехи в улучшении естественного мультимодального человеко-компьютерного взаимодействия. На наш взгляд, мы первые, кто использует невозбуждающее взаимодействие и аудио-прерывание в MLLM. VITA - первый шаг для сообщества с открытым исходным кодом в исследовании плавного интегрирования мультимодального понимания и взаимодействия. Хотя еще много работы предстоит сделать над VITA, чтобы приблизиться к закрытым аналогам, мы надеемся, что ее роль пионера может послужить угловым камнем для последующих исследований. Страница проекта: https://vita-home.github.io.

Gemma Scope: Открытые разреженные автоэнкодеры повсюду одновременно на Gemma 2
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2

Aug 9

ByTom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda

Разреженные автокодировщики (SAE) представляют собой метод без учителя для изучения разреженного разложения латентных представлений нейронной сети на кажущиеся интерпретируемые признаки. Несмотря на недавнее возбуждение относительно их потенциала, исследовательские применения вне промышленности ограничены высокой стоимостью обучения полного комплекта SAE. В данной работе мы представляем Gemma Scope, открытый набор JumpReLU SAE, обученных на всех слоях и подслоях моделей Gemma 2 2B и 9B, а также на выбранных слоях базовых моделей Gemma 2 27B. Мы в основном обучаем SAE на предварительно обученных моделях Gemma 2, но также выпускаем SAE, обученные на инструкциях Gemma 2 9B для сравнения. Мы оцениваем качество каждого SAE по стандартным метрикам и публикуем эти результаты. Мы надеемся, что, выпустив эти веса SAE, мы сможем помочь сообществу сделать более амбициозные исследования по безопасности и интерпретируемости более доступными. Веса и руководство можно найти на https://huggingface.co/google/gemma-scope, а интерактивный демонстрационный материал доступен на https://www.neuronpedia.org/gemma-scope

mPLUG-Owl3: К долгосрочному пониманию последовательности изображений в мультимодальных крупномасштабных языковых моделях.
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

Aug 9

ByJiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

Многомодельные модели с большим языковым объемом (MLLMs) продемонстрировали выдающиеся возможности в выполнении инструкций для различных задач с одиночным изображением. Несмотря на этот прогресс, остаются значительные проблемы в моделировании длинных последовательностей изображений. В данной работе мы представляем универсальную многомодельную модель с большим языковым объемом, mPLUG-Owl3, которая улучшает способность понимания длинных последовательностей изображений в сценариях, включающих полученные знания об изображениях и тексте, чередующиеся изображения и текст, а также длинные видеоролики. Конкретно, мы предлагаем новые гипервнимательные блоки для эффективного интегрирования зрительной и языковой информации в общее языково-управляемое семантическое пространство, тем самым облегчая обработку расширенных сценариев с несколькими изображениями. Обширные экспериментальные результаты показывают, что mPLUG-Owl3 достигает передовых показателей среди моделей с аналогичным размером на одиночных изображениях, многократных изображениях и видео. Более того, мы предлагаем сложную оценку длинной визуальной последовательности под названием "Сопротивление отвлекателям", чтобы оценить способность моделей сохранять фокус в условиях отвлечений. Наконец, с предложенной архитектурой mPLUG-Owl3 демонстрирует выдающиеся результаты на входах с ультрадлинными визуальными последовательностями. Мы надеемся, что mPLUG-Owl3 сможет способствовать развитию более эффективных и мощных многомодельных моделей с большим языковым объемом.

UniBench: Визуальное мышление требует переосмысления взаимодействия зрения и языка за пределами масштабирования.
UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling

Aug 9

ByHaider Al-Tahan, Quentin Garrido, Randall Balestriero, Diane Bouchacourt, Caner Hazirbas, Mark Ibrahim

Значительные исследовательские усилия были предприняты для масштабирования и улучшения подходов к обучению моделей видео-языкового взаимодействия (VLM). Тем не менее, с постоянно растущим количеством бенчмарков исследователям приходится столкнуться с тяжелым бременем реализации каждого протокола, несущественными вычислительными затратами и пониманием того, как все эти бенчмарки переводятся в значимые оси прогресса. Для облегчения систематической оценки прогресса в области VLM мы представляем UniBench: унифицированную реализацию более 50 бенчмарков VLM, охватывающих широкий спектр тщательно категоризированных возможностей от распознавания объектов до пространственного восприятия, подсчета и многого другого. Мы демонстрируем полезность UniBench для измерения прогресса, оценивая почти 60 публично доступных моделей видео-языкового взаимодействия, обученных на масштабах до 12,8 млрд примеров. Мы обнаружили, что хотя увеличение объема обучающих данных или размера модели может улучшить многие возможности моделей видео-языкового взаимодействия, увеличение масштаба мало приносит пользы для рассуждений или отношений. К удивлению, мы также обнаружили, что лучшие сегодня модели VLM испытывают трудности с простым распознаванием цифр и подсчетом, например, на датасете MNIST, с которыми справляются намного более простые сети. Где масштаб не справляется, мы обнаружили, что более точные вмешательства, такие как качество данных или индивидуальные цели обучения, обещают больше. Для практиков мы также предлагаем рекомендации по выбору подходящей модели VLM для конкретного приложения. Наконец, мы выпустили легко запускаемую кодовую базу UniBench с полным набором более 50 бенчмарков и сравнений по 59 моделям, а также упрощенный, представительный набор бенчмарков, который запускается за 5 минут на одном графическом процессоре.

ToolSandbox: Набор данных для оценки возможностей использования инструментов LLM в состоянии диалога и интерактивном режиме.
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

Aug 8

ByJiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang

Недавние значительные достижения в области крупных языковых моделей (LLM) вызвали растущий интерес исследователей к использованию инструментов для решения реальных задач, что требует всесторонней оценки возможностей использования инструментов. В то время как предыдущие работы сосредотачивались либо на оценке через бессостояний веб-сервис (RESTful API) на основе одноразового запроса пользователя, либо на диалоговой траектории вне политики, ToolSandbox включает выполнение инструментов с сохранением состояния, неявные зависимости состояний между инструментами, встроенный симулятор пользователя, поддерживающий оценку разговоров в рамках политики, а также динамическую стратегию оценки для промежуточных и конечных этапов по произвольной траектории. Мы показываем, что у открытых и закрытых моделей существует значительный разрыв в производительности, и сложные задачи, такие как Зависимость от Состояния, Канонизация и Недостаточная Информация, определенные в ToolSandbox, представляют сложность даже для самых продвинутых LLM по состоянию на сегодня, предоставляя совершенно новые идеи о возможностях использования инструментов LLM. Оценочная платформа ToolSandbox доступна по ссылке https://github.com/apple/ToolSandbox

Вдохновленное фильтром Калмана распространение признаков для суперразрешения видеоизображений лиц.
Kalman-Inspired Feature Propagation for Video Face Super-Resolution

Aug 9

ByRuicheng Feng, Chongyi Li, Chen Change Loy

Несмотря на многообещающий прогресс в области суперразрешения изображений лиц, суперразрешение видеоизображений лиц остается относительно малоисследованным. Существующие подходы либо адаптируют общие сети суперразрешения видео к наборам данных с лицами, либо применяют установленные модели суперразрешения изображений лиц независимо к отдельным кадрам видео. Эти парадигмы сталкиваются с проблемами восстановления деталей лица или поддержания временной согласованности. Для решения этих проблем мы представляем новую структуру под названием KEEP (Kalman-inspired Feature Propagation), разработанную для поддержания стабильного приоритета лица во времени. Принципы фильтра Калмана предоставляют нашему методу рекуррентную способность использовать информацию из ранее восстановленных кадров для направления и регулирования процесса восстановления текущего кадра. Обширные эксперименты демонстрируют эффективность нашего метода в последовательном воспроизведении деталей лица на кадрах видео. Код и демонстрационное видео доступны по адресу https://jnjaby.github.io/projects/KEEP.

MulliVC: Мультиязычное преобразование голоса с циклической последовательностью
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency

Aug 8

ByJiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao

Конверсия голоса направлена на изменение голоса исходного диктора так, чтобы он напоминал голос целевого диктора, сохраняя при этом оригинальное речевое содержание. Несмотря на значительные достижения в области конверсии голоса в наши дни, мультиязычная конверсия голоса (включая как одноязычные, так и межъязычные сценарии) до сих пор не получила должного изучения. Она сталкивается с двумя основными проблемами: 1) значительной изменчивостью в просодии и артикуляционных привычках между языками; и 2) редкостью парных мультиязычных наборов данных от одного и того же диктора. В данной статье мы предлагаем MulliVC, новую систему конверсии голоса, которая изменяет только тембр и сохраняет оригинальное содержание и просодию исходного языка без наличия парных мультиязычных данных. Конкретно, каждый этап обучения MulliVC содержит три подэтапа: на первом этапе модель обучается на одноязычных речевых данных; затем второй и третий этапы черпают вдохновение из обратного перевода, создают циклический процесс для разъединения тембра и другой информации (содержание, просодия и другая языковая информация) в отсутствие мультиязычных данных от одного и того же диктора. Как объективные, так и субъективные результаты показывают, что MulliVC значительно превосходит другие методы как в одноязычных, так и в межъязычных контекстах, демонстрируя эффективность системы и жизнеспособность трехэтапного подхода с циклической последовательностью. Аудио образцы можно найти на нашей демонстрационной странице (mullivc.github.io).

BRAT: Бонусный ортогональный токен для архитектурно-агностического текстового инвертирования.
BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion

Aug 8

ByJames Baker

Текстовая инверсия остается популярным методом для персонализации моделей диффузии с целью обучения моделей новым темам и стилям. Мы отмечаем, что текстовая инверсия была мало исследована с использованием альтернатив UNet, и проводим эксперименты с текстовой инверсией с использованием видео-трансформера. Мы также стремимся оптимизировать текстовую инверсию с использованием стратегии, которая не требует явного использования UNet и его идиосинкратических слоев, поэтому мы добавляем бонусные токены и обеспечиваем ортогональность. Мы обнаружили, что использование бонусного токена улучшает соблюдение исходных изображений, а использование видео-трансформера улучшает соблюдение запроса. Код доступен по ссылке https://github.com/jamesBaker361/tex_inv_plus.

MooER: Модели распознавания речи и перевода на основе LLM от Moore Threads
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

Aug 9

ByJunhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang

В данной статье мы представляем MooER - модель автоматического распознавания речи (ASR) / автоматического перевода речи (AST) на основе LLM от Moore Threads. Для обучения использовался псевдо-размеченный набор данных объемом 5000 часов, содержащий открытые и собранные самостоятельно речевые данные. Мы достигли производительности, сопоставимой с другими открытыми моделями, обученными на сотни тысяч часов размеченных речевых данных. Тем временем эксперименты, проведенные на тестовом наборе данных Covost2 Zh2en, показывают, что наша модель превосходит другие открытые речевые LLM. Мы получили оценку BLEU в 25,2. Основные вклады данной статьи можно свести к следующему. Во-первых, представлена стратегия обучения для кодировщиков и LLM на задачах, связанных с речью (включая ASR и AST), с использованием небольшого объема псевдо-размеченных данных без дополнительной ручной аннотации и выбора. Во-вторых, мы выпустили наши модели ASR и AST и планируем в ближайшем будущем предоставить наш код и стратегию обучения в открытый доступ. Более того, модель, обученная на данных обучения масштабом 8 часов, планируется выпустить позже.

Формирование новых экспериментальных гипотез с использованием языковых моделей: случайное исследование обобщения кросс-датива
Generating novel experimental hypotheses from language models: A case study on cross-dative generalization

Aug 9

ByKanishka Misra, Najoung Kim

Языковые модели нейронных сетей (ЯМ) показали свою способность успешно улавливать сложные лингвистические знания. Однако их полезность для понимания процесса усвоения языка все еще обсуждается. Мы вносим свой вклад в этот дискурс, представляя кейс-стади, в котором мы используем ЯМ в качестве моделируемых обучающихся для выведения новых экспериментальных гипотез, которые будут проверены на людях. Мы применяем этот подход для изучения кросс-дативной обобщенности (КДО): продуктивной обобщенности новых глаголов через дативные конструкции (она передала мне мяч/она передала мяч мне) - усвоение которой известно как процесс, включающий большое количество контекстуальных признаков - с использованием ЯМ, обученных на речи, адресованной детям. Мы конкретно задаем вопрос: "какие свойства обучающего воздействия способствуют обобщению нового глагола на (не моделируемую) альтернативную конструкцию?" Для ответа на этот вопрос мы систематически изменяем контекст обучения, в котором новый дативный глагол встречается, с учетом свойств темы и получателя, а затем анализируем использование ЯМ нового глагола в не моделируемой дативной конструкции. Мы обнаруживаем, что ЯМ воспроизводят известные закономерности кросс-дативной обобщенности у детей, что является предпосылкой для исследования новых гипотез. Последующие симуляции раскрывают тонкую роль признаков контекста обучения новых глаголов на кросс-дативную обобщенность ЯМ. Мы обнаруживаем, что КДО облегчается, когда первый постглагольный аргумент контекста обучения является местоименным, определенным, коротким и соответствует прототипическим ожиданиям оживленности в дативе обучения. Эти закономерности характерны для гармонического выравнивания в дативах, где аргумент с признаками, занимающими более высокое положение в шкале дискурсивной выдачи, обычно предшествует другому. Это приводит к новой гипотезе о том, что КДО облегчается в той степени, в которой признаки контекста обучения - в частности, его первый постглагольный аргумент - гармонически выровнены. Мы заканчиваем, предлагая будущие эксперименты, которые могут проверить эту гипотезу на детях.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

VITA: К открытому исходному коду интерактивной общей мультимодальной модели языка.
VITA: Towards Open-Source Interactive Omni Multimodal LLM

Aug 9

ByChaoyou Fu, Haojia Lin, Zuwei Long, Yunhang Shen, Meng Zhao, Yifan Zhang, Xiong Wang, Di Yin, Long Ma, Xiawu Zheng, Ran He, Rongrong Ji, Yunsheng Wu, Caifeng Shan, Xing Sun

Gemma Scope: Открытые разреженные автоэнкодеры повсюду одновременно на Gemma 2
Gemma Scope: Open Sparse Autoencoders Everywhere All At Once on Gemma 2

Aug 9

ByTom Lieberum, Senthooran Rajamanoharan, Arthur Conmy, Lewis Smith, Nicolas Sonnerat, Vikrant Varma, János Kramár, Anca Dragan, Rohin Shah, Neel Nanda

mPLUG-Owl3: К долгосрочному пониманию последовательности изображений в мультимодальных крупномасштабных языковых моделях.
mPLUG-Owl3: Towards Long Image-Sequence Understanding in Multi-Modal Large Language Models

Aug 9

ByJiabo Ye, Haiyang Xu, Haowei Liu, Anwen Hu, Ming Yan, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou

UniBench: Визуальное мышление требует переосмысления взаимодействия зрения и языка за пределами масштабирования.
UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling

Aug 9

ByHaider Al-Tahan, Quentin Garrido, Randall Balestriero, Diane Bouchacourt, Caner Hazirbas, Mark Ibrahim

ToolSandbox: Набор данных для оценки возможностей использования инструментов LLM в состоянии диалога и интерактивном режиме.
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities

Aug 8

ByJiarui Lu, Thomas Holleis, Yizhe Zhang, Bernhard Aumayer, Feng Nan, Felix Bai, Shuang Ma, Shen Ma, Mengyu Li, Guoli Yin, Zirui Wang, Ruoming Pang

Вдохновленное фильтром Калмана распространение признаков для суперразрешения видеоизображений лиц.
Kalman-Inspired Feature Propagation for Video Face Super-Resolution

Aug 9

ByRuicheng Feng, Chongyi Li, Chen Change Loy

MulliVC: Мультиязычное преобразование голоса с циклической последовательностью
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency

Aug 8

ByJiawei Huang, Chen Zhang, Yi Ren, Ziyue Jiang, Zhenhui Ye, Jinglin Liu, Jinzheng He, Xiang Yin, Zhou Zhao

BRAT: Бонусный ортогональный токен для архитектурно-агностического текстового инвертирования.
BRAT: Bonus oRthogonAl Token for Architecture Agnostic Textual Inversion

Aug 8

ByJames Baker

MooER: Модели распознавания речи и перевода на основе LLM от Moore Threads
MooER: LLM-based Speech Recognition and Translation Models from Moore Threads

Aug 9

ByJunhao Xu, Zhenlin Liang, Yi Liu, Yichao Hu, Jian Li, Yajun Zheng, Meng Cai, Hua Wang

Формирование новых экспериментальных гипотез с использованием языковых моделей: случайное исследование обобщения кросс-датива
Generating novel experimental hypotheses from language models: A case study on cross-dative generalization

Aug 9

ByKanishka Misra, Najoung Kim