Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Естественная речь 3: Синтез речи с нулевым обучением на примерах с факторизованным кодеком и моделями диффузии
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Mar 5

ByZeqian Ju, Yuancheng Wang, Kai Shen, Xu Tan, Detai Xin, Dongchao Yang, Yanqing Liu, Yichong Leng, Kaitao Song, Siliang Tang, Zhizheng Wu, Tao Qin, Xiang-Yang Li, Wei Ye, Shikun Zhang, Jiang Bian, Lei He, Jinyu Li, Sheng Zhao

Несмотря на значительные успехи современных моделей текст в речь (TTS) большого масштаба, они все еще уступают по качеству речи, сходству и просодии. Учитывая, что речь сложно включает в себя различные атрибуты (например, содержание, просодию, тембр и акустические детали), представляющие существенные вызовы для генерации, естественной идеей является факторизация речи на индивидуальные подпространства, представляющие различные атрибуты и их последующая генерация. Вдохновленные этим, мы предлагаем NaturalSpeech 3, систему TTS с новыми факторизованными моделями диффузии для генерации естественной речи в режиме zero-shot. Конкретно, 1) мы разрабатываем нейрокодек с факторизованной векторной квантизацией (FVQ) для разделения речевой волны на подпространства содержания, просодии, тембра и акустических деталей; 2) мы предлагаем факторизованную модель диффузии для генерации атрибутов в каждом подпространстве в соответствии с соответствующим запросом. Благодаря этому факторизованному дизайну, NaturalSpeech 3 может эффективно и эффективно моделировать сложную речь с разделенными подпространствами в режиме "разделяй и властвуй". Эксперименты показывают, что NaturalSpeech 3 превосходит современные системы TTS по качеству, сходству, просодии и понимаемости. Более того, мы достигаем лучшей производительности, масштабируясь до 1 миллиарда параметров и 200 тыс. часов обучающих данных.

Донастройка мультимодельных языковых моделей - это фильтры данных изображений и текста высокого качества.
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

Mar 5

ByWeizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang

Мы предлагаем новую структуру для фильтрации данных изображений и текста, используя тонко настроенные Мультимодальные Языковые Модели (MLM). Наш подход превосходит преобладающие методы фильтрации (например, CLIPScore) за счет интеграции последних достижений в области MLM. Мы разрабатываем четыре различных, но взаимодополняющих метрики для всесторонней оценки качества данных изображений и текста. Создан новый конвейер для создания высококачественных инструкционных данных для тонкой настройки MLM в качестве фильтров данных. По сравнению с CLIPScore, наши фильтры MLM производят более точные и всесторонние оценки, что напрямую улучшает качество отфильтрованных данных и повышает производительность предварительно обученных моделей. Мы достигаем значительных улучшений по сравнению с CLIPScore на популярных базовых моделях (т.е. CLIP и BLIP2) и различных задачах на следующем уровне. Наши фильтры MLM могут обобщаться на различные модели и задачи, и использоваться в качестве замены CLIPScore. Предоставлено дополнительное исследование абляции для проверки наших выборов дизайна для фильтра MLM.

Вуконг: к закону масштабирования для рекомендаций большого масштаба
Wukong: Towards a Scaling Law for Large-Scale Recommendation

Mar 4

ByBuyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen

Законы масштабирования играют ключевую роль в устойчивом улучшении качества модели. К сожалению, модели рекомендаций на сегодняшний день не проявляют таких законов, аналогичных наблюдаемым в области больших языковых моделей, из-за неэффективности их механизмов масштабирования. Это ограничение создает значительные проблемы в адаптации этих моделей к все более сложным реальным наборам данных. В данной статье мы предлагаем эффективную архитектуру сети, основанную исключительно на стековых машинах факторизации, и синергетическую стратегию масштабирования, совместно названные Wukong, чтобы установить закон масштабирования в области рекомендаций. Уникальное конструктивное решение Wukong позволяет захватывать разнообразные взаимодействия любого порядка просто через более высокие и широкие слои. Мы провели обширные оценки на шести общедоступных наборах данных, и наши результаты показывают, что Wukong последовательно превосходит модели последнего поколения по качеству. Кроме того, мы оценили масштабируемость Wukong на внутреннем крупномасштабном наборе данных. Результаты показывают, что Wukong сохраняет свое превосходство в качестве над моделями последнего поколения, удерживая закон масштабирования на протяжении двух порядков сложности модели, простираясь за пределы 100 Gflop или эквивалентно до масштаба общего вычисления обучения GPT-3/LLaMa-2, где предшествующие работы не справляются.

Математическая шкала: масштабирование настройки инструкций для математического рассуждения
MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Mar 5

ByZhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei

Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в решении проблем. Однако их профессионализм в решении математических задач остается недостаточным. Мы предлагаем MathScale, простой и масштабируемый метод создания высококачественных данных для математического рассуждения с использованием передовых LLM (например, GPT-3.5). Вдохновленный когнитивным механизмом в человеческом математическом обучении, он сначала извлекает темы и знания из исходных математических вопросов, а затем строит концептуальный граф, который затем используется для генерации новых математических вопросов. MathScale обладает эффективной масштабируемостью вдоль оси размера создаваемого нами математического набора данных. В результате мы создаем набор данных для математического рассуждения (MathScaleQA), содержащий два миллиона пар вопрос-ответ по математике. Для всесторонней оценки математических способностей LLM мы создаем MwpBench, набор данных для математических текстовых задач, который представляет собой коллекцию из десяти наборов данных (включая GSM8K и MATH), охватывающих математические задачи уровня K-12, колледжа и соревнований. Мы применяем MathScaleQA для настройки на открытых исходных кодах LLM (например, LLaMA-2 и Mistral), что приводит к значительному улучшению способностей в математическом рассуждении. Оцененный на MwpBench, MathScale-7B достигает передовых показателей по всем наборам данных, превосходя своих лучших конкурентов аналогичного размера на 42,9% в микро-средней точности и 43,7% в макро-средней точности соответственно.

MAGID: Автоматизированный конвейер для создания синтетических мультимодальных наборов данных
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

Mar 5

ByHossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour

Развитие мультимодальных интерактивных систем затруднено из-за отсутствия обширных, мультимодальных (текст, изображения) разговорных данных, необходимых в больших объемах для языковых моделей с ограниченной памятью. Предыдущие подходы дополняли текстовые диалоги полученными изображениями, что создавало проблемы с конфиденциальностью, разнообразием и качеством. В данной работе мы представляем Мультимодальные Дополненные Генеративные Изображения Диалоги (MAGID), фреймворк для дополнения исключительно текстовых диалогов разнообразными и качественными изображениями. Затем применяется модель диффузии для создания соответствующих изображений, обеспечивая их соответствие выделенному тексту. Наконец, MAGID включает инновационный обратный цикл между модулем генерации описания изображения (текстовая LLM) и модулями качества изображения (работающими над эстетикой, соответствием изображения и текста и безопасностью), которые совместно генерируют высококачественные и мультимодальные диалоги. Мы сравниваем MAGID с другими передовыми базовыми моделями на трех наборах данных диалогов с использованием автоматической и человеческой оценки. Наши результаты показывают, что MAGID сравним или превосходит базовые модели, существенно улучшая человеческую оценку, особенно по сравнению с базовыми моделями извлечения, где база данных изображений небольшая.

EasyQuant: Эффективный алгоритм квантования без данных для LLMs
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

Mar 5

ByHanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang

Большие языковые модели (LLM) доказали своё превосходство над традиционными методами в различных задачах. Однако их дорогостоящие вычисления и высокие требования к памяти препятствуют их применению. Квантизация модели является эффективным методом снижения издержек. Проблема заключается в том, что в большинстве предыдущих работ калибровка квантованной модели производилась на основе небольшого количества образцов из обучающих данных, что может повлиять на обобщение квантованных LLM на неизвестные случаи и задачи. Поэтому в данной работе мы исследуем важный вопрос: можем ли мы разработать метод квантования для LLM, не зависящий от данных, чтобы гарантировать его обобщающую способность? В этой работе мы предлагаем EasyQuant, алгоритм квантования только весов, не требующий обучения и не зависящий от данных для LLM. Наши наблюдения показывают, что два фактора: выбросы в весах и диапазонах квантования, существенны для снижения ошибки квантования. Поэтому в EasyQuant мы оставляем выбросы (менее 1%) без изменений и оптимизируем диапазон квантования для снижения ошибки реконструкции. С помощью этих методов мы удивительно обнаружили, что EasyQuant достигает сопоставимой производительности с оригинальной моделью. Поскольку EasyQuant не зависит от обучающих данных, обобщающая способность квантованных LLM гарантирована. Более того, EasyQuant может быть реализован параллельно, так что квантованная модель может быть получена всего за несколько минут даже для LLM объемом более 100 миллиардов. По нашему лучшему пониманию, мы первыми достигли практически без потерь производительности квантования для LLM в условиях, не зависящих от данных, и наш алгоритм работает более чем в 10 раз быстрее, чем методы, зависящие от данных.

Насладитесь: Смешанная адаптация разрешения для мультимодальных крупных языковых моделей.
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

Mar 5

ByGen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

Несмотря на значительный прогресс, существующие мультимодальные модели языка большого масштаба (MLLM) все еще уступают в детальном визуальном распознавании. В отличие от предыдущих работ, мы изучаем эту проблему с точки зрения разрешения изображения и показываем, что комбинация низкоразрешенных и высокоразрешенных визуальных признаков может эффективно устранить этот недостаток. Основываясь на этом наблюдении, мы предлагаем новый и эффективный метод для MLLM, названный Адаптация Смешанного Разрешения (MRA). В частности, MRA использует два визуальных пути для изображений с разным разрешением, где высокоразрешенная визуальная информация встраивается в путь с низким разрешением с помощью новых адаптеров смешанного разрешения (MR-адаптеров). Этот дизайн также значительно сокращает длину входной последовательности MLLM. Для проверки MRA мы применяем его к недавней MLLM под названием LLaVA и называем новую модель LLaVA-HR. Мы проводим обширные эксперименты на 11 задачах видео-языка (VL), которые показывают, что LLaVA-HR превосходит существующие MLLM на 8 задачах VL, например, +9.4% на TextVQA. Более того, как обучение, так и вывод LLaVA-HR остаются эффективными с MRA, например, 20 часов обучения и скорость вывода в 3 раза быстрее, чем у LLaVA-1.5. Исходные коды доступны по ссылке: https://github.com/luogen1996/LLaVA-HR.

Моделирование совместного сотрудничества: обеспечение классификации субъективного зрения с минимальными усилиями человека с помощью инструмента использования LLM.
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Mar 5

ByImad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig

От модерации контента до охраны дикой природы, количество приложений, требующих моделей для распознавания тонких или субъективных визуальных концепций, растет. Традиционно разработка классификаторов для таких концепций требует значительных ручных усилий, измеряемых в часах, днях или даже месяцах для идентификации и аннотации данных, необходимых для обучения. Даже с недавно предложенными методиками Agile Modeling, которые позволяют быстро создавать классификаторы изображений, пользователям все равно требуется потратить 30 минут или более на однообразную, повторяющуюся разметку данных только для обучения одного классификатора. Основываясь на когнитивной теории Fiske, мы предлагаем новую концепцию, которая снижает ручные усилия, заменяя человеческую разметку взаимодействиями на естественном языке, уменьшая общие усилия, необходимые для определения концепции на порядок: от разметки 2 000 изображений до всего лишь 100 плюс некоторые взаимодействия на естественном языке. Наша концепция использует последние достижения в области фундаментальных моделей, как большие языковые модели, так и модели видения-языка, для выделения пространства концепций через разговор и автоматическую разметку обучающих данных. Прежде всего, наша концепция устраняет необходимость в аннотациях, полученных от массовых источников. Более того, наша концепция в конечном итоге создает легкие модели классификации, которые могут быть задействованы в сценариях с ограниченными затратами. На 15 субъективных концепциях и на 2 общедоступных наборах данных по классификации изображений наши обученные модели превосходят традиционное Agile Modeling, а также передовые модели классификации с нулевым обучением, такие как ALIGN, CLIP, CuPL, и большие модели визуального вопросно-ответного взаимодействия, такие как PaLI-X.

RT-Sketch: Обучение имитации с условиями цели из ручных эскизов.
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches

Mar 5

ByPriya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal

Естественный язык и изображения часто используются в качестве представлений целей в обучении имитации с условием цели (IL). Однако естественный язык может быть неоднозначным, а изображения могут быть избыточными. В данной работе мы предлагаем ручные наброски в качестве модальности для спецификации целей в обучении визуальной имитации. Наброски легко предоставлять пользователям на лету, как и язык, но, подобно изображениям, они также могут помочь последующей политике быть пространственно осведомленной и даже выходить за рамки изображений для разрешения задачи-связанных и задаче-несвязанных объектов. Мы представляем RT-Sketch, политику с условием цели для манипуляции, которая принимает ручной набросок желаемой сцены на входе и выдает действия. Мы обучаем RT-Sketch на наборе сопоставленных траекторий и соответствующих синтетически сгенерированных целевых набросков. Мы оцениваем этот подход на шести навыках манипуляции, включающих перестановки объектов на столе на артикулированной столешнице. Экспериментально мы обнаруживаем, что RT-Sketch способен действовать на сходном уровне с агентами, обученными на изображениях или языке, в прямолинейных ситуациях, при этом достигая большей устойчивости, когда языковые цели неоднозначны или визуальные отвлекающие объекты присутствуют. Кроме того, мы показываем, что RT-Sketch способен интерпретировать и действовать на наброски с различными уровнями специфичности, начиная от минимальных линейных набросков до детальных, цветных набросков. Дополнительные материалы и видео можно найти на нашем веб-сайте: http://rt-sketch.github.io.

MagicClay: Создание сеток с помощью генеративных нейронных полей
MagicClay: Sculpting Meshes With Generative Neural Fields

Mar 4

ByAmir Barda, Vladimir G. Kim, Noam Aigerman, Amit H. Bermano, Thibault Groueix

Недавние достижения в области нейронных сетей принесли феноменальные возможности в область генерации форм, но им не хватает ключевых свойств, таких как пошаговый контроль - фундаментальное требование для художественной работы. Треугольные сетки, с другой стороны, являются предпочтительным представлением для большинства задач, связанных с геометрией, предлагая эффективность и интуитивный контроль, но не поддаются нейронной оптимизации. Для поддержки последующих задач предыдущие работы обычно предлагают двухэтапный подход, где сначала форма генерируется с использованием нейронных сетей, а затем извлекается сетка для дальнейшей обработки. Вместо этого в данной статье мы представляем гибридный подход, который последовательно поддерживает как сетку, так и представления поля знакового расстояния (SDF). Используя это представление, мы представляем MagicClay - инструмент, удобный для художников, для лепки областей сетки в соответствии с текстовыми подсказками, сохраняя при этом другие области нетронутыми. Наша структура внимательно и эффективно балансирует согласованность между представлениями и регуляризациями на каждом этапе оптимизации формы; Основываясь на представлении сетки, мы показываем, как рендерить SDF с более высоким разрешением и быстрее. Кроме того, мы используем недавние работы в области дифференцируемой реконструкции сетки для адаптивного выделения треугольников в сетке там, где это необходимо, как указано в SDF. Используя реализованный прототип, мы демонстрируем превосходную сгенерированную геометрию по сравнению с современными достижениями и новый согласованный контроль, позволяющий последовательные изменения на основе подсказок в одной и той же сетке впервые.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Естественная речь 3: Синтез речи с нулевым обучением на примерах с факторизованным кодеком и моделями диффузии
NaturalSpeech 3: Zero-Shot Speech Synthesis with Factorized Codec and Diffusion Models

Mar 5

Донастройка мультимодельных языковых моделей - это фильтры данных изображений и текста высокого качества.
Finetuned Multimodal Language Models Are High-Quality Image-Text Data Filters

Mar 5

ByWeizhi Wang, Khalil Mrini, Linjie Yang, Sateesh Kumar, Yu Tian, Xifeng Yan, Heng Wang

Вуконг: к закону масштабирования для рекомендаций большого масштаба
Wukong: Towards a Scaling Law for Large-Scale Recommendation

Mar 4

ByBuyun Zhang, Liang Luo, Yuxin Chen, Jade Nie, Xi Liu, Daifeng Guo, Yanli Zhao, Shen Li, Yuchen Hao, Yantao Yao, Guna Lakshminarayanan, Ellie Dingqiao Wen, Jongsoo Park, Maxim Naumov, Wenlin Chen

Математическая шкала: масштабирование настройки инструкций для математического рассуждения
MathScale: Scaling Instruction Tuning for Mathematical Reasoning

Mar 5

ByZhengyang Tang, Xingxing Zhang, Benyou Wan, Furu Wei

MAGID: Автоматизированный конвейер для создания синтетических мультимодальных наборов данных
MAGID: An Automated Pipeline for Generating Synthetic Multi-modal Datasets

Mar 5

ByHossein Aboutalebi, Hwanjun Song, Yusheng Xie, Arshit Gupta, Justin Sun, Hang Su, Igor Shalyminov, Nikolaos Pappas, Siffi Singh, Saab Mansour

EasyQuant: Эффективный алгоритм квантования без данных для LLMs
EasyQuant: An Efficient Data-free Quantization Algorithm for LLMs

Mar 5

ByHanlin Tang, Yifu Sun, Decheng Wu, Kai Liu, Jianchen Zhu, Zhanhui Kang

Насладитесь: Смешанная адаптация разрешения для мультимодальных крупных языковых моделей.
Feast Your Eyes: Mixture-of-Resolution Adaptation for Multimodal Large Language Models

Mar 5

ByGen Luo, Yiyi Zhou, Yuxin Zhang, Xiawu Zheng, Xiaoshuai Sun, Rongrong Ji

Моделирование совместного сотрудничества: обеспечение классификации субъективного зрения с минимальными усилиями человека с помощью инструмента использования LLM.
Modeling Collaborator: Enabling Subjective Vision Classification With Minimal Human Effort via LLM Tool-Use

Mar 5

ByImad Eddine Toubal, Aditya Avinash, Neil Gordon Alldrin, Jan Dlabal, Wenlei Zhou, Enming Luo, Otilia Stretcu, Hao Xiong, Chun-Ta Lu, Howard Zhou, Ranjay Krishna, Ariel Fuxman, Tom Duerig

RT-Sketch: Обучение имитации с условиями цели из ручных эскизов.
RT-Sketch: Goal-Conditioned Imitation Learning from Hand-Drawn Sketches

Mar 5

ByPriya Sundaresan, Quan Vuong, Jiayuan Gu, Peng Xu, Ted Xiao, Sean Kirmani, Tianhe Yu, Michael Stark, Ajinkya Jain, Karol Hausman, Dorsa Sadigh, Jeannette Bohg, Stefan Schaal

MagicClay: Создание сеток с помощью генеративных нейронных полей
MagicClay: Sculpting Meshes With Generative Neural Fields

Mar 4

ByAmir Barda, Vladimir G. Kim, Noam Aigerman, Amit H. Bermano, Thibault Groueix