Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на значительные успехи современных моделей текст в речь (TTS) большого масштаба, они все еще уступают по качеству речи, сходству и просодии. Учитывая, что речь сложно включает в себя различные атрибуты (например, содержание, просодию, тембр и акустические детали), представляющие существенные вызовы для генерации, естественной идеей является факторизация речи на индивидуальные подпространства, представляющие различные атрибуты и их последующая генерация. Вдохновленные этим, мы предлагаем NaturalSpeech 3, систему TTS с новыми факторизованными моделями диффузии для генерации естественной речи в режиме zero-shot. Конкретно, 1) мы разрабатываем нейрокодек с факторизованной векторной квантизацией (FVQ) для разделения речевой волны на подпространства содержания, просодии, тембра и акустических деталей; 2) мы предлагаем факторизованную модель диффузии для генерации атрибутов в каждом подпространстве в соответствии с соответствующим запросом. Благодаря этому факторизованному дизайну, NaturalSpeech 3 может эффективно и эффективно моделировать сложную речь с разделенными подпространствами в режиме "разделяй и властвуй". Эксперименты показывают, что NaturalSpeech 3 превосходит современные системы TTS по качеству, сходству, просодии и понимаемости. Более того, мы достигаем лучшей производительности, масштабируясь до 1 миллиарда параметров и 200 тыс. часов обучающих данных.
Мы предлагаем новую структуру для фильтрации данных изображений и текста, используя тонко настроенные Мультимодальные Языковые Модели (MLM). Наш подход превосходит преобладающие методы фильтрации (например, CLIPScore) за счет интеграции последних достижений в области MLM. Мы разрабатываем четыре различных, но взаимодополняющих метрики для всесторонней оценки качества данных изображений и текста. Создан новый конвейер для создания высококачественных инструкционных данных для тонкой настройки MLM в качестве фильтров данных. По сравнению с CLIPScore, наши фильтры MLM производят более точные и всесторонние оценки, что напрямую улучшает качество отфильтрованных данных и повышает производительность предварительно обученных моделей. Мы достигаем значительных улучшений по сравнению с CLIPScore на популярных базовых моделях (т.е. CLIP и BLIP2) и различных задачах на следующем уровне. Наши фильтры MLM могут обобщаться на различные модели и задачи, и использоваться в качестве замены CLIPScore. Предоставлено дополнительное исследование абляции для проверки наших выборов дизайна для фильтра MLM.
Большие языковые модели (LLM) продемонстрировали выдающиеся возможности в решении проблем. Однако их профессионализм в решении математических задач остается недостаточным. Мы предлагаем MathScale, простой и масштабируемый метод создания высококачественных данных для математического рассуждения с использованием передовых LLM (например, GPT-3.5). Вдохновленный когнитивным механизмом в человеческом математическом обучении, он сначала извлекает темы и знания из исходных математических вопросов, а затем строит концептуальный граф, который затем используется для генерации новых математических вопросов. MathScale обладает эффективной масштабируемостью вдоль оси размера создаваемого нами математического набора данных. В результате мы создаем набор данных для математического рассуждения (MathScaleQA), содержащий два миллиона пар вопрос-ответ по математике. Для всесторонней оценки математических способностей LLM мы создаем MwpBench, набор данных для математических текстовых задач, который представляет собой коллекцию из десяти наборов данных (включая GSM8K и MATH), охватывающих математические задачи уровня K-12, колледжа и соревнований. Мы применяем MathScaleQA для настройки на открытых исходных кодах LLM (например, LLaMA-2 и Mistral), что приводит к значительному улучшению способностей в математическом рассуждении. Оцененный на MwpBench, MathScale-7B достигает передовых показателей по всем наборам данных, превосходя своих лучших конкурентов аналогичного размера на 42,9% в микро-средней точности и 43,7% в макро-средней точности соответственно.
Законы масштабирования играют ключевую роль в устойчивом улучшении качества модели. К сожалению, модели рекомендаций на сегодняшний день не проявляют таких законов, аналогичных наблюдаемым в области больших языковых моделей, из-за неэффективности их механизмов масштабирования. Это ограничение создает значительные проблемы в адаптации этих моделей к все более сложным реальным наборам данных. В данной статье мы предлагаем эффективную архитектуру сети, основанную исключительно на стековых машинах факторизации, и синергетическую стратегию масштабирования, совместно названные Wukong, чтобы установить закон масштабирования в области рекомендаций. Уникальное конструктивное решение Wukong позволяет захватывать разнообразные взаимодействия любого порядка просто через более высокие и широкие слои. Мы провели обширные оценки на шести общедоступных наборах данных, и наши результаты показывают, что Wukong последовательно превосходит модели последнего поколения по качеству. Кроме того, мы оценили масштабируемость Wukong на внутреннем крупномасштабном наборе данных. Результаты показывают, что Wukong сохраняет свое превосходство в качестве над моделями последнего поколения, удерживая закон масштабирования на протяжении двух порядков сложности модели, простираясь за пределы 100 Gflop или эквивалентно до масштаба общего вычисления обучения GPT-3/LLaMa-2, где предшествующие работы не справляются.
Развитие мультимодальных интерактивных систем затруднено из-за отсутствия обширных, мультимодальных (текст, изображения) разговорных данных, необходимых в больших объемах для языковых моделей с ограниченной памятью. Предыдущие подходы дополняли текстовые диалоги полученными изображениями, что создавало проблемы с конфиденциальностью, разнообразием и качеством. В данной работе мы представляем Мультимодальные Дополненные Генеративные Изображения Диалоги (MAGID), фреймворк для дополнения исключительно текстовых диалогов разнообразными и качественными изображениями. Затем применяется модель диффузии для создания соответствующих изображений, обеспечивая их соответствие выделенному тексту. Наконец, MAGID включает инновационный обратный цикл между модулем генерации описания изображения (текстовая LLM) и модулями качества изображения (работающими над эстетикой, соответствием изображения и текста и безопасностью), которые совместно генерируют высококачественные и мультимодальные диалоги. Мы сравниваем MAGID с другими передовыми базовыми моделями на трех наборах данных диалогов с использованием автоматической и человеческой оценки. Наши результаты показывают, что MAGID сравним или превосходит базовые модели, существенно улучшая человеческую оценку, особенно по сравнению с базовыми моделями извлечения, где база данных изображений небольшая.
Большие языковые модели (LLM) доказали своё превосходство над традиционными методами в различных задачах. Однако их дорогостоящие вычисления и высокие требования к памяти препятствуют их применению. Квантизация модели является эффективным методом снижения издержек. Проблема заключается в том, что в большинстве предыдущих работ калибровка квантованной модели производилась на основе небольшого количества образцов из обучающих данных, что может повлиять на обобщение квантованных LLM на неизвестные случаи и задачи. Поэтому в данной работе мы исследуем важный вопрос: можем ли мы разработать метод квантования для LLM, не зависящий от данных, чтобы гарантировать его обобщающую способность? В этой работе мы предлагаем EasyQuant, алгоритм квантования только весов, не требующий обучения и не зависящий от данных для LLM. Наши наблюдения показывают, что два фактора: выбросы в весах и диапазонах квантования, существенны для снижения ошибки квантования. Поэтому в EasyQuant мы оставляем выбросы (менее 1%) без изменений и оптимизируем диапазон квантования для снижения ошибки реконструкции. С помощью этих методов мы удивительно обнаружили, что EasyQuant достигает сопоставимой производительности с оригинальной моделью. Поскольку EasyQuant не зависит от обучающих данных, обобщающая способность квантованных LLM гарантирована. Более того, EasyQuant может быть реализован параллельно, так что квантованная модель может быть получена всего за несколько минут даже для LLM объемом более 100 миллиардов. По нашему лучшему пониманию, мы первыми достигли практически без потерь производительности квантования для LLM в условиях, не зависящих от данных, и наш алгоритм работает более чем в 10 раз быстрее, чем методы, зависящие от данных.
Несмотря на значительный прогресс, существующие мультимодальные модели языка большого масштаба (MLLM) все еще уступают в детальном визуальном распознавании. В отличие от предыдущих работ, мы изучаем эту проблему с точки зрения разрешения изображения и показываем, что комбинация низкоразрешенных и высокоразрешенных визуальных признаков может эффективно устранить этот недостаток. Основываясь на этом наблюдении, мы предлагаем новый и эффективный метод для MLLM, названный Адаптация Смешанного Разрешения (MRA). В частности, MRA использует два визуальных пути для изображений с разным разрешением, где высокоразрешенная визуальная информация встраивается в путь с низким разрешением с помощью новых адаптеров смешанного разрешения (MR-адаптеров). Этот дизайн также значительно сокращает длину входной последовательности MLLM. Для проверки MRA мы применяем его к недавней MLLM под названием LLaVA и называем новую модель LLaVA-HR. Мы проводим обширные эксперименты на 11 задачах видео-языка (VL), которые показывают, что LLaVA-HR превосходит существующие MLLM на 8 задачах VL, например, +9.4% на TextVQA. Более того, как обучение, так и вывод LLaVA-HR остаются эффективными с MRA, например, 20 часов обучения и скорость вывода в 3 раза быстрее, чем у LLaVA-1.5. Исходные коды доступны по ссылке: https://github.com/luogen1996/LLaVA-HR.
От модерации контента до охраны дикой природы, количество приложений, требующих моделей для распознавания тонких или субъективных визуальных концепций, растет. Традиционно разработка классификаторов для таких концепций требует значительных ручных усилий, измеряемых в часах, днях или даже месяцах для идентификации и аннотации данных, необходимых для обучения. Даже с недавно предложенными методиками Agile Modeling, которые позволяют быстро создавать классификаторы изображений, пользователям все равно требуется потратить 30 минут или более на однообразную, повторяющуюся разметку данных только для обучения одного классификатора. Основываясь на когнитивной теории Fiske, мы предлагаем новую концепцию, которая снижает ручные усилия, заменяя человеческую разметку взаимодействиями на естественном языке, уменьшая общие усилия, необходимые для определения концепции на порядок: от разметки 2 000 изображений до всего лишь 100 плюс некоторые взаимодействия на естественном языке. Наша концепция использует последние достижения в области фундаментальных моделей, как большие языковые модели, так и модели видения-языка, для выделения пространства концепций через разговор и автоматическую разметку обучающих данных. Прежде всего, наша концепция устраняет необходимость в аннотациях, полученных от массовых источников. Более того, наша концепция в конечном итоге создает легкие модели классификации, которые могут быть задействованы в сценариях с ограниченными затратами. На 15 субъективных концепциях и на 2 общедоступных наборах данных по классификации изображений наши обученные модели превосходят традиционное Agile Modeling, а также передовые модели классификации с нулевым обучением, такие как ALIGN, CLIP, CuPL, и большие модели визуального вопросно-ответного взаимодействия, такие как PaLI-X.
Естественный язык и изображения часто используются в качестве представлений целей в обучении имитации с условием цели (IL). Однако естественный язык может быть неоднозначным, а изображения могут быть избыточными. В данной работе мы предлагаем ручные наброски в качестве модальности для спецификации целей в обучении визуальной имитации. Наброски легко предоставлять пользователям на лету, как и язык, но, подобно изображениям, они также могут помочь последующей политике быть пространственно осведомленной и даже выходить за рамки изображений для разрешения задачи-связанных и задаче-несвязанных объектов. Мы представляем RT-Sketch, политику с условием цели для манипуляции, которая принимает ручной набросок желаемой сцены на входе и выдает действия. Мы обучаем RT-Sketch на наборе сопоставленных траекторий и соответствующих синтетически сгенерированных целевых набросков. Мы оцениваем этот подход на шести навыках манипуляции, включающих перестановки объектов на столе на артикулированной столешнице. Экспериментально мы обнаруживаем, что RT-Sketch способен действовать на сходном уровне с агентами, обученными на изображениях или языке, в прямолинейных ситуациях, при этом достигая большей устойчивости, когда языковые цели неоднозначны или визуальные отвлекающие объекты присутствуют. Кроме того, мы показываем, что RT-Sketch способен интерпретировать и действовать на наброски с различными уровнями специфичности, начиная от минимальных линейных набросков до детальных, цветных набросков. Дополнительные материалы и видео можно найти на нашем веб-сайте: http://rt-sketch.github.io.
Недавние достижения в области нейронных сетей принесли феноменальные возможности в область генерации форм, но им не хватает ключевых свойств, таких как пошаговый контроль - фундаментальное требование для художественной работы. Треугольные сетки, с другой стороны, являются предпочтительным представлением для большинства задач, связанных с геометрией, предлагая эффективность и интуитивный контроль, но не поддаются нейронной оптимизации. Для поддержки последующих задач предыдущие работы обычно предлагают двухэтапный подход, где сначала форма генерируется с использованием нейронных сетей, а затем извлекается сетка для дальнейшей обработки. Вместо этого в данной статье мы представляем гибридный подход, который последовательно поддерживает как сетку, так и представления поля знакового расстояния (SDF). Используя это представление, мы представляем MagicClay - инструмент, удобный для художников, для лепки областей сетки в соответствии с текстовыми подсказками, сохраняя при этом другие области нетронутыми. Наша структура внимательно и эффективно балансирует согласованность между представлениями и регуляризациями на каждом этапе оптимизации формы; Основываясь на представлении сетки, мы показываем, как рендерить SDF с более высоким разрешением и быстрее. Кроме того, мы используем недавние работы в области дифференцируемой реконструкции сетки для адаптивного выделения треугольников в сетке там, где это необходимо, как указано в SDF. Используя реализованный прототип, мы демонстрируем превосходную сгенерированную геометрию по сравнению с современными достижениями и новый согласованный контроль, позволяющий последовательные изменения на основе подсказок в одной и той же сетке впервые.