Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем метод масштабирования глубины (Depth Up-Scaling, DUS) — новую технику для эффективного и простого масштабирования базовых больших языковых моделей (LLM). В отличие от подхода смеси экспертов (Mixture-of-Experts, MoE), DUS не требует сложных изменений в процессе обучения и вывода. С использованием DUS мы создали SOLAR 10.7B — крупную языковую модель с 10,7 миллиардами параметров, демонстрирующую превосходную производительность в различных задачах обработки естественного языка (NLP). Сравнительные оценки показывают, что SOLAR 10.7B превосходит существующие открытые предобученные LLM, такие как Llama 2 и Mistral 7B. Мы также представляем SOLAR 10.7B-Instruct — вариант модели, дообученный для выполнения инструкций, который превосходит Mixtral-8x7B. SOLAR 10.7B доступна публично под лицензией Apache 2.0, что способствует широкому доступу и применению в области LLM.
В данной статье представлены 26 руководящих принципов, разработанных для упрощения процесса формулирования запросов и подсказок для крупных языковых моделей. Наша цель заключается в том, чтобы сделать более понятными базовые концепции составления вопросов для языковых моделей различного масштаба, исследовать их возможности и улучшить понимание пользователями поведения моделей разного масштаба при обработке различных подсказок. Проведены обширные эксперименты на моделях LLaMA-1/2 (7B, 13B и 70B) и GPT-3.5/4 для проверки эффективности предложенных принципов в проектировании инструкций и подсказок. Мы надеемся, что эта работа станет полезным руководством для исследователей, занимающихся разработкой подсказок для крупных языковых моделей. Страница проекта доступна по адресу https://github.com/VILA-Lab/ATLAS.
С ростом популярности ИИ-агентов и метавселенной возрастает спрос на персонализированных и выразительных 3D-персонажей. Однако создание таких персонажей с использованием традиционных инструментов компьютерной графики остается сложной и трудоемкой задачей. Для решения этих проблем мы предлагаем удобный фреймворк под названием Make-A-Character (Mach), который позволяет создавать реалистичные 3D-аватары на основе текстовых описаний. Фреймворк использует возможности крупных языковых и визуальных моделей для понимания текстовых намерений и генерации промежуточных изображений, а затем применяет серию модулей, ориентированных на визуальное восприятие и 3D-генерацию, адаптированных для человека. Наша система предлагает интуитивно понятный подход, позволяющий пользователям создавать управляемых, реалистичных и полноценных 3D-персонажей, соответствующих их ожиданиям, всего за 2 минуты, а также обеспечивает легкую интеграцию с существующими CG-пайплайнами для динамической выразительности. Для получения дополнительной информации посетите страницу проекта по адресу https://human3daigc.github.io/MACH/.
Задачи сегментации объектов на основе ссылок, а именно сегментация изображений по текстовому описанию (RIS), сегментация изображений с малым количеством примеров (FSS), сегментация объектов в видео по текстовому описанию (RVOS) и сегментация объектов в видео (VOS), направлены на выделение конкретного объекта с использованием либо языковых описаний, либо аннотированных масок в качестве ссылок. Несмотря на значительный прогресс в каждой из этих областей, современные методы разрабатываются специфически для каждой задачи и развиваются в разных направлениях, что препятствует активации мультизадачных возможностей для этих задач. В данной работе мы преодолеваем текущую фрагментированную ситуацию и предлагаем UniRef++ — унифицированную архитектуру для объединения четырех задач сегментации объектов на основе ссылок. Основой нашего подхода является предложенный модуль UniFusion, который выполняет многозадачное слияние для обработки различных задач с учетом их специфических ссылок. Затем используется унифицированная архитектура Transformer для достижения сегментации на уровне экземпляров. Благодаря унифицированным решениям, UniRef++ может быть совместно обучен на широком спектре бенчмарков и гибко выполнять несколько задач во время выполнения, указывая соответствующие ссылки. Мы оцениваем наши унифицированные модели на различных бенчмарках. Обширные экспериментальные результаты показывают, что предложенный UniRef++ достигает наилучших результатов на задачах RIS и RVOS, а также демонстрирует конкурентоспособные показатели на задачах FSS и VOS с использованием сети с общими параметрами. Более того, мы показываем, что предложенный модуль UniFusion может быть легко интегрирован в современную базовую модель SAM и позволяет получить удовлетворительные результаты с эффективной дообучением параметров. Коды и модели доступны по адресу https://github.com/FoundationVision/UniRef.
Быстро развивающаяся область мультимодальных больших языковых моделей (MLLMs) находится на переднем крае интеграции лингвистической и визуальной обработки в искусственном интеллекте. В данной статье представлено углубленное сравнительное исследование двух передовых моделей: Gemini от Google и GPT-4V(ision) от OpenAI. Наше исследование включает многогранную оценку обеих моделей по ключевым направлениям, таким как способность к обработке визуально-языковой информации, взаимодействие с людьми, понимание временных аспектов, а также оценка интеллектуального и эмоционального коэффициентов. Основное внимание в нашем анализе уделено уникальным способностям каждой модели к визуальному восприятию. Мы провели серию структурированных экспериментов для оценки их производительности в различных сценариях промышленного применения, предлагая всесторонний взгляд на их практическую полезность. Мы не только сравниваем их прямую производительность, но также вносим изменения в запросы и сценарии, чтобы обеспечить сбалансированный и справедливый анализ. Наши результаты выявляют уникальные сильные стороны и ниши обеих моделей. GPT-4V выделяется своей точностью и лаконичностью ответов, в то время как Gemini превосходит в предоставлении детализированных, развернутых ответов, сопровождаемых соответствующими изображениями и ссылками. Эти выводы не только проливают свет на сравнительные достоинства Gemini и GPT-4V, но также подчеркивают эволюцию ландшафта мультимодальных базовых моделей, прокладывая путь для будущих достижений в этой области. После сравнения мы попытались достичь лучших результатов, комбинируя обе модели. В заключение, мы хотели бы выразить глубокую благодарность командам, стоящим за GPT-4V и Gemini, за их новаторский вклад в эту область. Мы также выражаем признательность за всесторонний качественный анализ, представленный в работе "Dawn" Янга и его коллег. Эта работа, с ее обширной коллекцией образцов изображений, запросов и результатов, связанных с GPT-4V, послужила основой для нашего анализа.
Аудио является неотъемлемой частью нашей жизни, но его создание часто требует экспертных знаний и занимает много времени. За последний год исследовательские сообщества добились значительного прогресса в повышении производительности крупномасштабных генеративных моделей для одного типа аудио (речь, звуки или музыка) за счет внедрения более мощных генеративных моделей и масштабирования данных. Однако этим моделям не хватает управляемости в нескольких аспектах: модели генерации речи не могут синтезировать новые стили на основе текстового описания и ограничены в охвате областей, таких как уличные среды; модели генерации звуков предоставляют лишь грубый контроль на основе описаний вроде "человек говорит" и генерируют лишь неразборчивые человеческие голоса. В данной статье представлена Audiobox — унифицированная модель на основе flow-matching, способная генерировать различные аудиомодальности. Мы разработали подсказки на основе описаний и примеров для повышения управляемости и объединения парадигм генерации речи и звуков. Мы позволяем независимо управлять транскриптом, вокалом и другими аудиостилями при генерации речи. Для улучшения обобщающей способности модели при ограниченных метках мы адаптировали самообучаемую задачу заполнения для предварительного обучения на больших объемах немаркированного аудио. Audiobox устанавливает новые стандарты в генерации речи и звуков (0.745 сходства на Librispeech для zero-shot TTS; 0.77 FAD на AudioCaps для текста в звук) и открывает новые методы генерации аудио с уникальными вокальными и акустическими стилями. Мы также интегрировали Bespoke Solvers, что ускоряет генерацию более чем в 25 раз по сравнению с стандартным ODE-решателем для flow-matching, без потери производительности в нескольких задачах. Наша демонстрация доступна по адресу https://audiobox.metademolab.com/.
Человек живет в трехмерном мире и обычно использует естественный язык для взаимодействия с трехмерной сценой. Моделирование трехмерного языкового поля для поддержки открытых языковых запросов в 3D-пространстве в последнее время привлекает все больше внимания. В данной статье представлен LangSplat, который создает трехмерное языковое поле, позволяющее выполнять точные и эффективные запросы с открытым словарем в трехмерных пространствах. В отличие от существующих методов, которые связывают языковые эмбеддинги CLIP с моделью NeRF, LangSplat продвигает эту область, используя набор трехмерных гауссовских распределений, каждое из которых кодирует языковые признаки, извлеченные из CLIP, для представления языкового поля. Применяя метод рендеринга языковых признаков на основе тайлов, мы избегаем дорогостоящего процесса рендеринга, присущего NeRF. Вместо прямого обучения эмбеддингам CLIP, LangSplat сначала обучает сценозависимый языковой автокодировщик, а затем изучает языковые признаки в сценозависимом латентном пространстве, тем самым снижая значительные требования к памяти, накладываемые явным моделированием. Существующие методы сталкиваются с неточными и размытыми трехмерными языковыми полями, которые не могут четко определить границы между объектами. Мы углубляемся в эту проблему и предлагаем изучать иерархическую семантику с помощью SAM, устраняя необходимость в масштабных запросах к языковому полю на различных уровнях и регуляризации признаков DINO. Многочисленные эксперименты по локализации объектов и семантической сегментации с открытым словарем в 3D-пространстве демонстрируют, что LangSplat значительно превосходит предыдущий передовой метод LERF с большим отрывом. Примечательно, что LangSplat чрезвычайно эффективен, достигая ускорения в {\speed} раз по сравнению с LERF при разрешении 1440 на 1080. Мы настоятельно рекомендуем читателям ознакомиться с нашими видеорезультатами на сайте https://langsplat.github.io.
Генерация видео на основе текста с использованием диффузионных моделей продемонстрировала впечатляющий прогресс за последний год, но всё ещё отстаёт от генерации изображений на основе текста. Одной из ключевых причин является ограниченный масштаб общедоступных данных (например, 10 миллионов пар видео-текст в WebVid10M против 5 миллиардов пар изображение-текст в LAION), учитывая высокую стоимость создания описаний для видео. Вместо этого гораздо проще собирать немаркированные клипы с видеоплатформ, таких как YouTube. Вдохновленные этим, мы разработали новую структуру для генерации видео на основе текста, названную TF-T2V, которая может обучаться непосредственно на видео без текста. Основная идея заключается в разделении процесса декодирования текста и моделирования временной динамики. Для этого мы используем две ветви: ветвь контента и ветвь движения, которые совместно оптимизируются с общими весами. Следуя такому подходу, мы изучили эффект удвоения масштаба обучающего набора (например, видео-only WebVid10M) с добавлением случайно собранных видео без текста и обнаружили улучшение производительности (FID снизился с 9.67 до 8.19, а FVD — с 484 до 441), что демонстрирует масштабируемость нашего метода. Мы также обнаружили, что наша модель может получить устойчивое улучшение производительности (FID снизился с 8.19 до 7.64, а FVD — с 441 до 366) после повторного введения некоторых текстовых меток для обучения. Наконец, мы подтвердили эффективность и универсальность нашей идеологии как в задачах генерации видео на основе текста, так и в парадигмах композиционного синтеза видео. Код и модели будут общедоступны по адресу https://tf-t2v.github.io/.
Недавние достижения в области генерации 3D-моделей из одного изображения подчеркивают важность согласованности между несколькими видами, используя 3D-априорные знания, полученные из крупномасштабных диффузионных моделей, предварительно обученных на изображениях интернет-масштаба. Однако аспект разнообразия новых ракурсов остается недостаточно изученным в исследовательской среде из-за неоднозначности преобразования 2D-изображения в 3D-контент, где может возникнуть множество потенциальных форм. В данной работе мы стремимся устранить этот пробел, одновременно учитывая как согласованность, так и разнообразие. Однако достижение баланса между этими двумя аспектами представляет собой значительную сложность из-за их внутреннего противоречия. В этой работе представлен HarmonyView — простой, но эффективный метод сэмплинга на основе диффузии, который умело разделяет два сложных аспекта в генерации 3D-моделей из одного изображения: согласованность и разнообразие. Этот подход открывает путь для более детального изучения этих двух критических измерений в процессе сэмплинга. Кроме того, мы предлагаем новую метрику оценки, основанную на CLIP-кодировщиках изображений и текста, для всестороннего анализа разнообразия генерируемых ракурсов, которая тесно согласуется с оценками экспертов. В экспериментах HarmonyView достигает гармоничного баланса, демонстрируя выигрышный сценарий как в согласованности, так и в разнообразии.
Широкое использование коммерческих и открытых диффузионных моделей (DMs) для генерации изображений по тексту требует мер по снижению рисков для предотвращения нежелательного поведения. Существующие в академической среде методы удаления концепций основаны на полной настройке параметров или спецификаций, что приводит к следующим проблемам: 1) Изменение генерации в сторону эрозии: Смещение параметров в процессе устранения целевых концепций вызывает изменения и потенциальные искажения во всех генерациях, включая эрозию других концепций в разной степени, что особенно заметно при удалении нескольких концепций; 2) Неспособность к переносу и неэффективность развертывания: Предыдущие методы удаления, специфичные для модели, препятствуют гибкому комбинированию концепций и беспроблемному переносу на другие модели, что приводит к линейному росту затрат с увеличением сценариев развертывания. Для достижения ненавязчивого, точного, настраиваемого и переносимого устранения мы основываем наш фреймворк удаления на одномерных адаптерах, позволяющих удалять несколько концепций из большинства DMs одновременно в различных приложениях. Структура concept-SemiPermeable внедряется как мембрана (SPM) в любую DM для обучения целевому удалению, при этом явления изменения и эрозии эффективно смягчаются с помощью новой стратегии тонкой настройки Latent Anchoring. После получения SPM могут гибко комбинироваться и использоваться в других DMs без дополнительной настройки, обеспечивая своевременную и эффективную адаптацию к различным сценариям. Во время генерации наш механизм Facilitated Transport динамически регулирует проницаемость каждой SPM в ответ на различные входные запросы, дополнительно минимизируя влияние на другие концепции. Количественные и качественные результаты для ~40 концепций, 7 DMs и 4 приложений удаления продемонстрировали превосходство SPM. Наш код и предварительно настроенные SPM будут доступны на странице проекта https://lyumengyao.github.io/projects/spm.
Крупные языковые модели (LLM) демонстрируют развивающиеся способности к обучению в контексте с помощью инженерии промптов. Недавние достижения в области крупномасштабных генеративных моделей расширили их применение в реальных языковых задачах. Однако ключевая проблема повышения обобщаемости и достоверности LLM в задачах понимания естественного языка и ответов на вопросы остается недостаточно изученной. В то время как предыдущие исследования в области обучения в контексте были сосредоточены на улучшении способности моделей следовать конкретным инструкциям пользователей и ожиданиям качества, а также на предотвращении нежелательных выводов, практически не было работ, посвященных использованию специализированных тонко настроенных языковых моделей (SLM) для улучшения обучения LLM в контексте на этапе вывода. Наш основной вклад заключается в создании простого, но эффективного фреймворка, который повышает надежность LLM, так как он: 1) обобщает данные, выходящие за пределы распределения, 2) объясняет, как LLM могут извлекать пользу из дискриминативных моделей, и 3) минимизирует галлюцинации в генеративных задачах. Используя наш предложенный метод подключаемых модулей, улучшенные версии Llama 2 и ChatGPT превосходят свои оригинальные версии по обобщаемости и достоверности. Мы предоставляем комплексный набор ресурсов, включая 16 тщательно отобранных наборов данных, промптов, контрольных точек моделей и выводов LLM для 9 различных задач. Наш эмпирический анализ раскрывает преимущества интеграции дискриминативных моделей в LLM и подчеркивает потенциал нашей методологии в создании более надежных LLM.
Реконструкция человеческого тела на основе видео с одного ракурса играет ключевую роль в области виртуальной реальности. Одним из распространенных сценариев применения является необходимость быстрого создания высококачественных 3D-моделей цифровых людей с одновременным обеспечением их рендеринга и взаимодействия в реальном времени. Существующие методы часто не способны удовлетворить оба этих требования. В данной статье мы представляем Human101 — новый фреймворк, способный создавать высококачественные динамические 3D-реконструкции человека на основе видео с одного ракурса, обучая 3D-гауссовы распределения за 100 секунд и обеспечивая рендеринг со скоростью более 100 кадров в секунду. Наш метод использует преимущества 3D Gaussian Splatting, который предоставляет явное и эффективное представление 3D-моделей человека. В отличие от предыдущих подходов, основанных на NeRF, Human101 применяет инновационный метод Human-centric Forward Gaussian Animation для деформации параметров 3D-гауссовых распределений, что значительно повышает скорость рендеринга (например, рендеринг изображений с разрешением 1024 с впечатляющими 60+ кадрами в секунду и изображений с разрешением 512 с 100+ кадрами в секунду). Результаты экспериментов показывают, что наш подход значительно превосходит существующие методы, увеличивая количество кадров в секунду до 10 раз и обеспечивая сопоставимое или превосходное качество рендеринга. Код и демонстрации будут доступны по адресу https://github.com/longxiang-ai/Human101.