Ежедневно отобранные исследовательские статьи по ИИ с переводами
В данном техническом отчете мы предлагаем ChemVLM - первую открытую мультимодальную крупную языковую модель, посвященную области химии, разработанную для решения несовместимости между пониманием химических изображений и текстовым анализом. Основываясь на архитектуре VIT-MLP-LLM, мы используем ChemLLM-20B в качестве основной крупной модели, наделяя нашу модель надежными возможностями в понимании и использовании химических текстовых знаний. Кроме того, мы применяем InternVIT-6B в качестве мощного кодировщика изображений. Мы подготовили высококачественные данные из области химии, включая молекулы, формулы реакций и данные химических экзаменов, и скомпилировали их в двуязычный мультимодальный набор данных для вопросов и ответов. Мы тестируем производительность нашей модели на нескольких открытых бенчмарках и трех пользовательских наборах оценки. Экспериментальные результаты показывают, что наша модель достигает отличной производительности, обеспечивая передовые результаты в пяти из шести задач. Нашу модель можно найти по адресу https://huggingface.co/AI4Chem/ChemVLM-26B.
Модели текст-в-изображение являются мощными инструментами для создания изображений. Однако процесс генерации схож с броском кубика и затрудняет достижение одного изображения, которое бы полностью удовлетворяло потребности пользователя. В данной статье мы предлагаем фреймворк для создания желаемого изображения путем его композиции из различных частей сгенерированных изображений, в сущности формируя Генеративный Фотомонтаж. Учитывая набор изображений, сгенерированных ControlNet с использованием одного и того же входного условия и различных сидов, мы позволяем пользователям выбирать желаемые части из результатов генерации с помощью интерфейса кисти. Мы представляем новую технику, которая принимает кисти пользователя, сегментирует сгенерированные изображения с использованием оптимизации на основе графа в пространстве диффузии признаков, а затем компонует сегментированные области с помощью нового метода смешивания в пространстве признаков. Наш метод верно сохраняет выбранные пользователем области, компонуя их гармонично. Мы демонстрируем, что наш гибкий фреймворк может быть использован для множества приложений, включая генерацию новых комбинаций внешности, исправление неправильных форм и артефактов, а также улучшение выравнивания запросов. Мы показываем убедительные результаты для каждого приложения и демонстрируем, что наш метод превосходит существующие методы смешивания изображений и различные базовые варианты.
Эта статья представляет серию Aquila2, которая включает в себя широкий спектр двуязычных моделей с размерами параметров 7, 34 и 70 миллиардов. Эти модели обучены на основе инновационной структуры под названием HeuriMentor (HM), которая предоставляет реальное время в понимании сходимости модели и улучшает процесс обучения и управление данными. Система HM, включающая Адаптивный Обучающий Движок (ATE), Монитор Состояния Обучения (TSM) и Управление Данными (DMU), позволяет точно контролировать прогресс обучения модели и обеспечивает эффективную оптимизацию распределения данных, тем самым улучшая эффективность обучения. Обширные оценки показывают, что серия моделей Aquila2 проявляет себя достаточно хорошо как на английских, так и на китайских бенчмарках. В частности, Aquila2-34B демонстрирует лишь незначительное снижение производительности при квантовании до Int4. Более того, мы сделали наш код обучения (https://github.com/FlagOpen/FlagScale) и веса модели (https://github.com/FlagAI-Open/Aquila2) общедоступными для поддержки текущих исследований и разработки приложений.
Мы описываем крупномасштабный набор данных - {\em DeepSpeak} - реальных и глубокофейковых видеозаписей людей, разговаривающих и жестикулирующих перед веб-камерами. Реальные видеозаписи в этой первой версии набора данных составляют 9 часов материала от 220 разнообразных людей. Фейковые видеозаписи включают в себя более 25 часов материала, представляющие собой различные передовые технологии замены лица и синхронизации губ с натуральными и ИИ-сгенерированными голосами. Мы планируем выпустить будущие версии этого набора данных с различными и обновленными технологиями глубокого фейка. Этот набор данных предоставляется бесплатно для исследований и некоммерческого использования; запросы на коммерческое использование будут рассмотрены.
Недавние достижения в методах Chain-of-Thoughts (CoT) и Program-of-Thoughts (PoT) значительно улучшили математические способности языковых моделей, облегчая их интеграцию в наборы данных для настройки инструкций с помощью LLMs. Однако существующие методы создания крупномасштабных наборов данных требуют значительного начального объема данных и высоких вычислительных затрат для синтеза данных, что создает значительные проблемы масштабируемости. Мы представляем InfinityMATH, масштабируемый набор данных для настройки инструкций для программирования математического мышления. Пайплайн конструирования подчеркивает разделение чисел от математических задач для синтеза программ, независимых от чисел, обеспечивая эффективное и гибкое масштабирование при минимизации зависимости от конкретных числовых значений. Эксперименты по настройке с открытыми языковыми и кодовыми моделями, такими как Llama2 и CodeLlama, демонстрируют практические преимущества InfinityMATH. Эти настроенные модели показали значительное относительное улучшение как на внутридоменных, так и на внедоменных бенчмарках, в среднем в диапазоне от 184.7% до 514.3%. Кроме того, эти модели проявили высокую устойчивость на бенчмарках GSM8K+ и MATH+, которые представляют собой улучшенные версии тестовых наборов с просто вариациями чисел. InfinityMATH обеспечивает более универсальную и эффективную работу моделей с широким спектром математических задач. Данные доступны по ссылке https://huggingface.co/datasets/flagopen/InfinityMATH.
Моделирование и манипулирование трехмерными сценами, захваченными из реального мира, имеют ключевое значение в различных приложениях, привлекая растущий интерес исследователей. В то время как предыдущие работы по редактированию достигли интересных результатов через манипуляцию трехмерными сетками, они часто требуют точно восстановленных сеток для выполнения редактирования, что ограничивает их применение в генерации трехмерного контента. Для решения этого пробела мы представляем новый подход к редактированию трехмерных сцен на основе трехмерного гауссовского сплетения, позволяющий интуитивно манипулировать путем непосредственного редактирования контента на плоскости изображения. Наш метод учится оптимизировать трехмерные гауссианы для их выравнивания с отредактированной версией изображения, воссозданного из пользовательски заданной точки зрения оригинальной сцены. Для улавливания деформаций объектов на большие расстояния мы вводим потерю позиции в процесс оптимизации трехмерного гауссовского сплетения и обеспечиваем распространение градиента через репараметризацию. Для работы с заслоненными трехмерными гауссианами при воспроизведении из указанной точки зрения мы строим структуру на основе якорей и используем стратегию грубой и тонкой оптимизации, способную обрабатывать деформации на большие расстояния, сохраняя структурную стабильность. Кроме того, мы разрабатываем новую стратегию маскировки для адаптивной идентификации областей неригидных деформаций для моделирования мелкой детали. Обширные эксперименты демонстрируют эффективность нашего метода в обработке геометрических деталей, деформаций на большие расстояния и неригидных деформаций, показывая превосходную гибкость и качество редактирования по сравнению с предыдущими подходами.
Недавно были исследованы задачи универсальной генерации волновых форм, условием для которых являются различные сценарии вне распределения. Хотя методы на основе GAN показали свою силу в быстрой генерации волновых форм, они уязвимы для сценариев несоответствия обучения и вывода, таких как двухэтапное преобразование текста в речь. Тем временем модели на основе диффузии продемонстрировали свою мощную генеративную производительность в других областях; однако они остаются в тени из-за медленной скорости вывода в задачах генерации волновых форм. Прежде всего, не существует архитектуры генератора, которая могла бы явно разделять естественные периодические особенности сигналов высокого разрешения волновых форм. В данной статье мы предлагаем PeriodWave, новую универсальную модель генерации волновых форм. Во-первых, мы представляем оценщик соответствия потоков, осведомленный о периодах, который может улавливать периодические особенности сигнала волновой формы при оценке векторных полей. Кроме того, мы используем мультипериодический оценщик, который избегает перекрытий для улавливания различных периодических особенностей сигналов волновых форм. Хотя увеличение количества периодов может значительно улучшить производительность, это требует больших вычислительных затрат. Для уменьшения этой проблемы мы также предлагаем универсальный оценщик, условием которого является один период, который может передаваться параллельно путем пакетного вывода по периодам. Кроме того, мы используем дискретное вейвлет-преобразование для без потерь разделения частотной информации сигналов волновых форм для моделирования высоких частот и представляем FreeU для уменьшения шума высоких частот при генерации волновых форм. Экспериментальные результаты показали, что наша модель превосходит предыдущие модели как в восстановлении мел-спектрограмм, так и в задачах текст в речь. Весь исходный код будет доступен по адресу https://github.com/sh-lee-prml/PeriodWave.
Понимание семантики трехмерной сцены является фундаментальной проблемой для различных сценариев, таких как инкорпорированные агенты. В то время как NeRF и 3DGS отличаются в синтезе нового вида, предыдущие методы понимания их семантики ограничивались неполным трехмерным пониманием: их результаты сегментации представляют собой двумерные маски, и их надзор закреплен за двумерными пикселями. В данной статье пересматривается набор проблем для достижения лучшего трехмерного понимания сцены, моделированной NeRF и 3DGS, следуя следующим пунктам. 1) Мы напрямую надзираем трехмерные точки для обучения языкового встраивания. Это достигает передовой точности без использования многоуровневых языковых встраиваний. 2) Мы переносим предварительно обученное языковое поле на 3DGS, достигая первой скорости реального времени рендеринга без ущерба времени обучения или точности. 3) Мы вводим протокол трехмерного запроса и оценки для оценки восстановленной геометрии и семантики вместе. Код, контрольные точки и аннотации будут доступны онлайн. Страница проекта: https://hyunji12.github.io/Open3DRF