Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Видение и Понимание: Связь Зрения с Химическим Знанием через ChemVLM
Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM

Aug 14

ByJunxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou

В данном техническом отчете мы предлагаем ChemVLM - первую открытую мультимодальную крупную языковую модель, посвященную области химии, разработанную для решения несовместимости между пониманием химических изображений и текстовым анализом. Основываясь на архитектуре VIT-MLP-LLM, мы используем ChemLLM-20B в качестве основной крупной модели, наделяя нашу модель надежными возможностями в понимании и использовании химических текстовых знаний. Кроме того, мы применяем InternVIT-6B в качестве мощного кодировщика изображений. Мы подготовили высококачественные данные из области химии, включая молекулы, формулы реакций и данные химических экзаменов, и скомпилировали их в двуязычный мультимодальный набор данных для вопросов и ответов. Мы тестируем производительность нашей модели на нескольких открытых бенчмарках и трех пользовательских наборах оценки. Экспериментальные результаты показывают, что наша модель достигает отличной производительности, обеспечивая передовые результаты в пяти из шести задач. Нашу модель можно найти по адресу https://huggingface.co/AI4Chem/ChemVLM-26B.

Генеративный фотомонтаж
Generative Photomontage

Aug 13

BySean J. Liu, Nupur Kumari, Ariel Shamir, Jun-Yan Zhu

Модели текст-в-изображение являются мощными инструментами для создания изображений. Однако процесс генерации схож с броском кубика и затрудняет достижение одного изображения, которое бы полностью удовлетворяло потребности пользователя. В данной статье мы предлагаем фреймворк для создания желаемого изображения путем его композиции из различных частей сгенерированных изображений, в сущности формируя Генеративный Фотомонтаж. Учитывая набор изображений, сгенерированных ControlNet с использованием одного и того же входного условия и различных сидов, мы позволяем пользователям выбирать желаемые части из результатов генерации с помощью интерфейса кисти. Мы представляем новую технику, которая принимает кисти пользователя, сегментирует сгенерированные изображения с использованием оптимизации на основе графа в пространстве диффузии признаков, а затем компонует сегментированные области с помощью нового метода смешивания в пространстве признаков. Наш метод верно сохраняет выбранные пользователем области, компонуя их гармонично. Мы демонстрируем, что наш гибкий фреймворк может быть использован для множества приложений, включая генерацию новых комбинаций внешности, исправление неправильных форм и артефактов, а также улучшение выравнивания запросов. Мы показываем убедительные результаты для каждого приложения и демонстрируем, что наш метод превосходит существующие методы смешивания изображений и различные базовые варианты.

Технический отчет Aquila2
Aquila2 Technical Report

Aug 14

ByBo-Wen Zhang, Liangdong Wang, Jijie Li, Shuhao Gu, Xinya Wu, Zhengduo Zhang, Boyan Gao, Yulong Ao, Guang Liu

Эта статья представляет серию Aquila2, которая включает в себя широкий спектр двуязычных моделей с размерами параметров 7, 34 и 70 миллиардов. Эти модели обучены на основе инновационной структуры под названием HeuriMentor (HM), которая предоставляет реальное время в понимании сходимости модели и улучшает процесс обучения и управление данными. Система HM, включающая Адаптивный Обучающий Движок (ATE), Монитор Состояния Обучения (TSM) и Управление Данными (DMU), позволяет точно контролировать прогресс обучения модели и обеспечивает эффективную оптимизацию распределения данных, тем самым улучшая эффективность обучения. Обширные оценки показывают, что серия моделей Aquila2 проявляет себя достаточно хорошо как на английских, так и на китайских бенчмарках. В частности, Aquila2-34B демонстрирует лишь незначительное снижение производительности при квантовании до Int4. Более того, мы сделали наш код обучения (https://github.com/FlagOpen/FlagScale) и веса модели (https://github.com/FlagAI-Open/Aquila2) общедоступными для поддержки текущих исследований и разработки приложений.

InfinityMATH: Масштабируемый набор данных настройки инструкций в программном математическом рассуждении
InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning

Aug 9

ByBo-Wen Zhang, Yan Yan, Lin Li, Guang Liu

Недавние достижения в методах Chain-of-Thoughts (CoT) и Program-of-Thoughts (PoT) значительно улучшили математические способности языковых моделей, облегчая их интеграцию в наборы данных для настройки инструкций с помощью LLMs. Однако существующие методы создания крупномасштабных наборов данных требуют значительного начального объема данных и высоких вычислительных затрат для синтеза данных, что создает значительные проблемы масштабируемости. Мы представляем InfinityMATH, масштабируемый набор данных для настройки инструкций для программирования математического мышления. Пайплайн конструирования подчеркивает разделение чисел от математических задач для синтеза программ, независимых от чисел, обеспечивая эффективное и гибкое масштабирование при минимизации зависимости от конкретных числовых значений. Эксперименты по настройке с открытыми языковыми и кодовыми моделями, такими как Llama2 и CodeLlama, демонстрируют практические преимущества InfinityMATH. Эти настроенные модели показали значительное относительное улучшение как на внутридоменных, так и на внедоменных бенчмарках, в среднем в диапазоне от 184.7% до 514.3%. Кроме того, эти модели проявили высокую устойчивость на бенчмарках GSM8K+ и MATH+, которые представляют собой улучшенные версии тестовых наборов с просто вариациями чисел. InfinityMATH обеспечивает более универсальную и эффективную работу моделей с широким спектром математических задач. Данные доступны по ссылке https://huggingface.co/datasets/flagopen/InfinityMATH.

Набор данных DeepSpeak v1.0
DeepSpeak Dataset v1.0

Aug 9

BySarah Barrington, Matyas Bohacek, Hany Farid

Мы описываем крупномасштабный набор данных - {\em DeepSpeak} - реальных и глубокофейковых видеозаписей людей, разговаривающих и жестикулирующих перед веб-камерами. Реальные видеозаписи в этой первой версии набора данных составляют 9 часов материала от 220 разнообразных людей. Фейковые видеозаписи включают в себя более 25 часов материала, представляющие собой различные передовые технологии замены лица и синхронизации губ с натуральными и ИИ-сгенерированными голосами. Мы планируем выпустить будущие версии этого набора данных с различными и обновленными технологиями глубокого фейка. Этот набор данных предоставляется бесплатно для исследований и некоммерческого использования; запросы на коммерческое использование будут рассмотрены.

Редактирование трехмерных гауссовских моделей с использованием одного изображения
3D Gaussian Editing with A Single Image

Aug 14

ByGuan Luo, Tian-Xing Xu, Ying-Tian Liu, Xiao-Xiong Fan, Fang-Lue Zhang, Song-Hai Zhang

Моделирование и манипулирование трехмерными сценами, захваченными из реального мира, имеют ключевое значение в различных приложениях, привлекая растущий интерес исследователей. В то время как предыдущие работы по редактированию достигли интересных результатов через манипуляцию трехмерными сетками, они часто требуют точно восстановленных сеток для выполнения редактирования, что ограничивает их применение в генерации трехмерного контента. Для решения этого пробела мы представляем новый подход к редактированию трехмерных сцен на основе трехмерного гауссовского сплетения, позволяющий интуитивно манипулировать путем непосредственного редактирования контента на плоскости изображения. Наш метод учится оптимизировать трехмерные гауссианы для их выравнивания с отредактированной версией изображения, воссозданного из пользовательски заданной точки зрения оригинальной сцены. Для улавливания деформаций объектов на большие расстояния мы вводим потерю позиции в процесс оптимизации трехмерного гауссовского сплетения и обеспечиваем распространение градиента через репараметризацию. Для работы с заслоненными трехмерными гауссианами при воспроизведении из указанной точки зрения мы строим структуру на основе якорей и используем стратегию грубой и тонкой оптимизации, способную обрабатывать деформации на большие расстояния, сохраняя структурную стабильность. Кроме того, мы разрабатываем новую стратегию маскировки для адаптивной идентификации областей неригидных деформаций для моделирования мелкой детали. Обширные эксперименты демонстрируют эффективность нашего метода в обработке геометрических деталей, деформаций на большие расстояния и неригидных деформаций, показывая превосходную гибкость и качество редактирования по сравнению с предыдущими подходами.

PeriodWave: Многопериодное сопоставление потока для генерации волн высокой точности.
PeriodWave: Multi-Period Flow Matching for High-Fidelity Waveform Generation

Aug 14

BySang-Hoon Lee, Ha-Yeong Choi, Seong-Whan Lee

Недавно были исследованы задачи универсальной генерации волновых форм, условием для которых являются различные сценарии вне распределения. Хотя методы на основе GAN показали свою силу в быстрой генерации волновых форм, они уязвимы для сценариев несоответствия обучения и вывода, таких как двухэтапное преобразование текста в речь. Тем временем модели на основе диффузии продемонстрировали свою мощную генеративную производительность в других областях; однако они остаются в тени из-за медленной скорости вывода в задачах генерации волновых форм. Прежде всего, не существует архитектуры генератора, которая могла бы явно разделять естественные периодические особенности сигналов высокого разрешения волновых форм. В данной статье мы предлагаем PeriodWave, новую универсальную модель генерации волновых форм. Во-первых, мы представляем оценщик соответствия потоков, осведомленный о периодах, который может улавливать периодические особенности сигнала волновой формы при оценке векторных полей. Кроме того, мы используем мультипериодический оценщик, который избегает перекрытий для улавливания различных периодических особенностей сигналов волновых форм. Хотя увеличение количества периодов может значительно улучшить производительность, это требует больших вычислительных затрат. Для уменьшения этой проблемы мы также предлагаем универсальный оценщик, условием которого является один период, который может передаваться параллельно путем пакетного вывода по периодам. Кроме того, мы используем дискретное вейвлет-преобразование для без потерь разделения частотной информации сигналов волновых форм для моделирования высоких частот и представляем FreeU для уменьшения шума высоких частот при генерации волновых форм. Экспериментальные результаты показали, что наша модель превосходит предыдущие модели как в восстановлении мел-спектрограмм, так и в задачах текст в речь. Весь исходный код будет доступен по адресу https://github.com/sh-lee-prml/PeriodWave.

Переосмысление сегментации радиационных полей в трехмерном пространстве с открытым словарем
Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space

Aug 14

ByHyunjee Lee, Youngsik Yun, Jeongmin Bae, Seoha Kim, Youngjung Uh

Понимание семантики трехмерной сцены является фундаментальной проблемой для различных сценариев, таких как инкорпорированные агенты. В то время как NeRF и 3DGS отличаются в синтезе нового вида, предыдущие методы понимания их семантики ограничивались неполным трехмерным пониманием: их результаты сегментации представляют собой двумерные маски, и их надзор закреплен за двумерными пикселями. В данной статье пересматривается набор проблем для достижения лучшего трехмерного понимания сцены, моделированной NeRF и 3DGS, следуя следующим пунктам. 1) Мы напрямую надзираем трехмерные точки для обучения языкового встраивания. Это достигает передовой точности без использования многоуровневых языковых встраиваний. 2) Мы переносим предварительно обученное языковое поле на 3DGS, достигая первой скорости реального времени рендеринга без ущерба времени обучения или точности. 3) Мы вводим протокол трехмерного запроса и оценки для оценки восстановленной геометрии и семантики вместе. Код, контрольные точки и аннотации будут доступны онлайн. Страница проекта: https://hyunji12.github.io/Open3DRF

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Видение и Понимание: Связь Зрения с Химическим Знанием через ChemVLM
Seeing and Understanding: Bridging Vision with Chemical Knowledge Via ChemVLM

Aug 14

ByJunxian Li, Di Zhang, Xunzhi Wang, Zeying Hao, Jingdi Lei, Qian Tan, Cai Zhou, Wei Liu, Weiyun Wang, Zhe Chen, Wenhai Wang, Wei Li, Shufei Zhang, Mao Su, Wanli Ouyang, Yuqiang Li, Dongzhan Zhou