Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Сапиенс: основа для моделей человеческого зрения
Sapiens: Foundation for Human Vision Models

Aug 22

ByRawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito

Мы представляем Sapiens, семейство моделей для четырех фундаментальных задач компьютерного зрения, ориентированных на человека - оценка позы в 2D, сегментация частей тела, оценка глубины и предсказание нормалей поверхности. Наши модели нативно поддерживают вывод изображений высокого разрешения 1K и легко адаптируются для индивидуальных задач путем простого дообучения моделей, предварительно обученных на более чем 300 миллионах изображений людей в естественной среде. Мы замечаем, что при том же вычислительном бюджете предварительное обучение без учителя на отобранном наборе данных изображений людей значительно повышает производительность для разнообразных задач, связанных с человеком. Полученные модели проявляют замечательную обобщающую способность к данным из естественной среды, даже когда размеченные данные ограничены или полностью синтетические. Наш простой дизайн модели также обеспечивает масштабируемость - производительность модели по различным задачам улучшается при увеличении числа параметров с 0,3 до 2 миллиардов. Sapiens последовательно превосходит существующие базовые уровни по различным бенчмаркам, связанным с человеком. Мы достигаем значительных улучшений по сравнению с предыдущими достижениями на Humans-5K (поза) на 7,6 mAP, Humans-2K (сегментация частей) на 17,1 mIoU, Hi4D (глубина) на 22,4% относительной среднеквадратичной ошибке и THuman2 (нормали) на 53,5% относительной угловой ошибке.

Управляемая генерация текста для больших языковых моделей: обзор
Controllable Text Generation for Large Language Models: A Survey

Aug 22

ByXun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li

В обработке естественного языка (NLP) большие языковые модели (LLM) продемонстрировали высокое качество генерации текста. Однако в реальных приложениях LLM должны соответствовать все более сложным требованиям. Помимо избегания вводящего в заблуждение или неуместного контента, от LLM также ожидают, что они будут учитывать конкретные потребности пользователей, такие как имитация определенных стилей письма или генерация текста с поэтической насыщенностью. Эти разнообразные требования побудили развитие техник управляемой генерации текста (CTG), которые обеспечивают соблюдение заранее определенных условий управления - таких как безопасность, эмоциональная окраска, тематическая последовательность и лингвистический стиль - при сохранении высоких стандартов полезности, беглости и разнообразия. В данной статье систематически рассматриваются последние достижения в области CTG для LLM, предлагается комплексное определение его основных концепций и уточняются требования к условиям управления и качеству текста. Мы классифицируем задачи CTG на два основных типа: управление содержанием и управление атрибутами. Обсуждаются основные методы, включая переобучение модели, донастройку, обучение с подкреплением, инженерию подсказок, манипуляцию латентным пространством и вмешательство в процесс декодирования. Мы анализируем характеристики, преимущества и ограничения каждого метода, предоставляя тонкие исследования для достижения контроля над генерацией. Кроме того, мы рассматриваем методы оценки CTG, подводим итоги его применения в различных областях и рассматриваем ключевые проблемы в текущих исследованиях, включая снижение беглости и практичности. Мы также предлагаем несколько рекомендаций, таких как уделять большее внимание реальным приложениям в будущих исследованиях. Цель данной статьи - предложить ценное руководство исследователям и разработчикам в данной области. Наш список литературы и китайская версия доступны по ссылке https://github.com/IAAR-Shanghai/CTGSurvey.

Открытые мультимодальные крупномасштабные языковые модели Open-FinLLMs для финансовых приложений
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Aug 20

ByQianqian Xie, Dong Li, Mengxi Xiao, Zihao Jiang, Ruoyu Xiang, Xiao Zhang, Zhengyu Chen, Yueru He, Weiguang Han, Yuzhe Yang, Shunian Chen, Yifei Zhang, Lihang Shen, Daniel Kim, Zhiwei Liu, Zheheng Luo, Yangyang Yu, Yupeng Cao, Zhiyang Deng, Zhiyuan Yao, Haohang Li, Duanyu Feng, Yongfu Dai, VijayaSai Somasundaram, Peng Lu, Yilun Zhao, Yitao Long, Guojun Xiong, Kaleb Smith, Honghai Yu, Yanzhao Lai, Min Peng, Jianyun Nie, Jordan W. Suchow, Xiao-Yang Liu, Benyou Wang, Alejandro Lopez-Lira, Jimin Huang, Sophia Ananiadou

Большие языковые модели (LLM) нашли применение в финансовых приложениях, однако часто не обладают достаточными финансовыми знаниями и испытывают трудности с задачами, включающими мульти-модальные входные данные, такие как таблицы и временные ряды. Для преодоления этих ограничений мы представляем Open-FinLLM, серию финансовых LLM. Мы начинаем с FinLLaMA, предварительно обученной на 52 миллиардах токенов финансового корпуса, включающей текст, таблицы и временные ряды для внедрения всесторонних финансовых знаний. Затем FinLLaMA инструкционно донастраивается с использованием 573 тыс. финансовых инструкций, что приводит к FinLLaMA-instruct, улучшающей производительность задач. Наконец, мы представляем FinLLaVA, мульти-модальную LLM, обученную на 1,43 млн инструкций изображение-текст для работы с различными типами финансовых данных. Обширные оценки демонстрируют превосходную производительность FinLLaMA по сравнению с LLaMA3-8B, LLaMA3.1-8B и BloombergGPT как в нулевых, так и в ограниченных сеттингах на 19 и 4 наборах данных соответственно. FinLLaMA-instruct превосходит GPT-4 и другие финансовые LLM на 15 наборах данных. FinLLaVA отличается в понимании таблиц и графиков в рамках 4 мульти-модальных задач. Кроме того, FinLLaMA достигает впечатляющих коэффициентов Шарпа в торговых симуляциях, подчеркивая ее надежные финансовые возможности применения. Мы будем постоянно поддерживать и улучшать наши модели и бенчмарки для поддержки непрерывного инновационного процесса в академии и индустрии.

Технический отчет Hermes 3
Hermes 3 Technical Report

Aug 15

ByRyan Teknium, Jeffrey Quesnelle, Chen Guang

Настроенные модели с инструкциями (или "чат") стали основным способом взаимодействия большинства людей с большими языковыми моделями. В отличие от "базовых" или "основных" моделей, настроенные модели с инструкциями оптимизированы для реагирования на повелительные высказывания. Мы представляем Hermes 3, универсальную модель для инструкций и использования инструментов с сильными способностями к рассуждениям и творчеству. Ее самая крупная версия, Hermes 3 405B, достигает современного уровня производительности среди открытых моделей на нескольких общедоступных бенчмарках.

Шоу-о: Один Общий Трансформер для Объединения Мультимодального Понимания и Генерации
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Aug 22

ByJinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou

Мы представляем объединенный трансформер, то есть Show-o, который объединяет мультимодальное понимание и генерацию. В отличие от полностью авторегрессивных моделей, Show-o объединяет авторегрессию и (дискретное) моделирование диффузии для адаптивной обработки входов и выходов различных и смешанных модальностей. Объединенная модель гибко поддерживает широкий спектр задач видео-языкового взаимодействия, включая визуальный вопросно-ответный формат, генерацию текста в изображение, текстово-управляемое восстановление/экстраполяцию и генерацию смешанных модальностей. На различных бенчмарках она демонстрирует сравнимую или превосходящую производительность по сравнению с существующими индивидуальными моделями с эквивалентным или большим количеством параметров, настроенных на понимание или генерацию. Это значительно подчеркивает ее потенциал как модели основания следующего поколения. Код и модели доступны по ссылке https://github.com/showlab/Show-o.

xGen-VideoSyn-1: Синтез видео из текста высокой точности с сжатыми представлениями
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Aug 22

ByCan Qin, Congying Xia, Krithika Ramakrishnan, Michael Ryoo, Lifu Tu, Yihao Feng, Manli Shu, Honglu Zhou, Anas Awadalla, Jun Wang, Senthil Purushwalkam, Le Xue, Yingbo Zhou, Huan Wang, Silvio Savarese, Juan Carlos Niebles, Zeyuan Chen, Ran Xu, Caiming Xiong

Мы представляем xGen-VideoSyn-1, модель генерации видео из текста (T2V), способную создавать реалистичные сцены по текстовым описаниям. Основываясь на недавних достижениях, таких как Sora от OpenAI, мы исследуем архитектуру модели латентной диффузии (LDM) и представляем видео вариационный автокодировщик (VidVAE). VidVAE сжимает видеоданные как пространственно, так и временно, значительно уменьшая длину визуальных токенов и вычислительные затраты, связанные с генерацией видеороликов длинной последовательности. Для дальнейшего снижения вычислительных затрат мы предлагаем стратегию разделения и объединения, которая поддерживает временную последовательность в видеосегментах. Наша модель Диффузионного Трансформера (DiT) включает слои пространственного и временного самовнимания, обеспечивая надежную обобщенность по разным временным интервалам и соотношениям сторон. Мы разработали конвейер обработки данных с самого начала и собрали более 13 млн пар видео-текст высокого качества. Конвейер включает несколько этапов, таких как обрезка, обнаружение текста, оценка движения, оценка эстетики и плотное описывание на основе нашей модели видео-LLM. Обучение моделей VidVAE и DiT потребовало примерно 40 и 642 дней H100 соответственно. Наша модель поддерживает генерацию видео 720p продолжительностью более 14 секунд в едином процессе и демонстрирует конкурентоспособную производительность по сравнению с передовыми моделями T2V.

Jamba-1.5: Гибридные модели трансформера-Mamba масштаба
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Aug 22

ByJamba Team, Barak Lenz, Alan Arazi, Amir Bergman, Avshalom Manevich, Barak Peleg, Ben Aviram, Chen Almagor, Clara Fridman, Dan Padnos, Daniel Gissin, Daniel Jannai, Dor Muhlgay, Dor Zimberg, Edden M Gerber, Elad Dolev, Eran Krakovsky, Erez Safahi, Erez Schwartz, Gal Cohen, Gal Shachaf, Haim Rozenblum, Hofit Bata, Ido Blass, Inbal Magar, Itay Dalmedigos, Jhonathan Osin, Julie Fadlon, Maria Rozman, Matan Danos, Michael Gokhman, Mor Zusman, Naama Gidron, Nir Ratner, Noam Gat, Noam Rozen, Oded Fried, Ohad Leshno, Omer Antverg, Omri Abend, Opher Lieber, Or Dagan, Orit Cohavi, Raz Alon, Ro'i Belson, Roi Cohen, Rom Gilad, Roman Glozman, Shahar Lev, Shaked Meirom, Tal Delbari, Tal Ness, Tomer Asida, Tom Ben Gal, Tom Braude, Uriya Pumerantz, Yehoshua Cohen, Yonatan Belinkov, Yuval Globerson, Yuval Peleg Levy, Yoav Shoham

Мы представляем Jamba-1.5, новые модели языков на основе инструкций, оптимизированные под нашу архитектуру Jamba. Jamba представляет собой гибридную архитектуру экспертов Transformer-Mamba, обеспечивающую высокую пропускную способность и низкое использование памяти при различных длинах контекста, сохраняя при этом такое же или даже лучшее качество по сравнению с моделями Transformer. Мы выпустили два размера моделей: Jamba-1.5-Large с 94 миллиардами активных параметров и Jamba-1.5-Mini с 12 миллиардами активных параметров. Обе модели были донастроены для различных разговорных и инструкционных возможностей и имеют эффективную длину контекста в 256 тысяч токенов, что является самым большим среди моделей с открытым весом. Для поддержки экономичного вывода мы представляем ExpertsInt8, новую технику квантования, позволяющую разместить модель Jamba-1.5-Large на машине с 8 GPU объемом 80 ГБ при обработке контекстов из 256 тысяч токенов без потери качества. При оценке на ряде академических и бенчмарков чат-ботов модели Jamba-1.5 показывают отличные результаты, обеспечивая высокую пропускную способность и превосходя другие модели с открытым весом на бенчмарках с длинным контекстом. Веса моделей обоих размеров доступны публично в соответствии с лицензией Jamba Open Model, а ExpertsInt8 мы выпускаем как открытый исходный код.

DreamCinema: Кинематографический перенос с свободной камерой и 3D-персонажем
DreamCinema: Cinematic Transfer with Free Camera and 3D Character

Aug 22

ByWeiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Haixu Song, Yueqi Duan

Мы живем в процветающую эпоху цифровых медиа, где каждый имеет потенциал стать личным кинорежиссером. Текущие исследования по кинематографическому трансферу дает возможность кинорежиссерам воспроизводить и манипулировать визуальными элементами (например, кинематографией и поведением персонажей) из классических сцен. Однако персонажи в переосмысленных фильмах все еще требуют ручной работы, что включает значительную техническую сложность и высокие затраты, делая это недоступным для обычных пользователей. Более того, их оцененная кинематография лишена плавности из-за недостаточного захвата межкадрового движения и моделирования физических траекторий. К счастью, выдающийся успех 2D и 3D AIGC открыл возможность эффективного создания персонажей, адаптированных к потребностям пользователей, разнообразия кинематографии. В данной статье мы предлагаем DreamCinema, новую кинематографическую платформу, которая внедряет генеративное искусственное интеллекта в парадигму кино-производства, нацеленную на облегчение создания фильмов для пользователей. Конкретно, мы сначала извлекаем кинематографические элементы (т.е. позы человека и камеры) и оптимизируем траекторию камеры. Затем мы применяем генератор персонажей для эффективного создания 3D-персонажей высокого качества с человеческой структурой. Наконец, мы разрабатываем стратегию передачи движения с управляемой структурой для интеграции созданных персонажей в создание фильма и плавную передачу его через 3D-графические движки. Обширные эксперименты демонстрируют эффективность нашего метода для создания высококачественных фильмов с свободной камерой и 3D-персонажами.

Исследование векторных представлений с фокусом на русском языке: бенчмарк ruMTEB и разработка модели векторного представления для русского языка
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

Aug 22

ByArtem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov

Модели встраивания играют ключевую роль в обработке естественного языка (Natural Language Processing, NLP), создавая текстовые встраивания, используемые в различных задачах, таких как информационный поиск и оценка семантической близости текста. Данный доклад сосредотачивается на исследованиях, связанных с моделями встраивания в русском языке. Он представляет новую модель встраивания, сосредоточенную на русском языке, под названием ru-en-RoSBERTa, а также бенчмарк ruMTEB, русскую версию расширения Massive Text Embedding Benchmark (MTEB). Наш бенчмарк включает семь категорий задач, таких как семантическая текстовая близость, классификация текста, переранжирование и поиск. Исследование также оценивает представительный набор русских и мультиязычных моделей на предложенном бенчмарке. Полученные результаты показывают, что новая модель достигает результатов, сравнимых с передовыми моделями в русском языке. Мы выпускаем модель ru-en-RoSBERTa, и фреймворк ruMTEB поставляется с открытым исходным кодом, интеграцией в оригинальный фреймворк и публичным рейтингом.

Масштабируемая авторегрессионная генерация изображений с помощью Mamba.
Scalable Autoregressive Image Generation with Mamba

Aug 22

ByHaopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li

Мы представляем AiM, авторегрессивную (AR) генеративную модель изображений на основе архитектуры Mamba. AiM использует Mamba, новую модель пространства состояний, отличающуюся выдающейся производительностью в моделировании длинных последовательностей с линейной временной сложностью, чтобы заменить широко используемые трансформеры в моделях AR генерации изображений, нацеленных на достижение как превосходного качества генерации, так и улучшенной скорости вывода. В отличие от существующих методов, которые адаптируют Mamba для обработки двумерных сигналов с помощью многонаправленного сканирования, AiM непосредственно использует парадигму предсказания следующего токена для авторегрессивной генерации изображений. Этот подход обходит необходимость в обширных модификациях для обучения Mamba пространственным представлениям в 2D. Путем внедрения простых, но стратегически целенаправленных модификаций для визуальных генеративных задач мы сохраняем основную структуру Mamba, полностью используя его эффективные возможности моделирования длинных последовательностей и масштабируемость. Мы предоставляем модели AiM в различных масштабах с количеством параметров от 148 миллионов до 1.3 миллиарда. На тесте ImageNet1K 256*256 наша лучшая модель AiM достигает значения FID 2.21, превосходя все существующие AR модели с сопоставимым количеством параметров и демонстрируя значительную конкурентоспособность по сравнению с моделями диффузии, обеспечивая скорость вывода в 2-10 раз выше. Код доступен по ссылке https://github.com/hp-l33/AiM

Vintern-1B: Эффективная мультимодальная крупномасштабная языковая модель для вьетнамского языка
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Aug 22

ByKhang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang

В данном отчете мы представляем Vintern-1B - надежную многомодельную крупную языковую модель (MLLM) с миллиардом параметров для вьетнамских языковых задач. Интегрируя языковую модель Qwen2-0.5B-Instruct с визуальной моделью InternViT-300M-448px, Vintern-1B оптимизирован для широкого спектра приложений, включая оптическое распознавание символов (OCR), извлечение документов и общий вопросно-ответный анализ во вьетнамском контексте. Модель донастроена на обширном наборе данных из более чем 3 миллионов пар изображение-вопрос-ответ, достигая надежного качества и результатов на различных вьетнамских языковых бенчмарках, таких как OpenViVQA и ViTextVQA. Vintern-1B достаточно компактен для легкой интеграции в различные приложения на устройствах. Кроме того, мы опубликовали несколько вьетнамских наборов данных для вопросов и ответов на изображения (VQA) для текста и диаграмм, созданных с помощью Gemini 1.5 Flash. Наши модели доступны по адресу: https://huggingface.co/5CD-AI/Vintern-1B-v2.

Генерация видео в реальном времени с использованием пирамидального внимания вещания.
Real-Time Video Generation with Pyramid Attention Broadcast

Aug 22

ByXuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You

Мы представляем Пирамидальное Внимание Распространения (PAB), метод в реальном времени, высокого качества и не требующий обучения для генерации видео на основе Диффузии Трансформации. Наш метод основан на наблюдении, что различие внимания в процессе диффузии проявляет участок в форме буквы U, указывающий на значительную избыточность. Мы уменьшаем это, транслируя выходы внимания на последующие шаги в пирамидальном стиле. Применяются различные стратегии трансляции для каждого внимания на основе их дисперсии для наилучшей эффективности. Мы также вводим параллельную последовательность трансляции для более эффективного распределенного вывода. PAB демонстрирует превосходные результаты по сравнению с базовыми моделями на трех моделях, достигая генерации видео в реальном времени до разрешения 720p. Мы предвидим, что наш простой, но эффективный метод послужит надежным базовым уровнем и способствует будущим исследованиям и применениям в области генерации видео.

SPARK: Многовидовой датчик восприятия и бенчмарк рассуждений для Моделей видео-языкового восприятия большого масштаба
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Aug 22

ByYoungjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro

Модели видео-языкового взаимодействия большого масштаба (LVLMs) значительно продвинулись с вводом текста, согласованного с изображениями. Они сделали заметные успехи в задачах компьютерного зрения, выстраивая соответствие между текстовым модальным и визуальным вводом. Также предпринимаются попытки интегрировать мульти-визионные датчики помимо RGB, включая тепловые, глубинные и медицинские рентгеновские изображения. Однако мы наблюдаем, что текущие LVLMs рассматривают изображения, полученные с мульти-визионных датчиков, как будто они находятся в одной и той же RGB области, не учитывая физические характеристики мульти-визионных датчиков. Они не передают фундаментальную информацию о мульти-визионных датчиках из набора данных и соответствующие контекстные знания должным образом. В результате, соответствие между информацией из реальной физической среды и текстом не достигается правильно, что затрудняет ответ на сложные вопросы, связанные с датчиками, учитывающие физическую среду. В данной статье мы стремимся создать бенчмарк восприятия и рассуждения мульти-визионных датчиков под названием SPARK, который может сократить фундаментальный разрыв информации о мульти-визионных датчиках между изображениями и мульти-визионными датчиками. Мы автоматически сгенерировали 6 248 тестовых образцов видео-языкового взаимодействия для исследования восприятия мульти-визионных датчиков и рассуждения на основе физических знаний о датчиках в различных форматах, охватывающих различные типы вопросов, связанных с датчиками. Мы использовали эти образцы для оценки десяти ведущих LVLMs. Результаты показали, что большинство моделей проявляют недостатки в рассуждениях о мульти-визионных датчиках в различной степени. Коды и данные доступны по ссылке https://github.com/top-yun/SPARK

Стратег: Обучение стратегическим навыкам с помощью LLMs через двухуровневый поиск по дереву.
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Aug 20

ByJonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu

В данной статье мы предлагаем новый метод Strategist, который использует LLM для приобретения новых навыков в играх с несколькими агентами через процесс самосовершенствования. Наш метод собирает качественную обратную связь через симуляции самоигры с поиском по дереву методом Монте-Карло и LLM-основанным отражением, которая затем может быть использована для изучения стратегических навыков высокого уровня, таких как оценка состояний, которая направляет выполнение низкоуровневых действий. Мы демонстрируем, как наш метод может быть использован как в планировании действий, так и в генерации диалогов в контексте игр, достигая хороших результатов в обеих задачах. Конкретно, мы показываем, что наш метод может помочь обучить агентов с лучшей производительностью, чем традиционные подходы на основе обучения с подкреплением и другие подходы к изучению навыков на основе LLM в играх, включая Игру Чистой Стратегии (GOPS) и Сопротивление: Авалон.

SEA: Надзорное выравнивание вложений для интеграции визуально-текстового уровня токенов в мультимодельных языковых моделях.
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Aug 21

ByYuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang

Недавно мультимодальные модели больших языков (MLLM) продемонстрировали замечательные восприимчивые и рассуждающие способности, обычно включающие в себя Визуальный Кодировщик, Адаптер и Большую Языковую Модель (LLM). Адаптер служит важным мостом между визуальными и языковыми компонентами. Однако обучение адаптеров с наблюдением на уровне изображения часто приводит к значительному несоответствию, подрывая возможности LLM и ограничивая потенциал мультимодальных LLM. Для решения этой проблемы мы представляем метод Наблюдаемого Выравнивания Вложений (SEA), который выравнивает токены на уровне токенов, используя предварительно обученные модели видео-языка, такие как CLIP, для выравнивания визуальных токенов с пространством вложений LLM через контрастное обучение. Этот подход обеспечивает более согласованное интегрирование визуальных и языковых представлений, улучшая производительность и интерпретируемость мультимодальных LLM, сохраняя их врожденные возможности. Обширные эксперименты показывают, что SEA эффективно улучшает MLLM, особенно для более маленьких моделей, без добавления дополнительных данных или вычислений вывода. SEA также заложил основу для разработки более общих и адаптируемых решений для улучшения мультимодальных систем.

ConflictBank: Набор данных для оценки влияния конфликтов знаний в моделях языкового моделирования с ограниченной памятью.
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM

Aug 22

ByZhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng

Большие языковые модели (LLM) достигли впечатляющих прорывов во многих областях, однако критически важный вопрос конфликтов знаний, являющийся основным источником галлюцинаций, редко изучался. Только несколько исследований занимались конфликтами между врожденным знанием LLM и извлеченным контекстуальным знанием. Тем не менее, полноценная оценка конфликтов знаний в LLM все еще отсутствует. Вдохновленные этим исследовательским пробелом, мы представляем ConflictBank, первый комплексный бенчмарк, разработанный для систематической оценки конфликтов знаний с трех точек зрения: (i) конфликты, возникающие в извлеченном знании, (ii) конфликты в закодированном знании моделей и (iii) взаимодействие между этими формами конфликтов. Наше исследование углубляется в четыре семейства моделей и двенадцать экземпляров LLM, тщательно анализируя конфликты, происходящие из дезинформации, временных расхождений и семантических расхождений. Основываясь на нашей предложенной новой конструктивной структуре, мы создаем 7 453 853 пары утверждение-доказательство и 553 117 пар вопрос-ответ. Мы представляем множество результатов о масштабе модели, причинах конфликтов и типах конфликтов. Мы надеемся, что наш бенчмарк ConflictBank поможет сообществу лучше понять поведение модели в конфликтах и разработать более надежные LLM.

Anim-Director: Большая мультимодальная модель для создания видеоанимации с возможностью управления
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

Aug 19

ByYunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang

Традиционные методы генерации анимации зависят от обучения генеративных моделей с помощью данных, размеченных людьми, что требует сложного многоэтапного конвейера, требующего значительных усилий человека и связанных с ним высоких затрат на обучение. Из-за ограниченных планов подсказок эти методы обычно создают краткие, бедные информацией и контекстно несвязанные анимации. Для преодоления этих ограничений и автоматизации процесса создания анимации мы вводим новшество - использование больших мультимодальных моделей (LMM) в качестве основного процессора для создания автономного агента по созданию анимации, названного Аним-Директор. Этот агент в основном использует продвинутые возможности понимания и рассуждения LMM и генеративных инструментов искусственного интеллекта для создания анимированных видео на основе кратких повествований или простых инструкций. Конкретно, он работает в трех основных этапах: Во-первых, Аним-Директор создает последовательный сюжет из пользовательских вводов, за которым следует подробный сценарий режиссера, включающий настройки профилей персонажей и описания интерьеров/экстерьеров, а также контекстно-связанные описания сцен, включающие появляющихся персонажей, интерьеры или экстерьеры и события сцены. Во-вторых, мы используем LMM с инструментом генерации изображений для создания визуальных изображений настроек и сцен. Эти изображения разрабатываются для поддержания визуальной согласованности между различными сценами с использованием метода подсказки на визуальном языке, который объединяет описания сцен и изображения появляющегося персонажа и настройки. В-третьих, изображения сцен служат основой для создания анимированных видео, при этом LMM генерирует подсказки для направления этого процесса. Весь процесс является автономным без ручного вмешательства, поскольку LMM взаимодействует плавно с генеративными инструментами для создания подсказок, оценки визуального качества и выбора лучшего для оптимизации конечного результата.

Видео-Фоли: Генерация звука по видео в два этапа с использованием временного события для звука Фоли
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

Aug 21

ByJunwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam

Синтез фолиевского звука имеет важное значение для производства мультимедиа, улучшая пользовательский опыт путем синхронизации аудио и видео как временно, так и семантически. Недавние исследования по автоматизации этого трудоемкого процесса через генерацию звука по видео сталкиваются с существенными проблемами. Системы, не имеющие явных временных характеристик, страдают от плохой управляемости и выравнивания, в то время как модели на основе временных меток требуют дорогостоящей и субъективной аннотации человеком. Мы предлагаем Video-Foley, систему видео-в-звук, использующую среднеквадратичное отклонение (RMS) в качестве условия временного события с семантическими подсказками тембра (аудио или текста). RMS, характеристика интенсивности на уровне кадра, тесно связанная с аудио-семантикой, обеспечивает высокую управляемость и синхронизацию. Фреймворк самообучения без аннотации состоит из двух этапов, Video2RMS и RMS2Sound, включающих новые идеи, включая дискретизацию RMS и RMS-ControlNet с предварительно обученной моделью текст-в-аудио. Наше обширное оценивание показывает, что Video-Foley достигает передового качества в аудио-визуальном выравнивании и управляемости для времени звука, интенсивности, тембра и нюансов. Код, веса модели и демонстрации доступны на сопутствующем веб-сайте. (https://jnwnlee.github.io/video-foley-demo)

Подповерхностное рассеяние для трехмерного гауссовского сплэтинга
Subsurface Scattering for 3D Gaussian Splatting

Aug 22

ByJan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch

Реконструкция и переосвещение трехмерных объектов, изготовленных из рассеивающих материалов, представляют существенное вызов из-за сложного переноса света под поверхностью. 3D Гауссово сглаживание представляет собой высококачественный метод синтеза нового вида в реальном времени. В то время как 3D Гауссианы эффективно аппроксимируют поверхность объекта, они не учитывают объемные свойства подповерхностного рассеивания. Мы предлагаем фреймворк для оптимизации формы объекта вместе с полем передачи радиации, учитывая многовидовые данные OLAT (один источник света за раз). Наш метод декомпозирует сцену на явную поверхность, представленную в виде 3D Гауссиан, с пространственно изменяющимся BRDF, и неявное объемное представление рассеивающего компонента. Обученное поле падающего света учитывает затенение. Мы оптимизируем все параметры совместно с помощью трассировки лучей и дифференцируемого рендеринга. Наш подход позволяет редактировать материалы, переосвещать и синтезировать новый вид с интерактивной скоростью. Мы продемонстрировали успешное применение на синтетических данных и представили недавно полученный многовидовой многосветовой набор данных объектов в установке световой сцены. По сравнению с предыдущими работами, мы достигаем сравнимых или лучших результатов за долю времени оптимизации и рендеринга, обеспечивая при этом детальный контроль над атрибутами материала. Страница проекта: https://sss.jdihlmann.com/

Проверка фактов на основе доказательств с использованием RAG и обучения с малым количеством примеров в контексте с LLM.
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

Aug 22

ByRonit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das

Учитывая широкое распространение дезинформации в социальных сетях, внедрение механизмов факт-чекинга для онлайн утверждений является необходимым. Ручная проверка каждого утверждения представляет собой значительное испытание, что подчеркивает необходимость автоматизированной системы факт-чекинга. В данной статье представлена наша система, разработанная для решения этой проблемы. Мы используем набор данных Averitec для оценки достоверности утверждений. Помимо прогнозирования достоверности, наша система предоставляет подтверждающие данные, извлеченные из набора данных. Мы разработали конвейер Retrieve and Generate (RAG) для извлечения соответствующих предложений-доказательств из базы знаний, которые затем вводятся вместе с утверждением в большую языковую модель (LLM) для классификации. Мы также оцениваем возможности многократного обучения в контексте (ICL) нескольких LLM. Наша система достигает показателя 'Averitec' в 0.33, что составляет улучшение на 22% по сравнению с базовым уровнем. Весь код будет доступен на https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Сапиенс: основа для моделей человеческого зрения
Sapiens: Foundation for Human Vision Models

Aug 22

ByRawal Khirodkar, Timur Bagautdinov, Julieta Martinez, Su Zhaoen, Austin James, Peter Selednik, Stuart Anderson, Shunsuke Saito

Управляемая генерация текста для больших языковых моделей: обзор
Controllable Text Generation for Large Language Models: A Survey

Aug 22

ByXun Liang, Hanyu Wang, Yezhaohui Wang, Shichao Song, Jiawei Yang, Simin Niu, Jie Hu, Dan Liu, Shunyu Yao, Feiyu Xiong, Zhiyu Li

Открытые мультимодальные крупномасштабные языковые модели Open-FinLLMs для финансовых приложений
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Aug 20

Технический отчет Hermes 3
Hermes 3 Technical Report

Aug 15

ByRyan Teknium, Jeffrey Quesnelle, Chen Guang

Шоу-о: Один Общий Трансформер для Объединения Мультимодального Понимания и Генерации
Show-o: One Single Transformer to Unify Multimodal Understanding and Generation

Aug 22

ByJinheng Xie, Weijia Mao, Zechen Bai, David Junhao Zhang, Weihao Wang, Kevin Qinghong Lin, Yuchao Gu, Zhijie Chen, Zhenheng Yang, Mike Zheng Shou

xGen-VideoSyn-1: Синтез видео из текста высокой точности с сжатыми представлениями
xGen-VideoSyn-1: High-fidelity Text-to-Video Synthesis with Compressed Representations

Aug 22

Jamba-1.5: Гибридные модели трансформера-Mamba масштаба
Jamba-1.5: Hybrid Transformer-Mamba Models at Scale

Aug 22

DreamCinema: Кинематографический перенос с свободной камерой и 3D-персонажем
DreamCinema: Cinematic Transfer with Free Camera and 3D Character

Aug 22

ByWeiliang Chen, Fangfu Liu, Diankun Wu, Haowen Sun, Haixu Song, Yueqi Duan

Исследование векторных представлений с фокусом на русском языке: бенчмарк ruMTEB и разработка модели векторного представления для русского языка
The Russian-focused embedders' exploration: ruMTEB benchmark and Russian embedding model design

Aug 22

ByArtem Snegirev, Maria Tikhonova, Anna Maksimova, Alena Fenogenova, Alexander Abramov

Масштабируемая авторегрессионная генерация изображений с помощью Mamba.
Scalable Autoregressive Image Generation with Mamba

Aug 22

ByHaopeng Li, Jinyue Yang, Kexin Wang, Xuerui Qiu, Yuhong Chou, Xin Li, Guoqi Li

Vintern-1B: Эффективная мультимодальная крупномасштабная языковая модель для вьетнамского языка
Vintern-1B: An Efficient Multimodal Large Language Model for Vietnamese

Aug 22

ByKhang T. Doan, Bao G. Huynh, Dung T. Hoang, Thuc D. Pham, Nhat H. Pham, Quan T. M. Nguyen, Bang Q. Vo, Suong N. Hoang

Генерация видео в реальном времени с использованием пирамидального внимания вещания.
Real-Time Video Generation with Pyramid Attention Broadcast

Aug 22

ByXuanlei Zhao, Xiaolong Jin, Kai Wang, Yang You

SPARK: Многовидовой датчик восприятия и бенчмарк рассуждений для Моделей видео-языкового восприятия большого масштаба
SPARK: Multi-Vision Sensor Perception and Reasoning Benchmark for Large-scale Vision-Language Models

Aug 22

ByYoungjoon Yu, Sangyun Chung, Byung-Kwan Lee, Yong Man Ro

Стратег: Обучение стратегическим навыкам с помощью LLMs через двухуровневый поиск по дереву.
Strategist: Learning Strategic Skills by LLMs via Bi-Level Tree Search

Aug 20

ByJonathan Light, Min Cai, Weiqin Chen, Guanzhi Wang, Xiusi Chen, Wei Cheng, Yisong Yue, Ziniu Hu

SEA: Надзорное выравнивание вложений для интеграции визуально-текстового уровня токенов в мультимодельных языковых моделях.
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

Aug 21

ByYuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang

ConflictBank: Набор данных для оценки влияния конфликтов знаний в моделях языкового моделирования с ограниченной памятью.
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM

Aug 22

ByZhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng

Anim-Director: Большая мультимодальная модель для создания видеоанимации с возможностью управления
Anim-Director: A Large Multimodal Model Powered Agent for Controllable Animation Video Generation

Aug 19

ByYunxin Li, Haoyuan Shi, Baotian Hu, Longyue Wang, Jiashun Zhu, Jinyi Xu, Zhen Zhao, Min Zhang

Видео-Фоли: Генерация звука по видео в два этапа с использованием временного события для звука Фоли
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

Aug 21

ByJunwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam

Подповерхностное рассеяние для трехмерного гауссовского сплэтинга
Subsurface Scattering for 3D Gaussian Splatting

Aug 22

ByJan-Niklas Dihlmann, Arjun Majumdar, Andreas Engelhardt, Raphael Braun, Hendrik P. A. Lensch

Проверка фактов на основе доказательств с использованием RAG и обучения с малым количеством примеров в контексте с LLM.
Evidence-backed Fact Checking using RAG and Few-Shot In-Context Learning with LLMs

Aug 22

ByRonit Singhal, Pransh Patwa, Parth Patwa, Aman Chadha, Amitava Das