Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Sapiens, семейство моделей для четырех фундаментальных задач компьютерного зрения, ориентированных на человека - оценка позы в 2D, сегментация частей тела, оценка глубины и предсказание нормалей поверхности. Наши модели нативно поддерживают вывод изображений высокого разрешения 1K и легко адаптируются для индивидуальных задач путем простого дообучения моделей, предварительно обученных на более чем 300 миллионах изображений людей в естественной среде. Мы замечаем, что при том же вычислительном бюджете предварительное обучение без учителя на отобранном наборе данных изображений людей значительно повышает производительность для разнообразных задач, связанных с человеком. Полученные модели проявляют замечательную обобщающую способность к данным из естественной среды, даже когда размеченные данные ограничены или полностью синтетические. Наш простой дизайн модели также обеспечивает масштабируемость - производительность модели по различным задачам улучшается при увеличении числа параметров с 0,3 до 2 миллиардов. Sapiens последовательно превосходит существующие базовые уровни по различным бенчмаркам, связанным с человеком. Мы достигаем значительных улучшений по сравнению с предыдущими достижениями на Humans-5K (поза) на 7,6 mAP, Humans-2K (сегментация частей) на 17,1 mIoU, Hi4D (глубина) на 22,4% относительной среднеквадратичной ошибке и THuman2 (нормали) на 53,5% относительной угловой ошибке.
В обработке естественного языка (NLP) большие языковые модели (LLM) продемонстрировали высокое качество генерации текста. Однако в реальных приложениях LLM должны соответствовать все более сложным требованиям. Помимо избегания вводящего в заблуждение или неуместного контента, от LLM также ожидают, что они будут учитывать конкретные потребности пользователей, такие как имитация определенных стилей письма или генерация текста с поэтической насыщенностью. Эти разнообразные требования побудили развитие техник управляемой генерации текста (CTG), которые обеспечивают соблюдение заранее определенных условий управления - таких как безопасность, эмоциональная окраска, тематическая последовательность и лингвистический стиль - при сохранении высоких стандартов полезности, беглости и разнообразия. В данной статье систематически рассматриваются последние достижения в области CTG для LLM, предлагается комплексное определение его основных концепций и уточняются требования к условиям управления и качеству текста. Мы классифицируем задачи CTG на два основных типа: управление содержанием и управление атрибутами. Обсуждаются основные методы, включая переобучение модели, донастройку, обучение с подкреплением, инженерию подсказок, манипуляцию латентным пространством и вмешательство в процесс декодирования. Мы анализируем характеристики, преимущества и ограничения каждого метода, предоставляя тонкие исследования для достижения контроля над генерацией. Кроме того, мы рассматриваем методы оценки CTG, подводим итоги его применения в различных областях и рассматриваем ключевые проблемы в текущих исследованиях, включая снижение беглости и практичности. Мы также предлагаем несколько рекомендаций, таких как уделять большее внимание реальным приложениям в будущих исследованиях. Цель данной статьи - предложить ценное руководство исследователям и разработчикам в данной области. Наш список литературы и китайская версия доступны по ссылке https://github.com/IAAR-Shanghai/CTGSurvey.
Большие языковые модели (LLM) нашли применение в финансовых приложениях, однако часто не обладают достаточными финансовыми знаниями и испытывают трудности с задачами, включающими мульти-модальные входные данные, такие как таблицы и временные ряды. Для преодоления этих ограничений мы представляем Open-FinLLM, серию финансовых LLM. Мы начинаем с FinLLaMA, предварительно обученной на 52 миллиардах токенов финансового корпуса, включающей текст, таблицы и временные ряды для внедрения всесторонних финансовых знаний. Затем FinLLaMA инструкционно донастраивается с использованием 573 тыс. финансовых инструкций, что приводит к FinLLaMA-instruct, улучшающей производительность задач. Наконец, мы представляем FinLLaVA, мульти-модальную LLM, обученную на 1,43 млн инструкций изображение-текст для работы с различными типами финансовых данных. Обширные оценки демонстрируют превосходную производительность FinLLaMA по сравнению с LLaMA3-8B, LLaMA3.1-8B и BloombergGPT как в нулевых, так и в ограниченных сеттингах на 19 и 4 наборах данных соответственно. FinLLaMA-instruct превосходит GPT-4 и другие финансовые LLM на 15 наборах данных. FinLLaVA отличается в понимании таблиц и графиков в рамках 4 мульти-модальных задач. Кроме того, FinLLaMA достигает впечатляющих коэффициентов Шарпа в торговых симуляциях, подчеркивая ее надежные финансовые возможности применения. Мы будем постоянно поддерживать и улучшать наши модели и бенчмарки для поддержки непрерывного инновационного процесса в академии и индустрии.
Настроенные модели с инструкциями (или "чат") стали основным способом взаимодействия большинства людей с большими языковыми моделями. В отличие от "базовых" или "основных" моделей, настроенные модели с инструкциями оптимизированы для реагирования на повелительные высказывания. Мы представляем Hermes 3, универсальную модель для инструкций и использования инструментов с сильными способностями к рассуждениям и творчеству. Ее самая крупная версия, Hermes 3 405B, достигает современного уровня производительности среди открытых моделей на нескольких общедоступных бенчмарках.
Мы представляем объединенный трансформер, то есть Show-o, который объединяет мультимодальное понимание и генерацию. В отличие от полностью авторегрессивных моделей, Show-o объединяет авторегрессию и (дискретное) моделирование диффузии для адаптивной обработки входов и выходов различных и смешанных модальностей. Объединенная модель гибко поддерживает широкий спектр задач видео-языкового взаимодействия, включая визуальный вопросно-ответный формат, генерацию текста в изображение, текстово-управляемое восстановление/экстраполяцию и генерацию смешанных модальностей. На различных бенчмарках она демонстрирует сравнимую или превосходящую производительность по сравнению с существующими индивидуальными моделями с эквивалентным или большим количеством параметров, настроенных на понимание или генерацию. Это значительно подчеркивает ее потенциал как модели основания следующего поколения. Код и модели доступны по ссылке https://github.com/showlab/Show-o.
Мы представляем xGen-VideoSyn-1, модель генерации видео из текста (T2V), способную создавать реалистичные сцены по текстовым описаниям. Основываясь на недавних достижениях, таких как Sora от OpenAI, мы исследуем архитектуру модели латентной диффузии (LDM) и представляем видео вариационный автокодировщик (VidVAE). VidVAE сжимает видеоданные как пространственно, так и временно, значительно уменьшая длину визуальных токенов и вычислительные затраты, связанные с генерацией видеороликов длинной последовательности. Для дальнейшего снижения вычислительных затрат мы предлагаем стратегию разделения и объединения, которая поддерживает временную последовательность в видеосегментах. Наша модель Диффузионного Трансформера (DiT) включает слои пространственного и временного самовнимания, обеспечивая надежную обобщенность по разным временным интервалам и соотношениям сторон. Мы разработали конвейер обработки данных с самого начала и собрали более 13 млн пар видео-текст высокого качества. Конвейер включает несколько этапов, таких как обрезка, обнаружение текста, оценка движения, оценка эстетики и плотное описывание на основе нашей модели видео-LLM. Обучение моделей VidVAE и DiT потребовало примерно 40 и 642 дней H100 соответственно. Наша модель поддерживает генерацию видео 720p продолжительностью более 14 секунд в едином процессе и демонстрирует конкурентоспособную производительность по сравнению с передовыми моделями T2V.
Мы представляем Jamba-1.5, новые модели языков на основе инструкций, оптимизированные под нашу архитектуру Jamba. Jamba представляет собой гибридную архитектуру экспертов Transformer-Mamba, обеспечивающую высокую пропускную способность и низкое использование памяти при различных длинах контекста, сохраняя при этом такое же или даже лучшее качество по сравнению с моделями Transformer. Мы выпустили два размера моделей: Jamba-1.5-Large с 94 миллиардами активных параметров и Jamba-1.5-Mini с 12 миллиардами активных параметров. Обе модели были донастроены для различных разговорных и инструкционных возможностей и имеют эффективную длину контекста в 256 тысяч токенов, что является самым большим среди моделей с открытым весом. Для поддержки экономичного вывода мы представляем ExpertsInt8, новую технику квантования, позволяющую разместить модель Jamba-1.5-Large на машине с 8 GPU объемом 80 ГБ при обработке контекстов из 256 тысяч токенов без потери качества. При оценке на ряде академических и бенчмарков чат-ботов модели Jamba-1.5 показывают отличные результаты, обеспечивая высокую пропускную способность и превосходя другие модели с открытым весом на бенчмарках с длинным контекстом. Веса моделей обоих размеров доступны публично в соответствии с лицензией Jamba Open Model, а ExpertsInt8 мы выпускаем как открытый исходный код.
Мы живем в процветающую эпоху цифровых медиа, где каждый имеет потенциал стать личным кинорежиссером. Текущие исследования по кинематографическому трансферу дает возможность кинорежиссерам воспроизводить и манипулировать визуальными элементами (например, кинематографией и поведением персонажей) из классических сцен. Однако персонажи в переосмысленных фильмах все еще требуют ручной работы, что включает значительную техническую сложность и высокие затраты, делая это недоступным для обычных пользователей. Более того, их оцененная кинематография лишена плавности из-за недостаточного захвата межкадрового движения и моделирования физических траекторий. К счастью, выдающийся успех 2D и 3D AIGC открыл возможность эффективного создания персонажей, адаптированных к потребностям пользователей, разнообразия кинематографии. В данной статье мы предлагаем DreamCinema, новую кинематографическую платформу, которая внедряет генеративное искусственное интеллекта в парадигму кино-производства, нацеленную на облегчение создания фильмов для пользователей. Конкретно, мы сначала извлекаем кинематографические элементы (т.е. позы человека и камеры) и оптимизируем траекторию камеры. Затем мы применяем генератор персонажей для эффективного создания 3D-персонажей высокого качества с человеческой структурой. Наконец, мы разрабатываем стратегию передачи движения с управляемой структурой для интеграции созданных персонажей в создание фильма и плавную передачу его через 3D-графические движки. Обширные эксперименты демонстрируют эффективность нашего метода для создания высококачественных фильмов с свободной камерой и 3D-персонажами.
Модели встраивания играют ключевую роль в обработке естественного языка (Natural Language Processing, NLP), создавая текстовые встраивания, используемые в различных задачах, таких как информационный поиск и оценка семантической близости текста. Данный доклад сосредотачивается на исследованиях, связанных с моделями встраивания в русском языке. Он представляет новую модель встраивания, сосредоточенную на русском языке, под названием ru-en-RoSBERTa, а также бенчмарк ruMTEB, русскую версию расширения Massive Text Embedding Benchmark (MTEB). Наш бенчмарк включает семь категорий задач, таких как семантическая текстовая близость, классификация текста, переранжирование и поиск. Исследование также оценивает представительный набор русских и мультиязычных моделей на предложенном бенчмарке. Полученные результаты показывают, что новая модель достигает результатов, сравнимых с передовыми моделями в русском языке. Мы выпускаем модель ru-en-RoSBERTa, и фреймворк ruMTEB поставляется с открытым исходным кодом, интеграцией в оригинальный фреймворк и публичным рейтингом.
Мы представляем AiM, авторегрессивную (AR) генеративную модель изображений на основе архитектуры Mamba. AiM использует Mamba, новую модель пространства состояний, отличающуюся выдающейся производительностью в моделировании длинных последовательностей с линейной временной сложностью, чтобы заменить широко используемые трансформеры в моделях AR генерации изображений, нацеленных на достижение как превосходного качества генерации, так и улучшенной скорости вывода. В отличие от существующих методов, которые адаптируют Mamba для обработки двумерных сигналов с помощью многонаправленного сканирования, AiM непосредственно использует парадигму предсказания следующего токена для авторегрессивной генерации изображений. Этот подход обходит необходимость в обширных модификациях для обучения Mamba пространственным представлениям в 2D. Путем внедрения простых, но стратегически целенаправленных модификаций для визуальных генеративных задач мы сохраняем основную структуру Mamba, полностью используя его эффективные возможности моделирования длинных последовательностей и масштабируемость. Мы предоставляем модели AiM в различных масштабах с количеством параметров от 148 миллионов до 1.3 миллиарда. На тесте ImageNet1K 256*256 наша лучшая модель AiM достигает значения FID 2.21, превосходя все существующие AR модели с сопоставимым количеством параметров и демонстрируя значительную конкурентоспособность по сравнению с моделями диффузии, обеспечивая скорость вывода в 2-10 раз выше. Код доступен по ссылке https://github.com/hp-l33/AiM
В данном отчете мы представляем Vintern-1B - надежную многомодельную крупную языковую модель (MLLM) с миллиардом параметров для вьетнамских языковых задач. Интегрируя языковую модель Qwen2-0.5B-Instruct с визуальной моделью InternViT-300M-448px, Vintern-1B оптимизирован для широкого спектра приложений, включая оптическое распознавание символов (OCR), извлечение документов и общий вопросно-ответный анализ во вьетнамском контексте. Модель донастроена на обширном наборе данных из более чем 3 миллионов пар изображение-вопрос-ответ, достигая надежного качества и результатов на различных вьетнамских языковых бенчмарках, таких как OpenViVQA и ViTextVQA. Vintern-1B достаточно компактен для легкой интеграции в различные приложения на устройствах. Кроме того, мы опубликовали несколько вьетнамских наборов данных для вопросов и ответов на изображения (VQA) для текста и диаграмм, созданных с помощью Gemini 1.5 Flash. Наши модели доступны по адресу: https://huggingface.co/5CD-AI/Vintern-1B-v2.
Мы представляем Пирамидальное Внимание Распространения (PAB), метод в реальном времени, высокого качества и не требующий обучения для генерации видео на основе Диффузии Трансформации. Наш метод основан на наблюдении, что различие внимания в процессе диффузии проявляет участок в форме буквы U, указывающий на значительную избыточность. Мы уменьшаем это, транслируя выходы внимания на последующие шаги в пирамидальном стиле. Применяются различные стратегии трансляции для каждого внимания на основе их дисперсии для наилучшей эффективности. Мы также вводим параллельную последовательность трансляции для более эффективного распределенного вывода. PAB демонстрирует превосходные результаты по сравнению с базовыми моделями на трех моделях, достигая генерации видео в реальном времени до разрешения 720p. Мы предвидим, что наш простой, но эффективный метод послужит надежным базовым уровнем и способствует будущим исследованиям и применениям в области генерации видео.
В данной статье мы предлагаем новый метод Strategist, который использует LLM для приобретения новых навыков в играх с несколькими агентами через процесс самосовершенствования. Наш метод собирает качественную обратную связь через симуляции самоигры с поиском по дереву методом Монте-Карло и LLM-основанным отражением, которая затем может быть использована для изучения стратегических навыков высокого уровня, таких как оценка состояний, которая направляет выполнение низкоуровневых действий. Мы демонстрируем, как наш метод может быть использован как в планировании действий, так и в генерации диалогов в контексте игр, достигая хороших результатов в обеих задачах. Конкретно, мы показываем, что наш метод может помочь обучить агентов с лучшей производительностью, чем традиционные подходы на основе обучения с подкреплением и другие подходы к изучению навыков на основе LLM в играх, включая Игру Чистой Стратегии (GOPS) и Сопротивление: Авалон.
Модели видео-языкового взаимодействия большого масштаба (LVLMs) значительно продвинулись с вводом текста, согласованного с изображениями. Они сделали заметные успехи в задачах компьютерного зрения, выстраивая соответствие между текстовым модальным и визуальным вводом. Также предпринимаются попытки интегрировать мульти-визионные датчики помимо RGB, включая тепловые, глубинные и медицинские рентгеновские изображения. Однако мы наблюдаем, что текущие LVLMs рассматривают изображения, полученные с мульти-визионных датчиков, как будто они находятся в одной и той же RGB области, не учитывая физические характеристики мульти-визионных датчиков. Они не передают фундаментальную информацию о мульти-визионных датчиках из набора данных и соответствующие контекстные знания должным образом. В результате, соответствие между информацией из реальной физической среды и текстом не достигается правильно, что затрудняет ответ на сложные вопросы, связанные с датчиками, учитывающие физическую среду. В данной статье мы стремимся создать бенчмарк восприятия и рассуждения мульти-визионных датчиков под названием SPARK, который может сократить фундаментальный разрыв информации о мульти-визионных датчиках между изображениями и мульти-визионными датчиками. Мы автоматически сгенерировали 6 248 тестовых образцов видео-языкового взаимодействия для исследования восприятия мульти-визионных датчиков и рассуждения на основе физических знаний о датчиках в различных форматах, охватывающих различные типы вопросов, связанных с датчиками. Мы использовали эти образцы для оценки десяти ведущих LVLMs. Результаты показали, что большинство моделей проявляют недостатки в рассуждениях о мульти-визионных датчиках в различной степени. Коды и данные доступны по ссылке https://github.com/top-yun/SPARK
Большие языковые модели (LLM) достигли впечатляющих прорывов во многих областях, однако критически важный вопрос конфликтов знаний, являющийся основным источником галлюцинаций, редко изучался. Только несколько исследований занимались конфликтами между врожденным знанием LLM и извлеченным контекстуальным знанием. Тем не менее, полноценная оценка конфликтов знаний в LLM все еще отсутствует. Вдохновленные этим исследовательским пробелом, мы представляем ConflictBank, первый комплексный бенчмарк, разработанный для систематической оценки конфликтов знаний с трех точек зрения: (i) конфликты, возникающие в извлеченном знании, (ii) конфликты в закодированном знании моделей и (iii) взаимодействие между этими формами конфликтов. Наше исследование углубляется в четыре семейства моделей и двенадцать экземпляров LLM, тщательно анализируя конфликты, происходящие из дезинформации, временных расхождений и семантических расхождений. Основываясь на нашей предложенной новой конструктивной структуре, мы создаем 7 453 853 пары утверждение-доказательство и 553 117 пар вопрос-ответ. Мы представляем множество результатов о масштабе модели, причинах конфликтов и типах конфликтов. Мы надеемся, что наш бенчмарк ConflictBank поможет сообществу лучше понять поведение модели в конфликтах и разработать более надежные LLM.
Недавно мультимодальные модели больших языков (MLLM) продемонстрировали замечательные восприимчивые и рассуждающие способности, обычно включающие в себя Визуальный Кодировщик, Адаптер и Большую Языковую Модель (LLM). Адаптер служит важным мостом между визуальными и языковыми компонентами. Однако обучение адаптеров с наблюдением на уровне изображения часто приводит к значительному несоответствию, подрывая возможности LLM и ограничивая потенциал мультимодальных LLM. Для решения этой проблемы мы представляем метод Наблюдаемого Выравнивания Вложений (SEA), который выравнивает токены на уровне токенов, используя предварительно обученные модели видео-языка, такие как CLIP, для выравнивания визуальных токенов с пространством вложений LLM через контрастное обучение. Этот подход обеспечивает более согласованное интегрирование визуальных и языковых представлений, улучшая производительность и интерпретируемость мультимодальных LLM, сохраняя их врожденные возможности. Обширные эксперименты показывают, что SEA эффективно улучшает MLLM, особенно для более маленьких моделей, без добавления дополнительных данных или вычислений вывода. SEA также заложил основу для разработки более общих и адаптируемых решений для улучшения мультимодальных систем.
Традиционные методы генерации анимации зависят от обучения генеративных моделей с помощью данных, размеченных людьми, что требует сложного многоэтапного конвейера, требующего значительных усилий человека и связанных с ним высоких затрат на обучение. Из-за ограниченных планов подсказок эти методы обычно создают краткие, бедные информацией и контекстно несвязанные анимации. Для преодоления этих ограничений и автоматизации процесса создания анимации мы вводим новшество - использование больших мультимодальных моделей (LMM) в качестве основного процессора для создания автономного агента по созданию анимации, названного Аним-Директор. Этот агент в основном использует продвинутые возможности понимания и рассуждения LMM и генеративных инструментов искусственного интеллекта для создания анимированных видео на основе кратких повествований или простых инструкций. Конкретно, он работает в трех основных этапах: Во-первых, Аним-Директор создает последовательный сюжет из пользовательских вводов, за которым следует подробный сценарий режиссера, включающий настройки профилей персонажей и описания интерьеров/экстерьеров, а также контекстно-связанные описания сцен, включающие появляющихся персонажей, интерьеры или экстерьеры и события сцены. Во-вторых, мы используем LMM с инструментом генерации изображений для создания визуальных изображений настроек и сцен. Эти изображения разрабатываются для поддержания визуальной согласованности между различными сценами с использованием метода подсказки на визуальном языке, который объединяет описания сцен и изображения появляющегося персонажа и настройки. В-третьих, изображения сцен служат основой для создания анимированных видео, при этом LMM генерирует подсказки для направления этого процесса. Весь процесс является автономным без ручного вмешательства, поскольку LMM взаимодействует плавно с генеративными инструментами для создания подсказок, оценки визуального качества и выбора лучшего для оптимизации конечного результата.
Реконструкция и переосвещение трехмерных объектов, изготовленных из рассеивающих материалов, представляют существенное вызов из-за сложного переноса света под поверхностью. 3D Гауссово сглаживание представляет собой высококачественный метод синтеза нового вида в реальном времени. В то время как 3D Гауссианы эффективно аппроксимируют поверхность объекта, они не учитывают объемные свойства подповерхностного рассеивания. Мы предлагаем фреймворк для оптимизации формы объекта вместе с полем передачи радиации, учитывая многовидовые данные OLAT (один источник света за раз). Наш метод декомпозирует сцену на явную поверхность, представленную в виде 3D Гауссиан, с пространственно изменяющимся BRDF, и неявное объемное представление рассеивающего компонента. Обученное поле падающего света учитывает затенение. Мы оптимизируем все параметры совместно с помощью трассировки лучей и дифференцируемого рендеринга. Наш подход позволяет редактировать материалы, переосвещать и синтезировать новый вид с интерактивной скоростью. Мы продемонстрировали успешное применение на синтетических данных и представили недавно полученный многовидовой многосветовой набор данных объектов в установке световой сцены. По сравнению с предыдущими работами, мы достигаем сравнимых или лучших результатов за долю времени оптимизации и рендеринга, обеспечивая при этом детальный контроль над атрибутами материала. Страница проекта: https://sss.jdihlmann.com/
Синтез фолиевского звука имеет важное значение для производства мультимедиа, улучшая пользовательский опыт путем синхронизации аудио и видео как временно, так и семантически. Недавние исследования по автоматизации этого трудоемкого процесса через генерацию звука по видео сталкиваются с существенными проблемами. Системы, не имеющие явных временных характеристик, страдают от плохой управляемости и выравнивания, в то время как модели на основе временных меток требуют дорогостоящей и субъективной аннотации человеком. Мы предлагаем Video-Foley, систему видео-в-звук, использующую среднеквадратичное отклонение (RMS) в качестве условия временного события с семантическими подсказками тембра (аудио или текста). RMS, характеристика интенсивности на уровне кадра, тесно связанная с аудио-семантикой, обеспечивает высокую управляемость и синхронизацию. Фреймворк самообучения без аннотации состоит из двух этапов, Video2RMS и RMS2Sound, включающих новые идеи, включая дискретизацию RMS и RMS-ControlNet с предварительно обученной моделью текст-в-аудио. Наше обширное оценивание показывает, что Video-Foley достигает передового качества в аудио-визуальном выравнивании и управляемости для времени звука, интенсивности, тембра и нюансов. Код, веса модели и демонстрации доступны на сопутствующем веб-сайте. (https://jnwnlee.github.io/video-foley-demo)
Учитывая широкое распространение дезинформации в социальных сетях, внедрение механизмов факт-чекинга для онлайн утверждений является необходимым. Ручная проверка каждого утверждения представляет собой значительное испытание, что подчеркивает необходимость автоматизированной системы факт-чекинга. В данной статье представлена наша система, разработанная для решения этой проблемы. Мы используем набор данных Averitec для оценки достоверности утверждений. Помимо прогнозирования достоверности, наша система предоставляет подтверждающие данные, извлеченные из набора данных. Мы разработали конвейер Retrieve and Generate (RAG) для извлечения соответствующих предложений-доказательств из базы знаний, которые затем вводятся вместе с утверждением в большую языковую модель (LLM) для классификации. Мы также оцениваем возможности многократного обучения в контексте (ICL) нескольких LLM. Наша система достигает показателя 'Averitec' в 0.33, что составляет улучшение на 22% по сравнению с базовым уровнем. Весь код будет доступен на https://github.com/ronit-singhal/evidence-backed-fact-checking-using-rag-and-few-shot-in-context-learning-with-llms.