Ежедневно отобранные исследовательские статьи по ИИ с переводами
Информация поступает в различных модальностях. Мультимодальные нативные модели искусственного интеллекта необходимы для интеграции информации из реального мира и достижения всестороннего понимания. Хотя существуют проприетарные мультимодальные нативные модели, их закрытость создает препятствия для принятия, не говоря уже об адаптациях. Для заполнения этого пробела мы представляем Aria - открытую мультимодальную нативную модель с лучшей производительностью в широком спектре мультимодальных, языковых и кодировочных задач. Aria - модель смеси экспертов с 3,9 миллиарда и 3,5 миллиарда активированных параметров на визуальный токен и текстовый токен соответственно. Она превосходит Pixtral-12B и Llama3.2-11B, и конкурентоспособна по сравнению с лучшими проприетарными моделями в различных мультимодальных задачах. Мы предварительно обучаем Aria с нуля, следуя 4-ступенчатому пайплайну, который поэтапно дарит модели сильные возможности в понимании языка, мультимодальном понимании, длинном окне контекста и следовании инструкциям. Мы открываем веса модели в открытом доступе вместе с кодовой базой, которая облегчает принятие и адаптацию Aria в прикладных задачах реального мира.
Большие языковые модели (LLM) показывают значительный потенциал в экономических и стратегических взаимодействиях, где часто используется общение на естественном языке. Это порождает ключевые вопросы: Ведут ли LLM рационально? Могут ли они имитировать человеческое поведение? Склонны ли они достигать эффективного и справедливого результата? Какова роль естественного языка в стратегическом взаимодействии? Как характеристики экономической среды влияют на эти динамики? Эти вопросы становятся критическими в контексте экономических и общественных последствий интеграции агентов на основе LLM в системы, основанные на данных реального мира, такие как онлайн-платформы розничной торговли и системы рекомендаций. В то время как сообщество машинного обучения исследует потенциал LLM в таких многоагентных средах, различные предположения, выборы дизайна и критерии оценки в различных исследованиях затрудняют выводы, устойчивые и содержательные. Для решения этой проблемы мы представляем бенчмарк для стандартизации исследований в двухигровых последовательных играх на основе языка. Вдохновленные экономической литературой, мы определяем три базовые семейства игр с согласованной параметризацией, степенями свободы и экономическими мерами для оценки производительности агентов (собственная выгода), а также результата игры (эффективность и справедливость). Мы разрабатываем фреймворк с открытым исходным кодом для симуляции и анализа взаимодействия, и используем его для сбора набора данных взаимодействий LLM против LLM в различных конфигурациях игр и дополнительного набора данных взаимодействий человека против LLM. Через обширные эксперименты мы демонстрируем, как наш фреймворк и набор данных могут быть использованы для: (i) сравнения поведения агентов на основе LLM с поведением человеческих игроков в различных экономических контекстах; (ii) оценки агентов по индивидуальным и коллективным показателям производительности; и (iii) количественной оценки влияния экономических характеристик среды на поведение агентов.
Недавние достижения в области мультимодальных крупных языковых моделей (MLLMs) продемонстрировали значительный прогресс; однако эти модели обладают заметным ограничением, которое мы называем "слепотой к лицам". Конкретно, они могут вести общие разговоры, но не могут проводить персонализированные диалоги, нацеленные на конкретных людей. Этот недостаток затрудняет применение MLLMs в персонализированных средах, таких как настроенные визуальные ассистенты на мобильных устройствах или домашние роботы, которые должны распознавать членов семьи. В данной статье мы представляем персонализированную настройку визуальных инструкций (PVIT), новую структуру кураторства данных и обучения, разработанную для того, чтобы позволить MLLMs идентифицировать целевых лиц на изображении и вести персонализированные и последовательные диалоги. Наш подход включает разработку сложного конвейера, который автономно генерирует обучающие данные, содержащие персонализированные разговоры. Этот конвейер использует возможности различных визуальных экспертов, моделей генерации изображений и (мультимодальных) крупных языковых моделей. Для оценки персонализированного потенциала MLLMs мы представляем бенчмарк под названием P-Bench, который включает различные типы вопросов с разными уровнями сложности. Эксперименты демонстрируют значительное улучшение персонализированной производительности после донастройки с нашим кураторским набором данных.
Мы представляем Pixtral-12B, многомодельную языковую модель с 12 миллиардами параметров. Pixtral-12B обучена понимать как естественные изображения, так и документы, достигая ведущих показателей на различных многомодальных бенчмарках, превосходя ряд более крупных моделей. В отличие от многих моделей с открытым исходным кодом, Pixtral также является передовой текстовой моделью по своим размерам и не жертвует производительностью в обработке естественного языка, чтобы превзойти в многомодальных задачах. Pixtral использует новый кодировщик изображений, обученный с нуля, что позволяет ей обрабатывать изображения в их естественном разрешении и пропорции. Это дает пользователям гибкость в количестве токенов, используемых для обработки изображения. Pixtral также способна обрабатывать любое количество изображений в своем длинном контекстном окне из 128K токенов. Pixtral 12B значительно превосходит другие открытые модели схожих размеров (Llama-3.2 11B и Qwen-2-VL 7B). Она также превосходит гораздо более крупные открытые модели, такие как Llama-3.2 90B, при этом оставаясь в 7 раз меньше. Мы также представляем открытый бенчмарк MM-MT-Bench для оценки моделей вид-язык в практических сценариях и предоставляем подробный анализ и код для стандартизированных протоколов оценки для многомодальных LLM. Pixtral-12B выпущена под лицензией Apache 2.0.
Эта статья представляет F5-TTS, полностью нерекурсивную систему синтеза речи из текста, основанную на сопоставлении потоков с трансформером Диффузии (DiT). Без необходимости сложных конструкций, таких как модель длительности, кодировщик текста и выравнивание фонем, входной текст просто дополняется заполнителями до той же длины, что и входная речь, после чего выполняется шумоподавление для генерации речи, что изначально было доказано возможным в E2 TTS. Однако исходное проектирование E2 TTS затрудняет его применение из-за медленной сходимости и низкой устойчивости. Для решения этих проблем мы сначала моделируем вход с помощью ConvNeXt для улучшения представления текста, что облегчает его выравнивание с речью. Мы также предлагаем стратегию выборки Sway Sampling на этапе вывода, что значительно улучшает производительность и эффективность нашей модели. Эта стратегия выборки для шага потока может быть легко применена к существующим моделям на основе сопоставления потоков без повторного обучения. Наш дизайн позволяет более быстрое обучение и достигает RTF вывода 0,15, что значительно улучшено по сравнению с передовыми моделями TTS на основе диффузии. Обученная на общедоступном многоязычном наборе данных объемом 100 тыс. часов, наша система F5-TTS Fairytaler Fakes Fluent and Faithful speech with Flow matching проявляет высокую естественность и выразительность при нулевой настройке, способность к плавному переключению кода и эффективное управление скоростью. Демонстрационные образцы можно найти по адресу https://SWivid.github.io/F5-TTS. Мы предоставляем весь код и контрольные точки для поощрения развития сообщества.
Модели текст-видео (T2V), такие как Sora, сделали значительные успехи в визуализации сложных подсказок, что все чаще рассматривается как многообещающий путь к созданию универсального симулятора мира. Когнитивные психологи считают, что основой для достижения этой цели является способность понимать интуитивную физику. Однако возможности этих моделей точно представлять интуитивную физику остаются в значительной степени неизученными. Для заполнения этой пробела мы представляем PhyGenBench, обширный бенчмарк генерации физики, разработанный для оценки правильности физического здравого смысла в генерации T2V. PhyGenBench включает 160 тщательно разработанных подсказок по 27 различным физическим законам, охватывающих четыре фундаментальных области, которые могут всесторонне оценить понимание моделями физического здравого смысла. Вместе с PhyGenBench мы предлагаем новую систему оценки под названием PhyGenEval. Эта система использует иерархическую структуру оценки, используя соответствующие передовые модели видео-языка и большие языковые модели для оценки физического здравого смысла. С помощью PhyGenBench и PhyGenEval мы можем проводить масштабные автоматизированные оценки понимания моделями T2V физического здравого смысла, которые тесно соответствуют обратной связи от людей. Наши результаты оценки и глубокий анализ показывают, что текущие модели испытывают трудности в создании видеороликов, соответствующих физическому здравому смыслу. Более того, простое масштабирование моделей или использование техник инженерии подсказок недостаточно для полного решения проблем, представленных PhyGenBench (например, динамические сценарии). Мы надеемся, что данное исследование вдохновит сообщество отдать приоритет изучению физического здравого смысла в этих моделях за пределами развлекательных приложений. Мы опубликуем данные и коды на https://github.com/OpenGVLab/PhyGenBench
Продвинутые модели диффузии, такие как RPG, Stable Diffusion 3 и FLUX, сделали значительные шаги в области генерации текста в изображение на основе композиции. Однако эти методы обычно проявляют различные сильные стороны в композиционной генерации, преуспевая либо в обработке привязки атрибутов, либо в пространственных отношениях. Это различие подчеркивает необходимость подхода, способного использовать дополняющие сильные стороны различных моделей для всестороннего улучшения возможностей композиции. В этой связи мы представляем IterComp, новую концепцию, которая агрегирует предпочтения моделей, осведомленных о композиции, из нескольких моделей и использует итеративный метод обучения обратной связи для улучшения композиционной генерации. В частности, мы составляем галерею из шести мощных моделей диффузии с открытым исходным кодом и оцениваем их три ключевых композиционных метрики: привязка атрибутов, пространственные отношения и не-пространственные отношения. На основе этих метрик мы разрабатываем набор данных предпочтений моделей, осведомленных о композиции, включающий множество пар изображение-рейтинг для обучения моделей вознаграждения, осведомленных о композиции. Затем мы предлагаем метод итеративного обучения обратной связи для улучшения композиционности в замкнутом цикле, обеспечивая постепенное самосовершенствование как базовой модели диффузии, так и моделей вознаграждения за многократные итерации. Теоретическое доказательство демонстрирует эффективность, а обширные эксперименты показывают наше значительное превосходство над предыдущими методами SOTA (например, Omost и FLUX), особенно в составлении объектов из нескольких категорий и сложном семантическом выравнивании. IterComp открывает новые исследовательские пути в области обучения обратной связи для моделей диффузии и композиционной генерации. Код: https://github.com/YangLing0818/IterComp
Генерация видео требует моделирования обширного пространства во времени и пространстве, что требует значительных вычислительных ресурсов и использования данных. Для уменьшения сложности преобладающие подходы используют каскадную архитектуру, чтобы избежать прямого обучения с полным разрешением. Несмотря на уменьшение вычислительных требований, отдельная оптимизация каждого подэтапа затрудняет обмен знаниями и жертвует гибкостью. В данной работе представлен единый алгоритм сопоставления пирамидального потока. Он переосмысливает исходную траекторию подавления шума как серию пирамидальных этапов, где только финальный этап работает на полном разрешении, что позволяет более эффективное моделирование видео. Благодаря нашему изощренному дизайну, потоки различных пирамидальных этапов могут быть взаимосвязаны для поддержания непрерывности. Более того, мы создаем авторегрессивную генерацию видео с временной пирамидой для сжатия истории с полным разрешением. Вся структура может быть оптимизирована в едином порядке и с помощью единого Диффузионного Трансформера (DiT). Обширные эксперименты демонстрируют, что наш метод поддерживает генерацию видео высокого качества длительностью 5 секунд (до 10 секунд) с разрешением 768p и частотой кадров 24 FPS за 20,7 тыс. часов обучения на GPU A100. Весь код и модели будут опубликованы на https://pyramid-flow.github.io.
Мы представляем показатель скорости интеграции модальностей (MIR) - эффективную, надежную и обобщенную метрику, позволяющую оценить качество мульти-модального предварительного обучения больших моделей языка и зрения (LVLM). Крупномасштабное предварительное обучение играет ключевую роль в создании способных LVLM, однако оценка его качества обучения без дорогостоящего этапа надзорного дообучения до конца не исследована. Потери, перплексия и результаты оценки в контексте обычно используются в качестве метрик предварительного обучения для больших моделей языка (LLM), однако мы обнаружили, что эти метрики менее информативны при сопоставлении хорошо обученной LLM с новой модальностью. Из-за отсутствия соответствующих метрик исследования LVLM на критическом этапе предварительного обучения значительно затруднено, включая выбор обучающих данных, эффективное проектирование модулей и т. д. В данной статье мы предлагаем оценивать качество предварительного обучения с точки зрения расстояния между интер-модальными распределениями и представляем MIR, показатель скорости интеграции модальностей, который: 1) Эффективно отражает качество предварительного обучения и демонстрирует положительную связь с результатами испытаний после надзорного дообучения. 2) Надежен при использовании различных обучающих/оценочных данных. 3) Обобщается на различные конфигурации обучения и выбор архитектуры. Мы проводим серию экспериментов по предварительному обучению для изучения эффективности MIR и наблюдаем удовлетворительные результаты, показывающие, что MIR информативен относительно выбора обучающих данных, графика обучения и проектирования архитектуры модели для получения лучших результатов предварительного обучения. Мы надеемся, что MIR может стать полезной метрикой для создания способных LVLM и вдохновить последующие исследования в области согласования модальностей в различных областях. Наш код доступен по ссылке: https://github.com/shikiw/Modality-Integration-Rate.
В данном техническом отчете мы представляем Falcon Mamba 7B, новую базовую крупную модель языка на основе новой архитектуры Mamba. Falcon Mamba 7B обучена на 5,8 триллионах токенов с тщательно подобранными смесями данных. Как чистая модель на основе Mamba, Falcon Mamba 7B превосходит ведущие модели с открытым весом на основе трансформеров, такие как Mistral 7B, Llama3.1 8B и Falcon2 11B. Она находится на уровне Gemma 7B и превосходит модели с различными архитектурными конструкциями, такие как RecurrentGemma 9B и RWKV-v6 Finch 7B/14B. В настоящее время Falcon Mamba 7B является наилучшей моделью Mamba в литературе на данном масштабе, превосходя как существующие модели Mamba, так и гибридные модели Mamba-трансформеры, согласно рейтингу Open LLM Leaderboard. Благодаря своей архитектуре Falcon Mamba 7B значительно быстрее в выводе и требует значительно меньше памяти для генерации длинных последовательностей. Несмотря на недавние исследования, указывающие на то, что гибридные модели Mamba-трансформеры превосходят чистые архитектурные конструкции, мы демонстрируем, что даже чистый дизайн Mamba может достичь аналогичных или даже более высоких результатов по сравнению с дизайнами трансформеров и гибридами. Мы делаем веса нашей реализации Falcon Mamba 7B общедоступными на https://huggingface.co/tiiuae/falcon-mamba-7b, под лицензией, позволяющей широкое использование.
Эта статья исследует взаимодействие между основами зрения и оптимизаторами, раскрывая взаимозависимое явление, названное \textbf{смещением связи между основой и оптимизатором} (BOCB). Мы наблюдаем, что классические сверточные нейронные сети, такие как VGG и ResNet, проявляют выраженную взаимозависимость с семействами SGD, в то время как недавние архитектуры, такие как ViTs и ConvNeXt, демонстрируют тесную связь с оптимизаторами адаптивной скорости обучения. Мы также показываем, что BOCB может быть вызван как оптимизаторами, так и определенными конструкциями основы и может значительно влиять на предварительное обучение и последующую настройку зрительных моделей. Проведя глубокий эмпирический анализ, мы обобщаем выводы о рекомендуемых оптимизаторах и идеях о надежных архитектурах основ зрения. Мы надеемся, что данная работа вдохновит сообщество на вопросы давно устоявшихся представлений об основах и оптимизаторах, стимулирует дальнейшие исследования и таким образом способствует созданию более надежных систем зрения. Исходный код и модели доступны по адресу https://bocb-ai.github.io/.
Данное исследование направлено на всестороннее изучение создания мультимодельной базовой модели для понимания эгоцентрического видео. Для достижения этой цели мы работаем в трех направлениях. Во-первых, поскольку отсутствуют данные QA для понимания эгоцентрического видео, мы разрабатываем движок данных, который эффективно генерирует 7 миллионов высококачественных образцов QA для эгоцентрических видео продолжительностью от 30 секунд до одного часа на основе данных, аннотированных людьми. В настоящее время это самый крупный набор данных QA для эгоцентрического видео. Во-вторых, мы представляем сложный бенчмарк эгоцентрического QA с 629 видео и 7 026 вопросами для оценки способности моделей распознавать и запоминать визуальные детали в видео различной длины. Мы предлагаем новый метод оценки дебиасинга для помощи в смягчении неизбежного языкового искажения, присутствующего в оцениваемых моделях. В-третьих, мы предлагаем специализированную мультимодельную архитектуру с новым механизмом "Memory Pointer Prompting". Этот дизайн включает этап глобального обзора для получения общего понимания всего видео и выявления ключевой визуальной информации, за которым следует этап резервного варианта, использующий ключевую визуальную информацию для генерации ответов. Это позволяет модели более эффективно понимать расширенное видео. С данными, бенчмарком и моделью мы успешно создаем MM-Ego, эгоцентрическую мультимодельную LLM, которая показывает мощную производительность в понимании эгоцентрического видео.
Визуализация историй, задача генерации согласованных изображений на основе повествования, заметно продвинулась с появлением моделей текст-в-изображение, в частности, моделей диффузии. Однако сохранение семантической последовательности, генерация высококачественных детализированных взаимодействий и обеспечение вычислительной осуществимости остаются сложными задачами, особенно в длинной визуализации историй (до 100 кадров). В данной работе мы предлагаем обучающийся и вычислительно эффективный каркас, названный Story-Adapter, для улучшения генеративной способности длинных историй. Конкретно, мы предлагаем итеративную парадигму для усовершенствования каждого сгенерированного изображения, используя как текстовое подсказывание, так и все сгенерированные изображения из предыдущей итерации. Основой нашего каркаса является обучающийся без обучения глобальный модуль кросс-внимания к ссылкам, который агрегирует все сгенерированные изображения из предыдущей итерации для сохранения семантической последовательности по всей истории, минимизируя при этом вычислительные затраты с глобальными встраиваниями. Этот итеративный процесс постепенно оптимизирует генерацию изображений путем многократного включения текстовых ограничений, что приводит к более точным и детализированным взаимодействиям. Обширные эксперименты подтверждают превосходство Story-Adapter в улучшении как семантической последовательности, так и генеративной способности для детализированных взаимодействий, особенно в длинных сценариях историй. Страница проекта и связанный код доступны по ссылке https://jwmao1.github.io/storyadapter.
Через выравнивание с предпочтениями человека большие языковые модели (LLM) значительно продвинулись в генерации честных, безвредных и полезных ответов. Однако сбор высококачественных данных о предпочтениях является ресурсоемким и требует творческого подхода, особенно для непрерывного улучшения LLM. Мы представляем SynPO, парадигму самоусиления, которая использует синтетические данные о предпочтениях для выравнивания модели. SynPO использует итеративный механизм, в котором генератор самоподсказок создает разнообразные подсказки, а улучшатель ответов постепенно совершенствует ответы модели. Этот подход обучает LLM автономно изучать генеративные вознаграждения за свои собственные выходы и устраняет необходимость в масштабной аннотации подсказок и предпочтений человека. После четырех итераций SynPO Llama3-8B и Mistral-7B показывают значительное улучшение способностей к следованию инструкциям, достигая более чем на 22.1% увеличение победного рейтинга в AlpacaEval 2.0 и ArenaHard. Одновременно SynPO улучшает общую производительность LLM на различных задачах, подтвержденное увеличение среднего балла от 3.2 до 5.0 на широко признанном рейтинге Open LLM.
Модели основы (Foundation models, FMs) предварительно обучаются на масштабных наборах данных, а затем донастраиваются для конкретного приложения на задачу нижестоящего уровня. Самым успешным и наиболее часто используемым методом донастройки является обновление весов предварительного обучения с помощью метода низкоранговой адаптации (LoRA). LoRA вводит новые матрицы весов, которые обычно инициализируются случайным образом с равномерным распределением рангов по весовым моделям. Недавние работы сосредотачиваются на инициализации, зависящей от весов, или обучении адаптивных рангов во время обучения. Оба подхода рассматривались только изолированно, что приводило к медленной сходимости или равномерному распределению рангов, что в свою очередь приводило к субоптимальной производительности. Мы предлагаем улучшить LoRA, инициализируя новые веса способом, основанным на данных, путем вычисления сингулярного разложения на мини-пакетах векторов активации. Затем мы инициализируем матрицы LoRA полученными правыми сингулярными векторами и перераспределяем ранги среди всех матриц весов для объяснения максимального количества дисперсии и продолжаем стандартную процедуру донастройки LoRA. Это приводит к нашему новому методу - Адаптация объясненной дисперсии (Explained Variance Adaptation, EVA). Мы применяем EVA к различным задачам донастройки, начиная от генерации и понимания языка до классификации изображений и обучения с подкреплением. EVA демонстрирует более быструю сходимость по сравнению с конкурентами и достигает самого высокого среднего показателя по ряду задач в каждой области.
В данной статье мы сосредотачиваемся на улучшении модели текст-видео (T2V) на основе диффузии во время пост-тренировочной фазы путем дистилляции высококачественной модели согласованности из предварительно обученной модели T2V. Наш метод, T2V-Turbo-v2, представляет собой значительное продвижение за счет интеграции различных сигналов надзора, включая данные обучения высокого качества, обратную связь модели вознаграждения и условное руководство, в процесс дистилляции согласованности. Через обширные исследования абляции мы подчеркиваем критическое значение адаптации наборов данных под конкретные учебные цели и эффективность обучения от разнообразных моделей вознаграждения для улучшения как визуального качества, так и согласованности текста и видео. Кроме того, мы выделяем обширное пространство конструктивных стратегий, связанных с условным руководством, которое сосредотачивается на разработке эффективной энергетической функции для усиления решателя ОДУ-учителя. Мы демонстрируем потенциал этого подхода путем извлечения движения из обучающих наборов данных и интеграции его в решатель ОДУ, демонстрируя его эффективность в улучшении качества движения созданных видео с улучшенными метриками, связанными с движением, из VBench и T2V-CompBench. Эмпирически наш T2V-Turbo-v2 устанавливает новый результат state-of-the-art на VBench, с общим баллом 85,13, превосходя собственные системы, такие как Gen-3 и Kling.
Большие языковые модели успешно применялись в задачах программирования, таких как автозавершение кода, вставка кода и редактирование инструкционного кода. Однако эти приложения остаются недостаточно автоматизированными и испытывают трудности с эффективной интеграцией различных типов информации во время процесса программирования, включая историю кодирования, текущий код и инструкции пользователя. В данной работе мы предлагаем новую конверсационную структуру, которая всесторонне интегрирует эти источники информации, собираем данные для обучения наших моделей и оцениваем их производительность. Во-первых, чтобы тщательно оценить, насколько хорошо модели соответствуют различным типам информации и качеству их выводов, мы представляем новый бенчмарк, APEval (Assist Programming Eval), для всесторонней оценки производительности моделей в задачах программистской помощи. Затем, для сбора данных, мы разрабатываем конвейер генерации данных, Programming-Instruct, который синтезирует обучающие данные из различных источников, таких как GitHub и платформы онлайн-судей. Этот конвейер может автоматически генерировать различные типы сообщений на протяжении процесса программирования. Наконец, используя этот конвейер, мы генерируем 219 тыс. образцов, настраиваем несколько моделей и разрабатываем серию CursorCore. Мы показываем, что CursorCore превосходит другие модели сопоставимого размера. Эта структура объединяет приложения, такие как встроенный чат и автоматическое редактирование, способствуя развитию помощников по кодированию. Код, модели и данные доступны по адресу https://github.com/TechxGenus/CursorCore.
Видео Большие Языковые Модели (Video LLMs) продемонстрировали многообещающие возможности в понимании видео, однако испытывают трудности с отслеживанием временных изменений и рассуждениями о временных отношениях. В то время как предыдущие исследования относили это ограничение к неэффективному временному кодированию визуальных входов, наше диагностическое исследование показывает, что видео-представления содержат достаточную информацию для того, чтобы даже небольшие классификаторы-пробники достигали идеальной точности. Удивительно, мы обнаружили, что главное узкое место в способности Видео LLMs к временному рассуждению происходит из врожденной сложности LLM в отношении временных концепций, что подтверждается плохими результатами на текстовых временных задачах вопрос-ответ. Основываясь на этом открытии, мы представляем Textual Temporal reasoning Transfer (T3). T3 синтезирует разнообразные временные задачи рассуждений в чистом текстовом формате из существующих наборов данных изображений-текста, решая проблему нехватки видео-примеров с сложными временными сценариями. Замечательно, без использования видео-данных, T3 улучшает понимание времени LongVA-7B, обеспечивая улучшение точности на 5.3 абсолютных пункта на сложном бенчмарке TempCompass, что позволяет нашей модели превзойти ShareGPT4Video-8B, обученную на 28,000 видео-примерах. Кроме того, улучшенная модель LongVA-7B достигает конкурентоспособной производительности на обширных видео-бенчмарках. Например, она достигает точности 49.7 на задаче Временного Рассуждения Video-MME, превосходя мощные масштабные модели, такие как InternVL-Chat-V1.5-20B и VILA1.5-40B. Дополнительный анализ показывает сильную корреляцию между текстовой и видео временной производительностью задач, подтверждая эффективность передачи временных рассуждений из текстовой в видео-области.
Недавние успехи в моделях диффузии текста в видео (T2V) и изображения в видео (I2V) крупного масштаба значительно улучшили генерацию видео, особенно в части интерполяции ключевых кадров. Однако текущие модели диффузии изображения в видео, хотя и мощные в создании видео из одного условного кадра, требуют адаптации для генерации на основе двух кадров (начального и конечного), что необходимо для эффективной ограниченной интерполяции. К сожалению, существующие подходы, объединяющие временно прямые и обратные пути параллельно, часто сталкиваются с проблемами вне многообразия, что приводит к артефактам или требует множественных итерационных шагов повторного добавления шума. В данной работе мы представляем новую, двунаправленную стратегию выборки для решения этих проблем вне многообразия без необходимости обширного повторного добавления шума или настройки. Наш метод использует последовательную выборку вдоль прямого и обратного путей, условие на начальный и конечный кадры соответственно, обеспечивая более согласованную и на многообразии генерацию промежуточных кадров. Кроме того, мы внедряем передовые техники руководства, CFG++ и DDS, для дальнейшего улучшения процесса интерполяции. Интегрируя их, наш метод достигает выдающегося качества, эффективно создавая высококачественные, плавные видео между ключевыми кадрами. На одном GPU 3090 наш метод может интерполировать 25 кадров разрешением 1024 x 576 всего за 195 секунд, утверждая его как ведущее решение для интерполяции ключевых кадров.
Несмотря на значительные достижения в настройке моделей генерации текста в изображения и видео, создание изображений и видео, эффективно интегрирующих несколько персонализированных концепций, остается сложной задачей. Для решения этой проблемы мы представляем TweedieMix - новый метод составления индивидуализированных моделей диффузии во время фазы вывода. Анализируя свойства обратной диффузии при выборке, наш подход разделяет процесс выборки на два этапа. В начальных шагах мы применяем технику выборки, осознающую несколько объектов, чтобы гарантировать включение желаемых целевых объектов. На более поздних шагах мы смешиваем внешний вид индивидуальных концепций в пространстве изображения без шумов, используя формулу Твиди. Наши результаты показывают, что TweedieMix способен генерировать несколько персонализированных концепций с более высокой достоверностью, чем существующие методы. Более того, наша структура легко расширяется на модели диффузии изображения в видео, что позволяет создавать видео с несколькими персонализированными концепциями. Результаты и исходный код доступны на нашей анонимной странице проекта.
Настройка инструкций - надзорное дообучение с использованием пар инструкция-ответ - является ключевым шагом при переходе предварительно обученных моделей больших языковых моделей (LLM) в полезных и безопасных чат-ассистентов. Наша гипотеза заключается в том, что создание адекватного пространства вывода может обеспечить такой переход, учитывая возможности, присущие предварительно обученным LLM. Для проверки этого мы предлагаем метод настройки ответов (RT), который устраняет этап условной настройки инструкций в настройке инструкций и сосредотачивается исключительно на надзоре за пространством ответов. Наши эксперименты показывают, что модели RT, обученные только с использованием ответов, могут эффективно реагировать на широкий спектр инструкций и проявлять полезность, сравнимую с их контрольными моделями, обученными по инструкциям. Более того, мы замечаем, что контроль над распределением обучающих ответов может значительно улучшить предпочтения пользователей или вызвать целевые поведенческие реакции, такие как отказ от помощи при небезопасных запросах. Наши результаты проливают свет на роль создания адекватного пространства вывода в выравнивании, подчеркивая потенциал обширных встроенных возможностей предварительно обученных LLM.
В данной статье мы предлагаем метод AutoDAN-Turbo, черный ящик для обхода защиты, который может автоматически обнаруживать как можно больше стратегий обхода защиты с нуля, без участия человека или заранее определенных областей (например, указанных кандидатских стратегий), и использовать их для красной команды. В результате AutoDAN-Turbo может значительно превзойти базовые методы, достигая 74,3% более высокого среднего уровня успешности атаки на общедоступных бенчмарках. Следует отметить, что AutoDAN-Turbo достигает уровня успешности атаки в 88,5% на GPT-4-1106-turbo. Кроме того, AutoDAN-Turbo является унифицированной платформой, способной интегрировать существующие человеком разработанные стратегии обхода защиты путем подключения их "из коробки". Путем интеграции человеком разработанных стратегий AutoDAN-Turbo может даже достичь более высокого уровня успешности атаки в 93,4% на GPT-4-1106-turbo.
Недавние достижения в моделях диффузии продемонстрировали исключительные возможности в генерации изображений и видео, дополнительно улучшая эффективность 4D синтеза. Существующие методы 4D генерации могут создавать высококачественные 4D объекты или сцены на основе удобных для пользователя условий, что приносит пользу игровой и видеоиндустрии. Однако эти методы испытывают затруднения при синтезе значительного деформирования объектов сложных 4D переходов и взаимодействий в сценах. Для решения этой проблемы мы предлагаем Trans4D, новую рамку синтеза текста в 4D, которая позволяет реалистичные сложные переходы сцен. Конкретно, мы сначала используем многомодальные большие языковые модели (MLLMs) для создания физически осознанного описания сцены для инициализации 4D сцены и эффективного планирования времени перехода. Затем мы предлагаем геометрически осознанную 4D сеть перехода для реализации сложного 4D перехода на уровне сцены на основе плана, который включает выразительное геометрическое деформирование объектов. Обширные эксперименты показывают, что Trans4D последовательно превосходит существующие передовые методы в генерации 4D сцен с точными и высококачественными переходами, подтверждая его эффективность. Код: https://github.com/YangLing0818/Trans4D
Многомодельные крупные языковые модели (MLLM) стремительно развиваются, проявляя впечатляющие возможности в качестве многомодальных ассистентов, взаимодействующих как с людьми, так и с окружающей средой. Однако это увеличение сложности вносит значительные проблемы безопасности. В данной статье мы представляем первую оценку и анализ новой проблемы безопасности, названной Многомодальная Ситуационная Безопасность, которая исследует, как безопасность меняется в зависимости от конкретной ситуации, в которой находится пользователь или агент. Мы утверждаем, что для безопасного ответа MLLM, будь то через язык или действие, часто необходимо оценить безопасность языкового запроса в соответствующем визуальном контексте. Для оценки этой способности мы разрабатываем бенчмарк Многомодальной Ситуационной Безопасности (MSSBench) для оценки производительности ситуационной безопасности текущих MLLM. Набор данных включает 1 820 пар запрос-изображение, половина из которых имеет безопасный контекст изображения, а другая половина - небезопасный. Мы также разрабатываем фреймворк оценки, который анализирует ключевые аспекты безопасности, включая явное обоснование безопасности, визуальное понимание и, что критично, ситуационное обоснование безопасности. Наши результаты показывают, что текущие MLLM испытывают затруднения с этой тонкой проблемой безопасности в среде выполнения инструкций и не могут справиться с этими ситуационными вызовами безопасности сразу, выделяя ключевую область для будущих исследований. Более того, мы разрабатываем многозвенные конвейеры агентов для совместного решения проблем безопасности, что показывает последовательное улучшение безопасности по сравнению с исходным ответом MLLM. Код и данные: mssbench.github.io.
Модели генерации текста в видео (T2V), предлагающие удобное создание визуального контента, недавно привлекли все больше внимания. Несмотря на их значительный потенциал, сгенерированные видеоролики могут содержать артефакты, включая структурную неправдоподобность, временные несоответствия и отсутствие движения, что часто приводит к почти статичному видео. В данной работе мы выявили корреляцию между различием карт временного внимания в различных блоках и возникновением временных несоответствий. Кроме того, мы обнаружили, что энергия, содержащаяся в картах временного внимания, прямо связана с амплитудой движения в сгенерированных видеороликах. Основываясь на этих наблюдениях, мы представляем BroadWay - метод обучения без дополнительных параметров, увеличения памяти или времени выборки для улучшения качества генерации текста в видео без дополнительных затрат. Конкретно, BroadWay состоит из двух основных компонентов: 1) Временное самонаправление улучшает структурную правдоподобность и временную согласованность сгенерированных видеороликов путем уменьшения различий между картами временного внимания в различных блоках декодера. 2) Улучшение движения на основе преобразования Фурье увеличивает амплитуду и насыщенность движения путем усиления энергии карты. Обширные эксперименты показывают, что BroadWay значительно улучшает качество генерации текста в видео с незначительными дополнительными затратами.
Генеративные модели преобразуют творческие области, такие как генерация музыки, где стратегии времени вывода, такие как Classifier-Free Guidance (CFG), играют решающую роль. Однако CFG удваивает стоимость вывода, ограничивая оригинальность и разнообразие созданных контентов. В данной статье мы представляем дистилляцию CFG с поощрением разнообразия, новую процедуру донастройки, которая дистиллирует преимущества CFG, учитывая его ограничения. Наш подход оптимизирует две цели обучения: (1) цель дистилляции, поощряющая модель одну (без CFG) имитировать прогнозы, усиленные CFG, и (2) цель RL с наградой за разнообразие, способствующая генерации разнообразных результатов для заданного запроса. Путем донастройки мы учим веса модели с возможностью генерировать высококачественные и разнообразные результаты без каких-либо накладных расходов на вывод. Это также открывает потенциал стратегий слияния моделей на основе весов: путем интерполяции между весами двух моделей (первая с акцентом на качество, вторая на разнообразие) мы можем контролировать компромисс между качеством и разнообразием во время развертывания и даже дополнительно повысить производительность. Мы проводим обширные эксперименты на модели генерации текста в музыку MusicLM (Agostinelli и др., 2023), где наш подход превосходит CFG с точки зрения оптимальности Парето по качеству и разнообразию. По мнению человеческих оценщиков, наша модель, донастроенная, а затем объединенная, генерирует образцы с более высоким качеством и разнообразием, чем базовая модель, усиленная CFG. Исследуйте наши генерации по ссылке https://google-research.github.io/seanet/musiclm/diverse_music/.
Данная работа исследует выбор высококачественных данных для предварительного обучения из обширных корпусов для улучшения возможностей языковых моделей (LMs) для последующего использования. Мы формулируем выбор данных как обобщенную задачу оптимального управления, которую можно теоретически решить с помощью Принципа Максимума Понтрягина (PMP), что приводит к набору необходимых условий, характеризующих отношение между оптимальным выбором данных и динамикой обучения LM. Основываясь на этих теоретических результатах, мы представляем PMP-основанный выбор данных (PDS), фреймворк, который приближает оптимальный выбор данных путем решения условий PMP. В наших экспериментах мы используем PDS для выбора данных из CommmonCrawl и показываем, что выбранный PDS корпус ускоряет обучение LMs и постоянно повышает их производительность на широком спектре последующих задач при различных размерах моделей. Более того, выгоды от PDS распространяются на модели размером ~400 млрд, обученные на ~10 трлн токенов, как показано экстраполяцией кривых тестовых потерь в соответствии с законами масштабирования. PDS также улучшает использование данных, когда объем данных для предварительного обучения ограничен, путем сокращения потребности в данных в 1,8 раза, что смягчает быстрое истощение доступных корпусов, полученных из веб-сканирования. Наш код, данные и контрольные точки моделей можно найти по ссылке https://github.com/microsoft/LMOps/tree/main/data_selection.
Видео временное закрепление (VTG) является ключевой способностью для моделей понимания видео и играет важную роль в последующих задачах, таких как просмотр и редактирование видео. Для эффективной обработки различных задач одновременно и обеспечения нулевого прогнозирования, наблюдается растущий тренд в использовании видео LLMs для задач VTG. Однако текущие методы на основе видео LLM полагаются исключительно на генерацию естественного языка, лишаясь способности моделировать четкую структуру, присущую видео, что ограничивает их эффективность в решении задач VTG. Для решения этой проблемы в данной статье впервые формально представлена модель фреймворка причинно-следственных событий, которая представляет видео как последовательности событий и предсказывает текущее событие, используя предыдущие события, видеовходы и текстовые инструкции. Каждое событие состоит из трех компонентов: временных меток, значимых оценок и текстовых подписей. Затем мы предлагаем новый задачно-переплетенный видео LLM под названием TRACE для эффективной реализации моделирования причинно-следственных событий на практике. TRACE обрабатывает визуальные кадры, временные метки, значимые оценки и текст как отдельные задачи, используя различные кодировщики и декодирующие головы для каждой из них. Токены задач упорядочены в переплетенной последовательности в соответствии с формулировкой моделирования причинно-следственных событий. Обширные эксперименты на различных задачах и наборах данных VTG демонстрируют превосходное качество работы TRACE по сравнению с передовыми видео LLMs. Наша модель и код доступны по адресу https://github.com/gyxxyg/TRACE.
Поскольку многомодальные крупные языковые модели (MLLM) продолжают демонстрировать все более конкурентоспособные результаты в широком спектре задач, были разработаны более сложные и всесторонние бенчмарки для оценки этих передовых моделей. Эти бенчмарки вводят новые вызовы для основных возможностей, таких как восприятие, рассуждение и планирование. Однако существующие многомодальные бенчмарки не обеспечивают фокусированной оценки многошагового планирования на основе пространственных отношений в изображениях. Для заполнения этого пробела мы представляем ING-VP, первый игровой бенчмарк на основе зрительного планирования, специально разработанный для оценки пространственного воображения и многошаговых рассуждений MLLM. ING-VP включает в себя 6 различных игр, охватывающих 300 уровней, каждый из которых имеет 6 уникальных конфигураций. Одна модель участвует в более чем 60 000 раундов взаимодействия. Фреймворк бенчмарка позволяет использовать несколько настроек сравнения, включая ввод изображения-текст против только текста, одношаговое против многошагового рассуждения, а также условия с историей и без истории, предоставляя ценные исследования возможностей модели. Мы оценили множество передовых MLLM, и наилучшая модель, Claude-3.5 Sonnet, достигла средней точности всего лишь 3,37%, значительно ниже ожидаемого стандарта. Эта работа направлена на создание специализированного фреймворка оценки для продвижения вместимости MLLM в сложном пространственном рассуждении и планировании. Код общедоступен по адресу https://github.com/Thisisus7/ING-VP.git.
Следование инструкциям является ключевой способностью для LLMs. Однако недавние исследования показали, что LLMs часто испытывают затруднения с инструкциями, содержащими несколько ограничений (например, запрос на создание сообщения в социальных сетях "веселого тоном" без хэштега). Несмотря на это, большинство оценок сосредоточены исключительно на синтетических данных. Для решения этой проблемы мы представляем RealInstruct, первый бенчмарк, разработанный для оценки способности LLMs следовать реальным многоусловным инструкциям, используя запросы, которые реальные пользователи задавали искусственным интеллектуальным помощникам. Мы также исследуем модельную оценку как экономически эффективную альтернативу аннотации людей для этой задачи. Наши результаты показывают, что даже частная модель GPT-4 не соблюдает как минимум одно ограничение в более чем 21% инструкций, подчеркивая ограничения современных моделей. Для устранения разрыва в производительности между открытыми и частными моделями мы предлагаем пайплайн самокоррекции Decompose, Critique and Refine (DeCRIM), который улучшает способность LLMs следовать ограничениям. DeCRIM работает путем декомпозиции исходной инструкции на список ограничений и использования модели Critic для принятия решения о том, когда и где ответ LLM требует улучшения. Наши результаты показывают, что DeCRIM улучшает производительность Mistral на 7.3% на RealInstruct и на 8.0% на IFEval даже с недостаточной обратной связью. Более того, мы демонстрируем, что с сильной обратной связью открытые LLMs с DeCRIM могут превзойти GPT-4 на обоих бенчмарках.
Поскольку модели диффузии текста в изображение становятся достаточно продвинутыми для коммерческих приложений, возрастает обеспокоенность их потенциальным злоупотреблением и вредоносным использованием. Для смягчения этих опасений было предложено применение метода разучивания модели для удаления нежелательной и потенциально вредоносной информации из предварительно обученной модели. До сих пор успех разучивания в основном измерялся по способности разученной модели генерировать целевое понятие, сохраняя качество изображения. Однако разучивание обычно тестируется в ограниченных сценариях, и побочные эффекты разучивания едва ли были изучены в существующей литературе. В данной работе мы тщательно анализируем разучивание в различных сценариях с пятью ключевыми аспектами. Наше исследование показывает, что каждый метод имеет побочные эффекты или ограничения, особенно в более сложных и реалистичных ситуациях. Предоставляя наш комплексный оценочный каркас с исходными кодами и артефактами, мы надеемся вдохновить дальнейшие исследования в этой области, что приведет к более надежным и эффективным методам разучивания.
Хотя большие языковые модели (LLM) уже интегрировали изображения, их адаптация к графам остается сложной, что ограничивает их применение в областях материалов и разработке лекарств. Эта сложность обусловлена необходимостью согласованной авторегрессивной генерации текстов и графов. Для решения этой проблемы мы представляем Llamole, первую мультимодальную LLM, способную к чередующейся генерации текста и графов, что позволяет молекулярное обратное проектирование с планированием ретросинтеза. Llamole интегрирует базовую LLM с Трансформером Диффузии Графа и Графовыми Нейронными Сетями для мультиусловной молекулярной генерации и вывода реакций в текстах, в то время как LLM, обладающая улучшенным пониманием молекул, гибко контролирует активацию среди различных графовых модулей. Кроме того, Llamole интегрирует поиск A* с функциями стоимости на основе LLM для эффективного планирования ретросинтеза. Мы создаем наборы данных для сравнения и проводим обширные эксперименты для оценки Llamole по сравнению с обучением в контексте и надзорным дообучением. Llamole значительно превосходит 14 адаптированных LLM по 12 метрикам для управляемого молекулярного дизайна и планирования ретросинтеза.
Недавно представленные системы диалога продемонстрировали высокую удобство использования. Однако они все еще не способны отражать сценарии разговоров в реальном мире. Текущие системы диалога проявляют неспособность воспроизводить динамичные, непрерывные, долгосрочные взаимодействия с участием нескольких партнеров. Этот недостаток возникает из-за ограниченных усилий по учету обоих аспектов реальных диалогов: глубоких слоистых взаимодействий в течение долгого диалога и широко расширенных сетей разговора с участием нескольких участников. В результате усилий по включению этих аспектов мы представляем Mixed-Session Conversation, систему диалога, разработанную для создания разговоров с различными партнерами в многосессионной настройке диалога. Мы предлагаем новый набор данных под названием MiSC для реализации этой системы. Диалоговые эпизоды MiSC состоят из 6 последовательных сессий, в каждом эпизоде участвуют четыре диктора (один основной диктор и три партнера). Кроме того, мы предлагаем новую модель диалога с новым механизмом управления памятью, называемую Агент Диалога с Улучшенной Эгоцентрической Памятью для Смешанных Сессий (EMMA). EMMA собирает и сохраняет воспоминания с точки зрения основного диктора во время разговоров с партнерами, обеспечивая бесперебойную непрерывность в последующих взаимодействиях. Обширные оценки людей подтверждают, что диалоги в MiSC демонстрируют плавный разговорный поток, даже когда партнеры разговора меняются в каждой сессии. EMMA, обученная на MiSC, также оценивается на способность сохранять высокую запоминаемость без противоречий на протяжении всего разговора.
Генерация длинного рассказа длиной в несколько тысяч слов с согласованной повествовательной структурой с использованием больших языковых моделей (LLM) представляет собой сложную задачу. Предыдущие исследования решали эту проблему, предлагая различные фреймворки, которые создают план рассказа и генерируют длинный рассказ на основе этого плана. Однако эти фреймворки в основном сосредотачивались на поддержании согласованности повествования в рассказах, часто упуская из виду креативность в планировании сюжета и выразительность сгенерированных из этих планов рассказов, которые являются желательными свойствами для привлечения интереса читателей. В данной статье мы предлагаем фреймворк Коллективных Критиков для Творческой Генерации Рассказов (CritiCS), который состоит из этапа уточнения плана (CrPlan) и этапа генерации рассказа (CrText), чтобы интегрировать коллективный механизм редактирования, способствующий этим свойствам в процессе генерации длинной формы рассказа. Конкретно, на каждом этапе группа критиков LLM и один лидер сотрудничают для поэтапного улучшения черновиков плана и рассказа на протяжении нескольких раундов. Обширная человеческая оценка показывает, что CritiCS может значительно улучшить креативность рассказа и вовлеченность читателя, сохраняя при этом согласованность повествования. Более того, дизайн фреймворка позволяет активное участие человеческих авторов в любой роли в процессе критики, обеспечивая интерактивное взаимодействие человека и машины в написании рассказа.
Мы предлагаем TextToon, метод генерации управляемого анимационного аватара. Учитывая короткую видеопоследовательность с монокулярным видом и письменную инструкцию о стиле аватара, наша модель может создавать высококачественный анимационный аватар, который может быть управляем в реальном времени другим видео с произвольными идентичностями. Существующие связанные работы тяжело полагаются на многоплоскостное моделирование для восстановления геометрии через текстурные вложения, представленные статически, что приводит к ограничениям управления. Многоплоскостной видеовход также затрудняет развертывание этих моделей в приложениях реального мира. Для решения этих проблем мы принимаем условное встраивание Три-плоскости для изучения реалистичных и стилизованных лицевых представлений в поле гауссовского искажения. Кроме того, мы расширяем возможности стилизации 3D Гауссовского Сплетения, представив адаптивную нейронную сеть пиксельного сдвига и используя патч-осведомленное контрастное обучение для достижения изображений высокого качества. Для внедрения нашей работы в потребительские приложения мы разработали систему реального времени, способную работать со скоростью 48 кадров в секунду на машине с GPU и 15-18 кадров в секунду на мобильной машине. Обширные эксперименты демонстрируют эффективность нашего подхода в создании текстовых аватаров по сравнению с существующими методами в плане качества и анимации в реальном времени. Пожалуйста, обратитесь к нашей странице проекта для получения более подробной информации: https://songluchuan.github.io/TextToon/.
Обучение в контексте (ICL) - это способность модели изучать новую задачу, наблюдая за несколькими образцами в ее контексте. Хотя это распространено в обработке естественного языка (NLP), эта возможность недавно также была замечена в настройках Обучения с Подкреплением (RL). Однако ранее существующие методы обучения в контексте RL требуют целые эпизоды в контексте агента. Учитывая, что сложные среды обычно приводят к длинным эпизодам с редкими вознаграждениями, эти методы ограничены простыми средами с короткими эпизодами. Для решения этих проблем мы представляем Решающий Трансформер с Поиском (RA-DT). RA-DT использует механизм внешней памяти для хранения прошлых опытов, из которых он извлекает только под-траектории, соответствующие текущей ситуации. Компонент поиска в RA-DT не требует обучения и может быть полностью доменно-независимым. Мы оцениваем возможности RA-DT на средах сетки, симуляциях робототехники и процедурно-генерируемых видеоиграх. На сетках RA-DT превосходит базовые показатели, используя только долю их длины контекста. Кроме того, мы раскрываем ограничения текущих методов обучения в контексте RL на сложных средах и обсуждаем будущие направления. Для облегчения будущих исследований мы выпускаем наборы данных для четырех рассматриваемых сред.
Исследование разрабатывает и оценивает адверсарный потенциал для внедрения скопированного кода или вымышленных рекомендаций искусственного интеллекта для вредоносного кода в популярные репозитории кода. В то время как фундаментальные большие языковые модели (LLM) от OpenAI, Google и Anthropic защищают от вредоносных действий и токсичных строк, предыдущие работы по математическим решениям, встраивающим вредоносные запросы, показывают, что ограничения могут различаться в зависимости от экспертного контекста. Эти уязвимости могут проявиться в смеси моделей экспертов, когда меняется контекст вопроса и могут предложить меньше вредоносных обучающих примеров для фильтрации токсичных комментариев или рекомендованных оскорбительных действий. Настоящая работа демонстрирует, что фундаментальные модели могут отказаться предложить разрушительные действия правильно при явном запросе, но, к сожалению, могут снизить бдительность при внезапном изменении контекста, например, при решении задачи по компьютерному программированию. Мы приводим эмпирические примеры с репозиториями, содержащими трояны, такими как GitHub, NPM, NuGet, и популярными сетями доставки контента (CDN), такими как jsDelivr, которые увеличивают поверхность атаки. В указаниях LLM для оказания помощи приводятся рекомендации примеров, предлагающие конечные точки интерфейса прикладного программирования (API), которые целеустремленный домен-захватчик может приобрести и настроить атакующую мобильную инфраструктуру, запускающуюся от наивно скопированного кода. Мы сравниваем эту атаку с предыдущими работами по сдвигу контекста и контрастируем поверхность атаки как новую версию атак "жизнь на земле" в литературе о вредоносных программах. В последнем случае фундаментальные языковые модели могут использовать иначе невинные запросы пользователей для рекомендации действий, нарушающих политику безопасности их владельцев, когда они задаются напрямую без соответствующего запроса на поддержку кодирования.
Игра на пианино требует ловкого, точного и согласованного управления руками, выходящего за пределы ловкости. Модели движения рук с достаточной сложностью для точного воссоздания игры на пианино имеют широкий спектр применений в анимации персонажей, инкорпорированном искусственном интеллекте, биомеханике и виртуальной/дополненной реальности. В данной статье мы создаем уникальный крупномасштабный набор данных, содержащий около 10 часов трехмерного движения рук и аудио от 15 пианистов высокого уровня, исполняющих 153 произведения классической музыки. Для захвата естественных выступлений мы разработали маркерную систему, в которой движения восстанавливаются из многокамерных видео с использованием передовых моделей оценки поз. Данные о движении дополнительно уточняются с помощью обратной кинематики с использованием данных о нажатии клавиш MIDI высокого разрешения, полученных от датчиков в специализированном пианино Yamaha Disklavier. Используя собранный набор данных, мы разработали конвейер, способный синтезировать физически правдоподобные движения рук для музыкальных нот за пределами набора данных. Наш подход использует комбинацию обучения имитации и обучения с подкреплением для получения стратегий для физически основанного бимануального управления, включающего взаимодействие между руками и клавишами пианино. Для решения проблемы эффективности выборки с большим набором данных о движении мы используем модель диффузии для генерации естественных опорных движений, которые предоставляют информацию о высокоуровневой траектории и фингеринге (порядок и расположение пальцев). Однако только сгенерированное опорное движение не обеспечивает достаточной точности для моделирования игры на пианино. Затем мы дополнили данные, используя музыкальную схожесть для извлечения аналогичных движений из захваченного набора данных для увеличения точности стратегии обучения с подкреплением. С предложенным методом наша модель генерирует естественные, ловкие движения, которые обобщаются на музыку за пределами обучающего набора данных.
Мы представляем MLE-bench, набор данных для измерения производительности искусственного интеллекта в области инженерии машинного обучения. Для этого мы отбираем 75 соревнований, связанных с инженерией машинного обучения на платформе Kaggle, создавая разнообразный набор сложных задач, проверяющих навыки инженерии машинного обучения в реальном мире, такие как обучение моделей, подготовка наборов данных и проведение экспериментов. Мы устанавливаем базовые уровни для каждого соревнования, используя общедоступные таблицы лидеров Kaggle. Мы используем агентские каркасы с открытым исходным кодом для оценки нескольких передовых языковых моделей на нашем наборе данных, обнаруживая, что наилучшая конфигурация - o1-preview от OpenAI с каркасом AIDE - достигает по меньшей мере уровня бронзовой медали Kaggle в 16,9% соревнований. Помимо основных результатов, мы исследуем различные формы масштабирования ресурсов для искусственного интеллекта и влияние загрязнения от предварительного обучения. Мы предоставляем наш код набора данных с открытым исходным кодом (github.com/openai/mle-bench/), чтобы облегчить будущие исследования в понимании возможностей инженерии машинного обучения искусственного интеллекта.
В разработке программного обеспечения реального мира неправильная или отсутствующая обработка исключений может серьезно повлиять на надежность и надёжность кода. Механизмы обработки исключений требуют, чтобы разработчики обнаруживали, захватывали и управляли исключениями в соответствии с высокими стандартами, однако многие разработчики испытывают затруднения с этими задачами, что приводит к хрупкому коду. Эта проблема особенно заметна в проектах с открытым исходным кодом и влияет на общее качество программной экосистемы. Для решения этой проблемы мы исследуем применение больших языковых моделей (БЯМ) для улучшения обработки исключений в коде. Проведя обширный анализ, мы выявляем три ключевые проблемы: Нечувствительное обнаружение хрупкого кода, Неточный захват типов исключений и Искаженные решения обработки. Эти проблемы широко распространены в репозиториях реального мира, что свидетельствует о том, что надежные практики обработки исключений часто игнорируются или неправильно обрабатываются. В ответ мы предлагаем Seeker, мультиагентный фреймворк, вдохновленный стратегиями опытных разработчиков по обработке исключений. Seeker использует агентов: Сканер, Детектор, Хищник, Ранжировщик и Обработчик для помощи БЯМ в более эффективном обнаружении, захвате и разрешении исключений. Наша работа является первым систематическим исследованием по использованию БЯМ для улучшения практик обработки исключений, предоставляя ценные идеи для будущих улучшений в надежности кода.
Сохранение многозрительной согласованности остается вызовом для моделей диффузии изображений. Даже в рамках проблемы Текст-в-Текстуру, где идеальные геометрические соответствия известны заранее, многие методы не могут обеспечить выравнивание прогнозов по всем видам, что требует применения нетривиальных методов слияния для интеграции результатов на исходную сетку. Мы исследуем эту проблему для рабочего процесса Совместного Управления, специфически в PBR Текст-в-Текстуру. Совместное Управление напрямую моделирует вероятностные распределения изображений PBR, включая нормальные карты выступов; насколько нам известно, это единственная модель диффузии, которая напрямую выводит полные стеки PBR. Мы обсуждаем проектировочные решения, связанные с обеспечением многозрительной согласованности этой модели, и демонстрируем эффективность нашего подхода в исследованиях по абляции, а также в практических применениях.
Психические расстройства являются одними из самых серьезных заболеваний в мире. Большинство людей, страдающих от такого заболевания, лишены доступа к адекватной помощи, что подчеркивает важность обучения моделей для диагностики и лечения психических расстройств. Однако в области психического здоровья ограничения конфиденциальности ограничивают доступ к персонализированным данным о лечении, что затрудняет создание мощных моделей. В данной статье мы представляем MentalArena, фреймворк самообучения для обучения языковых моделей путем генерации персонализированных данных, специфичных для области, где мы получаем лучшую модель, способную проводить персонализированную диагностику и лечение (в роли терапевта) и предоставлять информацию (в роли пациента). Для точного моделирования пациентов с психическими расстройствами, похожих на человека, мы разрабатываем Symptom Encoder, который имитирует реального пациента с точки зрения как когнитивных, так и поведенческих аспектов. Для решения проблемы предвзятости намерений во время взаимодействия пациент-терапевт мы предлагаем Symptom Decoder для сравнения диагностированных симптомов с закодированными симптомами и динамического управления диалогом между пациентом и терапевтом в соответствии с выявленными отклонениями. Мы оценили MentalArena на 6 бенчмарках, включая biomedicalQA и задачи по психическому здоровью, в сравнении с 6 передовыми моделями. Наши модели, донастроенные как на GPT-3.5, так и на Llama-3-8b, значительно превзошли своих аналогов, включая GPT-4o. Мы надеемся, что наша работа может вдохновить будущие исследования в области персонализированной помощи. Код доступен по ссылке https://github.com/Scarelette/MentalArena/tree/main
Этот документ представляет TinyEmo, семейство небольших мультимодальных языковых моделей для эмоционального рассуждения и классификации. Наш подход включает: (1) синтетический набор данных для обучения и донастройки, (2) Метрический Проектор, который делегирует классификацию от языковой модели для более эффективного обучения и вывода, (3) мультимодальную большую языковую модель (MM-LLM) для эмоционального рассуждения и (4) полуавтоматизированную систему обнаружения предвзятости. TinyEmo способен выполнять классификацию эмоций и эмоциональное рассуждение, используя значительно меньше параметров, чем аналогичные модели. Эта эффективность позволяет нам свободно включать более разнообразные эмоциональные наборы данных, обеспечивая высокую производительность при классификации, причем наша самая маленькая модель (700 миллионов параметров) превосходит более крупные передовые модели на основе мультимодальных больших языковых моделей с общим количеством параметров более 7 миллиардов. Кроме того, Метрический Проектор обеспечивает интерпретируемость и косвенное обнаружение предвзятости в больших моделях без дополнительного обучения, предлагая подход к пониманию и улучшению ИИ-систем. Мы публикуем код, модели и набор данных на https://github.com/ggcr/TinyEmo
Недавние достижения в области крупных языковых моделей (LLM) привели к утверждениям о том, что искусственный интеллект превосходит человека в обработке естественного языка (NLP) в задачах, таких как понимание текста и рассуждения. В данной работе исследуются эти утверждения путем представления CAIMIRA, новой концепции, основанной на теории ответов на элементы (IRT), которая позволяет количественно оценивать и сравнивать способности решения проблем агентов вопросно-ответной системы (QA): людей и систем искусственного интеллекта. Проведя анализ более 300 000 ответов от ~70 систем искусственного интеллекта и 155 человек на тысячах викторин, CAIMIRA выявляет отличные образцы мастерства в областях знаний и навыков рассуждения. Люди превосходят системы искусственного интеллекта в знаниево обоснованном абдуктивном и концептуальном рассуждении, в то время как передовые LLM, такие как GPT-4 и LLaMA, показывают более высокую производительность в целевом поиске информации и рассуждениях на основе фактов, особенно когда пробелы в информации четко определены и могут быть устранены с помощью сопоставления шаблонов или извлечения данных. Эти результаты подчеркивают необходимость того, чтобы будущие задачи QA фокусировались не только на вопросы, которые вызывают высшие виды рассуждений и научное мышление, но и требовали тонкой лингвистической интерпретации и применения знаний в различных контекстах, способствуя развитию искусственного интеллекта, который лучше эмулирует или дополняет когнитивные способности человека в решении проблем в реальном мире.
Модели встраивания имеют решающее значение для обеспечения различных последующих задач, таких как семантическая схожесть, информационный поиск и кластеризация. Недавно наблюдается всплеск интереса к разработке универсальных текстовых моделей встраивания, способных обобщаться на различные задачи (например, MTEB). Однако прогресс в обучении универсальных мультимодальных моделей встраивания оказался относительно медленным, несмотря на их важность. В данной работе мы стремимся исследовать потенциал создания универсальных встраивающих моделей, способных обрабатывать широкий спектр последующих задач. Наши вклады двойные: (1) MMEB (Massive Multimodal Embedding Benchmark), охватывающий 4 мета-задачи (классификация, визуальный вопросно-ответ, мультимодальный поиск и визуальное позиционирование) и 36 наборов данных, включая 20 наборов данных для обучения и 16 для оценки, и (2) VLM2Vec (Vision-Language Model -> Vector), контрастная обучающая структура, преобразующая любую передовую модель визуального и языкового моделирования в модель встраивания путем обучения на MMEB. В отличие от предыдущих моделей, таких как CLIP и BLIP, VLM2Vec может обрабатывать любую комбинацию изображений и текста для генерации вектора фиксированной размерности на основе инструкций задачи. Мы создаем серию моделей VLM2Vec на Phi-3.5-V и оцениваем их на оценочном разделении MMEB. Наши результаты показывают, что модель достигает абсолютного среднего улучшения от 10% до 20% по сравнению с существующими моделями мультимодального встраивания как на внутригрупповых, так и на внегрупповых наборах данных в MMEB.
Текущие стандарты для оценки моделей видео-языкового взаимодействия (VLM) часто сосредотачиваются на их способностях в восприятии или решении проблем и упускают из виду другие критические аспекты, такие как справедливость, мультиязычность или токсичность. Более того, они различаются в процедурах оценки и объеме оценки, что затрудняет сравнение моделей. Для решения этих проблем мы расширяем рамки HELM на модели видео-языкового взаимодействия для представления Голистической Оценки Моделей Видео-Языкового Взаимодействия (VHELM). VHELM объединяет различные наборы данных для охвата одного или нескольких из 9 аспектов: визуальное восприятие, знание, рассуждения, предвзятость, справедливость, мультиязычность, устойчивость, токсичность и безопасность. Таким образом, мы представляем всестороннее, многомерное представление о способностях моделей VLM по этим важным факторам. Кроме того, мы стандартизируем параметры стандартного вывода, методы подсказок и метрики оценки для обеспечения справедливых сравнений между моделями. Наша рамка разработана для того, чтобы быть легкой и автоматической, так чтобы оценочные запуски были дешевыми и быстрыми. Наш первоначальный запуск оценивает 22 модели VLM на 21 существующих наборах данных для предоставления всестороннего обзора моделей. Мы выявляем новые ключевые результаты, такие как то, что модели, сосредоточенные на эффективности (например, Claude 3 Haiku или Gemini 1.5 Flash), значительно хуже справляются на бенчмарке предвзятости по сравнению со своими полными моделями (например, Claude 3 Opus или Gemini 1.5 Pro), но не при оценке по другим аспектам. Для прозрачности мы публикуем сырые генерации моделей и полные результаты на нашем веб-сайте (https://crfm.stanford.edu/helm/vhelm/v2.0.1). VHELM призван быть живым стандартом и мы надеемся продолжать добавлять новые наборы данных и модели со временем.
Модели больших языковых моделей (LLM) с ориентацией на английский язык часто проявляют сильные мультиязычные возможности. Однако мультиязычная производительность этих моделей остается неясной и не подвергалась тщательной оценке для многих языков. Большинство бенчмарков для мультиязычности сосредоточены на классических задачах обработки естественного языка или охватывают минимальное количество языков. Мы представляем MEXA, метод для оценки мультиязычных возможностей предварительно обученных англо-центричных LLM с использованием параллельных предложений, доступных для большего количества языков, чем существующие задачи. MEXA использует тот факт, что англо-центричные LLM используют английский как своего рода опорный язык в промежуточных слоях. Он вычисляет соответствие между английским и неанглийскими языками с использованием параллельных предложений для оценки передачи языкового понимания от английского к другим языкам. Это соответствие может быть использовано для оценки производительности модели на других языках. Мы проводим исследования с использованием различных параллельных наборов данных (FLORES-200 и Библия), моделей (семейство Llama, семейство Gemma, Mistral и OLMo) и установленных задач (Belebele, m-MMLU и m-ARC). Мы исследуем различные методы вычисления вложений в моделях только с декодером. Наши результаты показывают, что MEXA в своих стандартных настройках достигает статистически значимой средней корреляции Пирсона 0.90 с тремя установленными задачами по двум параллельным наборам данных и девятью моделями. Это позволяет сделать вывод о том, что MEXA является надежным методом для оценки мультиязычных возможностей англо-центричных LLM, обеспечивая более ясное представление о их мультиязычном потенциале и внутренних механизмах LLM. Таблица лидеров: https://huggingface.co/spaces/cis-lmu/Mexa, Код: https://github.com/cisnlp/Mexa.
Одним из важных преимуществ рекуррентных нейронных сетей (RNN) перед языковыми моделями на основе трансформеров является их линейная вычислительная сложность по длине последовательности, что делает их намного быстрее в обработке длинных последовательностей во время вывода. Однако большинство общедоступных RNN (например, Mamba и RWKV) обучены на последовательностях с менее чем 10 тыс. токенов, и их эффективность в более длинных контекстах до сих пор остается в значительной степени неудовлетворительной. В данной статье мы изучаем причину неспособности обрабатывать длинный контекст для RNN и предлагаем критические меры по устранению этой проблемы. Мы рассматриваем две практические проблемы при применении современных RNN к длинным контекстам: (1) неспособность экстраполировать на входы длиннее длины обучения и (2) верхний предел памяти. Для решения первой проблемы мы в первую очередь исследуем *крах состояния* (SC), явление, которое вызывает серьезное снижение производительности на длинах последовательностей, не встреченных во время обучения. Проведя контролируемые эксперименты, мы приписываем это переобучению из-за избыточного параметризирования рекуррентного состояния для длины обучения. Для второй проблемы мы обучаем серию моделей Mamba-2 на длинных документах для эмпирической оценки емкости рекуррентного состояния в языковом моделировании и извлечении ключа. Затем предлагаются три метода устранения SC для улучшения обобщаемости Mamba-2 по длине, позволяя модели обрабатывать более 1 млн токенов без SC. Мы также обнаруживаем, что емкость рекуррентного состояния в извлечении ключа масштабируется экспоненциально по размеру состояния, и эмпирически обучаем Mamba-2 370M с практически идеальной точностью извлечения ключа на длине контекста 256 тыс. Это указывает на многообещающее будущее для моделирования длинного контекста на основе RNN.
Еще нет. Мы представляем SPACE, бенчмарк, который систематически оценивает пространственное когнитивное восприятие в передовых моделях. Наш бенчмарк основан на десятилетиях исследований в области когнитивной науки. Он оценивает возможности крупномасштабного картографирования, которые используются организмом при перемещении в физических средах, мелкомасштабное рассуждение о формах объектов и их расположении, а также когнитивную инфраструктуру, такую как пространственное внимание и память. Для многих задач мы создаем параллельные представления с использованием текста и изображений, что позволяет нам оценивать как крупные языковые модели, так и крупные мультимодальные модели. Результаты свидетельствуют о том, что современные передовые модели уступают в пространственном интеллекте животным, показывая результаты близкие к случайному уровню на ряде классических тестов когнитивных способностей животных.