Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя большие языковые модели (LLM) блестяще справляются с задачами генерации, их архитектура только декодера часто ограничивает их потенциал как моделей встраивания, если не применяется дополнительное донастройка представления. Противоречит ли это их утверждению о общих способностях? Чтобы ответить на этот вопрос, мы внимательно рассмотрим модели LLM смеси экспертов (MoE). Наше исследование показывает, что маршрутизаторы экспертов в моделях MoE LLM могут служить моделью встраивания «из коробки» с многообещающей производительностью на разнообразных классах задач, сосредоточенных на встраивании, без необходимости какой-либо донастройки. Более того, наш обширный анализ показывает, что веса маршрутизации MoE (RW) дополняют скрытое состояние (HS) LLM, широко используемое встраивание. По сравнению с HS, мы обнаружили, что RW более устойчив к выбору подсказок и фокусируется на семантике высокого уровня. Под влиянием анализа мы предлагаем MoEE, объединяющий RW и HS, что дает лучшую производительность, чем использование их по отдельности. Наше исследование их комбинации и стратегии подсказок привели к нескольким новым идеям, например, взвешенная сумма сходств RW и HS превосходит сходство их конкатенации. Наши эксперименты проводились на 6 задачах встраивания с 20 наборами данных из Бенчмарка массового текстового встраивания (MTEB). Результаты демонстрируют значительное улучшение, достигнутое MoEE для встраивания на основе LLM без дополнительной донастройки.
Адаптация медицинских моделей больших языковых моделей к местным языкам может снизить барьеры для доступа к медицинским услугам, однако недостаток данных остается значительным вызовом, особенно для языков с ограниченными ресурсами. Для решения этой проблемы мы сначала создаем высококачественный медицинский набор данных и проводим анализ для обеспечения его качества. Чтобы использовать возможность обобщения мультиязычных моделей больших языковых моделей для эффективного масштабирования на языки с ограниченными ресурсами, мы исследуем внутренний информационный поток LLM с мультиязычной перспективы, используя модульность Mixture of Experts (MoE). Технически мы предлагаем новый метод маршрутизации MoE, который использует языковые эксперты и межъязыковую маршрутизацию. Вдохновленный теорией цепей, наш анализ маршрутизации выявил механизм распределения информации Spread Out in the End: в то время как более ранние слои концентрируют межъязыковый информационный поток, более поздние слои проявляют языковую специфичность. Это наблюдение прямо привело к разработке архитектуры Post-MoE, которая применяет разреженную маршрутизацию только в более поздних слоях, сохраняя плотные другие. Экспериментальные результаты показывают, что этот подход улучшает обобщение мультиязычных моделей на другие языки, сохраняя интерпретируемость. Наконец, чтобы эффективно масштабировать модель до 50 языков, мы вводим концепцию языковых семейных экспертов, опираясь на лингвистические априорные знания, что позволяет увеличить количество языков без добавления дополнительных параметров.
Увеличение размера окна контекста для крупных языковых моделей (LLM) стало ключевой областью исследований, особенно для приложений, включающих крайне длинные тексты. В данной работе мы предлагаем новую рамочную систему обработки длинных текстов без обучения, используя стратегию "разделяй и властвуй" для достижения всестороннего понимания документа. Предложенная рамочная система LLMtimesMapReduce разбивает весь документ на несколько частей для чтения LLM, а затем агрегирует промежуточные ответы для получения окончательного результата. Основным вызовом для рамочных систем обработки длинных текстов "разделяй и властвуй" является риск потери важной информации на большие расстояния при разделении документа, что может привести к тому, что модель выдаст неполные или неверные ответы на основе сегментированных текстов. Потерянную информацию на большие расстояния можно классифицировать на две категории: зависимость между частями и конфликт между частями. Мы разработали структурированный протокол информации для более эффективного управления зависимостью между частями и механизм калибровки уверенности в контексте для разрешения конфликтов между частями. Экспериментальные результаты показывают, что LLMtimesMapReduce может превзойти представительные открытые и коммерческие LLM с длинным контекстом и применим к нескольким различным моделям.
При масштабировании крупных языковых моделей (LLM) на основе трансформера продемонстрировано многообещающее качество работы в различных задачах, однако это также вносит избыточные архитектуры, представляя вызовы эффективности для реального применения. Несмотря на некоторое признание избыточности в LLM, вариабельность избыточности в различных архитектурах трансформеров, таких как слои MLP и Attention, остается мало исследованной. В данной работе мы исследуем избыточность в различных модулях внутри трансформеров, включая блоки, слои MLP и Attention, с использованием метрики на основе сходства. Удивительно, несмотря на критическую роль слоев внимания в отличии трансформеров от других архитектур, мы обнаружили, что значительная часть этих слоев обладает чрезмерно высоким сходством и может быть обрезана без ухудшения производительности. Например, Llama-2-70B достигла ускорения на 48,4\% при обрезке половины слоев внимания при падении производительности всего на 2,4\%. Более того, отслеживая контрольные точки модели на протяжении процесса обучения, мы обнаружили, что избыточность слоев внимания присуща и постоянна на протяжении этапов обучения. Кроме того, мы предлагаем метод, который совместно удаляет слои Attention и MLP, что позволяет более агрессивно удалять дополнительные слои. Например, при удалении 31 слоя (Attention + MLP), Llama-2-13B все равно сохраняет 90\% производительности в задаче MMLU. Наша работа предоставляет ценные идеи для дальнейшего проектирования архитектуры сетей. Код доступен по ссылке: https://github.com/Shwai-He/LLM-Drop.
Многомодельные модели больших языков (MLLMs) часто проявляют явления галлюцинаций, однако основные причины остаются плохо понятыми. В данной статье мы представляем эмпирический анализ и обнаруживаем, что, хотя MLLMs неправильно генерируют объекты в конечном выводе, они фактически способны распознавать визуальные объекты в предшествующих слоях. Мы предполагаем, что это может быть связано с сильными априорными знаниями языковой модели, подавляющими визуальную информацию, что приводит к галлюцинациям. Вдохновленные этим, мы предлагаем новый метод динамической коррекции декодирования для MLLMs (DeCo), который адаптивно выбирает соответствующие предшествующие слои и пропорционально интегрирует знания в конечный слой для коррекции выводных логитов. Следует отметить, что DeCo не привязан к модели и может быть легко интегрирован с различными классическими стратегиями декодирования и применен к различным MLLMs. Мы оцениваем DeCo на широко используемых бенчмарках, демонстрируя, что он может значительно снизить уровень галлюцинаций по сравнению с базовыми моделями, подчеркивая его потенциал по смягчению галлюцинаций. Код доступен по ссылке https://github.com/zjunlp/DeCo.
Современные методы оценки недостаточно эффективны для агентных систем. Эти подходы либо сосредотачиваются исключительно на конечных результатах, игнорируя пошаговую природу агентных систем, либо требуют излишнего ручного труда. Для решения этой проблемы мы представляем концепцию Агент-судья, в рамках которой агентные системы используются для оценки других агентных систем. Это органическое расширение концепции LLM-судья, включающее агентные особенности, обеспечивающие промежуточную обратную связь для всего процесса решения задачи. Мы применяем концепцию Агент-судья к задаче генерации кода. Чтобы преодолеть проблемы существующих бенчмарков и предоставить тестовую площадку для концепции Агент-судья, мы представляем DevAI, новый бенчмарк из 55 реалистичных автоматизированных задач по разработке искусственного интеллекта. Он включает обширные ручные аннотации, такие как общее количество 365 иерархических пользовательских требований. Мы проводим сравнительный анализ трех популярных агентных систем с использованием концепции Агент-судья и обнаруживаем, что она значительно превосходит концепцию LLM-судья и также надежна, как наша базовая оценка человеком. В целом, мы считаем, что концепция Агент-судья представляет собой конкретный шаг вперед для современных агентных систем, предоставляя богатые и надежные сигналы вознаграждения, необходимые для динамичного и масштабируемого самосовершенствования.
Эффективность моделей генерации видео в значительной степени зависит от качества их обучающих наборов данных. Большинство предыдущих моделей генерации видео обучались на коротких видеороликах, однако в последнее время возрос интерес к обучению длинных моделей генерации видео напрямую на более длинных видеороликах. Однако отсутствие высококачественных длинных видеороликов затрудняет развитие генерации длинных видео. Для стимулирования исследований в области генерации длинных видео мы стремимся к созданию нового набора данных с четырьмя ключевыми особенностями, необходимыми для обучения моделей генерации длинных видео: (1) длинные видеоролики, длительностью не менее 10 секунд, (2) длинные видеоролики без монтажа, (3) большое движение и разнообразные содержание, и (4) временно плотные подписи. Для достижения этой цели мы представляем новый пайплайн для выбора высококачественных длинных видеороликов и создания временно плотных подписей. Конкретно, мы определяем набор метрик для количественной оценки качества видео, включая сценические переходы, степень динамики и качество на семантическом уровне, что позволяет нам отфильтровать высококачественные длинные видеоролики из большого количества исходных видео. Впоследствии мы разрабатываем иерархический пайплайн для подписи видеороликов временно плотными подписями. С помощью этого пайплайна мы создаем первый набор данных длинных видеороликов, LVD-2M, включающий 2 миллиона длинных видеороликов без монтажа, каждый длительностью более 10 секунд и аннотированный временно плотными подписями. Мы также подтверждаем эффективность LVD-2M путем дообучения моделей генерации видео для создания длинных видеороликов с динамичными движениями. Мы уверены, что наша работа значительно внесет вклад в будущие исследования в области генерации длинных видео.
Большие языковые модели (LLM) продемонстрировали значительные улучшения в навыках рассуждения и принятия решений, а также способны вести естественные разговоры с пользователями. Недавно было предложено множество наборов данных для оценки использования инструментов. Однако существующие наборы данных имеют следующие ограничения: (1) Недостаточное количество сценариев оценки (например, охватывают только ограниченное количество сценариев использования инструментов). (2) Высокие затраты на оценку (например, затраты на использование API GPT). Для решения этих ограничений в данной работе мы предлагаем многоуровневый набор данных для оценки использования инструментов для больших языковых моделей под названием MTU-Bench. Для свойства "многоуровневости" наш MTU-Bench охватывает пять сценариев использования инструментов (т.е. однократный поворот и один инструмент, однократный поворот и несколько инструментов, многократный поворот и один инструмент, многократный поворот и несколько инструментов, а также задачи вне распределения). Кроме того, все метрики оценки нашего MTU-Bench основаны на результатах прогнозирования и истинных данных без использования каких-либо метрик оценки GPT или человеческой оценки. Более того, наш MTU-Bench собран путем преобразования существующих наборов данных высокого качества для имитации сценариев использования инструментов в реальном мире, и мы также предлагаем набор данных с инструкциями под названием MTU-Instruct для улучшения навыков использования инструментов существующих LLM. Обширные экспериментальные результаты демонстрируют эффективность нашего MTU-Bench. Код и данные будут опубликованы на https://github.com/MTU-Bench-Team/MTU-Bench.git.
В качестве одной из самых популярных и востребованных генеративных моделей в последние годы диффузионные модели привлекли интерес многих исследователей и постоянно проявляли превосходные преимущества в различных генеративных задачах, таких как синтез изображений, генерация видео, дизайн молекул, визуализация трехмерных сцен и мультимодальная генерация, опираясь на свои плотные теоретические принципы и надежные практики применения. Значительный успех этих недавних усилий по диффузионным моделям в значительной степени обусловлен прогрессивными принципами проектирования и эффективной архитектурой, методами обучения, вывода и развертывания. Однако до сих пор не было всестороннего и глубокого обзора для обобщения этих принципов и практик с целью облегчения быстрого понимания и применения диффузионных моделей. В этом обзоре мы предлагаем новую ориентированную на эффективность перспективу на эти существующие усилия, которая в основном сосредотачивается на глубоких принципах и эффективных практиках в проектировании архитектуры, обучении модели, быстром выводе и надежном развертывании, чтобы направить дальнейшие теоретические исследования, миграцию алгоритмов и применение моделей для новых сценариев способом, доступным для читателя.
Большие языковые модели (LLM), совмещенные с обучением инструментов, показали впечатляющие результаты в реальных приложениях. Во время обучения инструментам LLM могут вызывать несколько инструментов во вложенном порядке, где вызов последнего инструмента может использовать ответ предыдущего в качестве входных параметров. Однако текущие исследования возможностей вложенного обучения инструментам все еще недостаточно исследованы, поскольку существующим бенчмаркам не хватает соответствующих данных. Для решения этой проблемы мы представляем NesTools для заполнения текущего пробела в комплексной оценке вложенного обучения инструментам. NesTools включает в себя новый метод автоматического создания данных для построения масштабных вложенных вызовов инструментов с различными структурами вложенности. После ручного просмотра и усовершенствования набор данных имеет высокое качество и тесно соответствует реальным сценариям. Следовательно, NesTools может служить новым бенчмарком для оценки возможностей вложенного обучения инструментам LLM. Мы проводим обширные эксперименты на 22 LLM и предоставляем глубокий анализ с использованием NesTools, который показывает, что текущие LLM все еще испытывают сложности с задачей вложенного обучения инструментам.
Существующие работы установили несколько стандартов для выявления уязвимостей, связанных с генерацией кода с использованием искусственного интеллекта (Code GenAI). Эти риски в основном проявляются в двух областях: потенциал модели генерировать небезопасный код (небезопасное кодирование) и ее полезность в кибератаках (помощь в кибератаках). Хотя эти стандарты сделали значительные шаги вперед, остаются возможности для дальнейшего улучшения. Например, многие текущие стандарты склонны сконцентрироваться больше на способности модели предлагать советы по атакам, чем на ее способности генерировать исполнимые атаки. Кроме того, большинство стандартов полагаются в основном на статические метрики оценки, которые могут быть менее точными, чем динамические метрики, такие как прохождение тестов. Напротив, стандарты, проверенные экспертами, хотя и предлагают данные высокого качества, часто работают в меньшем масштабе. Для заполнения этих пробелов мы разрабатываем SecCodePLT, единый и всесторонний платформу оценки рисков генерации кода с использованием искусственного интеллекта. Для небезопасного кода мы предлагаем новую методологию создания данных, которая объединяет экспертов с автоматической генерацией. Наш метод обеспечивает качество данных, обеспечивая масштабную генерацию. Мы также ассоциируем образцы с тестовыми случаями для проведения динамической оценки, связанной с кодом. Для оценки полезности в кибератаках мы создаем реальную среду и создаем образцы для стимулирования модели к генерации реальных атак, вместе с динамическими метриками в нашей среде. Мы проводим обширные эксперименты и показываем, что SecCodePLT превосходит стандарт CyberSecEval в области безопасности. Более того, он лучше выявляет риски безопасности моделей SOTA в небезопасном кодировании и помощи в кибератаках. Наконец, мы применяем SecCodePLT к передовому кодовому агенту SOTA, Cursor, и впервые выявляем нетривиальные риски безопасности в этом продвинутом кодовом агенте.
Эхокардиография является наиболее широко используемым методом кардиологического изображения, который захватывает ультразвуковые видеоданные для оценки структуры и функции сердца. Искусственный интеллект (ИИ) в эхокардиографии имеет потенциал оптимизировать ручные задачи и улучшить воспроизводимость и точность. Однако большинство моделей ИИ в эхокардиографии представляют собой системы с одним видом и одной задачей, которые не синтезируют дополнительную информацию из нескольких видов, полученных во время полного обследования, что приводит к ограниченной производительности и области применения. Для решения этой проблемы мы представляем EchoPrime - многообзорную, информированную видом, видеооснованную модель основу визуально-языковой модели, обученную на более чем 12 миллионах пар видео-отчетов. EchoPrime использует контрастное обучение для обучения объединенной модели встраивания для всех стандартных видов в комплексном исследовании эхокардиограммы с представлением как редких, так и распространенных заболеваний и диагнозов. Затем EchoPrime использует классификацию видов и модель внимания, информированную видом, для взвешивания видео-специфических интерпретаций, которые точно отображают отношение между эхокардиографическими видами и анатомическими структурами. С помощью интерпретации с использованием поиска, EchoPrime интегрирует информацию из всех видео-эхокардиограмм в комплексном исследовании и выполняет голистическую клиническую интерпретацию эхокардиографии. В наборах данных из двух независимых систем здравоохранения EchoPrime достигает передовой производительности по 23 разнообразным показателям формы и функции сердца, превосходя производительность как задачно-специфических подходов, так и предыдущих базовых моделей. После тщательной клинической оценки EchoPrime может помочь врачам в автоматизированной предварительной оценке комплексной эхокардиографии.
Мы представляем пространственное и угловое гауссовское представление и тройной процесс слияния для синтеза освещения и видов в реальном времени высокого качества из многоточечно освещенных изображений. Для описания сложного вида мы используем ламбертовскую функцию плюс смесь угловых гауссовских функций в качестве эффективной функции отражения для каждой пространственной гауссовской функции. Для создания самозатенения мы сливаем все пространственные гауссовские функции в направлении источника света для получения значений теней, которые затем уточняются с помощью небольшого многослойного персептрона. Для компенсации других эффектов, таких как глобальное освещение, другая сеть обучается для вычисления и добавления RGB-кортежа для каждой пространственной гауссовской функции. Эффективность нашего представления демонстрируется на 30 образцах с широким разнообразием геометрии (от твердой до пушистой) и вида (от прозрачного до анизотропного), а также с использованием различных форм входных данных, включая синтетические/восстановленные объекты, фотографии, сделанные с помощью ручной камеры и вспышки, или с профессионального светового стенда. Мы достигаем времени обучения от 40 до 70 минут и скорости визуализации 90 кадров в секунду на одном торговом GPU. Наши результаты сравнимы с передовыми техниками по качеству и производительности. Наш код и данные доступны публично по адресу https://GSrelight.github.io/.
Недавние достижения в области компьютерного зрения (CV) и обработки естественного языка (NLP) в значительной степени обусловлены увеличением количества параметров сети, несмотря на традиционные теории, указывающие на то, что более крупные сети склонны к переобучению. Эти большие сети избегают переобучения путем интеграции компонентов, которые вызывают предвзятость к простоте, направляя модели к простым и обобщаемым решениям. Однако в глубоком обучении с подкреплением (RL) проектирование и увеличение масштабов сетей были менее исследованы. Вдохновленные этими возможностями, мы представляем SimBa, архитектуру, разработанную для увеличения параметров в глубоком RL путем внедрения предвзятости к простоте. SimBa состоит из трех компонентов: (i) слоя нормализации наблюдений, который стандартизирует входные данные с помощью текущих статистических данных, (ii) блока остаточной прямой связи для обеспечения линейного пути от входа к выходу и (iii) слоя нормализации для контроля величин признаков. Увеличивая параметры с помощью SimBa, эффективность использования выборок различных алгоритмов глубокого RL, включая алгоритмы с оффлайн, онлайн и без учителя, последовательно улучшается. Более того, просто интегрируя архитектуру SimBa в SAC, она соответствует или превосходит современные методы глубокого RL с высокой вычислительной эффективностью на платформах DMC, MyoSuite и HumanoidBench. Эти результаты демонстрируют широкие возможности и эффективность SimBa в различных алгоритмах и средах обучения с подкреплением.
Растущий спрос на универсальные робототехнические системы для работы в разнообразных и динамичных средах подчеркнул важность общего подхода, который использует большой корпус данных, охватывающий различные воплощения, для обеспечения широкой адаптивности и высокоуровневого рассуждения. Однако общий подход сталкивается с проблемами неэффективного вывода и дорогостоящего обучения. Специализированный подход, напротив, создан для конкретных данных области и отличается точностью на уровне задач с высокой эффективностью. Однако ему не хватает возможности обобщения для широкого спектра приложений. Вдохновленные этими наблюдениями, мы представляем RoboDual, синергетическую двойную систему, которая дополняет преимущества как общего, так и специализированного подходов. Для многошаговых последовательностей действий разработан специализированный подход на основе трансформера диффузии, изысканно настроенный на понимание задач на высоком уровне и дискретизированный выход действий на основе видео-языково-действенного (VLA) общего подхода. По сравнению с OpenVLA, RoboDual достигает улучшения на 26,7% в реальной среде и на 12% на CALVIN за счет внедрения специализированного подхода с всего лишь 20 млн обучаемых параметров. Он сохраняет высокую производительность, используя всего лишь 5% демонстрационных данных, и обеспечивает в 3,8 раза более высокую частоту управления в реальной среде. Код будет сделан общедоступным. Наша страница проекта размещена по адресу: https://opendrivelab.com/RoboDual/
Эффект взаимного усиления (MRE) исследует синергетическое взаимодействие между классификациями на уровне слов и уровне текста в задачах текстовой классификации. Он предполагает, что производительность обоих уровней классификации может быть взаимно улучшена. Однако данный механизм не был должным образом продемонстрирован или объяснен в предыдущих исследованиях. Для заполнения этого пробела мы используем эмпирический эксперимент для наблюдения и подтверждения теории MRE. Наши эксперименты на 21 наборе данных MRE показали наличие MRE в модели и его влияние. Конкретно, мы провели сравнительные эксперименты с использованием донастройки. Результаты исследований из сравнительных экспериментов подтверждают существование MRE. Более того, мы расширили применение MRE на обучение по подсказкам, используя информацию на уровне слов в качестве вербализатора для укрепления предсказания модели меток классификации на уровне текста. В нашем заключительном эксперименте значение F1-меры значительно превзошло базовый уровень в 18 из 21 наборов данных MRE Mix, дополнительно подтверждая идею о том, что информация на уровне слов улучшает понимание языковой модели текста в целом.
Недавние подходы пытаются адаптировать мощные модели интерактивной сегментации, такие как SAM, к интерактивному маскированию и настраивать модели на основе синтетических наборов данных для маскирования. Однако модели, обученные на синтетических данных, не обобщаются на сложные сцены с заслонениями. Мы решаем эту проблему, предлагая новый набор данных для маскирования на основе набора данных COCO, именуемый COCO-Matting. В частности, построение нашего COCO-Matting включает слияние аксессуаров и преобразование масок семантической сегментации в маскировочные ярлыки. Построенный COCO-Matting включает обширную коллекцию 38 251 матов альфа уровня экземпляров людей в сложных естественных сценариях. Кроме того, существующие методы маскирования на основе SAM извлекают промежуточные функции и маски из замороженного SAM и обучают только легкий декодер маскирования с помощью потерь маскирования от начала и до конца, что не полностью использует потенциал предварительно обученного SAM. Таким образом, мы предлагаем SEMat, который модернизирует архитектуру сети и цели обучения. Для архитектуры сети предложенный трансформер, выравненный по функциям, учится извлекать мелкозернистые края и прозрачные функции. Предложенный декодер, выравненный по матам, направлен на сегментацию объектов маскирования и преобразование грубых масок в высокоточные маты. Для целей обучения предложенная регуляризация и потери тримапа направлены на сохранение информации из предварительно обученной модели и на то, чтобы матовые логиты, извлеченные из декодера маски, содержали семантическую информацию на основе тримапа. Обширные эксперименты на семи разнообразных наборах данных демонстрируют превосходную производительность нашего метода, доказывая его эффективность в интерактивном маскировании естественных изображений. Мы предоставляем наш код, модели и набор данных в открытом доступе по адресу https://github.com/XiaRho/SEMat.
Эффективное извлечение и синтез информации из масштабных мультимодальных коллекций стало критической задачей. Однако существующие наборы данных для поиска видео страдают от ограничений в области применения, в основном сосредотачиваясь на сопоставлении описательных, но неопределенных запросов с небольшими коллекциями профессионально отредактированных видеороликов на английском языке. Для решения этого пробела мы представляем MultiVENT 2.0, крупномасштабный, многоязычный набор данных для поиска видео, собравший коллекцию из более чем 218 000 новостных видеороликов и 3 906 запросов, нацеленных на конкретные мировые события. Эти запросы специально ориентированы на информацию, содержащуюся в визуальном контенте, аудио, встроенном тексте и текстовых метаданных видеороликов, требуя от систем использования всех этих источников для успешного выполнения задачи. Предварительные результаты показывают, что современные модели визуально-языкового взаимодействия значительно затрудняются с этой задачей, и хотя альтернативные подходы показывают некоторые перспективы, они все еще недостаточны для адекватного решения этой проблемы. Эти результаты подчеркивают необходимость более надежных мультимодальных систем поиска, поскольку эффективный поиск видео является ключевым шагом к пониманию и генерации мультимодального контента.