Ежедневно отобранные исследовательские статьи по ИИ с переводами
Масштабирование вычислительных ресурсов на этапе тестирования больших языковых моделей демонстрирует впечатляющие результаты на бенчмарках, связанных с рассуждениями. Однако существующие оценки масштабирования на этапе тестирования основываются на сильном предположении, что система рассуждений всегда должна давать ответ на любой предоставленный вопрос. Это упускает из виду вопросы о том, уверена ли модель в своем ответе и уместно ли всегда предоставлять ответ. Чтобы устранить эти проблемы, мы извлекаем оценки уверенности в процессе рассуждений для пороговой фильтрации ответов модели. Мы обнаруживаем, что увеличение вычислительного бюджета на этапе вывода не только помогает моделям правильно отвечать на большее количество вопросов, но и повышает уверенность в правильных ответах. Затем мы расширяем текущую парадигму нулевого риска при оценке ответов, рассматривая сценарии с ненулевым уровнем риска, и предлагаем методику для представления оценок в таких условиях.
Существующие сквозные речевые модели с большим языковым охватом (LLM) обычно полагаются на крупномасштабные аннотированные данные для обучения, в то время как вопрос эффективного использования данных для обучения не был глубоко изучен. Мы сосредоточились на двух фундаментальных проблемах, связанных с речью и текстом: разрыв в пространстве представлений и несоответствие длины последовательностей. Мы предлагаем Soundwave, который использует эффективную стратегию обучения и новую архитектуру для решения этих проблем. Результаты показывают, что Soundwave превосходит передовую модель Qwen2-Audio в задачах перевода речи и речевых задачах AIR-Bench, используя лишь одну пятидесятую часть обучающих данных. Дополнительный анализ показывает, что Soundwave сохраняет свою интеллектуальность в ходе диалога. Проект доступен по адресу https://github.com/FreedomIntelligence/Soundwave.
Ряд недавних работ посвящен проблеме сжатия последовательности токенов в более короткую последовательность вещественных векторов, которые используются в качестве входных данных вместо встраиваний токенов или кэша ключ-значение. Эти подходы позволяют сократить объем вычислений в существующих языковых моделях. Несмотря на использование мощных моделей в качестве кодировщиков, максимально достижимый коэффициент сжатия без потерь обычно не превышает x10. Этот факт вызывает значительный интерес, поскольку, теоретически, максимальная информационная емкость больших вещественных векторов значительно превышает представленные значения даже для 16-битной точности и скромного размера вектора. В данной работе мы исследуем пределы сжатия, заменяя кодировщик процедурой оптимизации для каждого образца. Мы показываем, что существуют векторы с коэффициентами сжатия до x1500, что подчеркивает разрыв в два порядка величины между существующими и практически достижимыми решениями. Более того, мы эмпирически демонстрируем, что пределы сжатия определяются не длиной входных данных, а объемом неопределенности, которую необходимо уменьшить, а именно, кросс-энтропийной ошибкой на этой последовательности без какого-либо кондиционирования. Полученные пределы подчеркивают существенный разрыв между теоретической емкостью входных встраиваний и их практическим использованием, указывая на значительный потенциал для оптимизации в проектировании моделей.
Постоянное развитие базовых моделей для генерации видео находит применение в различных областях, при этом создание видео с сохранением согласованности объекта всё ещё находится на стадии исследования. Мы называем это "Subject-to-Video" — подход, который извлекает элементы объекта из эталонных изображений и генерирует видео с сохранением согласованности объекта на основе текстовых инструкций. Мы считаем, что суть Subject-to-Video заключается в балансировании двухмодальных подсказок — текста и изображения, что позволяет глубоко и одновременно согласовывать как текстовый, так и визуальный контент. Для достижения этой цели мы предлагаем Phantom — унифицированную структуру для генерации видео как на основе одного, так и нескольких объектов. Опираясь на существующие архитектуры для генерации видео из текста и изображений, мы переработали модель совместного ввода текста и изображения и обучили её выравниванию между модальностями с использованием данных в формате "текст-изображение-видео". Особое внимание мы уделяем сохранению согласованности объекта при генерации людей, охватывая существующие методы создания видео с сохранением идентичности и предлагая дополнительные преимущества. Домашняя страница проекта доступна по ссылке: https://phantom-video.github.io/Phantom/.
Мы представляем Magma, базовую модель, предназначенную для выполнения мультимодальных задач агентного ИИ как в цифровом, так и в физическом мире. Magma представляет собой значительное расширение моделей, работающих с визуальными и языковыми данными (VL-модели), поскольку она не только сохраняет способность к пониманию визуально-языковых данных (вербальный интеллект), но также оснащена способностью планировать и действовать в визуально-пространственном мире (пространственно-временной интеллект) и выполнять агентные задачи, начиная от навигации в пользовательских интерфейсах и заканчивая манипуляциями роботов. Для наделения агентными возможностями Magma предварительно обучается на больших объемах гетерогенных данных, включающих изображения, видео и данные робототехники, где активные визуальные объекты (например, кликабельные кнопки в графическом интерфейсе) в изображениях помечены с помощью Set-of-Mark (SoM) для привязки действий, а движения объектов (например, траектории рук человека или роботизированных манипуляторов) в видео помечены с помощью Trace-of-Mark (ToM) для планирования действий. Многочисленные эксперименты показывают, что SoM и ToM достигают высокой синергии и способствуют приобретению пространственно-временного интеллекта для нашей модели Magma, что является основополагающим для широкого спектра задач, как показано на рис. 1. В частности, Magma устанавливает новые рекорды в задачах навигации в пользовательских интерфейсах и манипуляций роботов, превосходя предыдущие модели, специально разработанные для этих задач. В мультимодальных задачах, связанных с изображениями и видео, Magma также демонстрирует конкурентоспособные результаты по сравнению с популярными крупными мультимодальными моделями, обученными на значительно больших наборах данных. Мы делаем нашу модель и код общедоступными для обеспечения воспроизводимости по адресу https://microsoft.github.io/Magma.
Диффузионные модели стали перспективной альтернативой авторегрессионным моделям для работы с дискретными категориальными данными. Однако диффузионные модели, которые непосредственно работают с дискретным пространством данных, не полностью используют потенциал итеративного уточнения, так как сигналы теряются при переходе между дискретными состояниями. Существующие непрерывные диффузионные модели для дискретных данных демонстрируют ограниченную производительность по сравнению с дискретными подходами, а неясная связь между ними сдерживает развитие диффузионных моделей для дискретных данных. В данной работе мы предлагаем непрерывную диффузионную модель для языкового моделирования, которая учитывает геометрию базового категориального распределения. Мы устанавливаем связь между дискретной диффузией и непрерывным потоком на статистическом многообразии и, основываясь на этой аналогии, вводим простую конструкцию для процесса диффузии, которая обобщает предыдущие дискретные диффузионные модели. Дополнительно мы предлагаем метод обучения без симуляции, основанный на радиальной симметрии, и простую технику для работы с высокой размерностью многообразия. Комплексные эксперименты на задачах языкового моделирования и других модальностях показывают, что наш метод превосходит существующие дискретные диффузионные модели и приближается к производительности авторегрессионных моделей. Код доступен по адресу https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.
Недавние мультимодальные большие языковые модели (MLLM) достигли выдающихся результатов, но сталкиваются с проблемами при развертывании из-за их квадратичной вычислительной сложности, растущих требований к кэшу ключей и значений, а также зависимости от отдельных визуальных кодировщиков. Мы предлагаем mmMamba — фреймворк для разработки линейно-сложных нативных мультимодальных моделей пространства состояний с помощью прогрессивной дистилляции из существующих MLLM с использованием умеренных академических вычислительных ресурсов. Наш подход позволяет напрямую преобразовывать обученные декодерные MLLM в линейно-сложные архитектуры без необходимости предварительно обученных RNN-основанных языковых моделей или визуальных кодировщиков. Мы предлагаем стратегию инициализации для создания Mamba из обученного Transformer и трехэтапный рецепт дистилляции, который эффективно переносит знания из Transformer в Mamba, сохраняя мультимодальные возможности. Наш метод также поддерживает гибкие гибридные архитектуры, сочетающие слои Transformer и Mamba для настраиваемого баланса между эффективностью и производительностью. Дистиллированная из декодерной модели HoVLE на основе Transformer, mmMamba-linear демонстрирует конкурентоспособную производительность по сравнению с существующими линейными и квадратично-сложными визуально-языковыми моделями, в то время как mmMamba-hybrid значительно улучшает производительность, приближаясь к возможностям HoVLE. При 103K токенов mmMamba-linear показывает ускорение в 20,6 раз и сокращение использования памяти на GPU на 75,8% по сравнению с HoVLE, а mmMamba-hybrid достигает ускорения в 13,5 раз и экономии памяти на 60,2%. Код и модели доступны по адресу https://github.com/hustvl/mmMamba.
Понимание человеческих предпочтений имеет ключевое значение для улучшения базовых моделей и создания персонализированных ИИ-систем. Однако предпочтения по своей природе разнообразны и сложны, что затрудняет их полное охватывание традиционными моделями вознаграждения. Хотя детализированные данные о предпочтениях могут помочь, их сбор является дорогостоящим и сложным для масштабирования. В данной статье мы представляем Декомпозированные Модели Вознаграждения (DRMs) — новый подход, который извлекает разнообразные человеческие предпочтения из бинарных сравнений без необходимости в детализированных аннотациях. Наше ключевое наблюдение заключается в представлении человеческих предпочтений в виде векторов и их анализе с использованием метода главных компонент (PCA). Создавая набор данных из разностей эмбеддингов предпочитаемых и отвергнутых ответов, DRMs выявляют ортогональные базисные векторы, которые отражают различные аспекты предпочтений. Эти декомпозированные вознаграждения могут гибко комбинироваться для соответствия различным потребностям пользователей, предлагая интерпретируемую и масштабируемую альтернативу традиционным моделям вознаграждения. Мы демонстрируем, что DRMs эффективно извлекают значимые измерения предпочтений (например, полезность, безопасность, юмор) и адаптируются к новым пользователям без дополнительного обучения. Наши результаты подчеркивают DRMs как мощный фреймворк для персонализированного и интерпретируемого согласования языковых моделей.
В отличие от рекуррентных нейронных сетей (RNN), которые сжимают предыдущие токены в одно скрытое состояние, трансформеры могут напрямую обращать внимание на все предыдущие токены. Однако стандартные трансформеры используют представления только из непосредственно предшествующего слоя. В данной статье мы показываем, что такой выбор архитектуры приводит к коллапсу представлений и снижению производительности. Для решения этой проблемы мы представляем Layer-Integrated Memory (LIMe) — простой, но мощный подход, который сохраняет общий объем памяти модели, расширяя её репрезентационные возможности за счёт доступа к скрытым состояниям из более ранних слоев. Благодаря обширным экспериментам на различных архитектурах и механизмах поиска мы демонстрируем стабильное улучшение производительности на широком спектре задач. Кроме того, наш анализ динамики изученных представлений и исследование глубинных схем показывают, как LIMe интегрирует информацию между слоями, указывая на перспективные направления для будущих исследований.
Крупные языковые модели (LLM), дообученные на мультимодальных финансовых данных, продемонстрировали впечатляющие способности к рассуждению в различных финансовых задачах. Однако они часто испытывают трудности в многошаговых, целеориентированных сценариях в интерактивных финансовых рынках, таких как торговля, где для улучшения принятия решений требуются сложные агентные подходы. Для решения этой проблемы мы предлагаем FLAG-Trader — унифицированную архитектуру, интегрирующую лингвистическую обработку (с помощью LLM) с оптимизацией стратегии на основе градиентного обучения с подкреплением (RL), в которой частично дообученная LLM выступает в роли сети стратегии, используя предварительно обученные знания и адаптируясь к финансовой области через параметрически эффективное дообучение. Благодаря оптимизации градиента политики, управляемой торговыми наградами, наша структура не только улучшает производительность LLM в торговле, но и повышает результаты в других задачах финансовой области. Мы представляем обширные эмпирические данные, подтверждающие эти улучшения.
Пространственный интеллект является ключевым компонентом воплощённого ИИ, позволяя роботам понимать и взаимодействовать с окружающей средой. Хотя последние достижения улучшили способность визуально-языковых моделей (VLM) воспринимать местоположение объектов и их пространственные отношения, они всё ещё не способны точно понимать ориентацию объектов — важное требование для задач, связанных с тонкими манипуляциями. Устранение этого ограничения требует не только геометрического анализа, но и выразительного и интуитивного способа представления ориентации. В этом контексте мы предлагаем использовать естественный язык как более гибкое пространство представления по сравнению с каноническими системами координат, что делает его особенно подходящим для роботизированных систем, выполняющих инструкции. В данной статье мы вводим концепцию семантической ориентации, которая определяет ориентацию объектов с помощью естественного языка без привязки к системе координат (например, направление "вставки" USB или "ручки" ножа). Для поддержки этого мы создали OrienText300K — крупномасштабный набор данных 3D-моделей, аннотированных семантическими ориентациями, связывающими геометрическое понимание с функциональной семантикой. Интегрируя семантическую ориентацию в систему VLM, мы позволяем роботам генерировать манипуляционные действия с учётом как позиционных, так и ориентационных ограничений. Многочисленные эксперименты в симуляции и реальном мире демонстрируют, что наш подход значительно улучшает возможности роботизированных манипуляций, например, достигая точности 48,7% на Open6DOR и 74,9% на SIMPLER.
Развертывание больших языковых моделей (LLMs) в реальных приложениях требует надежных моделей-защитников для обнаружения и блокировки вредоносных запросов пользователей. Хотя крупные модели-защитники демонстрируют высокую производительность, их вычислительная стоимость значительна. Для снижения этой нагрузки используются меньшие дистиллированные модели, но они часто уступают в производительности на "сложных" примерах, где большая модель обеспечивает точные предсказания. Мы наблюдаем, что многие входные данные могут быть надежно обработаны меньшей моделью, в то время как лишь небольшая часть требует мощности большей модели. Вдохновленные этим, мы предлагаем SafeRoute — бинарный маршрутизатор, который отличает сложные примеры от простых. Наш метод избирательно применяет большую модель-защитник к данным, которые маршрутизатор считает сложными, повышая эффективность при сохранении точности по сравнению с использованием только большей модели-защитника. Экспериментальные результаты на нескольких эталонных наборах данных показывают, что наше адаптивное выбор моделей значительно улучшает баланс между вычислительной стоимостью и производительностью в области безопасности, превосходя соответствующие базовые подходы.
Крупные языковые модели (LLM) достигают превосходной производительности за счет масштабирования на этапе обучения, а масштабирование на этапе тестирования дополнительно усиливает их возможности, обеспечивая эффективное рассуждение во время вывода. Однако с увеличением масштаба рассуждений существующие методы масштабирования на этапе тестирования сталкиваются с проблемой накопления исторической информации, что не только приводит к неэффективному использованию вычислительных ресурсов, но и мешает эффективному рассуждению. Для решения этой проблемы мы отмечаем, что сложный процесс рассуждения часто достигается путем решения последовательности независимых подвопросов, каждый из которых является самодостаточным и проверяемым. Эти подвопросы по сути представляют собой атомарные вопросы, которые в основном зависят от их текущего состояния, а не от накопленной истории, что аналогично переходам без памяти в марковском процессе. На основе этого наблюдения мы предлагаем подход "Атом Мысли" (Atom of Thoughts, AoT), где каждый переход состояния в процессе рассуждения заключается в разложении текущего вопроса на ориентированный ациклический граф, основанный на зависимостях, и сжатии его подвопросов, формируя новое атомарное состояние вопроса. Этот итеративный процесс разложения-сжатия продолжается до достижения непосредственно решаемых атомарных вопросов, естественным образом реализуя марковские переходы между состояниями вопросов. Более того, эти атомарные вопросы могут быть легко интегрированы в существующие методы масштабирования на этапе тестирования, что позволяет AoT служить в качестве подключаемого улучшения для повышения способностей к рассуждению. Эксперименты на шести бенчмарках демонстрируют эффективность AoT как в качестве самостоятельного фреймворка, так и в качестве подключаемого улучшения. В частности, на HotpotQA, при применении к gpt-4o-mini, AoT достигает показателя F1 в 80,6%, превосходя o3-mini на 3,4% и DeepSeek-R1 на 10,6%. Код будет доступен по адресу https://github.com/qixucen/atom.
Решение сложных задач, требующих логического мышления, может включать визуальное понимание, извлечение знаний из предметной области, численные вычисления и многошаговое рассуждение. Существующие методы расширяют возможности крупных языковых моделей (LLM) с помощью внешних инструментов, но ограничены специализированными областями, ограниченными типами инструментов или требуют дополнительных обучающих данных. В данной статье мы представляем OctoTools — бесплатную, удобную для пользователя и легко расширяемую открытую агентскую платформу, предназначенную для решения сложных задач в различных областях. OctoTools вводит стандартизированные карточки инструментов для инкапсуляции их функциональности, планировщик для высокоуровневого и низкоуровневого планирования, а также исполнитель для использования инструментов. Мы подтверждаем универсальность OctoTools на 16 разнообразных задачах (включая MathVista, MMLU-Pro, MedQA и GAIA-Text), достигая значительного среднего прироста точности на 9,3% по сравнению с GPT-4o. Кроме того, OctoTools превосходит AutoGen, GPT-Functions и LangChain на величину до 10,6% при использовании одинакового набора инструментов. Благодаря всестороннему анализу и экспериментам, OctoTools демонстрирует преимущества в планировании задач, эффективном использовании инструментов и решении многошаговых проблем.
После предварительного обучения на обширных парах изображение-текст, метод Contrastive Language-Image Pre-training (CLIP) демонстрирует впечатляющие результаты на множестве бенчмарков. Однако значительный объем непарных данных, таких как мультимодальные чередующиеся документы, остается недостаточно используемым для обучения представлений в области зрения и языка. Чтобы полностью задействовать эти непарные документы, мы сначала создаем конвейер извлечения данных из реального мира для получения высококачественных изображений и текстов. Затем мы разрабатываем иерархический метод поиска для эффективного связывания каждого изображения с несколькими семантически релевантными реалистичными текстами. Для дальнейшего улучшения детализированной визуальной информации мы предлагаем модуль генерации с семантическим усилением изображений для создания синтетических текстов. Кроме того, мы используем стратегию семантически сбалансированной выборки для повышения разнообразия набора данных, что позволяет лучше изучать редкие концепции. На основе этих инноваций мы создаем RealSyn — набор данных, объединяющий реалистичные и синтетические тексты, доступный в трех масштабах: 15M, 30M и 100M. Многочисленные эксперименты показывают, что RealSyn эффективно продвигает обучение представлений в области зрения и языка и демонстрирует высокую масштабируемость. Модели, предварительно обученные на RealSyn, достигают наилучших результатов на множестве задач. Для содействия будущим исследованиям набор данных RealSyn и веса предварительно обученных моделей опубликованы на https://github.com/deepglint/RealSyn.
Появление масштабирования во время тестирования в больших языковых моделях (LLM), примером которого является серия o1 от OpenAI, продвинуло способности к рассуждению за счет масштабирования выделения вычислительных ресурсов во время вывода. Хотя последователи, такие как QwQ, Deepseek-R1 (R1) и LIMO, повторяют эти достижения, вопрос о том, действительно ли эти модели обладают возможностями масштабирования во время тестирования, остается недостаточно изученным. Это исследование показало, что более длинные цепочки рассуждений (CoT) этих моделей, подобных o1, не всегда повышают точность; на самом деле, правильные решения часто оказываются короче неправильных для одних и тех же вопросов. Дальнейшее исследование показывает, что это явление тесно связано со способностью моделей к самокоррекции — более длинные CoT содержат больше самокоррекций, что часто приводит к ухудшению производительности. Затем мы сравниваем последовательные и параллельные стратегии масштабирования на QwQ, R1 и LIMO, обнаруживая, что параллельное масштабирование обеспечивает лучшее покрытие и масштабируемость. На основе этих наблюдений мы предлагаем метод "Кратчайшего большинства голосов", который сочетает параллельные стратегии масштабирования с характеристиками длины CoT, значительно улучшая масштабируемость моделей во время тестирования по сравнению с традиционными подходами голосования большинством.
Хотя крупные языковые модели (LLM) хорошо адаптируются к последующим задачам после тонкой настройки, такая адаптируемость часто снижает устойчивость к вариациям запросов, поскольку даже незначительные изменения в формулировках могут существенно ухудшить производительность. Для решения этой проблемы мы предлагаем метод Prompt-Agnostic Fine-Tuning (PAFT) — простой, но эффективный подход, который динамически корректирует запросы в процессе тонкой настройки. Это побуждает модель изучать базовые принципы задачи, а не переобучаться на конкретные формулировки запросов. PAFT работает в два этапа: сначала создается разнообразный набор осмысленных синтетических кандидатов запросов, а затем в процессе тонкой настройки запросы случайным образом выбираются из этого набора для создания динамических обучающих данных. Эксперименты на различных наборах данных и LLM демонстрируют, что модели, обученные с использованием PAFT, проявляют высокую устойчивость и способность к обобщению для широкого спектра запросов, включая ранее не встречавшиеся. Такая повышенная устойчивость улучшает как производительность модели, так и скорость вывода, сохраняя при этом эффективность обучения. Абляционные исследования дополнительно подтверждают эффективность PAFT.
В последнее время наблюдается растущий интерес к использованию крупных языковых моделей (LLM) для генерации символических моделей мира на основе текстовых описаний. Хотя LLM активно исследовались в контексте моделирования мира, предыдущие исследования столкнулись с рядом проблем, включая случайность оценки, зависимость от косвенных метрик и ограниченную область применения. Чтобы устранить эти ограничения, мы представляем новый бенчмарк Text2World, основанный на языке определения планировочных доменов (PDDL), который включает сотни разнообразных доменов и использует многокритериальные, основанные на исполнении метрики для более надежной оценки. Мы тестируем современные LLM с помощью Text2World и обнаруживаем, что модели рассуждений, обученные с использованием масштабного обучения с подкреплением, превосходят другие. Однако даже лучшая модель демонстрирует ограниченные возможности в моделировании мира. На основе этих наблюдений мы исследуем несколько перспективных стратегий для улучшения способностей LLM в моделировании мира, включая масштабирование на этапе тестирования, обучение агентов и другие. Мы надеемся, что Text2World станет важным ресурсом, закладывающим основу для будущих исследований в области использования LLM в качестве моделей мира. Страница проекта доступна по адресу https://text-to-world.github.io/.
Трансформерные большие языковые модели (LLM) демонстрируют впечатляющие результаты в генерации длинных контекстов. Увеличение длины контекста непропорционально сместило объем памяти, занимаемый LLM во время вывода, в сторону кэша ключей и значений (KV cache). В данной работе мы предлагаем HEADINFER, который переносит KV cache в оперативную память CPU, избегая необходимости полного хранения KV cache для любого слоя трансформера на GPU. HEADINFER использует детализированную стратегию выгрузки по головам, сохраняя на GPU только KV cache для избранных голов внимания, при этом динамически вычисляя выход внимания. С помощью анализа roofline мы показываем, что HEADINFER сохраняет вычислительную эффективность, значительно сокращая объем занимаемой памяти. Мы оцениваем HEADINFER на модели Llama-3-8B с последовательностью из 1 миллиона токенов, сокращая объем памяти GPU, занимаемый KV cache, с 128 ГБ до 1 ГБ, а общее использование памяти GPU — с 207 ГБ до 17 ГБ, что соответствует снижению на 92% по сравнению с базовым выводом в формате BF16. Примечательно, что HEADINFER позволяет выполнять вывод для 4 миллионов токенов на модели с 8 миллиардами параметров на одном потребительском GPU с 24 ГБ памяти (например, NVIDIA RTX 4090) без использования методов аппроксимации.
Мы предлагаем MUltiway Dynamic Dense (MUDD) соединения — простой, но эффективный метод для устранения ограничений остаточных соединений и улучшения кросс-слоевого потока информации в Transformers. В отличие от существующих подходов с плотными соединениями, использующих статические и общие веса соединений, MUDD динамически генерирует веса соединений в зависимости от скрытых состояний на каждой позиции последовательности и для каждого разделенного входного потока (запроса, ключа, значения или остатка) блока Transformer. MUDD соединения могут быть легко интегрированы в любую архитектуру Transformer для создания MUDDFormer. Многочисленные эксперименты показывают, что MUDDFormer значительно превосходит Transformers в различных архитектурах и масштабах моделей для задач языкового моделирования, достигая производительности Transformers, обученных с использованием в 1.8–2.4 раза больше вычислительных ресурсов. В частности, MUDDPythia-2.8B соответствует Pythia-6.9B по показателю perplexity (ppl) на этапе предобучения и на задачах downstream, а в условиях few-shot (пять примеров) даже приближается к Pythia-12B, добавляя при этом всего 0.23% параметров и 0.4% вычислений. Код на JAX и PyTorch, а также предобученные модели доступны по адресу https://github.com/Caiyun-AI/MUDDFormer.
Мы представляем HealthGPT — мощную медицинскую крупную визуально-языковую модель (Med-LVLM), которая объединяет способности к медицинскому визуальному пониманию и генерации в рамках единой авторегрессивной парадигмы. Наша философия поэтапной адаптации заключается в постепенном переносе разнородных знаний о понимании и генерации на предварительно обученные крупные языковые модели (LLM). Это достигается с помощью новой техники гетерогенной низкоранговой адаптации (H-LoRA), которая дополняется специализированным иерархическим подходом к визуальному восприятию и трехэтапной стратегией обучения. Для эффективного обучения HealthGPT мы разработали комплексный набор данных для понимания и генерации в медицинской области под названием VL-Health. Экспериментальные результаты демонстрируют выдающуюся производительность и масштабируемость HealthGPT в задачах медицинского визуального объединения. Наш проект доступен по адресу https://github.com/DCDmllm/HealthGPT.
Улучшение архитектуры сети в рамках YOLO долгое время было важной задачей, однако фокус смещался на усовершенствования, основанные на сверточных нейронных сетях (CNN), несмотря на доказанное превосходство механизмов внимания в моделировании. Это связано с тем, что модели на основе внимания не могут сравниться по скорости с CNN-моделями. В данной статье предлагается YOLO-фреймворк, ориентированный на механизмы внимания, а именно YOLOv12, который соответствует скорости предыдущих CNN-моделей, одновременно используя преимущества механизмов внимания. YOLOv12 превосходит все популярные детекторы объектов в реальном времени по точности при конкурентоспособной скорости. Например, YOLOv12-N достигает 40,6% mAP с задержкой вывода 1,64 мс на GPU T4, опережая продвинутые YOLOv10-N / YOLOv11-N на 2,1%/1,2% mAP при сопоставимой скорости. Это преимущество распространяется и на другие масштабы моделей. YOLOv12 также превосходит end-to-end детекторы в реальном времени, улучшающие DETR, такие как RT-DETR / RT-DETRv2: YOLOv12-S обгоняет RT-DETR-R18 / RT-DETRv2-R18, работая на 42% быстрее, используя только 36% вычислений и 45% параметров. Дополнительные сравнения представлены на Рисунке 1.
Распределенные методы оптимизации, такие как DiLoCo, доказали свою эффективность в обучении очень больших моделей на множестве распределенных вычислительных узлов, таких как дата-центры. Эти методы разделяют обновления на две части: внутреннюю фазу оптимизации, в которой узлы независимо выполняют несколько шагов оптимизации на своих локальных данных, и внешний шаг оптимизации, на котором внутренние обновления синхронизируются. Хотя такие подходы требуют на порядки меньше коммуникации по сравнению с традиционным параллельным обучением с разделением данных, в условиях, когда узлами являются дата-центры, даже ограниченные требования к коммуникации в этих подходах могут вызывать значительные задержки из-за необходимости блокировки на каждом внешнем шаге оптимизации. В данной статье мы исследуем методы для смягчения этой проблемы путем совмещения коммуникации с вычислениями таким образом, чтобы внешний шаг оптимизации полностью перекрывался с внутренней фазой оптимизации. Мы показываем, что определенный вариант, названный "жадными обновлениями", обеспечивает конкурентоспособную производительность по сравнению со стандартным DiLoCo в условиях низкой пропускной способности между узлами.
Мы представляем новый подход к рассуждению под названием "Поток вариантов" (Flow-of-Options, FoO), разработанный для устранения внутренних предубеждений в больших языковых моделях (LLM). FoO позволяет LLM систематически исследовать широкий спектр возможностей в процессе рассуждений, что демонстрируется на примере агентной системы на основе FoO для автономного решения задач машинного обучения (AutoML). Наша система превосходит современные базовые методы, показывая улучшения на 38,2% - 69,2% в стандартных задачах анализа данных и на 37,4% - 47,9% в задачах терапевтической химии. При общей стоимости выполнения задачи менее $1 наша система хорошо подходит для приложений, чувствительных к затратам. Помимо классификации и регрессии, мы демонстрируем более широкую применимость нашей агентной системы на основе FoO к задачам, таким как обучение с подкреплением и генерация изображений. Наша система представляет значительные улучшения по сравнению с современными агентными системами для AutoML благодаря преимуществам FoO, которые обеспечивают разнообразие решений LLM через сжатые, объяснимые представления, а также поддерживают долговременную память при комбинировании с рассуждениями на основе прецедентов.
Быстрое развитие крупных моделей рассуждений, таких как OpenAI-o3 и DeepSeek-R1, привело к значительному улучшению сложных рассуждений по сравнению с нерассуждающими большими языковыми моделями (LLM). Однако их расширенные возможности, в сочетании с открытым доступом к моделям, таким как DeepSeek-R1, вызывают серьезные опасения в отношении безопасности, особенно в плане их потенциального неправильного использования. В данной работе мы представляем всестороннюю оценку безопасности этих моделей рассуждений, используя устоявшиеся тесты безопасности для оценки их соответствия нормативным требованиям. Кроме того, мы исследуем их уязвимость к атакам, таким как взлом (jailbreaking) и инъекция подсказок (prompt injection), чтобы оценить их устойчивость в реальных приложениях. В ходе нашего многогранного анализа мы выявили четыре ключевых вывода: (1) Существует значительный разрыв в безопасности между открытыми моделями R1 и моделью o3-mini, как в тестах безопасности, так и в атаках, что указывает на необходимость дополнительных усилий по обеспечению безопасности для R1. (2) Дистиллированная модель рассуждений демонстрирует более низкую безопасность по сравнению с её базовыми моделями, выровненными по безопасности. (3) Чем сильнее способность модели к рассуждениям, тем больший вред она может причинить при ответе на небезопасные вопросы. (4) Процесс мышления в моделях R1 вызывает больше опасений в плане безопасности, чем их конечные ответы. Наше исследование предоставляет важные инсайты в области безопасности моделей рассуждений и подчеркивает необходимость дальнейшего улучшения безопасности моделей R1 для устранения существующего разрыва.
Фундаментальные модели, предварительно обученные на огромных наборах неразмеченных данных, произвели революцию в области обработки естественного языка и компьютерного зрения, демонстрируя выдающиеся способности к обобщению, что подчеркивает важность предварительного обучения. Однако в робототехнике подобные успехи остаются труднодостижимыми из-за необходимости в дорогостоящих аннотациях для роботов или отсутствия представлений, эффективно моделирующих физический мир. В данной статье мы представляем ARM4R — авторегрессионную роботизированную модель, которая использует низкоуровневые 4D-представления, извлеченные из видеоданных человека, для создания более эффективной предварительно обученной роботизированной модели. В частности, мы сосредоточились на использовании 3D-представлений отслеживания точек из видео, полученных путем преобразования 2D-представлений в 3D-пространство с помощью монохромной оценки глубины во времени. Эти 4D-представления сохраняют общую геометрическую структуру между точками и представлениями состояния робота с точностью до линейного преобразования, что позволяет эффективно переносить знания из видеоданных человека на низкоуровневое управление роботами. Наши эксперименты показывают, что ARM4R эффективно переносит знания из видеоданных человека в робототехнику и стабильно улучшает производительность в задачах, охватывающих различные среды и конфигурации роботов.
LLM-as-a-Judge, генерирующий суждения с использованием цепочки рассуждений (CoT), стал широко применяемым методом автоматической оценки. Однако его надежность снижается из-за неспособности CoT-рассуждений охватить всесторонние и глубокие детали, что часто приводит к неполным результатам. Существующие методы в основном полагаются на мажоритарное голосование или расширение критериев, что недостаточно для устранения ограничений CoT. Мы предлагаем метод коллективной сравнительной оценки, который вводит дополнительные коллективные ответы для сравнения с кандидатскими, тем самым выявляя более глубокие и всесторонние детали в кандидатских ответах. Этот процесс эффективно направляет LLM-as-a-Judge на предоставление более детализированного CoT-суждения. Многочисленные эксперименты демонстрируют, что наш подход повышает надежность оценки, достигая среднего прироста точности на 6,7% по пяти тестовым наборам. Более того, наш метод создает CoT более высокого качества, что способствует дистилляции суждений и демонстрирует превосходную производительность при отборе образцов для контролируемого тонкого обучения (SFT), называемого коллективным отбором образцов, тем самым обеспечивая более эффективное SFT. Наш анализ подтверждает, что CoT, генерируемые нашим методом, более всесторонние и качественные, а точность оценки улучшается с увеличением масштаба вывода.
Крупные языковые модели (LLM) продемонстрировали впечатляющие успехи в решении различных задач, таких как понимание естественного языка, суммаризация текста и машинный перевод. Однако их универсальный характер часто ограничивает их эффективность в предметно-ориентированных приложениях, требующих специализированных знаний, таких как здравоохранение, химия или юридический анализ. Для решения этой проблемы исследователи изучили различные методы улучшения LLM путем интеграции предметно-ориентированных знаний. В данном обзоре мы предоставляем всесторонний обзор этих методов, которые мы классифицируем на четыре ключевых подхода: динамическое внедрение знаний, статическое встраивание знаний, модульные адаптеры и оптимизация промптов. Каждый из этих подходов предлагает уникальные механизмы для оснащения LLM предметной экспертизой, балансируя компромиссы между гибкостью, масштабируемостью и эффективностью. Мы обсуждаем, как эти методы позволяют LLM решать специализированные задачи, сравниваем их преимущества и недостатки, оцениваем предметно-ориентированные LLM в сравнении с универсальными, а также выделяем вызовы и возможности в этой развивающейся области. Для тех, кто заинтересован в более глубоком изучении этой темы, мы также суммируем часто используемые наборы данных и бенчмарки. Чтобы исследователи оставались в курсе последних исследований, мы поддерживаем открытый репозиторий по адресу: https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, посвященный документации исследований в области специализированных LLM.
Модели векторного представления (эмбеддинга) играют ключевую роль в представлении и извлечении информации в различных приложениях обработки естественного языка (NLP). Последние достижения в области больших языковых моделей (LLM) значительно улучшили производительность моделей эмбеддинга. Хотя эти модели часто тестируются на общецелевых наборах данных, реальные приложения требуют оценки в конкретных предметных областях. В данной работе мы представляем Finance Massive Text Embedding Benchmark (FinMTEB) — специализированный аналог MTEB, разработанный для финансовой сферы. FinMTEB включает 64 набора данных для эмбеддинга, специфичных для финансовой области, охватывающих 7 задач, которые включают разнообразные типы текстов на китайском и английском языках, такие как финансовые новостные статьи, годовые отчеты компаний, ESG-отчеты, регуляторные документы и расшифровки конференц-звонков о финансовых результатах. Мы также разработали адаптированную для финансов модель FinPersona-E5, используя метод синтетических данных на основе персонажей для охвата разнообразных задач финансового эмбеддинга в процессе обучения. В результате масштабной оценки 15 моделей эмбеддинга, включая FinPersona-E5, мы выявили три ключевых вывода: (1) производительность на общецелевых тестах слабо коррелирует с задачами в финансовой области; (2) адаптированные для предметной области модели стабильно превосходят свои общецелевые аналоги; (3) удивительно, но простой подход Bag-of-Words (BoW) превосходит сложные плотные эмбеддинги в задачах семантического сходства текстов (STS) в финансовой сфере, что подчеркивает текущие ограничения плотных методов эмбеддинга. Наша работа устанавливает надежную основу для оценки финансовых приложений NLP и предоставляет важные инсайты для разработки моделей эмбеддинга, специфичных для предметной области.
Быстрое развитие перовскитных солнечных элементов (PSCs) привело к экспоненциальному росту числа научных публикаций, что создало острую потребность в эффективных системах управления знаниями и рассуждений в этой области. Мы представляем комплексную систему, усиленную знаниями, для PSCs, которая интегрирует три ключевых компонента. Во-первых, мы разработали Perovskite-KG — предметно-ориентированный граф знаний, построенный на основе 1 517 научных статей и содержащий 23 789 сущностей и 22 272 связи. Во-вторых, мы создали два дополняющих набора данных: Perovskite-Chat, включающий 55 101 высококачественную пару вопрос-ответ, сгенерированную с использованием новой многоагентной структуры, и Perovskite-Reasoning, содержащий 2 217 тщательно отобранных задач из области материаловедения. В-третьих, мы представили две специализированные крупные языковые модели: Perovskite-Chat-LLM для оказания помощи в предметно-ориентированных знаниях и Perovskite-Reasoning-LLM для выполнения задач научного рассуждения. Экспериментальные результаты показывают, что наша система значительно превосходит существующие модели как в задачах извлечения предметно-ориентированных знаний, так и в задачах науч
Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в решении широкого спектра задач, связанных с генерацией текста. Однако LLM по-прежнему испытывают трудности с задачами, требующими многошагового принятия решений и обратной связи от среды, такими как онлайн-покупки, научные рассуждения и решение математических задач. В отличие от чистых текстовых данных, сбор крупномасштабных данных для принятия решений является сложной задачей. Более того, многие мощные LLM доступны только через API, что затрудняет их тонкую настройку для задач агентов из-за стоимости и сложности. Чтобы преодолеть ограничения LLM-агентов, мы предлагаем фреймворк, который может автоматически обучать модель вознаграждения на основе среды без участия человека. Эта модель может использоваться для оценки траекторий действий LLM-агентов и предоставления эвристик для планирования задач. В частности, наш подход предполагает использование одного LLM-агента для случайного исследования среды, генерируя разнообразные траектории действий. Затем отдельная LLM используется для назначения задачи и синтеза отрицательного ответа вместе с правильным ответом для каждой траектории. Эти тройки (задача, положительный ответ и отрицательный ответ) затем используются в качестве обучающих данных для оптимизации модели вознаграждения, способной оценивать траектории действий. Эффективность и универсальность нашего фреймворка демонстрируются в ходе оценок, проведенных на различных бенчмарках для агентов. В заключение, наш предложенный фреймворк представляет собой значительный шаг вперед в улучшении способностей LLM-агентов к принятию решений. Автоматизируя обучение моделей вознаграждения, мы преодолеваем проблемы нехватки данных и ограничений API, что потенциально может революционизировать применение LLM в сложных и интерактивных средах. Это исследование открывает путь для создания более совершенных ИИ-агентов, способных решать широкий спектр реальных задач, требующих многошагового принятия решений.
Хотя многоязычные языковые модели, такие как XLM-R, значительно продвинули многоязычие в NLP, они по-прежнему демонстрируют низкую производительность на крайне малоресурсных языках. Эта ситуация усугубляется тем, что современные крупные языковые модели, такие как LLaMA и Qwen, поддерживают гораздо меньше языков, чем XLM-R, что делает модели генерации текста недоступными для многих языков мира. Для решения этой проблемы мы предлагаем новый фреймворк для адаптации многоязычных энкодеров к генерации текста на крайне малоресурсных языках. Благодаря повторному использованию весов между энкодером и декодером, наш фреймворк позволяет модели использовать изученное семантическое пространство энкодера, обеспечивая эффективное обучение и качественное обобщение на малоресурсных языках. Применив этот фреймворк к четырем китайским языкам меньшинств, мы представляем XLM-SWCM и демонстрируем его превосходную производительность на различных задачах, даже в сравнении с гораздо более крупными моделями.
Анализ временных рядов претерпел вдохновляющее развитие: от традиционных авторегрессионных моделей и моделей глубокого обучения до современных трансформеров и крупных языковых моделей (LLM). Попытки применения моделей компьютерного зрения для анализа временных рядов также предпринимались, но оставались менее заметными для сообщества из-за преобладания исследований в области моделирования последовательностей в этой области. Однако расхождение между непрерывными временными рядами и дискретным пространством токенов LLM, а также трудности в явном моделировании корреляций переменных в многомерных временных рядах сместили внимание исследователей на не менее успешные крупные модели компьютерного зрения (LVM) и модели, объединяющие компьютерное зрение и язык (VLM). Чтобы заполнить пробел в существующей литературе, данный обзор обсуждает преимущества моделей компьютерного зрения перед LLM в анализе временных рядов. Он предоставляет всесторонний и глубокий обзор существующих методов, предлагая двойной взгляд через детальную таксономию, которая отвечает на ключевые исследовательские вопросы, включая то, как кодировать временные ряды в виде изображений и как моделировать визуализированные временные ряды для различных задач. Кроме того, мы рассматриваем проблемы, возникающие на этапах пред- и постобработки в рамках этого подхода, и намечаем будущие направления для дальнейшего продвижения анализа временных рядов с использованием моделей компьютерного зрения.