Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Soundwave: меньше значит больше для выравнивания речи и текста в больших языковых моделях
Soundwave: Less is More for Speech-Text Alignment in LLMs

Feb 18

ByYuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li

Существующие сквозные речевые модели с большим языковым охватом (LLM) обычно полагаются на крупномасштабные аннотированные данные для обучения, в то время как вопрос эффективного использования данных для обучения не был глубоко изучен. Мы сосредоточились на двух фундаментальных проблемах, связанных с речью и текстом: разрыв в пространстве представлений и несоответствие длины последовательностей. Мы предлагаем Soundwave, который использует эффективную стратегию обучения и новую архитектуру для решения этих проблем. Результаты показывают, что Soundwave превосходит передовую модель Qwen2-Audio в задачах перевода речи и речевых задачах AIR-Bench, используя лишь одну пятидесятую часть обучающих данных. Дополнительный анализ показывает, что Soundwave сохраняет свою интеллектуальность в ходе диалога. Проект доступен по адресу https://github.com/FreedomIntelligence/Soundwave.

Упаковка 1568 токенов в один вектор и обратно: исследование пределов емкости пространства эмбеддингов
Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Feb 18

ByYuri Kuratov, Mikhail Arkhipov, Aydar Bulatov, Mikhail Burtsev

Ряд недавних работ посвящен проблеме сжатия последовательности токенов в более короткую последовательность вещественных векторов, которые используются в качестве входных данных вместо встраиваний токенов или кэша ключ-значение. Эти подходы позволяют сократить объем вычислений в существующих языковых моделях. Несмотря на использование мощных моделей в качестве кодировщиков, максимально достижимый коэффициент сжатия без потерь обычно не превышает x10. Этот факт вызывает значительный интерес, поскольку, теоретически, максимальная информационная емкость больших вещественных векторов значительно превышает представленные значения даже для 16-битной точности и скромного размера вектора. В данной работе мы исследуем пределы сжатия, заменяя кодировщик процедурой оптимизации для каждого образца. Мы показываем, что существуют векторы с коэффициентами сжатия до x1500, что подчеркивает разрыв в два порядка величины между существующими и практически достижимыми решениями. Более того, мы эмпирически демонстрируем, что пределы сжатия определяются не длиной входных данных, а объемом неопределенности, которую необходимо уменьшить, а именно, кросс-энтропийной ошибкой на этой последовательности без какого-либо кондиционирования. Полученные пределы подчеркивают существенный разрыв между теоретической емкостью входных встраиваний и их практическим использованием, указывая на значительный потенциал для оптимизации в проектировании моделей.

Phantom: Создание согласованных с объектом видео через кросс-модальное выравнивание
Phantom: Subject-consistent video generation via cross-modal alignment

Feb 16

ByLijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu

Постоянное развитие базовых моделей для генерации видео находит применение в различных областях, при этом создание видео с сохранением согласованности объекта всё ещё находится на стадии исследования. Мы называем это "Subject-to-Video" — подход, который извлекает элементы объекта из эталонных изображений и генерирует видео с сохранением согласованности объекта на основе текстовых инструкций. Мы считаем, что суть Subject-to-Video заключается в балансировании двухмодальных подсказок — текста и изображения, что позволяет глубоко и одновременно согласовывать как текстовый, так и визуальный контент. Для достижения этой цели мы предлагаем Phantom — унифицированную структуру для генерации видео как на основе одного, так и нескольких объектов. Опираясь на существующие архитектуры для генерации видео из текста и изображений, мы переработали модель совместного ввода текста и изображения и обучили её выравниванию между модальностями с использованием данных в формате "текст-изображение-видео". Особое внимание мы уделяем сохранению согласованности объекта при генерации людей, охватывая существующие методы создания видео с сохранением идентичности и предлагая дополнительные преимущества. Домашняя страница проекта доступна по ссылке: https://phantom-video.github.io/Phantom/.

Magma: Базисная модель для мультимодальных ИИ-агентов
Magma: A Foundation Model for Multimodal AI Agents

Feb 18

ByJianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao

Мы представляем Magma, базовую модель, предназначенную для выполнения мультимодальных задач агентного ИИ как в цифровом, так и в физическом мире. Magma представляет собой значительное расширение моделей, работающих с визуальными и языковыми данными (VL-модели), поскольку она не только сохраняет способность к пониманию визуально-языковых данных (вербальный интеллект), но также оснащена способностью планировать и действовать в визуально-пространственном мире (пространственно-временной интеллект) и выполнять агентные задачи, начиная от навигации в пользовательских интерфейсах и заканчивая манипуляциями роботов. Для наделения агентными возможностями Magma предварительно обучается на больших объемах гетерогенных данных, включающих изображения, видео и данные робототехники, где активные визуальные объекты (например, кликабельные кнопки в графическом интерфейсе) в изображениях помечены с помощью Set-of-Mark (SoM) для привязки действий, а движения объектов (например, траектории рук человека или роботизированных манипуляторов) в видео помечены с помощью Trace-of-Mark (ToM) для планирования действий. Многочисленные эксперименты показывают, что SoM и ToM достигают высокой синергии и способствуют приобретению пространственно-временного интеллекта для нашей модели Magma, что является основополагающим для широкого спектра задач, как показано на рис. 1. В частности, Magma устанавливает новые рекорды в задачах навигации в пользовательских интерфейсах и манипуляций роботов, превосходя предыдущие модели, специально разработанные для этих задач. В мультимодальных задачах, связанных с изображениями и видео, Magma также демонстрирует конкурентоспособные результаты по сравнению с популярными крупными мультимодальными моделями, обученными на значительно больших наборах данных. Мы делаем нашу модель и код общедоступными для обеспечения воспроизводимости по адресу https://microsoft.github.io/Magma.

Непрерывная диффузионная модель для языкового моделирования
Continuous Diffusion Model for Language Modeling

Feb 17

ByJaehyeong Jo, Sung Ju Hwang

Диффузионные модели стали перспективной альтернативой авторегрессионным моделям для работы с дискретными категориальными данными. Однако диффузионные модели, которые непосредственно работают с дискретным пространством данных, не полностью используют потенциал итеративного уточнения, так как сигналы теряются при переходе между дискретными состояниями. Существующие непрерывные диффузионные модели для дискретных данных демонстрируют ограниченную производительность по сравнению с дискретными подходами, а неясная связь между ними сдерживает развитие диффузионных моделей для дискретных данных. В данной работе мы предлагаем непрерывную диффузионную модель для языкового моделирования, которая учитывает геометрию базового категориального распределения. Мы устанавливаем связь между дискретной диффузией и непрерывным потоком на статистическом многообразии и, основываясь на этой аналогии, вводим простую конструкцию для процесса диффузии, которая обобщает предыдущие дискретные диффузионные модели. Дополнительно мы предлагаем метод обучения без симуляции, основанный на радиальной симметрии, и простую технику для работы с высокой размерностью многообразия. Комплексные эксперименты на задачах языкового моделирования и других модальностях показывают, что наш метод превосходит существующие дискретные диффузионные модели и приближается к производительности авторегрессионных моделей. Код доступен по адресу https://github.com/harryjo97/RDLM{https://github.com/harryjo97/RDLM}.

Multimodal Mamba: Декодер-ориентированная мультимодальная модель пространства состояний через дистилляцию от квадратичной к линейной
Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

Feb 18

ByBencheng Liao, Hongyuan Tao, Qian Zhang, Tianheng Cheng, Yingyue Li, Haoran Yin, Wenyu Liu, Xinggang Wang

Недавние мультимодальные большие языковые модели (MLLM) достигли выдающихся результатов, но сталкиваются с проблемами при развертывании из-за их квадратичной вычислительной сложности, растущих требований к кэшу ключей и значений, а также зависимости от отдельных визуальных кодировщиков. Мы предлагаем mmMamba — фреймворк для разработки линейно-сложных нативных мультимодальных моделей пространства состояний с помощью прогрессивной дистилляции из существующих MLLM с использованием умеренных академических вычислительных ресурсов. Наш подход позволяет напрямую преобразовывать обученные декодерные MLLM в линейно-сложные архитектуры без необходимости предварительно обученных RNN-основанных языковых моделей или визуальных кодировщиков. Мы предлагаем стратегию инициализации для создания Mamba из обученного Transformer и трехэтапный рецепт дистилляции, который эффективно переносит знания из Transformer в Mamba, сохраняя мультимодальные возможности. Наш метод также поддерживает гибкие гибридные архитектуры, сочетающие слои Transformer и Mamba для настраиваемого баланса между эффективностью и производительностью. Дистиллированная из декодерной модели HoVLE на основе Transformer, mmMamba-linear демонстрирует конкурентоспособную производительность по сравнению с существующими линейными и квадратично-сложными визуально-языковыми моделями, в то время как mmMamba-hybrid значительно улучшает производительность, приближаясь к возможностям HoVLE. При 103K токенов mmMamba-linear показывает ускорение в 20,6 раз и сокращение использования памяти на GPU на 75,8% по сравнению с HoVLE, а mmMamba-hybrid достигает ускорения в 13,5 раз и экономии памяти на 60,2%. Код и модели доступны по адресу https://github.com/hustvl/mmMamba.

Вы не полностью используете репрезентативную способность трансформера
You Do Not Fully Utilize Transformer's Representation Capacity

Feb 13

ByGleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov

В отличие от рекуррентных нейронных сетей (RNN), которые сжимают предыдущие токены в одно скрытое состояние, трансформеры могут напрямую обращать внимание на все предыдущие токены. Однако стандартные трансформеры используют представления только из непосредственно предшествующего слоя. В данной статье мы показываем, что такой выбор архитектуры приводит к коллапсу представлений и снижению производительности. Для решения этой проблемы мы представляем Layer-Integrated Memory (LIMe) — простой, но мощный подход, который сохраняет общий объем памяти модели, расширяя её репрезентационные возможности за счёт доступа к скрытым состояниям из более ранних слоев. Благодаря обширным экспериментам на различных архитектурах и механизмах поиска мы демонстрируем стабильное улучшение производительности на широком спектре задач. Кроме того, наш анализ динамики изученных представлений и исследование глубинных схем показывают, как LIMe интегрирует информацию между слоями, указывая на перспективные направления для будущих исследований.

Переосмысление изучения разнообразных человеческих предпочтений через анализ главных компонент
Rethinking Diverse Human Preference Learning through Principal Component Analysis

Feb 18

ByFeng Luo, Rui Yang, Hao Sun, Chunyuan Deng, Jiarui Yao, Jingyan Shen, Huan Zhang, Hanjie Chen

Понимание человеческих предпочтений имеет ключевое значение для улучшения базовых моделей и создания персонализированных ИИ-систем. Однако предпочтения по своей природе разнообразны и сложны, что затрудняет их полное охватывание традиционными моделями вознаграждения. Хотя детализированные данные о предпочтениях могут помочь, их сбор является дорогостоящим и сложным для масштабирования. В данной статье мы представляем Декомпозированные Модели Вознаграждения (DRMs) — новый подход, который извлекает разнообразные человеческие предпочтения из бинарных сравнений без необходимости в детализированных аннотациях. Наше ключевое наблюдение заключается в представлении человеческих предпочтений в виде векторов и их анализе с использованием метода главных компонент (PCA). Создавая набор данных из разностей эмбеддингов предпочитаемых и отвергнутых ответов, DRMs выявляют ортогональные базисные векторы, которые отражают различные аспекты предпочтений. Эти декомпозированные вознаграждения могут гибко комбинироваться для соответствия различным потребностям пользователей, предлагая интерпретируемую и масштабируемую альтернативу традиционным моделям вознаграждения. Мы демонстрируем, что DRMs эффективно извлекают значимые измерения предпочтений (например, полезность, безопасность, юмор) и адаптируются к новым пользователям без дополнительного обучения. Наши результаты подчеркивают DRMs как мощный фреймворк для персонализированного и интерпретируемого согласования языковых моделей.

FLAG-Trader: Интеграция LLM-агента с градиентным обучением с подкреплением для финансового трейдинга
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

Feb 17

ByGuojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie

Крупные языковые модели (LLM), дообученные на мультимодальных финансовых данных, продемонстрировали впечатляющие способности к рассуждению в различных финансовых задачах. Однако они часто испытывают трудности в многошаговых, целеориентированных сценариях в интерактивных финансовых рынках, таких как торговля, где для улучшения принятия решений требуются сложные агентные подходы. Для решения этой проблемы мы предлагаем FLAG-Trader — унифицированную архитектуру, интегрирующую лингвистическую обработку (с помощью LLM) с оптимизацией стратегии на основе градиентного обучения с подкреплением (RL), в которой частично дообученная LLM выступает в роли сети стратегии, используя предварительно обученные знания и адаптируясь к финансовой области через параметрически эффективное дообучение. Благодаря оптимизации градиента политики, управляемой торговыми наградами, наша структура не только улучшает производительность LLM в торговле, но и повышает результаты в других задачах финансовой области. Мы представляем обширные эмпирические данные, подтверждающие эти улучшения.

SoFar: Языково-ориентированная система навигации, объединяющая пространственное мышление и манипуляции с объектами
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

Feb 18

ByZekun Qi, Wenyao Zhang, Yufei Ding, Runpei Dong, Xinqiang Yu, Jingwen Li, Lingyun Xu, Baoyu Li, Xialin He, Guofan Fan, Jiazhao Zhang, Jiawei He, Jiayuan Gu, Xin Jin, Kaisheng Ma, Zhizheng Zhang, He Wang, Li Yi

Пространственный интеллект является ключевым компонентом воплощённого ИИ, позволяя роботам понимать и взаимодействовать с окружающей средой. Хотя последние достижения улучшили способность визуально-языковых моделей (VLM) воспринимать местоположение объектов и их пространственные отношения, они всё ещё не способны точно понимать ориентацию объектов — важное требование для задач, связанных с тонкими манипуляциями. Устранение этого ограничения требует не только геометрического анализа, но и выразительного и интуитивного способа представления ориентации. В этом контексте мы предлагаем использовать естественный язык как более гибкое пространство представления по сравнению с каноническими системами координат, что делает его особенно подходящим для роботизированных систем, выполняющих инструкции. В данной статье мы вводим концепцию семантической ориентации, которая определяет ориентацию объектов с помощью естественного языка без привязки к системе координат (например, направление "вставки" USB или "ручки" ножа). Для поддержки этого мы создали OrienText300K — крупномасштабный набор данных 3D-моделей, аннотированных семантическими ориентациями, связывающими геометрическое понимание с функциональной семантикой. Интегрируя семантическую ориентацию в систему VLM, мы позволяем роботам генерировать манипуляционные действия с учётом как позиционных, так и ориентационных ограничений. Многочисленные эксперименты в симуляции и реальном мире демонстрируют, что наш подход значительно улучшает возможности роботизированных манипуляций, например, достигая точности 48,7% на Open6DOR и 74,9% на SIMPLER.

SafeRoute: Адаптивный выбор моделей для эффективного и точного обеспечения защитных механизмов безопасности в крупных языковых моделях
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models

Feb 18

BySeanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang

Развертывание больших языковых моделей (LLMs) в реальных приложениях требует надежных моделей-защитников для обнаружения и блокировки вредоносных запросов пользователей. Хотя крупные модели-защитники демонстрируют высокую производительность, их вычислительная стоимость значительна. Для снижения этой нагрузки используются меньшие дистиллированные модели, но они часто уступают в производительности на "сложных" примерах, где большая модель обеспечивает точные предсказания. Мы наблюдаем, что многие входные данные могут быть надежно обработаны меньшей моделью, в то время как лишь небольшая часть требует мощности большей модели. Вдохновленные этим, мы предлагаем SafeRoute — бинарный маршрутизатор, который отличает сложные примеры от простых. Наш метод избирательно применяет большую модель-защитник к данным, которые маршрутизатор считает сложными, повышая эффективность при сохранении точности по сравнению с использованием только большей модели-защитника. Экспериментальные результаты на нескольких эталонных наборах данных показывают, что наше адаптивное выбор моделей значительно улучшает баланс между вычислительной стоимостью и производительностью в области безопасности, превосходя соответствующие базовые подходы.

OctoTools: Агентная структура с расширяемыми инструментами для сложных рассуждений
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

Feb 16

ByPan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou

Решение сложных задач, требующих логического мышления, может включать визуальное понимание, извлечение знаний из предметной области, численные вычисления и многошаговое рассуждение. Существующие методы расширяют возможности крупных языковых моделей (LLM) с помощью внешних инструментов, но ограничены специализированными областями, ограниченными типами инструментов или требуют дополнительных обучающих данных. В данной статье мы представляем OctoTools — бесплатную, удобную для пользователя и легко расширяемую открытую агентскую платформу, предназначенную для решения сложных задач в различных областях. OctoTools вводит стандартизированные карточки инструментов для инкапсуляции их функциональности, планировщик для высокоуровневого и низкоуровневого планирования, а также исполнитель для использования инструментов. Мы подтверждаем универсальность OctoTools на 16 разнообразных задачах (включая MathVista, MMLU-Pro, MedQA и GAIA-Text), достигая значительного среднего прироста точности на 9,3% по сравнению с GPT-4o. Кроме того, OctoTools превосходит AutoGen, GPT-Functions и LangChain на величину до 10,6% при использовании одинакового набора инструментов. Благодаря всестороннему анализу и экспериментам, OctoTools демонстрирует преимущества в планировании задач, эффективном использовании инструментов и решении многошаговых проблем.

Атом Мыслей для масштабирования марковских языковых моделей во время тестирования
Atom of Thoughts for Markov LLM Test-Time Scaling

Feb 17

ByFengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo

Крупные языковые модели (LLM) достигают превосходной производительности за счет масштабирования на этапе обучения, а масштабирование на этапе тестирования дополнительно усиливает их возможности, обеспечивая эффективное рассуждение во время вывода. Однако с увеличением масштаба рассуждений существующие методы масштабирования на этапе тестирования сталкиваются с проблемой накопления исторической информации, что не только приводит к неэффективному использованию вычислительных ресурсов, но и мешает эффективному рассуждению. Для решения этой проблемы мы отмечаем, что сложный процесс рассуждения часто достигается путем решения последовательности независимых подвопросов, каждый из которых является самодостаточным и проверяемым. Эти подвопросы по сути представляют собой атомарные вопросы, которые в основном зависят от их текущего состояния, а не от накопленной истории, что аналогично переходам без памяти в марковском процессе. На основе этого наблюдения мы предлагаем подход "Атом Мысли" (Atom of Thoughts, AoT), где каждый переход состояния в процессе рассуждения заключается в разложении текущего вопроса на ориентированный ациклический граф, основанный на зависимостях, и сжатии его подвопросов, формируя новое атомарное состояние вопроса. Этот итеративный процесс разложения-сжатия продолжается до достижения непосредственно решаемых атомарных вопросов, естественным образом реализуя марковские переходы между состояниями вопросов. Более того, эти атомарные вопросы могут быть легко интегрированы в существующие методы масштабирования на этапе тестирования, что позволяет AoT служить в качестве подключаемого улучшения для повышения способностей к рассуждению. Эксперименты на шести бенчмарках демонстрируют эффективность AoT как в качестве самостоятельного фреймворка, так и в качестве подключаемого улучшения. В частности, на HotpotQA, при применении к gpt-4o-mini, AoT достигает показателя F1 в 80,6%, превосходя o3-mini на 3,4% и DeepSeek-R1 на 10,6%. Код будет доступен по адресу https://github.com/qixucen/atom.

Пересмотр масштабируемости моделей типа o1 на этапе тестирования: действительно ли они обладают способностью к масштабированию во время тестирования?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

Feb 17

ByZhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu

Появление масштабирования во время тестирования в больших языковых моделях (LLM), примером которого является серия o1 от OpenAI, продвинуло способности к рассуждению за счет масштабирования выделения вычислительных ресурсов во время вывода. Хотя последователи, такие как QwQ, Deepseek-R1 (R1) и LIMO, повторяют эти достижения, вопрос о том, действительно ли эти модели обладают возможностями масштабирования во время тестирования, остается недостаточно изученным. Это исследование показало, что более длинные цепочки рассуждений (CoT) этих моделей, подобных o1, не всегда повышают точность; на самом деле, правильные решения часто оказываются короче неправильных для одних и тех же вопросов. Дальнейшее исследование показывает, что это явление тесно связано со способностью моделей к самокоррекции — более длинные CoT содержат больше самокоррекций, что часто приводит к ухудшению производительности. Затем мы сравниваем последовательные и параллельные стратегии масштабирования на QwQ, R1 и LIMO, обнаруживая, что параллельное масштабирование обеспечивает лучшее покрытие и масштабируемость. На основе этих наблюдений мы предлагаем метод "Кратчайшего большинства голосов", который сочетает параллельные стратегии масштабирования с характеристиками длины CoT, значительно улучшая масштабируемость моделей во время тестирования по сравнению с традиционными подходами голосования большинством.

RealSyn: Эффективная и масштабируемая мультимодальная парадигма преобразования документов с чередованием данных
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

Feb 18

ByTiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng

После предварительного обучения на обширных парах изображение-текст, метод Contrastive Language-Image Pre-training (CLIP) демонстрирует впечатляющие результаты на множестве бенчмарков. Однако значительный объем непарных данных, таких как мультимодальные чередующиеся документы, остается недостаточно используемым для обучения представлений в области зрения и языка. Чтобы полностью задействовать эти непарные документы, мы сначала создаем конвейер извлечения данных из реального мира для получения высококачественных изображений и текстов. Затем мы разрабатываем иерархический метод поиска для эффективного связывания каждого изображения с несколькими семантически релевантными реалистичными текстами. Для дальнейшего улучшения детализированной визуальной информации мы предлагаем модуль генерации с семантическим усилением изображений для создания синтетических текстов. Кроме того, мы используем стратегию семантически сбалансированной выборки для повышения разнообразия набора данных, что позволяет лучше изучать редкие концепции. На основе этих инноваций мы создаем RealSyn — набор данных, объединяющий реалистичные и синтетические тексты, доступный в трех масштабах: 15M, 30M и 100M. Многочисленные эксперименты показывают, что RealSyn эффективно продвигает обучение представлений в области зрения и языка и демонстрирует высокую масштабируемость. Модели, предварительно обученные на RealSyn, достигают наилучших результатов на множестве задач. Для содействия будущим исследованиям набор данных RealSyn и веса предварительно обученных моделей опубликованы на https://github.com/deepglint/RealSyn.

PAFT: Тонкая настройка, не зависящая от промптов
PAFT: Prompt-Agnostic Fine-Tuning

Feb 18

ByChenxing Wei, Yao Shu, Mingwen Ou, Ying Tiffany He, Fei Richard Yu

Хотя крупные языковые модели (LLM) хорошо адаптируются к последующим задачам после тонкой настройки, такая адаптируемость часто снижает устойчивость к вариациям запросов, поскольку даже незначительные изменения в формулировках могут существенно ухудшить производительность. Для решения этой проблемы мы предлагаем метод Prompt-Agnostic Fine-Tuning (PAFT) — простой, но эффективный подход, который динамически корректирует запросы в процессе тонкой настройки. Это побуждает модель изучать базовые принципы задачи, а не переобучаться на конкретные формулировки запросов. PAFT работает в два этапа: сначала создается разнообразный набор осмысленных синтетических кандидатов запросов, а затем в процессе тонкой настройки запросы случайным образом выбираются из этого набора для создания динамических обучающих данных. Эксперименты на различных наборах данных и LLM демонстрируют, что модели, обученные с использованием PAFT, проявляют высокую устойчивость и способность к обобщению для широкого спектра запросов, включая ранее не встречавшиеся. Такая повышенная устойчивость улучшает как производительность модели, так и скорость вывода, сохраняя при этом эффективность обучения. Абляционные исследования дополнительно подтверждают эффективность PAFT.

HeadInfer: Энергоэффективный вывод больших языковых моделей за счет поэтапного выгрузки голов
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading

Feb 18

ByCheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar

Трансформерные большие языковые модели (LLM) демонстрируют впечатляющие результаты в генерации длинных контекстов. Увеличение длины контекста непропорционально сместило объем памяти, занимаемый LLM во время вывода, в сторону кэша ключей и значений (KV cache). В данной работе мы предлагаем HEADINFER, который переносит KV cache в оперативную память CPU, избегая необходимости полного хранения KV cache для любого слоя трансформера на GPU. HEADINFER использует детализированную стратегию выгрузки по головам, сохраняя на GPU только KV cache для избранных голов внимания, при этом динамически вычисляя выход внимания. С помощью анализа roofline мы показываем, что HEADINFER сохраняет вычислительную эффективность, значительно сокращая объем занимаемой памяти. Мы оцениваем HEADINFER на модели Llama-3-8B с последовательностью из 1 миллиона токенов, сокращая объем памяти GPU, занимаемый KV cache, с 128 ГБ до 1 ГБ, а общее использование памяти GPU — с 207 ГБ до 17 ГБ, что соответствует снижению на 92% по сравнению с базовым выводом в формате BF16. Примечательно, что HEADINFER позволяет выполнять вывод для 4 миллионов токенов на модели с 8 миллиардами параметров на одном потребительском GPU с 24 ГБ памяти (например, NVIDIA RTX 4090) без использования методов аппроксимации.

Text2World: Оценка крупных языковых моделей для генерации символических моделей мира
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

Feb 18

ByMengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo

В последнее время наблюдается растущий интерес к использованию крупных языковых моделей (LLM) для генерации символических моделей мира на основе текстовых описаний. Хотя LLM активно исследовались в контексте моделирования мира, предыдущие исследования столкнулись с рядом проблем, включая случайность оценки, зависимость от косвенных метрик и ограниченную область применения. Чтобы устранить эти ограничения, мы представляем новый бенчмарк Text2World, основанный на языке определения планировочных доменов (PDDL), который включает сотни разнообразных доменов и использует многокритериальные, основанные на исполнении метрики для более надежной оценки. Мы тестируем современные LLM с помощью Text2World и обнаруживаем, что модели рассуждений, обученные с использованием масштабного обучения с подкреплением, превосходят другие. Однако даже лучшая модель демонстрирует ограниченные возможности в моделировании мира. На основе этих наблюдений мы исследуем несколько перспективных стратегий для улучшения способностей LLM в моделировании мира, включая масштабирование на этапе тестирования, обучение агентов и другие. Мы надеемся, что Text2World станет важным ресурсом, закладывающим основу для будущих исследований в области использования LLM в качестве моделей мира. Страница проекта доступна по адресу https://text-to-world.github.io/.

YOLOv12: Реальные детекторы объектов с фокусом на механизмах внимания
YOLOv12: Attention-Centric Real-Time Object Detectors

Feb 18

ByYunjie Tian, Qixiang Ye, David Doermann

Улучшение архитектуры сети в рамках YOLO долгое время было важной задачей, однако фокус смещался на усовершенствования, основанные на сверточных нейронных сетях (CNN), несмотря на доказанное превосходство механизмов внимания в моделировании. Это связано с тем, что модели на основе внимания не могут сравниться по скорости с CNN-моделями. В данной статье предлагается YOLO-фреймворк, ориентированный на механизмы внимания, а именно YOLOv12, который соответствует скорости предыдущих CNN-моделей, одновременно используя преимущества механизмов внимания. YOLOv12 превосходит все популярные детекторы объектов в реальном времени по точности при конкурентоспособной скорости. Например, YOLOv12-N достигает 40,6% mAP с задержкой вывода 1,64 мс на GPU T4, опережая продвинутые YOLOv10-N / YOLOv11-N на 2,1%/1,2% mAP при сопоставимой скорости. Это преимущество распространяется и на другие масштабы моделей. YOLOv12 также превосходит end-to-end детекторы в реальном времени, улучшающие DETR, такие как RT-DETR / RT-DETRv2: YOLOv12-S обгоняет RT-DETR-R18 / RT-DETRv2-R18, работая на 42% быстрее, используя только 36% вычислений и 45% параметров. Дополнительные сравнения представлены на Рисунке 1.

MUDDFormer: Преодоление остаточных узких мест в трансформерах с помощью многосторонних динамических плотных соединений
MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

Feb 13

ByDa Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan

Мы предлагаем MUltiway Dynamic Dense (MUDD) соединения — простой, но эффективный метод для устранения ограничений остаточных соединений и улучшения кросс-слоевого потока информации в Transformers. В отличие от существующих подходов с плотными соединениями, использующих статические и общие веса соединений, MUDD динамически генерирует веса соединений в зависимости от скрытых состояний на каждой позиции последовательности и для каждого разделенного входного потока (запроса, ключа, значения или остатка) блока Transformer. MUDD соединения могут быть легко интегрированы в любую архитектуру Transformer для создания MUDDFormer. Многочисленные эксперименты показывают, что MUDDFormer значительно превосходит Transformers в различных архитектурах и масштабах моделей для задач языкового моделирования, достигая производительности Transformers, обученных с использованием в 1.8–2.4 раза больше вычислительных ресурсов. В частности, MUDDPythia-2.8B соответствует Pythia-6.9B по показателю perplexity (ppl) на этапе предобучения и на задачах downstream, а в условиях few-shot (пять примеров) даже приближается к Pythia-12B, добавляя при этом всего 0.23% параметров и 0.4% вычислений. Код на JAX и PyTorch, а также предобученные модели доступны по адресу https://github.com/Caiyun-AI/MUDDFormer.

HealthGPT: Медицинская крупная визуально-языковая модель для объединения понимания и генерации через адаптацию гетерогенных знаний
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Feb 14

ByTianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi

Мы представляем HealthGPT — мощную медицинскую крупную визуально-языковую модель (Med-LVLM), которая объединяет способности к медицинскому визуальному пониманию и генерации в рамках единой авторегрессивной парадигмы. Наша философия поэтапной адаптации заключается в постепенном переносе разнородных знаний о понимании и генерации на предварительно обученные крупные языковые модели (LLM). Это достигается с помощью новой техники гетерогенной низкоранговой адаптации (H-LoRA), которая дополняется специализированным иерархическим подходом к визуальному восприятию и трехэтапной стратегией обучения. Для эффективного обучения HealthGPT мы разработали комплексный набор данных для понимания и генерации в медицинской области под названием VL-Health. Экспериментальные результаты демонстрируют выдающуюся производительность и масштабируемость HealthGPT в задачах медицинского визуального объединения. Наш проект доступен по адресу https://github.com/DCDmllm/HealthGPT.

Flow-of-Options: Диверсифицированное и улучшенное рассуждение в языковых моделях через анализ возможных вариантов
Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options

Feb 18

ByLakshmi Nair, Ian Trase, Mark Kim

Мы представляем новый подход к рассуждению под названием "Поток вариантов" (Flow-of-Options, FoO), разработанный для устранения внутренних предубеждений в больших языковых моделях (LLM). FoO позволяет LLM систематически исследовать широкий спектр возможностей в процессе рассуждений, что демонстрируется на примере агентной системы на основе FoO для автономного решения задач машинного обучения (AutoML). Наша система превосходит современные базовые методы, показывая улучшения на 38,2% - 69,2% в стандартных задачах анализа данных и на 37,4% - 47,9% в задачах терапевтической химии. При общей стоимости выполнения задачи менее $1 наша система хорошо подходит для приложений, чувствительных к затратам. Помимо классификации и регрессии, мы демонстрируем более широкую применимость нашей агентной системы на основе FoO к задачам, таким как обучение с подкреплением и генерация изображений. Наша система представляет значительные улучшения по сравнению с современными агентными системами для AutoML благодаря преимуществам FoO, которые обеспечивают разнообразие решений LLM через сжатые, объяснимые представления, а также поддерживают долговременную память при комбинировании с рассуждениями на основе прецедентов.

Скрытые риски крупных моделей рассуждений: оценка безопасности R1
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

Feb 18

ByKaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang

Быстрое развитие крупных моделей рассуждений, таких как OpenAI-o3 и DeepSeek-R1, привело к значительному улучшению сложных рассуждений по сравнению с нерассуждающими большими языковыми моделями (LLM). Однако их расширенные возможности, в сочетании с открытым доступом к моделям, таким как DeepSeek-R1, вызывают серьезные опасения в отношении безопасности, особенно в плане их потенциального неправильного использования. В данной работе мы представляем всестороннюю оценку безопасности этих моделей рассуждений, используя устоявшиеся тесты безопасности для оценки их соответствия нормативным требованиям. Кроме того, мы исследуем их уязвимость к атакам, таким как взлом (jailbreaking) и инъекция подсказок (prompt injection), чтобы оценить их устойчивость в реальных приложениях. В ходе нашего многогранного анализа мы выявили четыре ключевых вывода: (1) Существует значительный разрыв в безопасности между открытыми моделями R1 и моделью o3-mini, как в тестах безопасности, так и в атаках, что указывает на необходимость дополнительных усилий по обеспечению безопасности для R1. (2) Дистиллированная модель рассуждений демонстрирует более низкую безопасность по сравнению с её базовыми моделями, выровненными по безопасности. (3) Чем сильнее способность модели к рассуждениям, тем больший вред она может причинить при ответе на небезопасные вопросы. (4) Процесс мышления в моделях R1 вызывает больше опасений в плане безопасности, чем их конечные ответы. Наше исследование предоставляет важные инсайты в области безопасности моделей рассуждений и подчеркивает необходимость дальнейшего улучшения безопасности моделей R1 для устранения существующего разрыва.

Оперативные обновления для совмещения коммуникации и вычислений в DiLoCo
Eager Updates For Overlapped Communication and Computation in DiLoCo

Feb 18

BySatyen Kale, Arthur Douillard, Yanislav Donchev

Распределенные методы оптимизации, такие как DiLoCo, доказали свою эффективность в обучении очень больших моделей на множестве распределенных вычислительных узлов, таких как дата-центры. Эти методы разделяют обновления на две части: внутреннюю фазу оптимизации, в которой узлы независимо выполняют несколько шагов оптимизации на своих локальных данных, и внешний шаг оптимизации, на котором внутренние обновления синхронизируются. Хотя такие подходы требуют на порядки меньше коммуникации по сравнению с традиционным параллельным обучением с разделением данных, в условиях, когда узлами являются дата-центры, даже ограниченные требования к коммуникации в этих подходах могут вызывать значительные задержки из-за необходимости блокировки на каждом внешнем шаге оптимизации. В данной статье мы исследуем методы для смягчения этой проблемы путем совмещения коммуникации с вычислениями таким образом, чтобы внешний шаг оптимизации полностью перекрывался с внутренней фазой оптимизации. Мы показываем, что определенный вариант, названный "жадными обновлениями", обеспечивает конкурентоспособную производительность по сравнению со стандартным DiLoCo в условиях низкой пропускной способности между узлами.

Предварительное обучение авторегрессивных роботизированных моделей с использованием 4D-представлений
Pre-training Auto-regressive Robotic Models with 4D Representations

Feb 18

ByDantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig

Фундаментальные модели, предварительно обученные на огромных наборах неразмеченных данных, произвели революцию в области обработки естественного языка и компьютерного зрения, демонстрируя выдающиеся способности к обобщению, что подчеркивает важность предварительного обучения. Однако в робототехнике подобные успехи остаются труднодостижимыми из-за необходимости в дорогостоящих аннотациях для роботов или отсутствия представлений, эффективно моделирующих физический мир. В данной статье мы представляем ARM4R — авторегрессионную роботизированную модель, которая использует низкоуровневые 4D-представления, извлеченные из видеоданных человека, для создания более эффективной предварительно обученной роботизированной модели. В частности, мы сосредоточились на использовании 3D-представлений отслеживания точек из видео, полученных путем преобразования 2D-представлений в 3D-пространство с помощью монохромной оценки глубины во времени. Эти 4D-представления сохраняют общую геометрическую структуру между точками и представлениями состояния робота с точностью до линейного преобразования, что позволяет эффективно переносить знания из видеоданных человека на низкоуровневое управление роботами. Наши эксперименты показывают, что ARM4R эффективно переносит знания из видеоданных человека в робототехнику и стабильно улучшает производительность в задачах, охватывающих различные среды и конфигурации роботов.

FinMTEB: Финансовый эталонный тест для массового создания текстовых вложений
FinMTEB: Finance Massive Text Embedding Benchmark

Feb 16

ByYixuan Tang, Yi Yang

Модели векторного представления (эмбеддинга) играют ключевую роль в представлении и извлечении информации в различных приложениях обработки естественного языка (NLP). Последние достижения в области больших языковых моделей (LLM) значительно улучшили производительность моделей эмбеддинга. Хотя эти модели часто тестируются на общецелевых наборах данных, реальные приложения требуют оценки в конкретных предметных областях. В данной работе мы представляем Finance Massive Text Embedding Benchmark (FinMTEB) — специализированный аналог MTEB, разработанный для финансовой сферы. FinMTEB включает 64 набора данных для эмбеддинга, специфичных для финансовой области, охватывающих 7 задач, которые включают разнообразные типы текстов на китайском и английском языках, такие как финансовые новостные статьи, годовые отчеты компаний, ESG-отчеты, регуляторные документы и расшифровки конференц-звонков о финансовых результатах. Мы также разработали адаптированную для финансов модель FinPersona-E5, используя метод синтетических данных на основе персонажей для охвата разнообразных задач финансового эмбеддинга в процессе обучения. В результате масштабной оценки 15 моделей эмбеддинга, включая FinPersona-E5, мы выявили три ключевых вывода: (1) производительность на общецелевых тестах слабо коррелирует с задачами в финансовой области; (2) адаптированные для предметной области модели стабильно превосходят свои общецелевые аналоги; (3) удивительно, но простой подход Bag-of-Words (BoW) превосходит сложные плотные эмбеддинги в задачах семантического сходства текстов (STS) в финансовой сфере, что подчеркивает текущие ограничения плотных методов эмбеддинга. Наша работа устанавливает надежную основу для оценки финансовых приложений NLP и предоставляет важные инсайты для разработки моделей эмбеддинга, специфичных для предметной области.

Коллективное сравнительное рассуждение: раскрытие комплексных оценок для модели "LLM-как-судья"
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

Feb 18

ByQiyuan Zhang, Yufei Wang, Yuxin Jiang, Liangyou Li, Chuhan Wu, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma

LLM-as-a-Judge, генерирующий суждения с использованием цепочки рассуждений (CoT), стал широко применяемым методом автоматической оценки. Однако его надежность снижается из-за неспособности CoT-рассуждений охватить всесторонние и глубокие детали, что часто приводит к неполным результатам. Существующие методы в основном полагаются на мажоритарное голосование или расширение критериев, что недостаточно для устранения ограничений CoT. Мы предлагаем метод коллективной сравнительной оценки, который вводит дополнительные коллективные ответы для сравнения с кандидатскими, тем самым выявляя более глубокие и всесторонние детали в кандидатских ответах. Этот процесс эффективно направляет LLM-as-a-Judge на предоставление более детализированного CoT-суждения. Многочисленные эксперименты демонстрируют, что наш подход повышает надежность оценки, достигая среднего прироста точности на 6,7% по пяти тестовым наборам. Более того, наш метод создает CoT более высокого качества, что способствует дистилляции суждений и демонстрирует превосходную производительность при отборе образцов для контролируемого тонкого обучения (SFT), называемого коллективным отбором образцов, тем самым обеспечивая более эффективное SFT. Наш анализ подтверждает, что CoT, генерируемые нашим методом, более всесторонние и качественные, а точность оценки улучшается с увеличением масштаба вывода.

Внедрение предметно-ориентированных знаний в крупные языковые модели: всесторонний обзор
Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey

Feb 15

ByZirui Song, Bin Yan, Yuhan Liu, Miao Fang, Mingzhe Li, Rui Yan, Xiuying Chen

Крупные языковые модели (LLM) продемонстрировали впечатляющие успехи в решении различных задач, таких как понимание естественного языка, суммаризация текста и машинный перевод. Однако их универсальный характер часто ограничивает их эффективность в предметно-ориентированных приложениях, требующих специализированных знаний, таких как здравоохранение, химия или юридический анализ. Для решения этой проблемы исследователи изучили различные методы улучшения LLM путем интеграции предметно-ориентированных знаний. В данном обзоре мы предоставляем всесторонний обзор этих методов, которые мы классифицируем на четыре ключевых подхода: динамическое внедрение знаний, статическое встраивание знаний, модульные адаптеры и оптимизация промптов. Каждый из этих подходов предлагает уникальные механизмы для оснащения LLM предметной экспертизой, балансируя компромиссы между гибкостью, масштабируемостью и эффективностью. Мы обсуждаем, как эти методы позволяют LLM решать специализированные задачи, сравниваем их преимущества и недостатки, оцениваем предметно-ориентированные LLM в сравнении с универсальными, а также выделяем вызовы и возможности в этой развивающейся области. Для тех, кто заинтересован в более глубоком изучении этой темы, мы также суммируем часто используемые наборы данных и бенчмарки. Чтобы исследователи оставались в курсе последних исследований, мы поддерживаем открытый репозиторий по адресу: https://github.com/abilliyb/Knowledge_Injection_Survey_Papers, посвященный документации исследований в области специализированных LLM.

Масштабирование автономных агентов через автоматическое моделирование вознаграждений и планирование
Scaling Autonomous Agents via Automatic Reward Modeling And Planning

Feb 17

ByZhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в решении широкого спектра задач, связанных с генерацией текста. Однако LLM по-прежнему испытывают трудности с задачами, требующими многошагового принятия решений и обратной связи от среды, такими как онлайн-покупки, научные рассуждения и решение математических задач. В отличие от чистых текстовых данных, сбор крупномасштабных данных для принятия решений является сложной задачей. Более того, многие мощные LLM доступны только через API, что затрудняет их тонкую настройку для задач агентов из-за стоимости и сложности. Чтобы преодолеть ограничения LLM-агентов, мы предлагаем фреймворк, который может автоматически обучать модель вознаграждения на основе среды без участия человека. Эта модель может использоваться для оценки траекторий действий LLM-агентов и предоставления эвристик для планирования задач. В частности, наш подход предполагает использование одного LLM-агента для случайного исследования среды, генерируя разнообразные траектории действий. Затем отдельная LLM используется для назначения задачи и синтеза отрицательного ответа вместе с правильным ответом для каждой траектории. Эти тройки (задача, положительный ответ и отрицательный ответ) затем используются в качестве обучающих данных для оптимизации модели вознаграждения, способной оценивать траектории действий. Эффективность и универсальность нашего фреймворка демонстрируются в ходе оценок, проведенных на различных бенчмарках для агентов. В заключение, наш предложенный фреймворк представляет собой значительный шаг вперед в улучшении способностей LLM-агентов к принятию решений. Автоматизируя обучение моделей вознаграждения, мы преодолеваем проблемы нехватки данных и ограничений API, что потенциально может революционизировать применение LLM в сложных и интерактивных средах. Это исследование открывает путь для создания более совершенных ИИ-агентов, способных решать широкий спектр реальных задач, требующих многошагового принятия решений.

Использование моделей компьютерного зрения для анализа временных рядов: обзор
Harnessing Vision Models for Time Series Analysis: A Survey

Feb 13

ByJingchao Ni, Ziming Zhao, ChengAo Shen, Hanghang Tong, Dongjin Song, Wei Cheng, Dongsheng Luo, Haifeng Chen

Анализ временных рядов претерпел вдохновляющее развитие: от традиционных авторегрессионных моделей и моделей глубокого обучения до современных трансформеров и крупных языковых моделей (LLM). Попытки применения моделей компьютерного зрения для анализа временных рядов также предпринимались, но оставались менее заметными для сообщества из-за преобладания исследований в области моделирования последовательностей в этой области. Однако расхождение между непрерывными временными рядами и дискретным пространством токенов LLM, а также трудности в явном моделировании корреляций переменных в многомерных временных рядах сместили внимание исследователей на не менее успешные крупные модели компьютерного зрения (LVM) и модели, объединяющие компьютерное зрение и язык (VLM). Чтобы заполнить пробел в существующей литературе, данный обзор обсуждает преимущества моделей компьютерного зрения перед LLM в анализе временных рядов. Он предоставляет всесторонний и глубокий обзор существующих методов, предлагая двойной взгляд через детальную таксономию, которая отвечает на ключевые исследовательские вопросы, включая то, как кодировать временные ряды в виде изображений и как моделировать визуализированные временные ряды для различных задач. Кроме того, мы рассматриваем проблемы, возникающие на этапах пред- и постобработки в рамках этого подхода, и намечаем будущие направления для дальнейшего продвижения анализа временных рядов с использованием моделей компьютерного зрения.

Perovskite-LLM: Модели больших языков с расширенными знаниями для исследований перовскитных солнечных элементов
Perovskite-LLM: Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research

Feb 18

ByXiang Liu, Penglei Sun, Shuyan Chen, Longhan Zhang, Peijie Dong, Huajie You, Yongqi Zhang, Chang Yan, Xiaowen Chu, Tong-yi Zhang

Быстрое развитие перовскитных солнечных элементов (PSCs) привело к экспоненциальному росту числа научных публикаций, что создало острую потребность в эффективных системах управления знаниями и рассуждений в этой области. Мы представляем комплексную систему, усиленную знаниями, для PSCs, которая интегрирует три ключевых компонента. Во-первых, мы разработали Perovskite-KG — предметно-ориентированный граф знаний, построенный на основе 1 517 научных статей и содержащий 23 789 сущностей и 22 272 связи. Во-вторых, мы создали два дополняющих набора данных: Perovskite-Chat, включающий 55 101 высококачественную пару вопрос-ответ, сгенерированную с использованием новой многоагентной структуры, и Perovskite-Reasoning, содержащий 2 217 тщательно отобранных задач из области материаловедения. В-третьих, мы представили две специализированные крупные языковые модели: Perovskite-Chat-LLM для оказания помощи в предметно-ориентированных знаниях и Perovskite-Reasoning-LLM для выполнения задач научного рассуждения. Экспериментальные результаты показывают, что наша система значительно превосходит существующие модели как в задачах извлечения предметно-ориентированных знаний, так и в задачах науч

Многоязычный энкодер знает больше, чем вы думаете: Совместное обучение с общими весами для языков с крайне ограниченными ресурсами
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

Feb 15

ByZeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong

Хотя многоязычные языковые модели, такие как XLM-R, значительно продвинули многоязычие в NLP, они по-прежнему демонстрируют низкую производительность на крайне малоресурсных языках. Эта ситуация усугубляется тем, что современные крупные языковые модели, такие как LLaMA и Qwen, поддерживают гораздо меньше языков, чем XLM-R, что делает модели генерации текста недоступными для многих языков мира. Для решения этой проблемы мы предлагаем новый фреймворк для адаптации многоязычных энкодеров к генерации текста на крайне малоресурсных языках. Благодаря повторному использованию весов между энкодером и декодером, наш фреймворк позволяет модели использовать изученное семантическое пространство энкодера, обеспечивая эффективное обучение и качественное обобщение на малоресурсных языках. Применив этот фреймворк к четырем китайским языкам меньшинств, мы представляем XLM-SWCM и демонстрируем его превосходную производительность на различных задачах, даже в сравнении с гораздо более крупными моделями.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Soundwave: меньше значит больше для выравнивания речи и текста в больших языковых моделях
Soundwave: Less is More for Speech-Text Alignment in LLMs

Feb 18

ByYuhao Zhang, Zhiheng Liu, Fan Bu, Ruiyu Zhang, Benyou Wang, Haizhou Li

Упаковка 1568 токенов в один вектор и обратно: исследование пределов емкости пространства эмбеддингов
Cramming 1568 Tokens into a Single Vector and Back Again: Exploring the Limits of Embedding Space Capacity

Feb 18

ByYuri Kuratov, Mikhail Arkhipov, Aydar Bulatov, Mikhail Burtsev

Phantom: Создание согласованных с объектом видео через кросс-модальное выравнивание
Phantom: Subject-consistent video generation via cross-modal alignment

Feb 16

ByLijie Liu, Tianxiang Ma, Bingchuan Li, Zhuowei Chen, Jiawei Liu, Qian He, Xinglong Wu

Magma: Базисная модель для мультимодальных ИИ-агентов
Magma: A Foundation Model for Multimodal AI Agents

Feb 18

ByJianwei Yang, Reuben Tan, Qianhui Wu, Ruijie Zheng, Baolin Peng, Yongyuan Liang, Yu Gu, Mu Cai, Seonghyeon Ye, Joel Jang, Yuquan Deng, Lars Liden, Jianfeng Gao

Непрерывная диффузионная модель для языкового моделирования
Continuous Diffusion Model for Language Modeling

Feb 17

ByJaehyeong Jo, Sung Ju Hwang

Multimodal Mamba: Декодер-ориентированная мультимодальная модель пространства состояний через дистилляцию от квадратичной к линейной
Multimodal Mamba: Decoder-only Multimodal State Space Model via Quadratic to Linear Distillation

Feb 18

ByBencheng Liao, Hongyuan Tao, Qian Zhang, Tianheng Cheng, Yingyue Li, Haoran Yin, Wenyu Liu, Xinggang Wang

Вы не полностью используете репрезентативную способность трансформера
You Do Not Fully Utilize Transformer's Representation Capacity

Feb 13

ByGleb Gerasimov, Yaroslav Aksenov, Nikita Balagansky, Viacheslav Sinii, Daniil Gavrilov

Переосмысление изучения разнообразных человеческих предпочтений через анализ главных компонент
Rethinking Diverse Human Preference Learning through Principal Component Analysis

Feb 18

ByFeng Luo, Rui Yang, Hao Sun, Chunyuan Deng, Jiarui Yao, Jingyan Shen, Huan Zhang, Hanjie Chen

FLAG-Trader: Интеграция LLM-агента с градиентным обучением с подкреплением для финансового трейдинга
FLAG-Trader: Fusion LLM-Agent with Gradient-based Reinforcement Learning for Financial Trading

Feb 17

ByGuojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie

SoFar: Языково-ориентированная система навигации, объединяющая пространственное мышление и манипуляции с объектами
SoFar: Language-Grounded Orientation Bridges Spatial Reasoning and Object Manipulation

Feb 18

SafeRoute: Адаптивный выбор моделей для эффективного и точного обеспечения защитных механизмов безопасности в крупных языковых моделях
SafeRoute: Adaptive Model Selection for Efficient and Accurate Safety Guardrails in Large Language Models

Feb 18

BySeanie Lee, Dong Bok Lee, Dominik Wagner, Minki Kang, Haebin Seong, Tobias Bocklet, Juho Lee, Sung Ju Hwang

OctoTools: Агентная структура с расширяемыми инструментами для сложных рассуждений
OctoTools: An Agentic Framework with Extensible Tools for Complex Reasoning

Feb 16

ByPan Lu, Bowen Chen, Sheng Liu, Rahul Thapa, Joseph Boen, James Zou

Атом Мыслей для масштабирования марковских языковых моделей во время тестирования
Atom of Thoughts for Markov LLM Test-Time Scaling

Feb 17

ByFengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo

Пересмотр масштабируемости моделей типа o1 на этапе тестирования: действительно ли они обладают способностью к масштабированию во время тестирования?
Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities?

Feb 17

ByZhiyuan Zeng, Qinyuan Cheng, Zhangyue Yin, Yunhua Zhou, Xipeng Qiu

RealSyn: Эффективная и масштабируемая мультимодальная парадигма преобразования документов с чередованием данных
RealSyn: An Effective and Scalable Multimodal Interleaved Document Transformation Paradigm

Feb 18

ByTiancheng Gu, Kaicheng Yang, Chaoyi Zhang, Yin Xie, Xiang An, Ziyong Feng, Dongnan Liu, Weidong Cai, Jiankang Deng

PAFT: Тонкая настройка, не зависящая от промптов
PAFT: Prompt-Agnostic Fine-Tuning

Feb 18

ByChenxing Wei, Yao Shu, Mingwen Ou, Ying Tiffany He, Fei Richard Yu

HeadInfer: Энергоэффективный вывод больших языковых моделей за счет поэтапного выгрузки голов
HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading

Feb 18

ByCheng Luo, Zefan Cai, Hanshi Sun, Jinqi Xiao, Bo Yuan, Wen Xiao, Junjie Hu, Jiawei Zhao, Beidi Chen, Anima Anandkumar

Text2World: Оценка крупных языковых моделей для генерации символических моделей мира
Text2World: Benchmarking Large Language Models for Symbolic World Model Generation

Feb 18

ByMengkang Hu, Tianxing Chen, Yude Zou, Yuheng Lei, Qiguang Chen, Ming Li, Hongyuan Zhang, Wenqi Shao, Ping Luo

YOLOv12: Реальные детекторы объектов с фокусом на механизмах внимания
YOLOv12: Attention-Centric Real-Time Object Detectors

Feb 18

ByYunjie Tian, Qixiang Ye, David Doermann

MUDDFormer: Преодоление остаточных узких мест в трансформерах с помощью многосторонних динамических плотных соединений
MUDDFormer: Breaking Residual Bottlenecks in Transformers via Multiway Dynamic Dense Connections

Feb 13

ByDa Xiao, Qingye Meng, Shengping Li, Xingyuan Yuan

HealthGPT: Медицинская крупная визуально-языковая модель для объединения понимания и генерации через адаптацию гетерогенных знаний
HealthGPT: A Medical Large Vision-Language Model for Unifying Comprehension and Generation via Heterogeneous Knowledge Adaptation

Feb 14

ByTianwei Lin, Wenqiao Zhang, Sijing Li, Yuqian Yuan, Binhe Yu, Haoyuan Li, Wanggui He, Hao Jiang, Mengze Li, Xiaohui Song, Siliang Tang, Jun Xiao, Hui Lin, Yueting Zhuang, Beng Chin Ooi

Flow-of-Options: Диверсифицированное и улучшенное рассуждение в языковых моделях через анализ возможных вариантов
Flow-of-Options: Diversified and Improved LLM Reasoning by Thinking Through Options

Feb 18

ByLakshmi Nair, Ian Trase, Mark Kim

Скрытые риски крупных моделей рассуждений: оценка безопасности R1
The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1

Feb 18

ByKaiwen Zhou, Chengzhi Liu, Xuandong Zhao, Shreedhar Jangam, Jayanth Srinivasa, Gaowen Liu, Dawn Song, Xin Eric Wang

Оперативные обновления для совмещения коммуникации и вычислений в DiLoCo
Eager Updates For Overlapped Communication and Computation in DiLoCo

Feb 18

BySatyen Kale, Arthur Douillard, Yanislav Donchev

Предварительное обучение авторегрессивных роботизированных моделей с использованием 4D-представлений
Pre-training Auto-regressive Robotic Models with 4D Representations

Feb 18

ByDantong Niu, Yuvan Sharma, Haoru Xue, Giscard Biamby, Junyi Zhang, Ziteng Ji, Trevor Darrell, Roei Herzig

FinMTEB: Финансовый эталонный тест для массового создания текстовых вложений
FinMTEB: Finance Massive Text Embedding Benchmark

Feb 16

ByYixuan Tang, Yi Yang

Коллективное сравнительное рассуждение: раскрытие комплексных оценок для модели "LLM-как-судья"
Crowd Comparative Reasoning: Unlocking Comprehensive Evaluations for LLM-as-a-Judge

Feb 18

ByQiyuan Zhang, Yufei Wang, Yuxin Jiang, Liangyou Li, Chuhan Wu, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Fuyuan Lyu, Chen Ma

Внедрение предметно-ориентированных знаний в крупные языковые модели: всесторонний обзор
Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey

Feb 15

ByZirui Song, Bin Yan, Yuhan Liu, Miao Fang, Mingzhe Li, Rui Yan, Xiuying Chen

Масштабирование автономных агентов через автоматическое моделирование вознаграждений и планирование
Scaling Autonomous Agents via Automatic Reward Modeling And Planning

Feb 17

ByZhenfang Chen, Delin Chen, Rui Sun, Wenjun Liu, Chuang Gan

Использование моделей компьютерного зрения для анализа временных рядов: обзор
Harnessing Vision Models for Time Series Analysis: A Survey

Feb 13

ByJingchao Ni, Ziming Zhao, ChengAo Shen, Hanghang Tong, Dongjin Song, Wei Cheng, Dongsheng Luo, Haifeng Chen

Perovskite-LLM: Модели больших языков с расширенными знаниями для исследований перовскитных солнечных элементов
Perovskite-LLM: Knowledge-Enhanced Large Language Models for Perovskite Solar Cell Research

Feb 18

ByXiang Liu, Penglei Sun, Shuyan Chen, Longhan Zhang, Peijie Dong, Huajie You, Yongqi Zhang, Chang Yan, Xiaowen Chu, Tong-yi Zhang

Многоязычный энкодер знает больше, чем вы думаете: Совместное обучение с общими весами для языков с крайне ограниченными ресурсами
Multilingual Encoder Knows more than You Realize: Shared Weights Pretraining for Extremely Low-Resource Languages

Feb 15

ByZeli Su, Ziyin Zhang, Guixian Xu, Jianing Liu, XU Han, Ting Zhang, Yushuang Dong