Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем MiniMax-M1 — первую в мире открытую крупномасштабную модель с гибридным механизмом внимания для рассуждений. MiniMax-M1 основана на гибридной архитектуре Mixture-of-Experts (MoE), объединенной с механизмом молниеносного внимания. Модель разработана на основе нашей предыдущей модели MiniMax-Text-01, которая содержит 456 миллиардов параметров, из которых 45,9 миллиарда активируются на каждый токен. Модель M1 изначально поддерживает контекст длиной в 1 миллион токенов, что в 8 раз превышает размер контекста DeepSeek R1. Кроме того, механизм молниеносного внимания в MiniMax-M1 обеспечивает эффективное масштабирование вычислений во время тестирования. Эти свойства делают M1 особенно подходящей для сложных задач, требующих обработки длинных входных данных и глубокого анализа. MiniMax-M1 обучается с использованием крупномасштабного обучения с подкреплением (RL) на разнообразных задачах, включая среды разработки программного обеспечения, основанные на песочницах и реальных условиях. Помимо естественного преимущества M1 в эффективности обучения RL, мы предлагаем CISPO — новый алгоритм RL, который дополнительно повышает эффективность обучения. CISPO обрезает веса важности выборки вместо обновлений токенов, превосходя другие конкурентоспособные варианты RL. Сочетание гибридного внимания и CISPO позволяет завершить полное обучение RL MiniMax-M1 на 512 GPU H800 всего за три недели, с арендной стоимостью всего $534,700. Мы выпускаем две версии моделей MiniMax-M1 с бюджетами на рассуждения 40K и 80K соответственно, где модель 40K представляет промежуточный этап обучения модели 80K. Эксперименты на стандартных бенчмарках показывают, что наши модели сопоставимы или превосходят сильные открытые модели, такие как оригинальный DeepSeek-R1 и Qwen3-235B, с особыми преимуществами в сложных задачах разработки программного обеспечения, использования инструментов и работы с длинным контекстом. Мы публично выпускаем MiniMax-M1 по адресу https://github.com/MiniMax-AI/MiniMax-M1.
Научные открытия всё чаще опираются на сложное мультимодальное мышление, основанное на информационно-насыщенных научных данных и экспертных знаниях в конкретных областях. Благодаря эталонным научным тестам экспертного уровня, мультимодальные большие языковые модели (MLLMs) обладают потенциалом значительно улучшить этот процесс открытий в реальных рабочих процессах. Однако текущие научные тесты в основном сосредоточены на оценке способностей MLLMs к пониманию знаний, что приводит к недостаточной оценке их восприятия и способностей к рассуждению. Чтобы устранить этот пробел, мы представляем тест "Первый экзамен учёного" (SFE), разработанный для оценки научных когнитивных способностей MLLMs через три взаимосвязанных уровня: восприятие научных сигналов, понимание научных атрибутов, научное сравнительное рассуждение. В частности, SFE включает 830 экспертно-проверенных вопросно-ответных пар по трём типам вопросов, охватывающих 66 мультимодальных задач в пяти высокоценных дисциплинах. Обширные эксперименты показывают, что современные модели GPT-o3 и InternVL-3 достигают только 34,08% и 26,52% на SFE, что подчеркивает значительный потенциал для улучшения MLLMs в научных областях. Мы надеемся, что полученные в SFE инсайты будут способствовать дальнейшему развитию научных открытий, усиленных искусственным интеллектом.
Глубокие исследовательские агенты (Deep Research Agents, DRA) представляют собой значительную категорию агентов на основе больших языковых моделей (LLM). Автономно организуя многоэтапное исследование в интернете, целенаправленный поиск и синтез высокого порядка, они преобразуют огромные объемы онлайн-информации в аналитические отчеты, насыщенные ссылками, — сокращая часы ручного кабинетного исследования до минут. Однако всеобъемлющий бенчмарк для систематической оценки возможностей таких агентов до сих пор отсутствует. Чтобы восполнить этот пробел, мы представляем DeepResearch Bench — бенчмарк, состоящий из 100 исследовательских задач уровня PhD, каждая из которых тщательно разработана экспертами в 22 различных областях. Оценка DRA является по своей природе сложной и трудоемкой. Поэтому мы предлагаем два новых метода, которые обеспечивают высокое соответствие человеческому суждению. Первый метод — это референсный подход с адаптивными критериями для оценки качества генерируемых исследовательских отчетов. Второй метод вводится для оценки способностей DRA к поиску и сбору информации путем анализа эффективного количества цитирований и общей точности ссылок. Мы открыли исходный код DeepResearch Bench и ключевых компонентов этих методов на https://github.com/Ayanami0730/deep_research_bench, чтобы ускорить разработку практических агентов на основе LLM.
Мы представляем TransDiff — первую модель генерации изображений, которая объединяет авторегрессивный (AR) трансформер с диффузионными моделями. В рамках этого совместного подхода TransDiff кодирует метки и изображения в высокоуровневые семантические признаки и использует диффузионную модель для оценки распределения сэмплов изображений. На бенчмарке ImageNet 256x256 TransDiff значительно превосходит другие модели генерации изображений, основанные исключительно на авторегрессивных трансформерах или диффузионных моделях. В частности, TransDiff достигает показателя Fr\'echet Inception Distance (FID) 1.61 и Inception Score (IS) 293.4, а также обеспечивает в 2 раза более быструю задержку вывода по сравнению с современными методами на основе AR-трансформеров и в 112 раз быстрее, чем модели, использующие только диффузию. Кроме того, на основе модели TransDiff мы представляем новую парадигму генерации изображений под названием Multi-Reference Autoregression (MRAR), которая выполняет авторегрессивную генерацию, предсказывая следующее изображение. MRAR позволяет модели ссылаться на несколько ранее сгенерированных изображений, что способствует изучению более разнообразных представлений и повышению качества изображений в последующих итерациях. Применение MRAR улучшает производительность TransDiff, снижая FID с 1.61 до 1.42. Мы ожидаем, что TransDiff откроет новые горизонты в области генерации изображений.
В данной статье мы представляем DoTA-RAG (Dynamic-of-Thought Aggregation RAG) — систему генерации, усиленную поиском, оптимизированную для работы с высокопроизводительными и крупномасштабными индексами веб-знаний. Традиционные RAG-конвейеры часто страдают от высокой задержки и ограниченной точности при работе с огромными и разнообразными наборами данных. DoTA-RAG решает эти проблемы с помощью трехэтапного конвейера: переформулирование запросов, динамическая маршрутизация к специализированным подындексам и многоэтапный поиск с ранжированием. Мы дополнительно улучшаем поиск, оценивая и выбирая более эффективную модель эмбеддингов, а также повторно создаем эмбеддинги для крупного корпуса FineWeb-10BT. Кроме того, мы создаем разнообразный набор данных из 500 вопросов и ответов, сгенерированных с использованием установки DataMorgana, охватывающих широкий спектр тем и форматов WebOrganizer. DoTA-RAG повышает показатель корректности ответов с 0.752 (базовый уровень, с использованием предварительно созданного векторного хранилища LiveRAG) до 1.478, сохраняя при этом низкую задержку, и достигает показателя корректности 0.929 в рамках Live Challenge Day. Эти результаты подчеркивают потенциал DoTA-RAG для практического применения в областях, требующих быстрого и надежного доступа к крупным и постоянно обновляемым источникам знаний.
Последние достижения в области крупных моделей рассуждений позволили реализовать сложное пошаговое мышление, однако часто сопровождаются избыточным анализом, что приводит к многословным и избыточным выводам, снижающим эффективность. В данном исследовании мы изучаем, является ли явное саморефлексия, обозначаемая токенами, такими как "Подожди" и "Хм", необходимой для продвинутого рассуждения. Мы предлагаем подход NoWait, простой, но эффективный метод, который отключает явную саморефлексию, подавляя эти токены в процессе вывода. Масштабные эксперименты на десяти тестовых наборах, охватывающих текстовые, визуальные и видеозадачи, показывают, что NoWait сокращает длину цепочки рассуждений на 27%-51% в пяти сериях моделей R1, не снижая их полезности. Таким образом, NoWait предлагает простое в использовании решение для эффективного и сохраняющего полезность многомодального рассуждения.
Мы представляем Ego-R1 — новую структуру для рассуждений на основе сверхдлинных (т.е. продолжительностью в дни и недели) эгоцентричных видео, которая использует структурированный процесс Chain-of-Tool-Thought (CoTT), управляемый агентом Ego-R1, обученным с помощью обучения с подкреплением (RL). Вдохновленный стратегиями решения задач человеком, CoTT разбивает сложные рассуждения на модульные шаги, где RL-агент вызывает конкретные инструменты, по одному на шаг, для итеративного и совместного ответа на подвопросы, связанные с такими задачами, как временное извлечение и мультимодальное понимание. Мы разработали двухэтапную парадигму обучения, включающую тонкую настройку (SFT) предварительно обученной языковой модели с использованием данных CoTT и RL, чтобы позволить нашему агенту динамически предлагать пошаговые инструменты для долгосрочных рассуждений. Для облегчения обучения мы создали набор данных под названием Ego-R1 Data, который состоит из Ego-CoTT-25K для SFT и Ego-QA-4.4K для RL. Кроме того, наш агент Ego-R1 оценивается на новом бенчмарке для недельных видео QA, Ego-R1 Bench, который содержит проверенные человеком пары вопросов и ответов из гибридных источников. Обширные результаты демонстрируют, что динамическое, инструментально-усиленное цепочечное рассуждение нашего агента Ego-R1 может эффективно справляться с уникальными задачами понимания сверхдлинных эгоцентричных видео, значительно расширяя временное покрытие с нескольких часов до недели.
В данной работе мы представляем систематический обзор дискретных диффузионных языковых моделей (dLLMs) и дискретных диффузионных мультимодальных языковых моделей (dMLLMs). В отличие от авторегрессивных (AR) моделей, dLLMs и dMLLMs используют многотокеновый параллельный подход к декодированию, основанный на полном внимании и стратегии генерации через удаление шума. Этот подход естественным образом обеспечивает параллельную генерацию, детализированный контроль над выходными данными и динамическое, контекстно-зависимое восприятие. Эти возможности ранее было сложно достичь с помощью AR-моделей. В последнее время всё больше промышленных проприетарных d(M)LLMs, а также множество открытых академических d(M)LLMs продемонстрировали производительность, сопоставимую с их авторегрессивными аналогами, при этом достигая ускорения скорости вывода до 10 раз. Прогресс в области дискретных диффузионных LLMs и MLLMs во многом обусловлен достижениями в двух направлениях. Первое — это развитие авторегрессивных LLMs и MLLMs, которые накопили огромные объёмы данных, бенчмарков и базовой инфраструктуры для обучения и вывода. Второе направление — это эволюция математических моделей, лежащих в основе дискретной диффузии. Вместе эти достижения стимулировали всплеск исследований в области dLLMs и dMLLMs в начале 2025 года. В данной работе мы предлагаем всесторонний обзор исследований в областях dLLM и dMLLM. Мы прослеживаем историческое развитие dLLMs и dMLLMs, формализуем лежащие в их основе математические рамки и классифицируем репрезентативные модели. Кроме того, мы анализируем ключевые методы обучения и вывода, а также суммируем новые приложения в языковых, визуально-языковых и биологических областях. В заключение мы обсуждаем перспективные направления для дальнейших исследований и внедрения. Коллекция статей: https://github.com/LiQiiiii/DLLM-Survey
Данные играют ключевую роль в том, как языковые модели приобретают навыки и знания. Отсутствие масштабных, хорошо организованных наборов данных для предварительного обучения приводит к дорогостоящим и труднодоступным конвейерам данных. Мы представляем Essential-Web v1.0 — набор данных объемом 24 триллиона токенов, в котором каждый документ аннотирован с использованием двенадцатикатегорийной таксономии, охватывающей тему, формат, сложность содержания и качество. Метки таксономии создаются моделью EAI-Distill-0.5b, доработанной моделью с 0,5 миллиардами параметров, которая достигает согласия аннотаторов в пределах 3% от Qwen2.5-32B-Instruct. Используя только SQL-подобные фильтры, мы получаем конкурентоспособные наборы данных, отобранные из веб-источников, в таких областях, как математика (-8,0% относительно SOTA), веб-код (+14,3%), STEM (+24,5%) и медицина (+8,6%). Essential-Web v1.0 доступен на HuggingFace: https://huggingface.co/datasets/EssentialAI/essential-web-v1.0.
Агентные задачи, требующие многошагового решения проблем с автономностью, использованием инструментов и адаптивным мышлением, становятся все более важными для развития NLP и ИИ. Однако существующие данные инструкций не включают взаимодействие с инструментами, а текущие бенчмарки для агентных задач зависят от дорогостоящей аннотации человеком, что ограничивает их масштабируемость. Мы представляем TaskCraft — автоматизированный рабочий процесс для генерации задач с масштабируемой сложностью, использованием нескольких инструментов и проверяемыми траекториями выполнения. TaskCraft расширяет атомарные задачи с помощью глубинных и широтных расширений, создавая структурно и иерархически сложные вызовы. Эмпирические результаты показывают, что такие задачи улучшают оптимизацию подсказок в процессе генерации и повышают эффективность контролируемой тонкой настройки агентных базовых моделей. Мы представляем крупномасштабный синтетический набор данных, содержащий около 36 000 задач различной сложности, для поддержки будущих исследований по настройке и оценке агентов.
Мы представляем Autoregressive Retrieval Augmentation (AR-RAG) — новую парадигму, которая улучшает генерацию изображений за счет авторегрессивного включения поиска k ближайших соседей на уровне патчей. В отличие от предыдущих методов, которые выполняют единичный статический поиск перед генерацией и основывают весь процесс генерации на фиксированных эталонных изображениях, AR-RAG выполняет контекстно-зависимый поиск на каждом шаге генерации, используя ранее сгенерированные патчи в качестве запросов для поиска и включения наиболее релевантных визуальных эталонов на уровне патчей. Это позволяет модели адаптироваться к изменяющимся потребностям генерации, избегая ограничений (например, чрезмерного копирования, стилистических предубеждений и т.д.), характерных для существующих методов. Для реализации AR-RAG мы предлагаем две параллельные архитектуры: (1) Distribution-Augmentation in Decoding (DAiD) — стратегию декодирования без необходимости обучения, которая напрямую объединяет распределение предсказанных моделью патчей с распределением найденных патчей, и (2) Feature-Augmentation in Decoding (FAiD) — метод тонкой настройки с высокой параметрической эффективностью, который постепенно сглаживает признаки найденных патчей с помощью многомасштабных сверточных операций и использует их для улучшения процесса генерации изображений. Мы подтверждаем эффективность AR-RAG на широко используемых бенчмарках, включая Midjourney-30K, GenEval и DPG-Bench, демонстрируя значительное улучшение производительности по сравнению с современными моделями генерации изображений.
Методы плотного сопоставления, такие как DUSt3R, регрессируют попарные карты точек для 3D-реконструкции. Однако зависимость от попарного предсказания и ограниченная способность к обобщению по своей природе ограничивают глобальную геометрическую согласованность. В данной работе мы представляем Test3R — удивительно простую технику обучения на этапе тестирования, которая значительно повышает геометрическую точность. Используя тройки изображений (I_1, I_2, I_3), Test3R генерирует реконструкции из пар (I_1, I_2) и (I_1, I_3). Основная идея заключается в оптимизации сети на этапе тестирования с помощью самоконтролируемой цели: максимизации геометрической согласованности между этими двумя реконструкциями относительно общего изображения I_1. Это гарантирует, что модель будет выдавать согласованные результаты для разных пар, независимо от входных данных. Многочисленные эксперименты показывают, что наш метод значительно превосходит предыдущие передовые методы в задачах 3D-реконструкции и оценки глубины на основе нескольких видов. Более того, он универсально применим и практически бесплатен, что позволяет легко адаптировать его к другим моделям и реализовать с минимальными затратами на обучение на этапе тестирования и малым количеством параметров. Код доступен по адресу https://github.com/nopQAQ/Test3R.
В данной работе мы исследуем синергию между тонкой настройкой с учителем (SFT) и обучением с подкреплением (RL) в разработке мощных моделей для решения задач. Мы начинаем с подготовки данных для обучения SFT с использованием двух стратегий масштабирования: увеличения количества собранных запросов и количества сгенерированных ответов на каждый запрос. Оба подхода приводят к значительному улучшению качества рассуждений, причем масштабирование количества запросов дает более существенный прирост. Затем мы исследуем следующие вопросы, касающиеся синергии между SFT и RL: (i) Приводит ли более сильная модель SFT к лучшему конечному результату после масштабного обучения RL? (ii) Как определить подходящую температуру выборки во время обучения RL, чтобы эффективно сбалансировать исследование и использование для данной инициализации SFT? Наши результаты показывают, что (i) верно при условии эффективного обучения RL, особенно когда температура выборки тщательно подобрана для поддержания скорректированной по температуре энтропии около 0.3, что обеспечивает хороший баланс между исследованием и использованием. Примечательно, что разрыв в производительности между начальными моделями SFT значительно сокращается в процессе RL. Используя сильную основу SFT и понимание синергетического взаимодействия между SFT и RL, наша модель AceReason-Nemotron-1.1 7B значительно превосходит AceReason-Nemotron-1.0 и устанавливает новый рекорд среди моделей для рассуждений на основе Qwen2.5-7B на сложных математических и программных тестах, демонстрируя эффективность нашего подхода к пост-обучению. Мы публикуем модель и данные по адресу: https://huggingface.co/nvidia/AceReason-Nemotron-1.1-7B.
С быстрым улучшением общих возможностей языковых моделей (LLM), персонализация LLM, то есть создание систем LLM, способных генерировать персонализированные ответы или услуги, адаптированные к различным пользовательским персонам, становится все более важной исследовательской и инженерной задачей. Однако, в отличие от множества новых сложных тестов, выпускаемых для оценки общих/логических способностей, отсутствие качественных тестов для оценки персонализации LLM значительно затрудняет прогресс в этой области. Для решения этой проблемы мы представляем PersonaFeedback — новый тест, который напрямую оценивает способность LLM предоставлять персонализированные ответы на основе предопределенных пользовательских персон и запросов. В отличие от существующих тестов, которые требуют от моделей вывода неявных пользовательских персон из исторических взаимодействий, PersonaFeedback разделяет вывод персон и персонализацию, сосредотачиваясь на оценке способности модели генерировать ответы, адаптированные к явным персонам. PersonaFeedback состоит из 8298 тестовых случаев, аннотированных людьми, которые классифицируются на уровни легкий, средний и сложный в зависимости от контекстной сложности пользовательских персон и трудности в различении тонких различий между двумя персонализированными ответами. Мы проводим всесторонние оценки для широкого спектра моделей. Эмпирические результаты показывают, что даже передовые LLM, способные решать сложные задачи реального мира, могут не справляться с сложным уровнем PersonaFeedback, где даже человеческие оценщики могут находить различия трудными. Кроме того, мы проводим углубленный анализ типов ошибок в различных системах, демонстрируя, что текущая структура, усиленная поиском, не должна рассматриваться как де-факто решение для задач персонализации. Все данные теста, протоколы аннотации и процесс оценки будут общедоступны для облегчения будущих исследований в области персонализации LLM.
В области мультимодального рассуждения по цепочке мыслей (CoT) существующие подходы преимущественно опираются на рассуждения в чисто языковом пространстве, что неизбежно приводит к языковым искажениям и в значительной степени ограничивается математическими или научными областями. Такая узкая направленность ограничивает их способность справляться с задачами сложного визуального рассуждения, требующими всестороннего понимания деталей изображений. Для преодоления этих ограничений в данной статье представлена VGR — новая мультимодальная модель языкового рассуждения (MLLM) с улучшенными возможностями детального визуального восприятия. В отличие от традиционных MLLM, которые отвечают на вопросы или рассуждают исключительно в языковом пространстве, наша VGR сначала обнаруживает релевантные области, которые могут помочь в решении задач, а затем предоставляет точные ответы на основе воспроизведенных областей изображения. Для достижения этого мы создали крупномасштабный набор данных SFT под названием VGR-SFT, содержащий данные для рассуждений с сочетанием визуального обоснования и языковой дедукции. Процесс вывода VGR позволяет модели выбирать ограничивающие рамки для визуальной ссылки, а этап воспроизведения интегрирует соответствующие области в процесс рассуждения, улучшая мультимодальное понимание. Эксперименты на базовой модели LLaVA-NeXT-7B показывают, что VGR демонстрирует превосходные результаты на мультимодальных тестах, требующих всестороннего понимания деталей изображений. По сравнению с базовой моделью, VGR использует только 30% количества токенов изображения, при этом показывая улучшение на +4,1 на MMStar, +7,1 на AI2D и +12,9 на ChartQA.
Крупные языковые модели (LLM) продемонстрировали выдающиеся способности к обобщению в различных задачах и языках, что произвело революцию в обработке естественного языка. В данной статье исследуется естественно возникающее выравнивание представлений в LLM, особенно в средних слоях, и его значение для разделения языково-специфичной и языково-независимой информации. Мы эмпирически подтверждаем существование такого выравнивания, анализируем его поведение в сравнении с явно спроектированными моделями выравнивания и демонстрируем его потенциал для языково-специфичного манипулирования без ухудшения семантики. На основе этих результатов мы предлагаем метод управления языком на этапе вывода (Inference-Time Language Control, ITLC), который использует латентное внедрение для обеспечения точного кросс-лингвистического управления языком и снижения языковой путаницы в LLM. Наши эксперименты подчеркивают сильные возможности ITLC в кросс-лингвистическом управлении при сохранении семантической целостности в целевых языках. Кроме того, мы демонстрируем его эффективность в решении проблемы кросс-лингвистической языковой путаницы, которая сохраняется даже в современных крупномасштабных LLM, приводя к несогласованному языковому порождению. Эта работа углубляет наше понимание выравнивания представлений в LLM и предлагает практическое решение для улучшения их кросс-лингвистической производительности.
Стремление к разнообразным, сложным и масштабным данным инструкций имеет решающее значение для автоматического согласования больших языковых моделей (LLM). Хотя существуют методы, способные генерировать синтетические инструкции в больших масштабах, они либо страдают от ограниченных источников обоснования, что приводит к узкому распределению, либо полагаются на тривиальные расширения, которые не способны создавать значимые траектории с точки зрения сложности. В отличие от этого, инструкции, способствующие эффективному согласованию, обычно создаются с учетом когнитивных инсайтов и основываются на реальных сценариях использования. В данной статье мы синтезируем такие инструкции с использованием атрибутивного обоснования, которое включает: 1) процесс атрибуции сверху вниз, при котором избирательный набор реальных инструкций связывается с конкретными пользователями, и 2) процесс синтеза снизу вверх, который использует веб-документы для создания сначала ситуации, а затем значимой инструкции. Этот подход позволяет нам собирать разнообразные и сложные инструкции в больших масштабах, используя широкий спектр веб-документов. В частности, мы создаем набор данных из 1 миллиона инструкций под названием SynthQuestions и демонстрируем, что модели, обученные на этих данных, достигают лидирующих результатов на нескольких распространенных бенчмарках, причем улучшения продолжают масштабироваться с увеличением объема веб-корпусов. Данные, модели и код будут доступны по адресу https://github.com/Ignoramus0817/SynthQuestions.
В последнее время использование предварительно обученных моделей для обработки визуальных и текстовых данных (VLMs) для создания моделей, объединяющих зрение, язык и действия (VLA), стало перспективным подходом к эффективному обучению манипуляциям роботов. Однако лишь немногие методы включают 3D-сигналы в VLMs для прогнозирования действий, и они не полностью используют пространственную структуру, присущую 3D-данным, что приводит к низкой эффективности использования данных. В данной статье мы представляем BridgeVLA, новую 3D VLA модель, которая (1) проецирует 3D-входные данные на несколько 2D-изображений, обеспечивая согласованность входных данных с архитектурой VLM, и (2) использует 2D-тепловые карты для прогнозирования действий, объединяя входное и выходное пространства в единое 2D-изображение. Кроме того, мы предлагаем масштабируемый метод предварительного обучения, который наделяет архитектуру VLM способностью прогнозировать 2D-тепловые карты до обучения политики на конечных задачах. Эксперименты показывают, что предложенный метод способен эффективно и результативно обучаться 3D-манипуляциям. BridgeVLA превосходит современные базовые методы на трех симуляционных тестах. В RLBench она повышает средний показатель успешности с 81,4% до 88,2%. В COLOSSEUM она демонстрирует значительно лучшую производительность в сложных условиях обобщения, увеличивая средний показатель успешности с 56,7% до 64,0%. В GemBench она превосходит все сравниваемые базовые методы по среднему показателю успешности. В экспериментах с реальными роботами BridgeVLA превосходит современный базовый метод в среднем на 32%. Она устойчиво обобщает в различных условиях, выходящих за пределы обучающего распределения, включая визуальные помехи и неизвестные инструкции. Примечательно, что она способна достичь показателя успешности 96,8% на более чем 10 задачах, используя всего 3 траектории на задачу, что подчеркивает её исключительную эффективность использования данных. Сайт проекта: https://bridgevla.github.io/
Последние достижения в области больших языковых моделей (LLM) позволили разработать ИИ-агентов, демонстрирующих всё более человекообразное поведение, включая планирование, адаптацию и социальную динамику в разнообразных, интерактивных и открытых сценариях. Такое поведение не является исключительно результатом внутренних архитектур базовых моделей, а возникает благодаря их интеграции в агентные системы, функционирующие в определённых контекстах, где факторы окружающей среды, социальные сигналы и обратная связь от взаимодействия формируют поведение с течением времени. Эта эволюция требует нового научного подхода: науки о поведении ИИ-агентов. В отличие от традиционного акцента на внутренних механизмах, этот подход подчеркивает систематическое наблюдение за поведением, разработку вмешательств для проверки гипотез и теоретически обоснованную интерпретацию того, как ИИ-агенты действуют, адаптируются и взаимодействуют с течением времени. Мы систематизируем растущий объём исследований в области индивидуальных агентов, мультиагентных систем и взаимодействий между человеком и агентом, а также демонстрируем, как этот подход способствует ответственному ИИ, рассматривая справедливость, безопасность, интерпретируемость, подотчётность и конфиденциальность как поведенческие свойства. Объединяя последние открытия и намечая будущие направления, мы позиционируем науку о поведении ИИ-агентов как необходимое дополнение к традиционным модельно-центрированным подходам, предоставляя важные инструменты для понимания, оценки и управления поведением всё более автономных ИИ-систем в реальном мире.
Постоянное развитие языковых моделей привело к созданию крупномасштабных архитектур, демонстрирующих исключительную производительность в широком спектре задач. Однако эти модели требуют значительных вычислительных ресурсов и энергии, а также могут вызывать проблемы с конфиденциальностью. В этом контексте малые языковые модели для рассуждений (Small Reasoning Language Models, SRLMs) с примерно 0,5 миллиардами параметров представляют собой привлекательную альтернативу благодаря их высокой вычислительной эффективности и экономичности, особенно в условиях ограниченных ресурсов. Несмотря на эти преимущества, ограниченная емкость моделей с 0,5 миллиардами параметров создает трудности при выполнении сложных задач, таких как математические рассуждения и генерация кода. Данное исследование изучает различные стратегии обучения, включая контролируемое тонкое настройку (supervised fine-tuning, SFT), дистилляцию знаний (knowledge distillation, KD) и обучение с подкреплением (reinforcement learning, RL), а также их гибридные реализации, с целью повышения производительности SRLMs с 0,5 миллиардами параметров. Мы анализируем эффективные методологии для сокращения разрыва в производительности между SRLMs и более крупными моделями и представляем рекомендации по оптимальным конвейерам обучения, адаптированным для этих меньших архитектур. Благодаря обширной экспериментальной проверке и анализу наша работа направлена на предоставление практических рекомендаций для максимизации способностей к рассуждению моделей с 0,5 миллиардами параметров.
Интерактивное обучение на основе наблюдений и языковой обратной связи становится всё более изучаемой областью, чему способствует появление агентов на основе больших языковых моделей (LLM). Хотя были продемонстрированы впечатляющие эмпирические результаты, до сих пор отсутствует строгая формализация этих задач принятия решений. В данной работе мы формализуем задачу обучения на основе языковой обратной связи (LLF), формулируем достаточные предположения для обеспечения обучения при скрытых наградах и вводим размерность переноса (transfer eluder dimension) как меру сложности для характеристики трудности задач LLF. Мы показываем, что размерность переноса отражает интуицию о том, что информация в обратной связи изменяет сложность обучения в задачах LLF. Мы демонстрируем случаи, когда обучение на основе богатой языковой обратной связи может быть экспоненциально быстрее, чем обучение на основе наград. Мы разрабатываем алгоритм без сожаления, называемый HELiX, который теоретически решает задачи LLF через последовательные взаимодействия, с гарантиями производительности, масштабируемыми в зависимости от размерности переноса задачи. В нескольких эмпирических областях мы показываем, что HELiX работает хорошо даже в случаях, когда многократные запросы к LLM не дают надёжных результатов. Наш вклад представляет собой первый шаг к разработке принципиальных алгоритмов интерактивного обучения на основе универсальной языковой обратной связи.
Насколько хорошо системы ИИ справляются с разработкой алгоритмов для сложных задач оптимизации в таких областях, как маршрутизация доставки посылок, планирование смен персонала, планирование производственных процессов на фабриках и балансировка энергосистем? Мы представляем ALE-Bench — новый эталонный тест для оценки систем ИИ в соревнованиях по алгоритмическому программированию, основанным на баллах. Используя реальные задачи из AtCoder Heuristic Contests, ALE-Bench предлагает оптимизационные задачи, которые являются вычислительно сложными и не имеют известных точных решений. В отличие от краткосрочных тестов с бинарной оценкой (сдано/не сдано), ALE-Bench поощряет итеративное улучшение решений на протяжении длительных временных горизонтов. Наша программная платформа поддерживает интерактивные архитектуры агентов, использующих обратную связь от тестовых запусков и визуализации. Оценка передовых языковых моделей (LLM) показала, что, хотя они демонстрируют высокую производительность в решении конкретных задач, сохраняется заметный разрыв по сравнению с людьми в плане согласованности результатов между задачами и способностей к долгосрочному решению проблем. Это подчеркивает необходимость данного эталонного теста для стимулирования будущих достижений в области ИИ.
Крупные языковые модели (LLMs) все чаще интегрируются в повседневные приложения. По мере роста их влияния становится крайне важным понимание их процесса принятия решений и лежащей в основе "личности". В данной работе мы интерпретируем "личность" модели с использованием предложенного нами набора данных Supernova Event Dataset — нового набора данных, содержащего разнообразные статьи, охватывающие биографии, исторические события, новости и научные открытия. Мы используем этот набор данных для тестирования LLMs на задаче извлечения и ранжирования ключевых событий из текста — субъективной и сложной задачи, требующей рассуждений в рамках длинного контекста и моделирования причинно-следственных цепочек. Мы оцениваем небольшие модели, такие как Phi-4, Orca 2 и Qwen 2.5, а также более крупные и мощные модели, такие как Claude 3.7, Gemini 2.5 и OpenAI o3, и предлагаем подход, в котором другая LLM выступает в роли судьи, чтобы выявить "личность" каждой модели на основе ее выбора и классификации событий. Наш анализ выявляет различные черты "личности": например, Orca 2 демонстрирует эмоциональное мышление, фокусируясь на межличностной динамике, в то время как Qwen 2.5 проявляет более стратегический и аналитический стиль. При анализе событий, связанных с научными открытиями, Claude Sonnet 3.7 акцентирует внимание на концептуальном подходе, Gemini 2.5 Pro делает упор на эмпирическую проверку, а o3 предпочитает пошаговое причинно-следственное рассуждение. Этот анализ повышает интерпретируемость моделей, делая их более удобными для широкого спектра разнообразных приложений.
Реальные временные ряды часто управляются сложными нелинейными динамическими процессами. Понимание этих скрытых динамик имеет решающее значение для точного прогнозирования будущего. Хотя глубокое обучение достигло значительных успехов в прогнозировании временных рядов, многие существующие подходы не моделируют динамику явным образом. Чтобы устранить этот пробел, мы представляем DeepEDM — фреймворк, который интегрирует моделирование нелинейных динамических систем с глубокими нейронными сетями. Вдохновленный эмпирическим моделированием динамики (EDM) и основанный на теореме Такенса, DeepEDM предлагает новую глубокую модель, которая обучает латентное пространство на основе временных задержек и использует ядерную регрессию для аппроксимации скрытых динамик, одновременно применяя эффективную реализацию softmax-внимания и обеспечивая точное прогнозирование будущих временных шагов. Для оценки нашего метода мы проводим всесторонние эксперименты на синтетических данных нелинейных динамических систем, а также на реальных временных рядах из различных областей. Наши результаты показывают, что DeepEDM устойчив к входному шуму и превосходит современные методы по точности прогнозирования. Наш код доступен по адресу: https://abrarmajeedi.github.io/deep_edm.
Современные крупные языковые модели с глубоким мышлением часто используют обширные рассуждения для повышения производительности, однако такие длительные рассуждения не всегда желательны, так как они приводят к чрезмерным затратам на вывод с непропорциональным увеличением производительности. Контроль длины рассуждений без ущерба для производительности является важной задачей, но остается сложным, особенно при ограниченных ресурсах на мышление. Мы предлагаем метод бюджетного управления — простой, но эффективный способ направлять процесс рассуждения языковых моделей в рамках заданного бюджета без необходимости тонкой настройки модели. Наш подход включает легковесный предсказатель, который моделирует гамма-распределение оставшейся длины рассуждений в процессе генерации следующего токена. Этот сигнал затем используется для мягкого, на уровне токенов, управления генерацией, обеспечивая соответствие общего процесса рассуждений заданному бюджету мышления. Бюджетное управление позволяет естественным образом контролировать длину рассуждений, а также значительно повышает эффективность использования токенов по сравнению с базовыми методами на сложных математических тестах. Например, оно обеспечивает увеличение точности до 26% на тесте MATH-500 при ограниченных бюджетах по сравнению с базовыми методами, сохраняя при этом конкурентоспособную точность, используя лишь 63% токенов, затрачиваемых моделью с полным мышлением. Бюджетное управление также обобщается на более широкие области задач и демонстрирует возникающие способности, такие как оценка сложности вопросов. Исходный код доступен по адресу: https://github.com/UMass-Embodied-AGI/BudgetGuidance.
Поскольку слои самовнимания в трансформерах по своей природе инвариантны к перестановкам, необходимо явно включать позиционные кодировки для обеспечения пространственного понимания. Однако таблицы фиксированного размера, используемые в традиционных обучаемых позиционных эмбеддингах (PE), ограничивают возможности экстраполяции за пределы предварительно обученных длин последовательностей. Экспертно разработанные методы, такие как ALiBi и RoPE, смягчают это ограничение, но требуют значительных изменений для адаптации к новым модальностям, что подчеркивает фундаментальные проблемы адаптивности и масштабируемости. В данной работе мы представляем SeqPE, унифицированную и полностью обучаемую структуру позиционного кодирования, которая представляет каждый n-мерный позиционный индекс как символическую последовательность и использует легковесный последовательный позиционный кодировщик для обучения их эмбеддингов сквозным образом. Для регуляризации пространства эмбеддингов SeqPE мы вводим две дополнительные цели: контрастную цель, которая согласовывает расстояния эмбеддингов с предопределенной функцией расстояния позиций, и функцию потери дистилляции знаний, которая привязывает эмбеддинги позиций вне распределения к представлениям учителя внутри распределения, что дополнительно улучшает производительность экстраполяции. Эксперименты в области языкового моделирования, ответов на вопросы в длинных контекстах и классификации 2D-изображений демонстрируют, что SeqPE не только превосходит сильные базовые линии по перплексии, точному совпадению (EM) и точности — особенно при экстраполяции длины контекста — но также обеспечивает плавное обобщение на многомерные входные данные без необходимости ручного перепроектирования архитектуры. Мы публикуем наш код, данные и контрольные точки по адресу https://github.com/ghrua/seqpe.
Обучение крупных нейронных сетей с использованием сквозного обратного распространения создает значительные ограничения по памяти, что затрудняет доступ к передовым исследованиям в области ИИ. Мы предлагаем DiffusionBlocks — новый подход к обучению, который интерпретирует блоки нейронной сети как операции удаления шума в непрерывном процессе диффузии. Разделяя сеть на независимо обучаемые блоки и оптимизируя уровни шума на основе равного накопленного вероятностного распределения, наш метод достигает значительной эффективности использования памяти, сохраняя при этом конкурентоспособную производительность по сравнению с традиционным обратным распространением в генеративных задачах. Эксперименты на задачах генерации изображений и языкового моделирования демонстрируют пропорциональное уменьшение использования памяти в зависимости от количества блоков при достижении превосходной производительности. DiffusionBlocks открывает перспективный путь для демократизации доступа к обучению крупномасштабных нейронных сетей при ограниченных вычислительных ресурсах.
Последние достижения в области больших языковых моделей (LLM) открыли новые возможности для точного и эффективного анализа временных рядов, однако предыдущие работы часто требовали значительной тонкой настройки и/или игнорировали межрядные корреляции. В данной работе мы исследуем простые и гибкие стратегии на основе промптов, которые позволяют LLM выполнять прогнозирование временных рядов без необходимости масштабного переобучения или использования сложной внешней архитектуры. Изучая специализированные методы промптинга, которые используют декомпозицию временных рядов, токенизацию на основе патчей и дополнение соседей на основе сходства, мы обнаруживаем, что можно повысить качество прогнозирования LLM, сохраняя простоту и требуя минимальной предварительной обработки данных. В связи с этим мы предлагаем наш собственный метод, PatchInstruct, который позволяет LLM делать точные и эффективные прогнозы.
Мы исследуем многомодальное суммирование для обучающих видео, целью которого является предоставление пользователям эффективного способа освоения навыков в виде текстовых инструкций и ключевых видеокадров. Мы отмечаем, что существующие эталонные наборы данных сосредоточены на обобщённом семантическом уровне видеосуммирования и не подходят для предоставления пошаговых исполняемых инструкций и иллюстраций, которые имеют решающее значение для обучающих видео. Мы предлагаем новый эталонный набор данных для суммирования обучающих видео по пользовательским интерфейсам (UI), чтобы заполнить этот пробел. Мы собрали набор данных из 2 413 обучающих видео по UI, общая продолжительность которых превышает 167 часов. Эти видео вручную аннотированы для сегментации видео, текстового суммирования и видеосуммирования, что позволяет проводить всестороннюю оценку краткого и исполняемого видеосуммирования. Мы проводим обширные эксперименты на нашем собранном наборе данных MS4UI, которые показывают, что современные методы многомодального суммирования испытывают трудности с суммированием видео по UI, и подчёркивают важность разработки новых методов для суммирования обучающих видео по пользовательским интерфейсам.
В эпоху, характеризующуюся распространением дезинформации и манипуляций в интернете, крайне важно дать читателям возможность понимать содержание, с которым они сталкиваются. Важные усилия в этом направлении опираются на ручную или автоматическую проверку фактов, что может быть сложным для новых утверждений с ограниченной информацией. Такие сценарии можно решить, оценивая надежность и политическую предвзятость источника утверждения, то есть характеризуя целые новостные издания, а не отдельные утверждения или статьи. Это важное, но недостаточно изученное направление исследований. В то время как предыдущие работы рассматривали лингвистический и социальный контекст, мы не анализируем отдельные статьи или информацию в социальных сетях. Вместо этого мы предлагаем новую методологию, которая имитирует критерии, используемые профессиональными проверяющими факты для оценки фактической достоверности и политической предвзятости целого издания. В частности, мы разрабатываем различные запросы на основе этих критериев и получаем ответы от больших языковых моделей (LLM), которые мы агрегируем для формирования прогнозов. Помимо демонстрации значительного улучшения по сравнению с сильными базовыми моделями в ходе обширных экспериментов с несколькими LLM, мы проводим детальный анализ ошибок, изучая влияние популярности и региона СМИ на производительность модели. Кроме того, мы проводим исследование с исключением компонентов, чтобы выделить ключевые элементы нашего набора данных, которые способствуют этим улучшениям. Чтобы способствовать будущим исследованиям, мы опубликовали наш набор данных и код по адресу https://github.com/mbzuai-nlp/llm-media-profiling.
Недавние достижения в области больших языковых моделей (LLM) оказали значительное влияние на широкий спектр областей, от общих до специализированных. Однако эти достижения также значительно увеличили вероятность того, что злоумышленники смогут использовать вредоносные и "взломанные" запросы для проведения атак. Несмотря на множество усилий, направленных на предотвращение вредоносных и взломанных запросов, защита LLM от таких атак остается важной и сложной задачей. В данной статье мы предлагаем QGuard — простой, но эффективный метод защиты, который использует запросы в форме вопросов для блокировки вредоносных запросов в режиме "zero-shot". Наш метод способен защищать LLM не только от текстовых вредоносных запросов, но и от мультимодальных атак. Более того, за счет разнообразия и модификации защитных вопросов наш подход остается устойчивым к новейшим вредоносным запросам без необходимости тонкой настройки. Экспериментальные результаты показывают, что наша модель демонстрирует конкурентоспособные результаты как на текстовых, так и на мультимодальных наборах данных с вредоносными запросами. Кроме того, предоставляя анализ запросов в форме вопросов, мы позволяем проводить "белый ящик" анализа пользовательских вводов. Мы считаем, что наш метод предлагает ценные идеи для реальных сервисов LLM в снижении рисков безопасности, связанных с вредоносными запросами.
Несмотря на стремительное распространение носимых камер, которое вызвало серьезные опасения относительно конфиденциальности эгоцентричного видео, предыдущие исследования в значительной степени упускали из виду уникальные угрозы приватности, с которыми сталкивается сам владелец камеры. В данной работе исследуется ключевой вопрос: какую информацию о конфиденциальности владельца камеры можно извлечь из его видео от первого лица? Мы представляем EgoPrivacy — первый крупномасштабный бенчмарк для всесторонней оценки рисков приватности в эгоцентричном зрении. EgoPrivacy охватывает три типа приватности (демографическую, индивидуальную и ситуационную), определяя семь задач, направленных на восстановление конфиденциальной информации — от детализированной (например, идентификация владельца) до обобщенной (например, возрастная группа). Чтобы дополнительно подчеркнуть угрозы приватности, присущие эгоцентричному зрению, мы предлагаем Retrieval-Augmented Attack — новую стратегию атаки, которая использует поиск от эгоцентричного к экзоцентричному видео из внешнего пула экзоцентричных записей для повышения эффективности демографических атак на приватность. Представлено обширное сравнение различных атак, возможных при всех моделях угроз, которое показывает, что конфиденциальная информация владельца камеры крайне уязвима для утечки. Например, наши результаты свидетельствуют, что базовые модели могут эффективно нарушать приватность владельца даже в условиях zero-shot, восстанавливая такие атрибуты, как идентификация, сцена, пол и раса, с точностью 70-80%. Наш код и данные доступны по адресу https://github.com/williamium3000/ego-privacy.
Языковые модели обучаются преимущественно на огромных объемах текстовых данных из Интернета, и понимание этого источника данных становится все более важным. Поисковые системы с точным соответствием позволяют осуществлять поиск в больших текстовых корпусах — подсчитывать появления строк и извлекать содержащие их документы, — однако высокие затраты на хранение данных ограничивают их применение на масштабах Интернета. Мы представляем Infini-gram mini, эффективную и масштабируемую систему, которая делает доступными для поиска текстовые корпуса объемом в петабайты. Основанная на структуре данных FM-индекса (Ferragina и Manzini, 2000), которая одновременно индексирует и сжимает текст, наша система создает индексы, размер которых составляет всего 44% от объема корпуса. Infini-gram mini значительно превосходит лучшие существующие реализации FM-индекса по скорости индексации (в 18 раз) и использованию памяти как в процессе индексации (сокращение в 3,2 раза), так и при выполнении запросов (до незначительного уровня). Мы проиндексировали 46 ТБ интернет-текстов за 50 дней на одном узле с 128-ядерным процессором (или за 19 часов при использовании 75 таких узлов). Мы демонстрируем важный пример использования Infini-gram mini в крупномасштабном анализе загрязнения тестовых наборов данных. Мы обнаружили, что несколько ключевых тестовых наборов для оценки языковых моделей сильно загрязнены в интернет-сборах (до 40% в SQuAD), что может привести к завышению возможностей языковых моделей, если они обучаются на таких данных. Мы создали бюллетень загрязнения тестовых наборов, чтобы делиться уровнем загрязнения многих ключевых и предоставленных сообществом тестов. Мы также выпустили веб-интерфейс и API-эндпоинт для обработки общих поисковых запросов на индексах Infini-gram mini.
Саморегулируемое обучение (СРО) играет ключевую роль для студентов, сталкивающихся с возрастающими академическими требованиями и необходимостью самостоятельности. Недостаточное развитие навыков СРО может привести к неорганизованным учебным привычкам, низкой мотивации и плохому управлению временем, что подрывает способность учащихся успешно справляться с трудными условиями. В рамках формирующего исследования с участием 59 студентов мы выявили ключевые трудности, с которыми сталкиваются учащиеся в развитии навыков СРО, включая проблемы с постановкой целей, управлением временем и рефлексивным обучением. Для решения этих проблем мы представляем SRLAgent — систему, поддерживаемую крупными языковыми моделями (LLM), которая способствует развитию навыков СРО через геймификацию и адаптивную поддержку. Основанная на трехфазной модели СРО Циммермана, SRLAgent позволяет студентам участвовать в постановке целей, реализации стратегий и саморефлексии в интерактивной игровой среде. Система предоставляет обратную связь в реальном времени и поддерживает самостоятельные учебные усилия студентов с помощью LLM. Мы оценили SRLAgent, используя межгрупповой дизайн, сравнивая её с базовой системой (СРО без функций Agent) и традиционным мультимедийным обучением. Результаты показали значительное улучшение навыков СРО в группе SRLAgent (p < .001, коэффициент Коэна d = 0.234) и более высокий уровень вовлеченности по сравнению с базовыми условиями. Эта работа подчеркивает ценность внедрения поддержки СРО и реальной помощи ИИ в геймифицированные среды, предлагая рекомендации по проектированию образовательных технологий, направленных на развитие глубокого обучения и метакогнитивных навыков.
Хотя языковые модели все чаще используются в материаловедении, типичные модели опираются на методы токенизации, ориентированные на частотность, которые изначально были разработаны для обработки естественного языка. Однако эти методы часто приводят к чрезмерной фрагментации и потере семантики, не сохраняя структурную и семантическую целостность концепций материалов. Для решения этой проблемы мы предлагаем MATTER — новый подход к токенизации, который интегрирует знания о материалах в процесс токенизации. Основанный на MatDetector, обученном на нашей базе знаний о материалах, и методе переранжирования, который отдает приоритет концепциям материалов при объединении токенов, MATTER сохраняет структурную целостность идентифицированных концепций материалов и предотвращает фрагментацию в процессе токенизации, обеспечивая сохранение их семантического значения. Результаты экспериментов показывают, что MATTER превосходит существующие методы токенизации, достигая среднего прироста производительности на 4% и 2% в задачах генерации и классификации соответственно. Эти результаты подчеркивают важность предметных знаний для стратегий токенизации при обработке научных текстов. Наш код доступен по адресу https://github.com/yerimoh/MATTER.
Крупные языковые модели (LLM) обычно обучаются с помощью предсказания следующего слова (NWP), что обеспечивает высокий уровень поверхностной беглости, но часто не поддерживает устойчивое рассуждение. Мы предлагаем BOttlenecked next Word exploration (BOW), новую RL-структуру, которая переосмысливает NWP, вводя узкое место для рассуждений, где модель политики сначала генерирует путь рассуждений, а не предсказывает следующий токен напрямую, после чего замороженная модель-судья предсказывает распределение следующего токена исключительно на основе этого пути рассуждений. Мы обучаем модель политики с использованием GRPO с наградами, которые количественно оценивают, насколько эффективно путь рассуждений способствует восстановлению следующего слова. По сравнению с другими базовыми методами непрерывного предобучения, мы показываем, что BOW улучшает как общие, так и связанные с предсказанием следующего слова способности базовой модели, что оценивается на различных тестовых наборах. Наши результаты показывают, что BOW может служить эффективной и масштабируемой альтернативой стандартному NWP.
Прогнозирование исходов, связанных с смертностью, на основе изображений открывает перспективы для доступного, неинвазивного и масштабируемого скрининга здоровья. Мы представляем метод, который использует предобученные трансформеры для анализа изображений с целью оценки оставшейся продолжительности жизни по фотографиям лица и всего тела, а также обеспечивает надежную количественную оценку неопределенности. Мы показываем, что прогностическая неопределенность систематически варьируется в зависимости от истинной оставшейся продолжительности жизни, и что эту неопределенность можно эффективно моделировать, обучая гауссово распределение для каждого образца. Наш метод достигает наилучшего среднего абсолютного отклонения (MAE) в 7,48 лет на общепризнанном наборе данных и дополнительно улучшает его до 4,79 и 5,07 лет MAE на двух новых, более качественных наборах данных, созданных и опубликованных в данной работе. Важно отметить, что наши модели предоставляют хорошо калиброванные оценки неопределенности, что подтверждается ожидаемой ошибкой калибровки, равной 0,62 года. Хотя эти результаты не предназначены для клинического применения, они подчеркивают потенциал извлечения медицински значимых сигналов из изображений. Мы предоставляем весь код и наборы данных для содействия дальнейшим исследованиям.
Мы представляем и оцениваем набор концептуальных (PoC) структурированных рабочих запросов, разработанных для стимулирования иерархического рассуждения, подобного человеческому, при направлении крупных языковых моделей (LLM) на выполнение высокоуровневого семантического и лингвистического анализа научных рукописей. Эти запросы нацелены на две нетривиальные аналитические задачи: выявление необоснованных утверждений в резюме (информационная целостность) и маркировку неоднозначных ссылок на местоимения (лингвистическая ясность). Мы провели систематическую многоэтапную оценку на двух передовых моделях (Gemini Pro 2.5 Pro и ChatGPT Plus o3) в различных контекстных условиях. Наши результаты для задачи информационной целостности выявили значительное расхождение в производительности моделей: хотя обе модели успешно идентифицировали необоснованное ядро именной группы (95% успеха), ChatGPT неизменно терпел неудачу (0% успеха) в выявлении необоснованного адъективного модификатора, который Gemini корректно отметил (95% успеха), что ставит вопрос о потенциальном влиянии синтаксической роли цели. В задаче лингвистического анализа обе модели показали хорошие результаты (80-90% успеха) при наличии полного контекста рукописи. Однако в условиях работы только с резюме ChatGPT достиг идеального результата (100% успеха), в то время как производительность Gemini значительно снизилась. Наши результаты свидетельствуют о том, что структурированные запросы являются жизнеспособной методологией для сложного текстового анализа, но показывают, что эффективность запросов может сильно зависеть от взаимодействия между моделью, типом задачи и контекстом, подчеркивая необходимость тщательного тестирования, специфичного для каждой модели.
Существующие работы в области автоматической генерации музыки в основном сосредоточены на сквозных системах, которые создают законченные композиции или их продолжения. Однако, поскольку музыкальная композиция обычно является итеративным процессом, такие системы затрудняют взаимодействие между человеком и машиной, которое крайне важно для компьютерно-ассистированного творчества. В данном исследовании мы рассматриваем задачу персонализируемого, многодорожечного, длинноконтекстного и управляемого заполнения символической музыки, чтобы улучшить процесс компьютерно-ассистированной композиции. Мы представляем MIDI-RWKV, новую модель, основанную на линейной архитектуре RWKV-7, которая позволяет эффективно и согласованно создавать музыку совместно с человеком на периферийных устройствах. Мы также показываем, что MIDI-RWKV допускает эффективный метод тонкой настройки её начального состояния для персонализации в условиях крайне малого количества данных. Мы оцениваем MIDI-RWKV и её настройку состояния по нескольким количественным и качественным метрикам, а также публикуем веса модели и код на https://github.com/christianazinn/MIDI-RWKV.
Язык изменяется с течением времени, включая сферу языка ненависти, которая быстро эволюционирует в соответствии с социальной динамикой и культурными сдвигами. Хотя исследования в области NLP изучали влияние языковой эволюции на обучение моделей и предложили несколько решений для этого, её влияние на тестирование моделей остаётся недостаточно изученным. Тем не менее, тестовые наборы данных для языка ненависти играют ключевую роль в обеспечении безопасности моделей. В данной работе мы эмпирически оцениваем устойчивость 20 языковых моделей в двух экспериментах с эволюционирующим языком ненависти и демонстрируем временное несоответствие между статичными и временно-чувствительными оценками. Наши результаты подчеркивают необходимость временно-чувствительных лингвистических тестовых наборов для корректной и надежной оценки языковых моделей в области языка ненависти.