Ежедневно отобранные исследовательские статьи по ИИ с переводами
Расстановка диакритических знаков в арабских текстах остается сложной задачей в области обработки естественного языка из-за морфологического богатства языка. В данной статье мы представляем Sadeed — новый подход, основанный на тонко настроенной декодер-ориентированной языковой модели, адаптированной из Kuwain 1.5B Hennara et al. [2025], компактной модели, изначально обученной на разнообразных арабских корпусах. Sadeed тонко настраивается на тщательно отобранных, высококачественных наборах данных с диакритическими знаками, созданных с помощью строгого процесса очистки и нормализации данных. Несмотря на использование скромных вычислительных ресурсов, Sadeed демонстрирует конкурентоспособные результаты по сравнению с проприетарными крупными языковыми моделями и превосходит традиционные модели, обученные на схожих доменах. Кроме того, мы выделяем ключевые ограничения в текущих практиках тестирования для расстановки диакритических знаков в арабском языке. Для решения этих проблем мы представляем SadeedDiac-25 — новый эталонный тест, разработанный для обеспечения более справедливой и всесторонней оценки на различных жанрах текстов и уровнях сложности. Вместе Sadeed и SadeedDiac-25 создают прочную основу для развития приложений арабской NLP, включая машинный перевод, преобразование текста в речь и инструменты для изучения языка.
Крупные модели рассуждений (LRMs), такие как OpenAI-o1 и DeepSeek-R1, демонстрируют впечатляющие способности к долгосрочным рассуждениям. Однако их зависимость от статического внутреннего знания ограничивает их производительность в сложных, насыщенных знаниями задачах и препятствует созданию всесторонних исследовательских отчетов, требующих синтеза разнообразной информации из интернета. Для решения этой проблемы мы предлагаем WebThinker — глубокого исследовательского агента, который позволяет LRMs автономно искать информацию в интернете, перемещаться по веб-страницам и составлять исследовательские отчеты в процессе рассуждений. WebThinker интегрирует модуль Deep Web Explorer, позволяющий LRMs динамически искать, перемещаться и извлекать информацию из интернета при обнаружении пробелов в знаниях. Он также использует стратегию Autonomous Think-Search-and-Draft, которая позволяет модели в реальном времени чередовать рассуждения, сбор информации и написание отчетов. Для дальнейшего улучшения использования исследовательских инструментов мы внедряем стратегию обучения с подкреплением (RL) через итеративную онлайн оптимизацию прямых предпочтений (DPO). Экстенсивные эксперименты на сложных бенчмарках рассуждений (GPQA, GAIA, WebWalkerQA, HLE) и задачах генерации научных отчетов (Glaive) демонстрируют, что WebThinker значительно превосходит существующие методы и мощные проприетарные системы. Наш подход повышает надежность и применимость LRMs в сложных сценариях, прокладывая путь для более способных и универсальных глубоких исследовательских систем. Код доступен по адресу https://github.com/RUC-NLPIR/WebThinker.
Мы представляем Phi-4-reasoning, модель для решения сложных задач с 14 миллиардами параметров, которая демонстрирует высокую производительность. Модель была обучена с помощью контролируемой тонкой настройки (supervised fine-tuning) на основе Phi-4, используя тщательно отобранный набор "обучающих" промптов, выбранных с учетом оптимального уровня сложности и разнообразия, а также демонстраций рассуждений, сгенерированных с помощью o3-mini. Phi-4-reasoning создает детализированные цепочки рассуждений, эффективно используя вычислительные ресурсы на этапе вывода. Мы также разработали Phi-4-reasoning-plus — улучшенную версию модели, которая прошла короткий этап обучения с подкреплением на основе результатов (outcome-based reinforcement learning), что позволяет ей достигать более высокой производительности за счет генерации более длинных цепочек рассуждений. На широком спектре задач, связанных с рассуждениями, обе модели значительно превосходят более крупные модели с открытыми весами, такие как DeepSeek-R1-Distill-Llama-70B, и приближаются к уровню производительности полной модели DeepSeek-R1. Наши всесторонние оценки охватывают тесты в области математических и научных рассуждений, программирования, алгоритмического решения задач, планирования и пространственного понимания. Интересно, что мы также наблюдаем заметный перенос улучшений на общие тестовые наборы. В этом отчете мы делимся подробностями о наших данных для обучения, методологиях обучения и результатах оценок. Мы показываем, что тщательный отбор данных для контролируемой тонкой настройки (SFT) приносит пользу языковым моделям для рассуждений, а обучение с подкреплением (RL) может дополнительно усилить этот эффект. Наконец, наши оценки указывают на возможности для улучшения методов оценки производительности и устойчивости моделей для рассуждений.
Метод Chain-of-Thought (CoT) значительно улучшает способности к формальному рассуждению в крупных языковых моделях (LLM), обучая их явно генерировать промежуточные шаги рассуждений. Хотя LLM легко извлекают пользу из таких методов, улучшение способностей к рассуждению в малых языковых моделях (SLM) остается сложной задачей из-за их ограниченной емкости. Недавняя работа Deepseek-R1 демонстрирует, что дистилляция из синтетических данных, сгенерированных LLM, может существенно улучшить способности к рассуждению SLM. Однако детальный рецепт моделирования не раскрывается. В данной работе мы представляем систематический рецепт обучения для SLM, состоящий из четырех шагов: (1) масштабное промежуточное обучение на разнообразных дистиллированных данных long-CoT, (2) контролируемая тонкая настройка на высококачественных данных long-CoT, (3) Rollout DPO с использованием тщательно отобранного набора данных предпочтений и (4) обучение с подкреплением (RL) с проверяемой наградой. Мы применяем наш метод на модели Phi-4-Mini, компактной модели с 3,8 миллиардами параметров. Полученная модель Phi-4-Mini-Reasoning превосходит на задачах математического рассуждения значительно более крупные модели, например, опережая DeepSeek-R1-Distill-Qwen-7B на 3,2 балла и DeepSeek-R1-Distill-Llama-8B на 7,7 баллов на тесте Math-500. Наши результаты подтверждают, что тщательно разработанный рецепт обучения с использованием масштабных высококачественных данных CoT эффективен для раскрытия сильных способностей к рассуждению даже в ресурсоограниченных малых моделях.
Недавнее развитие языковых моделей с возможностью рассуждений (Reasoning Language Models, RLMs) представляет собой новое направление эволюции крупных языковых моделей. В частности, выпуск модели DeepSeek-R1 вызвал широкий общественный резонанс и пробудил энтузиазм в исследовательском сообществе в отношении изучения явного парадигматического подхода к рассуждениям в языковых моделях. Однако детали реализации выпущенных моделей, включая DeepSeek-R1-Zero, DeepSeek-R1 и дистиллированные компактные модели, не были полностью открыты компанией DeepSeek. В результате появилось множество исследований, направленных на воспроизведение выдающихся результатов, достигнутых DeepSeek-R1, с использованием аналогичных процедур обучения и полностью открытых данных. Эти работы изучили возможные стратегии для контролируемого тонкого настройки (Supervised Fine-Tuning, SFT) и обучения с подкреплением на основе проверяемых наград (Reinforcement Learning from Verifiable Rewards, RLVR), сосредоточившись на подготовке данных и разработке методов, что привело к получению ценных инсайтов. В данном отчете мы суммируем результаты недавних исследований по воспроизведению, чтобы вдохновить будущие исследования. Основное внимание уделяется SFT и RLVR как двум основным направлениям, с описанием деталей построения данных, разработки методов и процедур обучения в текущих исследованиях. Кроме того, мы обобщаем ключевые выводы из деталей реализации и экспериментальных результатов, представленных в этих работах, с целью вдохновить дальнейшие исследования. Мы также обсуждаем дополнительные методы улучшения RLMs, подчеркивая потенциал расширения области применения этих моделей, и рассматриваем вызовы, связанные с их развитием. Этот обзор призван помочь исследователям и разработчикам RLMs быть в курсе последних достижений и вдохновить на новые идеи для дальнейшего совершенствования этих моделей.
Мы представляем softpick — исправленную, не требующую нормировки на единицу замену функции softmax в механизмах внимания трансформеров, которая устраняет эффект "поглощения внимания" и чрезмерно большие активации. Наши эксперименты с моделями, содержащими 340 миллионов параметров, демонстрируют, что softpick сохраняет производительность на уровне softmax на стандартных тестах, при этом достигая 0% уровня поглощения внимания. Трансформер с softpick генерирует скрытые состояния с существенно более низким эксцессом (340 против 33 510) и создает разреженные карты внимания (46,97% разреженности). Модели, использующие softpick, стабильно превосходят модели с softmax при квантовании, особенно заметно это преимущество проявляется при более низкой битовой точности. Наш анализ и обсуждение показывают, что softpick открывает новые возможности для квантования, обучения с низкой точностью, оптимизации разреженности, обрезки и интерпретируемости. Наш код доступен по адресу https://github.com/zaydzuhri/softpick-attention.
Мультимодальные большие языковые модели (MLLMs) преуспевают в простых задачах, связанных с обработкой визуальной и текстовой информации, но испытывают трудности при выполнении сложных задач, требующих одновременного применения нескольких навыков, таких как распознавание объектов, их подсчет и понимание их пространственных отношений. Это может быть частично связано с тем, что визуальная настройка инструкций (VIT), критически важный этап обучения для MLLMs, традиционно сосредоточена на увеличении объема данных, но не на композиционной сложности обучающих примеров. Мы предлагаем метод COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), который создает набор обучающих данных с явным контролем композиционной сложности примеров. Данные, полученные с помощью COMPACT, позволяют MLLMs обучаться на комбинациях базовых навыков для более эффективного освоения сложных задач. На всех тестовых наборах COMPACT демонстрирует сопоставимую производительность с LLaVA-665k VIT, используя менее 10% объема данных, и даже превосходит её в нескольких задачах, особенно тех, которые требуют применения нескольких навыков одновременно. Например, COMPACT показывает значительное улучшение на 83,3% на тесте MMStar и на 94,0% на тесте MM-Vet по сравнению с полномасштабной VIT в особенно сложных вопросах, требующих применения четырех или более базовых навыков. COMPACT предлагает масштабируемый и ресурсоэффективный подход к визуальной композиционной настройке, улучшающий выполнение сложных задач на стыке визуальной и текстовой информации.
Крупные языковые модели (LLM) используют пошаговые рассуждения для решения сложных задач. Стандартная практика оценки включает генерацию полной цепочки рассуждений и проверку правильности итогового ответа, представленного в её завершении. В данной работе мы подвергаем сомнению зависимость от итогового ответа, задавая два вопроса: Надежно ли итоговый ответ отражает оптимальный вывод модели? Могут ли альтернативные пути рассуждений привести к другим результатам? Чтобы ответить на эти вопросы, мы анализируем промежуточные шаги рассуждений, называемые подмыслями, и предлагаем метод, основанный на наших выводах. Наш подход включает разделение цепочки рассуждений на последовательные подмысли на основе лингвистических маркеров. Мы начинаем с запроса модели на генерацию продолжений с конечной точки каждого промежуточного подмысли. Из каждого завершенного продолжения, исходящего из разных подмыслей, мы извлекаем потенциальный ответ. Мы обнаруживаем, что агрегирование этих ответов путем выбора наиболее частого (моды) часто приводит к значительно более высокой точности по сравнению с использованием только ответа, полученного из исходной полной цепочки. Анализ согласованности между ответами, полученными из разных подмыслей, выявляет характеристики, которые коррелируют с уверенностью и правильностью модели, что указывает на возможность выявления менее надежных ответов. Наши эксперименты с различными LLM и сложными наборами данных для математических рассуждений (AIME2024 и AIME2025) показывают устойчивое улучшение точности с приростом до 13% и 10% соответственно. Реализация доступна по адресу: https://github.com/hammoudhasan/SubthoughtReasoner.
Генеративный ИИ трансформирует искусство, игровую индустрию и, что особенно заметно, анимацию. Последние прорывы в области базовых и диффузионных моделей значительно сократили время и затраты на создание анимационного контента. Персонажи являются ключевыми компонентами анимации, включая движение, эмоции, жесты и мимику. Темпы и масштабы достижений последних месяцев затрудняют поддержание целостного представления о данной области, что подчеркивает необходимость интегративного обзора. В отличие от предыдущих обзоров, которые рассматривают аватары, жесты или мимическую анимацию изолированно, данное исследование предлагает единую, всестороннюю перспективу на все основные приложения генеративного ИИ для анимации персонажей. Мы начинаем с анализа современных достижений в области мимической анимации, рендеринга выражений, синтеза изображений, создания аватаров, моделирования жестов, синтеза движения, генерации объектов и синтеза текстур. Мы выделяем ведущие исследования, практические внедрения, широко используемые наборы данных и новые тенденции для каждой области. Чтобы поддержать новичков, мы также предоставляем обширный раздел с базовой информацией, который знакомит с основными моделями и метриками оценки, вооружая читателей знаниями, необходимыми для входа в эту область. Мы обсуждаем открытые вызовы и намечаем будущие направления исследований, предоставляя дорожную карту для развития технологий анимации персонажей на основе ИИ. Этот обзор предназначен в качестве ресурса для исследователей и разработчиков, вступающих в область генеративной анимации ИИ или смежных областей. Ресурсы доступны по адресу: https://github.com/llm-lab-org/Generative-AI-for-Character-Animation-Survey.
По мере того как крупные языковые модели (LLM) на основе трансформеров всё больше проникают в общество, они произвели революцию в таких областях, как разработка программного обеспечения, творческое письмо и цифровое искусство. Однако их внедрение в кибербезопасность остаётся ограниченным из-за таких проблем, как нехватка специализированных данных для обучения и сложность представления знаний, специфичных для кибербезопасности. Чтобы устранить эти пробелы, мы представляем Foundation-Sec-8B — LLM, ориентированную на кибербезопасность, построенную на архитектуре Llama 3.1 и улучшенную за счёт дополнительного предобучения на тщательно отобранном корпусе данных по кибербезопасности. Мы оцениваем Foundation-Sec-8B на основе как устоявшихся, так и новых тестовых наборов для кибербезопасности, демонстрируя, что она сопоставима с Llama 3.1-70B и GPT-4o-mini в определённых задачах, связанных с кибербезопасностью. Публикуя нашу модель, мы стремимся ускорить прогресс и внедрение инструментов на основе ИИ как в государственных, так и в частных контекстах кибербезопасности.
В последние годы генерация видео достигла значительных успехов. Однако проблемы с созданием сложных движений и взаимодействий по-прежнему остаются актуальными. Для решения этих задач мы представляем ReVision — модульную платформу, которая явно интегрирует параметризованные 3D-физические знания в предобученную модель условной генерации видео, значительно улучшая её способность создавать высококачественные видео со сложными движениями и взаимодействиями. ReVision состоит из трёх этапов. Сначала модель диффузии видео используется для создания чернового видео. Затем из этого видео извлекается набор 2D и 3D-признаков для построения объектно-ориентированного 3D-представления, которое уточняется с помощью предложенной нами модели параметризованного физического приора для получения точной 3D-последовательности движений. Наконец, эта уточнённая последовательность движений возвращается в ту же модель диффузии видео в качестве дополнительного условия, что позволяет генерировать видео с согласованными движениями даже в сценариях, включающих сложные действия и взаимодействия. Мы подтверждаем эффективность нашего подхода на модели Stable Video Diffusion, где ReVision значительно улучшает точность и согласованность движений. Примечательно, что с всего 1,5 миллиардами параметров он превосходит современную модель генерации видео с более чем 13 миллиардами параметров в создании сложных видео с существенным отрывом. Наши результаты показывают, что, интегрируя 3D-физические знания, даже относительно небольшая модель диффузии видео может генерировать сложные движения и взаимодействия с большей реалистичностью и управляемостью, предлагая перспективное решение для физически правдоподобной генерации видео.
Большие языковые модели (LLM) для генеративного ИИ достигли значительного прогресса, превратившись в сложные и универсальные инструменты, широко применяемые в различных областях и приложениях. Однако значительные затраты памяти, вызванные огромным количеством параметров, в сочетании с высокими вычислительными требованиями механизма внимания, создают серьезные проблемы для достижения низкой задержки и высокой пропускной способности в сервисах вывода LLM. Последние достижения, обусловленные революционными исследованиями, значительно ускорили прогресс в этой области. В данной статье представлен всесторонний обзор этих методов, охватывающий фундаментальные подходы на уровне экземпляров, углубленные стратегии на уровне кластеров, новые направления в сценариях и другие важные, хотя и менее распространенные области. На уровне экземпляров мы рассматриваем размещение моделей, планирование запросов, прогнозирование длины декодирования, управление хранилищем и парадигму разделения. На уровне кластеров исследуются развертывание GPU-кластеров, балансировка нагрузки между несколькими экземплярами и решения для облачных сервисов. В рамках новых сценариев обсуждение организовано вокруг конкретных задач, модулей и вспомогательных методов. Чтобы обеспечить целостный обзор, мы также выделяем несколько узкоспециализированных, но критически важных областей. Наконец, мы намечаем потенциальные направления исследований для дальнейшего развития области обслуживания вывода LLM.
Масштабирование данных и стандартизированные оценочные тесты сыграли ключевую роль в значительных достижениях в области обработки естественного языка и компьютерного зрения. Однако в робототехнике возникают уникальные сложности, связанные с масштабированием данных и разработкой протоколов оценки. Сбор данных в реальном мире требует значительных ресурсов и неэффективен, а тестирование в реальных сценариях остается крайне сложным. Синтетические данные и симуляции предлагают перспективные альтернативы, однако существующие подходы часто не соответствуют требованиям к качеству данных, их разнообразию и стандартизации тестов. Для решения этих проблем мы представляем RoboVerse — комплексную платформу, включающую симуляционную среду, синтетический набор данных и унифицированные тесты. Наша симуляционная платформа поддерживает несколько симуляторов и различных роботов, обеспечивая плавный переход между различными средами. Синтетический набор данных, отличающийся высокой точностью физики и фотореалистичной визуализацией, создается с использованием нескольких подходов. Кроме того, мы предлагаем унифицированные тесты для обучения с подражанием и обучения с подкреплением, позволяющие оценивать результаты на разных уровнях обобщения. Основой симуляционной платформы является MetaSim — инфраструктура, которая абстрагирует разнообразные симуляционные среды в универсальный интерфейс. Она преобразует существующие симуляционные среды в систему конфигурации, независимую от симулятора, а также предоставляет API, объединяющий различные функции симуляторов, такие как запуск симуляционных сред, загрузка ресурсов с начальными состояниями, шаги физического движка и т.д. Эта абстракция обеспечивает совместимость и расширяемость. Комплексные эксперименты демонстрируют, что RoboVerse улучшает производительность в задачах обучения с подражанием, обучения с подкреплением, обучения моделей мира и переноса из симуляции в реальность. Эти результаты подтверждают надежность нашего набора данных и тестов, устанавливая RoboVerse как надежное решение для продвижения обучения роботов.
Мультимодальная интерпретация биомедицинских изображений открывает новые возможности в анализе биомедицинских данных. Традиционные подходы на основе ИИ обычно полагаются на раздельное обучение, например, использование крупных языковых моделей (LLM) для генерации клинических текстов и моделей сегментации для извлечения целевых объектов, что приводит к негибкому применению в реальных условиях и неспособности использовать целостную биомедицинскую информацию. В связи с этим мы представляем UniBiomed — первую универсальную базовую модель для обоснованной интерпретации биомедицинских изображений. UniBiomed основана на новой интеграции мультимодальной крупной языковой модели (MLLM) и модели сегментации Segment Anything Model (SAM), что эффективно объединяет генерацию клинических текстов и сегментацию соответствующих биомедицинских объектов для обоснованной интерпретации. Таким образом, UniBiomed способна решать широкий спектр биомедицинских задач в десяти различных модальностях визуализации. Для разработки UniBiomed мы создали масштабный набор данных, включающий более 27 миллионов триплетов изображений, аннотаций и текстовых описаний для десяти модальностей визуализации. Обширная валидация на 84 внутренних и внешних наборах данных показала, что UniBiomed достигает передовых результатов в сегментации, распознавании заболеваний, регионально-ориентированной диагностике, визуальном ответе на вопросы и генерации отчетов. Более того, в отличие от предыдущих моделей, которые требуют предварительной диагностики изображений клиническими экспертами и ручного создания точных текстовых или визуальных подсказок, UniBiomed способна предоставлять автоматизированную и сквозную обоснованную интерпретацию для анализа биомедицинских изображений. Это представляет собой новый сдвиг парадигмы в клинических процессах, что значительно повысит эффективность диагностики. В заключение, UniBiomed представляет собой новый прорыв в области биомедицинского ИИ, открывая мощные возможности для более точного и эффективного анализа биомедицинских изображений.
Совместный анализ, являющийся приложением факторного экспериментального дизайна, представляет собой популярный инструмент в социальных науках для изучения многомерных предпочтений. В таких экспериментах в контексте политического анализа респондентам предлагается выбрать между двумя гипотетическими политическими кандидатами с случайно выбранными характеристиками, которые могут включать партийную принадлежность, политические позиции, пол и расу. Мы рассматриваем задачу определения оптимальных профилей кандидатов. Поскольку количество уникальных комбинаций характеристик значительно превышает общее число наблюдений в типичном совместном эксперименте, точно определить оптимальный профиль невозможно. Для решения этой проблемы идентификации мы выводим оптимальное стохастическое вмешательство, представляющее собой распределение вероятностей различных атрибутов, направленное на достижение наиболее благоприятного среднего результата. Сначала мы рассматриваем ситуацию, в которой одна политическая партия оптимизирует выбор своего кандидата. Затем мы переходим к более реалистичному случаю, когда две политические партии одновременно и в противодействии друг другу оптимизируют выбор своих кандидатов. Мы применяем предложенную методологию к существующему эксперименту по выбору кандидатов, касающемуся голосования за президента США. Мы обнаруживаем, что в отличие от неконфронтационного подхода, ожидаемые результаты в конфронтационном режиме находятся в пределах диапазона исторических электоральных исходов, при этом оптимальные стратегии, предложенные методом, с большей вероятностью соответствуют реально наблюдаемым кандидатам по сравнению со стратегиями, выведенными из неконфронтационного подхода. Эти результаты указывают на то, что включение конфронтационной динамики в совместный анализ может дать уникальные инсайты в данные социальных наук, полученные из экспериментов.