Ежедневно отобранные исследовательские статьи по ИИ с переводами
Бросая вызов преобладающему консенсусу о том, что малые модели по своей природе лишены надежных способностей к рассуждению, данный отчет представляет VibeThinker-1.5B — плотную модель с 1,5 миллиардами параметров, разработанную на основе нашего Принципа «От Спектра к Сигналу» (ПСС). Это ставит под сомнение доминирующий подход к наращиванию числа параметров модели для повышения ее возможностей, как это наблюдается в таких моделях, как DeepSeek R1 (671B) и Kimi k2 (>1T). Фреймворк ПСС сначала использует Двухэтапное Диверсифицирующее Дистилляционное Обучение с учителем (SFT) для генерации широкого спектра решений, а затем — Оптимизацию Стратегии с Направлением по Максимуму Энтропии (RL) для усиления корректного сигнала. При общих затратах на обучение всего в $7800, VibeThinker-1.5B демонстрирует превосходные способности к логическому выводу по сравнению с закрытыми моделями, такими как Magistral Medium и Claude Opus 4, и показывает результаты на уровне открытых моделей, таких как GPT OSS-20B Medium. Примечательно, что она превосходит модель DeepSeek R1, которая в 400 раз крупнее, по трем математическим тестам: AIME24 (80,3 против 79,8), AIME25 (74,4 против 70,0) и HMMT25 (50,4 против 41,7). Это представляет собой существенное улучшение по сравнению с ее базовой моделью (6,7; 4,3 и 0,6 соответственно). На тесте LiveCodeBench V6 модель набирает 51,1 балл, превосходя результат Magistral Medium в 50,3 балла и результат ее базовой модели в 0,0 баллов. Эти результаты демонстрируют, что малые модели могут достигать способностей к рассуждениям, сопоставимых с крупными моделями, что радикально снижает затраты на обучение и вывод и, тем самым, демократизирует передовые исследования в области ИИ.
Создание надежных агентов для работы с компьютером требует точного соотнесения (grounding): корректного связывания инструкций на естественном языке с соответствующими элементами на экране. Хотя существуют крупные наборы данных для веб- и мобильных взаимодействий, качественные ресурсы для десктопных сред ограничены. Чтобы восполнить этот пробел, мы представляем GroundCUA — масштабный набор данных для соотнесения в десктопной среде, созданный на основе экспертных демонстраций человека. Он охватывает 87 приложений из 12 категорий и включает 56 тыс. снимков экрана, причем каждый элемент интерфейса тщательно аннотирован, что в сумме дает более 3,56 млн аннотаций, проверенных человеком. На основе этих демонстраций мы генерируем разнообразные инструкции, отражающие широкий спектр реальных задач, обеспечивая высококачественные данные для обучения моделей. Используя GroundCUA, мы разработали семейство моделей GroundNext, которые сопоставляют инструкции с целевыми элементами пользовательского интерфейса. В конфигурациях на 3 и 7 миллиардов параметров GroundNext достигает передовых результатов на пяти бенчмарках при обучении с учителем, требуя при этом менее одной десятой части обучающих данных по сравнению с предыдущими работами. Дополнительное обучение с подкреплением еще больше улучшает производительность, и при оценке в агентской среде на бенчмарке OSWorld с использованием o3 в качестве планировщика, GroundNext демонстрирует сопоставимые или превосходящие результаты по сравнению с моделями, обученными на значительно большем объеме данных. Эти результаты подчеркивают ключевую роль высококачественных наборов данных, созданных при участии экспертов, в развитии универсальных агентов для работы с компьютером.
Крупные языковые модели (LLM) продемонстрировали впечатляющие успехи в диалоговых системах, генерируя ответы, подобные человеческим. Однако они могут давать сбои, особенно когда требуется учет персонализации или специфических знаний. В реальных условиях непрактично полагаться на то, что пользователи будут обнаруживать эти ошибки и запрашивать новый ответ. Один из способов решения этой проблемы — дорабатывать ответ перед его возвратом пользователю. В то время как существующие подходы сосредоточены на улучшении ответов в рамках одной LLM, этот метод испытывает трудности с учетом разнообразных аспектов, необходимых для эффективной беседы. В данной работе мы предлагаем дорабатывать ответы с помощью мульти-агентного фреймворка, где каждому агенту назначается определенная роль для каждого аспекта. Мы фокусируемся на трех ключевых аспектах, crucial для качества диалога: фактической точности, персонализации и связности. Каждый агент отвечает за проверку и улучшение одного из этих аспектов, а их обратная связь затем объединяется для совершенствования общего ответа. Для улучшения collaboration между ними мы вводим динамическую стратегию коммуникации. Вместо следования фиксированной последовательности агентов наш подход адаптивно выбирает и координирует наиболее релевантных агентов на основе конкретных требований каждого запроса. Мы проверяем наш фреймворк на сложных диалоговых наборах данных, демонстрируя, что он значительно превосходит соответствующие базовые методы, особенно в задачах, связанных со знаниями, пользовательской персоной или их комбинацией.
Маскированные диффузионные модели продемонстрировали конкурентоспособные результаты в различных задачах, включая генерацию языка. Однако из-за итеративного процесса уточнения вывод часто ограничивается медленной и статичной скоростью семплирования. Для решения этой проблемы мы представляем `KL-адаптивный стабильный семплинг` (KLASS) — быстрый, но эффективный метод семплирования, который использует расхождение Кульбака-Лейблера на уровне токенов для идентификации стабильных прогнозов с высокой уверенностью. Путем одновременного раскрытия нескольких токенов на каждой итерации без дополнительного обучения модели наш подход значительно ускоряет генерацию, сохраняя качество образцов. На тестах рассуждений KLASS достигает ускорения в реальном времени до 2.78 раз при одновременном улучшении производительности по сравнению со стандартным жадным декодированием, устанавливая современные результаты среди диффузионных сэмплеров. Мы дополнительно проверяем эффективность KLASS в различных областях, включая генерацию текста, изображений и молекул, демонстрируя его применимость в качестве универсального сэмплера для разных моделей.
Крупные языковые модели значительно продвинули многоязычный машинный перевод (ММП), однако широкий языковой охват, стабильное качество перевода и англоцентричная предвзятость остаются нерешенными проблемами. Для решения этих задач мы представляем LMT — набор крупномасштабных многоязычных моделей перевода, ориентированных на китайский и английский языки, охватывающих 60 языков и 234 направления перевода. В процессе разработки мы выявили ранее упускаемое явление деградации направленности, при котором симметричные многосторонние данные тонкой настройки чрезмерно акцентируют обратные направления (X → En/Zh), что приводит к избыточным много-к-одному соответствиям и снижению качества перевода. Мы предлагаем стратегическое понижающее дискретизирование — простой, но эффективный метод для смягчения этой деградации. Кроме того, мы разработали параллельное многоязычное prompting (PMP), которое использует типологически родственные вспомогательные языки для улучшения межъязыкового переноса. Благодаря тщательной подготовке данных и усовершенствованным стратегиям адаптации, LMT демонстрирует состояние искусства среди моделей со сравнимым языковым охватом, причем наша 4-миллиардная модель (LMT-60-4B) существенно превосходит гораздо более крупные модели Aya-101-13B и NLLB-54B. Мы публикуем LMT в четырех размерах (0.6B/1.7B/4B/8B) для стимулирования будущих исследований и предоставления надежных базовых уровней для инклюзивного, масштабируемого и высококачественного ММП \href{https://github.com/NiuTrans/LMT{https://github.com/NiuTrans/LMT}}.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) надежно улучшает способность больших языковых моделей к рассуждениям, однако при этом модифицирует, по-видимому, лишь небольшую долю параметров. Мы вновь обращаемся к этому парадоксу и показываем, что разреженность является поверхностным артефактом оптимизационного смещения, обусловленного моделью: для фиксированной предобученной модели обновления последовательно локализуются в предпочтительных областях параметров, демонстрируя высокую согласованность между запусками и значительную инвариантность к наборам данных и методам RL. Мы механистически объясняем эту динамику с помощью Теории Трех Врат: Врата I (KL-Якорь) накладывают KL-ограниченное обновление; Врата II (Геометрия Модели) направляют шаг от главных направлений в подпространства с низкой кривизной, сохраняющие спектр; а Врата III (Точность) скрывают микро-обновления в непредпочтительных областях, из-за чего смещение вне главных направлений проявляется как разреженность. Затем мы проверяем эту теорию и впервые даем параметрическое описание динамики обучения RLVR: RLVR обучается вне главных направлений в пространстве весов, достигая улучшений за счет минимального спектрального сдвига, снижения вращения в главном подпространстве и выравнивания обновлений вне главных направлений. В противоположность этому, SFT нацеливается на главные веса, искажает спектр и даже отстает от RLVR. В совокупности эти результаты дают первое параметрическое описание динамики обучения RLVR, выявляя четкие закономерности в эволюции параметров. Ключевым образом мы показываем, что RL функционирует в отличном от SFT режиме оптимизации, поэтому прямое применение методов параметрически-эффективного тонкого обучения (PEFT) из эпохи SFT может быть ошибочным, что демонстрируют наши case-исследования продвинутого разреженного тонкого обучения и вариантов LoRA. Мы надеемся, что данная работа прокладывает путь к прозрачному пониманию RLVR и проектированию учитывающих геометрию, нативных для RLVR алгоритмов обучения, вместо перепрофилирования эвристик из эпохи SFT.
Эффективность больших языковых моделей (LLM) и больших мультимодальных моделей (LMM) в значительной степени зависит от качества и масштаба их предварительно обучающих наборов данных. Недавние исследования показывают, что большие мультимодальные модели, обученные на естественных документах, где изображения и текст переплетены, превосходят модели, обученные только на парах «изображение-текст», в широком спектре тестов, используя передовые предобученные модели для обеспечения семантического согласования, согласованности с последовательностью изображений и текстовой связности. Однако для арабского языка отсутствие высококачественных мультимодальных наборов данных, сохраняющих структуру документа, ограничивало прогресс. В данной статье мы представляем наш конвейер Wasm для обработки набора данных Common Crawl с целью создания нового арабского мультимодального набора данных, который уникальным образом предоставляет вывод в формате markdown. В отличие от существующих арабских корпусов, ориентированных исключительно на извлечение текста, наш подход сохраняет структурную целостность веб-контента, обеспечивая гибкость как для сценариев предварительного обучения только на тексте, так и для мультимодальных. Мы предоставляем всесторонний сравнительный анализ нашего конвейера обработки данных с конвейерами, используемыми для основных существующих наборов данных, выделяя сходства в стратегиях фильтрации и обосновывая наши конкретные проектные решения. Для поддержки будущих исследований мы публично выпускаем репрезентативный дамп набора данных вместе с мультимодальным конвейером обработки для арабского языка.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) существенно расширило возможности мультимодальных больших языковых моделей (MLLM) в области понимания видео. Однако быстрый прогресс MLLM опережает сложность существующих видеодатасетов, в то время как ручная разметка новых высококачественных данных остается чрезмерно дорогостоящей. В данной работе исследуется ключевой вопрос: можно ли использовать богатую внутреннюю информацию видео для самостоятельной генерации высококачественных, верифицируемых обучающих данных? Для изучения этого мы предлагаем три самоконтролируемые задачи-примеси: локализация аномалий, подсчет объектов и временной джигсо-пазл. Мы создали бенчмарк Video Intrinsic Understanding Benchmark (VIUBench) для оценки их сложности, который показал, что современные MLLM испытывают значительные трудности при решении этих задач. На основе этих задач-примесей мы разработали датасет VideoSSR-30K и предложили VideoSSR — новую систему самоконтролируемого обучения с подкреплением на видео для RLVR. Масштабные эксперименты на 17 бенчмарках, охватывающих четыре основные видеодомена (общие вопросы по видео, вопросы по длинным видео, временная локализация и сложные рассуждения), демонстрируют, что VideoSSR стабильно улучшает производительность модели, обеспечивая средний прирост более чем на 5%. Эти результаты устанавливают VideoSSR в качестве мощной базовой архитектуры для развития более продвинутого понимания видео в MLLM. Код доступен по адресу https://github.com/lcqysl/VideoSSR.
Крупные языковые модели (LLM) сталкиваются с фундаментальными проблемами при рассуждениях в длинном контексте: многие документы превышают их ограниченные окна контекста, в то время как производительность на текстах, которые помещаются, ухудшается с увеличением длины последовательности, что обуславливает необходимость их дополнения внешними фреймворками памяти. Современные решения, эволюционировавшие от поиска с использованием семантических эмбеддингов до более сложных структурированных представлений в виде графов знаний для улучшения осмысления и ассоциативности, ориентированы на фактологический поиск и не способны строить привязанные к пространству-времени нарративные представления, необходимые для отслеживания сущностей в рамках эпизодических событий. Чтобы устранить этот пробел, мы предлагаем Генеративное семантическое рабочее пространство (GSW) — нейроинспирированный фреймворк генеративной памяти, который строит структурированные, интерпретируемые представления развивающихся ситуаций, позволяя LLM рассуждать об изменяющихся ролях, действиях и пространственно-временных контекстах. Наш фреймворк включает Оператор, который отображает поступающие наблюдения в промежуточные семантические структуры, и Согласователь, который интегрирует их в постоянное рабочее пространство, обеспечивающее временную, пространственную и логическую согласованность. На Эпизодическом бенчмарке памяти (EpBench) huet_episodic_2025, состоящем из корпусов длиной от 100 тыс. до 1 млн токенов, GSW превосходит существующие базовые методы на основе RAG до 20%. Более того, GSW высокоэффективен, сокращая количество токенов контекста во время запроса на 51% по сравнению со следующим наиболее экономным базовым методом, что значительно снижает затраты на время вывода. В более широком смысле, GSW предлагает конкретный план по наделению LLM человеко-подобной эпизодической памятью, прокладывая путь к созданию более способных агентов, которые могут рассуждать на длительных временных горизонтах.
Запросы к большим языковым моделям (LLM) в основном обрабатываются передовыми моделями в централизованной облачной инфраструктуре. Стремительно растущий спрос создает нагрузку на эту парадигму, и поставщики облачных услуг не успевают масштабировать инфраструктуру. Два достижения позволяют переосмыслить этот подход: небольшие языковые модели (<=20B активных параметров) теперь достигают конкурентоспособной с передовыми моделями производительности во многих задачах, а локальные акселераторы (например, Apple M4 Max) выполняют эти модели с интерактивной задержкой. Это поднимает вопрос: может ли локальный вывод жизнеспособно перераспределить нагрузку с централизованной инфраструктуры? Для ответа необходимо измерить, способны ли локальные LM точно отвечать на реальные запросы и делать это достаточно эффективно для практического использования на устройствах с ограниченным энергопотреблением (например, ноутбуках). Мы предлагаем метрику «интеллект на ватт» (IPW) — точность выполнения задачи, деленная на единицу потребляемой мощности, — для оценки возможностей и эффективности локального вывода для различных пар «модель-акселератор». Мы проводим масштабное эмпирическое исследование с участием более 20 современных локальных LM, 8 акселераторов и репрезентативной выборки трафика LLM: 1 млн реальных однократных чат-запросов и запросов на рассуждение. Для каждого запроса мы измеряем точность, энергопотребление, задержку и мощность. Наш анализ выявил три ключевых результата. Во-первых, локальные LM могут точно отвечать на 88,7% однократных чат-запросов и запросов на рассуждение, при этом точность варьируется в зависимости от предметной области. Во-вторых, с 2023 по 2025 год показатель IPW улучшился в 5,3 раза, а доля запросов, обрабатываемых локально, выросла с 23,2% до 71,3%. В-третьих, локальные акселераторы демонстрируют как минимум в 1,4 раза лучший показатель IPW, чем облачные акселераторы, выполняющие идентичные модели, что указывает на значительный потенциал для оптимизации. Эти результаты демонстрируют, что локальный вывод может существенно перераспределить нагрузку с централизованной инфраструктуры, а метрика IPW является ключевой для отслеживания этого перехода. Мы публикуем наш инструмент для профилирования IPW для системного бенчмаркинга интеллекта на ватт.
В современных системах принятия последовательных решений построение оптимального пространства кандидатных действий играет ключевую роль для эффективного вывода. Однако существующие подходы либо опираются на ручное определение пространств действий, не обладающих масштабируемостью, либо используют неструктурированные пространства, делающие полный перебор вычислительно неосуществимым. В данной статье мы предлагаем новую структуру под названием DynaAct для автоматического построения компактного пространства действий с целью улучшения последовательных рассуждений в сложных сценариях решения задач. Наш метод сначала оценивает аппроксимацию полного пространства действий путем извлечения общих шаблонов, наблюдаемых в корпусе, охватывающем разнообразные сложные задачи рассуждений, с использованием больших языковых моделей. Затем мы формулируем супермодулярную функцию, которая совместно оценивает кандидатные действия на основе их полезности для текущего состояния и их разнообразия, и применяем жадный алгоритм для выбора оптимального набора кандидатов. Масштабные эксперименты на шести разнообразных стандартных тестовых наборах демонстрируют, что наш подход значительно улучшает общую производительность, сохраняя при этом эффективный вывод без существенного увеличения задержки. Реализация доступна по адресу https://github.com/zhaoxlpku/DynaAct.
**Актуальность:** Большие языковые модели (БЯМ) появились с потенциалом произвести революцию в разработке программного обеспечения (например, автоматизация процессов, трансформация рабочей силы). Хотя исследования начали изучать воспринимаемое влияние БЯМ на разработку ПО, необходимы эмпирические исследования, чтобы понять, как сбалансировать позитивные и негативные последствия их использования. **Цель:** Мы исследовали, как БЯМ влияют на разработку ПО и как управлять этим влиянием с точки зрения разработчика. **Метод:** Мы провели 22 интервью с практиками в области разработки ПО в три раунда сбора и анализа данных в период с октября 2024 года по сентябрь 2025 года. Для анализа данных интервью мы использовали социотехническую обоснованную теорию (СОТ) для тщательного изучения ответов участников. **Результаты:** Мы выявили преимущества (например, поддержание потока разработки, улучшение ментальной модели разработчиков и стимулирование предпринимательства) и недостатки (например, негативное влияние на личность разработчиков и ущерб их репутации) использования БЯМ на индивидуальном, командном, организационном и общественном уровнях, а также лучшие практики по внедрению БЯМ. **Вывод:** Ключевым результатом является представление компромиссов (trade-offs), с которыми сталкиваются разработчики, команды и организации при работе с БЯМ. Наши выводы особенно полезны для руководителей команд разработки и ИТ-менеджеров для оценки целесообразности использования БЯМ в их конкретном контексте.
Выравнивание значительно повысило качество выходных данных больших языковых моделей (LLM), но ценой снижения разнообразия, что приводит к генерации высокосхожих результатов. Мы предлагаем Base-Aligned Model Collaboration (BACo) — фреймворк для совместной работы моделей на уровне токенов во время вывода, который динамически комбинирует базовую LLM с её выровненной версией для оптимизации разнообразия и качества. Вдохновлённые предыдущей работой (Fei et al., 2025), в BACo используются стратегии маршрутизации, которые на каждом токене определяют, из какой модели следует декодировать, основываясь на неопределённости предсказания следующего токена и семантической роли предсказываемого содержимого. Предыдущие методы повышения разнообразия, такие как дообучение, инженерия промптов и методы множественной выборки, улучшают разнообразие, но часто ухудшают качество или требуют дорогостоящего декодирования или пост-обучения. В отличие от них, BACo достигает высокого разнообразия и качества постфактум за один проход, обеспечивая при этом высокую управляемость. Мы исследуем семейство стратегий маршрутизации на трёх задачах открытой генерации и с помощью 13 метрик, охватывающих разнообразие и качество. BACo последовательно превосходит передовые базовые методы, применяемые во время вывода. С нашим лучшим маршрутизатором BACo достигает совокупного улучшения разнообразия и качества на 21,3%. Результаты человеческой оценки также подтверждают эти улучшения. Полученные данные свидетельствуют о том, что совместная работа базовой и выровненной моделей позволяет оптимизировать и контролировать разнообразие и качество.
Задача временного поиска заключается в выявлении минимального набора релевантных кадров из десятков тысяч на основе заданного запроса, что служит основой для точного понимания длинных видео. Существующие подходы пытаются постепенно сужать пространство поиска. Однако эти методы обычно опираются на ручной процесс поиска, не имея сквозной оптимизации для изучения оптимальных стратегий. В данной статье мы предлагаем TimeSearch-R, который переформулирует временной поиск как чередующееся текст-видео мышление, органично интегрируя поиск видеофрагментов в процесс рассуждений с помощью обучения с подкреплением (RL). Однако применение методов RL-обучения, таких как Group Relative Policy Optimization (GRPO), к видео-рассуждениям может приводить к неконтролируемым промежуточным поисковым решениям. Это вызывает недостаточное исследование видеоконтента и несогласованное логическое рассуждение. Для решения этих проблем мы представляем GRPO с самопроверкой полноты (GRPO-CSV), который собирает найденные видеокадры из чередующегося процесса рассуждений и использует ту же модель политики для проверки достаточности найденных кадров, тем самым повышая полноту видео-рассуждений. Кроме того, мы создаем наборы данных, специально предназначенные для SFT "холодного старта" и RL-обучения GRPO-CSV, отфильтровывая примеры со слабыми временными зависимостями для увеличения сложности задачи и улучшения возможностей временного поиска. Многочисленные эксперименты демонстрируют, что TimeSearch-R достигает значительного прогресса на бенчмарках временного поиска, таких как Haystack-LVBench и Haystack-Ego4D, а также на бенчмарках понимания длинных видео, таких как VideoMME и MLVU. Примечательно, что TimeSearch-R устанавливает новый state-of-the-art на LongVideoBench с улучшением на 4,1% по сравнению с базовой моделью Qwen2.5-VL и на 2,0% по сравнению с передовой моделью видео-рассуждений Video-R1. Наш код доступен по адресу https://github.com/Time-Search/TimeSearch-R.
Жесткие негативные примеры играют ключевую роль в обучении эффективных моделей информационного поиска. Традиционно их выбор основан на ранжировании документов с помощью кросс-энкодеров или статических моделей эмбеддингов, использующих метрики схожести, такие как косинусное расстояние. Однако для биомедицинской и научной областей выбор жестких негативов осложняется трудностью различения исходного документа и жесткого негатива. При этом документы, на которые есть ссылки, естественным образом обладают контекстуальной связью с исходным документом, но не являются его дубликатами, что делает их идеальными кандидатами в жесткие негативы. В данной работе мы предлагаем BiCA: биомедицинский плотный поиск с учетом цитирования для выбора жестких негативов — метод, который использует цитатные ссылки в 20 000 статей из PubMed для улучшения специализированной компактной модели плотного поиска. Мы дообучаем модели GTE_small и GTE_Base на этих негативных примерах, учитывающих цитирование, и наблюдаем устойчивое улучшение качества zero-shot плотного поиска по метрике nDCG@10 как для внутридоменных, так и для внешних задач на наборе BEIR, а также превосходство над базовыми методами по метрике Success@5 для редких тем в LoTTE. Наши результаты демонстрируют потенциал использования структуры связей между документами для генерации высокоинформативных негативных примеров, что позволяет достигать передовых результатов при минимальном дообучении и открывает путь к высокоэффективной адаптации моделей для конкретной предметной области.