Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на их впечатляющие возможности, крупные языковые модели (LLM) испытывают трудности с эффективным использованием информации из предыдущих взаимодействий в динамичных и сложных средах. Системы памяти позволяют LLM выйти за рамки статичных взаимодействий, вводя механизмы постоянного хранения, извлечения и использования информации. Однако существующие системы памяти часто приводят к значительным временным и вычислительным затратам. В связи с этим мы представляем новую систему памяти под названием LightMem, которая находит баланс между производительностью и эффективностью систем памяти. Вдохновленная моделью человеческой памяти Аткинсона-Шиффрина, LightMem организует память в три взаимодополняющих этапа. Во-первых, сенсорная память, вдохновленная когнитивными процессами, быстро фильтрует нерелевантную информацию с помощью легковесного сжатия и группирует данные по темам. Затем, кратковременная память с учетом тематики консолидирует эти тематические группы, организуя и суммируя содержимое для более структурированного доступа. Наконец, долговременная память с обновлением в режиме сна использует автономный процесс, который отделяет консолидацию от онлайн-вывода. Эксперименты на LongMemEval с использованием моделей GPT и Qwen показывают, что LightMem превосходит сильные базовые подходы по точности (улучшение до 10,9%) при этом сокращая использование токенов до 117 раз, количество API-вызовов до 159 раз и время выполнения более чем в 12 раз. Код доступен по адресу https://github.com/zjunlp/LightMem.
Мы представляем метод разделения основного механизма внимания (Core Attention Disaggregation, CAD), который улучшает обучение языковых моделей с длинным контекстом за счет отделения основного вычисления внимания, softmax(QK^T)V, от остальной части модели и выполнения его на отдельном пуле устройств. В существующих системах основной механизм внимания размещается вместе с другими слоями; при длинных контекстах его квадратичный рост вычислительной сложности по сравнению с почти линейным ростом других компонентов приводит к дисбалансу нагрузки и задержкам в группах данных и параллельных конвейеров. CAD основан на двух ключевых наблюдениях. Во-первых, основной механизм внимания не имеет состояния: он не содержит обучаемых параметров и лишь минимальные временные данные, поэтому балансировка сводится к планированию вычислительно-зависимых задач. Во-вторых, он композируем: современные ядра внимания сохраняют высокую эффективность при обработке объединенных пакетов сегментов токенов произвольной длины. CAD разделяет основной механизм внимания на задачи уровня токенов и распределяет их на выделенные серверы внимания, которые динамически перегруппировывают задачи для выравнивания вычислений без потери эффективности ядер. Мы реализовали CAD в системе под названием DistCA, которая использует схему выполнения "пинг-понг" для полного перекрытия коммуникаций и вычислений, а также выполнение на месте на серверах внимания для снижения использования памяти. На 512 GPU H200 и длинах контекста до 512k токенов DistCA повышает сквозную пропускную способность обучения до 1.35x, устраняет задержки в данных и параллельных конвейерах и достигает почти идеального баланса вычислений и памяти.
Генеративные модели мира (WMs) теперь способны симулировать миры с поразительной визуальной реалистичностью, что естественно поднимает вопрос о том, могут ли они наделить воплощённых агентов прогностическим восприятием для принятия решений. Прогресс в этом вопросе ограничивается фрагментированной оценкой: большинство существующих бенчмарков используют открытые протоколы, которые акцентируют внимание на визуальном качестве изолированно, оставляя ключевой вопрос полезности для воплощённых агентов нерешённым, а именно: действительно ли WMs помогают агентам успешно выполнять задачи в реальной среде? Чтобы устранить этот пробел, мы представляем World-in-World — первую открытую платформу, которая оценивает WMs в замкнутом мире, отражающем реальные взаимодействия агента и среды. World-in-World предоставляет унифицированную стратегию онлайн-планирования и стандартизированный API для действий, позволяя использовать разнородные WMs для принятия решений. Мы создали четыре замкнутых среды, которые строго оценивают различные WMs, приоритизируют успешность выполнения задач как основной метрики и выходят за рамки традиционного акцента на визуальное качество; мы также представляем первый закон масштабирования данных для моделей мира в условиях воплощённых агентов. Наше исследование выявило три неожиданных результата: (1) визуальное качество само по себе не гарантирует успешность задач, важнее управляемость; (2) масштабирование после обучения с данными о действиях и наблюдениях более эффективно, чем улучшение предобученных генераторов видео; (3) выделение большего объёма вычислительных ресурсов на этапе вывода позволяет WMs значительно улучшить производительность в замкнутом цикле.
Недавние достижения в области генерации изображений по текстовому описанию (Text-to-Image, T2I) подчеркивают важность надежных эталонов для оценки того, насколько точно созданные изображения отражают семантику текстового запроса. Однако (1) существующие эталоны недостаточно разнообразны в плане сценариев запросов и поддержки многоязычности, что критически важно для практического применения; (2) они предлагают лишь грубую оценку по основным параметрам, охватывая узкий диапазон подпараметров, и не справляются с детализированной оценкой на уровне подпараметров. Чтобы устранить эти ограничения, мы представляем UniGenBench++ — унифицированный эталон для семантической оценки генерации T2I. В частности, он включает 600 запросов, организованных иерархически для обеспечения как охвата, так и эффективности: (1) охватывает разнообразные реальные сценарии, включая 5 основных тем и 20 подтем запросов; (2) всесторонне исследует семантическую согласованность моделей T2I по 10 основным и 27 дополнительным критериям оценки, причем каждый запрос проверяет несколько тестовых точек. Для строгой оценки устойчивости моделей к вариациям языка и длины запроса мы предоставляем версии каждого запроса на английском и китайском языках в краткой и длинной формах. Используя общие знания о мире и способность к детализированному пониманию изображений, предоставляемые закрытой многомодальной крупной языковой моделью (MLLM), а именно Gemini-2.5-Pro, мы разработали эффективный конвейер для надежного построения эталона и упрощенной оценки моделей. Кроме того, чтобы дополнительно облегчить использование сообществом, мы обучаем надежную модель оценки, которая позволяет проводить офлайн-оценку выходных данных моделей T2I. Проведя всестороннее тестирование как открытых, так и закрытых моделей T2I, мы систематически выявляем их сильные и слабые стороны в различных аспектах.
Мы представляем Ring-1T — первую открытую модель мышления с триллионным масштабом параметров, соответствующую современным стандартам. Модель включает 1 триллион общих параметров и активирует примерно 50 миллиардов на каждый токен. Обучение таких моделей на триллионном масштабе параметров ставит беспрецедентные задачи, включая рассогласование между обучением и выводом, неэффективность обработки последовательностей и узкие места в системе обучения с подкреплением (RL). Для решения этих проблем мы внедряем три взаимосвязанных инновации: (1) IcePop стабилизирует RL-обучение за счет маскирования и ограничения расхождений на уровне токенов, устраняя нестабильность, вызванную несоответствием между обучением и выводом; (2) C3PO++ повышает эффективность использования ресурсов для длинных последовательностей при ограниченном бюджете токенов за счет их динамического разделения, обеспечивая высокую временную эффективность; и (3) ASystem — высокопроизводительный RL-фреймворк, разработанный для преодоления системных узких мест, препятствующих обучению моделей с триллионным масштабом параметров. Ring-1T демонстрирует прорывные результаты на ключевых тестах: 93,4 на AIME-2025, 86,72 на HMMT-2025, 2088 на CodeForces и 55,94 на ARC-AGI-v1. Особенно примечателен результат уровня серебряной медали на IMO-2025, подчеркивающий исключительные способности модели к рассуждению. Предоставляя полную 1T-параметрическую модель MoE сообществу, мы даем исследователям прямой доступ к передовым возможностям рассуждения. Этот вклад знаменует важный этап в демократизации крупномасштабного интеллекта рассуждений и устанавливает новый стандарт для производительности открытых моделей.
Хотя крупные языковые модели (LLM) обладают значительным потенциалом для продвижения в области химических открытий, современные LLM не обладают базовыми знаниями в химии, демонстрируют ненадежные траектории рассуждений и показывают неоптимальную производительность в разнообразных химических задачах. Для решения этих проблем мы предлагаем Chem-R — универсальную модель химического рассуждения, разработанную для имитации обдуманных процессов, используемых химиками. Chem-R обучается с помощью трехэтапной структуры, которая постепенно развивает продвинутые способности к рассуждению, включая: 1) Базовое химическое обучение, которое закладывает фундаментальные химические знания. 2) Дистилляцию протоколов химического рассуждения, включающую структурированные, экспертные траектории рассуждений для систематического и надежного решения задач. 3) Оптимизацию политики с учетом относительной групповой многозадачности, которая оптимизирует модель для сбалансированной производительности в разнообразных задачах на молекулярном и реакционном уровнях. Этот структурированный подход позволяет Chem-R достичь наилучших результатов на комплексных тестах, превосходя ведущие крупные языковые модели, включая Gemini-2.5-Pro и DeepSeek-R1, на 46% в молекулярных задачах и на 66% в задачах, связанных с реакциями. При этом Chem-R также стабильно превосходит существующие базовые химические модели как на молекулярном, так и на реакционном уровнях. Эти результаты подчеркивают надежную обобщаемость, интерпретируемость и потенциал Chem-R в качестве основы для следующего поколения ИИ-управляемых химических открытий.
Генерация длинных видео с использованием Diffusion Transformers (DiTs) ограничена квадратичным масштабированием полного внимания (full attention) с увеличением длины последовательности. Поскольку механизм внимания обладает высокой избыточностью, выходные данные определяются небольшим подмножеством пар запрос-ключ. Существующие разреженные методы опираются на блочную грубую оценку, где компромисс между точностью и эффективностью ограничен размером блока. В данной статье представлено Mixture-of-Groups Attention (MoGA) — эффективный механизм разреженного внимания, который использует легковесный обучаемый маршрутизатор токенов для точного сопоставления токенов без блочной оценки. Благодаря семантически осознанной маршрутизации, MoGA обеспечивает эффективное взаимодействие на больших расстояниях. Будучи методом, не требующим ядра (kernel-free), MoGA легко интегрируется с современными стеками внимания, включая FlashAttention и параллелизм последовательностей. На основе MoGA мы разработали эффективную модель генерации длинных видео, которая сквозным образом создает минутные, многосценовые видео в разрешении 480p со скоростью 24 кадра в секунду и длиной контекста около 580 тысяч токенов. Комплексные эксперименты на различных задачах генерации видео подтверждают эффективность нашего подхода.
Хотя мультимодальные большие языковые модели (MLLMs) преуспевают в целостном понимании, они испытывают трудности при анализе сложных сцен с высокой плотностью объектов, требующих детального анализа тонких деталей и взаимосвязей между объектами. Региональные MLLMs стали многообещающим шагом в этом направлении. Однако предыдущие попытки, как правило, были оптимизированы для понимания заданных регионов изолированно, игнорируя важные глобальные контексты. Чтобы решить эту проблему, мы представляем Grasp Any Region (GAR) для всестороннего визуального понимания на уровне регионов. Благодаря эффективной технике воспроизведения признаков, выровненных по области интереса (RoI), GAR поддерживает (1) точное восприятие за счет использования необходимых глобальных контекстов и (2) моделирование взаимодействий между несколькими запросами. В совокупности это естественным образом приводит к (3) продвинутому композиционному рассуждению для ответа на конкретные свободные вопросы о любом регионе, смещая парадигму от пассивного описания к активному диалогу. Кроме того, мы создаем GAR-Bench, который не только обеспечивает более точную оценку понимания одного региона, но и, что более важно, измеряет взаимодействия и сложные рассуждения между несколькими регионами. Многочисленные эксперименты показали, что GAR-1B не только сохраняет передовые возможности генерации описаний, например, превосходя DAM-3B на +4.5 на DLC-Bench, но и преуспевает в моделировании отношений между несколькими запросами с продвинутыми способностями к пониманию, даже опережая InternVL3-78B на GAR-Bench-VQA. Что еще важнее, наша модель GAR-8B, обученная с нуля, превосходит специализированную VideoRefer-7B на VideoRefer-BenchQ, что указывает на ее сильные возможности, которые легко переносятся на видео.
Мы представляем DeepSeek-OCR как начальное исследование возможности сжатия длинных контекстов с помощью оптического 2D-отображения. DeepSeek-OCR состоит из двух компонентов: DeepEncoder и DeepSeek3B-MoE-A570M в качестве декодера. В частности, DeepEncoder служит основным движком, разработанным для поддержания низких активаций при высоком разрешении входных данных, одновременно достигая высоких коэффициентов сжатия, чтобы обеспечить оптимальное и управляемое количество визуальных токенов. Эксперименты показывают, что когда количество текстовых токенов не превышает 10-кратного количества визуальных токенов (т.е. коэффициент сжатия < 10x), модель может достичь точности декодирования (OCR) в 97%. Даже при коэффициенте сжатия 20x точность OCR остается на уровне около 60%. Это демонстрирует значительный потенциал для таких областей исследований, как сжатие длинных исторических контекстов и механизмы забывания в больших языковых моделях (LLM). Кроме того, DeepSeek-OCR также демонстрирует высокую практическую ценность. На OmniDocBench он превосходит GOT-OCR2.0 (256 токенов на страницу), используя всего 100 визуальных токенов, и опережает MinerU2.0 (в среднем более 6000 токенов на страницу), используя менее 800 визуальных токенов. В производственных условиях DeepSeek-OCR может генерировать обучающие данные для LLM/VLM в масштабе 200+ тысяч страниц в день (на одной A100-40G). Коды и веса модели доступны публично по адресу http://github.com/deepseek-ai/DeepSeek-OCR.
Хотя мультимодальные большие языковые модели (MLLM) продемонстрировали высокую эффективность в создании видеозаголовков, практические приложения требуют заголовков, которые соответствуют конкретным инструкциям пользователя, а не генерируют исчерпывающие, неограниченные описания. Однако текущие бенчмарки в основном оценивают описательную полноту, практически игнорируя способность следовать инструкциям. Чтобы устранить этот пробел, мы представляем IF-VidCap — новый бенчмарк для оценки управляемого создания видеозаголовков, содержащий 1400 высококачественных образцов. В отличие от существующих бенчмарков для создания видеозаголовков или общего следования инструкциям, IF-VidCap включает систематическую структуру, которая оценивает заголовки по двум измерениям: корректность формата и корректность содержания. Наше всестороннее тестирование более 20 ведущих моделей выявило сложную картину: несмотря на продолжающееся доминирование проприетарных моделей, разрыв в производительности сокращается, и лучшие открытые решения теперь достигают почти паритета. Кроме того, мы обнаружили, что модели, специализированные для плотного создания заголовков, уступают универсальным MLLM в выполнении сложных инструкций, что указывает на необходимость одновременного улучшения как описательной насыщенности, так и точности следования инструкциям в будущих исследованиях.
Хотя диффузионные модели достигают наивысшего качества генерации, они по-прежнему страдают от вычислительно затратного процесса сэмплирования. В последних работах эта проблема решается с помощью методов оптимизации на основе градиентов, которые извлекают ODE-решатель диффузии с малым количеством шагов из полного процесса сэмплирования, сокращая количество вычислений функций с десятков до нескольких. Однако эти подходы часто полагаются на сложные методы обучения и не уделяют явного внимания сохранению мелкозернистых деталей. В данной статье мы представляем Обобщённый Решатель: простую параметризацию ODE-сэмплера, которая не требует дополнительных трюков в обучении и улучшает качество по сравнению с существующими подходами. Мы также комбинируем исходную функцию потерь для дистилляции с состязательным обучением, что уменьшает артефакты и повышает точность деталей. Полученный метод мы называем Обобщённым Состязательным Решателем и демонстрируем его превосходную производительность по сравнению с существующими методами обучения решателей при схожих ограничениях ресурсов. Код доступен по адресу https://github.com/3145tttt/GAS.
Точная персонализация крупных языковых моделей (LLM) в соответствии с индивидуальными предпочтениями пользователей является важной, но сложной задачей. Хотя обучение с учителем (SFT) быстро достигает плато производительности, стандартное обучение с подкреплением на основе обратной связи от человека (RLHF) также сталкивается с трудностями в учете нюансов персонализации. Скалярные модели вознаграждения склонны к "взлому вознаграждения", что приводит к многословным и поверхностно персонализированным ответам. Для преодоления этих ограничений мы предлагаем Critique-Post-Edit — надежную структуру обучения с подкреплением, которая обеспечивает более точную и контролируемую персонализацию. Наша структура включает два ключевых компонента: (1) Персонализированную Генеративную Модель Вознаграждения (GRM), которая предоставляет многомерные оценки и текстовые критические замечания для предотвращения взлома вознаграждения, и (2) Механизм Critique-Post-Edit, где модель политики пересматривает свои собственные выходные данные на основе этих критических замечаний для более целенаправленного и эффективного обучения. В рамках строгой оценки с контролем длины наш метод значительно превосходит стандартный PPO на тестах персонализации. Персонализированная модель Qwen2.5-7B демонстрирует среднее улучшение показателя выигрыша на 11%, а персонализированная модель Qwen2.5-14B превосходит производительность GPT-4.1. Эти результаты демонстрируют практический путь к точной, эффективной и контролируемой персонализации.
Хотя последние достижения в моделях обработки зрения и языка (VLMs) привели к значительному прогрессу в широком спектре мультимодальных задач, понимание трехмерных пространственных отношений на основе ограниченного числа изображений остается серьезной проблемой. Предыдущие методы рассуждения обычно полагались исключительно на текстовые данные (например, топологические когнитивные карты) или на двумерные визуальные подсказки. Однако их ограниченная способность к представлению данных снижает производительность в задачах, требующих трехмерного пространственного воображения. Для решения этой проблемы мы предлагаем 3DThinker — фреймворк, который эффективно использует богатую геометрическую информацию, заложенную в изображениях, в процессе рассуждения, подобно тому, как это делает человек. Наш фреймворк впервые позволяет осуществлять трехмерное ментальное моделирование в процессе рассуждения без использования каких-либо предварительных 3D-данных и не требует явно размеченных 3D-данных для обучения. В частности, наше обучение состоит из двух этапов. Сначала мы проводим обучение с учителем для согласования 3D-латентного пространства, генерируемого VLM в процессе рассуждения, с латентным пространством 3D-фундаментальной модели (например, VGGT). Затем мы оптимизируем весь процесс рассуждения исключительно на основе сигналов результата, тем самым улучшая лежащее в основе трехмерное ментальное моделирование. Многочисленные эксперименты на различных бенчмарках показывают, что 3DThinker стабильно превосходит сильные базовые модели и предлагает новый подход к объединению трехмерных представлений в мультимодальное рассуждение. Наш код будет доступен по адресу https://github.com/zhangquanchen/3DThinker.
Многоязычное водяное знакование (watermarking) направлено на обеспечение отслеживаемости выходных данных крупных языковых моделей (LLM) на разных языках, однако существующие методы пока не справляются с этой задачей. Несмотря на заявления о кросс-лингвистической устойчивости, они оцениваются только на языках с большим объемом ресурсов. Мы демонстрируем, что существующие методы многоязычного водяного знакования не являются по-настоящему многоязычными: они теряют устойчивость при атаках с переводом на языки со средним и низким объемом ресурсов. Мы связываем эту проблему с семантической кластеризацией, которая терпит неудачу, когда словарь токенизатора содержит слишком мало полноценных слов для данного языка. Для решения этой проблемы мы представляем STEAM — метод обнаружения, основанный на обратном переводе, который восстанавливает силу водяного знака, утраченную при переводе. STEAM совместим с любыми методами водяного знакования, устойчив к различным токенизаторам и языкам, неинвазивен и легко расширяем на новые языки. С улучшением в среднем на +0,19 AUC и +40% TPR@1% на 17 языках, STEAM предлагает простой и надежный путь к более справедливому водяному знакованию для разнообразных языков.
Недавнее развитие мультимодальных больших языковых моделей (MLLM) значительно продвинуло способности ИИ в понимании визуальных модальностей. Однако существующие оценочные тесты ограничиваются одношаговыми вопросами и ответами, упуская из виду сложность многошаговых диалогов в реальных сценариях. Чтобы устранить этот пробел, мы представляем MT-Video-Bench — комплексный тест для оценки понимания видео в многошаговых диалогах. В частности, наш MT-Video-Bench в основном оценивает шесть ключевых компетенций, сосредоточенных на восприятии и интерактивности, охватывая 987 тщательно отобранных многошаговых диалогов из различных областей. Эти способности строго соответствуют реальным приложениям, таким как интерактивный анализ спортивных событий и многошаговое интеллектуальное обучение на основе видео. С помощью MT-Video-Bench мы всесторонне оцениваем различные передовые открытые и закрытые MLLM, выявляя значительные различия в их производительности и ограничения в обработке многошаговых видео-диалогов. Тест будет общедоступен для стимулирования будущих исследований.
Последние достижения в области генерации видео сделали возможным создание визуально привлекательных видеороликов с широким спектром применений в создании контента, развлечениях и виртуальной реальности. Однако большинство существующих моделей генерации видео на основе диффузионных трансформеров ограничены низким разрешением выходных данных (<=720P) из-за квадратичной вычислительной сложности механизма внимания относительно ширины и высоты выходного изображения. Этот вычислительный барьер делает нативную генерацию видео высокого разрешения (1080P/2K/4K) непрактичной как для обучения, так и для вывода. Для решения этой проблемы мы представляем UltraGen, новую структуру генерации видео, которая позволяет i) эффективно и ii) сквозным образом синтезировать видео высокого разрешения. В частности, UltraGen использует иерархическую архитектуру с двумя ветвями внимания, основанную на декомпозиции глобального и локального внимания, что разделяет полное внимание на локальную ветвь для высококачественного регионального контента и глобальную ветвь для обеспечения общей семантической согласованности. Мы также предлагаем стратегию пространственно сжатого глобального моделирования для эффективного изучения глобальных зависимостей и иерархический механизм локального внимания между окнами для снижения вычислительных затрат при улучшении потока информации между различными локальными окнами. Многочисленные эксперименты демонстрируют, что UltraGen впервые эффективно масштабирует предварительно обученные модели видео низкого разрешения до 1080P и даже 4K, превосходя существующие передовые методы и двухэтапные подходы на основе повышения разрешения как в качественных, так и в количественных оценках.
Качество данных играет ключевую роль в улучшении контролируемой тонкой настройки (SFT) для крупных языковых моделей (LLM), и выбор данных на уровне токенов стал перспективным направлением благодаря своей детализированной природе. Несмотря на их высокую эмпирическую эффективность, существующие методы выбора на уровне токенов имеют два ключевых ограничения: (1) необходимость обучения или доступа к дополнительной референсной модели и (2) зависимость исключительно от информации о потерях для выбора токенов, что не позволяет сохранять семантически важные токены, которые не учитываются метриками, основанными на потерях. Для решения этих проблем мы предлагаем ssToken — подход к выбору токенов, основанный на самомодуляции и семантической осведомленности. ssToken использует легко доступные исторические модели для вычисления разницы в потерях на уровне токенов с текущей моделью, что служит самомодулируемым сигналом, позволяющим модели адаптивно выбирать токены в процессе оптимизации, вместо того чтобы полагаться на избыточные потери от оффлайн-обученной референсной модели, как в предыдущих работах. Мы также вводим семантически осведомленную метрику оценки важности токенов, основанную на механизме внимания, которая ортогональна выбору на основе потерь и предоставляет дополнительную семантическую информацию для более эффективной фильтрации. Многочисленные эксперименты на различных семействах моделей и масштабах демонстрируют, что как самомодулируемый выбор, так и семантически осведомленный выбор по отдельности превосходят тонкую настройку на полных данных, а их интеграция — ssToken — достигает синергетического эффекта и превосходит предыдущие методы выбора на уровне токенов, обеспечивая улучшение производительности при сохранении эффективности обучения.
Оригинальный текстовый кодировщик CLIP ограничен максимальной длиной входных данных в 77 токенов, что затрудняет его способность эффективно обрабатывать длинные тексты и выполнять детальное семантическое понимание. Кроме того, текстовый кодировщик CLIP не поддерживает многоязычные входные данные. Все эти ограничения значительно сужают его применимость для более широкого круга задач. Недавние исследования предприняли попытки заменить текстовый кодировщик CLIP на эмбеддер, основанный на LLM (языковых моделях большого масштаба), чтобы улучшить его способность обрабатывать длинные тексты, понимать многоязычные данные и выполнять детальное семантическое понимание. Однако, поскольку пространства представлений LLM и пространство визуально-языковой модели CLIP предварительно обучаются независимо без априорного выравнивания, прямое выравнивание с использованием контрастивного обучения может нарушить внутреннее визуально-языковое выравнивание в кодировщике изображений CLIP, что приводит к недостаточному использованию знаний, полученных в ходе предварительного обучения. Для решения этой проблемы мы предлагаем ProCLIP, прогрессивную структуру выравнивания визуально-языковой модели, основанную на обучении по учебному плану, чтобы эффективно выровнять кодировщик изображений CLIP с эмбеддером на основе LLM. В частности, ProCLIP сначала извлекает знания из текстового кодировщика CLIP в эмбеддер на основе LLM, чтобы использовать богатые предварительно обученные знания CLIP, одновременно устанавливая начальное выравнивание между эмбеддером LLM и кодировщиком изображений CLIP. Затем ProCLIP дополнительно выравнивает кодировщик изображений CLIP с эмбеддером на основе LLM через настройку контрастивного обучения на основе изображений и текстов, используя регуляризацию самообучения, чтобы избежать переобучения. Для достижения более эффективного выравнивания во время наследования представлений и контрастивной настройки применяются потери выравнивания семантики экземпляров и потери выравнивания структуры эмбеддингов. Код доступен по адресу https://github.com/VisionXLab/ProCLIP.
В последние годы крупномасштабные генеративные модели для визуального контента (например, изображений, видео и 3D-объектов/сцен) достигли значительного прогресса. Однако обучение крупномасштабных моделей генерации видео остается особенно сложной и ресурсоемкой задачей из-за необходимости кросс-модального согласования текста и видео, длинных последовательностей и сложных пространственно-временных зависимостей. Для решения этих проблем мы представляем фреймворк обучения, который оптимизирует четыре ключевых аспекта: (i) обработку данных, (ii) архитектуру модели, (iii) стратегию обучения и (iv) инфраструктуру для крупномасштабных моделей генерации видео. Эти оптимизации привели к значительному повышению эффективности и улучшению производительности на всех этапах, включая предварительную обработку данных, сжатие видео, масштабирование параметров, предварительное обучение на основе учебного плана и пост-обучение с акцентом на согласование. Наша итоговая модель, MUG-V 10B, соответствует последним передовым генераторам видео в целом и превосходит ведущие открытые базовые модели в задачах генерации видео для электронной коммерции по оценкам людей. Что еще важнее, мы открываем исходный код всего стека, включая веса модели, код для крупномасштабного обучения на основе Megatron-Core и конвейеры для генерации и улучшения видео. Насколько нам известно, это первый публичный релиз кода для обучения крупномасштабных моделей генерации видео, который использует Megatron-Core для достижения высокой эффективности обучения и почти линейного масштабирования на нескольких узлах. Подробности доступны на нашей странице: https://github.com/Shopee-MUG/MUG-V.
Осмысление динамических пространственных отношений крайне важно, поскольку как наблюдатели, так и объекты часто движутся одновременно. Хотя модели, объединяющие зрение и язык (VLMs), и модели визуальной экспертизы преуспевают в 2D-задачах и статических сценариях, их способность полностью понимать динамические 3D-сценарии остается ограниченной. Мы представляем концепцию Динамического Пространственного Интеллекта и предлагаем DSI-Bench — эталонный набор, включающий почти 1000 динамических видео и более 1700 вручную аннотированных вопросов, охватывающих девять разделенных паттернов движения наблюдателей и объектов. Пространственно-временные симметричные конструкции снижают предвзятость и позволяют систематически оценивать способность моделей анализировать собственное движение и движение объектов. Наша оценка 14 VLMs и экспертных моделей выявила ключевые ограничения: модели часто путают движение наблюдателя и объекта, демонстрируют семантические предубеждения и не могут точно выводить относительные отношения в динамических сценариях. Наш DSI-Bench предоставляет ценные выводы и идеи для будущего развития универсальных и экспертных моделей с динамическим пространственным интеллектом.
Хотя агенты на основе больших языковых моделей (LLM) демонстрируют перспективы в автоматизированной торговле, они всё ещё сталкиваются с серьёзными ограничениями. Известные мультиагентные фреймворки часто страдают от неэффективности, генерируют противоречивые сигналы и не обладают сквозной оптимизацией, необходимой для обучения согласованной стратегии на основе рыночной обратной связи. Для решения этих проблем мы представляем AlphaQuanter — одноагентный фреймворк, использующий обучение с подкреплением (RL) для изучения динамической политики в рамках прозрачного, инструментально-расширенного процесса принятия решений. Это позволяет одному агенту автономно управлять инструментами и активно получать информацию по запросу, создавая прозрачный и поддающийся аудиту процесс рассуждений. Многочисленные эксперименты показывают, что AlphaQuanter достигает передовых показателей по ключевым финансовым метрикам. Более того, его интерпретируемые рассуждения раскрывают сложные стратегии, предлагая новые и ценные инсайты для трейдеров. Наш код для сбора данных и обучения агента доступен по адресу: https://github.com/AlphaQuanter/AlphaQuanter.
В данной работе мы показываем, что возможно извлечь значительные объемы данных для обучения выравнивания из пост-обученной модели — эти данные полезны для управления моделью с целью улучшения определенных способностей, таких как рассуждение в длинных контекстах, безопасность, следование инструкциям и математические навыки. В то время как большинство связанных исследований по запоминанию данных сосредоточено на измерении успеха извлечения обучающих данных через сопоставление строк, мы утверждаем, что модели эмбеддингов лучше подходят для наших конкретных целей. Расстояния, измеренные с помощью качественной модели эмбеддингов, могут выявить семантические сходства между строками, которые другие метрики, такие как расстояние редактирования, не смогут уловить. Фактически, в нашем исследовании приближенное сопоставление строк значительно недооценило бы (по консервативной оценке, в 10 раз) объем данных, которые можно извлечь, из-за тривиальных артефактов, снижающих эту метрику. Интересно, что мы обнаружили, что модели легко воспроизводят обучающие данные, использованные на этапах пост-обучения, таких как SFT или RL. Мы показываем, что эти данные можно затем использовать для обучения базовой модели, восстанавливая значительную часть исходной производительности. Мы считаем, что наша работа выявляет потенциально упущенный риск, связанный с извлечением данных для выравнивания. Наконец, наша работа открывает интересную дискуссию о последствиях практик дистилляции: поскольку модели, по-видимому, воспроизводят аспекты своего обучающего набора, дистилляцию можно рассматривать как косвенное обучение на исходном наборе данных модели.
Видео-рассуждение с использованием крупных мультимодальных моделей (LMM) опирается на дорогостоящее обучение с подкреплением (RL) и многословные цепочки рассуждений, что приводит к значительным вычислительным затратам как на этапе обучения, так и на этапе вывода. Более того, механизмы, управляющие процессом мышления в этих моделях рассуждений, весьма ограничены. В данной работе, используя энтропию выхода модели в качестве сигнала, мы обнаруживаем, что высококачественные модели проходят через серию микро-исследований и микро-эксплуатаций, которые удерживают процесс рассуждения на земле (т.е. избегают избыточной случайности, пока модель исследует или обдумывает ответ). Мы также наблюдаем, что как только этот процесс "мышления" завершается, более точные модели демонстрируют лучшее сходимость, значительно снижая энтропию на этапе финальной эксплуатации (т.е. более уверенно сходятся к траектории решения). Затем мы используем эти новые, теоретически обоснованные инсайты для настройки поведения модели непосредственно на этапе вывода, без использования RL или обучения с учителем. В частности, во время вывода наш предложенный подход, называемый V-Reason (Video-Reason), адаптирует кэш значений LMM с помощью нескольких шагов оптимизации на небольшом обучаемом контроллере, используя энтропийный целевой показатель, т.е. без необходимости в данных для обучения или RL. Эта настройка улучшает поведение модели в отношении микро-исследований и эксплуатации во время вывода. Наши эксперименты показывают, что предложенный метод достигает значительных улучшений по сравнению с базовыми моделями, настроенными на инструкции, на нескольких наборах данных для видео-рассуждений, сокращая разрыв с моделями, обученными с RL, до 0.6% средней точности без какого-либо обучения, при этом предлагая значительные преимущества в эффективности: количество выходных токенов сокращается на 58.6% по сравнению с RL-моделью.
Медицинские диагностические приложения требуют моделей, способных обрабатывать мультимодальные медицинские данные (изображения, истории болезней, результаты лабораторных анализов) и генерировать разнообразные выходные данные, включая как текстовые отчеты, так и визуальный контент (аннотации, маски сегментации и изображения). Несмотря на эту потребность, существующие медицинские системы ИИ нарушают этот единый процесс: модели для понимания медицинских изображений интерпретируют изображения, но не могут генерировать визуальные выходные данные, в то время как модели для генерации медицинских изображений синтезируют изображения, но не могут предоставлять текстовые объяснения. Это приводит к пробелам в представлении данных, интеграции признаков и мультимодальных возможностях на уровне задач. В связи с этим мы предлагаем многоуровневую структуру, вдохновленную диагностическими процессами через парадигму Наблюдение-Знание-Анализ (OKA). Конкретно, на уровне наблюдения мы создаем UniMed-5M — набор данных, содержащий более 5,6 миллионов образцов, которые преобразуют разнообразные унимодальные данные в мультимодальные пары для базового наблюдения. На уровне знаний мы предлагаем Прогрессивное обучение по учебному плану, которое систематически вводит мультимодальные медицинские знания. На уровне анализа мы представляем UniMedVL — первую медицинскую унифицированную мультимодальную модель для одновременного анализа задач понимания и генерации изображений в рамках единой архитектуры. UniMedVL демонстрирует превосходную производительность на пяти эталонных тестах для понимания медицинских изображений, одновременно соответствуя специализированным моделям по качеству генерации в восьми модальностях медицинской визуализации. Важно, что наша унифицированная архитектура обеспечивает двусторонний обмен знаниями: задачи генерации улучшают признаки визуального понимания, демонстрируя, что интеграция традиционно разделенных возможностей в рамках единой медицинской структуры открывает возможности для улучшений в разнообразных задачах медицинского анализа изображений и текста. Код доступен по адресу https://github.com/uni-medical/UniMedVL.
Мы представляем Mono4DGS-HDR — первую систему для восстановления визуализируемых 4D-сцен с высоким динамическим диапазоном (HDR) из неориентированных монохромных видео с низким динамическим диапазоном (LDR), снятых с чередующейся экспозицией. Для решения этой сложной задачи мы предлагаем унифицированную структуру с двухэтапным подходом оптимизации, основанным на методе Gaussian Splatting. На первом этапе изучается HDR-представление видео в виде гауссовых функций в ортогональной системе координат камеры, что устраняет необходимость в данных о положении камеры и обеспечивает надежное начальное восстановление HDR-видео. На втором этапе гауссовы функции видео преобразуются в мировое пространство, и совместно уточняются мировые гауссовы функции вместе с параметрами камеры. Кроме того, мы предлагаем стратегию временной регуляризации яркости для улучшения временной согласованности HDR-визуализации. Поскольку данная задача ранее не изучалась, мы создаем новый эталонный набор для оценки, используя общедоступные наборы данных для восстановления HDR-видео. Многочисленные эксперименты показывают, что Mono4DGS-HDR значительно превосходит альтернативные решения, адаптированные из современных методов, как по качеству визуализации, так и по скорости.
Крупные языковые модели (LLM) являются мощными инструментами для рассуждений на естественном языке, но их действия обычно ограничиваются генерацией токенов словаря. В результате взаимодействия с внешними средами — такими как символические операторы или симуляторы — должны выражаться через текст в заранее заданных форматах, анализироваться и направляться на внешние интерфейсы. Это перегружает язык модели как задачами рассуждения, так и управления, а также требует создания внешнего по отношению к LLM ручного парсера. Чтобы решить эту проблему, мы разделяем взаимодействия со средой и язык, инкапсулируя их в Расширенное Пространство Действий (ExpA), выходящее за пределы словаря. Модель начинает рассуждения в стандартной языковой среде, но может в любой момент инициировать действия маршрутизации и переключиться на внешнюю среду. Оттуда модель может вызывать только специфичные для среды действия, получать обратную связь от среды и, возможно, возвращаться обратно к языку в результате. Для эффективного исследования расширенного пространства действий и новых сред мы вводим Обучение с Подкреплением в Расширенном Пространстве Действий (EARL) с оптимизацией политики на основе контрфактических сценариев. В задачах, требующих многошаговых взаимодействий и условного планирования, EARL превосходит сильные базовые подходы с действиями, ограниченными словарём. Модель демонстрирует устойчивую производительность в многозадачном обучении на основе калькулятора, а в частично наблюдаемой задаче сортировки достигает 100% точности в Sort-4, самостоятельно находя эффективный алгоритм, конкурентоспособный с классическими решениями.
Кодовые агенты все чаще доверяют автономное исправление ошибок на платформах, таких как GitHub, однако их оценка безопасности сосредоточена почти исключительно на функциональной корректности. В данной статье мы раскрываем новый тип угрозы для реальных кодовых агентов: функционально корректные, но уязвимые (FCV) патчи, которые проходят все тестовые случаи, но содержат уязвимый код. С помощью предложенной нами FCV-атаки, которая может быть намеренно создана злоумышленниками или непреднамеренно внедрена добросовестными разработчиками, мы показываем, что современные LLM (например, ChatGPT и Claude) и фреймворки для агентов (например, SWE-agent и OpenHands) уязвимы к этой FCV-угрозе; для 12 комбинаций агентов и моделей на SWE-Bench атака требует только черного ящика и одного запроса к кодовому агенту для выполнения. Например, для уязвимости CWE-538 (утечка информации) FCV-атака достигает успеха в 40,7% случаев для GPT-5 Mini + OpenHands. Наши результаты выявляют важную угрозу безопасности, упущенную текущими парадигмами оценки, и подчеркивают необходимость разработки защитных механизмов, учитывающих безопасность, для кодовых агентов.
Крупные мультимодальные модели (LMMs) всё чаще применяются в научных исследованиях, однако остаётся неясным, способны ли они надёжно понимать и рассуждать над мультимодальной сложностью научных статей. Основная проблема заключается в обнаружении и устранении несоответствий между текстом, графиками, таблицами и уравнениями — проблем, которые часто являются тонкими, специфичными для предметной области и в конечном итоге подрывают ясность, воспроизводимость и доверие. Существующие бенчмарки игнорируют эту проблему, либо изолируя отдельные модальности, либо полагаясь на синтетические ошибки, которые не отражают реальную сложность. Мы представляем PRISMM-Bench (Peer-Review-sourced Inconsistency Set for Multimodal Models) — первый бенчмарк, основанный на реальных несоответствиях, отмеченных рецензентами в научных статьях. С помощью многоэтапного процесса, включающего анализ рецензий, фильтрацию с использованием LLM и проверку людьми, мы собрали 262 несоответствия из 242 статей. На основе этого набора мы разработали три задачи: идентификация несоответствий, их устранение и сопоставление пар, которые оценивают способность модели обнаруживать, исправлять и рассуждать над несоответствиями между различными модальностями. Кроме того, чтобы решить известную проблему "выборных" упрощений в оценке с множественным выбором, где модели используют шаблоны ответов, не понимая сути вопроса, мы вводим структурированные JSON-представления ответов, которые минимизируют лингвистические предубеждения, снижая зависимость от поверхностных стилистических подсказок. Мы протестировали 21 ведущую LMM, включая крупные модели с открытыми весами (GLM-4.5V 106B, InternVL3 78B) и проприетарные модели (Gemini 2.5 Pro, GPT-5 с высокой способностью к рассуждению). Результаты показывают крайне низкую производительность (26,1–54,2%), подчеркивая сложность мультимодального научного рассуждения и стимулируя прогресс в создании надёжных научных ассистентов.
Основой воспроизводимой науки являются протоколы, которые точны, логически упорядочены и выполнимы. Автономная генерация таких протоколов с помощью запросов на естественном языке может значительно повысить эффективность процесса воспроизведения. Однако современные ведущие крупные языковые модели (LLM) часто генерируют неполные или противоречивые протоколы, что ограничивает их полезность. Чтобы устранить этот недостаток, мы сначала представляем SciRecipe — масштабный набор данных, содержащий более 12 тысяч структурированных протоколов, охватывающих 27 биологических подразделов и включающих как задачи на понимание, так и на решение проблем. Для дальнейшего улучшения генерации протоколов мы предлагаем парадигму "Эскиз-и-Заполнение", которая разделяет анализ, структурирование и выражение, чтобы каждый шаг был явным и проверяемым. Дополняя это, структурированный компонентный механизм вознаграждения оценивает детализацию шагов, порядок действий и семантическую точность, согласовывая оптимизацию модели с надежностью эксперимента. На основе этих компонентов мы разрабатываем Thoth, обученный через поэтапный процесс "Знание-в-Действие", который переходит от приобретения знаний к операционному рассуждению и, в конечном итоге, к генерации надежных и выполнимых протоколов. На множестве тестов Thoth последовательно превосходит как проприетарные, так и открытые LLM, демонстрируя значительные улучшения в согласованности шагов, логической последовательности и семантической точности. Наш подход прокладывает путь к созданию надежных научных ассистентов, которые связывают знания с экспериментальным исполнением. Все данные, код и модели будут опубликованы в открытом доступе.
Качество изображений является критически важным фактором для предоставления визуально привлекательного контента на веб-платформах. Однако изображения часто подвергаются ухудшению из-за потерь, вызванных операциями сжатия, применяемыми онлайн-социальными сетями (OSN), что негативно сказывается на пользовательском опыте. Восстановление изображений — это процесс восстановления чистого высококачественного изображения из заданного ухудшенного входного сигнала. В последнее время многофункциональные (все-в-одном) модели восстановления изображений привлекли значительное внимание благодаря своей способности одновременно справляться с различными типами ухудшений изображений. Однако такие модели часто обладают чрезмерно большим количеством обучаемых параметров, что делает их вычислительно неэффективными. В данной статье мы предлагаем стратегию сжатия многофункциональных моделей восстановления изображений. Наша цель — обнаружить высокоразреженные подсети в перепараметризованных глубоких моделях, которые могут соответствовать или даже превосходить производительность их плотных аналогов. Предлагаемая модель, названная MIR-L, использует итеративную стратегию обрезки, которая удаляет веса с низкими значениями в несколько этапов, одновременно сбрасывая оставшиеся веса к их исходной инициализации. Этот итеративный процесс важен для оптимизации многофункциональной модели восстановления изображений, эффективно выявляя "выигрышные билеты", которые сохраняют или превосходят современные показатели производительности при высоких уровнях разреженности. Экспериментальная оценка на эталонных наборах данных для задач удаления дождя, тумана и шума показывает, что MIR-L сохраняет только 10% обучаемых параметров, при этом поддерживая высокую производительность восстановления изображений. Наш код, наборы данных и предобученные модели доступны по адресу https://github.com/Thomkat/MIR-L.
Ключевой проблемой в выводе больших языковых моделей является компромисс между скоростью генерации и качеством выходных данных. Авторегрессионные модели создают текст высокого качества, но генерируют токены последовательно. Диффузионные модели могут генерировать токены параллельно, но часто требуют множества итераций для достижения сопоставимого качества. Мы предлагаем метод "планируемой диффузии" — гибридный подход, сочетающий преимущества обеих парадигм. Планируемая диффузия работает в два этапа: сначала модель создает краткий авторегрессионный план, разбивающий выходные данные на меньшие независимые отрезки. Затем модель генерирует эти отрезки одновременно с использованием диффузии. Этот подход расширяет границу Парето между скоростью и качеством и предлагает практический путь к более быстрой генерации текста высокого качества. На наборе AlpacaEval, состоящем из 805 инструкций, планируемая диффузия достигает Парето-оптимального компромисса между качеством и задержкой, обеспечивая ускорение в 1.27x–1.81x по сравнению с авторегрессионной генерацией при снижении показателя успешности всего на 0.87\%–5.4\%. Наш анализ чувствительности показывает, что механизм планирования в планируемой диффузии минимален и надежен, а простые настройки во время выполнения позволяют гибко управлять компромиссом между качеством и задержкой.
Крупные языковые модели (LLMs) демонстрируют сильное, но поверхностное согласование: они напрямую отказываются от вредоносных запросов, когда отказ ожидается в самом начале ответа ассистента, однако эта защита рушится, как только начинается вредоносное продолжение (либо через атаки со стороны злоумышленников, либо через атаки с предзаполнением ассистента). Это поднимает фундаментальный вопрос: Можно ли раскрыть врожденное поверхностное согласование в LLMs, чтобы обеспечить безопасность на любой глубине генерации? Для достижения этой цели мы предлагаем Any-Depth Alignment (ADA) — эффективную защиту на этапе вывода с минимальными накладными расходами. ADA основана на нашем наблюдении, что согласование сосредоточено в токенах заголовка ассистента благодаря их многократному использованию в обучении на поверхностные отказы, и эти токены обладают сильными априорными знаниями модели о согласовании. Путем повторного введения этих токенов в середине процесса генерации ADA побуждает модель переоценивать вредоносность и восстанавливать отказы на любом этапе генерации. На различных семействах открытых моделей (Llama, Gemma, Mistral, Qwen, DeepSeek и gpt-oss) ADA демонстрирует устойчивую производительность в обеспечении безопасности, не требуя изменений параметров базовой модели. Она обеспечивает почти 100% уровень отказов против сложных атак с предзаполнением, варьирующихся от десятков до тысяч токенов. Кроме того, ADA снижает средний уровень успешности известных атак с вредоносными запросами (таких как GCG, AutoDAN, PAIR и TAP) до менее 3%. Все это достигается при сохранении полезности на доброкачественных задачах с минимальным уровнем избыточных отказов. ADA сохраняет эту устойчивость даже после того, как базовая модель проходит последующую тонкую настройку (доброкачественную или вредоносную).
Крупные языковые модели, настроенные на выполнение инструкций (IT-LLMs), демонстрируют мощное нулевое обучение, однако их способность выполнять простые, самодостаточные инструкции остается недостаточно изученной, несмотря на то, что это является основой для выполнения сложных задач. Мы оцениваем 20 IT-LLMs на модифицированных бенчмарках MMLU и MMLU-Pro, систематически изменяя формат меток вариантов (буквенный, числовой, римский) при сохранении их смысла в рамках четырех парадигм: (1) При наличии явных инструкций изменения меток вызывают значительные сдвиги в производительности (например, -30,45% для римских меток по сравнению с числовыми), что выявляет предвзятость к формату инструкций. (2) Без инструкций производительность снижается еще больше (до -10,84%), а чувствительность к меткам усиливается, подчеркивая роль явного руководства. (3) При удалении содержимого вариантов модели не справляются с базовыми уровнями случайного выбора, за исключением числовых меток, что указывает на слабое следование атомарным директивам. (4) Трехшаговые примеры не дают значительного улучшения устойчивости или точности, а анализ генерации показывает устойчивые ошибки в метках, особенно для нечисловых форматов. Независимо от размера моделей, более крупные LLM достигают более высокой точности, но остаются непоследовательными в следовании инструкциям. Эти результаты выявляют недостатки текущих парадигм настройки на выполнение инструкций и подчеркивают необходимость методов оценки и стратегий обучения, которые явно нацелены на атомарное следование инструкциям.
Что, если искусственные агенты могли бы не только общаться, но также эволюционировать, адаптироваться и преобразовывать свои миры способами, которые мы не можем полностью предсказать? С появлением llm, питающих многоагентные системы и социальные симуляции, мы наблюдаем новые возможности для моделирования открытых, постоянно изменяющихся сред. Однако большинство современных симуляций остаются ограниченными статичными "песочницами", характеризующимися предопределенными задачами, ограниченной динамикой и жесткими критериями оценки. Эти ограничения не позволяют им охватить сложность реальных обществ. В этой статье мы утверждаем, что статические, узкоспециализированные бенчмарки принципиально неадекватны и должны быть переосмыслены. Мы критически рассматриваем появляющиеся архитектуры, сочетающие llm с многоагентной динамикой, выделяем ключевые препятствия, такие как баланс между стабильностью и разнообразием, оценка неожиданного поведения и масштабирование до большей сложности, а также представляем новую таксономию для этой быстро развивающейся области. Наконец, мы предлагаем исследовательскую дорожную карту, сосредоточенную на открытости, непрерывной коэволюции и создании устойчивых, социально ориентированных экосистем ИИ. Мы призываем сообщество выйти за рамки статических парадигм и помочь сформировать следующее поколение адаптивных, социально осознанных многоагентных симуляций.
Мы исследуем краткосрочное прогнозирование еженедельного количества террористических инцидентов с использованием Глобальной базы данных о терроризме (GTD, 1970–2016). Мы создаем воспроизводимый конвейер с фиксированными временными разбиениями и сравниваем двунаправленную LSTM (BiLSTM) с сильными классическими методами (сезонное наивное прогнозирование, линейная регрессия/ARIMA) и базовой моделью LSTM с механизмом внимания. На тестовом наборе данных BiLSTM достигает RMSE 6.38, превосходя LSTM с вниманием (9.19; +30.6%) и базовую линейную регрессию с лагами (+35.4% улучшение RMSE), с параллельным улучшением MAE и MAPE. Анализ с варьированием временной памяти, длины истории обучения, пространственного масштаба, размера окна ретроспективы и групп признаков показывает, что модели, обученные на длинных исторических данных, обобщают лучше всего; умеренное окно ретроспективы (20–30 недель) обеспечивает сильный контекст; а двунаправленное кодирование критически важно для захвата как нарастающих, так и последующих паттернов в рамках окна. Анализ групп признаков указывает на то, что краткосрочная структура (лаговые значения и скользящие статистики) вносит наибольший вклад, а географические признаки и данные о жертвах добавляют дополнительный эффект. Мы публикуем код, конфигурации и компактные таблицы результатов, а также предоставляем документ с заявлением о данных и этике, описывающий лицензирование GTD и использование исключительно в исследовательских целях. В целом, исследование предлагает прозрачный и превосходящий базовые методы подход для прогнозирования инцидентов в GTD.
Надежные и проверяемые данные стали ключевым фактором повышения возможностей современных языковых моделей, обеспечивая стабильное обучение с подкреплением с проверяемыми вознаграждениями и эффективную дистилляцию, которая переносит компетенции в области математики, программирования и агентных задач. Однако создание обобщаемых синтетических проверяемых данных остается сложной задачей из-за склонности к генерации галлюцинаций и слабых или тривиальных артефактов проверки, которые не позволяют отделить сильные решения от слабых. Существующие подходы часто полагаются на специфические для задачи эвристики или постобработку, которые не переносятся между доменами и не имеют принципиального, универсального механизма оценки проверяемости. В данной работе мы представляем эволюционный, независимый от задач, стратегически направленный и исполняемо проверяемый фреймворк синтеза данных, который, начиная с минимального начального контроля, совместно синтезирует задачи, разнообразные кандидаты на решения и артефакты проверки, а также итеративно обнаруживает стратегии с помощью основанного на согласованности оценщика, который обеспечивает соответствие между аннотациями человека и проверками, индуцированными стратегиями. Этот процесс превращает фильтрацию в принципиальный синтез: он надежно собирает согласованные, проверяемые обучающие примеры и обобщает без использования специфических для домена правил. Наши эксперименты демонстрируют эффективность предложенного подхода как в рамках обучения с подкреплением с проверяемыми вознаграждениями (RLVR), так и в парадигмах дистилляции моделей. Результаты показывают, что обучение на наших синтезированных данных приводит к значительным улучшениям в задачах LiveCodeBench и AgentBench-OS, подчеркивая устойчивую обобщаемость нашего фреймворка.
Модели языка с инструментальным расширением (LLMs) становятся глубокими исследовательскими агентами — системами, которые декомпозируют сложные запросы, извлекают внешние данные и синтезируют обоснованные ответы. Однако современные агенты остаются ограниченными поверхностным поиском, слабыми метриками согласованности и хрупким использованием инструментов. Мы представляем PokeeResearch-7B, 7B-параметрического глубокого исследовательского агента, разработанного в рамках единой системы обучения с подкреплением для обеспечения устойчивости, согласованности и масштабируемости. PokeeResearch-7B обучается с использованием аннотационно-свободного подхода Reinforcement Learning from AI Feedback (RLAIF), оптимизируя политики на основе сигналов вознаграждения от LLM, которые учитывают фактическую точность, верность цитирования и соблюдение инструкций. Многошаговый каркас рассуждений, основанный на цепочке мыслей, дополнительно повышает устойчивость за счет самопроверки и адаптивного восстановления после сбоев инструментов. Среди 10 популярных бенчмарков для глубоких исследований PokeeResearch-7B демонстрирует наилучшие результаты среди агентов с масштабом 7B. Это подчеркивает, что тщательно продуманное обучение с подкреплением и проектирование рассуждений могут создавать эффективные, устойчивые и исследовательские ИИ-агенты. Модель и код для вывода доступны под лицензией MIT по адресу https://github.com/Pokee-AI/PokeeResearchOSS.