Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупномасштабное обучение с подкреплением с верифицируемыми наградами (RLVR) продемонстрировало свою эффективность в раскрытии потенциала больших языковых моделей (LLM) для задач одношагового рассуждения. В реалистичных сценариях рассуждений LLM часто могут использовать внешние инструменты для помощи в решении задач. Однако современные алгоритмы обучения с подкреплением недостаточно эффективно балансируют внутренние способности моделей к долгосрочному рассуждению и их умение взаимодействовать с инструментами в многошаговых процессах. Чтобы устранить этот разрыв, мы предлагаем Agentic Reinforced Policy Optimization (ARPO) — новый агентный алгоритм обучения с подкреплением, разработанный для обучения многошаговых агентов на основе LLM. В ходе предварительных экспериментов мы наблюдаем, что LLM склонны демонстрировать высоко неопределенное поведение, характеризующееся увеличением энтропии распределения генерируемых токенов сразу после взаимодействия с внешними инструментами. Вдохновленные этим наблюдением, ARPO включает механизм адаптивного развертывания на основе энтропии, динамически балансируя глобальную выборку траекторий и пошаговую выборку, тем самым способствуя исследованию на шагах с высокой неопределенностью после использования инструментов. Благодаря интеграции оценки атрибуции преимуществ, ARPO позволяет LLM усваивать различия в преимуществах в пошаговых взаимодействиях с инструментами. Наши эксперименты на 13 сложных бенчмарках в областях вычислительного рассуждения, рассуждения на основе знаний и глубокого поиска демонстрируют превосходство ARPO над алгоритмами обучения с подкреплением на уровне траекторий. Примечательно, что ARPO достигает улучшенной производительности, используя лишь половину бюджета на использование инструментов, требуемого существующими методами, предлагая масштабируемое решение для согласования агентов на основе LLM с динамическими средами в реальном времени. Наш код и наборы данных доступны по адресу https://github.com/dongguanting/ARPO.
Крупные языковые модели (LLM) продемонстрировали значительные возможности, но остаются принципиально статичными, неспособными адаптировать свои внутренние параметры к новым задачам, развивающимся областям знаний или динамическим контекстам взаимодействия. По мере того как LLM всё чаще применяются в открытых, интерактивных средах, эта статичность становится критическим ограничением, что требует создания агентов, способных адаптивно рассуждать, действовать и эволюционировать в реальном времени. Этот сдвиг парадигмы — от масштабирования статических моделей к разработке самоэволюционирующих агентов — вызвал растущий интерес к архитектурам и методам, обеспечивающим непрерывное обучение и адаптацию на основе данных, взаимодействий и опыта. Данный обзор представляет первое систематическое и всестороннее исследование самоэволюционирующих агентов, организованное вокруг трёх ключевых аспектов: что эволюционировать, когда эволюционировать и как эволюционировать. Мы рассматриваем механизмы эволюции в компонентах агентов (например, модели, память, инструменты, архитектура), классифицируем методы адаптации по этапам (например, внутри тестового времени, между тестовыми временами) и анализируем алгоритмические и архитектурные решения, направляющие эволюционную адаптацию (например, скалярные награды, текстовые обратные связи, одноагентные и многоагентные системы). Кроме того, мы анализируем метрики оценки и бенчмарки, разработанные специально для самоэволюционирующих агентов, выделяем приложения в таких областях, как программирование, образование и здравоохранение, а также определяем ключевые вызовы и направления исследований в области безопасности, масштабируемости и коэволюционной динамики. Предлагая структурированную основу для понимания и проектирования самоэволюционирующих агентов, этот обзор устанавливает дорожную карту для развития адаптивных агентных систем как в исследованиях, так и в реальных внедрениях, в конечном итоге проливая свет на путь к реализации Искусственного Суперинтеллекта (ASI), где агенты эволюционируют автономно, демонстрируя уровень интеллекта наравне с человеческим или превосходя его в широком спектре задач.
Пользовательские короткие видеоролики, особенно те, которые распространяются на платформах, таких как WeChat Channel и TikTok, доминируют в мобильном интернете. Однако современные крупные мультимодальные модели не обладают необходимыми временно-структурированными, детальными и глубокими возможностями понимания видео, которые являются основой эффективного поиска и рекомендации видео, а также новых видеоприложений. Понимание реальных коротких видеороликов является сложной задачей из-за их сложных визуальных элементов, высокой информационной плотности как в визуальном, так и в аудио контенте, а также быстрого темпа, ориентированного на эмоциональное выражение и передачу точки зрения. Это требует продвинутого анализа для эффективного интегрирования мультимодальной информации, включая визуальные, аудио и текстовые данные. В данной работе мы представляем ARC-Hunyuan-Video, мультимодальную модель, которая обрабатывает визуальные, аудио и текстовые сигналы из исходных видеоданных сквозным образом для структурированного понимания. Модель способна к многоуровневому временному описанию и суммированию видео, открытому вопросно-ответному взаимодействию с видео, временному привязыванию видео и видеорассуждению. Используя высококачественные данные из автоматизированного конвейера аннотирования, наша компактная модель с 7 миллиардами параметров обучается через комплексный режим: предварительное обучение, тонкая настройка инструкций, холодный старт, обучение с подкреплением (RL) после обучения и финальная тонкая настройка инструкций. Количественные оценки на нашем новом бенчмарке ShortVid-Bench и качественные сравнения демонстрируют её высокую производительность в понимании реальных видеороликов, а также поддержку нулевого обучения или тонкой настройки с небольшим количеством образцов для разнообразных приложений. Реальное производственное внедрение нашей модели привело к ощутимым и измеримым улучшениям в вовлеченности и удовлетворенности пользователей, что подтверждается её выдающейся эффективностью: стресс-тесты показывают время вывода всего 10 секунд для одноминутного видео на GPU H20.
В то время как передовые большие языковые модели (LLM) продолжают расширять границы возможностей, их развертывание остается ограниченным облачной инфраструктурой, оснащенной GPU. Мы бросаем вызов этой парадигме с помощью SmallThinker — семейства LLM, изначально разработанных — а не адаптированных — для уникальных ограничений локальных устройств: слабой вычислительной мощности, ограниченной памяти и медленного хранилища. В отличие от традиционных подходов, которые в основном сжимают существующие модели, созданные для облаков, мы проектируем SmallThinker с нуля, чтобы он эффективно работал в рамках этих ограничений. Наша инновация заключается в архитектуре, учитывающей развертывание, которая превращает ограничения в принципы проектирования. Во-первых, мы представляем двухуровневую разреженную структуру, сочетающую мелкозернистую смесь экспертов (MoE) с разреженными полносвязными сетями, что значительно снижает вычислительные требования без ущерба для емкости модели. Во-вторых, чтобы преодолеть узкое место ввода-вывода медленного хранилища, мы разрабатываем предварительный маршрутизатор внимания, который позволяет нашему совместно спроектированному механизму вывода предварительно загружать параметры экспертов из хранилища во время вычисления внимания, эффективно скрывая задержку хранилища, которая в противном случае парализовала бы вывод на устройстве. В-третьих, для эффективного использования памяти мы применяем гибридный механизм разреженного внимания NoPE-RoPE, который значительно сокращает требования к кэшу ключей и значений. Мы выпускаем SmallThinker-4B-A0.6B и SmallThinker-21B-A3B, которые достигают наивысших показателей производительности и даже превосходят более крупные LLM. Примечательно, что наша совместно разработанная система практически устраняет необходимость в дорогостоящем оборудовании GPU: при квантовании Q4_0 обе модели превышают 20 токенов/с на обычных потребительских процессорах, потребляя при этом всего 1 ГБ и 8 ГБ памяти соответственно. SmallThinker доступен публично по адресам hf.co/PowerInfer/SmallThinker-4BA0.6B-Instruct и hf.co/PowerInfer/SmallThinker-21BA3B-Instruct.
Несмотря на перспективы многозадачного обучения (Multi-Task Learning, MTL) в использовании комплементарных знаний между задачами, существующие методы многозадачной оптимизации (Multi-Task Optimization, MTO) остаются сосредоточенными на разрешении конфликтов с помощью стратегий масштабирования потерь и манипуляции градиентами, ориентированных на оптимизатор, но не обеспечивают стабильного улучшения. В данной статье мы утверждаем, что общее пространство представлений, где естественным образом происходят взаимодействия между задачами, содержит богатую информацию и потенциал для операций, дополняющих существующие оптимизаторы, особенно для содействия комплементарности между задачами, что редко исследуется в MTO. Эта интуиция приводит к разработке Rep-MTL, который использует значимость задач на уровне представлений для количественной оценки взаимодействий между специфичной для задачи оптимизацией и обучением общих представлений. Направляя эти значимости через энтропийное штрафование и выравнивание между задачами на уровне выборок, Rep-MTL стремится смягчить негативный перенос, поддерживая эффективное обучение отдельных задач вместо чисто конфликтного разрешения, одновременно явно способствуя обмену комплементарной информацией. Эксперименты проведены на четырех сложных MTL-бенчмарках, охватывающих как сценарии сдвига задач, так и сдвига доменов. Результаты показывают, что Rep-MTL, даже в сочетании с базовой политикой равного взвешивания, достигает конкурентоспособных улучшений производительности с высокой эффективностью. Помимо стандартных метрик производительности, анализ экспоненты степенного закона демонстрирует эффективность Rep-MTL в балансировании специфичного для задачи обучения и межзадачного обмена. Страница проекта доступна по ссылке ЗДЕСЬ.
Реконструкция 4D пространственного интеллекта на основе визуальных наблюдений долгое время оставалась центральной, но сложной задачей в области компьютерного зрения, имеющей широкий спектр практических применений. Эти применения варьируются от развлекательных сфер, таких как кино, где основное внимание уделяется восстановлению базовых визуальных элементов, до воплощённого ИИ, который акцентирует внимание на моделировании взаимодействий и физической реалистичности. Благодаря быстрому прогрессу в области 3D-представлений и архитектур глубокого обучения, эта область развивается стремительно, выходя за рамки предыдущих обзоров. Кроме того, существующие обзоры редко предлагают всесторонний анализ иерархической структуры реконструкции 4D-сцен. Чтобы восполнить этот пробел, мы предлагаем новый подход, который организует существующие методы в пять прогрессивных уровней 4D пространственного интеллекта: (1) Уровень 1 — реконструкция низкоуровневых 3D-атрибутов (например, глубина, поза и карты точек); (2) Уровень 2 — реконструкция компонентов 3D-сцен (например, объекты, люди, структуры); (3) Уровень 3 — реконструкция динамических 4D-сцен; (4) Уровень 4 — моделирование взаимодействий между компонентами сцены; и (5) Уровень 5 — включение физических законов и ограничений. В завершение обзора мы обсуждаем ключевые вызовы на каждом уровне и выделяем перспективные направления для продвижения к ещё более глубоким уровням 4D пространственного интеллекта. Для отслеживания текущих разработок мы поддерживаем актуальную страницу проекта: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
Последние достижения, такие как Group Relative Policy Optimization (GRPO), значительно улучшили способности крупных языковых моделей к рассуждению за счет оптимизации среднего арифметического наград на уровне токенов. Однако GRPO страдает от нестабильных обновлений политики при обработке токенов с выбросами в важности взвешенных наград, что проявляется в виде экстремальных коэффициентов важности выборки во время обучения, то есть соотношения между вероятностями выборки, присвоенными токену текущей и старой политиками. В данной работе мы предлагаем Geometric-Mean Policy Optimization (GMPO), стабилизированный вариант GRPO. Вместо оптимизации среднего арифметического GMPO максимизирует среднее геометрическое наград на уровне токенов, что по своей природе менее чувствительно к выбросам и поддерживает более стабильный диапазон коэффициентов важности выборки. Кроме того, мы предоставляем всесторонний теоретический и экспериментальный анализ, обосновывающий конструкцию и преимущества стабильности GMPO. Помимо улучшенной стабильности, GMPO-7B превосходит GRPO в среднем на 4,1% на нескольких математических тестах и на 1,4% на мультимодальном тесте рассуждений, включая AIME24, AMC, MATH500, OlympiadBench, Minerva и Geometry3K. Код доступен по адресу https://github.com/callsys/GMPO.
Крупные модели рассуждений (LRM) с расширенными возможностями цепочек рассуждений (CoT) продемонстрировали высокую производительность на объективных задачах, таких как математические рассуждения и программирование. Однако их эффективность на субъективных вопросах, которые могут иметь различные ответы с разных точек зрения, всё ещё ограничена склонностью к однородным рассуждениям, вызванной зависимостью от единственного эталонного ответа при контролируемой тонкой настройке и проверяемой награды в обучении с подкреплением. Вдохновлённые обнаружением того, что увеличение числа ролевых перспектив последовательно улучшает производительность, мы предлагаем MultiRole-R1 — фреймворк, усиленный разнообразием с множеством ролевых перспектив, для повышения точности и разнообразия в субъективных задачах рассуждений. MultiRole-R1 включает в себя неконтролируемый конвейер построения данных, который генерирует цепочки рассуждений, учитывающие различные ролевые перспективы. Мы также применяем обучение с подкреплением через Group Relative Policy Optimization (GRPO) с формированием награды, используя разнообразие как дополнительный сигнал награды наряду с проверяемой наградой. С помощью специально разработанных функций награды мы успешно стимулируем разнообразие перспектив и лексическое разнообразие, выявляя положительную связь между разнообразием рассуждений и точностью. Наши эксперименты на шести тестовых наборах демонстрируют эффективность и универсальность MultiRole-R1 в улучшении как субъективных, так и объективных рассуждений, подчеркивая потенциал обучения, усиленного разнообразием, в LRM.
Последние достижения в области крупных мультимодальных моделей, таких как GPT-4o, установили новый стандарт для высококачественного редактирования изображений на основе инструкций. Однако проприетарный характер этих моделей и их обучающих данных создает значительные барьеры для открытых исследований. Чтобы преодолеть этот разрыв, мы представляем GPT-IMAGE-EDIT-1.5M — общедоступный крупномасштабный корпус для редактирования изображений, содержащий более 1,5 миллионов высококачественных триплетов (инструкция, исходное изображение, отредактированное изображение). Мы систематически создаем этот набор данных, используя универсальные возможности GPT-4o для объединения и улучшения трех популярных наборов данных для редактирования изображений: OmniEdit, HQ-Edit и UltraEdit. В частности, наша методология включает 1) повторную генерацию выходных изображений для повышения визуального качества и соответствия инструкциям и 2) выборочное переписывание промптов для улучшения семантической ясности. Чтобы подтвердить эффективность нашего набора данных, мы дообучаем передовые открытые модели на GPT-IMAGE-EDIT-1.5M. Эмпирические результаты впечатляют: например, дообученная модель FluxKontext демонстрирует высококонкурентные результаты на комплексном наборе тестов, включая 7,24 на GEdit-EN, 3,80 на ImgEdit-Full и 8,78 на Complex-Edit, показывая лучшее следование инструкциям и более высокое воспринимаемое качество при сохранении идентичности. Эти показатели значительно превосходят все ранее опубликованные открытые методы и существенно сокращают разрыв с ведущими проприетарными моделями. Мы надеемся, что полный выпуск GPT-IMAGE-EDIT-1.5M поможет стимулировать дальнейшие открытые исследования в области редактирования изображений на основе инструкций.
Обучение визуальным представлениям является основополагающим для широкого спектра последующих задач. Хотя недавние контрастные модели, связывающие зрение и язык, такие как CLIP и SigLIP, достигли впечатляющих результатов в задачах zero-shot за счет крупномасштабного согласования визуальных и языковых данных, их зависимость от глобальных представлений ограничивает их эффективность для задач плотного предсказания, таких как локализация, распознавание текста (OCR) и сегментация. Для устранения этого пробела мы представляем метод Region-Aware Cluster Discrimination (RICE), который улучшает возможности визуального анализа и OCR на уровне регионов. Сначала мы создаем набор данных кандидатных регионов масштаба миллиарда и предлагаем слой Region Transformer для извлечения богатой семантики регионов. Далее мы разрабатываем унифицированную функцию потерь для кластерной дискриминации регионов, которая совместно поддерживает обучение объектам и OCR в рамках единой классификационной схемы, что позволяет эффективно и масштабируемо проводить распределенное обучение на крупных данных. Многочисленные эксперименты показывают, что RICE стабильно превосходит предыдущие методы в задачах, включая сегментацию, плотное детектирование и визуальное восприятие для мультимодальных больших языковых моделей (MLLMs). Предобученные модели доступны по адресу https://github.com/deepglint/MVT.
Коррекция изображений документов направлена на устранение геометрических искажений в сфотографированных документах для облегчения распознавания текста. Однако существующие методы часто игнорируют важность элементов переднего плана, которые предоставляют ключевые геометрические ориентиры и информацию о структуре для коррекции изображений документов. В данной статье мы представляем Foreground-Centric Network (ForCenNet) для устранения геометрических искажений в изображениях документов. В частности, мы впервые предлагаем метод генерации меток, ориентированных на передний план, который извлекает детализированные элементы переднего плана из неискаженного изображения. Затем мы вводим механизм маски, ориентированной на передний план, чтобы усилить различие между читаемыми областями и фоном. Кроме того, мы разрабатываем функцию потерь на основе согласованности кривизны, чтобы использовать детализированные метки переднего плана для помощи модели в понимании искаженного геометрического распределения. Многочисленные эксперименты демонстрируют, что ForCenNet устанавливает новый рекорд на четырех реальных наборах данных, таких как DocUNet, DIR300, WarpDoc и DocReal. Количественный анализ показывает, что предложенный метод эффективно устраняет искажения элементов структуры, таких как строки текста и границы таблиц. Ресурсы для дальнейшего сравнения доступны по адресу https://github.com/caipeng328/ForCenNet.
Генерация перманентных 3D-сцен направлена на создание длинных и согласованных последовательностей 3D-видов, что применимо для синтеза долгосрочных видео и реконструкции 3D-сцен. Существующие методы следуют подходу "навигация и воображение" и полагаются на расширение изображения (outpainting) для последовательного расширения видов. Однако сгенерированные последовательности видов страдают от проблемы семантического дрейфа, вызванного накопленным отклонением модуля расширения. Для решения этой задачи мы предлагаем ScenePainter — новый фреймворк для семантически согласованной генерации 3D-сцен, который согласует сценарные априорные знания модуля расширения с пониманием текущей сцены. В частности, мы вводим иерархическую графовую структуру под названием SceneConceptGraph для построения отношений между многоуровневыми концепциями сцены, что направляет модуль расширения на создание согласованных новых видов и может динамически уточняться для повышения разнообразия. Многочисленные эксперименты демонстрируют, что наш фреймворк преодолевает проблему семантического дрейфа и генерирует более согласованные и иммерсивные последовательности 3D-видов. Страница проекта: https://xiac20.github.io/ScenePainter/.
Учащение экстремальных погодных явлений вследствие глобальных изменений климата требует повышения точности прогнозирования погоды. В последнее время значительные успехи были достигнуты благодаря сквозным методам, основанным на технологиях глубокого обучения, однако они сталкиваются с ограничениями, связанными с несогласованностью представления данных при интеграции множественных переменных, а также с трудностями в эффективном улавливании зависимостей между переменными, что необходимо для сложных погодных систем. Рассмотрение различных переменных как отдельных модальностей и применение двухэтапного подхода к обучению, заимствованного из мультимодальных моделей, может частично смягчить эту проблему, но из-за несоответствия задач обучения между двумя этапами результаты часто оказываются неоптимальными. Для решения этих проблем мы предлагаем метод неявного двухэтапного обучения, в котором для каждой переменной настраиваются отдельные кодировщики и декодировщики. В частности, на первом этапе Переводчик замораживается, а Кодировщики и Декодировщики обучаются в общем латентном пространстве; на втором этапе Кодировщики и Декодировщики замораживаются, а Переводчик улавливает взаимодействия между переменными для прогнозирования. Кроме того, за счет введения механизма самовнимания для слияния множественных переменных в латентном пространстве достигается дополнительное улучшение производительности. Эмпирические результаты обширных экспериментов демонстрируют передовые показатели нашего метода. В частности, он снижает среднеквадратичную ошибку (MSE) для прогнозов температуры приземного воздуха и относительной влажности на 28,82\% и 23,39\% соответственно. Исходный код доступен по адресу https://github.com/ShremG/Met2Net.
Последние достижения в области крупных языковых моделей (LLM) подчеркнули потенциал обучения с подкреплением с верифицируемыми наградами (RLVR) для улучшения способностей к рассуждению за счет генерации расширенных последовательностей выходных данных. Однако традиционные подходы RL сталкиваются с неэффективностью при обработке сверхдлинных выходных данных из-за распределений последовательностей с длинным хвостом и коллапса энтропии в процессе обучения. Для решения этих проблем мы предлагаем подход Ultra-Long Output Reinforcement Learning (UloRL), направленный на развитие способностей к рассуждению крупных языковых моделей. В частности, мы разделяем декодирование сверхдлинных выходных данных на короткие сегменты, что позволяет повысить эффективность обучения за счет устранения задержек, вызванных длиннохвостыми выборками. Кроме того, мы вводим динамическое маскирование хорошо освоенных положительных токенов (MPTs) для предотвращения коллапса энтропии. Экспериментальные результаты демонстрируют эффективность нашего подхода. На модели Qwen3-30B-A3B обучение с подкреплением с использованием сегментного развертывания позволило увеличить скорость обучения в 2,06 раза, а обучение с выходными данными длиной 128 тысяч токенов улучшило производительность модели на тестах AIME2025 с 70,9% до 85,1% и на BeyondAIME с 50,7% до 61,9%, превзойдя даже модель Qwen3-235B-A22B с заметным отрывом. Эти результаты подчеркивают потенциал наших методов для развития способностей к рассуждению LLM при генерации сверхдлинных последовательностей. Мы опубликуем наш код и модель для дальнейшего использования сообществом.
Модели диффузии и согласования потоков произвели революцию в автоматической генерации аудио из текста в последнее время. Эти модели становятся всё более способными генерировать высококачественные и точные аудиовыходы, воспроизводящие речь и акустические события. Однако в области творческой генерации аудио, которая в основном включает музыку и песни, всё ещё остаётся значительный потенциал для улучшения. Недавние открытые модели генерации песен из текста, такие как DiffRhythm, ACE-Step и LeVo, установили приемлемый стандарт в автоматической генерации песен для развлекательных целей. Тем не менее, эти модели не обладают детализированным управлением на уровне слов, которое часто требуется музыкантам в их рабочих процессах. Насколько нам известно, наша модель JAM, основанная на согласовании потоков, является первой попыткой внедрить управление временем и длительностью на уровне слов в генерации песен, обеспечивая детализированный контроль над вокалом. Для повышения качества генерируемых песен и их лучшего соответствия человеческим предпочтениям мы реализуем эстетическое согласование с помощью оптимизации прямых предпочтений, которая итеративно улучшает модель, используя синтетический набор данных, устраняя необходимость в ручной аннотации данных. Кроме того, мы стремимся стандартизировать оценку таких моделей генерации песен из текста с помощью нашего публичного набора данных для оценки JAME. Мы показываем, что JAM превосходит существующие модели по параметрам, специфичным для музыки.
Мы представляем Music Arena — открытую платформу для масштабируемой оценки человеческих предпочтений в моделях преобразования текста в музыку (Text-to-Music, TTM). Сбор человеческих предпочтений через прослушивания является золотым стандартом оценки в TTM, однако такие исследования дорогостоящи и сложны для сравнения, так как протоколы исследований могут различаться между системами. Более того, человеческие предпочтения могут помочь исследователям лучше настраивать свои TTM-системы или улучшать автоматические метрики оценки, но открытого и возобновляемого источника таких предпочтений в настоящее время не существует. Мы стремимся заполнить эти пробелы, предлагая *живую* оценку для TTM. В Music Arena реальные пользователи вводят текстовые запросы по своему выбору и сравнивают выходные данные двух TTM-систем, а их предпочтения используются для составления рейтинга. Хотя Music Arena следует последним тенденциям оценки в других областях ИИ, мы также разработали её с ключевыми функциями, адаптированными для музыки: система маршрутизации на основе LLM для работы с разнородными типами сигнатур TTM-систем и сбор *детальных* предпочтений, включая данные о прослушивании и текстовые отзывы. Мы также предлагаем политику постепенного выпуска данных с гарантиями конфиденциальности пользователей, что обеспечивает возобновляемый источник данных о предпочтениях и повышает прозрачность платформы. Благодаря стандартизированному протоколу оценки, прозрачной политике доступа к данным и функциям, специфичным для музыки, Music Arena не только решает ключевые проблемы экосистемы TTM, но и демонстрирует, как живая оценка может быть продуманно адаптирована к уникальным характеристикам конкретных областей ИИ. Music Arena доступна по адресу: https://music-arena.org
Крупные языковые модели (LLM) достигли значительного прогресса в улучшении пошагового рассуждения с использованием обучения с подкреплением. Однако алгоритм Group Relative Policy Optimization (GRPO), основанный на правилах с редкими вознаграждениями, часто сталкивается с проблемой одинаковых вознаграждений внутри групп, что приводит к коллапсу преимуществ. Существующие работы обычно решают эту задачу с двух сторон: принудительное отражение модели для повышения разнообразия ответов и введение внутренней обратной связи для усиления обучающего сигнала (преимущества). В данной работе мы сначала анализируем ограничения отражения модели и исследуем энтропию политики ответов на уровне отдельных примеров. На основе наших экспериментальных результатов мы предлагаем алгоритм EDGE-GRPO, который использует преимущество, управляемое энтропией, и коррекцию ошибок с направляющей обратной связью для эффективного устранения проблемы коллапса преимуществ. Многочисленные эксперименты на нескольких основных тестовых наборах для рассуждений демонстрируют эффективность и превосходство нашего подхода. Он доступен по адресу https://github.com/ZhangXJ199/EDGE-GRPO.
Когда языковые модели (LM) обучаются с использованием обучения с подкреплением (RL) для генерации "цепей рассуждений" на естественном языке, их производительность улучшается в различных сложных задачах ответов на вопросы. Сегодня почти все успешные применения RL для рассуждений используют бинарные функции вознаграждения, которые оценивают правильность выходных данных LM. Поскольку такие функции вознаграждения не наказывают за угадывание или низкую уверенность в выводах, они часто имеют непреднамеренный побочный эффект, ухудшая калибровку и увеличивая частоту, с которой LM генерируют некорректные ответы (или "галлюцинируют") в других проблемных областях. В данной статье описывается RLCR (Reinforcement Learning with Calibration Rewards) — подход к обучению моделей рассуждений, который совместно улучшает точность и калиброванную оценку уверенности. В процессе RLCR LM генерируют как предсказания, так и численные оценки уверенности после рассуждений. Они обучаются для оптимизации функции вознаграждения, которая дополняет бинарную оценку правильности оценкой Брайера — правилом оценки уверенности, которое стимулирует калиброванные предсказания. Сначала мы доказываем, что эта функция вознаграждения (или любая аналогичная функция, использующая ограниченное, строгое правило оценки) приводит к моделям, чьи предсказания являются как точными, так и хорошо калиброванными. Затем мы показываем, что на различных наборах данных RLCR значительно улучшает калибровку без потери точности как на внутридоменных, так и на внедоменных оценках — превосходя как обычное обучение RL, так и классификаторы, обученные назначать апостериорные оценки уверенности. В то время как обычное RL ухудшает калибровку, RLCR улучшает её. Наконец, мы демонстрируем, что вербализованная уверенность может быть использована на этапе тестирования для улучшения точности и калибровки с помощью методов масштабирования, учитывающих уверенность. Наши результаты показывают, что явная оптимизация на калибровку может создавать более надежные модели рассуждений в целом.
Спрос на крупные языковые модели (LLM), способные к сложному математическому рассуждению, растет в различных отраслях. Однако разработка эффективных математических LLM серьезно ограничивается дефицитом сложных и новых данных для обучения. Мы представляем SAND-Math (Synthetic Augmented Novel and Difficult Mathematics problems and solutions) — конвейер, который решает эту проблему, сначала генерируя высококачественные задачи с нуля, а затем систематически повышая их сложность с помощью нового этапа Difficulty Hiking. Мы демонстрируем эффективность нашего подхода на основе двух ключевых результатов. Во-первых, дополнение сильной базовой модели данными SAND-Math значительно повышает производительность, превосходя лучший синтетический набор данных на 17,85 абсолютных пункта на бенчмарке AIME25. Во-вторых, в рамках специального исследования мы показываем, что процесс Difficulty Hiking является высокоэффективным: увеличивая среднюю сложность задачи с 5,02 до 5,98, этот этап повышает производительность на AIME25 с 46,38% до 49,23%. Полный конвейер генерации, финальный набор данных и доработанная модель формируют практичный и масштабируемый инструментарий для создания более мощных и эффективных LLM, способных к математическому рассуждению. Набор данных SAND-Math доступен по ссылке: https://huggingface.co/datasets/amd/SAND-MATH{https://huggingface.co/datasets/amd/SAND-MATH}.
Симуляторы пользователей играют ключевую роль в разработке диалоговых ИИ, обеспечивая масштабируемую разработку и оценку агентов через моделируемые взаимодействия. Хотя современные крупные языковые модели (LLM) значительно продвинули возможности симуляции пользователей, мы показываем, что они испытывают трудности с последовательным демонстрированием целеориентированного поведения в многоходовых диалогах — это критическое ограничение снижает их надежность в прикладных задачах. Мы представляем User Goal State Tracking (UGST), новую концепцию, которая отслеживает прогресс целей пользователя на протяжении диалогов. Используя UGST, мы предлагаем трехэтапную методологию для разработки симуляторов пользователей, способных автономно отслеживать прогресс целей и генерировать ответы, соответствующие этим целям. Кроме того, мы разрабатываем комплексные метрики для оценки соответствия целям в симуляторах пользователей и демонстрируем, что наш подход обеспечивает значительные улучшения на двух бенчмарках (MultiWOZ 2.4 и {\tau}-Bench). Наши результаты устраняют важный пробел в области диалоговых ИИ и утверждают UGST как ключевую концепцию для разработки целеориентированных симуляторов пользователей.
Анализ экспрессии генов является ключом ко многим биомедицинским открытиям, однако извлечение инсайтов из сырых транскриптомных данных остается сложной задачей из-за сложности работы с множеством крупных, полуструктурированных файлов и необходимости наличия глубоких знаний в предметной области. Современные подходы к автоматизации часто ограничены либо негибкими рабочими процессами, которые дают сбои в нестандартных случаях, либо полностью автономными агентами, которым не хватает точности для строгого научного исследования. GenoMAS предлагает иной путь, представляя команду ученых на основе больших языковых моделей (LLM), которая сочетает надежность структурированных рабочих процессов с адаптивностью автономных агентов. GenoMAS координирует шесть специализированных LLM-агентов через типизированные протоколы передачи сообщений, каждый из которых вносит свои уникальные сильные стороны в общий аналитический процесс. В основе GenoMAS лежит фреймворк управляемого планирования: программируемые агенты разворачивают высокоуровневые инструкции задач в "Единицы действий" и на каждом этапе выбирают, продвигаться ли вперед, пересматривать, пропускать или возвращаться назад, тем самым сохраняя логическую согласованность, одновременно гибко адаптируясь к особенностям геномных данных. На бенчмарке GenoTEX GenoMAS достигает коэффициента композитной корреляции сходства 89,13% для предобработки данных и F₁-меры 60,48% для идентификации генов, превосходя лучшие существующие методы на 10,61% и 16,85% соответственно. Помимо метрик, GenoMAS выявляет биологически правдоподобные ассоциации ген-фенотип, подтвержденные литературой, одновременно учитывая скрытые искажающие факторы. Код доступен по адресу https://github.com/Liu-Hy/GenoMAS.
По мере того как крупные языковые модели (LLM) всё чаще интегрируют встроенные интерпретаторы кода, они получают мощные возможности для выполнения задач в реальном времени, значительно расширяя свою полезность. Однако такие интеграции влекут за собой потенциальные угрозы на уровне системы, принципиально отличающиеся от уязвимостей, связанных с подсказками (prompts). Для систематической оценки этих специфических рисков, связанных с интерпретаторами, мы предлагаем CIRCLE (Code-Interpreter Resilience Check for LLM Exploits) — простой бенчмарк, включающий 1 260 подсказок, направленных на исчерпание ресурсов процессора, памяти и диска. Каждая категория рисков включает явно вредоносные («прямые») и внешне безобидные («косвенные») варианты подсказок. Наша автоматизированная система оценки проверяет не только то, отказываются ли LLM выполнять или генерируют ли они рискованный код, но и выполняет сгенерированный код в среде интерпретатора, чтобы оценить корректность кода, упрощения, внесённые LLM для обеспечения безопасности, или превышение времени выполнения. Оценив 7 коммерчески доступных моделей от OpenAI и Google, мы обнаружили значительные и непоследовательные уязвимости. Например, результаты показывают существенные различия даже внутри одного поставщика — модель OpenAI o4-mini корректно отклоняет рискованные запросы в 7,1% случаев, что значительно выше по сравнению с GPT-4.1, где этот показатель составляет 0,5%. Результаты особенно подчёркивают, что косвенные, социально-инженерные подсказки существенно ослабляют защиту моделей. Это указывает на острую необходимость в специализированных бенчмарках для кибербезопасности интерпретаторов, инструментах для смягчения рисков (например, защитных механизмах) и чётких отраслевых стандартах, которые обеспечат безопасное и ответственное внедрение интеграций интерпретаторов в LLM. Набор данных бенчмарка и код оценки публично доступны для стимулирования дальнейших исследований.