Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя глубокое обучение достигло впечатляющих успехов во многих областях, оно исторически уступало в задачах обучения на табличных данных, где до сих пор доминируют градиентные бустинговые деревья решений (GBDT). Однако последние достижения прокладывают путь для создания базовых моделей для табличных данных (Tabular Foundation Models), которые могут использовать знания из реального мира и обобщать их на разнообразные наборы данных, особенно когда данные содержат свободный текст. Хотя интеграция возможностей языковых моделей в задачи с табличными данными уже исследовалась, большинство существующих методов используют статические, не зависящие от целевой задачи текстовые представления, что ограничивает их эффективность. Мы представляем TabSTAR: базовую модель для табличных данных с семантически осознающими целевую задачу представлениями. TabSTAR разработана для обеспечения трансферного обучения на табличных данных с текстовыми признаками, с архитектурой, свободной от параметров, специфичных для конкретного набора данных. Она размораживает предобученный текстовый кодировщик и принимает на вход целевые токены, которые предоставляют модели контекст, необходимый для изучения вложений, специфичных для задачи. TabSTAR демонстрирует наилучшие результаты на средних и крупных наборах данных в известных бенчмарках задач классификации с текстовыми признаками, а её этап предобучения подчиняется законам масштабирования в зависимости от количества наборов данных, предлагая путь для дальнейшего улучшения производительности.
Последние крупные модели рассуждений (LRMs) продемонстрировали мощные способности к рассуждению благодаря обучению с подкреплением (RL). Эти улучшения в основном наблюдались в задачах рассуждений с коротким контекстом. В то же время, расширение LRMs для эффективной обработки и рассуждений на длинных контекстах с использованием RL остается важной нерешенной проблемой. Чтобы преодолеть этот разрыв, мы сначала формализуем парадигму RL для рассуждений с длинным контекстом и выявляем ключевые проблемы, такие как неоптимальная эффективность обучения и нестабильность процесса оптимизации. Для решения этих проблем мы предлагаем QwenLong-L1 — фреймворк, который адаптирует LRMs с коротким контекстом к сценариям с длинным контекстом через прогрессивное масштабирование контекста. В частности, мы используем этап начальной тонкой настройки с учителем (SFT) для создания устойчивой начальной политики, за которым следует поэтапная техника RL с учебным планом для стабилизации эволюции политики, дополненная стратегией ретроспективной выборки с учетом сложности для стимулирования исследования политики. Эксперименты на семи бенчмарках для ответов на вопросы по длинным документам показывают, что QwenLong-L1-32B превосходит ведущие LRMs, такие как OpenAI-o3-mini и Qwen3-235B-A22B, достигая производительности на уровне Claude-3.7-Sonnet-Thinking и демонстрируя лидирующие результаты среди современных LRMs. Эта работа способствует развитию практических LRMs с длинным контекстом, способных к устойчивым рассуждениям в информационно-насыщенных средах.
Крупные языковые модели (LLM) превосходно справляются со сложными задачами логического рассуждения, но остаются вычислительно затратными, что ограничивает их практическое применение. Для решения этой проблемы в последних работах основное внимание уделяется дистилляции способностей к рассуждению в более мелкие языковые модели (sLM) с использованием цепочек рассуждений (CoT), полученных от учителей-LLM. Однако этот подход сталкивается с трудностями в сценариях, требующих редких фактологических знаний или точных вычислений, где sLM часто генерируют недостоверную информацию из-за ограниченных возможностей. В данной работе мы предлагаем фреймворк Agent Distillation, который позволяет передавать не только способность к рассуждению, но и полное поведение по решению задач от агентов на основе LLM в sLM, оснащенные инструментами для поиска информации и выполнения кода. Мы улучшаем процесс дистилляции агентов по двум взаимодополняющим направлениям: (1) вводим метод подсказок под названием first-thought prefix для повышения качества траекторий, генерируемых учителем; и (2) предлагаем метод self-consistent action generation для повышения устойчивости мелких агентов во время тестирования. Мы оцениваем наш метод на восьми задачах логического рассуждения в фактологических и математических областях, охватывая как внутридоменную, так и внедоменную генерализацию. Наши результаты показывают, что sLM с параметрами всего 0,5B, 1,5B и 3B могут достичь производительности, сопоставимой с более крупными моделями 1,5B, 3B и 7B, настроенными с использованием дистилляции CoT, что демонстрирует потенциал дистилляции агентов для создания практичных мелких агентов, использующих инструменты. Наш код доступен по адресу https://github.com/Nardien/agent-distillation.
Быстрое развитие крупных языковых моделей (LLM) сопровождается беспрецедентным ростом вычислительных требований, при этом стоимость обучения современных моделей удваивается каждые несколько месяцев. Обучение моделей непосредственно в арифметике с низкой точностью предлагает решение, улучшая как вычислительную пропускную способность, так и энергоэффективность. В частности, недавняя архитектура NVIDIA Blackwell поддерживает операции с крайне низкой точностью, а именно варианты FP4, обещая значительное повышение эффективности. Однако текущие алгоритмы для обучения LLM с точностью FP4 сталкиваются с существенным ухудшением точности и часто полагаются на смешанные режимы точности. В данной работе мы систематически исследуем аппаратно поддерживаемое обучение с точностью FP4 и представляем Quartet — новый подход, позволяющий проводить точное сквозное обучение в FP4, при котором все основные вычисления (например, в линейных слоях) выполняются с низкой точностью. Благодаря обширным оценкам на моделях типа Llama мы выявляем новый закон масштабирования для низкой точности, который количественно оценивает компромиссы производительности при различных разрядностях и позволяет нам определить "почти оптимальную" технику обучения с низкой точностью с точки зрения точности и вычислительных затрат, называемую Quartet. Мы реализуем Quartet с использованием оптимизированных ядер CUDA, адаптированных для GPU NVIDIA Blackwell, и показываем, что он может достигать современной точности для FP4, успешно обучая модели масштаба миллиардов параметров. Наш метод демонстрирует, что полностью основанное на FP4 обучение является конкурентоспособной альтернативой обучению с стандартной точностью и FP8. Наш код доступен по адресу https://github.com/IST-DASLab/Quartet.
Крупные языковые модели продемонстрировали впечатляющую способность справляться с длительными и сложными задачами логического рассуждения. Однако они часто проявляют проблематичную зависимость от привычных шаблонов мышления — явление, которое мы называем **ригидностью рассуждений**. Несмотря на явные указания пользователей, эти модели нередко игнорируют четко сформулированные условия и возвращаются к привычным траекториям рассуждений, что приводит к ошибочным выводам. Такое поведение создает серьезные трудности, особенно в таких областях, как математика и логические головоломки, где точное соблюдение заданных ограничений имеет критическое значение. Для систематического изучения ригидности рассуждений — явления, которое ранее практически не исследовалось, — мы представляем экспертно составленный диагностический набор данных. Наш набор включает специально модифицированные версии существующих математических тестов, таких как AIME и MATH500, а также известные головоломки, намеренно переработанные так, чтобы требовалось отклонение от привычных стратегий рассуждения. Используя этот набор данных, мы выявляем повторяющиеся паттерны искажений, возникающие, когда модели возвращаются к укоренившимся шаблонам мышления. В частности, мы классифицируем эти искажения на три характерных режима: (i) **Перегрузка интерпретации**, (ii) **Недоверие к входным данным** и (iii) **Частичное внимание к инструкциям**, каждый из которых заставляет модели игнорировать или искажать предоставленные указания. Мы публикуем наш диагностический набор данных, чтобы способствовать дальнейшим исследованиям, направленным на смягчение ригидности рассуждений в языковых моделях.
Обучение с подкреплением (RL) значительно расширило способности к рассуждению в моделях, работающих с визуальными и языковыми данными (VLMs). Однако использование RL за пределами задач рассуждения остается малоизученным, особенно для задач, требующих интенсивного восприятия, таких как обнаружение объектов и их локализация. Мы предлагаем V-Triune, систему визуального тройного унифицированного обучения с подкреплением, которая позволяет VLMs совместно обучаться задачам визуального рассуждения и восприятия в рамках единого процесса обучения. V-Triune состоит из трех взаимодополняющих компонентов: форматирование данных на уровне выборок (для унификации разнообразных входных данных задач), вычисление вознаграждений на уровне верификаторов (для предоставления специализированных вознаграждений через специализированные верификаторы) и мониторинг метрик на уровне источников данных (для диагностики проблем на уровне источников данных). Мы также вводим новое динамическое вознаграждение IoU, которое обеспечивает адаптивную, прогрессивную и четкую обратную связь для задач восприятия, решаемых V-Triune. Наш подход реализован в рамках стандартной RL-обучающей платформы с использованием открытых моделей с 7B и 32B параметрами. Полученная модель, названная Orsta (One RL to See Them All), демонстрирует устойчивые улучшения как в задачах рассуждения, так и в задачах восприятия. Эта широкая способность во многом обусловлена обучением на разнообразном наборе данных, построенном вокруг четырех репрезентативных задач визуального рассуждения (Математика, Головоломки, Графики и Наука) и четырех задач визуального восприятия (Локализация, Обнаружение, Подсчет и OCR). В результате Orsta достигает значительных улучшений на MEGA-Bench Core, с приростом от +2.1 до впечатляющих +14.1 для различных вариантов моделей с 7B и 32B параметрами, причем преимущества в производительности распространяются на широкий спектр последующих задач. Эти результаты подчеркивают эффективность и масштабируемость нашего унифицированного подхода к RL для VLMs. Система V-Triune, а также модели Orsta, доступны публично по адресу https://github.com/MiniMax-AI.
Существующие тестовые наборы не охватывают важнейший аспект интеллекта: физическое мышление — интегрированную способность комбинировать предметные знания, символическое рассуждение и понимание реальных ограничений. Чтобы устранить этот пробел, мы представляем PhyX: первый крупномасштабный тестовый набор, предназначенный для оценки способности моделей к физически обоснованному рассуждению в визуальных сценариях. PhyX включает 3 тысячи тщательно отобранных мультимодальных вопросов, охватывающих 6 типов рассуждений в 25 поддоменах и 6 основных физических областях: термодинамике, электромагнетизме, механике, современной физике, оптике, а также волнах и акустике. В нашем всестороннем анализе даже современные модели демонстрируют значительные трудности с физическим мышлением. GPT-4o, Claude3.7-Sonnet и GPT-o4-mini достигают точности всего 32,5\%, 42,2\% и 45,8\% соответственно — разрыв в производительности превышает 29\% по сравнению с экспертами-людьми. Наш анализ выявляет ключевые ограничения текущих моделей: чрезмерная зависимость от заученных дисциплинарных знаний, избыточная опора на математические формулировки и поверхностное сопоставление визуальных паттернов вместо подлинного физического понимания. Мы предоставляем детальный анализ через детализированную статистику, подробные кейс-стади и множественные парадигмы оценки для тщательного изучения способностей к физическому мышлению. Для обеспечения воспроизводимости мы реализуем совместимый протокол оценки на основе широко используемых инструментов, таких как VLMEvalKit, что позволяет проводить оценку в один клик.
В данном техническом отчете представлен QwenLong-CPRS — фреймворк для сжатия контекста, разработанный для явной оптимизации работы с длинными контекстами, который решает проблему чрезмерных вычислительных затрат на этапе предварительного заполнения и снижения производительности крупных языковых моделей (LLM) при обработке длинных последовательностей, известного как "потеря в середине". Реализованный с использованием нового механизма динамической оптимизации контекста, QwenLong-CPRS обеспечивает сжатие контекста на нескольких уровнях детализации, управляемое инструкциями на естественном языке, что приводит как к повышению эффективности, так и к улучшению производительности. Развивая архитектуру серии Qwen, QwenLong-CPRS вводит четыре ключевых инновации: (1) Динамическую оптимизацию, управляемую естественным языком, (2) Двунаправленные слои рассуждений для улучшения осознания границ контекста, (3) Механизмы критики токенов с использованием языковых моделей и (4) Параллельный вывод в рамках окон. Всесторонние оценки на пяти бенчмарках (контексты от 4K до 2M слов) демонстрируют тройную эффективность QwenLong-CPRS: (1) Постоянное превосходство над другими методами управления контекстом, такими как RAG и разреженное внимание, как по точности, так и по эффективности. (2) Архитектурно-независимая интеграция со всеми ведущими LLM, включая GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3 и Qwen2.5-max, обеспечивает сжатие контекста в 21.59 раз при среднем улучшении производительности на 19.15 пунктов. (3) При использовании с Qwen2.5-32B-Instruct, QwenLong-CPRS превосходит ведущие проприетарные LLM на 4.85 и 10.88 пунктов на бенчмарках Ruler-128K и InfiniteBench, устанавливая новые рекорды SOTA.
Поскольку предельные затраты на масштабирование вычислений (данных и параметров) в процессе предварительного обучения моделей продолжают существенно возрастать, масштабирование на этапе тестирования (TTS) стало перспективным направлением для повышения производительности генеративных моделей за счет выделения дополнительных вычислительных ресурсов на этапе вывода. Хотя TTS продемонстрировал значительные успехи в решении множества языковых задач, остается заметный пробел в понимании поведения масштабирования на этапе тестирования для генеративных моделей изображений и видео (диффузионных или потоковых моделей). Несмотря на то, что недавние работы начали исследование стратегий вывода для задач компьютерного зрения, эти подходы сталкиваются с критическими ограничениями: они ограничены узкими предметными областями, демонстрируют плохую масштабируемость или попадают в ловушку чрезмерной оптимизации вознаграждения, что приводит к снижению разнообразия образцов. В данной статье мы предлагаем Evolutionary Search (EvoSearch) — новый, универсальный и эффективный метод TTS, который значительно улучшает масштабируемость генерации изображений и видео для диффузионных и потоковых моделей, не требуя дополнительного обучения или расширения модели. EvoSearch переосмысливает масштабирование на этапе тестирования для диффузионных и потоковых моделей как задачу эволюционного поиска, используя принципы биологической эволюции для эффективного исследования и уточнения траектории удаления шума. Включая тщательно разработанные механизмы отбора и мутации, адаптированные к процессу удаления шума на основе стохастических дифференциальных уравнений, EvoSearch итеративно генерирует более качественные потомки, сохраняя разнообразие популяции. В ходе обширной оценки для задач генерации изображений и видео на основе как диффузионных, так и потоковых архитектур мы демонстрируем, что наш метод стабильно превосходит существующие подходы, достигает большего разнообразия и демонстрирует высокую обобщаемость для новых метрик оценки. Наш проект доступен на сайте https://tinnerhrhe.github.io/evosearch.
Ранжирование гипотез является ключевым компонентом автоматизированного научного открытия, особенно в естественных науках, где лабораторные эксперименты дорогостоящи и ограничены по пропускной способности. Существующие подходы сосредоточены на предварительном ранжировании, полагаясь исключительно на внутренние рассуждения крупных языковых моделей без учета эмпирических результатов экспериментов. Мы представляем задачу ранжирования, направляемого экспериментами, которая ставит целью приоритезацию кандидатных гипотез на основе результатов ранее проверенных. Однако разработка таких стратегий является сложной из-за непрактичности многократного проведения реальных экспериментов в областях естественных наук. Для решения этой проблемы мы предлагаем симулятор, основанный на трех предположениях, учитывающих специфику предметной области, который моделирует производительность гипотез как функцию их сходства с известной истинной гипотезой, искаженную шумом. Мы создаем набор данных из 124 химических гипотез с экспериментально зафиксированными результатами для проверки симулятора. На основе этого симулятора мы разрабатываем метод псевдоэкспериментального ранжирования, который группирует гипотезы по общим функциональным характеристикам и приоритезирует кандидатов на основе инсайтов, полученных из смоделированных экспериментальных данных. Эксперименты показывают, что наш метод превосходит базовые подходы предварительного ранжирования и сильные абляции.
Выбор начального шума существенно влияет на качество и соответствие запросу в моделях диффузии видео, где различные начальные значения шума для одного и того же запроса могут приводить к кардинально разным результатам генерации. Хотя современные методы полагаются на внешне заданные априорные данные, такие как частотные фильтры или межкадровое сглаживание, они часто упускают из виду внутренние сигналы модели, которые указывают на то, какие начальные значения шума являются изначально предпочтительными. Для решения этой проблемы мы предлагаем ANSE (Active Noise Selection for Generation) — модель-ориентированную структуру, которая выбирает высококачественные начальные значения шума, количественно оценивая неопределенность на основе внимания. В её основе лежит BANSA (Bayesian Active Noise Selection via Attention) — функция приобретения, которая измеряет расхождение энтропии по множеству стохастических выборок внимания для оценки уверенности и согласованности модели. Для эффективного использования на этапе вывода мы вводим аппроксимацию BANSA с маскированием по Бернулли, которая позволяет оценивать результаты с использованием одного шага диффузии и подмножества слоев внимания. Эксперименты на моделях CogVideoX-2B и 5B демонстрируют, что ANSE улучшает качество видео и временную согласованность при увеличении времени вывода всего на 8% и 13% соответственно, предлагая принципиальный и обобщаемый подход к выбору шума в видео-диффузии. См. страницу проекта: https://anse-project.github.io/anse-project/
Модели крупного масштаба для рассуждений (Large Reasoning Models, LRMs) демонстрируют выдающиеся результаты в решении сложных задач благодаря использованию цепочек рассуждений (Chain-of-Thought, CoT). Однако их склонность к чрезмерному анализу приводит к созданию излишне длинных цепочек рассуждений, что значительно увеличивает затраты на вывод. Для решения этой проблемы мы представляем VeriThinker — новый подход к сжатию CoT. В отличие от традиционных методов, которые напрямую дообучают LRMs на исходной задаче рассуждений с использованием синтетических данных сжатых CoT, мы инновационно дообучаем модель исключительно через вспомогательную задачу верификации. Обучая LRMs точно проверять корректность решений CoT, модели естественным образом становятся более избирательными в отношении необходимости последующих шагов самоанализа, что эффективно подавляет чрезмерное мышление. Многочисленные эксперименты подтверждают, что VeriThinker существенно сокращает длину цепочек рассуждений, сохраняя или даже слегка улучшая точность. При применении к модели DeepSeek-R1-Distill-Qwen-7B наш подход сокращает количество токенов рассуждений на наборе MATH500 с 3790 до 2125, одновременно повышая точность на 0,8% (с 94,0% до 94,8%), а на наборе AIME25 количество токенов уменьшается с 14321 до 10287 с увеличением точности на 2,1% (с 38,7% до 40,8%). Кроме того, наши эксперименты показывают, что VeriThinker также может быть обобщён для спекулятивных рассуждений в режиме zero-shot. Код доступен по адресу https://github.com/czg1225/VeriThinker.
Понимание визуальных сцен является фундаментальным аспектом человеческого интеллекта. Хотя дискриминативные модели значительно продвинули компьютерное зрение, они часто испытывают трудности с композиционным пониманием. В отличие от них, современные генеративные модели текста в изображение, основанные на диффузии, демонстрируют превосходство в синтезе сложных сцен, что указывает на их врожденные композиционные способности. Опираясь на это, были предложены классификаторы с нулевым обучением на основе диффузии, которые перепрофилируют диффузионные модели для выполнения дискриминативных задач. Хотя предыдущие работы показали многообещающие результаты в дискриминативных композиционных сценариях, эти результаты остаются предварительными из-за ограниченного числа бенчмарков и относительно поверхностного анализа условий, при которых модели достигают успеха. Чтобы устранить этот пробел, мы представляем всестороннее исследование дискриминативных способностей диффузионных классификаторов на широком спектре композиционных задач. В частности, наше исследование охватывает три диффузионные модели (SD 1.5, 2.0 и, впервые, 3-m), 10 наборов данных и более 30 задач. Кроме того, мы проливаем свет на роль, которую играют домены целевых наборов данных в соответствующей производительности; чтобы изолировать эффекты доменов, мы вводим новый диагностический бенчмарк Self-Bench, состоящий из изображений, созданных самими диффузионными моделями. Наконец, мы исследуем важность взвешивания временных шагов и выявляем связь между разрывом доменов и чувствительностью к временным шагам, особенно для SD3-m. В заключение, диффузионные классификаторы понимают композиционность, но с оговорками! Код и набор данных доступны по адресу https://github.com/eugene6923/Diffusion-Classifiers-Compositionality.
Генерация высококачественных 3D-форм с использованием объемных представлений, таких как функции знаковых расстояний (Signed Distance Functions), сопряжена с существенными вычислительными и ресурсными затратами. Мы представляем Direct3D S2 — масштабируемую платформу для генерации 3D-моделей, основанную на разреженных объемных данных, которая обеспечивает превосходное качество выходных данных при значительном снижении затрат на обучение. Нашим ключевым нововведением является механизм Spatial Sparse Attention (SSA), который значительно повышает эффективность вычислений в Diffusion Transformer при работе с разреженными объемными данными. SSA позволяет модели эффективно обрабатывать большие наборы токенов в разреженных объемах, существенно снижая вычислительные затраты и обеспечивая ускорение в 3.9 раза при прямом проходе и в 9.6 раза при обратном. Наша платформа также включает вариационный автокодировщик, который поддерживает единый формат разреженных объемных данных на всех этапах: входных, скрытых и выходных. По сравнению с предыдущими методами, использующими гетерогенные представления в 3D VAE, этот унифицированный подход значительно повышает эффективность и стабильность обучения. Наша модель обучается на общедоступных наборах данных, и эксперименты показывают, что Direct3D S2 не только превосходит современные методы по качеству и эффективности генерации, но и позволяет проводить обучение с разрешением 1024, используя всего 8 графических процессоров, тогда как для объемных представлений с разрешением 256 обычно требуется не менее 32 графических процессоров. Это делает генерацию гигамасштабных 3D-моделей практичной и доступной. Страница проекта: https://nju3dv.github.io/projects/Direct3D-S2/.
Быстрое развитие и расширение областей применения аудио-моделей большого языка (ALLM) требуют глубокого понимания их надежности. Однако систематические исследования по оценке этих моделей, особенно в отношении рисков, уникальных для аудиомодальности, остаются в значительной степени неисследованными. Существующие оценочные фреймворки в основном сосредоточены на текстовой модальности или охватывают лишь ограниченный набор аспектов безопасности, не учитывая в полной мере уникальные характеристики и сценарии применения, присущие аудиомодальности. Мы представляем AudioTrust — первый многогранный фреймворк и бенчмарк для оценки надежности, специально разработанный для ALLM. AudioTrust позволяет проводить оценку по шести ключевым направлениям: справедливость, галлюцинации, безопасность, конфиденциальность, устойчивость и аутентификация. Для всесторонней оценки этих аспектов AudioTrust структурирован вокруг 18 различных экспериментальных сценариев. Его основу составляет тщательно собранный набор данных, включающий более 4420 аудио- и текстовых примеров, взятых из реальных сценариев (например, повседневные разговоры, экстренные вызовы, взаимодействия с голосовыми помощниками), специально разработанных для исследования многогранной надежности ALLM. Для оценки бенчмарк включает 9 аудио-специфичных метрик, а также использует масштабируемый автоматизированный конвейер для объективного и масштабируемого анализа выходных данных моделей. Результаты экспериментов выявляют границы надежности и ограничения современных открытых и закрытых ALLM при работе с различными высокорисковыми аудиосценариями, предоставляя ценные инсайты для безопасного и надежного внедрения будущих аудиомоделей. Наша платформа и бенчмарк доступны по адресу https://github.com/JusperLee/AudioTrust.
Крупные языковые модели демонстрируют позиционное смещение — систематическое игнорирование информации на определённых позициях в контексте, — однако его взаимодействие с лингвистическим разнообразием остаётся малоизученным. Мы представляем кросс-лингвистическое исследование на примере пяти типологически различных языков (английский, русский, немецкий, хинди, вьетнамский), изучая, как позиционное смещение взаимодействует с неопределённостью модели, синтаксисом и формулировкой запросов. Основные выводы: (1) Позиционное смещение определяется моделью и варьируется в зависимости от языка — Qwen2.5-7B предпочитает поздние позиции, что противоречит предположениям о смещении в сторону ранних токенов; (2) Явное указание позиций (например, правильный контекст находится на позиции X) снижает точность для всех языков, подрывая практики инженерии запросов; (3) Согласование контекста с позиционным смещением увеличивает энтропию, однако минимальная энтропия не предсказывает точность. (4) Мы также обнаружили, что языковые модели по-разному навязывают доминирующий порядок слов в языках со свободным порядком слов, таких как хинди.
Системы генерации с расширением поиска (RAG) позволяют крупным языковым моделям (LLM) получать доступ к внешним знаниям в процессе вывода. Последние достижения дали возможность LLM выступать в роли поисковых агентов с использованием обучения с подкреплением (RL), улучшая получение информации через многошаговое взаимодействие с поисковыми системами. Однако существующие подходы либо оптимизируют поиск с использованием метрик, ориентированных исключительно на поиск (например, NDCG), которые игнорируют полезность для последующих задач, либо тонко настраивают всю LLM для совместного рассуждения и поиска, что связывает поиск с генерацией и ограничивает реальную полезность поиска и совместимость с замороженными или проприетарными моделями. В данной работе мы предлагаем s3 — легковесную, модельно-независимую структуру, которая разделяет поисковый и генерационный компоненты и обучает поисковый компонент с использованием награды Gain Beyond RAG: улучшения точности генерации по сравнению с базовым RAG. s3 требует всего 2,4 тыс. обучающих примеров, чтобы превзойти базовые модели, обученные на более чем в 70 раз большем объеме данных, и стабильно демонстрирует более высокую производительность на шести общих QA и пяти медицинских QA бенчмарках.
Согласование больших языковых моделей (LLM) для точного обнаружения галлюцинаций остается серьезной проблемой из-за сложной природы галлюцинированного текста. Учитывая, что галлюцинированные образцы обычно демонстрируют более высокую обманчивую качественность по сравнению с традиционными негативными образцами, мы используем эти тщательно сконструированные галлюцинации в качестве негативных примеров в процедуре согласования DPO. Наш метод включает стратегию обучения по учебному плану, постепенно переходя от более простых образцов, идентифицированных на основе наибольшего снижения вероятностных оценок независимых моделей проверки фактов, к более сложным. Такое структурированное масштабирование сложности обеспечивает стабильное и постепенное обучение. Экспериментальная оценка показывает, что наши модели HaluCheck, обученные с использованием подхода DPO с учебным планом и высококачественными негативными образцами, значительно улучшают производительность модели по различным метрикам, достигая улучшений до 24% на сложных тестах, таких как MedHallu и HaluEval. Кроме того, модели HaluCheck демонстрируют устойчивость в условиях zero-shot, значительно превосходя более крупные современные модели на различных тестах.
Фронтенд-разработка включает сложный рабочий процесс, в рамках которого инженеры концептуализируют дизайны, переводят их в код и итеративно совершенствуют реализацию. Хотя современные бенчмарки в основном сосредоточены на преобразовании визуальных дизайнов в код, мы представляем FullFront — бенчмарк, разработанный для оценки мультимодальных больших языковых моделей (MLLM) на всех этапах фронтенд-разработки. FullFront оценивает три фундаментальные задачи, которые напрямую соответствуют этапам фронтенд-инжиниринга: проектирование веб-страниц (фаза концептуализации), QA восприятия веб-страниц (понимание визуальной организации и элементов) и генерация кода веб-страниц (фаза реализации). В отличие от существующих бенчмарков, которые используют либо скопированные веб-сайты с избыточным кодом, либо упрощённый HTML, сгенерированный LLM, FullFront применяет новый двухэтапный процесс для преобразования реальных веб-страниц в чистый, стандартизированный HTML, сохраняя при этом разнообразие визуальных дизайнов и избегая проблем с авторскими правами. Обширное тестирование современных MLLM выявляет значительные ограничения в восприятии страниц, генерации кода (особенно для обработки изображений и компоновки) и реализации интерактивности. Наши результаты количественно демонстрируют различия в производительности моделей и задач, а также подчеркивают существенный разрыв между текущими возможностями MLLM и производительностью экспертов-людей в области фронтенд-инжиниринга. Бенчмарк FullFront и код доступны по адресу https://github.com/Mikivishy/FullFront.
Обучение с подкреплением (RL) зарекомендовало себя как эффективный метод для тренировки моделей рассуждений. Однако существующие подходы RL обычно смещают распределение выходных данных модели в сторону путей, максимизирующих вознаграждение, без привлечения внешних знаний. Это ограничивает их способность к исследованию и приводит к более узкой границе возможностей рассуждений по сравнению с базовыми моделями. Чтобы устранить это ограничение, мы предлагаем TAPO (Thought-Augmented Policy Optimization) — новую структуру, которая расширяет RL за счет включения внешнего высокоуровневого руководства («шаблонов мышления»). Адаптивно интегрируя структурированные мысли в процессе обучения, TAPO эффективно балансирует внутреннее исследование модели и использование внешнего руководства. Многочисленные эксперименты показывают, что наш подход значительно превосходит GRPO на 99% на AIME, 41% на AMC и 17% на Minerva Math. Примечательно, что эти высокоуровневые шаблоны мышления, абстрагированные всего из 500 предшествующих образцов, эффективно обобщаются для различных задач и моделей. Это подчеркивает потенциал TAPO для более широкого применения в различных задачах и областях. Наш дальнейший анализ показывает, что введение внешнего руководства создает мощные модели рассуждений с превосходной объяснимостью поведения вывода и улучшенной читаемостью выходных данных.
Крупные языковые модели (LLM) демонстрируют впечатляющие возможности, но им не хватает устойчивого временного интеллекта, что затрудняет интеграцию рассуждений о прошлом с прогнозами и правдоподобным моделированием будущего. В то же время существующие методы обычно сосредоточены на изолированных временных навыках, таких как ответы на вопросы о прошлых событиях или базовое прогнозирование, и демонстрируют слабую обобщаемость, особенно при работе с событиями, выходящими за пределы их временного охвата или требующими творческого предвидения. Чтобы устранить эти ограничения, мы представляем Time-R1 — первую структуру, которая наделяет LLM среднего размера (3 миллиарда параметров) всесторонними временными способностями: пониманием, прогнозированием и творческим моделированием. Наш подход включает новый трехэтапный путь развития; первые два этапа представляют собой учебный план с подкреплением (RL), основанный на тщательно разработанной динамической системе вознаграждений на основе правил. Эта структура последовательно развивает (1) базовое временное понимание и логические связи между событиями и временем на основе исторических данных, (2) навыки прогнозирования будущих событий, выходящих за пределы временного охвата модели, и, наконец, (3) обеспечивает выдающуюся обобщаемость для творческого моделирования будущих сценариев без дополнительной тонкой настройки. Примечательно, что эксперименты показывают, что Time-R1 превосходит модели, более чем в 200 раз крупнее, включая передовую модель DeepSeek-R1 с 671 миллиардами параметров, на сложных тестах по прогнозированию будущих событий и творческому моделированию сценариев. Эта работа предоставляет убедительные доказательства того, что тщательно спроектированная, прогрессивная тонкая настройка с подкреплением позволяет более компактным и эффективным моделям достигать превосходных временных характеристик, предлагая практичный и масштабируемый путь к созданию действительно осведомленного о времени ИИ. Для стимулирования дальнейших исследований мы также публикуем Time-Bench — крупномасштабный многозадачный набор данных для временного рассуждения, созданный на основе 10-летних новостных данных, и серию контрольных точек Time-R1.
Быстрый рост голосовых помощников, основанных на больших языковых моделях (LLM), подчеркнул необходимость в данных речевых инструкций для обучения таких систем. Несмотря на обилие данных для распознавания речи, наблюдается заметный дефицит данных речевых инструкций, которые необходимы для тонкой настройки моделей с целью понимания и выполнения устных команд. Генерация высококачественного синтетического голоса требует наличия хорошей модели преобразования текста в речь (TTS), которая может быть недоступна для языков с ограниченными ресурсами. Наш новый подход решает эту проблему, останавливая синтез на уровне семантического представления, что позволяет обойтись без TTS. Мы достигаем этого, выравнивая синтетические семантические представления с предварительно обученным энкодером Whisper, что позволяет тонко настраивать LLM на текстовые инструкции, сохраняя при этом способность понимать устные команды во время вывода. Этот упрощенный процесс обучения представляет собой перспективный подход к созданию голосовых помощников для языков с ограниченными ресурсами.
Быстрое развитие нативных мультимодальных моделей и омни-моделей, таких как GPT-4o, Gemini и o3, с их способностью обрабатывать и генерировать контент в различных модальностях, таких как текст и изображения, знаменует собой важный этап в эволюции искусственного интеллекта. Систематическая оценка их мультимодальных возможностей в процессах визуального мышления (также известных как мультимодальная цепочка рассуждений, M-CoT) становится крайне важной. Однако существующие бенчмарки для оценки мультимодальных моделей в основном сосредоточены на анализе мультимодальных входных данных и текстового рассуждения, игнорируя важность рассуждений через мультимодальные выходные данные. В данной статье мы представляем бенчмарк под названием RBench-V, предназначенный для оценки способностей моделей к рассуждениям, требующим визуального восприятия. Для создания RBench-V мы тщательно отобрали 803 вопроса, охватывающих математику, физику, подсчет и игры. В отличие от предыдущих бенчмарков, которые обычно указывают определенные входные модальности, RBench-V предлагает задачи, сосредоточенные на мультимодальных выходных данных, которые требуют манипуляций с изображениями, таких как генерация новых изображений и построение вспомогательных линий для поддержки процесса рассуждения. Мы оцениваем множество открытых и закрытых моделей на RBench-V, включая o3, Gemini 2.5 Pro, Qwen2.5-VL и другие. Даже лучшая модель, o3, достигает точности всего 25,8% на RBench-V, что значительно ниже человеческого показателя в 82,3%, что подчеркивает трудности современных моделей в использовании мультимодальных рассуждений. Данные и код доступны по адресу https://evalmodels.github.io/rbenchv.
Восстановление ночных изображений, подверженных воздействию множественных неблагоприятных погодных условий, является актуальной, но недостаточно изученной исследовательской задачей, поскольку в реальном мире различные погодные условия часто сосуществуют вместе с разнообразными световыми эффектами в ночное время. В данной статье впервые исследуется сложная задача восстановления ночных изображений при множественных погодных условиях, где различные типы погодных искажений переплетаются с эффектами бликов. Для поддержки исследований мы представляем набор данных AllWeatherNight, содержащий крупномасштабные высококачественные ночные изображения с разнообразными композиционными искажениями, синтезированные с использованием предложенного нами метода генерации искажений с учетом освещения. Кроме того, мы представляем ClearNight — унифицированную структуру для восстановления ночных изображений, которая эффективно устраняет сложные искажения за один проход. В частности, ClearNight извлекает двойные априорные данные на основе теории Ретинекса и явно направляет сеть на фокусировку в областях неравномерного освещения и внутренних текстурных содержимых соответственно, тем самым повышая эффективность восстановления в ночных сценах. Для лучшего представления общих и уникальных характеристик множественных погодных искажений мы вводим метод динамического взаимодействия специфичности и общности с учетом погодных условий, который идентифицирует погодные искажения и адаптивно выбирает оптимальные кандидатные блоки, связанные с конкретными типами погоды. Наш ClearNight демонстрирует передовые результаты как на синтетических, так и на реальных изображениях. Комплексные эксперименты с абляцией подтверждают необходимость набора данных AllWeatherNight, а также эффективность ClearNight. Страница проекта: https://henlyta.github.io/ClearNight/mainpage.html
Обучение крупных языковых моделей (LLM) быть точными в предоставленном контексте имеет решающее значение для создания надежных систем поиска информации. Поэтому мы предлагаем систематическую структуру CANOE для повышения точности LLM как в задачах генерации коротких, так и длинных текстов без использования аннотаций человека. В частности, мы сначала синтезируем данные для коротких вопросно-ответных (QA) задач с четырьмя разнообразными заданиями, чтобы создать высококачественные и легко проверяемые обучающие данные без участия человека. Также мы предлагаем Dual-GRPO, метод обучения с подкреплением на основе правил, который включает три специально разработанных правила вознаграждения, основанных на синтезированных коротких QA данных, одновременно оптимизируя генерацию как коротких, так и длинных ответов. Важно отметить, что Dual-GRPO устраняет необходимость ручного маркирования данных предпочтений для обучения моделей вознаграждения и предотвращает избыточную оптимизацию генерации коротких текстов при использовании только синтезированных коротких QA данных. Экспериментальные результаты показывают, что CANOE значительно повышает точность LLM в 11 различных задачах, даже превосходя самые передовые LLM, такие как GPT-4o и OpenAI o1.
Обучение с подкреплением (RL) является мощным способом адаптации базовых моделей к специализированным задачам, однако его зависимость от крупномасштабных данных с человеческой разметкой ограничивает широкое применение. Мы представляем Synthetic Data RL — простую и универсальную методику, которая тонко настраивает модели с использованием исключительно синтетических данных, сгенерированных на основе определения задачи. Наш метод сначала генерирует пары вопросов и ответов из определения задачи и извлеченных документов, затем адаптирует сложность вопроса на основе способности модели его решить и выбирает вопросы с использованием средней частоты успешных решений модели для обучения с подкреплением. На модели Qwen-2.5-7B наш метод демонстрирует абсолютное улучшение на 29,2% по сравнению с базовой моделью на GSM8K (+2,9 п.п. против обучения с инструкциями, +6,6 п.п. против Self-Instruct), на 8,7% на MATH, на 13,1% на GPQA (+7,0 п.п. против SynthLLM), на 8,9% на MedQA, на 17,7% на CQA (право) и на 13,7% на CFA (финансы). Он превосходит контролируемую тонкую настройку при одинаковом объеме данных и почти достигает результатов обучения с подкреплением с полным набором человеческих данных на различных наборах данных (например, +17,2 п.п. на GSM8K). Добавление 100 человеческих примеров улучшает производительность на GSM8K всего на 0,4 п.п., что свидетельствует о ограниченной дополнительной ценности. Сокращая необходимость в аннотировании человеческих данных, Synthetic Data RL обеспечивает масштабируемую и эффективную адаптацию моделей на основе обучения с подкреплением. Код и демонстрации доступны по адресу https://github.com/gydpku/Data_Synthesis_RL/.
Trinity-RFT — это универсальная, гибкая и масштабируемая платформа, предназначенная для тонкой настройки с подкреплением (Reinforcement Fine-Tuning, RFT) крупных языковых моделей. Она построена на основе декомпозированной архитектуры, включающей (1) RFT-core, который унифицирует и обобщает синхронные/асинхронные, онлайновые/офлайновые и on-policy/off-policy режимы RFT, (2) бесшовную интеграцию взаимодействия агента и среды с высокой эффективностью и надежностью, а также (3) систематизированные конвейеры данных, оптимизированные для RFT. Trinity-RFT легко адаптируется для различных сценариев применения и служит унифицированной платформой для исследования передовых парадигм обучения с подкреплением. В данном техническом отчете изложены видение, особенности, дизайн и реализация Trinity-RFT, а также приведены многочисленные примеры, демонстрирующие полезность и удобство использования предложенной платформы.
Мы представляем ScanBot — новый набор данных, предназначенный для высокоточного сканирования поверхностей в роботизированных системах с учетом инструкций. В отличие от существующих наборов данных для обучения роботов, которые сосредоточены на грубых задачах, таких как захват, навигация или диалог, ScanBot ориентирован на высокоточные требования промышленного лазерного сканирования, где критически важны непрерывность траектории на уровне субмиллиметров и стабильность параметров. Набор данных охватывает траектории лазерного сканирования, выполненные роботом на 12 различных объектах и 6 типах задач, включая полное сканирование поверхности, области с акцентом на геометрию, пространственно референцированные части, функционально значимые структуры, инспекцию дефектов и сравнительный анализ. Каждое сканирование сопровождается инструкциями на естественном языке и синхронизированными данными RGB, глубины и лазерных профилей, а также позицией робота и состоянием его сочленений. Несмотря на недавние достижения, существующие модели, объединяющие зрение, язык и действия (VLA), по-прежнему не способны генерировать стабильные траектории сканирования при детализированных инструкциях и требованиях реальной точности. Чтобы исследовать это ограничение, мы тестируем ряд мультимодальных больших языковых моделей (MLLM) на полном цикле восприятия-планирования-исполнения, выявляя устойчивые проблемы в следовании инструкциям в условиях реальных ограничений.
Быстрое внедрение моделей, работающих с визуальными и текстовыми данными (VLMs), увеличивает риски безопасности, однако большинство оценок основывается на искусственных изображениях. Данное исследование ставит вопрос: насколько безопасны современные VLMs при взаимодействии с мем-изображениями, которые обычные пользователи активно распространяют? Для изучения этого вопроса мы представляем MemeSafetyBench — бенчмарк, содержащий 50 430 примеров, где реальные мем-изображения сочетаются как с вредоносными, так и с безобидными инструкциями. Используя комплексную таксономию безопасности и генерацию инструкций на основе языковых моделей (LLM), мы оцениваем несколько VLMs в рамках одно- и многошаговых взаимодействий. Мы исследуем, как реальные мемы влияют на генерацию вредоносных ответов, смягчающий эффект контекста диалога, а также связь между масштабом модели и метриками безопасности. Наши результаты показывают, что VLMs более уязвимы к вредоносным запросам, основанным на мемах, чем к синтетическим или типографским изображениям. Мемы значительно увеличивают количество вредоносных ответов и снижают частоту отказов по сравнению с текстовыми входами. Хотя многошаговые взаимодействия частично смягчают проблему, повышенная уязвимость сохраняется. Эти результаты подчеркивают необходимость экологически валидных оценок и более надежных механизмов безопасности.
Несмотря на недавние успехи в генерации изображений из текста (T2I), существующие модели часто испытывают трудности с точным отражением намерений пользователя из коротких и недостаточно специфицированных запросов. Хотя предыдущие работы пытались улучшать запросы с использованием больших языковых моделей (LLM), эти методы часто создают стилистически неуместный или нереалистичный контент из-за недостаточного учета визуальной семантики и композиции реального мира. Вдохновленные последними достижениями в области рассуждений для языковых моделей, мы предлагаем RePrompt — новый фреймворк для переформулирования запросов, который вводит явные рассуждения в процесс улучшения запросов с помощью обучения с подкреплением. Вместо использования ручных правил или стилистических переписываний наш метод обучает языковую модель генерировать структурированные, саморефлексивные запросы, оптимизируя результаты на уровне изображений. Специально разработанные модели вознаграждения оценивают сгенерированные изображения с точки зрения предпочтений человека, семантического соответствия и визуальной композиции, предоставляя косвенное руководство для улучшения генерации запросов. Наш подход позволяет проводить сквозное обучение без использования аннотированных человеком данных. Эксперименты на GenEval и T2I-Compbench показывают, что RePrompt значительно повышает точность пространственного расположения и композиционную обобщаемость для различных T2I моделей, устанавливая новые результаты на уровне state-of-the-art.
Генерация управляемых видео (CVG) быстро развивается, однако современные системы сталкиваются с трудностями, когда более одного актора должны двигаться, взаимодействовать и менять позиции при наличии зашумленных управляющих сигналов. Мы устраняем этот пробел с помощью DanceTogether — первой сквозной диффузионной системы, которая преобразует одно эталонное изображение и независимые потоки масок поз в длинные фотореалистичные видео, строго сохраняя идентичность каждого участника. Новый модуль MaskPoseAdapter связывает "кто" и "как" на каждом шаге удаления шума, объединяя устойчивые маски отслеживания с семантически богатыми, но зашумленными тепловыми картами поз, устраняя проблемы смещения идентичности и "просачивания" внешнего вида, характерные для пошаговых подходов. Для масштабного обучения и оценки мы представляем: (i) PairFS-4K — 26 часов видеозаписей парного катания с более чем 7000 уникальных идентификаторов, (ii) HumanRob-300 — часовой набор данных взаимодействия человекоподобных роботов для быстрого междоменного переноса и (iii) TogetherVideoBench — трехтрековый бенчмарк, сосредоточенный на тестовом наборе DanceTogEval-100, охватывающем танцы, бокс, борьбу, йогу и фигурное катание. На TogetherVideoBench DanceTogether значительно превосходит существующие методы. Более того, мы показываем, что одночасовая дообучение позволяет создавать убедительные видео с участием людей и роботов, подчеркивая широкую обобщаемость для задач воплощенного ИИ и взаимодействия человек-робот. Многочисленные эксперименты подтверждают, что устойчивая связь идентичности и действий критически важна для достижения этих результатов. Вместе наша модель, наборы данных и бенчмарк выводят CVG из области одиночной хореографии в сферу композиционно управляемого взаимодействия нескольких акторов, открывая новые возможности для цифрового производства, симуляции и воплощенного интеллекта. Наши демонстрационные видео и код доступны по адресу https://DanceTog.github.io/.
Мы представляем RIPT-VLA — простую и масштабируемую парадигму интерактивного пост-обучения на основе обучения с подкреплением, которая тонко настраивает предобученные модели Vision-Language-Action (VLA) с использованием только разреженных бинарных наград за успех. Существующие конвейеры обучения VLA в значительной степени зависят от оффлайн-данных экспертных демонстраций и контролируемого имитационного обучения, что ограничивает их способность адаптироваться к новым задачам и средам в условиях ограниченного объема данных. RIPT-VLA решает эту проблему, обеспечивая интерактивное пост-обучение с использованием стабильного алгоритма оптимизации политики, основанного на динамической выборке траекторий и оценке преимуществ методом "leave-one-out". RIPT-VLA обладает следующими характеристиками. Во-первых, она применима к различным моделям VLA, что приводит к улучшению легковесной модели QueST на 21,2% и достижению беспрецедентного уровня успешности в 97,5% для модели OpenVLA-OFT с 7 миллиардами параметров. Во-вторых, она вычислительно эффективна и экономична в использовании данных: всего с одной демонстрацией RIPT-VLA позволяет неработоспособной модели SFT (4%) достичь успешности в 97% за 15 итераций. Кроме того, мы показываем, что политика, изученная RIPT-VLA, обобщается на различные задачи и сценарии и устойчива к контексту начального состояния. Эти результаты подчеркивают RIPT-VLA как практичную и эффективную парадигму для пост-обучения моделей VLA при минимальном контроле.
Крупные языковые модели обычно адаптируются к конкретным задачам через контролируемую тонкую настройку на данных из целевой области. В то время как стандартная тонкая настройка сосредоточена на минимизации потерь при генерации для оптимизации параметров модели, мы делаем шаг дальше, сохраняя и используя собственные сигналы обучения модели, аналогично тому, как человек анализирует прошлые ошибки для улучшения будущих результатов. Сначала мы вводим концепцию "Журнала ошибок" для систематического отслеживания поведения модели и повторяющихся ошибок в процессе тонкой настройки. Рассматривая исходную трансформерную модель как "Пилота", мы разрабатываем соответствующую модель "Копилот" для улучшения качества вывода "Пилота" через коррекцию логитов. Мы называем общую структуру "Пилот-Копилот" "Трансформерный Копилот", которая включает: (i) новую архитектуру модели "Копилот", (ii) совместную парадигму обучения, где "Копилот" непрерывно обучается на основе развивающегося "Журнала ошибок" вместе с "Пилотом", и (iii) объединенную парадигму вывода, где "Копилот" корректирует логиты "Пилота" для улучшения генерации. Мы предоставляем как теоретический, так и эмпирический анализ нашей новой обучающей структуры. Эксперименты на 12 тестовых наборах, охватывающих задачи здравого смысла, арифметики и рекомендаций, демонстрируют, что "Трансформерный Копилот" стабильно улучшает производительность до 34,5%, при этом внося минимальные вычислительные накладные расходы для моделей "Пилот" и демонстрируя высокую масштабируемость и переносимость.
Последние достижения в области агентов на основе больших языковых моделей (LLM) во многом опираются на такие архитектуры рассуждений, как ReAct, которые чередуют мысли и действия в сложных средах. Однако ReAct часто генерирует необоснованные или несогласованные шаги рассуждений, что приводит к рассогласованию между фактическим состоянием агента и его целью. Наш анализ показывает, что это связано с неспособностью ReAct поддерживать согласованность внутренних убеждений и соответствие цели, что вызывает накопление ошибок и галлюцинации. Для решения этой проблемы мы представляем ReflAct — новую архитектуру, которая смещает фокус рассуждений с простого планирования следующих действий на постоянное осмысление состояния агента относительно его цели. Благодаря явному обоснованию решений на основе состояний и обеспечению постоянного соответствия цели, ReflAct значительно повышает стратегическую надежность. Этот подход демонстрирует существенные эмпирические преимущества: ReflAct превосходит ReAct в среднем на 27,7%, достигая 93,3% успешных выполнений в ALFWorld. Примечательно, что ReflAct даже превосходит ReAct с дополнительными улучшающими модулями (например, Reflexion, WKM), что подтверждает, что укрепление базовой архитектуры рассуждений является ключом к надежной работе агента.
Алгоритмы градиента политики успешно применяются для улучшения способностей к рассуждению у крупных языковых моделей (LLM). Несмотря на широкое использование регуляризации по Кулбеку-Лейблеру (KL) в алгоритмах градиента политики для стабилизации обучения, систематическое исследование того, как различные формулировки расхождения KL могут быть оценены и интегрированы в суррогатные функции потерь для онлайн-обучения с подкреплением (RL), представляет собой тонкий и систематически исследуемый дизайн-пространство. В данной работе мы предлагаем Regularized Policy Gradient (RPG) — систематическую структуру для вывода и анализа методов градиента политики с KL-регуляризацией в условиях онлайн RL. Мы выводим градиенты политики и соответствующие суррогатные функции потерь для целей, регуляризованных как прямым, так и обратным расхождениями KL, учитывая как нормализованные, так и ненормализованные распределения политик. Кроме того, мы представляем выводы для полностью дифференцируемых функций потерь, а также для оценщиков градиента в стиле REINFORCE, что позволяет учитывать разнообразные алгоритмические потребности. Мы проводим обширные эксперименты по RL для рассуждений LLM с использованием этих методов, демонстрируя улучшенные или конкурентоспособные результаты с точки зрения стабильности обучения и производительности по сравнению с сильными базовыми методами, такими как GRPO, REINFORCE++ и DAPO. Код доступен по адресу https://github.com/complex-reasoning/RPG.
В данной статье мы предлагаем простой и эффективный метод обучения модели оценки на длинных контекстных траекториях рассуждений. В отличие от существующих моделей пошагового вознаграждения (PRMs), наш метод не требует детального определения понятия "шаг", которое сложно задать для моделей с длинным контекстом. Собрав набор данных из 2,5 миллионов траекторий рассуждений, мы обучили модель оценки на уровне токенов объемом 1,5 миллиарда параметров и применили её к моделям DeepSeek для улучшения производительности при масштабировании вычислений во время тестирования. Мы обнаружили, что поиск с блочным управлением на основе оценки (VGS) с финальным взвешенным большинством голосов обеспечивает лучшее масштабирование во время тестирования по сравнению с традиционными методами, такими как голосование большинством или выбор лучшего из n. При бюджете вывода в 64 генерации VGS с моделью DeepSeek-R1-Distill-1.5B достигает средней точности 45,7% на четырех бенчмарках по математическим соревнованиям (AIME 2024 & 2025, HMMT Feb 2024 & 2025), достигая уровня модели o3-mini-medium. Более того, VGS значительно сокращает количество операций с плавающей запятой (FLOPs), необходимых для достижения той же производительности, что и при голосовании большинством. Наш набор данных, модель и кодовая база находятся в открытом доступе.
В данной статье представлено удивительное открытие: при обучении авторегрессивной языковой модели (LLM) на текстовых токенах, текстовая модель внутренне развивает способность понимать изображения и аудио, тем самым приобретая способность видеть и слышать, просто читая. Популярные аудио- и визуальные LLM модели дообучают текстовые LLM модели для вывода текста, обусловленного вложениями изображений и аудио. С другой стороны, наша архитектура принимает на вход фрагменты изображений, аудиоволны или токены и выдает вложения или метки категорий, характерные для классификационного конвейера. Мы демонстрируем универсальность весов текстовой модели в улучшении классификации аудио для наборов данных FSD-50K и GTZAN. Кроме того, мы показываем, что это работает для классификации изображений на CIFAR-10 и Fashion-MNIST, а также для фрагментов изображений. Это расширяет представление о том, что текстовые LLM модели обучаются мощным внутренним схемам, которые могут быть задействованы путем активации необходимых связей для различных приложений, вместо того чтобы каждый раз обучать модели с нуля.
Остаточные соединения играют ключевую роль в глубоких нейронных сетях, позволяя увеличивать глубину сети за счет смягчения проблемы исчезающих градиентов. Однако в стандартных остаточных обновлениях выход модуля напрямую добавляется к входному потоку. Это может приводить к обновлениям, которые преимущественно усиливают или модулируют существующее направление потока, потенциально недоиспользуя способность модуля к изучению совершенно новых признаков. В данной работе мы представляем Ортогональное Остаточное Обновление: мы разлагаем выход модуля относительно входного потока и добавляем только компоненту, ортогональную этому потоку. Такой подход направлен на то, чтобы модули вносили в основном новые направления представления, способствуя более богатому обучению признаков и повышая эффективность обучения. Мы демонстрируем, что наша стратегия ортогонального обновления улучшает точность обобщения и стабильность обучения для различных архитектур (ResNetV2, Vision Transformers) и наборов данных (CIFARs, TinyImageNet, ImageNet-1k), достигая, например, увеличения точности top-1 на +4,3\% для ViT-B на ImageNet-1k.
Модели типа Mixture-of-Experts (MoE) позволяют эффективно масштабировать большие языковые модели (LLM) с использованием редко активируемых экспертов во время вывода. Для успешного развертывания крупных MoE-моделей на устройствах с ограниченной памятью многие системы внедряют *выгрузку экспертов*, при которой подмножество экспертов кэшируется в быстрой памяти, а остальные остаются в медленной памяти для выполнения на CPU или загружаются по требованию. Хотя некоторые исследования используют локальность активаций экспертов, где последовательные токены активируют схожих экспертов, степень этой **локальной согласованности маршрутизации** варьируется между моделями и остается недостаточно изученной. В данной работе мы предлагаем две метрики для измерения локальной согласованности маршрутизации MoE-моделей: (1) **Лучшая производительность маршрутизации сегмента (SRP)**, которая оценивает, насколько хорошо фиксированная группа экспертов может покрыть потребности сегмента токенов, и (2) **Лучший показатель попадания в кэш сегмента (SCH)**, который измеряет оптимальный уровень попадания в кэш на уровне сегмента при заданном ограничении на размер кэша. Мы проанализировали 20 MoE LLM с различными размерами и архитектурами и обнаружили, что модели, применяющие MoE на каждом слое и не использующие общих экспертов, демонстрируют наивысшую локальную согласованность маршрутизации. Мы также показали, что эксперты, специализированные на конкретной предметной области, вносят больший вклад в согласованность маршрутизации, чем эксперты, специализированные на словарном запасе, и что большинство моделей могут балансировать между эффективностью кэширования и производительностью при размерах кэша, примерно в 2 раза превышающих количество активных экспертов. Эти результаты открывают путь к проектированию и развертыванию MoE-моделей с эффективным использованием памяти без ущерба для скорости вывода. Мы публикуем код для воспроизведения экспериментов по адресу https://github.com/ljcleo/moe-lrc.
Недавние достижения, такие как DeepSeek R1-Zero, подчеркивают эффективность обучения с использованием стимулов — парадигмы обучения с подкреплением, которая вычисляет вознаграждения исключительно на основе финальной части ответа, генерируемого языковой моделью, тем самым поощряя создание промежуточных шагов рассуждений. Однако эти методы в значительной степени зависят от внешних верификаторов, что ограничивает их применимость в таких областях, как математика и программирование, где такие верификаторы легко доступны. Хотя модели вознаграждения могут выступать в роли верификаторов, они требуют высококачественных аннотированных данных и дорогостоящего обучения. В данной работе мы предлагаем NOVER, обучение с подкреплением без верификатора (NO-VERifier Reinforcement Learning), — общую структуру обучения с подкреплением, которая требует только стандартных данных для тонкой настройки с учителем и не нуждается во внешнем верификаторе. NOVER позволяет применять обучение с использованием стимулов для широкого спектра задач преобразования текста в текст и превосходит модель того же размера, дистиллированную из крупных моделей рассуждений, таких как DeepSeek R1 671B, на 7,7%. Более того, гибкость NOVER открывает новые возможности для оптимизации больших языковых моделей, такие как обратное обучение с использованием стимулов.
По мере того как крупные языковые модели (LLM) всё чаще внедряются в чувствительные области, такие как корпоративная среда и государственный сектор, обеспечение их соответствия пользовательским политикам безопасности в контексте становится критически важным — особенно в отношении неразглашения информации. Хотя предыдущие исследования LLM были сосредоточены на общей безопасности и социально чувствительных данных, крупномасштабные эталонные тесты для сохранения контекстной безопасности против атак остаются недостаточно разработанными. Для решения этой проблемы мы представляем новый крупномасштабный эталонный набор данных, CoPriva, который оценивает соблюдение LLM контекстных политик неразглашения в задачах ответов на вопросы. Наш набор данных, основанный на реалистичных контекстах, включает явные политики и запросы, разработанные как прямые и сложные косвенные атаки, направленные на получение запрещённой информации. Мы оценили 10 LLM на нашем эталоне и выявили значительную уязвимость: многие модели нарушают пользовательские политики и раскрывают конфиденциальную информацию. Этот провал особенно серьёзен в случае косвенных атак, что подчеркивает критический пробел в текущей настройке безопасности LLM для чувствительных приложений. Наш анализ показывает, что, хотя модели часто могут определить правильный ответ на запрос, они испытывают трудности с учётом ограничений политик в процессе генерации. В то же время они демонстрируют частичную способность пересматривать выводы при явном запросе. Наши результаты подчеркивают острую необходимость в более надёжных методах для гарантии контекстной безопасности.
Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали выдающиеся способности в многошаговых рассуждениях и вызове поисковых систем на соответствующих этапах. Однако существующие подходы, усиленные поиском, полагаются на отдельные модели поиска, ограничивая роль LRM в поиске решением о том, когда извлекать данные и как формулировать запросы. Такое разделение не только увеличивает аппаратные и операционные затраты, но и приводит к ошибкам в процессе поиска из-за проблемы узкого места в представлении — явления, при котором пространство эмбеддингов поисковой системы недостаточно выразительно для удовлетворения требований генератора. Чтобы решить эту проблему, мы меняем подход с последовательного сопоставления на поиск путей, содержащих ответы, внутри корпуса, и предлагаем новую структуру под названием FREESON (Retriever-FREE Retrieval-Augmented ReaSONing). Эта структура позволяет LRM самостоятельно извлекать релевантные знания, выступая одновременно в роли генератора и поисковой системы. Для достижения этого мы вводим модификацию алгоритма MCTS, специализированную для задачи поиска, которую называем CT-MCTS (Corpus-Traversing Monte Carlo Tree Search). В этом алгоритме LRM перемещаются по корпусу в направлении областей, содержащих ответы. Наши результаты на пяти бенчмарках для открытых вопросов, включая одношаговые и многошаговые вопросы, показывают, что FREESON обеспечивает среднее улучшение на 14,4% по метрикам EM и F1 по сравнению с четырьмя моделями многошаговых рассуждений с отдельной поисковой системой, а также демонстрирует сопоставимую производительность с самым сильным базовым подходом, превосходя его на 3% на PopQA и 2WikiMultihopQA.
Итеративный RAG для многошагового ответа на вопросы сталкивается с проблемами при работе с длинными контекстами и накоплением нерелевантной информации. Это затрудняет способность модели обрабатывать и анализировать извлеченный контент, ограничивая её производительность. Хотя современные методы сосредоточены на сжатии извлеченной информации, они либо ограничены одношаговым RAG, требуют тонкой настройки, либо не масштабируются в итеративном RAG. Для решения этих проблем мы предлагаем метод "Записывание заметок", который генерирует краткие и релевантные заметки из извлеченных документов на каждом шаге, тем самым уменьшая шум и сохраняя только важную информацию. Это косвенно увеличивает эффективную длину контекста для больших языковых моделей (LLM), позволяя им более эффективно рассуждать и планировать при обработке больших объемов входного текста. Метод "Записывание заметок" не зависит от конкретной структуры и может быть интегрирован с различными итеративными методами RAG. Мы демонстрируем его эффективность на трех итеративных методах RAG, двух моделях и четырех наборах данных для оценки. "Записывание заметок" обеспечивает среднее улучшение на 15,6 процентных пунктов в целом при минимальном увеличении количества выходных токенов.
Временное рассуждение играет ключевую роль для больших языковых моделей (LLM) в понимании реального мира. Однако существующие работы упускают из виду реальные вызовы, связанные с временным рассуждением: (1) интенсивная временная информация, (2) быстро меняющаяся динамика событий и (3) сложные временные зависимости в социальных взаимодействиях. Чтобы устранить этот пробел, мы предлагаем многоуровневый бенчмарк TIME, разработанный для временного рассуждения в реальных сценариях. TIME состоит из 38 522 пар вопросов и ответов, охватывающих 3 уровня с 11 детализированными подзадачами. Этот бенчмарк включает 3 поднабора данных, отражающих различные реальные вызовы: TIME-Wiki, TIME-News и TIME-Dial. Мы провели обширные эксперименты на моделях рассуждения и моделях без рассуждения, а также выполнили глубокий анализ производительности временного рассуждения в различных реальных сценариях и задачах, обобщив влияние масштабирования на этапе тестирования на способности временного рассуждения. Дополнительно мы выпускаем TIME-Lite, аннотированный человеком поднабор данных, чтобы способствовать будущим исследованиям и стандартизированной оценке в области временного рассуждения. Код доступен по адресу https://github.com/sylvain-wei/TIME, а набор данных — по адресу https://huggingface.co/datasets/SylvainWei/TIME.
Улучшение лингвистических возможностей крупных языковых моделей (LLM) для включения малоресурсных языков является важным направлением исследований. Современные подходы в основном опираются на синтетические данные, созданные путем перевода английских корпусов, которые, хотя и демонстрируют перспективные способности в понимании и переводе, часто приводят к моделям, ориентированным на культуру исходного языка. Такие модели зачастую не отражают культурное наследие и ценности локальных сообществ. В данной работе предлагается методология создания как синтетических, так и основанных на извлечении данных для предварительного обучения, адаптированных под конкретное сообщество с учетом его (i) языка, (ii) культурного наследия и (iii) культурных ценностей. Мы демонстрируем нашу методологию на примере египетского и марокканского диалектов, выбранных за их лингвистическое и культурное богатство и текущую недостаточную представленность в LLM. В качестве доказательства концепции мы разрабатываем NileChat, LLM с 3 миллиардами параметров, адаптированную для египетского и марокканского сообществ, учитывающую их язык, культурное наследие и ценности. Наши результаты на различных тестах по пониманию, переводу, а также культурной и ценностной адаптации показывают, что NileChat превосходит существующие LLM, ориентированные на арабский язык, сопоставимые по размеру, и демонстрирует результаты на уровне более крупных моделей. Мы делимся нашими методами, данными и моделями с сообществом, чтобы способствовать включению и охвату более разнообразных сообществ в разработке LLM.
В данной статье мы представляем FuxiMT — новую китаецентричную модель машинного перевода, основанную на разреженной большой языковой модели (LLM). Мы применяем двухэтапную стратегию обучения FuxiMT. Сначала модель предварительно обучается на обширном китайском корпусе, а затем проводится многоязычная тонкая настройка на большом параллельном наборе данных, охватывающем 65 языков. FuxiMT включает в себя подход Mixture-of-Experts (MoEs) и использует стратегию обучения по учебному плану для обеспечения устойчивой производительности при различных уровнях ресурсов. Экспериментальные результаты показывают, что FuxiMT значительно превосходит сильные базовые модели, включая современные LLM и модели машинного перевода, особенно в условиях ограниченных ресурсов. Кроме того, FuxiMT демонстрирует впечатляющие возможности нулевого перевода для неизвестных языковых пар, что указывает на её потенциал для преодоления коммуникационных барьеров в ситуациях, когда параллельные данные отсутствуют или их недостаточно.
De novo секвенирование пептидов является важной задачей в протеомике. Однако производительность современных методов, основанных на глубоком обучении, ограничена присущей сложностью данных масс-спектрометрии и неоднородным распределением шумовых сигналов, что приводит к специфическим для данных смещениям. Мы представляем RankNovo — первую структуру глубокого переранжирования, которая улучшает de novo секвенирование пептидов, используя комплементарные преимущества нескольких моделей секвенирования. RankNovo применяет подход переранжирования на основе списка, моделируя кандидатные пептиды как множественные выравнивания последовательностей и используя осевое внимание для извлечения информативных признаков среди кандидатов. Кроме того, мы вводим две новые метрики — PMD (отклонение массы пептида) и RMD (остаточное отклонение массы), которые обеспечивают точный контроль, количественно оценивая различия в массе между пептидами на уровне последовательностей и остатков. Многочисленные эксперименты демонстрируют, что RankNovo не только превосходит базовые модели, используемые для генерации кандидатов для предварительного обучения переранжированию, но и устанавливает новый эталонный показатель. Более того, RankNovo демонстрирует сильную способность к обобщению в условиях zero-shot для невидимых моделей, чьи генерации не использовались во время обучения, что подчеркивает его устойчивость и потенциал в качестве универсальной структуры переранжирования для секвенирования пептидов. Наша работа представляет новую стратегию переранжирования, которая принципиально бросает вызов существующим парадигмам, основанным на одной модели, и продвигает границы точного de novo секвенирования. Исходный код доступен на GitHub.