Ежедневно отобранные исследовательские статьи по ИИ с переводами
Автономная обработка данных, начиная с исходных данных и заканчивая глубокими аналитическими отчетами, долгое время оставалась сложной задачей, но теперь становится осуществимой благодаря появлению мощных больших языковых моделей (LLM). Недавние агенты на основе рабочих процессов показали многообещающие результаты в решении конкретных задач, связанных с данными, но остаются принципиально ограниченными в достижении полной автономности из-за их зависимости от предопределенных рабочих процессов. В данной статье мы представляем DeepAnalyze-8B — первую агентскую LLM, разработанную для автономной обработки данных, способную автоматически выполнять сквозной процесс от источников данных до глубоких аналитических отчетов. Для решения задач высокой сложности в области обработки данных мы предлагаем учебно-ориентированную парадигму агентского обучения, которая имитирует траекторию обучения человеческих специалистов по данным, позволяя LLM постепенно приобретать и интегрировать множество навыков в реальных условиях. Мы также представляем фреймворк синтеза траекторий, основанный на данных, который создает высококачественные обучающие данные. Благодаря агентскому обучению DeepAnalyze учится выполнять широкий спектр задач, начиная с ответов на вопросы по данным и специализированных аналитических задач и заканчивая открытыми исследованиями данных. Эксперименты показывают, что, имея всего 8 миллиардов параметров, DeepAnalyze превосходит предыдущих агентов на основе рабочих процессов, построенных на самых передовых проприетарных LLM. Модель, код и обучающие данные DeepAnalyze находятся в открытом доступе, что открывает путь к автономной обработке данных.
Редактирование изображений достигло значительного прогресса в последнее время. Современные модели редактирования уже способны следовать сложным инструкциям для манипуляции исходным содержимым. Однако, помимо выполнения инструкций по редактированию, сопутствующие физические эффекты являются ключом к реалистичности генерации. Например, удаление объекта должно также устранять его тень, отражения и взаимодействия с близлежащими объектами. К сожалению, существующие модели и бенчмарки в основном сосредоточены на выполнении инструкций, но упускают из виду эти физические эффекты. Итак, насколько далеко мы находимся от физически реалистичного редактирования изображений? Чтобы ответить на этот вопрос, мы представляем PICABench, который систематически оценивает физическую реалистичность по восьми подразделам (охватывающим оптику, механику и переходы состояний) для большинства распространенных операций редактирования (добавление, удаление, изменение атрибутов и т.д.). Мы также предлагаем PICAEval, надежный протокол оценки, который использует VLM-как-судью с пошаговыми, региональными аннотациями и вопросами от человека. Помимо бенчмаркинга, мы также исследуем эффективные решения, изучая физику из видео, и создаем обучающий набор данных PICA-100K. После оценки большинства основных моделей мы наблюдаем, что физическая реалистичность остается сложной проблемой с большим пространством для исследований. Мы надеемся, что наш бенчмарк и предложенные решения послужат основой для будущих работ, направленных на переход от наивного редактирования содержимого к физически согласованной реалистичности.
Крупные языковые модели (LLMs) всё чаще полагаются на моделирование длинного контекста для задач, таких как понимание документов, анализ кода и многошаговые рассуждения. Однако масштабирование окон контекста до уровня в миллион токенов приводит к непомерным вычислительным и затратам памяти, что ограничивает практическую применимость LLMs с длинным контекстом. В данной работе мы предлагаем альтернативный подход — масштабирование визуального контекста — для решения этой проблемы. Вместо расширения последовательностей на основе токенов мы предлагаем Glyph, фреймворк, который преобразует длинные тексты в изображения и обрабатывает их с помощью моделей визуального языка (VLMs). Этот подход существенно сжимает текстовые входные данные, сохраняя при этом семантическую информацию, и мы дополнительно разрабатываем генетический поиск, управляемый LLM, для определения оптимальных конфигураций визуального рендеринга, балансирующих точность и сжатие. В ходе обширных экспериментов мы демонстрируем, что наш метод достигает сжатия токенов в 3-4 раза при сохранении точности, сопоставимой с ведущими LLMs, такими как Qwen3-8B, на различных бенчмарках с длинным контекстом. Это сжатие также приводит к ускорению предварительного заполнения и декодирования примерно в 4 раза и ускорению обучения SFT примерно в 2 раза. Более того, при экстремальном сжатии VLM с контекстом 128K может масштабироваться для обработки текстовых задач уровня 1M токенов. Кроме того, визуализированные текстовые данные полезны для реальных многомодальных задач, таких как понимание документов. Наш код и модель доступны по адресу https://github.com/thu-coai/Glyph.
Развитие моделей, объединяющих зрение и язык (VLMs), сдерживается фрагментированным ландшафтом неоднородных и загрязнённых публичных наборов данных. Мы представляем FineVision — тщательно собранный, обработанный и унифицированный корпус из 24 миллионов образцов, крупнейший открытый ресурс такого рода. Мы объединили более 200 источников в 185 подмножеств с помощью полуавтоматизированного конвейера с участием человека: автоматизация выполняет массовую загрузку и сопоставление схем, а рецензенты проверяют сопоставления и выборочно проверяют результаты, чтобы убедиться в точности использования аннотаций, корректности форматирования, разнообразии и безопасности; обнаруженные проблемы запускают целевые исправления и повторные прогоны. Рабочий процесс также включает строгую дедупликацию внутри и между источниками, а также очистку от загрязнений по сравнению с 66 публичными бенчмарками. FineVision также охватывает задачи, связанные с агентами и графическими интерфейсами, с унифицированным пространством действий; рецензенты проверяют схемы и анализируют выборку траекторий, чтобы подтвердить их исполнимость. Модели, обученные на FineVision, стабильно превосходят модели, обученные на существующих открытых смесях данных, в широком наборе оценок, что подчеркивает преимущества масштаба, чистоты данных и сбалансированной автоматизации с участием человека. Мы публикуем корпус и инструменты для обработки данных, чтобы ускорить исследования в области VLMs, ориентированные на данные.
Доминирующее предположение в исследованиях мультимодальных языковых моделей (MLLM) заключается в том, что их производительность в значительной степени наследуется от базовой языковой модели (LLM), учитывая её огромный масштаб параметров и выдающиеся возможности. Это создало пробел в понимании роли визуального энкодера, который определяет, как MLLM воспринимают изображения. Недавний сдвиг в парадигмах обучения MLLM, от контролируемого тонкого настройки (SFT) к обучению с подкреплением (RL), усиливает это упущение — а именно, значительный недостаток анализа того, как такое обучение изменяет визуальный энкодер, а также саму MLLM. Чтобы устранить этот пробел, мы сначала исследуем влияние стратегий обучения на MLLM, где RL демонстрирует явное преимущество перед SFT в задачах, сильно связанных с визуальным восприятием, таких как VQA. Вдохновлённые этим, мы проводим критический, но недостаточно изученный анализ визуального энкодера MLLM с помощью разнообразных и глубоких экспериментов, начиная от классификации и сегментации на ImageNet до визуализации градиентов. Наши результаты показывают, что стратегия пост-обучения MLLM (т.е. SFT или RL) не только приводит к различным результатам в задачах, связанных с MLLM, но и фундаментально изменяет лежащие в основе визуальные представления. В частности, ключевой вывод нашего исследования заключается в том, что RL создаёт более сильные и точно локализованные визуальные представления по сравнению с SFT, повышая способности визуального энкодера для MLLM. Затем мы переосмысливаем наши выводы в виде простого рецепта для создания мощных визуальных энкодеров для MLLM — Preference-Instructed Vision OpTimization (PIVOT). При интеграции в MLLM, визуальный энкодер, обученный с использованием PIVOT, превосходит даже более крупные и интенсивно обученные аналоги, несмотря на то, что требует менее 1% вычислительных затрат по сравнению со стандартным предварительным обучением визуальных моделей. Этот результат открывает эффективный и экономичный путь для улучшения визуальных компонентов MLLM. Страница проекта доступна по адресу https://june-page.github.io/pivot/.
Крупные языковые модели (LLM) демонстрируют значительный прогресс в выполнении сложных задач логического рассуждения, во многом благодаря парадигмам масштабирования на этапе тестирования (TTS), которые выделяют дополнительные вычислительные ресурсы во время вывода. Среди них внешнее TTS (в частности, парадигма выбора "Лучший из N") обеспечивает масштабируемое улучшение производительности за счет выбора из множества независимо сгенерированных траекторий рассуждений. Однако этот подход сталкивается с ключевыми ограничениями: (i) высокие вычислительные затраты на использование моделей оценки процесса, (ii) недостаточное использование внутренних латентных представлений LLM. Мы представляем TrajSelector, эффективный и результативный фреймворк "Лучший из N", который использует скрытые состояния в модели-семплере для оценки на уровне процесса. Легковесный верификатор (всего 0,6 млрд параметров) оценивает качество пошаговых траекторий, а затем агрегирует эти оценки для определения оптимальной траектории рассуждений. Наш фреймворк использует полностью управляемый данными, сквозной процесс обучения, который устраняет зависимость от массивных аннотаций на уровне шагов. Экспериментальные результаты на пяти бенчмарках показывают, что TrajSelector обеспечивает стабильное улучшение производительности. В настройках "Лучший из 32" он превосходит метод большинства голосов на 4,61% по точности и опережает существующие модели оценки процесса на 4,31% до 12,21%, сохраняя при этом более низкие затраты на вывод.
Генерация с усилением поиска (Retrieval-Augmented Generation, RAG) стала мощной парадигмой для улучшения больших языковых моделей (LLMs) за счет извлечения релевантных документов из внешнего корпуса. Однако существующие системы RAG в основном ориентированы на одноканальные текстовые документы и часто оказываются недостаточно эффективными в реальных сценариях, где как запросы, так и документы могут содержать смешанные модальности (например, текст и изображения). В данной работе мы рассматриваем задачу Универсальной Генерации с Усилением Поиска (Universal Retrieval-Augmented Generation, URAG), которая предполагает извлечение и анализ информации смешанных модальностей для улучшения генерации в задачах, связанных с обработкой визуально-текстовых данных. Для решения этой задачи мы предлагаем Nyx — унифицированный извлекатель смешанных модальностей, адаптированный для сценариев URAG. Чтобы преодолеть недостаток реалистичных данных смешанных модальностей, мы разработали четырехэтапный автоматизированный конвейер для генерации и фильтрации, используя веб-документы для создания NyxQA — набора данных, содержащего разнообразные пары вопросов и ответов смешанных модальностей, которые лучше отражают реальные информационные потребности. На основе этого высококачественного набора данных мы применяем двухэтапную структуру обучения для Nyx: сначала выполняем предварительное обучение на NyxQA вместе с различными открытыми наборами данных для извлечения, а затем проводим контролируемую тонкую настройку с использованием обратной связи от моделей обработки визуально-текстовых данных (VLMs) для согласования результатов извлечения с предпочтениями генерации. Экспериментальные результаты показывают, что Nyx не только демонстрирует конкурентоспособные результаты на стандартных тестах RAG для текстовых данных, но и превосходит в более общем и реалистичном сценарии URAG, значительно улучшая качество генерации в задачах обработки визуально-текстовых данных.
Крупные языковые модели демонстрируют высокую производительность в задачах, требующих логического мышления, решая задачи уровня соревнований по программированию и математике. Однако их масштабируемость ограничена наборами данных, размеченных вручную, и отсутствием крупномасштабных сложных данных для обучения в области программирования. Существующие наборы данных для соревновательного программирования содержат лишь тысячи или десятки тысяч задач. Предыдущие методы генерации синтетических данных основывались либо на расширении существующих наборов инструкций, либо на выборе сложных задач из данных, размеченных вручную. В данной работе мы предлагаем QueST — новый фреймворк, который сочетает в себе выборку графов с учетом сложности и тонкую настройку с отбраковкой, также учитывающую сложность, что позволяет напрямую оптимизировать специализированные генераторы для создания сложных задач по программированию. Наши обученные генераторы демонстрируют превосходные возможности по сравнению даже с GPT-4o в создании сложных задач, которые улучшают производительность в последующих задачах. Мы используем QueST для генерации крупномасштабных синтетических задач по программированию, которые затем применяем для дистилляции знаний из мощных моделей-учителей с длинными цепочками рассуждений или для проведения обучения с подкреплением для более компактных моделей, что доказывает свою эффективность в обоих сценариях. Наши эксперименты по дистилляции демонстрируют значительное улучшение производительности. В частности, после тонкой настройки модели Qwen3-8B-base на 100 тыс. сложных задач, сгенерированных QueST, мы превосходим производительность оригинальной Qwen3-8B на тесте LiveCodeBench. С дополнительными 112 тыс. примерами (т.е. 28 тыс. задач, написанных вручную, в паре с несколькими синтетическими решениями), наша 8B модель достигает производительности значительно более крупной модели DeepSeek-R1-671B. Эти результаты указывают на то, что генерация сложных задач с помощью QueST предлагает эффективный и масштабируемый подход для продвижения границ соревновательного программирования и логического мышления в крупных языковых моделях.
Ансамблирование больших языковых моделей (LLM) привлекает внимание как перспективный подход, позволяющий превзойти производительность отдельных моделей за счет использования их взаимодополняющих сильных сторон. В частности, агрегирование распределений вероятностей следующего токена для выбора следующего токена показало свою эффективность в различных задачах. Однако, хотя этот метод успешен для кратких ответов, его применение к генерации длинных текстов остается недостаточно изученным. В данной работе мы показываем, что использование существующих методов ансамблирования в генерации длинных текстов требует тщательного выбора позиций для ансамблирования, поскольку стандартная практика ансамблирования на каждом токене часто приводит к ухудшению производительности. Мы выделяем два ключевых фактора для определения этих позиций: несоответствие токенизации между моделями и согласованность в их распределениях вероятностей следующего токена. На основе этого мы предлагаем SAFE (Stable And Fast LLM Ensembling), фреймворк, который выборочно ансамблирует, учитывая оба этих фактора. Для дальнейшего повышения стабильности мы вводим стратегию заострения вероятностей, которая объединяет вероятности, распределенные по нескольким субтокенам, представляющим одно и то же слово, в один репрезентативный токен. Наши эксперименты на различных бенчмарках, включая MATH500 и BBH, демонстрируют, что SAFE превосходит существующие методы как по точности, так и по эффективности, достигая улучшений даже при ансамблировании менее 1% токенов.
Хотя базовые модели продемонстрировали перспективность в различных областях, астрономия до сих пор не имеет единой структуры для совместного моделирования её чрезвычайно разнообразных модальностей данных. В данной статье мы представляем AION-1 — семейство крупномасштабных мультимодальных базовых моделей для астрономии. AION-1 интегрирует гетерогенные данные изображений, спектроскопии и скалярные данные с использованием двухэтапной архитектуры: модально-специфичной токенизации, за которой следует трансформерное маскированное моделирование кросс-модальных последовательностей токенов. Модель предварительно обучается на пяти крупномасштабных обзорах: Legacy Survey, Hyper Suprime-Cam (HSC), Sloan Digital Sky Survey (SDSS), Dark Energy Spectroscopic Instrument (DESI) и Gaia. Эти данные охватывают более 200 миллионов наблюдений звёзд, галактик и квазаров. С использованием одного замороженного энкодера AION-1 демонстрирует высокие результаты на широком спектре задач, включая оценку свойств галактик и звёзд, классификацию морфологии галактик, поиск по сходству, сегментацию изображений галактик и спектральное супер-разрешение. Мы выпускаем варианты модели AION-1 с количеством параметров от 300 миллионов до 3,1 миллиарда. Помимо астрономии, AION-1 предоставляет масштабируемый шаблон для мультимодальных научных базовых моделей, способных бесшовно интегрировать зашумлённые, инструментально-специфичные наблюдения. Весь код, токенизаторы, предварительно обученные веса и лёгкий набор для оценки выпускаются под открытой лицензией.
Хотя масштабирование во время вывода с использованием поиска произвело революцию в больших языковых моделях, перенести эти достижения на генерацию изображений оказалось сложно. Недавние попытки применить стратегии поиска к непрерывным диффузионным моделям показали ограниченные преимущества, причем простой случайный выбор часто оказывается наиболее эффективным. Мы демонстрируем, что дискретная, последовательная природа визуальных авторегрессионных моделей позволяет эффективно использовать поиск для генерации изображений. Мы показываем, что поиск по лучу значительно улучшает генерацию изображений по тексту, позволяя авторегрессионной модели с 2 миллиардами параметров превзойти диффузионную модель с 12 миллиардами параметров в различных тестах. Систематические исследования показывают, что это преимущество связано с дискретным пространством токенов, которое позволяет раннее отсечение и повторное использование вычислений, а наш анализ верификатора подчеркивает компромиссы между скоростью и способностью к рассуждению. Эти результаты указывают на то, что архитектура модели, а не только масштаб, играет ключевую роль в оптимизации вывода в визуальной генерации.
Выравнивание честности — способность крупных языковых моделей (LLM) распознавать границы своих знаний и выражать калиброванную уверенность — является ключевым для надежного внедрения. Существующие методы либо полагаются на оценку уверенности без обучения (например, вероятности токенов, самосогласованность), либо на калибровку с обучением с использованием аннотаций правильности. Хотя эти методы эффективны, достижение универсального выравнивания честности с калибровкой на основе обучения требует дорогостоящего масштабного аннотирования. Для поддержки обучения с минимальным объемом аннотаций мы представляем Elicitation-Then-Calibration (EliCal) — двухэтапную структуру, которая сначала выявляет внутреннюю уверенность с использованием недорогого контроля самосогласованности, а затем калибрует эту уверенность с небольшим набором аннотаций правильности. Для проведения масштабного исследования мы выпускаем HonestyBench — бенчмарк, охватывающий десять наборов данных с вопросами в свободной форме, включающий 560 тыс. обучающих и 70 тыс. оценочных примеров, аннотированных сигналами правильности и самосогласованности. Эксперименты показывают, что EliCal достигает почти оптимального выравнивания с использованием всего 1 тыс. аннотаций правильности (0,18% от полного контроля) и демонстрирует лучшую производительность по выравниванию на неизвестных задачах MMLU по сравнению с базовым подходом, использующим только калибровку, предлагая масштабируемое решение для универсального выравнивания честности в LLM.
Редактирование изображений на основе инструкций достигло значительных успехов; однако модели, обученные исключительно с помощью контролируемой тонкой настройки, часто переобучаются на аннотированных шаблонах, что ограничивает их способность исследовать и обобщать за пределами обучающих распределений. В связи с этим мы представляем Edit-R1 — новый посттренировочный фреймворк для редактирования изображений на основе инструкций, основанный на оптимизации политик. В частности, мы используем Diffusion Negative-aware Finetuning (DiffusionNFT) — метод оптимизации политик, не требующий вычисления правдоподобия и согласованный с процессом прямого согласования потоков, что позволяет использовать сэмплеры более высокого порядка и более эффективное обучение. Еще одной ключевой проблемой является отсутствие универсальной модели вознаграждения, обусловленное разнообразием инструкций и задач редактирования. Для преодоления этого разрыва мы применяем Мультимодальную Большую Языковую Модель (MLLM) в качестве унифицированной, не требующей обучения модели вознаграждения, используя её выходные логиты для предоставления детализированной обратной связи. Кроме того, мы тщательно разрабатываем механизм фильтрации с низкой дисперсией для снижения шума в оценках MLLM и стабилизации оптимизации. UniWorld-V2, обученная с использованием этого фреймворка, достигает наилучших результатов на бенчмарках ImgEdit и GEdit-Bench, набирая 4.49 и 7.83 балла соответственно. Важно отметить, что наш фреймворк является модельно-независимым, обеспечивая значительное улучшение производительности при применении к различным базовым моделям, таким как Qwen-Image-Edit и FLUX-Kontext, что демонстрирует его широкую применимость. Код и модели доступны по адресу https://github.com/PKU-YuanGroup/UniWorld-V2.
Последние достижения в методах управления вниманием без обучения позволили обеспечить гибкие и эффективные возможности редактирования на основе текста для существующих моделей генерации. Однако современные подходы сталкиваются с трудностями в одновременном достижении высокой силы редактирования и сохранения согласованности с исходным материалом. Это ограничение становится особенно критичным в многократном и видео-редактировании, где визуальные ошибки могут накапливаться со временем. Более того, большинство существующих методов обеспечивают глобальную согласованность, что ограничивает их способность изменять отдельные атрибуты, такие как текстура, сохраняя при этом другие, тем самым затрудняя детализированное редактирование. Недавний архитектурный переход от U-Net к MM-DiT привел к значительным улучшениям в генеративной производительности и представил новый механизм интеграции текстовых и визуальных модальностей. Эти достижения открывают путь к преодолению проблем, которые предыдущие методы не смогли решить. В результате детального анализа MM-DiT мы выделяем три ключевых аспекта, касающихся его механизмов внимания. На основе этих аспектов мы предлагаем ConsistEdit — новый метод управления вниманием, специально разработанный для MM-DiT. ConsistEdit включает управление вниманием только на основе визуальных данных, предварительное слияние с использованием масок и дифференцированное управление токенами запроса, ключа и значения для создания согласованных и соответствующих запросу правок. Многочисленные эксперименты демонстрируют, что ConsistEdit достигает наилучших результатов в широком спектре задач редактирования изображений и видео, включая как сценарии с сохранением структуры, так и без нее. В отличие от предыдущих методов, это первый подход, который выполняет редактирование на всех этапах вывода и слоях внимания без ручной настройки, значительно повышая надежность и согласованность, что позволяет реализовать устойчивое многократное и многорегиональное редактирование. Кроме того, он поддерживает прогрессивную настройку структурной согласованности, обеспечивая более точный контроль.
Воспроизведение исследований в области искусственного интеллекта является важной, но сложной задачей для агентов, работающих с большими языковыми моделями (LLM). Существующие подходы часто сталкиваются с трудностями при генерации исполняемого кода, что в первую очередь связано с недостаточным объемом фоновых знаний и ограничениями методов генерации, усиленной поиском (RAG), которые не способны уловить скрытые технические детали, содержащиеся в упомянутых научных работах. Кроме того, предыдущие подходы склонны игнорировать ценные сигналы на уровне реализации кода и не обладают структурированными представлениями знаний, которые поддерживают многоуровневый поиск и повторное использование. Для преодоления этих проблем мы предлагаем Исполняемые графы знаний (xKG) — модульную и подключаемую базу знаний, которая автоматически интегрирует технические инсайты, фрагменты кода и предметно-ориентированные знания, извлеченные из научной литературы. При интеграции в три фреймворка агентов с использованием двух различных LLM, xKG демонстрирует значительное улучшение производительности (10,9% с o3-mini) на тестовом наборе PaperBench, подтверждая свою эффективность в качестве универсального и расширяемого решения для автоматизированного воспроизведения исследований в области ИИ. Код будет доступен по адресу https://github.com/zjunlp/xKG.
Длинные цепочки рассуждений стали краеугольным камнем продвинутого мышления в крупных языковых моделях. Хотя недавние фреймворки верификации и уточнения позволили проприетарным моделям решать задачи уровня олимпиад, их эффективность зависит от сильных и надежных возможностей проверки и исправления, которые остаются хрупкими в открытых, менее масштабных моделях. В данной работе показано, что даже при слабых возможностях верификации и уточнения на сложных задачах, пределы рассуждений таких моделей могут быть существенно расширены с помощью вероятностной парадигмы, которую мы называем Глубоким Саморазвивающимся Рассуждением (DSER). Мы концептуализируем итеративное рассуждение как марковскую цепь, где каждый шаг представляет собой стохастический переход в пространстве решений. Ключевая идея заключается в том, что сходимость к правильному решению гарантирована, если вероятность улучшения хотя бы немного превышает вероятность ухудшения. Запуская несколько долгосрочных, саморазвивающихся процессов параллельно, DSER усиливает эти небольшие положительные тенденции, позволяя модели асимптотически приближаться к правильным ответам. Эмпирически мы применяем DSER к модели DeepSeek-R1-0528-Qwen3-8B. На сложном бенчмарке AIME 2024-2025 DSER решает 5 из 9 ранее нерешаемых задач и повышает общую производительность, позволяя этой компактной модели превзойти точность одношагового решения своей 600-миллиардной учительской модели с помощью голосования большинством. Помимо непосредственной пользы для масштабирования на этапе тестирования, фреймворк DSER служит для диагностики фундаментальных ограничений текущих открытых моделей рассуждений. Четко обозначая их недостатки в самопроверке, уточнении и стабильности, наши результаты устанавливают четкую исследовательскую программу для разработки моделей следующего поколения с мощными, внутренними возможностями саморазвития.
Предобученные модели временных рядов сделали возможными системы прогнозирования, работающие исключительно на выводе и обеспечивающие точные предсказания без необходимости обучения для конкретной задачи. Однако существующие подходы в основном сосредоточены на одномерном прогнозировании, что ограничивает их применимость в реальных сценариях, где многомерные данные и ковариаты играют ключевую роль. Мы представляем Chronos-2, предобученную модель, способную выполнять задачи одномерного, многомерного и прогнозирования с учетом ковариат в режиме "zero-shot". Chronos-2 использует механизм группового внимания, который способствует обучению в контексте (in-context learning, ICL) за счет эффективного обмена информацией между несколькими временными рядами в группе, которая может представлять наборы связанных рядов, переменные многомерного ряда или целевые показатели и ковариаты в задаче прогнозирования. Эти общие возможности достигаются за счет обучения на синтетических наборах данных, которые накладывают разнообразные многомерные структуры на одномерные ряды. Chronos-2 демонстрирует наилучшую производительность в трех комплексных тестах: fev-bench, GIFT-Eval и Chronos Benchmark II. На fev-bench, который акцентирует внимание на многомерном прогнозировании и прогнозировании с учетом ковариат, универсальные возможности ICL Chronos-2 приводят к значительному улучшению по сравнению с существующими моделями. В задачах, связанных с ковариатами, она стабильно превосходит базовые модели с большим отрывом. Кейс-стади в энергетической и розничной областях дополнительно подчеркивают ее практические преимущества. Возможности обучения в контексте Chronos-2 делают ее универсальной моделью прогнозирования, которую можно использовать "как есть" в реальных конвейерах прогнозирования.
Быстрая эволюция агентного ИИ знаменует собой новый этап в области искусственного интеллекта, где крупные языковые модели (LLM) больше не просто реагируют, а действуют, рассуждают и адаптируются. В этом обзоре прослеживается смена парадигмы в создании агентного ИИ: от систем на основе конвейеров, где планирование, использование инструментов и память управляются внешней логикой, к новой парадигме Model-native, где эти возможности интегрированы в параметры модели. Сначала мы рассматриваем обучение с подкреплением (RL) как алгоритмический механизм, обеспечивающий этот сдвиг. Переосмысливая обучение от имитации статических данных к исследованию, ориентированному на результат, RL лежит в основе унифицированного подхода LLM + RL + Task, охватывающего языковые, визуальные и воплощенные области. На основе этого обзор систематически рассматривает, как каждая из возможностей — планирование, использование инструментов и память — эволюционировала от внешне скриптованных модулей к поведению, обученному end-to-end. Кроме того, исследуется, как этот сдвиг парадигмы изменил основные приложения агентов, в частности агента Deep Research, акцентирующего долгосрочное рассуждение, и GUI-агента, ориентированного на воплощенное взаимодействие. В заключение обсуждается дальнейшая интеграция агентных возможностей, таких как многокомпонентное сотрудничество и рефлексия, а также эволюция ролей системного и модельного уровней в будущем агентном ИИ. Вместе эти разработки очерчивают последовательную траекторию к Model-native агентному ИИ как интегрированной системе обучения и взаимодействия, знаменуя переход от создания систем, применяющих интеллект, к разработке моделей, которые развивают интеллект через опыт.
Лаборатория Codec Avatars компании Meta представляет Embody 3D — мультимодальный набор данных, содержащий 500 индивидуальных часов 3D-данных о движении, собранных от 439 участников в многокамерной съемочной студии, что составляет более 54 миллионов кадров отслеженного 3D-движения. Набор данных включает широкий спектр движений одного человека, таких как заданные движения, жесты руками и перемещения, а также данные о поведении и взаимодействии нескольких людей, включая обсуждения, разговоры в различных эмоциональных состояниях, совместные действия и сценарии совместного проживания в пространстве, напоминающем квартиру. Мы предоставляем отслеженное движение человека, включая движение рук и форму тела, текстовые аннотации, а также отдельные аудиодорожки для каждого участника.
Последние достижения в области генерации изображений, часто обусловленные проприетарными системами, такими как GPT-4o Image Gen, регулярно вводят новые возможности, которые меняют способы взаимодействия пользователей с этими моделями. Существующие бенчмарки часто отстают и не учитывают эти новые сценарии использования, создавая разрыв между восприятием прогресса сообществом и формальной оценкой. Чтобы решить эту проблему, мы представляем ECHO — фреймворк для создания бенчмарков непосредственно на основе реальных примеров использования моделей: постов в социальных сетях, демонстрирующих новые запросы и качественные оценки пользователей. Применяя этот фреймворк к GPT-4o Image Gen, мы создали набор данных из более чем 31 000 запросов, отобранных из таких постов. Наш анализ показывает, что ECHO (1) выявляет творческие и сложные задачи, отсутствующие в существующих бенчмарках, такие как перерисовка этикеток продуктов на разных языках или генерация чеков с указанными суммами, (2) более четко отличает передовые модели от альтернатив и (3) выявляет отзывы сообщества, которые мы используем для разработки метрик качества моделей (например, измерение наблюдаемых изменений в цвете, идентичности и структуре). Наш сайт доступен по адресу https://echo-bench.github.io.
Агентное обучение с подкреплением (RL) обучает крупные языковые модели автономно вызывать инструменты в процессе рассуждения, причем поиск является наиболее распространенным применением. Эти модели превосходно справляются с задачами многошагового рассуждения, однако их свойства безопасности изучены недостаточно. В данном исследовании мы показываем, что модели поиска, обученные с помощью RL, наследуют отказ от выполнения инструкций и часто отклоняют вредоносные запросы, преобразуя их в безопасные запросы. Однако эта безопасность является хрупкой. Две простые атаки — одна, которая заставляет модель начинать ответ с поиска (атака "Search attack"), и другая, которая побуждает модели многократно выполнять поиск (атака "Multi-search attack"), — вызывают каскады вредоносных поисков и ответов. В двух семействах моделей (Qwen, Llama) как с локальным, так и с веб-поиском эти атаки снижают уровень отказов до 60,0%, безопасность ответов — на 82,5%, а безопасность поисковых запросов — на 82,4%. Атаки успешны, поскольку заставляют модели генерировать вредоносные поисковые запросы, отражающие запросы, до того, как они смогут сгенерировать унаследованные токены отказа. Это выявляет ключевую слабость текущего обучения RL: оно вознаграждает продолжение генерации эффективных запросов без учета их вредоносности. В результате модели поиска RL имеют уязвимости, которые пользователи могут легко эксплуатировать, что делает срочным разработку безопасных агентных RL-конвейеров, оптимизированных для безопасного поиска.
Мультимодальные агенты для работы с компьютером полагаются исключительно на примитивные действия (клик, ввод текста, прокрутка), которые требуют точного визуального заземления и длинных цепочек выполнения, что приводит к каскадным сбоям и узким местам в производительности. В то время как другие агенты используют богатые программные интерфейсы (API, серверы MCP, инструменты), агенты для работы с компьютером (CUAs) остаются изолированными от этих возможностей. Мы представляем UltraCUA, базовую модель, которая устраняет этот разрыв за счет гибридных действий — бесшовного интегрирования примитивов графического интерфейса с вызовами высокоуровневых программных инструментов. Для достижения этого наш подход включает четыре ключевых компонента: (1) автоматизированный конвейер, который масштабирует программные инструменты на основе документации, открытых репозиториев и генерации кода; (2) синтетический механизм данных, создающий более 17 000 проверяемых задач, охватывающих реальные сценарии работы с компьютером; (3) крупномасштабный сбор высококачественных траекторий гибридных действий, включающих как низкоуровневые действия графического интерфейса, так и высокоуровневые вызовы программных инструментов; и (4) двухэтапный конвейер обучения, сочетающий тонкую настройку с обучением с подкреплением в реальном времени, что позволяет стратегически чередовать низкоуровневые и высокоуровневые действия. Эксперименты с нашими моделями на 7B и 32B параметров демонстрируют значительные улучшения по сравнению с современными агентами. На платформе OSWorld модели UltraCUA достигают среднего относительного улучшения на 22% по сравнению с базовыми моделями, при этом выполняя шаги на 11% быстрее. Оценка вне домена на WindowsAgentArena показывает, что наша модель достигает уровня успешности 21,7%, превосходя базовые модели, обученные на данных Windows. Гибридный механизм действий оказывается критически важным, снижая распространение ошибок при сохранении эффективности выполнения.
С экспоненциальным ростом объема информации предприятия сталкиваются с растущим давлением необходимости преобразования неструктурированных данных в последовательные, пригодные для использования выводы. Хотя автономные агенты демонстрируют потенциал, они часто сталкиваются с трудностями в понимании специфических нюансов предметной области, согласовании намерений и интеграции в корпоративные системы. Мы представляем Enterprise Deep Research (EDR), многоагентную систему, которая объединяет (1) Главный планирующий агент для адаптивного декомпозирования запросов, (2) четыре специализированных поисковых агента (Общий, Академический, GitHub, LinkedIn), (3) расширяемую экосистему инструментов на основе MCP, поддерживающую NL2SQL, анализ файлов и корпоративные рабочие процессы, (4) Агент визуализации для получения выводов на основе данных и (5) механизм рефлексии, который выявляет пробелы в знаниях и обновляет направление исследований с возможностью участия человека в процессе управления. Эти компоненты позволяют автоматизировать генерацию отчетов, потоковую передачу данных в реальном времени и бесшовное внедрение в корпоративные системы, что подтверждено на внутренних наборах данных. На открытых тестах, включая DeepResearch Bench и DeepConsult, EDR превосходит современные агентные системы без какого-либо участия человека. Мы публикуем фреймворк EDR и траектории тестирования для продвижения исследований в области приложений многоагентного рассуждения. Код доступен по адресу: https://github.com/SalesforceAIResearch/enterprise-deep-research Набор данных: https://huggingface.co/datasets/Salesforce/EDR-200
Визуальное ответы на вопросы на основе знаний (KB-VQA) требуют от визуально-языковых моделей (VLMs) интеграции визуального понимания с извлечением внешних знаний. Хотя подход, основанный на генерации с использованием извлечения (RAG), достигает значительных успехов в этой задаче за счет комбинирования запросов к базам знаний, он всё ещё сталкивается с проблемами качества мультимодальных запросов и релевантности извлечённых результатов. Для преодоления этих трудностей мы предлагаем новый трёхэтапный метод, названный Wiki-PRF, включающий этапы обработки, извлечения и фильтрации. На этапе обработки динамически вызываются визуальные инструменты для извлечения точной мультимодальной информации для последующего извлечения. На этапе извлечения интегрируются визуальные и текстовые признаки для достижения мультимодального извлечения знаний. На этапе фильтрации выполняется релевантная фильтрация и концентрация на результатах извлечения. Для этого мы представляем визуально-языковую модель, обученную с использованием точности ответов и согласованности формата в качестве сигналов вознаграждения через подход обучения с подкреплением. Это улучшает способность модели к рассуждению, вызову инструментов для точных запросов и фильтрации нерелевантного содержимого. Эксперименты на эталонных наборах данных (E-VQA и InfoSeek) показывают значительные улучшения (36.0 и 42.8) в качестве ответов, достигая наилучших результатов. Код доступен по адресу https://github.com/cqu-student/Wiki-PRF.
Крупные языковые модели (LLM), такие как OpenAI-o1 и DeepSeek-R1, продемонстрировали высокие способности к рассуждению. Для дальнейшего улучшения возможностей LLM современные агентские системы, такие как Deep Research, интегрируют взаимодействие с веб-ресурсами в процесс рассуждения LLM, чтобы снизить неопределенности и уменьшить потенциальные ошибки. Однако существующие исследования в основном сосредоточены на производительности рассуждений, часто упуская из виду эффективность агентских систем. В данной работе мы представляем всестороннее эмпирическое исследование, которое выявляет узкие места в эффективности веб-интерактивных агентских систем. Мы разбиваем общую задержку на два основных компонента: задержку API LLM и задержку веб-среды. Мы проводим всестороннее эмпирическое исследование на 15 моделях и 5 провайдерах, чтобы продемонстрировать высокую вариативность в агентских системах, основанных на API. Мы наблюдаем, что задержка веб-среды может составлять до 53,7% от общей задержки в веб-агентской системе. Для улучшения задержки мы предлагаем SpecCache — кэширующую структуру, дополненную спекулятивным выполнением, которая может снизить накладные расходы веб-среды. Обширные оценки на двух стандартных тестовых наборах показывают, что наш подход увеличивает коэффициент попадания в кэш до 58 раз по сравнению со стратегией случайного кэширования, одновременно снижая накладные расходы веб-среды до 3,2 раз, без ухудшения производительности агентской системы.
Модели, объединяющие зрение и язык (Vision-and-Language Models, VLMs), демонстрируют впечатляющие результаты на бенчмарках с одношаговыми задачами, однако реальные приложения часто требуют более сложных многошаговых диалогов. Существующие наборы данных для многошаговых диалогов (например, MMDU, ConvBench) лишь частично охватывают широту и глубину сценариев общения, с которыми сталкиваются пользователи. В данной работе мы представляем MultiVerse — новый бенчмарк для многошаговых диалогов, включающий 647 диалогов, каждый из которых в среднем состоит из четырех шагов, созданных на основе 12 популярных бенчмарков для оценки VLMs. С 484 задачами и 484 целями взаимодействия MultiVerse охватывает широкий спектр тем, от фактических знаний и восприятия до сложных задач на логическое мышление, таких как математика и программирование. Для обеспечения надежной оценки мы предлагаем метод оценки на основе контрольного списка, использующий GPT-4o в качестве автоматического оценщика, измеряющего производительность по 37 ключевым аспектам, включая точность восприятия, ясность языка и достоверность фактов. Мы оцениваем 18 VLMs на MultiVerse и обнаруживаем, что даже самые мощные модели (например, GPT-4o) достигают лишь 50% успеха в сложных многошаговых диалогах, что подчеркивает сложность набора данных. Примечательно, что предоставление полного контекста диалога значительно улучшает производительность для более слабых или компактных моделей, что подчеркивает важность обучения в контексте. Мы считаем, что MultiVerse представляет собой важный инструмент для оценки способностей VLMs к многошаговому взаимодействию.
Последние достижения в области крупных моделей рассуждений (LRMs) позволили добиться впечатляющих результатов в решении сложных задач, таких как математика и программирование, за счет генерации длинных цепочек рассуждений (Chain-of-Thought, CoT). В данной работе мы выявляем и систематически анализируем критическую уязвимость, которую называем "отвлечением рассуждений", когда LRMs отклоняются от основной цели из-за нерелевантных, но сложных задач, злонамеренно встроенных в запрос. В ходе всестороннего исследования на различных моделях и тестовых наборах мы показываем, что даже самые передовые LRMs крайне подвержены этой уязвимости, причем внедренные отвлекающие факторы снижают точность выполнения задач до 60%. Мы также обнаруживаем, что определенные методы согласования могут усиливать эту слабость, а модели могут демонстрировать скрытое подчинение, следуя замаскированным враждебным инструкциям в процессе рассуждений, но скрывая их в конечном выводе. Для снижения этих рисков мы предлагаем метод защиты на основе обучения, который сочетает контролируемую тонкую настройку (Supervised Fine-Tuning, SFT) и обучение с подкреплением (Reinforcement Learning, RL) на синтетических данных с атаками, повышая устойчивость более чем на 50 пунктов при сложных атаках с отвлечением. Наши результаты устанавливают "отвлечение рассуждений" как отдельную и актуальную угрозу надежности LRMs и предлагают практический шаг к созданию более безопасных и надежных систем рассуждений.
Тонкая настройка специализированных генеративных оценщиков стала популярной парадигмой для удовлетворения растущего спроса на масштабируемую оценку как во время обучения, так и на этапе тестирования. Однако в последних работах основное внимание уделялось применению новых методологий, таких как обучение с подкреплением (RL), для тренировки оценщиков, избегая крупномасштабной разработки, основанной на данных. В данной работе мы сосредоточились на масштабировании данных, собрав набор из 2,5 миллионов образцов, охватывающих пять уникальных задач оценки (попарное сравнение, пошаговая оценка, проверка без эталона и с эталоном, а также единичная оценка) и несколько областей, связанных с оценкой рассуждений. Используя наши данные, мы обучили семейство Foundational Automatic Reasoning Evaluators (FARE) — оценщиков с 8 миллиардами и 20 миллиардами параметров (с активными 3,6 миллиардами), применяя простой итеративный подход тонкой настройки с использованием метода отбора с отклонением (SFT). FARE-8B конкурирует с более крупными специализированными оценщиками, обученными с помощью RL, а FARE-20B устанавливает новый стандарт для открытых оценщиков, превосходя специализированные модели с 70+ миллиардами параметров. Помимо статических бенчмарков, мы оценили FARE в реальных задачах: в качестве ранкеров на этапе вывода FARE-20B достигает почти оптимальной производительности на наборе данных MATH. В качестве верификаторов в обучении с подкреплением FARE улучшает производительность модели, обученной с помощью RL, на 14,1% по сравнению с верификаторами, основанными на сопоставлении строк. При инициализации на основе FARE, постоянно донастраиваемый FARE-Code превосходит gpt-oss-20B на 65% в оценке качества тестовых случаев.
Если бы у вас был ИИ-переводчик с языка китов на английский, как бы вы могли проверить, работает ли он? Нужно ли взаимодействовать с животными или полагаться на объективные наблюдения, такие как температура? Мы предоставляем теоретические и экспериментальные доказательства концепции, которые предполагают, что взаимодействие и даже наблюдения могут быть не обязательными для достаточно сложных языков. Возможно, можно оценивать переводчиков исключительно по их английским выводам, что предлагает потенциальные преимущества с точки зрения безопасности, этики и затрат. Это пример оценки качества машинного перевода (MTQE) без доступных эталонных переводов. Ключевой задачей является выявление «галлюцинаций» — ложных переводов, которые могут казаться беглыми и правдоподобными. Мы предлагаем использовать поэтапный перевод вместе с классическим NLP shuffle тестом для оценки переводчиков. Идея заключается в том, чтобы переводить коммуникацию животных шаг за шагом и оценивать, насколько чаще полученные переводы имеют смысл в правильном порядке, чем в переставленном. Эксперименты по проверке концепции на малодоступных человеческих языках и искусственных языках демонстрируют потенциальную полезность этой методики оценки. Эти эксперименты с человеческими языками служат исключительно для проверки нашей метрики без эталонов в условиях недостатка данных. Было обнаружено, что она сильно коррелирует со стандартной оценкой, основанной на эталонных переводах, которые доступны в наших экспериментах. Мы также проводим теоретический анализ, который предполагает, что взаимодействие может быть не необходимым и не эффективным на ранних этапах обучения переводу.
В данной работе представлено систематическое исследование специализированных архитектур сверточных нейронных сетей для классификации землепользования по спутниковым снимкам, достигающее точности 97,23% на тестовом наборе данных EuroSAT без использования предварительно обученных моделей. В ходе трех последовательных итераций архитектуры (базовая: 94,30%, с улучшением CBAM: 95,98% и сбалансированная многозадачная модель внимания: 97,23%) мы выявили и устранили характерные ошибки в классификации спутниковых изображений. Основной вклад работы заключается в предложении нового механизма сбалансированного многозадачного внимания, который объединяет Coordinate Attention для извлечения пространственных признаков и блоки Squeeze-Excitation для извлечения спектральных признаков, связанных через обучаемый параметр слияния. Экспериментальные результаты показывают, что этот обучаемый параметр автономно сходится к значению альфа ≈ 0,57, что указывает на почти равную важность пространственных и спектральных модальностей для спутниковых изображений. Мы применяем прогрессивную регуляризацию DropBlock (5-20% в зависимости от глубины сети) и взвешивание потерь с учетом баланса классов для борьбы с переобучением и дисбалансом в паттернах ошибок. Финальная 12-слойная архитектура достигает коэффициента Каппа Коэна 0,9692, при этом точность для всех классов превышает 94,46%, демонстрируя калибровку уверенности с разрывом в 24,25% между правильными и ошибочными предсказаниями. Наш подход показывает результат, отличающийся всего на 1,34% от точности дообученной модели ResNet-50 (98,57%), при этом не требуя внешних данных, что подтверждает эффективность систематического проектирования архитектур для задач в конкретных предметных областях. Полный код, обученные модели и скрипты для оценки доступны в открытом доступе.
Создание эффективных агентных систем требует бесшовной композиции и интеграции агентов, инструментов и моделей в динамических и неопределенных средах. Большинство существующих методов полагаются на статические семантические подходы для поиска инструментов или агентов. Однако эффективное повторное использование и композиция существующих компонентов остаются сложными задачами из-за неполных описаний возможностей и ограничений методов поиска. Выбор компонентов страдает, поскольку решения не основываются на возможностях, стоимости и полезности в реальном времени. Для решения этих проблем мы представляем структурированный автоматизированный фреймворк для композиции агентных систем, вдохновленный задачей о рюкзаке. Наш фреймворк позволяет агенту-композитору систематически идентифицировать, выбирать и собирать оптимальный набор агентных компонентов, учитывая производительность, бюджетные ограничения и совместимость. Динамически тестируя кандидатов и моделируя их полезность в реальном времени, наш подход упрощает сборку агентных систем и способствует масштабируемому повторному использованию ресурсов. Эмпирическая оценка с использованием Claude 3.5 Sonnet на пяти наборах данных показывает, что наш композитор на основе онлайн-задачи о рюкзаке стабильно находится на границе Парето, достигая более высоких показателей успешности при значительно меньших затратах на компоненты по сравнению с базовыми методами. В однозадачной конфигурации композитор на основе онлайн-задачи о рюкзаке демонстрирует улучшение показателя успешности до 31,6% по сравнению с базовыми методами поиска. В мультиагентных системах композитор увеличивает показатель успешности с 37% до 87% при выборе агентов из инвентаря, содержащего более 100 агентов. Значительный разрыв в производительности подтверждает устойчивую адаптивность нашего метода в различных областях и при различных бюджетных ограничениях.
Перенос внешнего вида на 3D-объекты с использованием различных представлений объекта внешнего вида — таких как изображения или текст — вызывает интерес благодаря широкому спектру применений в таких отраслях, как игровая индустрия, дополненная реальность и создание цифрового контента. Однако современные методы всё ещё не справляются, когда геометрия между входным объектом и объектом внешнего вида значительно различается. Прямой подход заключается в непосредственном применении 3D-генеративной модели, но мы показываем, что это в конечном итоге не позволяет получить привлекательные результаты. Вместо этого мы предлагаем принципиальный подход, вдохновлённый универсальным управлением. Учитывая предварительно обученную модель исправленного потока, обусловленную изображением или текстом, наш метод, не требующий обучения, взаимодействует с процессом выборки, периодически добавляя управление. Это управление может быть смоделировано как дифференцируемая функция потерь, и мы экспериментируем с двумя различными типами управления, включая потери, учитывающие части для внешнего вида, и самоподобие. Наши эксперименты показывают, что наш подход успешно переносит текстуру и геометрические детали на входной 3D-объект, превосходя базовые методы как качественно, так и количественно. Мы также показываем, что традиционные метрики не подходят для оценки задачи из-за их неспособности фокусироваться на локальных деталях и сравнивать несходные входные данные при отсутствии эталонных данных. Поэтому мы оцениваем качество переноса внешнего вида с помощью системы на основе GPT, объективно ранжирующей выходные данные, что обеспечивает надёжную и человеко-подобную оценку, что дополнительно подтверждается нашим пользовательским исследованием. Помимо представленных сценариев, наш метод является общим и может быть расширен на различные типы диффузионных моделей и функций управления.
Эффективное взаимодействие человека и ИИ в сложных задачах, требующих рассуждений, требует, чтобы пользователи понимали и взаимодействовали с процессом модели, а не просто получали результат. Однако монолитный текст, генерируемый методами вроде Chain-of-Thought (CoT), препятствует этому, поскольку современные интерфейсы не поддерживают реальное время озвучивания и надежное прерывание пользователем. Мы представляем AsyncVoice Agent — систему, чья асинхронная архитектура разделяет потоковый бэкенд на основе языковой модели и голосовой фронтенд для общения. Такая конструкция позволяет озвучиванию и логическому выводу выполняться параллельно, давая пользователям возможность прерывать, запрашивать и направлять процесс рассуждений модели в любой момент. Объективные тесты показывают, что этот подход снижает задержку взаимодействия более чем в 600 раз по сравнению с монолитными базовыми решениями, сохраняя высокую точность и конкурентоспособность в выполнении задач. Благодаря возможности двустороннего диалога с процессом мышления модели, AsyncVoice Agent предлагает новую парадигму для создания более эффективных, управляемых и надежных систем взаимодействия человека и ИИ для задач с высокими ставками.
Крупные языковые модели интериоризируют структурный компромисс между правдивостью и подобострастной лестью, возникающий из оптимизации вознаграждения, которая смешивает полезность с вежливым подчинением. Этот скрытый уклон, известный как сикофантия, проявляется в предпочтении согласия с пользователем перед принципиальным рассуждением. Мы представляем Beacon — одношаговый бенчмарк с принудительным выбором, который изолирует этот уклон независимо от контекста разговора, позволяя точно измерить напряжение между фактической точностью и склонностью к подчинению. Оценки двенадцати современных моделей показывают, что сикофантия распадается на устойчивые лингвистические и аффективные субуклоны, каждый из которых масштабируется с увеличением мощности модели. Мы также предлагаем вмешательства на уровне промптов и активаций, которые модулируют эти уклоны в противоположных направлениях, раскрывая внутреннюю геометрию согласованности как динамическое многообразие между правдивостью и социально приемлемым суждением. Beacon переосмысливает сикофантию как измеримую форму нормативной неправильной генерализации, предоставляя воспроизводимую основу для изучения и смягчения отклонений в согласованности крупномасштабных генеративных систем.
Масштабирование на этапе тестирования (Test-time scaling, TTS) улучшило производительность моделей рассуждения (Reasoning Models, RMs) в различных задачах, таких как математика и программирование, однако его эффективность в машинном переводе (MT) остается недостаточно изученной. В данной статье исследуется, повышает ли увеличение вычислительных ресурсов на этапе вывода качество перевода. Мы оцениваем 12 моделей RMs на разнообразных наборах данных для MT, охватывающих несколько доменов, рассматривая три сценария: прямой перевод, экстраполяция с принудительным рассуждением и пост-редактирование. Наши результаты показывают, что для универсальных моделей RMs TTS обеспечивает ограниченные и нестабильные преимущества для прямого перевода, при этом производительность быстро достигает плато. Однако эффективность TTS раскрывается при доменно-специфической тонкой настройке, которая согласует процесс рассуждения модели с требованиями задачи, приводя к стабильным улучшениям вплоть до оптимальной, самостоятельно определяемой глубины рассуждения. Мы также обнаруживаем, что принуждение модели к рассуждению за пределы её естественной точки остановки последовательно ухудшает качество перевода. В отличие от этого, TTS оказывается высокоэффективным в контексте пост-редактирования, надежно превращая самокоррекцию в полезный процесс. Эти результаты указывают на то, что ценность вычислительных ресурсов на этапе вывода в MT заключается не в улучшении одношагового перевода с использованием универсальных моделей, а в целевых приложениях, таких как многошаговые процессы самокоррекции, а также в сочетании с моделями, специализированными для конкретных задач.
По мере развития систем ИИ мы все больше полагаемся на них в принятии решений вместе с нами и за нас. Чтобы такие решения соответствовали человеческим ценностям, крайне важно понимать не только то, какие решения они принимают, но и как они приходят к этим решениям. Рассуждающие языковые модели, которые предоставляют как конечные ответы, так и (частично прозрачные) промежуточные следы мышления, представляют своевременную возможность для изучения процедурного рассуждения ИИ. В отличие от математических и программных задач, которые часто имеют объективно правильные ответы, моральные дилеммы являются отличной площадкой для оценки, ориентированной на процесс, поскольку они допускают множество обоснованных выводов. Для этого мы представляем MoReBench: 1000 моральных сценариев, каждый из которых сопровождается набором критериев, которые эксперты считают важными для включения (или избегания) при рассуждении о сценариях. MoReBench содержит более 23 тысяч критериев, включая выявление моральных соображений, взвешивание компромиссов и предоставление практических рекомендаций, охватывающих случаи, когда ИИ советует людям в моральных решениях, а также принимает моральные решения автономно. Отдельно мы создаем MoReBench-Theory: 150 примеров для проверки способности ИИ рассуждать в рамках пяти основных направлений нормативной этики. Наши результаты показывают, что законы масштабирования и существующие тесты на математические, программные и научные рассуждения не позволяют предсказать способности моделей к моральному рассуждению. Модели также демонстрируют предпочтение определенным моральным подходам (например, бентамовскому актуализму и кантовской деонтологии), что может быть побочным эффектом популярных парадигм обучения. Вместе эти тесты продвигают оценку рассуждений, ориентированную на процесс, в сторону более безопасного и прозрачного ИИ.