Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обнаружение галлюцинаций остается фундаментальной задачей для безопасного и надежного развертывания больших языковых моделей (LLM), особенно в приложениях, требующих фактической точности. Существующие бенчмарки для оценки галлюцинаций часто работают на уровне последовательностей и ограничены английским языком, не предоставляя детального многоязычного контроля, необходимого для всесторонней оценки. В данной работе мы представляем PsiloQA — крупномасштабный многоязычный набор данных, аннотированный на уровне фрагментов с указанием галлюцинаций для 14 языков. PsiloQA создан с помощью автоматизированного трехэтапного процесса: генерации пар вопрос-ответ из Википедии с использованием GPT-4o, получения потенциально галлюцинированных ответов от различных LLM в условиях отсутствия контекста и автоматической аннотации галлюцинированных фрагментов с помощью GPT-4o путем сравнения с эталонными ответами и извлеченным контекстом. Мы оцениваем широкий спектр методов обнаружения галлюцинаций, включая количественную оценку неопределенности, тегирование на основе LLM и тонко настроенные модели-энкодеры, и показываем, что модели на основе энкодеров демонстрируют наилучшую производительность на всех языках. Кроме того, PsiloQA демонстрирует эффективную кросс-лингвистическую генерализацию и поддерживает устойчивый перенос знаний на другие бенчмарки, оставаясь при этом значительно более экономичным по сравнению с наборами данных, аннотированными вручную. Наш набор данных и результаты способствуют развитию масштабируемого и детального обнаружения галлюцинаций в многоязычных условиях.
В последнее время агентное обучение с подкреплением (Agentic RL) достигло значительного прогресса в стимулировании многошаговых и долгосрочных способностей веб-агентов к использованию инструментов. Хотя основные алгоритмы агентного RL автономно исследуют шаги вызова инструментов с высокой неопределенностью под руководством энтропии, чрезмерная зависимость от сигналов энтропии может накладывать дополнительные ограничения, приводя к коллапсу обучения. В данной статье мы углубляемся в проблемы, вызванные энтропией, и предлагаем агентный алгоритм RL — Оптимизацию политики с балансом энтропии (AEPO), разработанный для балансировки энтропии как на этапе развертывания, так и на этапе обновления политики. AEPO состоит из двух ключевых компонентов: (1) динамического механизма развертывания с балансом энтропии, который адаптивно распределяет глобальный и веточный бюджет выборки через предварительный мониторинг энтропии, одновременно накладывая веточный штраф на последовательные шаги вызова инструментов с высокой энтропией для предотвращения проблем избыточного ветвления; и (2) Оптимизации политики с балансом энтропии, которая вставляет операцию остановки градиента в термин обрезки с высокой энтропией для сохранения и правильного масштабирования градиентов на токенах с высокой энтропией, одновременно включая оценку преимуществ с учетом энтропии для приоритизации обучения на токенах с высокой неопределенностью. Результаты на 14 сложных наборах данных показывают, что AEPO стабильно превосходит 7 основных алгоритмов RL. Всего с 1K выборок RL, Qwen3-14B с AEPO демонстрирует впечатляющие результаты: 47,6% на GAIA, 11,2% на Humanity's Last Exam и 43,0% на WebWalker для Pass@1; 65,0% на GAIA, 26,0% на Humanity's Last Exam и 70,0% на WebWalker для Pass@5. Дополнительный анализ показывает, что AEPO улучшает разнообразие выборки развертывания, сохраняя стабильную энтропию политики, что способствует масштабируемому обучению веб-агентов.
Генерация с сохранением идентичности стала важным направлением в исследованиях текстов в изображения, при этом современные модели демонстрируют значительные успехи в создании изображений, соответствующих эталонной идентичности. Однако нехватка крупномасштабных парных наборов данных, содержащих несколько изображений одного и того же человека, вынуждает большинство подходов использовать обучение, основанное на реконструкции. Такая зависимость часто приводит к проблеме, которую мы называем "копированием-вставкой", когда модель напрямую воспроизводит эталонное лицо вместо того, чтобы сохранять идентичность при естественных вариациях позы, выражения или освещения. Такая чрезмерная схожесть подрывает управляемость и ограничивает выразительную силу генерации. Чтобы устранить эти ограничения, мы (1) создаем крупномасштабный парный набор данных MultiID-2M, адаптированный для сценариев с несколькими людьми, предоставляя разнообразные эталоны для каждой идентичности; (2) вводим эталонный тест, который количественно оценивает как артефакты "копирования-вставки", так и компромисс между точностью идентичности и вариативностью; и (3) предлагаем новую парадигму обучения с контрастирующей функцией потерь для идентичности, которая использует парные данные для баланса между точностью и разнообразием. Эти усилия воплотились в модели WithAnyone, основанной на диффузии, которая эффективно устраняет "копирование-вставку", сохраняя при этом высокую схожесть идентичности. Многочисленные качественные и количественные эксперименты демонстрируют, что WithAnyone значительно снижает артефакты "копирования-вставки", улучшает управляемость позой и выражением и сохраняет высокое воспринимаемое качество. Пользовательские исследования дополнительно подтверждают, что наш метод обеспечивает высокую точность идентичности, одновременно позволяя выразительную и управляемую генерацию.
В эпоху, когда искусственный интеллект (ИИ) превращается из пассивного инструмента в активного и адаптивного помощника, мы представляем AI for Service (AI4Service) — новую парадигму, которая обеспечивает проактивную и оперативную помощь в повседневной жизни. Существующие сервисы на основе ИИ остаются в основном реактивными, реагируя только на явные команды пользователя. Мы утверждаем, что по-настоящему интеллектуальный и полезный помощник должен быть способен предугадывать потребности пользователя и предпринимать действия заранее, когда это уместно. Для реализации этого видения мы предлагаем Alpha-Service — унифицированную структуру, которая решает две фундаментальные задачи: «Знать, когда вмешаться», обнаруживая возможности для оказания услуг из эгоцентрических видеопотоков, и «Знать, как предоставить» как общие, так и персонализированные услуги. Вдохновленные архитектурой фон Неймана и основанные на очках с ИИ, Alpha-Service состоит из пяти ключевых компонентов: входного модуля для восприятия, центрального процессора для планирования задач, арифметико-логического устройства для использования инструментов, модуля памяти для долгосрочной персонализации и выходного модуля для естественного взаимодействия с человеком. В качестве начального исследования мы реализуем Alpha-Service через мультиагентную систему, развернутую на очках с ИИ. Кейс-стади, включая советника по игре в блэкджек в реальном времени, гида по музею и помощника по подбору одежды для покупок, демонстрируют его способность бесшовно воспринимать окружающую среду, определять намерения пользователя и предоставлять своевременную и полезную помощь без явных запросов.
Здание нативных моделей зрения и языка (Vision-Language Models, VLMs) стало новым претендентом на замену традиционных модульных VLMs, что обусловлено эволюцией архитектур моделей и подходов к обучению. Однако два ключевых вопроса остаются нерешенными, ограничивая их широкое исследование и продвижение: (1) Какие фундаментальные ограничения отличают нативные VLMs от модульных, и в какой степени эти барьеры могут быть преодолены? (2) Как сделать исследования в области нативных VLMs более доступными и демократизированными, тем самым ускоряя прогресс в этой области. В данной статье мы проясняем эти вызовы и предлагаем руководящие принципы для построения нативных VLMs. В частности, один примитив нативной VLM должен: (i) эффективно согласовывать представления пикселей и слов в общем семантическом пространстве; (ii) бесшовно интегрировать преимущества ранее разделенных модулей зрения и языка; (iii) изначально воплощать различные кросс-модальные свойства, поддерживающие унифицированное кодирование, согласование и рассуждение в области зрения и языка. Таким образом, мы представляем NEO — новое семейство нативных VLMs, построенных на основе фундаментальных принципов, способных конкурировать с лучшими модульными аналогами в разнообразных реальных сценариях. Используя всего 390 миллионов примеров изображений и текстов, NEO эффективно развивает визуальное восприятие с нуля, одновременно смягчая конфликты между зрением и языком внутри плотной и монолитной модели, созданной на основе наших тщательно разработанных примитивов. Мы позиционируем NEO как краеугольный камень для масштабируемых и мощных нативных VLMs, дополненных богатым набором повторно используемых компонентов, которые способствуют созданию экономически эффективной и расширяемой экосистемы. Наш код и модели доступны по адресу: https://github.com/EvolvingLMMs-Lab/NEO.
В данном отчете мы представляем PaddleOCR-VL — современную и ресурсоэффективную модель, разработанную для анализа документов. Ее ключевым компонентом является PaddleOCR-VL-0.9B, компактная, но мощная модель обработки визуальной информации и текста (VLM), которая объединяет визуальный кодировщик с динамическим разрешением в стиле NaViT и языковую модель ERNIE-4.5-0.3B для точного распознавания элементов. Эта инновационная модель эффективно поддерживает 109 языков и превосходно справляется с распознаванием сложных элементов (например, текста, таблиц, формул и графиков), сохраняя при этом минимальное потребление ресурсов. Благодаря всесторонним оценкам на широко используемых публичных и внутренних тестовых наборах данных, PaddleOCR-VL демонстрирует наилучшие результаты как в анализе документов на уровне страниц, так и в распознавании элементов на уровне отдельных объектов. Она значительно превосходит существующие решения, демонстрирует высокую конкурентоспособность по сравнению с ведущими моделями VLM и обеспечивает быструю скорость вывода. Эти преимущества делают ее идеально подходящей для практического применения в реальных сценариях.
Модели генерации видео достигли значительного прогресса, особенно в реалистичных сценариях; однако их производительность заметно снижается в воображаемых сценариях. Такие запросы часто включают редко сочетающиеся концепции с длинными семантическими связями, выходящими за пределы обучающих распределений. Существующие методы обычно применяют масштабирование на этапе тестирования для улучшения качества видео, но их фиксированные пространства поиска и статические схемы вознаграждения ограничивают адаптируемость к воображаемым сценариям. Чтобы заполнить этот пробел, мы предлагаем ImagerySearch — адаптивную стратегию поиска на этапе тестирования, управляемую запросом, которая динамически корректирует как пространство поиска при выводе, так и функцию вознаграждения в соответствии с семантическими связями в запросе. Это позволяет создавать более согласованные и визуально правдоподобные видео в сложных воображаемых условиях. Для оценки прогресса в этом направлении мы представляем LDT-Bench — первый специализированный бенчмарк для запросов с длинными семантическими связями, состоящий из 2839 разнообразных пар концепций и автоматизированного протокола для оценки способностей к творческой генерации. Многочисленные эксперименты показывают, что ImagerySearch стабильно превосходит сильные базовые модели генерации видео и существующие подходы к масштабированию на этапе тестирования на LDT-Bench, а также демонстрирует конкурентоспособные улучшения на VBench, подтверждая свою эффективность для различных типов запросов. Мы опубликуем LDT-Bench и код, чтобы способствовать дальнейшим исследованиям в области генерации воображаемых видео.
В данной статье мы представляем BitNet Distillation (BitDistill) — облегченный конвейер, который дорабатывает готовые полномасштабные языковые модели (LLM), такие как Qwen, до точности 1.58 бит (т.е. троичные веса {-1, 0, 1}) для конкретных задач, достигая высокой производительности на целевых задачах при минимальных вычислительных затратах. В частности, BitDistill включает три ключевые техники: модуль SubLN, представленный в BitNet; дистилляцию многоголового внимания на основе MiniLM; и непрерывное предварительное обучение, которое служит важным этапом разминки для смягчения проблемы масштабируемости разрыва в производительности между доработанными полномасштабными и 1.58-битными LLM на конкретных задачах. Экспериментальные результаты показывают, что BitDistill достигает производительности, сопоставимой с полномасштабными моделями, при любом размере модели, обеспечивая при этом до 10-кратной экономии памяти и ускорение вывода на CPU в 2.65 раза. Код доступен по адресу https://github.com/microsoft/BitNet.
Обучение с подкреплением с проверяемыми наградами (RLVR) недавно стало ключевой парадигмой для улучшения способностей к рассуждению больших языковых моделей (LLM). Чтобы решить проблему отсутствия сигналов проверки во время тестирования, предыдущие исследования включали обучение способности модели к самопроверке в стандартный процесс RLVR, тем самым объединяя способности к рассуждению и проверке в рамках одной LLM. Однако существующий подход требует, чтобы LLM последовательно генерировала решения и самопроверки с использованием двух отдельных шаблонов запросов, что значительно снижает эффективность. В данной работе мы теоретически показываем, что аналитическое решение задачи RL для самопроверки может быть сведено к удивительно простой форме: истинная награда за рассуждение решения равна его последнему токену самовознаграждения, который вычисляется как разница между логарифмической вероятностью следующего токена, присвоенной модели политики любому предопределенному токену на последнем токене решения, и предварительно вычисленной константой, масштабированной коэффициентом KL. На основе этого понимания мы предлагаем LaSeR (Обучение с подкреплением с самовознаграждением на последнем токене) — алгоритм, который просто дополняет исходную функцию потерь RLVR MSE-потерей, согласующей оценки самовознаграждения на последнем токене с наградами за рассуждение, основанными на проверке, совместно оптимизируя способности LLM к рассуждению и самовознаграждению. Оптимизированные оценки самовознаграждения могут использоваться как в обучении, так и в тестировании для повышения производительности модели. Примечательно, что наш алгоритм извлекает эти оценки из предсказанного распределения вероятностей следующего токена для последнего токена сразу после генерации, что требует лишь минимальных дополнительных затрат на один дополнительный вывод токена. Эксперименты показывают, что наш метод не только улучшает способность модели к рассуждению, но и наделяет её замечательной способностью к самовознаграждению, тем самым повышая её производительность при масштабировании во время вывода.
В данной работе исследуется, как адаптивно пересчитывать кэши ключей и значений (KV) для диффузионных больших языковых моделей (DLM), чтобы максимизировать точность предсказаний при минимизации задержки декодирования. В существующих методах декодеры пересчитывают QKV для всех токенов на каждом шаге шумоподавления и на каждом слое, несмотря на то, что состояния KV изменяются незначительно на большинстве шагов, особенно на поверхностных слоях, что приводит к значительной избыточности. Мы делаем три наблюдения: (1) удалённые токены {bf MASK} в основном служат как смещение по длине и могут быть кэшированы блоками за пределами активного окна предсказания; (2) динамика KV увеличивается с глубиной, что указывает на достаточность выборочного обновления, начиная с более глубоких слоёв; и (3) токен, к которому обращаются чаще всего, демонстрирует наименьшее смещение KV, что даёт консервативную нижнюю границу изменения кэша для других токенов. На основе этого мы предлагаем {bf Elastic-Cache}, стратегию, не требующую обучения и независимую от архитектуры, которая совместно определяет, {когда} обновлять (с помощью теста на смещение, учитывающего внимание, для наиболее часто используемого токена) и {где} обновлять (с помощью расписания, учитывающего глубину, которое пересчитывает кэши, начиная с выбранного слоя, повторно используя кэши поверхностных слоёв и кэши MASK за пределами окна). В отличие от схем с фиксированным периодом, Elastic-Cache выполняет адаптивные, учитывающие слои обновления кэшей для диффузионных LLM, сокращая избыточные вычисления и ускоряя декодирование с незначительной потерей качества генерации. Эксперименты на LLaDA-Instruct, LLaDA-1.5 и LLaDA-V в задачах математического рассуждения и генерации кода демонстрируют стабильное ускорение: в 8.7 раз на GSM8K (256 токенов), в 45.1 раз на более длинных последовательностях и в 4.8 раз на HumanEval, при этом сохраняя более высокую точность по сравнению с базовым методом. Наш метод обеспечивает значительно более высокую пропускную способность (в 6.8 раз на GSM8K) по сравнению с существующими подходами, основанными на уверенности, сохраняя качество генерации, что делает возможным практическое использование диффузионных LLM.
Агенты на основе больших языковых моделей (LLM) всё чаще обучаются с использованием обучения с подкреплением (RL) для улучшения их способности взаимодействовать с внешними средами через использование инструментов, особенно в поисковых задачах, требующих многошагового рассуждения и приобретения знаний. Однако существующие подходы обычно полагаются на награды, основанные на результате, которые предоставляются только на финальном ответе. Эта разреженность наград становится особенно проблематичной в многошаговых сценариях, где длинные траектории усугубляют две ключевые проблемы: (i) коллапс преимущества, когда все траектории получают одинаковые награды и не предоставляют полезных сигналов для обучения, и (ii) отсутствие детального распределения заслуг, где зависимости между шагами скрыты, особенно в задачах с длительным горизонтом. В данной работе мы предлагаем Оптимизацию политики на основе прироста информации (IGPO), простую, но эффективную RL-структуру, которая обеспечивает плотное и внутреннее управление для обучения агентов в многошаговых сценариях. IGPO моделирует каждый шаг взаимодействия как инкрементальный процесс получения информации о правильном ответе и определяет награды на уровне шага как маргинальное увеличение вероятности политики в создании правильного ответа. В отличие от предыдущих подходов, основанных на наградах на уровне процесса, которые зависят от внешних моделей наград или дорогостоящего Монте-Карло оценивания, IGPO извлекает внутренние награды непосредственно из обновлений собственных убеждений модели. Эти внутренние награды на уровне шага объединяются с управлением на уровне результата для формирования плотных траекторий наград. Экстенсивные эксперименты на внутридоменных и внедоменных тестах демонстрируют, что IGPO стабильно превосходит сильные базовые подходы в многошаговых сценариях, достигая более высокой точности и улучшенной эффективности выборки.
Крупные языковые модели (LLM) для работы с кодом используют субсловные токенизаторы, такие как байт-парное кодирование (BPE), обученные на смеси текстов на естественном языке и кода на языках программирования, но основанные на статистике, а не на грамматике. В результате семантически идентичные фрагменты кода могут быть токенизированы по-разному в зависимости от поверхностных факторов, таких как пробелы или именование идентификаторов. Чтобы измерить влияние этого несоответствия, мы представляем TokDrift — фреймворк, который применяет семантически сохраняющие правила перезаписи для создания вариантов кода, отличающихся только токенизацией. На девяти моделях LLM для кода, включая крупные с более чем 30 миллиардами параметров, даже незначительные изменения форматирования могут вызывать существенные сдвиги в поведении модели. Послойный анализ показывает, что проблема возникает на ранних этапах встраивания, где субсловная сегментация не учитывает границы грамматических токенов. Наши результаты указывают на несоответствие токенизации как скрытое препятствие для надежного понимания и генерации кода, подчеркивая необходимость грамматически осознанной токенизации для будущих LLM, работающих с кодом.
Хотя крупные языковые модели (LLM) преуспели в текстовых рассуждениях, они испытывают трудности в математических областях, таких как геометрия, которые по своей природе требуют визуальных вспомогательных средств. Существующие подходы к визуальной цепочке рассуждений (VCoT) часто ограничены жесткими внешними инструментами или не способны генерировать высококачественные, стратегически своевременные диаграммы, необходимые для решения сложных задач. Чтобы устранить этот пробел, мы представляем MathCanvas — комплексную структуру, предназначенную для наделения унифицированных крупных мультимодальных моделей (LMM) внутренними возможностями VCoT для математики. Наш подход состоит из двух этапов. Сначала этап визуального манипулирования предварительно обучает модель на новом корпусе из 15,2 млн пар, включающем 10 млн пар "описание-диаграмма" (MathCanvas-Imagen) и 5,2 млн пошаговых траекторий редактирования (MathCanvas-Edit), чтобы освоить генерацию и редактирование диаграмм. Затем этап стратегического визуально-подкрепленного рассуждения дообучает модель на MathCanvas-Instruct — новом наборе данных из 219 тыс. примеров с чередующимися визуально-текстовыми путями рассуждений, обучая модель тому, когда и как использовать визуальные вспомогательные средства. Для обеспечения строгой оценки мы представляем MathCanvas-Bench — сложный эталонный тест с 3 тыс. задач, требующих от моделей создания чередующихся визуально-текстовых решений. Наша модель BAGEL-Canvas, обученная в рамках этой структуры, демонстрирует 86% относительное улучшение по сравнению с сильными базовыми LMM на MathCanvas-Bench, показывая отличную обобщаемость на другие публичные математические тесты. Наша работа предоставляет полный набор инструментов — структуру, наборы данных и эталонный тест — для раскрытия сложного, человеко-подобного визуально-подкрепленного рассуждения в LMM. Страница проекта: https://mathcanvas.github.io/
Мы предлагаем и проверяем гипотезу "Гниения Мозга LLM": постоянное воздействие низкокачественного веб-текста вызывает устойчивое когнитивное снижение у крупных языковых моделей (LLM). Чтобы изолировать влияние качества данных, мы проводим контролируемые эксперименты на реальных корпусах Twitter/X, создавая наборы данных с низкокачественным и обратно контролируемым содержанием с использованием двух ортогональных операционализаций: M1 (степень вовлеченности) и M2 (семантическое качество), с сопоставимым объемом токенов и одинаковыми операциями обучения во всех условиях. В отличие от контрольной группы, постоянное предварительное обучение четырех LLM на низкокачественном наборе данных вызывает значительное снижение (Hedges' g > 0,3) в способностях к рассуждению, пониманию длинного контекста, безопасности и усилению "темных черт" (например, психопатии, нарциссизма). Постепенное смешивание низкокачественных и контрольных наборов данных также приводит к дозозависимому когнитивному ухудшению: например, при M1 результаты ARC-Challenge с использованием Chain of Thoughts падают с 74,9 до 57,2, а RULER-CWE — с 84,4 до 52,3 при увеличении доли низкокачественных данных с 0% до 100%. Анализ ошибок выявляет несколько ключевых инсайтов. Во-первых, мы идентифицируем "пропуск мыслей" как основное повреждение: модели все чаще укорачивают или пропускают цепочки рассуждений, что объясняет большую часть роста ошибок. Во-вторых, наблюдается частичное, но неполное восстановление: масштабирование настройки инструкций и предварительное обучение на чистых данных улучшают сниженные когнитивные способности, но не могут восстановить базовые возможности, что указывает на устойчивый дрейф представлений, а не на несоответствие формата. Наконец, мы обнаруживаем, что популярность твита, не семантическая метрика, является лучшим индикатором эффекта "Гниения Мозга", чем длина в M1. В совокупности результаты предоставляют значительные, многоплановые доказательства того, что качество данных является причинным фактором снижения возможностей LLM, переосмысливая кураторство для постоянного предварительного обучения как проблему безопасности на этапе обучения и мотивируя регулярные "когнитивные проверки здоровья" для развернутых LLM.
Последние достижения в области многомодальных моделей вознаграждения (RMs) значительно улучшили пост-обучение визуальных генеративных моделей. Однако современные RMs сталкиваются с присущими им ограничениями: (1) визуальные входные данные потребляют большой объем контекста, что вынуждает использовать меньше кадров и приводит к потере деталей; (2) вся визуальная информация упаковывается в начальный промт, что усугубляет галлюцинации и забывание в процессе цепочки рассуждений. Чтобы преодолеть эти проблемы, мы представляем VideoReward Thinker (VR-Thinker) — фреймворк "мышления с изображением", который оснащает RM операциями визуального рассуждения (например, выбор кадра) и настраиваемым окном визуальной памяти. Это позволяет RM активно получать и обновлять визуальные доказательства в пределах контекста, повышая точность и надежность рассуждений. Мы активируем визуальное рассуждение с помощью конвейера тонкой настройки с подкреплением: (i) "Холодный старт" с курированными данными визуальной цепочки рассуждений для усвоения базовых навыков рассуждения и форматирования операций; (ii) выбор образцов, в которых все суждения по каждому измерению и общие суждения верны, с последующей тонкой настройкой методом отбора по отклонению на этих высококачественных траекториях для дальнейшего улучшения рассуждений; (iii) применение групповой относительной оптимизации политики (GRPO) для усиления рассуждений. Наш подход демонстрирует наивысшую точность среди моделей с открытым исходным кодом на бенчмарках предпочтений видео, особенно для длинных видео: 7B VR-Thinker достигает 80,5% на VideoGen Reward, 82,3% на GenAI-Bench и 75,6% на MJ-Bench-Video. Эти результаты подтверждают эффективность и перспективность многомодального моделирования вознаграждения с использованием "мышления с изображением".
Последние исследования показывают, что крупные языковые модели (LLM) кодируют сигналы фактической достоверности в своих внутренних представлениях, таких как скрытые состояния, веса внимания или вероятности токенов, что предполагает, что LLM могут "знать, чего они не знают". Однако LLM также могут допускать фактические ошибки, полагаясь на упрощенные пути или ложные ассоциации. Эти ошибки обусловлены той же целью обучения, которая стимулирует правильные предсказания, что ставит вопрос о том, могут ли внутренние вычисления надежно различать фактические и галлюцинированные выходные данные. В данной работе мы проводим механистический анализ того, как LLM внутренне обрабатывают фактические запросы, сравнивая два типа галлюцинаций на основе их зависимости от информации о субъекте. Мы обнаруживаем, что когда галлюцинации связаны со знанием о субъекте, LLM используют тот же внутренний процесс извлечения, что и для правильных ответов, что приводит к перекрывающимся и неразличимым геометриям скрытых состояний. В отличие от этого, галлюцинации, оторванные от знания о субъекте, создают отдельные, кластеризованные представления, что делает их обнаруживаемыми. Эти результаты выявляют фундаментальное ограничение: LLM не кодируют истинность в своих внутренних состояниях, а лишь паттерны извлечения знаний, демонстрируя, что "LLM на самом деле не знают, чего они не знают".
Современные системы информационного поиска всё чаще сталкиваются с необходимостью обработки сложных, многогранных запросов, требующих глубокого анализа, а не простого сопоставления ключевых слов или семантического поиска. Хотя подходы к поиску на основе языковых моделей (LLM) демонстрируют значительный потенциал, преобладающая парадигма "извлечение с последующим ранжированием" наследует ограничения методов поиска на основе векторных представлений; параметрические генеративные подходы сложно обновлять новой информацией; а методы с длинным контекстом, которые помещают весь корпус в контекст, вычислительно неэффективны для больших коллекций документов. Для решения этих проблем мы представляем LATTICE — иерархическую структуру поиска, которая позволяет языковой модели анализировать и навигировать по большим корпусам с логарифмической сложностью поиска, накладывая на корпус семантическую древовидную структуру. Наш подход состоит из двух этапов: (1) оффлайн-фаза, которая организует корпус в семантическую иерархию с использованием либо снизу вверх агломеративной стратегии, либо сверху вниз дивизивной стратегии с использованием многоуровневых сводок, и (2) онлайн-фаза обхода, в которой поисковая языковая модель навигирует по этому дереву. Основная сложность в таком поиске под руководством LLM заключается в том, что суждения модели о релевантности зашумлены, зависят от контекста и не учитывают иерархию, что затрудняет сравнение между ветвями и уровнями. Для преодоления этого мы предлагаем алгоритм обхода, который оценивает калиброванные скрытые показатели релевантности на основе локальных выходов LLM и агрегирует их в глобальную метрику релевантности пути. Наш подход, не требующий обучения, достигает наилучших результатов в условиях zero-shot на бенчмарке BRIGHT, требующем глубокого анализа, демонстрируя улучшение до 9% по метрике Recall@100 и 5% по nDCG@10 по сравнению с лучшим zero-shot базовым методом. Кроме того, по сравнению с тонко настроенным методом SOTA DIVER-v2, LATTICE показывает сопоставимые результаты на подмножествах BRIGHT, использующих статический корпус для оценки.
Современные модели, объединяющие зрение, язык и действия (VLA), предварительно обученные на крупномасштабных роботизированных данных, демонстрируют мощные возможности для выполнения множества задач и хорошо обобщаются на вариации визуальных и языковых инструкций для манипуляций. Однако их успешность значительно снижается при столкновении с концепциями объектов, выходящими за пределы обучающих данных, такими как неизвестные описания объектов и текстуры в наборе данных. Для решения этой проблемы мы предлагаем новый агентный фреймворк VLA^2, который использует OpenVLA в качестве основы для выполнения и эффективно задействует внешние модули, такие как веб-поиск и обнаружение объектов, чтобы предоставить VLA визуальную и текстовую информацию о целевых объектах. Этот подход смягчает проблемы обобщения при работе с объектами, выходящими за пределы распределения данных. На основе симуляционной среды LIBERO мы ввели новые объекты и их описания, чтобы создать новый оценочный бенчмарк с тремя уровнями сложности для проверки эффективности нашего метода. Наш фреймворк успешно превзошел современные модели на разработанном нами бенчмарке для сложного уровня обобщения. По сравнению с базовой моделью OpenVLA, VLA^2 демонстрирует улучшение успешности на 44,2% на сложном уровне бенчмарка и среднее улучшение на 20,2% во всех пользовательских средах без снижения производительности на задачах в рамках распределения данных. Сайт проекта: https://vla-2.github.io.
По мере того как крупные языковые модели (LLM) становятся более мощными и широко используемыми, обеспечение безопасности их выходных данных становится всё более критически важным. Существующие модели-ограничители, хотя и полезны в статических условиях оценки, сталкиваются с двумя основными ограничениями в реальных приложениях: (1) они обычно выводят только бинарные метки "безопасно/небезопасно", которые могут интерпретироваться неоднозначно в рамках различных политик безопасности, что делает их неспособными учитывать различные уровни допустимости рисков в разных областях; и (2) они требуют полного вывода модели перед выполнением проверки безопасности, что делает их принципиально несовместимыми с потоковым выводом LLM, тем самым препятствуя своевременному вмешательству в процессе генерации и увеличивая риск воздействия вредоносных частичных выводов. Для решения этих проблем мы представляем Qwen3Guard, серию многоязычных моделей-ограничителей безопасности с двумя специализированными вариантами: Generative Qwen3Guard, которая преобразует классификацию безопасности в задачу следования инструкциям для обеспечения детализированных трёхклассовых суждений (безопасно, спорно, небезопасно); и Stream Qwen3Guard, которая вводит классификатор на уровне токенов для мониторинга безопасности в реальном времени в процессе инкрементной генерации текста. Оба варианта доступны в трёх размерах (0.6B, 4B и 8B параметров) и поддерживают до 119 языков и диалектов, обеспечивая комплексную, масштабируемую и низкозатратную модерацию безопасности для глобальных развёртываний LLM. Оцененные на английских, китайских и многоязычных тестах, модели Qwen3Guard демонстрируют передовые результаты в классификации безопасности как запросов, так и ответов. Все модели выпущены под лицензией Apache 2.0 для общественного использования.
Крупные языковые модели демонстрируют систематические недостатки в творческом письме, особенно в контекстах, отличных от английского, где обучающие данные ограничены и отсутствует контроль на уровне процессов. Мы представляем COIG-Writer — новый набор данных для китайского творческого письма, который охватывает как разнообразные результаты, так и лежащие в их основе мыслительные процессы, благодаря систематическому обратному проектированию высококачественных текстов. В отличие от существующих наборов данных, которые предоставляют только пары "вход-выход", COIG-Writer включает 1665 тщательно отобранных триплетов, охватывающих 51 жанр, каждый из которых содержит: (1) обратно спроектированный промпт, (2) детальное творческое рассуждение, документирующее процесс принятия решений, и (3) итоговый текст. В ходе всесторонних экспериментов мы выявили двухкомпонентную модель творческого письма: нарративная логика (обеспечиваемая контролем процессов) и языковое выражение (поддерживаемое общими данными). Наши результаты раскрывают три ключевых инсайта: (1) Контроль процессов высокоэффективен, но требует стабилизации с помощью общих данных. Для достижения оптимальной производительности необходимо соотношение не менее одного творческого образца к двенадцати общим; ниже этого порога показатель успешности постепенно снижается (с 62,75% до 35,78%). (2) Творческие способности культурно обусловлены и не переносятся между языками (разрыв в 89,26 п.п. между китайским и английским результатами). (3) Лексическое разнообразие обратно коррелирует с творческим качеством (парадокс TTR), что указывает на то, что высокая разнородность сигнализирует о компенсаторном поведении для восполнения логических недостатков. Эти результаты подтверждают, что творческое мастерство возникает благодаря взаимодействию логической структуры и языковой основы, аналогично тому, как математическое рассуждение усиливает, но не может заменить языковую компетентность в базовых моделях.
В данной работе мы представляем модели mxbai-edge-colbert-v0 с двумя различными количествами параметров: 17 млн и 32 млн. В рамках нашего исследования мы провели множество экспериментов, направленных на улучшение моделей поиска и позднего взаимодействия, которые мы планируем дистиллировать в более компактные модели в качестве доказательств концепции. Наша конечная цель — поддержка поиска на всех масштабах: от крупномасштабного поиска, работающего в облаке, до моделей, которые могут выполняться локально на любом устройстве. Модель mxbai-edge-colbert-v0, как мы надеемся, станет надежной базовой основой для всех будущих экспериментов, представляя собой первую версию в длинной серии небольших доказательств концепции. В процессе разработки mxbai-edge-colbert-v0 мы провели несколько абляционных исследований, результаты которых представлены в данной работе. С точки зрения производительности на практических задачах, mxbai-edge-colbert-v0 является особенно эффективной компактной моделью, превосходящей ColBERTv2 на стандартных бенчмарках для коротких текстов (BEIR) и демонстрирующей значительный прогресс в задачах с длинным контекстом, обеспечивая беспрецедентную эффективность.
Глубокое исследование — создание всесторонних, основанных на цитатах отчетов путем поиска и синтеза информации из сотен актуальных веб-источников — представляет собой важный рубеж для агентных систем. Для строгой оценки этой способности необходимы четыре принципа: задачи должны быть (1) ориентированными на пользователя, отражая реалистичные информационные потребности, (2) динамичными, требуя актуальной информации, выходящей за пределы параметрических знаний, (3) однозначными, обеспечивая согласованную интерпретацию среди пользователей, и (4) многогранными и интенсивными по поиску, требуя анализа множества веб-источников и глубокого анализа. Существующие эталонные тесты не соответствуют этим принципам, часто сосредотачиваясь на узких областях или предлагая неоднозначные вопросы, что затрудняет справедливое сравнение. Руководствуясь этими принципами, мы представляем LiveResearchBench — эталонный набор из 100 экспертно отобранных задач, охватывающих повседневную жизнь, бизнес и академическую сферу, каждая из которых требует обширного, динамичного и актуального веб-поиска и синтеза. Созданный с затратами более 1500 человеко-часов, LiveResearchBench предоставляет строгую основу для систематической оценки. Для оценки длинных отчетов, основанных на цитатах, мы представляем DeepEval — комплексный набор критериев, охватывающих как качество содержания, так и уровень отчета, включая охват, презентацию, точность и ассоциацию цитат, согласованность и глубину анализа. DeepEval интегрирует четыре взаимодополняющих протокола оценки, каждый из которых разработан для обеспечения стабильной оценки и высокой согласованности с человеческими суждениями. Используя LiveResearchBench и DeepEval, мы проводим всестороннюю оценку 17 передовых систем глубокого исследования, включая однозадачный веб-поиск, однозадачное глубокое исследование и многозадачные системы. Наш анализ выявляет текущие сильные стороны, повторяющиеся ошибки и ключевые компоненты систем, необходимые для продвижения надежного и содержательного глубокого исследования.
Современные методы обучения предпочтениям демонстрируют высокую точность на стандартных тестах, но их производительность значительно снижается при удалении объективных показателей качества. Мы представляем WritingPreferenceBench — набор данных из 1800 пар предпочтений, аннотированных людьми (1200 на английском, 600 на китайском), охватывающих 8 жанров творческого письма, где ответы сопоставлены по объективной корректности, фактической точности и длине. На этом тесте модели вознаграждения на основе последовательностей — стандартная архитектура для RLHF — достигают средней точности всего 52,7%, в то время как языковые модели с нулевым обучением показывают результат 53,9%. В отличие от них, генеративные модели вознаграждения, которые создают явные цепочки рассуждений, достигают точности 81,8%. Мы наблюдаем высокую вариативность внутри моделей между жанрами: отдельные модели демонстрируют точность от 18,2% до 81,8% в разных категориях письма, со средним стандартным отклонением 10,1%. Эта вариативность сохраняется независимо от масштаба модели, при этом модели с 27 миллиардами параметров не показывают устойчивого улучшения по сравнению с вариантами на 8 миллиардов. Наши результаты позволяют предположить, что современные методы RLHF в основном учатся обнаруживать объективные ошибки, а не улавливать субъективные предпочтения качества (например, креативность, стилистическое своеобразие и эмоциональный отклик), и что успешное моделирование предпочтений может требовать промежуточных представлений рассуждений, а не прямой классификации.
Мы представляем AnyUp — метод апсемплинга признаков, который может быть применён к любым визуальным признакам на любом разрешении без необходимости специфического обучения для каждого энкодера. Существующие обучаемые методы апсемплинга для признаков, такие как DINO или CLIP, требуют повторного обучения для каждого экстрактора признаков и, следовательно, не обобщаются на различные типы признаков во время инференса. В данной работе мы предлагаем архитектуру апсемплинга, независимую от типа признаков и работающую на этапе инференса, чтобы устранить это ограничение и повысить качество апсемплинга. В наших экспериментах AnyUp устанавливает новый эталон для апсемплинга признаков, обобщается на различные типы признаков, сохраняет семантику признаков, оставаясь при этом эффективным и легко применимым для широкого спектра последующих задач.
Проектирование сложных машин является как показателем человеческого интеллекта, так и основой инженерной практики. Учитывая недавние достижения в области больших языковых моделей (LLM), мы задаемся вопросом, могут ли они также научиться создавать. Мы рассматриваем этот вопрос через призму композиционного проектирования машин: задачи, в которой машины собираются из стандартизированных компонентов для выполнения функциональных требований, таких как передвижение или манипулирование, в смоделированной физической среде. Для поддержки этого исследования мы представляем BesiegeField — тестовую среду, построенную на основе игры Besiege, которая позволяет создавать конструкции из частей, проводить физическое моделирование и оценивать результаты на основе вознаграждения. Используя BesiegeField, мы тестируем современные LLM с агентными рабочими процессами и определяем ключевые способности, необходимые для успеха, включая пространственное мышление, стратегическую сборку и следование инструкциям. Поскольку текущие модели с открытым исходным кодом не справляются, мы исследуем обучение с подкреплением (RL) как путь к улучшению: мы создаем набор данных для "холодного старта", проводим эксперименты по тонкой настройке RL и выделяем открытые проблемы на стыке языка, проектирования машин и физического мышления.
Обучение с подкреплением с верифицируемыми наградами (RLVR) значительно улучшило способности крупных языковых моделей (LLMs) к рассуждению. Однако преобладающие методы RLVR демонстрируют систематическое смещение в сторону эксплуатации в ущерб исследованию, что подтверждается улучшением показателя pass@1 при снижении производительности pass@K (K>1). Чтобы понять эту проблему, мы анализируем динамику обучения методов RLVR, отслеживая распределения вероятностей на уровне токенов среди кандидатов из словаря. Наш анализ выявляет эффект концентрации вероятности, при котором кандидат с наивысшим рейтингом (top-1) всё больше накапливает вероятность, подавляя вероятность других кандидатов. Более того, более сильная избыточная концентрация коррелирует с ухудшением показателя pass@K. Вдохновлённые этим открытием, мы предлагаем метод Simple Pass@K Optimization (SimKO), предназначенный для смягчения проблемы избыточной концентрации, тем самым стимулируя исследование. SimKO работает асимметрично: для верифицированных правильных ответов он увеличивает вероятности кандидатов из топ-K, а для верифицированных неправильных ответов применяет более строгие штрафы к кандидату top-1. Мы наблюдаем, что такой асимметричный подход особенно эффективен для смягчения избыточной концентрации при применении к токенам с высокой энтропией. На различных тестах по математике и логическому рассуждению SimKO стабильно обеспечивает более высокие значения pass@K для широкого диапазона K, предлагая простой способ улучшить исследовательские способности RLVR.
Модели Vision-Language-Action (VLA) переживают стремительное развитие и демонстрируют перспективные возможности в задачах роботизированного манипулирования. Однако масштабирование VLA-моделей сталкивается с несколькими критическими проблемами: (1) Обучение новых VLA-моделей с нуля требует значительных вычислительных ресурсов и обширных наборов данных. Учитывая текущий дефицит данных, связанных с роботами, становится особенно важным максимально использовать предварительно обученные веса VLA-моделей в процессе масштабирования. (2) Реализация управления в реальном времени требует тщательного баланса между производительностью модели и вычислительной эффективностью. Для решения этих задач мы предлагаем AdaMoE — архитектуру Mixture-of-Experts (MoE), которая наследует предварительно обученные веса плотных VLA-моделей и масштабирует эксперта по действиям, заменяя полносвязные слои на разреженно активируемые слои MoE. AdaMoE использует метод разделения, который отделяет выбор экспертов от взвешивания их вкладов с помощью независимого масштабирующего адаптера, работающего совместно с традиционным маршрутизатором. Это позволяет выбирать экспертов на основе релевантности задачи, при этом их вклад регулируется независимо, что способствует совместному использованию экспертов вместо динамики "победитель получает всё". Наш подход демонстрирует, что экспертиза не должна быть монополизирована. Вместо этого совместное использование экспертов позволяет достичь превосходной производительности при сохранении вычислительной эффективности. AdaMoE стабильно превосходит базовую модель по ключевым тестам, показывая улучшение производительности на 1,8% на LIBERO и на 9,3% на RoboTwin. Наиболее важно, что значительное улучшение на 21,5% в реальных экспериментах подтверждает практическую эффективность подхода для задач роботизированного манипулирования.
Модели Vision-Language-Action (VLA) обладают огромным потенциалом для создания универсальных роботизированных систем манипуляции. Однако оптимальный способ их построения остается открытым вопросом. Современные подходы часто усложняют архитектуру, например, модифицируя существующий словарь Vision-Language Model (VLM) с помощью токенов действий или вводя специализированные "головы" для действий. Любопытно, что простейшая стратегия — представление действий непосредственно в виде текста — оставалась практически неисследованной. В данной работе представлена модель VLA-0 для изучения этой идеи. Мы обнаружили, что VLA-0 не только эффективна, но и удивительно мощна. При правильной разработке VLA-0 превосходит более сложные модели. На LIBERO, популярном бенчмарке для оценки VLA, VLA-0 превосходит все существующие методы, обученные на тех же роботизированных данных, включая pi_0.5-KI, OpenVLA-OFT и SmolVLA. Более того, без масштабного обучения на роботизированных данных она превосходит методы, обученные на таких данных, такие как pi_0.5-KI, pi_0, GR00T-N1 и MolmoAct. Эти результаты также подтверждаются в реальных условиях, где VLA-0 превосходит SmolVLA — модель VLA, предварительно обученную на крупномасштабных реальных данных. В данной статье обобщены наши неожиданные результаты и описаны конкретные методы, необходимые для раскрытия высокой производительности этой простой, но мощной архитектуры VLA. Визуальные результаты, код и обученные модели доступны по ссылке: https://vla0.github.io/.
Крупные языковые модели (LLMs) вызвали растущий интерес к автоматизированным исследовательским агентам в области машинного обучения. Среди них особенно перспективными являются агенты, способные автономно предлагать идеи и проводить эксперименты по машинному обучению, поскольку они максимизируют автоматизацию исследований и ускоряют научный прогресс за счет итеративного уточнения идей на основе экспериментальных результатов. Однако всесторонняя оценка таких агентов остается сложной задачей. Существующие бенчмарки склонны чрезмерно акцентировать внимание на инженерных аспектах, пренебрегая академической строгостью, что создает барьеры для четкой оценки научных способностей агентов в исследованиях машинного обучения. Они также страдают от ограниченного разнообразия задач, чрезмерного внимания к прикладным задачам в ущерб фундаментальным исследовательским проблемам, а также ограниченной масштабируемости к реалистичным исследовательским условиям. Чтобы устранить эти ограничения, мы представляем FML-bench — бенчмарк, разработанный для оценки автоматизированных исследовательских агентов на 8 разнообразных и фундаментальных проблемах машинного обучения. Он снижает нагрузку на написание кода, акцентирует внимание на фундаментальных проблемах, а не на конкретных случаях использования, предлагает высокое разнообразие задач и может быть расширен для работы с реальными репозиториями машинного обучения на GitHub. Кроме того, мы представляем унифицированную систему оценки с пятью взаимодополняющими метриками, предназначенную для всесторонней оценки производительности агентов на нашем бенчмарке. Мы оцениваем современные автоматизированные исследовательские агенты на FML-bench и обнаруживаем, что агенты, использующие стратегии широкого исследовательского поиска, превосходят тех, кто сосредоточен на узком, но глубоком исследовании. Эти результаты позволяют предположить, что акцент на широте поиска может привести к более эффективным результатам исследований, чем сосредоточение исключительно на инкрементальном уточнении. Наш бенчмарк доступен по адресу https://github.com/qrzou/FML-bench.
Модели генерации на основе диффузии или потоков с малым количеством шагов обычно преобразуют учителя, предсказывающего скорость, в ученика, который предсказывает кратчайший путь к очищенным данным. Это несоответствие форматов привело к сложным процедурам дистилляции, которые часто страдают от компромисса между качеством и разнообразием. Чтобы решить эту проблему, мы предлагаем модели потоков на основе политик (pi-Flow). pi-Flow модифицирует выходной слой модели потока ученика, чтобы предсказывать политику, не требующую сети, на одном временном шаге. Затем эта политика генерирует динамические скорости потока на последующих подшагах с минимальными накладными расходами, что позволяет быстро и точно интегрировать ОДУ на этих подшагах без дополнительных вычислений сети. Чтобы согласовать траекторию ОДУ политики с траекторией учителя, мы вводим новый подход к дистилляции через имитацию, который согласует скорость политики со скоростью учителя вдоль траектории политики с использованием стандартной функции потерь для согласования потоков ell_2. Просто имитируя поведение учителя, pi-Flow обеспечивает стабильное и масштабируемое обучение и избегает компромисса между качеством и разнообразием. На ImageNet 256^2 модель достигает FID 2.85 при 1-NFE, превосходя MeanFlow с той же архитектурой DiT. На FLUX.1-12B и Qwen-Image-20B при 4 NFEs pi-Flow демонстрирует значительно лучшее разнообразие по сравнению с современными методами с малым количеством шагов, сохраняя при этом качество на уровне учителя.
Многоэтапное рассуждение стало эффективной стратегией для повышения способности к рассуждению у небольших языковых моделей за счет декомпозиции сложных задач на последовательные подэтапы. Однако это достигается ценой увеличения задержки. Мы отмечаем, что существующие адаптивные методы ускорения, такие как пропуск слоев, сталкиваются с трудностями в балансировке эффективности и точности в данном контексте из-за двух ключевых проблем: (1) вариативности чувствительности к пропуску на разных этапах и (2) генерации избыточных выходных токенов. Для решения этих проблем мы предлагаем LiteStage — фреймворк для пропуска слоев с учетом задержки в многоэтапных рассуждениях. LiteStage сочетает в себе поэтапный оффлайн-поиск, который распределяет оптимальные бюджеты слоев, и онлайн-ранний выход на основе уверенности для подавления ненужного декодирования. Эксперименты на трех тестовых наборах данных, таких как OBQA, CSQA и StrategyQA, показывают, что LiteStage достигает ускорения до 1,70x с потерей точности менее 4,0%, превосходя предыдущие методы пропуска слоев, не требующие обучения.
Быстрый прогресс крупных предобученных моделей для генерации визуального контента и 3D-реконструкции открывает новые возможности для генерации 3D-сцен из текста. Интуитивно можно предположить, что мощный генератор 3D-сцен может быть создан путем объединения возможностей современной латентной модели для генерации видео из текста в качестве "генератора" и геометрических способностей недавно разработанной (прямопроходной) системы 3D-реконструкции в качестве "декодера". Мы представляем VIST3A — общий фреймворк, который реализует этот подход, решая две основные задачи. Во-первых, два компонента должны быть соединены таким образом, чтобы сохранить богатые знания, закодированные в их весах. Мы возвращаемся к технике "сшивания моделей", то есть определяем слой в 3D-декодере, который лучше всего соответствует латентному представлению, создаваемому генератором видео из текста, и соединяем две части. Эта операция требует лишь небольшого набора данных и не нуждается в метках. Во-вторых, генератор видео из текста должен быть согласован с соединенным 3D-декодером, чтобы гарантировать, что генерируемые латентные представления могут быть декодированы в согласованную и визуально убедительную 3D-геометрию сцены. Для этого мы адаптируем метод тонкой настройки с прямым вознаграждением, популярный подход для согласования с человеческими предпочтениями. Мы оцениваем предложенный подход VIST3A с использованием различных генераторов видео и моделей 3D-реконструкции. Все протестированные комбинации значительно превосходят предыдущие модели для генерации 3D из текста, которые выводят гауссовы сплаты. Более того, выбирая подходящую базовую 3D-модель, VIST3A также позволяет генерировать высококачественные карты точек из текста.
Последние модели редактирования изображений достигли впечатляющих результатов, следуя инструкциям на естественном языке, однако они полагаются на контролируемое тонкое обучение с использованием больших наборов данных, состоящих из пар "вход-цель". Это представляет собой серьезное ограничение, поскольку такие естественно возникающие пары сложно масштабировать. Существующие обходные пути используют синтетические обучающие пары, которые задействуют возможности существующих моделей в режиме "zero-shot". Однако это может распространять и усиливать артефакты предварительно обученной модели в итоговой обученной модели. В данной работе мы представляем новую парадигму обучения, которая полностью устраняет необходимость в парных данных. Наш подход напрямую оптимизирует модель диффузии с небольшим количеством шагов, разворачивая её в процессе обучения и используя обратную связь от моделей "визуальный язык" (VLM). Для каждого входного изображения и инструкции по редактированию VLM оценивает, соответствует ли редактирование инструкции и сохраняет ли неизменное содержимое, предоставляя прямые градиенты для сквозной оптимизации. Для обеспечения визуальной достоверности мы включаем функцию потерь на основе сопоставления распределений (DMD), которая ограничивает сгенерированные изображения в рамках многообразия, изученного предварительно обученными моделями. Мы оцениваем наш метод на стандартных бенчмарках и проводим обширное исследование с исключением компонентов. Без использования парных данных наш метод демонстрирует результаты, сопоставимые с различными моделями редактирования изображений на основе диффузии, обученными на обширных контролируемых парных данных, в условиях небольшого количества шагов. При использовании того же VLM в качестве модели вознаграждения мы также превосходим методы, основанные на обучении с подкреплением, такие как Flow-GRPO.
Видеогенеративные модели в последнее время достигли значительных успехов в качестве синтеза. Однако генерация сложных движений остается серьезной проблемой, поскольку существующие модели часто не способны создавать естественные, плавные и контекстуально согласованные движения. Этот разрыв между сгенерированными и реальными движениями ограничивает их практическую применимость. Для решения этой проблемы мы представляем RealDPO, новую парадигму выравнивания, которая использует реальные данные в качестве положительных образцов для обучения с учетом предпочтений, что позволяет более точно синтезировать движения. В отличие от традиционного контролируемого тонкого настройки (SFT), который предоставляет ограниченную корректирующую обратную связь, RealDPO применяет оптимизацию прямых предпочтений (DPO) с адаптированной функцией потерь для повышения реалистичности движений. Сравнивая реальные видео с ошибочными выходами модели, RealDPO обеспечивает итеративное самокорректирование, постепенно улучшая качество движений. Для поддержки пост-обучения в синтезе сложных движений мы предлагаем RealAction-5K, тщательно отобранный набор данных высококачественных видео, фиксирующих повседневную деятельность человека с богатыми и точными деталями движений. Многочисленные эксперименты демонстрируют, что RealDPO значительно улучшает качество видео, соответствие тексту и реалистичность движений по сравнению с передовыми моделями и существующими методами оптимизации предпочтений.
Разработка крупных языковых моделей зависит от масштабных обучающих корпусов, однако большинство из них содержат данные с неясным лицензионным статусом, что ограничивает создание действительно открытых моделей. Эта проблема усугубляется для неанглийских языков, где тексты с открытыми лицензиями остаются крайне ограниченными. Мы представляем German Commons — крупнейшую на сегодняшний день коллекцию текстов на немецком языке с открытыми лицензиями. Она объединяет данные из 41 источника в семи областях, включая юридические, научные, культурные, политические, новостные, экономические и веб-тексты. Благодаря систематическому сбору данных от проверенных поставщиков с подтвержденными лицензиями, корпус содержит 154,56 миллиарда токенов высококачественного текста для обучения языковых моделей. Наш процесс обработки включает комплексную фильтрацию качества, удаление дубликатов и исправление форматирования текста, что обеспечивает согласованное качество для разнородных источников. Все подмножества данных имеют лицензии не менее CC-BY-SA 4.0 или эквивалентные, что гарантирует юридическую совместимость для обучения моделей и их распространения. Таким образом, German Commons устраняет критический пробел в открытых данных для предварительного обучения на немецком языке и позволяет разрабатывать действительно открытые немецкие языковые модели. Мы также публикуем код для создания корпуса и фильтрации данных, адаптированный для текстов на немецком языке, что делает German Commons полностью воспроизводимым и расширяемым.
Языковые модели с рекуррентной глубиной, также называемые универсальными или зацикленными в контексте трансформеров, определяются способностью увеличивать свои вычислительные возможности за счёт повторения слоёв. Недавние исследования в области предварительного обучения показали, что такие архитектуры могут масштабироваться для современных задач языкового моделирования, демонстрируя при этом преимущества в задачах, требующих рассуждений. В данной работе мы исследуем взаимосвязь между моделями с рекуррентной глубиной и диффузионными языковыми моделями. Опираясь на их сходства, мы разрабатываем новый диффузионный сэмплер с принуждением для таких моделей, чтобы ускорить генерацию. Этот сэмплер продвигается, декодируя новые токены на каждом прямом проходе модели, в то время как скрытые состояния этих токенов могут быть дополнительно уточнены параллельно через рекурсию. Теоретически генерация с использованием нашего сэмплера строго более выразительна, чем базовый авторегрессивный подход при одинаковом временном бюджете на современном оборудовании. Более того, этот сэмплер, основанный на принципах из литературы по диффузии, может быть напрямую применён к существующим 3,5-миллиардным трансформерам с рекуррентной глубиной без какой-либо настройки, обеспечивая ускорение до 5 раз. Таким образом, наши результаты не только предоставляют эффективный механизм для параллелизации дополнительных вычислений в моделях с рекуррентной глубиной на этапе вывода, но также предполагают, что такие модели могут естественным образом рассматриваться как мощные непрерывные, хотя и причинно-следственные, диффузионные языковые модели.
Систематическая композиционная генерализация за пределами обучающего распределения остается ключевой проблемой в машинном обучении и серьезным ограничением для развивающихся способностей к рассуждению современных языковых моделей. В данной работе исследуется обобщение за пределами распределения (out-of-distribution, OOD) в трансформерных сетях на примере задачи модулярной арифметики на вычислительных графах в стиле GSM8K. Мы представляем и исследуем набор из четырех архитектурных механизмов, направленных на улучшение OOD-обобщения: (i) адаптивная рекуррентность на основе входных данных; (ii) алгоритмический контроль; (iii) закрепленные латентные представления через дискретный бутылочный слой; и (iv) явный механизм коррекции ошибок. В совокупности эти механизмы формируют архитектурный подход для естественного и масштабируемого рассуждения в латентном пространстве трансформерных сетей с устойчивыми возможностями алгоритмического обобщения. Мы дополняем эти эмпирические результаты детальным анализом механистической интерпретируемости, который раскрывает, как данные механизмы способствуют формированию устойчивых способностей к OOD-обобщению.
Цифровым агентам требуются разнообразные и масштабные траектории взаимодействия с пользовательским интерфейсом (UI) для обобщения в реальных задачах, однако сбор таких данных чрезвычайно затратен с точки зрения человеческой аннотации, инфраструктуры и инженерных ресурсов. В связи с этим мы представляем UI-Simulator — масштабируемую парадигму, которая генерирует структурированные состояния и переходы UI для синтеза обучающих траекторий в больших масштабах. Наша парадигма объединяет симулятор цифрового мира для создания разнообразных состояний UI, управляемый процесс развертывания для согласованного исследования и обертку траекторий, которая создает высококачественные и разнообразные траектории для обучения агентов. Мы также предлагаем UI-Simulator-Grow — стратегию целенаправленного масштабирования, которая позволяет ускорить и повысить эффективность масштабирования за счет приоритизации задач с высокой значимостью и синтеза информативных вариантов траекторий. Эксперименты на WebArena и AndroidWorld показывают, что UI-Simulator конкурирует или превосходит открытые агенты, обученные на реальных UI, демонстрируя значительно лучшую устойчивость, несмотря на использование менее мощных моделей-учителей. Более того, UI-Simulator-Grow достигает производительности Llama-3-70B-Instruct, используя только Llama-3-8B-Instruct в качестве базовой модели, что подчеркивает потенциал стратегии целенаправленного синтеза для непрерывного и эффективного улучшения цифровых агентов.
Контактные языки, такие как английский, демонстрируют богатые региональные вариации в форме диалектов, которые часто используются носителями диалектов при взаимодействии с генеративными моделями. Однако могут ли мультимодальные генеративные модели эффективно создавать контент на основе диалектного текстового ввода? В данной работе мы исследуем этот вопрос, создавая новый масштабный бенчмарк, охватывающий шесть распространённых диалектов английского языка. Мы сотрудничаем с носителями диалектов для сбора и проверки более 4200 уникальных запросов и оцениваем 17 моделей генерации изображений и видео. Результаты автоматической и экспертной оценки показывают, что современные мультимодальные генеративные модели демонстрируют снижение производительности на 32,26% до 48,17% при использовании одного диалектного слова в запросе. Распространённые методы устранения проблем, такие как тонкая настройка и переформулирование запросов, могут лишь незначительно улучшить производительность на диалектах (< 7%), при этом потенциально вызывая значительное снижение производительности на стандартном американском английском (SAE). В связи с этим мы разрабатываем общую стратегию устранения проблем для мультимодальных генеративных моделей, основанную на кодировщике. Наш метод обучает модель распознавать новые диалектные особенности, сохраняя при этом производительность на SAE. Эксперименты на моделях, таких как Stable Diffusion 1.5, показывают, что наш метод позволяет одновременно повысить производительность на пяти диалектах до уровня SAE (+34,4%), при этом практически не затрагивая производительность на SAE.
Предварительное обучение на уровне репозитория широко используется для того, чтобы крупные языковые модели, работающие с кодом, могли учитывать контекст всей кодовой базы. Это повышает их способность генерировать точные и контекстно-зависимые завершения кода. В данной работе мы исследуем, как различные стратегии обработки репозитория влияют на обучение в контексте в модели OpenCoder, содержащей 1,5 миллиарда параметров. Мы расширяем её контекстное окно с 4096 до 16 384 токенов, обучая модель на дополнительных 1 миллиарде токенов тщательно отобранных данных уровня репозитория. Несмотря на использование меньшего набора данных по сравнению с конкурирующими моделями (которые часто используют сотни миллиардов токенов), наша модель демонстрирует сопоставимую производительность на бенчмарке Long Code Arena. Мы обнаруживаем, что различные методы обработки репозитория дают схожие результаты, при этом основной прирост производительности достигается за счёт адаптации к новому параметру масштабирования ротационных позиционных эмбеддингов (RoPE). Наконец, мы показываем, что более простой подход к обучению на уровне файлов с исходной длиной последовательности остаётся высокоэффективным, что открывает исследования в области завершения кода на уровне репозитория для условий с ограниченными данными и вычислительными ресурсами.
Масштабирование во время тестирования представляет собой мощную стратегию для повышения производительности крупных языковых моделей в задачах сложного логического рассуждения. Хотя современные подходы часто используют генеративные верификаторы для выбора наилучшего решения из пула кандидатов, этот метод связан с непомерными вычислительными затратами, что ограничивает его практическую применимость. В данной работе мы смещаем акцент на более экономически эффективную парадигму: дискриминативную верификацию. Мы проводим тщательный эмпирический анализ и показываем, что, хотя дискриминативные верификаторы могут уступать в изолированном использовании, их комбинация с самосогласованностью в гибридном подходе создает мощный и эффективный механизм масштабирования во время тестирования. Примечательно, что при фиксированном вычислительном бюджете этот гибридный подход значительно превосходит современные методы генеративной верификации: достигая до 15,3\% более высокой точности на AIME2025. Наши результаты подтверждают, что для практических приложений в реальном мире экономически эффективное масштабирование с использованием дискриминативных верификаторов не только представляет собой "бесплатное" улучшение по сравнению с самосогласованностью, но также является более эффективной и экономичной альтернативой дорогостоящим генеративным методам. Код доступен по адресу https://github.com/wang-research-lab/verification.
Позы, возникающие при близком взаимодействии людей, передают богатую контекстуальную информацию о динамике взаимодействия. Имея такие позы, люди могут интуитивно выводить контекст и предсказывать возможные прошлые и будущие динамические изменения, опираясь на сильные априорные знания о поведении человека. Вдохновленные этим наблюдением, мы предлагаем Ponimator — простую структуру, основанную на проксимальных интерактивных позах для создания универсальной анимации взаимодействия. Наши обучающие данные состоят из поз двух людей в тесном контакте и их временного контекста, полученных из наборов данных motion-capture взаимодействий. Используя априорные знания о интерактивных позах, Ponimator применяет две условные модели диффузии: (1) аниматор поз, который использует временной приоритет для генерации динамических последовательностей движений из интерактивных поз, и (2) генератор поз, который применяет пространственный приоритет для синтеза интерактивных поз из одной позы, текста или обоих, когда интерактивные позы недоступны. В совокупности Ponimator поддерживает разнообразные задачи, включая анимацию взаимодействия на основе изображений, анимацию реакций и синтез взаимодействия из текста, что способствует переносу знаний о взаимодействии из высококачественных данных motion-capture в открытые сценарии. Эмпирические эксперименты на различных наборах данных и приложениях демонстрируют универсальность приоритета поз, а также эффективность и надежность нашей структуры.
Законы масштабирования изменили наше понимание больших языковых моделей, связав такие метрики, как кросс-энтропийные потери, с факторами проектирования, такими как размер модели, объем обучающих данных и вычислительные ресурсы. Однако эти традиционные законы не учитывают производительность на конечных задачах, где контекст играет критическую роль. В данной работе мы предлагаем простую и интерпретируемую структуру, которая совместно моделирует производительность на конечных задачах как функцию вычислительных ресурсов, затраченных на обучение, и предоставленного контекста. Мы эмпирически подтверждаем нашу структуру, аппроксимируя ее на наблюдаемой производительности расширенных контекстных вариантов моделей Llama-2-7B и Llama-2-13B на 65 500 уникальных примерах, охватывающих три задачи: арифметическое рассуждение, рассуждение на основе здравого смысла и машинный перевод. Наши результаты показывают, что предложенная структура точно моделирует производительность на конечных задачах в рамках распределения данных, обобщает результаты на три порядка величины вычислительных ресурсов и надежно экстраполирует производительность с увеличением объема контекста. Эти результаты дают ценные инсайты во взаимодействие между вычислительными ресурсами, затраченными на обучение, и использованием контекста, предоставляя рекомендации для проектирования более эффективных языковых моделей с длинным контекстом для различных конечных задач. Наш код доступен по адресу https://github.com/wang-research-lab/context-scaling.
Веб-агенты для «глубокого исследования» направлены на решение сложных задач ответов на вопросы через долгосрочные взаимодействия с онлайн-инструментами. Эти задачи остаются сложными, поскольку базовые языковые модели часто не оптимизированы для долгосрочного рассуждения и исследования. Предыдущие работы предлагали подходы к созданию наборов данных для настройки инструкций, часто используя графы знаний. Однако такие методы обычно не обеспечивают детального контроля над сложностью и качеством, что приводит к синтетическим данным, которые не отражают необходимую сложность для долгосрочного рассуждения. Кроме того, многие исследования смешивают эффекты данных и обучения, сравнивая модели, обученные по разным рецептам оптимизации, что затрудняет изоляцию и оценку эффективности самих данных. Мы представляем двухэтапный конвейер синтеза данных, который генерирует пары вопрос-ответ, постепенно увеличивая сложность задачи до тех пор, пока базовый веб-агент не перестанет справляться. Базовый агент выполняет несколько ролей в этом процессе: пытается ответить на вопросы, проверяет фактологическую точность, ищет альтернативные ответы и обеспечивает фильтрацию. Для оценки эффективности наших методов синтеза мы используем контролируемую настройку обучения, основанную на дистилляции от сильных веб-агентов. Эксперименты на нескольких веб-ориентированных тестах показывают, что наш набор данных — несмотря на меньший размер — позволяет обучать более эффективные веб-агенты по сравнению с существующими наборами данных. В частности, наши данные демонстрируют вдвое большее разнообразие в использовании инструментов, что позволяет моделям, обученным на них, достигать более высокой производительности, избегая повторяющихся вызовов инструментов.
Традиционная парадигма RAG, которая обычно занимается осмыслением соответствующих фрагментов текста в ответ на полученные запросы, по своей природе ограничивает как глубину усвоения знаний, так и способности к рассуждению. Чтобы устранить это ограничение, наше исследование преобразует обработку текста в RAG от пассивного фрагментирования к активному пониманию, определяя этот процесс как извлечение документальной памяти с целью моделирования когнитивных процессов человека во время чтения. На основе этого мы предлагаем фреймворк Mixtures of Scenario-aware Document Memories (MoM), разработанный для эффективной работы с документами из нескольких областей и обучения небольших языковых моделей (SLM) способности активно исследовать и конструировать документальную память. MoM сначала инструктирует крупные языковые модели (LLM) моделировать экспертов в области для генерации логических схем документов, тем самым направляя структурированное фрагментирование и извлечение ключевого содержания. Он использует механизм многопутевого сэмплирования и многоперспективной оценки, специально разрабатывая комплексные метрики, которые отражают ясность фрагментов и полноту извлечения, чтобы выбрать оптимальную документальную память. Кроме того, чтобы привить SLM более глубокие способности, подобные человеческому чтению, во время их обучения, мы включаем стратегию обратного рассуждения, которая выводит уточненные пути экспертного мышления из высококачественных результатов. Наконец, используя разнообразные формы контента, генерируемые MoM, мы разрабатываем трехслойный механизм извлечения документальной памяти, который основан на нашем теоретическом доказательстве с точки зрения вероятностного моделирования. Обширные экспериментальные результаты в трех различных областях демонстрируют, что фреймворк MoM не только решает проблемы фрагментирования текста в существующих системах RAG, предоставляя LLM семантически полную документальную память, но также прокладывает путь для SLM к достижению ориентированной на человека интеллектуальной обработки текста.
Моделирование устойчивых динамических сцен для отслеживания и синтеза новых ракурсов остается сложной задачей из-за трудностей в точном захвате деформаций при сохранении вычислительной эффективности. Мы предлагаем SCas4D, каскадную оптимизационную структуру, которая использует структурные закономерности в 3D-гауссовом сплайнинге для динамических сцен. Ключевая идея заключается в том, что реальные деформации часто демонстрируют иерархические закономерности, при которых группы гауссовых функций разделяют схожие преобразования. Последовательно уточняя деформации от грубого уровня частей до детального уровня точек, SCas4D достигает сходимости в пределах 100 итераций на временной кадр и обеспечивает результаты, сопоставимые с существующими методами, при использовании лишь одной двадцатой части тренировочных итераций. Данный подход также демонстрирует эффективность в задачах самоконтролируемой сегментации сочлененных объектов, синтеза новых ракурсов и плотного отслеживания точек.
Крупные языковые модели (LLM) всё чаще используются в качестве агентов, играющих роли, однако их способность достоверно и последовательно воплощать версии персонажей — например, супергероев из комиксов и кинематографических вселенных — остаётся недостаточно изученной. Каноны супергероев, такие как Marvel и DC, предоставляют богатую почву для исследований: десятилетия повествования породили множество воплощений одного и того же персонажа с уникальными историями, ценностями и моральными принципами. Для изучения этой проблемы мы представляем Beyond One World — эталонный набор данных для ролевой игры, основанной на персонажах, охватывающий 30 культовых героев и 90 их канонических версий. Набор включает две задачи: (i) Canon Events, проверяющую фактологическое воспроизведение ключевых этапов жизни, и (ii) Moral Dilemmas, ставящую модели перед этически сложными сценариями. Мы оцениваем ответы на предмет канонической точности и достоверности рассуждений в рамках подхода, разделяющего внутренние размышления ("мышление") и внешние решения ("действия"). Мы также предлагаем метрику Think-Act Matching, которая количественно оценивает соответствие между причинами и действиями и служит индикатором доверия к модели. Эксперименты с моделями, ориентированными и не ориентированными на рассуждения, выявили три ключевых результата: (1) цепочка рассуждений (chain-of-thought prompting) улучшает нарративную согласованность в менее мощных моделях, но может снижать каноническую точность в более сильных; (2) обобщение между версиями одного персонажа остаётся серьёзным препятствием; (3) модели часто преуспевают либо в "мышлении", либо в "действиях", но редко в обоих аспектах одновременно. Beyond One World выявляет критические пробелы в мультивселенской согласованности и согласованности рассуждений, предлагая сложный эталон для оценки ролевых LLM.
Способность языковых моделей в системах RAG избирательно отказываться отвечать на основе некорректного контекста имеет критическое значение для безопасности, однако остается значительной точкой сбоя. Наше масштабное исследование показывает, что даже передовые модели испытывают трудности в таких условиях, при этом точность отказа падает ниже 50% в задачах с использованием нескольких документов, демонстрируя либо опасную избыточную уверенность, либо чрезмерную осторожность. Статические бенчмарки не позволяют надежно оценить эту способность, так как модели используют специфические артефакты наборов данных и запоминают тестовые примеры. Мы представляем RefusalBench — генеративную методологию, которая программно создает диагностические тестовые случаи с помощью контролируемых лингвистических возмущений. Наша структура включает 176 различных стратегий возмущений, охватывающих шесть категорий информационной неопределенности и три уровня интенсивности. Оценка более 30 моделей выявляет систематические паттерны сбоев: отказ включает отдельные навыки обнаружения и категоризации, причем ни масштаб, ни расширенное рассуждение не улучшают производительность. Мы обнаруживаем, что избирательный отказ является обучаемой способностью, чувствительной к согласованию, что открывает четкий путь для улучшения. Мы выпускаем два бенчмарка — RefusalBench-NQ (один документ) и RefusalBench-GaRAGe (несколько документов) — и нашу полную генеративную структуру для обеспечения непрерывной и динамичной оценки этой критической способности.
Генерация с использованием извлечения информации (Retrieval-Augmented Generation, RAG) смягчает ключевые ограничения больших языковых моделей (Large Language Models, LLMs), такие как фактические ошибки, устаревшие знания и галлюцинации, за счет динамического извлечения внешней информации. Последние исследования расширяют эту парадигму с помощью агентских систем RAG, где LLMs выступают в роли агентов, которые итеративно планируют, извлекают и анализируют сложные запросы. Однако такие системы по-прежнему испытывают трудности с решением сложных многошаговых вопросов, а их промежуточные способности к рассуждению остаются недостаточно изученными. Для решения этой проблемы мы предлагаем RAGCap-Bench — ориентированный на возможности эталонный тест для детальной оценки промежуточных задач в агентских рабочих процессах RAG. Мы анализируем выходные данные современных систем, чтобы определить общие задачи и ключевые способности, необходимые для их выполнения, а затем создаем таксономию типичных ошибок LLM для разработки целенаправленных оценочных вопросов. Эксперименты показывают, что модели с "медленным мышлением", демонстрирующие более высокие результаты в RAGCap, достигают лучших конечных результатов, что подтверждает валидность эталонного теста и важность улучшения этих промежуточных способностей.
Модели вознаграждения процессов (Process Reward Models, PRMs) направлены на улучшение многошагового рассуждения в крупных языковых моделях (Large Language Models, LLMs) путем контроля промежуточных шагов и выявления ошибок. Однако создание эффективных PRM остается сложной задачей из-за отсутствия масштабируемых и качественных аннотаций. Существующие подходы опираются на дорогостоящую ручную разметку, самооценку на основе LLM, которая склонна к галлюцинациям, или оценку методом Монте-Карло (MC), которая определяет качество шагов исключительно на основе конечных результатов и часто вносит шумное и несогласованное управление из-за неправильного распределения заслуг. Эти проблемы приводят к трем основным ограничениям: шумные вознаграждения, низкая фактическая достоверность и несогласованность с целями пошагового рассуждения. Для решения этих задач мы представляем GroundedPRM — структурированную и ориентированную на достоверность систему автоматического контроля процессов. Чтобы уменьшить шум вознаграждений и обеспечить детальное распределение заслуг, мы строим структурированные пути рассуждений с использованием метода поиска по дереву Монте-Карло (Monte Carlo Tree Search, MCTS). Чтобы исключить галлюцинированное управление, мы проверяем каждый промежуточный шаг с помощью внешнего инструмента, предоставляя сигналы корректности, основанные на исполнении. Для объединения проверки на уровне шагов и глобальной оценки результатов мы разрабатываем гибридный механизм агрегации вознаграждений, который объединяет проверку на основе инструментов с обратной связью, полученной от MCTS. Наконец, мы форматируем сигнал вознаграждения в генеративную структуру, усиленную обоснованиями, чтобы повысить интерпретируемость и совместимость с LLM, настроенными на инструкции. GroundedPRM обучается на всего 40 тыс. автоматически размеченных образцов, что составляет лишь 10% данных, используемых лучшей PRM, обученной с автоматической разметкой. Тем не менее, она достигает относительного улучшения средней производительности на ProcessBench до 26%. При использовании для поиска с жадным вознаграждением GroundedPRM превосходит даже PRM, обученные с ручной разметкой, предлагая масштабируемый и проверяемый путь к высококачественному процессуальному рассуждению.
Спекулятивное декодирование ускоряет вывод в больших языковых моделях (LLM) за счет использования черновой модели для предварительного просмотра, но выигрыш ограничен затратами на авторегрессивное создание черновика: увеличение размера черновика повышает уровень принятия, но вводит дополнительную задержку, усугубляя компромисс между скоростью и точностью. Предыдущие методы (Medusa, Hydra, EAGLE) частично снижают затраты на черновик, но либо ухудшают уровень принятия, либо вводят накладные расходы, ограничивающие масштабируемость. Мы представляем Mirror Speculative Decoding (Mirror-SD) — алгоритм вывода, который преодолевает компромисс между задержкой и уровнем принятия. Mirror-SD запускает полные ветви прогнозов на основе сигналов раннего выхода параллельно с суффиксом целевой модели и явно распределяет вычисления между гетерогенными ускорителями (GPU и NPU), чтобы использовать параллелизм между устройствами. Черновик спекулирует продолжения для проверки целевой моделью, в то время как целевая модель одновременно спекулирует пути коррекции для черновика, превращая спекуляцию в два взаимодополняющих конвейера выполнения. Чтобы дополнительно сократить задержку черновика без ослабления семантики принятия, мы добавляем спекулятивное потоковое воспроизведение, позволяя черновику выдавать несколько токенов за шаг. Эта двойная стратегия параллельного гетерогенного выполнения и многотокенного спекулятивного потокового воспроизведения приближает спекулятивное декодирование к идеальному режиму высокого уровня принятия с низкими накладными расходами. На SpecBench с серверными моделями от 14B до 66B параметров Mirror-SD демонстрирует стабильные сквозные улучшения, достигая ускорения времени выполнения в 2,8–5,8 раз для различных задач и среднего относительного улучшения на 30% по сравнению с самым сильным базовым методом, EAGLE3.