Ежедневно отобранные исследовательские статьи по ИИ с переводами
Выдающиеся ученые обладают развитым чутьем и проницательностью, тесно связанными с тем, что принято называть научным вкусом. В данной работе под научным вкусом понимается способность оценивать и формулировать исследовательские идеи, обладающие высоким потенциалом влияния. Однако большинство существующих исследований сосредоточено на повышении исполнительской способности ИИ-ученого, в то время как развитие научного вкуса у искусственного интеллекта остается малоизученной областью. В этой работе мы предлагаем парадигму обучения с подкреплением на основе сообщества (Reinforcement Learning from Community Feedback, RLCF), которая использует масштабные сигналы научного сообщества в качестве супервизии, и формулируем задачу обучения научному вкусу как проблему моделирования и согласования предпочтений. Для моделирования предпочтений мы обучаем модель Scientific Judge на 700 тысячах пар статей с высоким и низким цитированием, сопоставленных по области и времени публикации, чтобы оценивать идеи. Для согласования предпочтений, используя Scientific Judge в качестве модели вознаграждения, мы обучаем политическую модель Scientific Thinker формулировать исследовательские идеи с высоким потенциалом влияния. Эксперименты показывают, что Scientific Judge превосходит современные большие языковые модели (такие как GPT-5.2, Gemini 3 Pro) и демонстрирует обобщающую способность в тестах на будущие годы, ранее не встречавшихся областях и соответствии рецензионным предпочтениям. Более того, Scientific Thinker предлагает исследовательские идеи с более высоким потенциалом влияния, чем базовые модели. Наши результаты демонстрируют, что ИИ способен обучаться научному вкусу, что знаменует ключевой шаг на пути к созданию ИИ-ученых человеческого уровня.
Мы представляем HSImul3R — унифицированный фреймворк для симуляционно-готового 3D-реконструирования взаимодействий человека и сцены (Human-Scene Interaction, HSI) на основе случайных съемок, включая изображения с разреженных ракурсов и монокулярные видео. Существующие методы страдают от разрыва между восприятием и симуляцией: визуально правдоподобные реконструкции часто нарушают физические ограничения, что приводит к нестабильности в физических движках и сбоям в приложениях воплощенного ИИ. Для преодоления этого разрыва мы предлагаем физически обоснованный двунаправленный конвейер оптимизации, который использует физический симулятор в качестве активного супервизора для совместного уточнения динамики человека и геометрии сцены. В прямом направлении мы применяем целевое обучение с подкреплением для сцены, чтобы оптимизировать движение человека под двойным контролем достоверности движений и стабильности контактов. В обратном направлении мы предлагаем прямую оптимизацию через симуляционные вознаграждения, которая использует обратную связь от симуляции по гравитационной устойчивости и успешности взаимодействия для уточнения геометрии сцены. Мы также представляем HSIBench — новый бенчмарк с разнообразными объектами и сценариями взаимодействия. Многочисленные эксперименты демонстрируют, что HSImul3R создает первые стабильные, симуляционно-готовые реконструкции HSI и может быть напрямую развернут на реальных гуманоидных роботах.
Глубокий поиск стал неотъемлемой компетенцией для передовых агентов на основе больших языковых моделей (LLM), однако разработка высокопроизводительных поисковых агентов остается прерогативой промышленных гигантов из-за отсутствия прозрачных и качественных обучающих данных. Эта устойчивая нехватка данных фундаментально сдерживает прогресс широкого исследовательского сообщества в разработке и инновациях в данной области. Чтобы устранить этот разрыв, мы представляем OpenSeeker — первого полностью открытого поискового агента (т.е. модель и данные), достигающего передового уровня производительности благодаря двум ключевым техническим инновациям: (1) Масштабируемый контролируемый синтез вопросно-ответных пар, основанный на фактах, который реконструирует веб-граф с помощью топологического расширения и обфускации сущностей для генерации сложных многозвенных задач с контролируемым охватом и сложностью. (2) Синтез очищенных траекторий, который использует механизм ретроспективного суммирования для удаления шума из траектории, тем самым побуждая учительские LLM генерировать высококачественные действия. Результаты экспериментов демонстрируют, что OpenSeeker, обученный (за одну сессию обучения) всего на 11.7 тыс. синтезированных примеров, достигает наилучшей производительности на множестве бенчмарков, включая BrowseComp, BrowseComp-ZH, xbench-DeepSearch и WideSearch. Примечательно, что при обучении с помощью простого SFT, OpenSeeker значительно превосходит второго по результатам полностью открытого агента DeepDive (например, 29.5% против 15.3% на BrowseComp) и даже опережает промышленных конкурентов, таких как Tongyi DeepResearch (обученный с помощью обширного непрерывного предобучения, SFT и RL), на BrowseComp-ZH (48.4% против 46.7%). Мы полностью открываем полный набор обучающих данных и веса модели, чтобы демократизировать исследования передовых поисковых агентов и способствовать созданию более прозрачной и collaborative экосистемы.
Крупные языковые модели переходят от пассивных поставщиков информации к активным агентам, предназначенным для сложных рабочих процессов. Однако их внедрение в качестве надежных ИИ-работников в корпоративной среде тормозится из-за бенчмарков, которые не учитывают сложность профессиональных сред, в частности, необходимость долгосрочного планирования в условиях постоянных изменений состояния и строгих протоколов доступа. В данной работе мы представляем EnterpriseOps-Gym — бенчмарк, разработанный для оценки агентского планирования в реалистичных корпоративных условиях. А именно, EnterpriseOps-Gym включает контейнеризованную песочницу с 164 таблицами базы данных и 512 функциональными инструментами, чтобы имитировать реальное трение поиска. В этой среде агенты оцениваются по 1150 экспертным задачам, охватывающим восемь критически важных направлений (включая клиентский сервис, HR и IT). Наша оценка 14 передовых моделей выявляет критические ограничения современных решений: лучшая модель, Claude Opus 4.5, достигает успеха лишь в 37,4% случаев. Дальнейший анализ показывает, что предоставление эталонных человеческих планов повышает производительность на 14–35 процентных пунктов, что указывает на стратегическое мышление как на основное узкое место. Кроме того, агенты часто не отказываются от невыполнимых задач (лучшая модель справляется лишь в 53,9% случаев), что приводит к непреднамеренным и потенциально вредным побочным эффектам. Наши выводы подчеркивают, что текущие агенты еще не готовы к автономному развертыванию в предприятиях. В более широком смысле, EnterpriseOps-Gym предоставляет конкретный полигон для повышения надежности агентского планирования в профессиональных рабочих процессах.
Что, если бы модель симуляции мира могла воспроизводить не вымышленное окружение, а реально существующий город? Предшествующие генеративные мировые модели синтезируют визуально правдоподобные, но искусственные среды, полностью создавая весь контент. Мы представляем Seoul World Model (SWM) — модель мира городского масштаба, основанную на реальном городе Сеуле. SWM обеспечивает авторегрессионную генерацию видео за счет условного управления, усиленного поиском по ближайшим панорамным снимкам улиц. Однако такая конструкция порождает ряд проблем, включая временное несоответствие между найденными референсами и динамической целевой сценой, ограниченное разнообразие траекторий и разреженность данных из-за съемки с транспортных средств через большие интервалы. Мы решаем эти проблемы с помощью кросс-временного спаривания, крупномасштабного синтетического набора данных для разнообразных траекторий камеры и конвейера интерполяции видов, который синтезирует согласованные обучающие видео из разреженных панорамных изображений. Дополнительно мы представляем механизм «Виртуального взгляда вперед» для стабилизации долгосрочной генерации путем постоянного перепривязывания каждого фрагмента к найденному изображению в будущем местоположении. Мы оцениваем SWM в сравнении с последними моделями видео-мира в трех городах: Сеул, Пусан и Энн-Арбор. SWM превосходит существующие методы в генерации пространственно точных, временно согласованных, долгосрочных видео, основанных на реальных городских средах, с траекториями протяженностью в сотни метров, при этом поддерживая разнообразные движения камеры и вариации сценариев по текстовым запросам.
Остаточные связи с PreNorm являются стандартом в современных больших языковых моделях, однако они суммируют выходы всех слоев с фиксированными единичными весами. Такая равномерная агрегация приводит к неконтролируемому росту скрытых состояний с увеличением глубины, постепенно размывая вклад каждого слоя. Мы предлагаем Attention Residuals (AttnRes), которые заменяют это фиксированное суммирование на механизм внимания softmax над выходами предыдущих слоев, позволяя каждому слою выборочно агрегировать предыдущие представления с обучаемыми, зависящими от входных данных весами. Для решения проблемы высоких затрат памяти и коммуникации при обработке всех предыдущих слоев в обучении крупномасштабных моделей мы вводим Block AttnRes, который разбивает слои на блоки и применяет внимание к представлениям на уровне блоков, сокращая объем используемой памяти при сохранении большей части преимуществ полного AttnRes. В сочетании с конвейерной коммуникацией на основе кэширования и двухфазной стратегией вычислений Block AttnRes становится практичной заменой стандартных остаточных связей с минимальными накладными расходами. Эксперименты с законами масштабирования подтверждают, что улучшение согласованно для моделей разных размеров, а ablation-исследования подтверждают преимущество содержательно-зависимого глубинного выбора. Мы также интегрировали AttnRes в архитектуру Kimi Linear (48B общих / 3B активируемых параметров) и провели предварительное обучение на 1.4T токенах, где AttnRes смягчает размытие PreNorm, обеспечивая более равномерные амплитуды выходов и распределение градиентов по глубине, а также улучшает производительность на всех оцениваемых downstream-задачах.
Масштабирование глубины является ключевым фактором для больших языковых моделей (LLM). Однако по мере увеличения глубины LLM часто сталкиваются с проблемой деградации сигнала: информативные признаки, сформированные в поверхностных слоях, постепенно размываются из-за повторяющихся остаточных обновлений, что затрудняет их восстановление в более глубоких слоях. Мы представляем механизм внимания смешения глубин (MoDA), который позволяет каждой голове внимания обращаться к KV-парам последовательности на текущем слое и к KV-парам глубины из предыдущих слоев. Далее мы описываем аппаратно-эффективный алгоритм для MoDA, который решает проблему несмежных шаблонов доступа к памяти, достигая 97.3% эффективности FlashAttention-2 при длине последовательности 64K. Эксперименты на моделях с 1.5 млрд параметров показывают, что MoDA стабильно превосходит сильные базовые модели. В частности, он улучшает среднюю перплексию на 0.2 по 10 валидационным тестам и повышает среднюю производительность на 2.11% по 10 последующим задачам при незначительном вычислительном overhead в 3.7% FLOPs. Мы также обнаружили, что сочетание MoDA с пост-нормализацией дает лучшие результаты, чем использование с пред-нормализацией. Эти результаты свидетельствуют о том, что MoDA является перспективным примитивом для масштабирования глубины. Код доступен по адресу https://github.com/hustvl/MoDA.
Многочисленные попытки дистилляции больших языковых моделей (LLM) с квадратичной внимательностью в субквадратичные линеаризованные архитектуры, несмотря на обширные исследования, часто не позволяют достичь производительности их учителей на различных downstream-задачах. Мы ставим цель безупречной дистилляции, которую определяем через скорректированные по допуску показатели Win-and-Tie между студентом и учителем на наборах задач. Для этого мы представляем эффективный конвейер дистилляции для студентов на основе xLSTM. Мы предлагаем дополнительный этап слияния, на котором индивидуально линеаризованные эксперты объединяются в единую модель. Мы демонстрируем эффективность этого подхода, дистиллируя базовые и инструктивно-настроенные модели из семейств Llama, Qwen и Olmo. Во многих сценариях наши студенты на основе xLSTM восстанавливают большую часть производительности учителя и даже превосходят её на некоторых downstream-задачах. Наш вклад является важным шагом на пути к более энергоэффективным и экономичным заменам LLM на основе трансформеров.
Модели «визуальный язык» (VLMs) часто «галлюцинируют» — генерируют правдоподобные, но фактически неверные утверждения, что создает серьезное препятствие для их надежного применения. В данной работе мы предлагаем новую парадигму диагностики галлюцинаций, переосмысливая их не как статические ошибки вывода, а как динамические патологии вычислительного познания модели. Наша методология основана на нормативном принципе вычислительной рациональности, что позволяет нам моделировать генерацию VLM как динамическую когнитивную траекторию. Мы разрабатываем набор информационно-теоретических проб, которые проецируют эту траекторию на интерпретируемое низкоразмерное Когнитивное Пространство Состояний. Ключевое открытие — управляющий принцип, который мы называем геометрико-информационной двойственностью: геометрическая аномальность когнитивной траектории в этом пространстве фундаментально эквивалентна ее высокой информационно-теоретической неожиданности. Обнаружение галлюцинаций сводится к задаче поиска геометрических аномалий. При оценке в различных условиях — от строгих бинарных вопросно-ответных задач (POPE) и комплексных рассуждений (MME) до неограниченного генеративного описания (MS-COCO) — наша методология демонстрирует наилучшую производительность. Важно, что она работает высокоэффективно при слабом контроле и сохраняет высокую устойчивость даже при сильной загрязненности калибровочных данных. Этот подход позволяет проводить каузальную атрибуцию сбоев, сопоставляя наблюдаемые ошибки с различными патологическими состояниями: перцептивной нестабильностью (измеряемой Перцептивной Энтропией), логико-каузальными сбоями (измеряемыми Инференциальным Конфликтом) и decisional ambiguity (измеряемой Энтропией Решения). В конечном счете, это открывает путь к созданию ИИ-систем, чьи рассуждения по своей конструкции являются прозрачными, проверяемыми и диагностируемыми.
Диффузионные трансформаторы (DiT) продемонстрировали выдающуюся масштабируемость и качество в генерации изображений и видео, что вызывает растущий интерес к их применению для управляемой генерации и редактирования. Однако по сравнению с аналогами для изображений прогресс в области управления и редактирования видео остается ограниченным, в основном из-за нехватки парных видеоданных и высокой вычислительной стоимости обучения видеодиффузионных моделей. Чтобы решить эту проблему, в данной статье мы предлагаем фреймворк для настройки без использования видео, названный ViFeEdit, для видеодиффузионных трансформаторов. Не требуя данных видеотренировки в какой-либо форме, ViFeEdit достигает универсальной генерации и редактирования видео, адаптируясь исключительно с помощью 2D-изображений. В основе нашего подхода лежит архитектурная перепараметризация, которая разделяет пространственную независимость от полного 3D-внимания в современных видеодиффузионных трансформаторах. Это позволяет осуществлять визуально точное редактирование, сохраняя временную согласованность при добавлении лишь минимального количества дополнительных параметров. Более того, данная конструкция работает в двухпоточном конвейере с раздельными временными embedding-ами для расписания шума, демонстрируя высокую адаптивность к разнообразным conditioning-сигналам. Многочисленные эксперименты показывают, что наш метод обеспечивает перспективные результаты управляемой генерации и редактирования видео при обучении лишь на минимальном наборе данных 2D-изображений. Код доступен по адресу https://github.com/Lexie-YU/ViFeEdit.
Обучение автономных веб-агентов принципиально ограничено средами, в которых они обучаются: исследование реальных веб-сайтов небезопасно, их сложно сбрасывать в исходное состояние, и они редко предоставляют проверяемую обратную связь. Мы предлагаем VeriEnv — фреймворк, который использует языковые модели в качестве создателей сред, автоматически клонируя реальные веб-сайты в полностью исполняемые, верифицируемые синтетические среды. Предоставляя контролируемый внутренний доступ через Python SDK, VeriEnv позволяет агентам самостоятельно генерировать задачи с детерминированными, программно проверяемыми вознаграждениями, устраняя зависимость от эвристических или основанных на LLM оценщиков. Такой подход отделяет обучение агентов от небезопасного взаимодействия с реальным миром, одновременно обеспечивая масштабируемое саморазвитие за счёт расширения сред. В экспериментах на бенчмарках для веб-агентов мы показываем, что агенты, обученные с помощью VeriEnv, обобщают знания на незнакомые сайты, достигают мастерства в работе с конкретными сайтами через саморазвивающееся обучение и получают преимущества от масштабирования количества обучающих сред. Код и ресурсы будут опубликованы по адресу https://github.com/kyle8581/VeriEnv после принятия статьи.
Оптимизация сложных систем, от промптов больших языковых моделей (LLM) до многошаговых агентов, традиционно требует трудоемкой ручной итерации. Мы формализуем эту задачу как стохастическую проблему генеративной оптимизации, в которой генеративная языковая модель выступает в роли оптимизатора, направляемого численными вознаграждениями и текстовой обратной связью для поиска наилучшей системы. Мы представляем Приоритизированную Оптимизацию с Локальной Контекстной Агрегацией (POLCA) — масштабируемую структуру, предназначенную для работы со стохастичностью в оптимизации (такой как зашумленная обратная связь, выборка мини-пакетов и стохастическое поведение систем) при эффективном управлении неограниченным расширением пространства решений. POLCA использует очередь с приоритетами для управления компромиссом между исследованием и использованием, систематически отслеживая кандидатные решения и историю их оценки. Для повышения эффективности мы интегрируем механизм ε-сети для поддержания разнообразия параметров и модуль LLM-суммаризации для выполнения мета-обучения на основе исторических испытаний. Мы теоретически доказываем, что POLCA сходится к почти оптимальным кандидатным решениям в условиях стохастичности. Мы оцениваем нашу структуру на различных бенчмарках, включая τ-bench, HotpotQA (оптимизация агентов), VeriBench (перевод кода) и KernelBench (генерация CUDA-ядeр). Результаты экспериментов демонстрируют, что POLCA обеспечивает надежную, ресурсо- и временно-эффективную производительность, стабильно превосходя современные алгоритмы как в детерминированных, так и в стохастических задачах. Кодовая база для данной работы общедоступна по адресу https://github.com/rlx-lab/POLCA.
Крупные модели логического вывода (LRM) демонстрируют впечатляющие результаты в решении сложных задач благодаря использованию цепочек рассуждений (CoT), что позволяет им генерировать промежуточные "мыслительные" токены перед получением окончательного ответа. Однако LRM часто страдают от значительного "передумывания", тратя чрезмерные вычислительные ресурсы даже после того, как ответ был сгенерирован на раннем этапе. Предыдущие исследования выявили существование оптимальной длины рассуждения, при усечении до которой значительно сокращается объем вывода CoT практически без потери качества. Однако определение оптимальной длины CoT для практических наборов данных является крайне нетривиальной задачей, поскольку она полностью зависит от конкретной задачи и модели. В данной работе мы предлагаем точное решение этой проблемы — TERMINATOR, стратегию досрочного завершения вывода для LRM, позволяющую снизить эффект "передумывания". Ключевая идея TERMINATOR заключается в том, что первое появление окончательного ответа модели часто предсказуемо, и мы используем эти позиции первых ответов для создания нового набора данных оптимальных длин рассуждений для обучения TERMINATOR. Благодаря этому подходу TERMINATOR достигает значительного сокращения длины CoT в среднем на 14–55% на четырех сложных практических наборах данных: MATH-500, AIME 2025, HumanEval и GPQA, превосходя при этом современные state-of-the-art методы.
Существующие бенчмарки веб-генерации используют текстовые промпты или статические скриншоты в качестве входных данных. Однако видео естественным образом передают более богатые сигналы, такие как поток взаимодействий, время переходов и непрерывность движения, которые необходимы для точного воссоздания веб-страниц. Несмотря на этот потенциал, генерация веб-страниц на основе видео остаётся в значительной степени неисследованной областью, для которой не существует специализированного бенчмарка. Чтобы заполнить этот пробел, мы представляем WebVR — бенчмарк, который оценивает способность MLLM достоверно воссоздавать веб-страницы по демонстрационным видео. WebVR содержит 175 веб-страниц из различных категорий, все они созданы с помощью контролируемого синтезирующего конвейера, а не путём веб-краулинга, что обеспечивает разнообразные и реалистичные демонстрации без пересечений с существующими онлайн-страницами. Мы также разработали детализированную визуальную рубрику, согласованную с человеческой оценкой, которая оценивает сгенерированные веб-страницы по множеству параметров. Эксперименты с 19 моделями выявили значительный разрыв в воспроизведении детализированного стиля и качества анимации, в то время как автоматическая оценка на основе рубрики достигла 96% согласия с человеческими предпочтениями. Мы публикуем набор данных, инструментарий для оценки и базовые результаты для поддержки будущих исследований в области генерации веб-страниц из видео.
Все классификаторы, включая современные модели компьютерного зрения, обладают инвариантами, частично обусловленными геометрией их линейных отображений. Эти инварианты, находящиеся в нуль-пространстве классификатора, порождают эквивалентные множества входных данных, которые отображаются на идентичные выходы. Семантическое содержание этих инвариантов остается неясным, поскольку существующие подходы не способны предоставить информацию, интерпретируемую человеком. Для устранения этого пробела мы представляем метод Семантической Интерпретации Геометрии Нуль-пространства (SING), который строит эквивалентные относительно сети изображения и присваивает семантические интерпретации доступным вариациям. Мы используем отображение из признаков сети в мультимодальные языковые модели зрения. Это позволяет нам получать описания на естественном языке и визуальные примеры индуцированных семантических сдвигов. SING может быть применен к отдельному изображению для выявления локальных инвариантов или к наборам изображений, что позволяет проводить широкий статистический анализ на уровне классов и моделей. Например, наш метод показывает, что ResNet50 допускает утечку релевантных семантических атрибутов в нуль-пространство, в то время как DinoViT — Vision Transformer, предобученный с помощью самообучаемого метода DINO, — превосходно сохраняет семантику классов в инвариантном пространстве.
Крупные языковые модели часто демонстрируют «моменты озарения» в процессе рассуждений, например, видимое самоисправление после токенов вроде «Подождите», однако их глубинные механизмы остаются неясными. Мы представляем информационно-теоретическую структуру, которая разлагает рассуждение на процедурную информацию и эпистемическую вербализацию — явную экстернализацию неопределённости, поддерживающую последующие управляющие действия. Мы показываем, что чисто процедурное рассуждение может становиться информационно стагнирующим, тогда как эпистемическая вербализация позволяет продолжить приобретение информации и критически важна для достижения информационной достаточности. Эмпирические результаты демонстрируют, что высокая производительность рассуждений обусловлена экстернализацией неопределённости, а не конкретными поверхностными токенами. Наша структура объединяет предыдущие находки о «моментах озарения» и пост-тренировочных экспериментах и предлагает идеи для будущего проектирования моделей рассуждений.
Мотивация является ключевым движущим фактором человеческого поведения, определяющим решения, цели и результативность задач. По мере того как большие языковые модели (БЯМ) становятся все более согласованными с человеческими предпочтениями, мы задаемся вопросом, проявляют ли они нечто подобное мотивации. Мы исследуем, «сообщают» ли БЯМ о различных уровнях мотивации, как эти сообщения связаны с их поведением и могут ли внешние факторы на них влиять. Наши эксперименты выявляют последовательные и структурированные паттерны, перекликающиеся с человеческой психологией: самооценка мотивации согласуется с различными поведенческими маркерами, варьируется в зависимости от типа задач и может модулироваться внешними воздействиями. Эти результаты демонстрируют, что мотивация является целостным организующим конструктом для поведения БЯМ, систематически связывая самоотчеты, выбор, прилагаемые усилия и производительность, а также раскрывая динамику мотивации, сходную с описанной в человеческой психологии. Такой подход углубляет наше понимание поведения моделей и его связи с концепциями, вдохновленными человеческой природой.
Генерация движений человека часто изучается в евклидовых пространствах, хотя корректные движения подчиняются структурированной неевклидовой геометрии. Мы представляем риманову генерацию движений (Riemannian Motion Generation, RMG) — унифицированный фреймворк, который представляет движение на произведении многообразий и изучает динамику с помощью риманова согласования потоков (Riemannian flow matching). RMG факторизует движение на несколько факторов-многообразий, обеспечивая масштабно-независимое представление с внутренней нормализацией, и использует геодезическую интерполяцию, контроль в касательных пространствах и интегрирование ОДУ, сохраняющее многообразие, для обучения и сэмплирования. На наборе HumanML3D RMG достигает наилучшего показателя FID в формате HumanML3D (0.043) и занимает первое место по всем заявленным метрикам в формате MotionStreamer. На наборе MotionMillion метод также превосходит сильные базовые линии (FID 5.6, R@1 0.86). Абляционные исследования показывают, что компактное представление T+R (трансляции + вращения) является наиболее стабильным и эффективным, что подчеркивает осведомленное о геометрии моделирование как практичный и масштабируемый путь к генерации движений высокой точности.
Мы представляем PokeAgent Challenge — масштабный бенчмарк для исследований в области принятия решений, построенный на основе многопользовательской боевой системы Pokémon и обширной среды ролевой игры (RPG). Частичная наблюдаемость, теория игр и долгосрочное планирование остаются нерешенными проблемами для передового ИИ, однако немногие бенчмарки одновременно проверяют все три аспекта в реалистичных условиях. PokeAgent решает эти ограничения в масштабе через два взаимодополняющих направления: Боевой трек, требующий стратегического мышления и обобщения в условиях частичной наблюдаемости в соревновательных боях Pokémon, и Спидра́ннерский трек, ориентированный на долгосрочное планирование и последовательное принятие решений в RPG-составляющей Pokémon. Наш Боевой трек предоставляет набор данных из более чем 20 миллионов траекторий боев вместе с набором эвристических, RL- и LLM-базисов, способных на высокоуровневую соревновательную игру. Спидра́ннерский трек предлагает первую стандартизированную систему оценки для спидра́ннинга в RPG, включая систему оркестрации с открытым исходным кодом для модульных и воспроизводимых сравнений LLM-подходов. Наш конкурс NeurIPS 2025 подтверждает как качество наших ресурсов, так и интерес научного сообщества к Pokémon: более 100 команд участвовали в обоих треках, а решения победителей детально описаны в нашей статье. Результаты участников и наши базисы демонстрируют значительный разрыв между универсальными (LLM), специализированными (RL) и элитными человеческими показателями. Анализ с помощью матрицы оценки BenchPress показывает, что бои в Pokémon почти ортогональны стандартным LLM-бенчмаркам, измеряя способности, не охваченные существующими наборами, и позиционируя Pokémon как нерешенный бенчмарк, способный продвинуть исследования в области RL и LLM. Мы переходим к формату «живого» бенчмарка с онлайн-таблицей лидеров для Боевого трека и автономной системой оценки для Спидра́ннерского трека на https://pokeagentchallenge.com.
Обучение с подкреплением для генерации кода опирается на проверяемые вознаграждения, основанные на прохождении модульных тестов. Однако качественные наборы тестов редки, существующие наборы данных предлагают ограниченное покрытие, а статические вознаграждения не адаптируются по мере улучшения моделей. Недавние методы самодостаточной игры объединяют генерацию кода и тестов в одной модели, но сталкиваются с inherent дилеммой: белый ящик приводит к самообману, когда модель создает тривиальные тесты для легкого вознаграждения, тогда как черный ящик дает общие тесты, которые пропускают специфичные для реализации ошибки. Мы представляем Code-A1, соревновательный коэволюционный фреймворк, который совместно оптимизирует Code LLM и Test LLM с противоположными целями. Code LLM получает вознаграждение за прохождение большего количества тестов, в то время как Test LLM поощряется за выявление большего количества дефектов. Это архитектурное разделение устраняет риски самообмана и безопасно позволяет генерацию тестов с белым ящиком, где Test LLM может анализировать кандидатный код для создания целенаправленных соревновательных тестов. Мы также вводим механизм «Книги ошибок» для воспроизведения опыта и составное вознаграждение, балансирующее валидность тестов с соревновательной сложностью. Эксперименты на моделях Qwen2.5-Coder демонстрируют, что Code-A1 достигает производительности генерации кода, сопоставимой или превосходящей модели, обученные на тестах с человеческой разметкой, при этом значительно улучшая способность к генерации тестов.
Прогнозирование аффордансов служит критически важным связующим звеном между восприятием и действием в воплощенном искусственном интеллекте. Однако существующие исследования ограничиваются моделями камер-обскур, которые страдают от узких полей обзора и фрагментированных наблюдений, часто упуская критически важный целостный контекст окружающей среды. В данной статье мы представляем первое исследование в области панорамного прогнозирования аффордансов, использующее 360-градусные изображения для захвата глобальных пространственных взаимосвязей и целостного понимания сцены. Для содействия этой новой задаче мы сначала представляем PAP-12K, крупномасштабный эталонный набор данных, содержащий более 1000 сверхвысокого разрешения (12k, 11904 x 5952) панорамных изображений с более чем 12 000 тщательно аннотированных пар "вопрос-ответ" и масок аффордансов. Кроме того, мы предлагаем PAP, свободный от обучения, поэтапный конвейер, вдохновленный фовеальной зрительной системой человека, для решения проблем сверхвысокого разрешения и значительных дисторсий, присущих панорамным изображениям. PAP использует рекурсивную визуальную маршрутизацию посредством грид-подсказок для постепенного определения местоположения целей, применяет адаптивный механизм "взгляда" для коррекции локальных геометрических искажений и использует каскадный конвейер grounding для извлечения точных масок на уровне экземпляров. Результаты экспериментов на PAP-12K показывают, что существующие методы прогнозирования аффордансов, разработанные для стандартных перспективных изображений, демонстрируют серьезную деградацию производительности и терпят неудачу из-за уникальных проблем панорамного зрения. В отличие от них, фреймворк PAP эффективно преодолевает эти препятствия, значительно превосходя современные базовые методы и подчеркивая огромный потенциал панорамного восприятия для создания надежного воплощенного интеллекта.
Мультимодальные большие языковые модели (MБЯМ) демонстрируют высокую производительность в области визуального и аудиопонимания при изолированной оценке. Однако их способность к совместному анализу омни-модальных (визуальных, аудиальных и текстовых) сигналов в длинных и сложных видео остаётся в значительной степени неисследованной. Мы представляем MMOU — новый эталонный тест, разработанный для систематической оценки мультимодального понимания и логического вывода в этих сложных, приближенных к реальным условиям. MMOU состоит из 15 000 тщательно отобранных вопросов в паре с 9038 веб-видео различной длины, охватывающих разнообразные домены и демонстрирующих богатое, тесно связанное аудиовизуальное содержание. Бенчмарк охватывает 13 фундаментальных категорий навыков, все из которых требуют интеграции доказательств across модальностей и времени. Все вопросы вручную размечены по нескольким параметрам профессиональными аннотаторами, что гарантирует высокое качество и достоверность логических цепочек. Мы оценили более 20 передовых открытых и проприетарных мультимодальных моделей на MMOU. Результаты выявили существенные пробелы в производительности: лучшая проприетарная модель достигает точности лишь 64,2%, в то время как сильнейшая открытая модель — всего 46,8%. Наши результаты подчеркивают сложности понимания длинных омни-модальных последовательностей, показывая, что современные модели часто не справляются с применением даже базовых навыков в длинных видео. Благодаря детальному анализу мы также выявляем систематические типы ошибок и даём представление о том, где и почему текущие модели дают сбой.
Предобученные большие языковые модели (LLM) демонстрируют широкие возможности, однако для решения конкретных задач или в определенных предметных областях достижение более высокой точности и надежности выводов, как правило, требует последующего обучения с помощью контролируемой тонкой настройки (SFT) или обучения с подкреплением (RL). Хотя эти подходы часто рассматриваются как отдельные методики, последние теоретические и эмпирические разработки показывают, что SFT и RL тесно взаимосвязаны. Данное исследование предлагает всесторонний и унифицированный взгляд на пост-обучение LLM с использованием SFT и RL. Сначала мы подробно рассматриваем обе методики, анализируя их цели, алгоритмическую структуру и требования к данным. Затем мы систематически анализируем их взаимодействие, выделяя фреймворки, интегрирующие SFT и RL, гибридные конвейеры обучения и методы, использующие их взаимодополняющие преимущества. Опираясь на репрезентативный набор прикладных исследований за 2023–2025 годы, мы выявляем новые тенденции, характеризуем быстрый переход к гибридным парадигмам пост-обучения и формулируем ключевые выводы, которые проясняют, когда и почему каждый из методов наиболее эффективен. Синтезируя теоретические идеи, практические методики и эмпирические данные, это исследование формирует целостное понимание SFT и RL в рамках единой концепции и намечает перспективные направления для будущих исследований в области масштабируемого, эффективного и обобщаемого пост-обучения LLM.
Как показал закон масштабирования для мелкозернистых MoE-моделей, производительность модели перестает улучшаться, как только гранулярность промежуточного измерения превышает оптимальный порог, что ограничивает дальнейший выигрыш от одномерного мелкозернистого проектирования. Для преодоления этого узкого места мы предлагаем FineRMoE — архитектуру, расширяющую принцип мелкозернистого проектирования экспертов на промежуточное и выходное измерения, что позволяет повысить специализацию экспертов за пределами одномерного ограничения. Мы также вводим двухуровневую разреженную схему прямых вычислений и специализированный механизм маршрутизации для управления активацией. Кроме того, чтобы избежать непомерных затрат на обучение FineRMoE с нуля, мы разрабатываем обобщенный метод апсайклинга для экономически эффективного построения модели. Многочисленные эксперименты демонстрируют превосходную производительность FineRMoE на десяти стандартных бенчмарках. По сравнению с сильнейшим базовым методом FineRMoE демонстрирует в 6 раз более высокую параметрическую эффективность, в 281 раз меньшую латентность предзаполнения и в 136 раз более высокую пропускную способность декодирования при выводе.
После значительных прорывов в генерации текста и изображений наблюдается стремительный рост развития видео-домена, позволяющего создавать высокореалистичные и управляемые последовательности. Наряду с этим прогрессом, подобные модели также вызывают серьезные опасения относительно дезинформации, что делает надежное обнаружение синтетических видео все более важной задачей. Детекторы, основанные на изображениях, имеют фундаментальное ограничение, поскольку работают с каждым кадром в отдельности и игнорируют временную динамику, в то время как обучаемые видео-детекторы плохо обобщаются на неизвестные генераторы — критический недостаток в условиях быстрого появления новых моделей. Эти проблемы стимулируют развитие подходов с нулевым обучением (zero-shot), которые избегают использования синтетических данных и вместо этого оценивают контент на основе статистики реальных данных, обеспечивая детектирование, не требующее обучения и независимое от модели. Мы представляем STALL — простой, не требующий обучения и теоретически обоснованный детектор, который обеспечивает оценку правдоподобия для видео, совместно моделируя пространственные и временные признаки в рамках вероятностного подхода. Мы оцениваем STALL на двух публичных бенчмарках и представляем ComGenVid — новый бенчмарк с современными генеративными моделями. STALL стабильно превосходит предыдущие базовые методы, основанные на изображениях и видео. Код и данные доступны по адресу https://omerbenhayun.github.io/stall-video.
Переосвещение на основе одного изображения является крайне недоопределенной задачей: незначительные изменения освещения могут вызывать существенные нелинейные вариации в тенях, бликах и затенении, в то время как геометрия и материалы остаются ненаблюдаемыми. Существующие подходы на основе диффузионных моделей либо опираются на конвейеры вычисления внутренних свойств (intrinsic) или G-буферов, требующие плотного и хрупкого supervision, либо работают исключительно в латентном пространстве без физической обоснованности, что делает точный контроль направления, интенсивности и цвета ненадежным. Мы наблюдаем, что полная декомпозиция внутренних свойств является избыточной для точного переосвещения. Вместо этого, разреженные, но физически значимые признаки, указывающие, где должно изменяться освещение и как материалы должны реагировать, достаточны для управления диффузионной моделью. Основываясь на этом наблюдении, мы представляем LightCtrl, который интегрирует физические априорные знания на двух уровнях: few-shot латентный прокси-энкодер, извлекающий компактные признаки материала и геометрии из ограниченного PBR supervision, и освещенно-чувствительная маска, которая идентифицирует области, чувствительные к изменению освещения, и направляет денойзер к пикселям, связанным с затенением. Для компенсации недостатка PBR-данных мы дорабатываем прокси-ветку с использованием целевой функции на основе DPO, которая обеспечивает физическую согласованность предсказанных признаков. Мы также представляем ScaLight, масштабируемый набор данных на уровне объектов с систематически варьируемым освещением и полными метаданными камеры и источников света, что позволяет проводить физически согласованное и контролируемое обучение. На бенчмарках уровня объектов и сцен наш метод демонстрирует фотометрически достоверное переосвещение с точным непрерывным контролем, превосходя предыдущие диффузионные и intrinsic-подходы, включая улучшение до +2.4 дБ PSNR и снижение RMSE на 35% при контролируемых изменениях освещения.
Модели мира дистанционного зондирования ставят целью как объяснение наблюдаемых изменений, так и прогнозирование правдоподобных сценариев будущего — две задачи, имеющие общие пространственно-временные априорные предположения. Однако существующие методы обычно решают их раздельно, что ограничивает перенос знаний между задачами. Мы представляем RS-WorldModel, унифицированную модель мира для дистанционного зондирования, которая совместно решает задачи понимания пространственно-временных изменений и прогнозирования сцен будущего на основе текстовых описаний, а также создаем RSWBench-1.1M — набор данных объемом 1,1 миллиона образцов с богатыми языковыми аннотациями, охватывающий обе задачи. Обучение RS-WorldModel проводится в три этапа: (1) гео-ориентированное генеративное предварительное обучение (GAGP), которое учитывает географические и атрибутивные метаданные при прогнозировании; (2) синергетическая тонкая настройка по инструкциям (SIT), совместно обучающая пониманию и прогнозированию; (3) верифицируемая оптимизация с подкреплением (VRO), которая улучшает выходные данные с помощью проверяемых, специфичных для задачи вознаграждений. Всего с 2 миллиардами параметров RS-WorldModel превосходит модели с открытым исходным кодом, размер которых до 120 раз больше, по большинству метрик вопросно-ответной системы для пространственно-временных изменений. Модель достигает показателя FID 43,13 в задаче прогнозирования будущих сцен по текстовому описанию, превосходя все открытые базовые модели, а также закрытую модель Gemini-2.5-Flash Image (Nano Banana).
Способен ли искусственный интеллект добиться прогресса в решении важных нерешенных математических проблем? Крупные языковые модели теперь способны к сложным математическим и научным рассуждениям, но вопрос о том, могут ли они проводить новые исследования, остается предметом широких дискуссий и недостаточно изучен. Мы представляем HorizonMath — набор из более чем 100 преимущественно нерешенных проблем, охватывающих 8 областей вычислительной и прикладной математики, в сочетании с открытой системой оценки для автоматической проверки. Наш бенчмарк ориентирован на класс проблем, где открытие является сложным, требующим содержательного математического прорыва, но проверка вычислительно эффективна и проста. Поскольку решения этих проблем неизвестны, HorizonMath защищен от загрязнения данных, и большинство современных моделей показывают результат близкий к 0%. Существующие бенчмарки исследовательского уровня, напротив, полагаются на верификацию формальных доказательств или ручную проверку, что дорого масштабировать. Используя эту платформу, мы обнаружили две проблемы, для которых GPT 5.4 Pro предлагает решения, превосходящие лучшие из опубликованных результатов, что представляет потенциально новые вклады (требующие экспертной оценки). Мы публикуем HorizonMath как открытый вызов и развивающийся общедоступный ресурс, где корректные решения проблем из классов нерешенных задач могут стать новыми результатами в математической литературе.
Видео-рассуждение требует от моделей локализации и отслеживания релевантных вопросу свидетельств в кадрах. Хотя обучение с подкреплением (RL) с верифицируемыми вознаграждениями повышает точность, оно по-прежнему затрудняется в достижении надежного пространственно-временного обоснования в процессе рассуждений. Более того, улучшение обоснования обычно зависит от масштабированных обучающих данных или инструментов восприятия на этапе вывода, что увеличивает стоимость аннотирования или вычислительные затраты. Для решения этой проблемы мы предлагаем VisonCoach, адаптивную к входным данным RL-структуру, которая улучшает пространственно-временное обоснование с помощью визуальных подсказок в качестве руководства на этапе обучения. Во время RL-обучения визуальные подсказки выборочно применяются к сложным входным данным, чтобы усилить релевантные вопросу свидетельства и подавить отвлекающие факторы. Затем модель усваивает эти улучшения посредством самодистилляции, позволяя проводить обоснованные рассуждения непосредственно на исходных видео без визуальных подсказок на этапе вывода. VisonCoach состоит из двух компонентов: (1) Селектора визуальных подсказок, который предсказывает подходящие типы подсказок в зависимости от видео и вопроса, и (2) Пространственно-временного модуля рассуждений, оптимизируемого с помощью RL под руководством визуальных подсказок и вознаграждений за объектно-ориентированное обоснование, которые обеспечивают согласованность идентификации объектов и перекрытие ограничивающих рамок нескольких областей. Многочисленные эксперименты демонстрируют, что VisonCoach достигает передовых результатов в сопоставимых условиях на различных эталонах видео-рассуждений, понимания видео и временного обоснования (V-STAR, VideoMME, World-Sense, VideoMMMU, PerceptionTest и Charades-STA), сохраняя при этом единый эффективный путь вывода без внешних инструментов. Наши результаты показывают, что визуальные подсказки во время обучения улучшают обоснованное видео-рассуждение, в то время как самодистилляция позволяет модели усвоить эту способность без необходимости в подсказках во время вывода.
Последние достижения в области генерации видео с управляемой траекторией демонстрируют значительный прогресс. Предыдущие методы в основном используют адаптерные архитектуры для точного управления движением по заранее заданным траекториям. Однако все эти методы опираются на многошаговый процесс денойзинга, что приводит к значительным временным затратам и вычислительной нагрузке. В то время как существующие методы дистилляции видео успешно преобразуют многошаговые генераторы в малошаговые, прямое применение этих подходов к генерации видео с управляемой траекторией приводит к заметной деградации как качества видео, так и точности траектории. Для преодоления этого разрыва мы представляем FlashMotion — новую архитектуру обучения, разработанную для малошаговой генерации видео с управляемой траекторией. Сначала мы обучаем траекторный адаптер на многошаговом видео-генераторе для точного управления траекторией. Затем мы дистиллируем генератор в малошаговую версию для ускорения генерации видео. Наконец, мы дообучаем адаптер с использованием гибридной стратегии, сочетающей диффузионные и состязательные цели, согласовывая его с малошаговым генератором для получения высококачественных видео с точным соблюдением траектории. Для оценки мы представляем FlashBench — бенчмарк для генерации видео с управляемой траекторией в длинных последовательностях, который измеряет как качество видео, так и точность траектории при различном количестве объектов переднего плана. Эксперименты на двух адаптерных архитектурах показывают, что FlashMotion превосходит существующие методы дистилляции видео и предыдущие многошаговые модели как по визуальному качеству, так и по согласованности траектории.
Недавние исследования выявили феномен «проклятия глубины» в больших языковых моделях (LLM), при котором более поздние слои вносят меньший вклад в обучение и репрезентацию по сравнению с ранними. Такое неполное использование связано с накопленным ростом дисперсии в Pre-Layer Normalization, что может приводить глубокие блоки к поведению, близкому к тождественному. В данной работе мы показываем, что разреженность (sparsity), помимо повышения эффективности, выступает в роли регулятора распространения дисперсии и тем самым улучшает использование глубины модели. Наше исследование охватывает два источника разреженности: (i) неявную разреженность, возникающую из условий обучения и данных, включая разреженность весов, индуцированную вес-decay, и разреженность внимания, вызванную длинными контекстными входами; и (ii) явную разреженность, обеспечиваемую архитектурными решениями, включая разреженность за счет общего использования ключей/значений в Grouped-Query Attention и разреженность активации экспертов в Mixture-of-Experts. Наше утверждение всесторонне подтверждается контролируемыми экспериментами по масштабированию глубины и целевыми вмешательствами в эффективность слоев. Во всех сценариях мы наблюдаем устойчивую закономерность: разреженность улучшает использование слоев за счет снижения выходной дисперсии и стимулирования функциональной дифференциации. В конечном счете, мы обобщаем наши выводы в виде практического эмпирического рецепта для обучения эффективных по глубине LLM, что позволило добиться значительного улучшения точности на 4,6% в downstream-задачах. Наши результаты раскрывают разреженность, естественным образом возникающую из стандартных проектных решений, как ключевой, но ранее упускавшийся из виду механизм эффективного масштабирования глубины в LLM. Код доступен по адресу https://github.com/pUmpKin-Co/SparsityAndCoD.
Воплощенные ИИ-агенты все чаще требуют параллельного выполнения множества задач, таких как манипулирование, ведение диалога и построение памяти, на основе общих наблюдений, но с различными временными ограничениями. Современные Vision-Language-Action Models (VLA) на основе архитектуры Mixture-of-Transformers (MoT) структурно поддерживают такие гетерогенные выходы, однако существующие системы вывода не обеспечивают эффективного многозадачного параллелизма для развертывания на устройстве из-за избыточных вычислений и конкуренции за ресурсы. Мы определяем изолированное управление KV-кэшем как коренную причину. Для решения этой проблемы мы предлагаем унифицированное управление KV-кэшем — парадигму вывода, которая рассматривает KV-кэш как разделяемый ресурс первого класса между задачами и во времени. Эта абстракция позволяет реализовать две ключевые оптимизации: совместное использование KV-кэша между задачами устраняет избыточное предзаполнение общих наблюдений, а непрерывное пакетирование между кадрами развязывает декодирование языка переменной длины с генерацией действий с фиксированной частотой across управляющих циклов. Мы реализуем эту парадигму для π_{0.5}, наиболее популярной MoT VLA, и оцениваем ее в репрезентативных конфигурациях для робототехники. OxyGen достигает ускорения до 3.7 раз по сравнению с изолированным выполнением, обеспечивая одновременную пропускную способность по языку свыше 200 токенов/с и частоту генерации действий 70 Гц без ухудшения качества действий.
Генерация точных глифов для визуального рендеринга текста является важной, но сложной задачей. Существующие методы обычно улучшают рендеринг текста за счет обучения на большом количестве высококачественных изображений сценового текста, однако ограниченный охват вариаций глифов и чрезмерная стилизация часто снижают их точность, особенно для сложных или редких символов. Некоторые методы используют обучение с подкреплением для смягчения этой проблемы, но их модели вознаграждения обычно зависят от систем распознавания текста, которые нечувствительны к мелким ошибкам глифов, поэтому изображения с некорректными глифами могут получать высокие оценки. Вдохновленные методом прямой оптимизации предпочтений (Direct Preference Optimization, DPO), мы предлагаем GlyphPrinter — метод рендеринга текста на основе предпочтений, который исключает зависимость от явных моделей вознаграждения. Однако стандартная цель DPO моделирует лишь общее предпочтение между двумя образцами, что недостаточно для визуального рендеринга текста, где ошибки глифов обычно возникают в локальных областях. Для решения этой проблемы мы создали набор данных GlyphCorrector с аннотациями предпочтений глифов на уровне регионов и предлагаем Region-Grouped DPO (R-GDPO) — регионально-ориентированную цель, которая оптимизирует межвыборочные и внутривыборочные предпочтения по аннотированным областям, существенно повышая точность глифов. Кроме того, мы представляем Regional Reward Guidance — стратегию вывода, которая осуществляет выборку из оптимального распределения с контролируемой точностью глифов. Многочисленные эксперименты демонстрируют, что предложенный метод GlyphPrinter превосходит существующие подходы по точности глифов, сохраняя при этом благоприятный баланс между стилизацией и точностью.
Современные модели видео-диффузии демонстрируют впечатляющий прогресс в визуальном качестве, однако точный, детализированный контроль остается ключевым ограничением, сдерживающим практическую настраиваемость для создания контента. Для создателей видео с ИИ критически важны три формы контроля: (i) композиция сцены, (ii) согласованная настройка объекта в нескольких ракурсах и (iii) регулировка позы камеры или движения объекта. Существующие методы обычно работают с этими аспектами изолированно, обладая ограниченной поддержкой синтеза объекта в нескольких видах и сохранения идентичности при произвольных изменениях позы. Отсутствие единой архитектуры затрудняет создание универсального, совместно управляемого видео. Мы представляем Tri-Prompting — унифицированную структуру и двухэтапную парадигму обучения, которая интегрирует композицию сцены, согласованность объекта в нескольких ракурсах и управление движением. Наш подход использует двухусловный модуль движения, управляемый 3D-трекингом точек для фоновых сцен и уменьшенными RGB-данными для переднеплановых объектов. Для обеспечения баланса между управляемостью и визуальным реализмом мы дополнительно предлагаем планировщик масштаба ControlNet на этапе вывода. Tri-Prompting поддерживает новые рабочие процессы, включая 3D-осознанное помещение объекта в любые сцены и манипуляцию существующими объектами на изображении. Экспериментальные результаты показывают, что Tri-Prompting значительно превосходит специализированные базовые методы, такие как Phantom и DaS, по идентичности объекта в нескольких ракурсах, 3D-согласованности и точности движения.
В данной работе мы исследуем диффузионную способность (обучаемость) вариационных автоэнкодеров (VAE) в латентной диффузии. Во-первых, мы показываем, что диффузия в пиксельном пространстве, обученная с MSE-функцией потерь, имеет врожденное смещение в сторону изучения низких и средних пространственных частот, и что степенной закон спектральной плотности мощности (СПМ) натуральных изображений делает это смещение перцептивно выгодным. Мотивированные этим результатом, мы предлагаем Гипотезу Согласования Спектра: латентные переменные с превосходной диффузионной способностью должны (i) следовать сглаженному степенному закону СПМ (Согласование Спектра Кодирования, ESM) и (ii) сохранять семантическое соответствие "частота-к-частоте" через декодер (Согласование Спектра Декодирования, DSM). На практике мы применяем ESM путем согласования СПМ между изображениями и латентными переменными, а DSM — через разделяемое спектральное маскирование с реконструкцией, выровненной по частотам. Важно, что Согласование Спектра дает единую картину, которая проясняет предыдущие наблюдения за излишне зашумленными или излишне сглаженными латентными переменными и интерпретирует несколько недавних методов как частные случаи (например, VA-VAE, EQ-VAE). Эксперименты показывают, что Согласование Спектра обеспечивает превосходное качество генерации методом диффузии на наборах данных CelebA и ImageNet и превосходит предыдущие подходы. Наконец, мы расширяем спектральный взгляд на выравнивание представлений (REPA): мы показываем, что направленная спектральная энергия целевого представления критически важна для REPA, и предлагаем метод на основе DoG для дальнейшего улучшения производительности REPA. Наш код доступен по адресу https://github.com/forever208/SpectrumMatching.
По мере того как ИИ-агенты все чаще развертываются в качестве долгоживущих систем, становится критически важным автономное создание и непрерывная эволюция специализированного программного обеспечения для обеспечения взаимодействия в динамичных средах. Однако существующие бенчмарки оценивают агентов на изолированных, разовых задачах программирования, игнорируя временные зависимости и технический долг, присущие эволюции реального программного обеспечения. Чтобы заполнить этот пробел, мы представляем DeepCommit — агентный конвейер, который восстанавливает верифицируемые направленные ациклические графы (DAG) вех из зашумленных логов коммитов, где вехи определяются как семантически целостные цели разработки. Эти исполняемые последовательности позволяют создать EvoClaw, новый бенчмарк, который требует от агентов поддержания целостности системы и ограничения накопления ошибок — аспектов долгосрочной эволюции программного обеспечения, в значительной степени отсутствующих в текущих бенчмарках. Наша оценка 12 передовых моделей в рамках 4 агентных фреймворков выявляет критическую уязвимость: общие показатели производительности значительно падают с >80% на изолированных задачах до максимум 38% в условиях непрерывной разработки, что демонстрирует серьезные трудности агентов с долгосрочным сопровождением и распространением ошибок.
Заявления Федерального комитета по операциям на открытом рынке (FOMC) являются важным источником информации о денежно-кредитной политике, и даже незначительные изменения в их формулировках могут повлиять на глобальные финансовые рынки. Поэтому ключевой задачей является измерение ястребиного или голубиного настроя, передаваемого в этих текстах. Существующие подходы обычно рассматривают определение настроя как стандартную задачу классификации, маркируя каждое заявление изолированно. Однако интерпретация коммуникации в области денежно-кредитной политики по своей природе относительна: рыночные реакции зависят не только от тональности заявления, но и от того, как этот тон меняется от одного заседания к другому. Мы представляем Delta-Consistent Scoring (DCS), безаннотационную систему, которая преобразует представления замороженных больших языковых моделей (LLM) в непрерывные оценки настроя, совместно моделируя абсолютный настрой и относительные межзаседательские сдвиги. Вместо того чтобы полагаться на ручные метки "ястребиный/голубиный", DCS использует последовательные заседания в качестве источника самообучения. Она изучает абсолютную оценку настроя для каждого заявления и относительную оценку сдвига между последовательными заявлениями. Цель дельта-согласованности заключается в том, чтобы изменения абсолютных оценок соответствовали относительным сдвигам. Это позволяет DCS восстанавливать временно согласованную траекторию настроя без ручных меток. На четырех архитектурах LLM DCS последовательно превосходит контролируемые пробы и базовые линии "LLM-как-судья", достигая точности до 71,1% в классификации настроя на уровне предложений. Полученные оценки на уровне заседаний также экономически значимы: они сильно коррелируют с показателями инфляции и существенно связаны с движениями доходности казначейских облигаций. В целом, результаты позволяют предположить, что представления LLM кодируют сигналы денежно-кредитной политики, которые могут быть восстановлены через относительную временную структуру.
Модели "Визуальный язык-действие" (VLA) демонстрируют превосходные результаты в статических манипуляциях, но испытывают трудности в динамических средах с движущимися целями. Этот разрыв в производительности в первую очередь обусловлен дефицитом наборов данных по динамическим манипуляциям и зависимостью основных VLA от однокадровых наблюдений, что ограничивает их пространственно-временные reasoning-способности. Для решения этой проблемы мы представляем DOMINO — крупномасштабный набор данных и бенчмарк для обобщаемых динамических манипуляций, включающий 35 задач с иерархической сложностью, более 110 тыс. экспертных траекторий и многомерный набор средств оценки. В ходе всесторонних экспериментов мы систематически оцениваем существующие VLA на динамических задачах, исследуем эффективные стратегии обучения для динамического восприятия и проверяем обобщаемость динамических данных. Кроме того, мы предлагаем PUMA — динамически-осознающую архитектуру VLA. Интегрируя центрированный на сцене исторический оптический поток и специализированные world-запросы для неявного прогнозирования объектно-ориентированных будущих состояний, PUMA сочетает восприятие с учетом истории с краткосрочным прогнозированием. Результаты показывают, что PUMA достигает наилучшей производительности, обеспечивая абсолютное улучшение показателя успешности на 6,3% по сравнению с базовыми методами. Более того, мы демонстрируем, что обучение на динамических данных способствует формированию robust пространственно-временных представлений, которые переносятся на статические задачи. Весь код и данные доступны по адресу https://github.com/H-EmbodVis/DOMINO.
Типичная настройка концепции обычно связывает редкие токены с целевой концепцией. К сожалению, такие подходы часто страдают от нестабильной работы, поскольку предварительно обученные данные редко содержат эти редкие токены. Кроме того, эти редкие токены не способны передать внутренние знания о целевой концепции. В связи с этим мы представляем задачу осознанной настройки концепции, новую задачу, направленную на привязку разнообразных текстовых знаний к целевым визуальным концепциям. Эта задача требует от модели идентификации знаний в текстовом промпте для выполнения высококачественной кастомизированной генерации. Одновременно модель должна эффективно связывать все текстовые знания с целевой концепцией. Поэтому мы предлагаем MoKus — новую архитектуру для осознанной настройки концепции. Наша архитектура основывается на ключевом наблюдении: кросс-модальный перенос знаний, при котором модификация знаний в текстовой модальности естественным образом переносится в визуальную модальность в процессе генерации. Вдохновленные этим наблюдением, мы разработали MoKus, состоящий из двух этапов: (1) На этапе обучения визуальной концепции мы сначала изучаем якорное представление для хранения визуальной информации о целевой концепции. (2) На этапе обновления текстовых знаний мы обновляем ответ на запросы знаний, привязывая их к якорному представлению, что позволяет осуществлять высококачественную кастомизированную генерацию. Для дальнейшей комплексной оценки нашего предложенного MoKus в рамках новой задачи мы представляем первый бенчмарк для осознанной настройки концепции: KnowCusBench. Многочисленные оценки показали, что MoKus превосходит современные методы. Более того, кросс-модальный перенос знаний позволяет легко расширить MoKus на другие приложения, связанные с осознанием знаний, такие как создание виртуальных концепций и удаление концепций. Мы также демонстрируем способность нашего метода достигать улучшений на бенчмарках мировых знаний.
Мы представляем ScienceClaw + Infinite — фреймворк для автономного научного исследования, в котором независимые агенты проводят изыскания без централизованной координации, а любой участник может развернуть новых агентов в общей экосистеме. Система построена на трёх компонентах: расширяемом реестре из более чем 300 взаимосовместимых научных навыков, уровне артефактов, сохраняющем полную вычислительную линию наследования в виде направленного ациклического графа (DAG), и структурированной платформе для дискурса на основе агентов с управлением, учитывающим происхождение данных. Агенты выбирают и объединяют инструменты на основе своих научных профилей, создают неизменяемые артефакты с типизированными метаданными и информацией о родительских связях, а также публикуют неудовлетворённые информационные потребности в общий глобальный индекс. ArtifactReactor обеспечивает координацию без планировщика: агенты-коллеги обнаруживают и удовлетворяют открытые потребности через скоринг на основе давления, а совпадение схем запускает синтез с несколькими родителями для независимых анализов. Автономный слой мутаций активно обрезает расширяющийся граф артефактов для разрешения конфликтующих или избыточных рабочих процессов, в то время как постоянная память позволяет агентам последовательно наращивать сложные эпистемические состояния в течение множества циклов. Infinite преобразует эти результаты в проверяемые научные записи через структурированные публикации, представления происхождения данных и машиночитаемые дискурсивные отношения, а обратная связь сообщества направляет последующие циклы исследования. В четырёх автономных исследованиях — проектирование пептидов для соматостатинового рецептора SSTR2, скрининг лёгких ударопрочных керамик, междисциплинарный резонанс, связывающий биологию, материалы и музыку, и формальное построение аналогий между морфологией городов и эволюцией границ зёрен — фреймворк демонстрирует гетерогенное объединение инструментов, emergentную конвергенцию среди независимо действующих агентов и прослеживаемую аргументацию от исходных вычислений до опубликованных результатов.
Парсинг документов, как фундаментальная, но крайне важная задача компьютерного зрения, переживает революцию благодаря моделям «визуальный язык» (VLM). Однако присущее VLM авторегрессивное декодирование создает значительное узкое место, серьезно ограничивая скорость парсинга. В данной статье мы предлагаем Parallel-Token Prediction (PTP) — подключаемый, модельно-агностический и простой, но эффективный метод, который позволяет VLM генерировать несколько последующих токенов параллельно с улучшенной эффективностью выборки. В частности, мы добавляем в входную последовательность некоторые обучаемые токены и разрабатываем соответствующие учебные цели, чтобы наделить модель возможностями параллельного декодирования для парсинга документов. Кроме того, для обеспечения эффективного обучения мы создаем комплексный конвейер генерации данных, который эффективно производит масштабные высококачественные учебные данные для парсинга документов, предназначенные для VLM. Многочисленные эксперименты на OmniDocBench и olmOCR-bench демонстрируют, что наш метод не только значительно повышает скорость декодирования (в 1.6–2.2 раза), но и снижает галлюцинации модели и демонстрирует сильные способности к обобщению.
Интерпретация внутренних механизмов рассуждений визуально-языковых моделей крайне важна для применения ИИ в критически важных для безопасности областях. Концептуальная объяснимость предоставляет человеко-ориентированную перспективу, представляя поведение модели через семантически значимые компоненты. Однако существующие методы в основном ограничены изображениями и упускают из виду кросс-модальные взаимодействия. Текст-изображение эмбеддинги, такие как создаваемые CLIP, страдают от модального разрыва, когда визуальные и текстовые признаки следуют разным распределениям, что ограничивает интерпретируемость. Канонический корреляционный анализ (CCA) предлагает принципиальный способ выравнивания признаков из различных распределений, но не использовался для мультимодального анализа на уровне концептов. Мы показываем, что цели CCA и InfoNCE тесно связаны, так что оптимизация CCA неявно оптимизирует InfoNCE, предоставляя простой, не требующий дообучения механизм для улучшения кросс-модального выравнивания без воздействия на предварительно обученную цель InfoNCE. Мотивированные этим наблюдением, мы объединяем концептуальную объяснимость с CCA, вводя Concept CCA (CoCCA) — фреймворк, который выравнивает кросс-модальные эмбеддинги, одновременно обеспечивая интерпретируемую концептуальную декомпозицию. Мы далее расширяем его и предлагаем Sparse Concept CCA (SCoCCA), который обеспечивает разреженность для получения более разъединенных и дискриминативных концептов, способствуя улучшенной активации, абляции и семантическому манипулированию. Наш подход обобщает концептуальные объяснения на мультимодальные эмбеддинги и достигает передовой производительности в обнаружении концептов, что подтверждается задачами реконструкции и манипулирования, такими как концептуальная абляция.
Виртуальная примерка (VTON) достигла прогресса в визуализации отдельных предметов одежды, однако реальная мода сосредоточена на полных образах, включающих множество предметов одежды, аксессуары, детализированные категории, многослойность и разнообразные стили, что остаётся за пределами возможностей современных систем VTON. Существующие наборы данных ограничены по категориям и не обладают разнообразием образов. Мы представляем Garments2Look — первый крупномасштабный мультимодальный набор данных для VTON на уровне полного образа, содержащий 80 тысяч пар «множество-предметов-одежды-к-одному-образу» по 40 основным категориям и более чем 300 детализированным подкатегориям. Каждая пара включает образ с 3–12 эталонными изображениями предметов одежды (в среднем 4.48), изображение модели в данном образе, а также детальные текстовые аннотации предметов и примерки. Для баланса аутентичности и разнообразия мы предлагаем конвейер синтеза, который включает эвристическое построение списков предметов образа перед генерацией результатов примерки, причём весь процесс проходит строгую автоматическую фильтрацию и человеческую валидацию для обеспечения качества данных. Для оценки сложности задачи мы адаптировали передовые методы VTON и универсальные модели редактирования изображений для установления базовых уровней. Результаты показывают, что современные методы не способны бесшовно примерять полные образы и корректно выводить многослойность и стилизацию, что приводит к несоответствиям и артефактам.
Полно-потоковое преобразование текста в речь (TTS) для интерактивных систем должно начинать воспроизведение с минимальной задержкой, сохраняя при этом управляемость по мере поступления текста. Мы представляем VoXtream2 — zero-shot полно-потоковую TTS-модель с динамическим контролем скорости речи, которую можно обновлять на лету в середине высказывания. VoXtream2 сочетает механизм согласования распределений по состояниям длительностей с классификатор-фри гайденсом по условным сигналам для улучшения управляемости и качества синтеза. Маскирование промпт-текста позволяет использовать аудиопромпты без текста, устраняя необходимость в транскрипции промптов. На стандартных zero-shot бенчмарках и специализированном наборе данных для тестирования скорости речи VoXtream2 демонстрирует конкурентоспособные объективные и субъективные результаты по сравнению с публичными базовыми моделями, несмотря на меньший размер модели и объем обучающих данных. В полно-потоковом режиме модель работает в 4 раза быстрее реального времени с задержкой до первого пакета в 74 мс на потребительском GPU.
Последние достижения в области дискретной генерации изображений показали, что увеличение размера VQ-кодбука значительно улучшает точность реконструкции. Однако обучение генеративных моделей с большим VQ-кодбуком остается сложной задачей, обычно требующей увеличения размера модели и более длительного графика обучения. В данной работе мы предлагаем минимизацию перекрестной энтропии со стохастическим соседом (Stochastic Neighbor Cross Entropy Minimization, SNCE) — новую функцию потерь, разработанную для решения проблем оптимизации дискретных генераторов изображений с большим кодбуком. Вместо обучения модели с использованием жесткого one-hot таргета, SNCE конструирует мягкое категориальное распределение по набору соседних токенов. Вероятность, назначаемая каждому токену, пропорциональна близости между его кодом-эмбеддингом и эмбеддингом исходного изображения, что побуждает модель улавливать семантически значимую геометрическую структуру в квантованном пространстве эмбеддингов. Мы провели обширные эксперименты в задачах условной генерации на ImageNet-256, крупномасштабного синтеза изображений по тексту и редактирования изображений. Результаты показывают, что SNCE значительно улучшает скорость сходимости и общее качество генерации по сравнению со стандартными функциями перекрестной энтропии.
Клиническое ответы на вопросы по электронным медицинским картам (ЭМК) могут помочь врачам и пациентам получать доступ к соответствующей медицинской информации более эффективно. Однако многие современные подходы полагаются на крупные облачные модели, которые сложно развертывать в клинических условиях из-за ограничений конфиденциальности и вычислительных требований. В данной работе мы исследуем, насколько эффективным может быть основанное на ЭМК ответы на вопросы при ограничении ресурсами одного ноутбука. Мы участвуем во всех четырех подзадачах совместного задания ArchEHR-QA 2026 и оцениваем несколько подходов, разработанных для работы на стандартном оборудовании. Все эксперименты проводятся локально без использования внешних API или облачной инфраструктуры. Наши результаты показывают, что такие системы могут достигать конкурентоспособной производительности в рейтингах совместного задания. В частности, наши решения показывают результат выше среднего в двух подзадачах, и мы наблюдаем, что меньшие модели могут приближаться к производительности значительно более крупных систем при правильной настройке. Эти результаты свидетельствуют о том, что сохраняющие конфиденциальность системы ответов на вопросы по ЭМК, работающие полностью локально, реализуемы с использованием современных моделей и стандартного оборудования. Исходный код доступен по адресу https://github.com/ibrahimey/ArchEHR-QA-2026.