Ежедневно отобранные исследовательские статьи по ИИ с переводами
Разработка нативных компьютерных агентов (CUA) представляет собой значительный скачок в развитии мультимодального ИИ. Однако их потенциал в настоящее время ограничен узким местом, связанным с масштабированием статических данных. Существующие парадигмы, опирающиеся в основном на пассивное подражание статическим наборам данных, не способны уловить сложные причинно-следственные динамики, присущие долгосрочным компьютерным задачам. В данной работе мы представляем EvoCUA, нативную агентскую модель для работы с компьютером. В отличие от статического подражания, EvoCUA интегрирует генерацию данных и оптимизацию политики в самоподдерживающийся эволюционный цикл. Для преодоления нехватки данных мы разработали верифицируемый синтезатор, который автономно генерирует разнообразные задачи вместе с исполняемыми валидаторами. Для обеспечения масштабируемого приобретения опыта мы создали инфраструктуру, координирующую десятки тысяч асинхронных прогонов в песочницах. На основе этих масштабных траекторий мы предлагаем итеративную эволюционную стратегию обучения для эффективного усвоения этого опыта. Этот механизм динамически регулирует обновления политики, выявляя границы возможностей — закрепляя успешные сценарии и преобразуя траектории неудач в богатый supervisory сигнал посредством анализа ошибок и самокоррекции. Эмпирические оценки на бенчмарке OSWorld показывают, что EvoCUA достигает показателя успешности 56.7%, устанавливая новый рекорд для открытых моделей. Примечательно, что EvoCUA значительно превосходит предыдущую лучшую открытую модель OpenCUA-72B (45.0%) и опережает ведущие модели с закрытыми весами, такие как UI-TARS-2 (53.1%). Ключевым является то, что наши результаты подчеркивают обобщаемость подхода: эволюционная парадигма, движимая обучением на опыте, обеспечивает стабильное улучшение производительности для базовых моделей различного масштаба, прокладывая надежный и масштабируемый путь для развития возможностей нативных агентов.
Диффузионные большие языковые модели (dLLM) преодолевают жесткое ограничение слева направо, присущее традиционным LLM, позволяя генерировать токены в произвольном порядке. Интуитивно эта гибкость подразумевает пространство решений, которое строго включает в себя фиксированную авторегрессионную траекторию, теоретически раскрывая превосходный потенциал для рассуждений в таких общих задачах, как математика и программирование. В результате многие работы используют обучение с подкреплением (RL), чтобы выявить способность dLLM к рассуждениям. В данной статье мы раскрываем контр-интуитивную реальность: генерация в произвольном порядке в своей текущей форме не расширяет, а сужает границы рассуждений dLLM. Мы обнаруживаем, что dLLM склонны использовать эту гибкость порядка, чтобы обходить токены с высокой неопределенностью, которые crucial для исследования, что приводит к преждевременному коллапсу пространства решений. Это наблюдение ставит под сомнение предпосылку существующих подходов RL для dLLM, где значительные сложности, такие как обработка комбинаторных траекторий и невычислимых правдоподобий, часто направлены на сохранение данной гибкости. Мы демонстрируем, что эффективное рассуждение лучше стимулируется путем сознательного отказа от произвольного порядка и применения стандартной оптимизации групповой относительной политики (GRPO). Наш подход, JustGRPO, минималистичен, но удивительно эффективен (например, точность 89.1% на GSM8K), при этом полностью сохраняя способность dLLM к параллельному декодированию. Страница проекта: https://nzl-thu.github.io/the-flexibility-trap
Последние достижения в области мультимодальных больших языковых моделей (MLLM) продемонстрировали значительный прогресс в задачах анализа видео в офлайн-режиме. Однако расширение этих возможностей на потоковое видео остается сложной задачей, поскольку существующие модели не способны одновременно обеспечивать стабильное качество понимания, реакции в реальном времени и низкие затраты памяти GPU. Для решения этой проблемы мы предлагаем HERMES — новую архитектуру для точного анализа видеопотоков в реальном времени, не требующую дообучения. На основе механистического исследования механизма внимания мы концептуализируем KV-кэш как иерархическую систему памяти, которая инкапсулирует видеоинформацию на нескольких уровнях детализации. Во время вывода HERMES повторно использует компактный KV-кэш, что позволяет эффективно анализировать потоковое видео в условиях ограниченных ресурсов. Примечательно, что HERMES не требует дополнительных вычислений при поступлении пользовательских запросов, гарантируя мгновенные ответы при взаимодействии с непрерывным видеопотоком, что обеспечивает 10-кратное ускорение времени до первого токена (TTFT) по сравнению с предыдущими state-of-the-art решениями. Даже при сокращении количества видео-токенов до 68% по сравнению с равномерной выборкой HERMES демонстрирует превосходную или сопоставимую точность на всех тестовых наборах, с улучшением до 11.4% на стриминговых данных.
Модели «Vision-Language-Action» (VLA) демонстрируют перспективность в задачах манипулирования роботами, но часто испытывают трудности с обобщением на новые инструкции или сложные сценарии с множеством задач. Мы выявляем ключевую проблему современных парадигм обучения, связанную с предвзятостью набора данных, возникающей при сборе данных, ориентированном на цель. В таких наборах данных языковые инструкции становятся высоко предсказуемыми уже на основе одних только визуальных наблюдений, что приводит к исчезновению условной взаимной информации между инструкциями и действиями — явление, которое мы называем **Информационным Коллапсом**. Как следствие, модели вырождаются в чисто визуальные политики, которые игнорируют языковые ограничения и терпят неудачу в условиях работы с данными вне распределения (Out-of-Distribution, OOD). Для решения этой проблемы мы предлагаем **BayesianVLA** — новую архитектуру, которая обеспечивает следование инструкциям за счет байесовской декомпозиции. Путем введения обучаемых **Скрытых Запросов Действий** мы строим двухветвевую архитектуру для оценки как априорного распределения, основанного только на зрении p(a|v), так и языково-обусловленного апостериорного распределения π(a|v, l). Затем мы оптимизируем политику для максимизации условной точечной взаимной информации между действиями и инструкциями. Этот подход эффективно штрафует использование «визуального ярлыка» и поощряет действия, которые явно объясняются языковой командой. Без необходимости в новых данных BayesianVLA значительно улучшает способность к обобщению. Многочисленные эксперименты на симуляторах SimplerEnv и RoboCasa демонстрируют существенный прогресс, включая улучшение на 11.3% на сложном OOD-бенчмарке SimplerEnv, что подтверждает способность нашего подхода к надежному заземлению языка в действиях.
Мы представляем метод LLM-in-Sandbox, который позволяет большим языковым моделям (LLM) исследовать среду внутри песочницы для кода (т.е. виртуального компьютера) для проявления общего интеллекта в предметных областях, не связанных с программированием. Сначала мы демонстрируем, что мощные LLM, без дополнительного обучения, проявляют способности к обобщению, используя код-песочницу для решения задач, не связанных с кодом. Например, LLM спонтанно обращаются к внешним ресурсам для получения новых знаний, используют файловую систему для работы с длинными контекстами и выполняют скрипты для соблюдения требований к форматированию. Мы также показываем, что эти агентские способности можно усилить с помощью обучения с подкреплением в песочнице (LLM-in-Sandbox-RL), которое использует только не-агентские данные для обучения моделей исследованию песочницы. Эксперименты демонстрируют, что LLM-in-Sandbox, как в настройках без обучения, так и после дообучения, достигает устойчивого обобщения в таких областях, как математика, физика, химия, биомедицина, понимание длинных контекстов и следование инструкциям. Наконец, мы анализируем эффективность LLM-in-Sandbox с вычислительной и системной точек зрения и публикуем его в виде пакета Python с открытым исходным кодом для облегчения практического внедрения.
Автокодировщики представлений (RAE) продемонстрировали явные преимущества в диффузионном моделировании на ImageNet за счет обучения в высокоразмерных семантических латентных пространствах. В данной работе мы исследуем, может ли эта методология масштабироваться до задач крупномасштабной генерации изображений по свободному текстовому описанию (T2I). Сначала мы масштабируем декодеры RAE на основе замороженного кодировщика представлений (SigLIP-2) за пределы ImageNet, обучая их на веб-данных, синтетических данных и данных с рендерингом текста, и обнаруживаем, что хотя масштабирование улучшает общую точность, целевой состав данных критически важен для специфических доменов, таких как текст. Затем мы тщательно тестируем в стресс-условиях архитектурные решения RAE, изначально предложенные для ImageNet. Наш анализ показывает, что масштабирование упрощает фреймворк: хотя зависимое от размерности планирование шума остается критически важным, архитектурные усложнения, такие как широкие диффузионные головы и декодирование с добавлением шума, дают незначительный выигрыш при масштабировании. На основе этого упрощенного фреймворка мы проводим контролируемое сравнение RAE с передовым FLUX VAE в диапазоне масштабов диффузионных трансформеров от 0.5 до 9.8 миллиардов параметров. RAE стабильно превосходят VAE на этапе предварительного обучения на всех масштабах моделей. Более того, при дообучении на высококачественных наборах данных модели на основе VAE катастрофически переобучаются после 64 эпох, в то время как модели RAE остаются стабильными в течение 256 эпох и демонстрируют стабильно лучшие результаты. Во всех экспериментах диффузионные модели на основе RAE показывают более быструю сходимость и лучшее качество генерации, что утверждает RAE как более простую и мощную основу по сравнению с VAE для крупномасштабной T2I-генерации. Дополнительно, поскольку как визуальное понимание, так и генерация могут работать в общем пространстве представлений, мультимодальная модель может напрямую выполнять логический вывод на сгенерированных латентных переменных, открывая новые возможности для унифицированных моделей.
Диффузионные языковые модели (DLLM) обеспечивают не последовательное, а блочное генерирование и более интенсивное повторное использование данных по сравнению с авторегрессионными (AR) моделями, однако существующие кодовые DLLM по-прежнему отстают от сильных AR-аналогов при сопоставимых вычислительных бюджетах. Мы возвращаемся к этой проблеме в рамках контролируемого исследования и представляем Stable-DiffCoder — блочную диффузионную модель для генерации кода, которая повторяет архитектуру Seed-Coder, использует те же данные и конвейер обучения. Для обеспечения эффективного усвоения знаний и стабильного обучения мы внедряем этап непрерывного предварительного обучения (CPT) на основе блочной диффузии, усиленный специально подобранным прогревом и блочным ограниченным шумовым расписанием. При одинаковых данных и архитектуре Stable-DiffCoder в целом превосходит свой AR-аналог по широкому набору бенчмарков для оценки генерации кода. Более того, используя только этапы CPT и контролируемой тонкой настройки, Stable-DiffCoder демонстрирует более высокую производительность, чем широкий спектр AR- и DLLM-моделей размером около 8B параметров, что подтверждает, что обучение на основе диффузии может улучшить качество моделирования кода по сравнению с исключительно AR-обучением. Кроме того, диффузионное моделирование в произвольном порядке улучшает структурированное моделирование кода для задач редактирования и логического вывода, а благодаря дополнению данных приносит пользу для маломощных языков программирования.
Поксельные возможности крайне важны для создания интерактивных интеллектуальных систем. Однако масштабирование поксельных мультимодальных больших языковых моделей (MLLM) остается сложной задачей из-за сложных региональных энкодеров, специализированных декодеров сегментации и несовместимых обучающих целей. Для решения этих проблем мы представляем SAMTok — дискретный токенизатор масок, который преобразует любую региональную маску в два специальных токена и с высокой точностью восстанавливает маску с их помощью. Рассматривая маски как новые языковые токены, SAMTok позволяет базовым MLLM (таким как серия QwenVL) осваивать поксельные возможности с помощью стандартного предсказания следующего токена и простого обучения с подкреплением, без модификации архитектуры и специализированного дизайна функции потерь. SAMTok построен на основе SAM2 и обучен на 209 миллионах разнообразных масок с использованием энкодера масок и остаточного векторного квантизатора для генерации дискретных, компактных и информационно насыщенных токенов. На 5 миллионах примеров данных для понимания и генерации масок в формате SAMTok, модель QwenVL-SAMTok демонстрирует наилучшие или сопоставимые результаты в задачах описания регионов, визуального вопроса-ответа по регионам, обоснованного диалога, референционной сегментации, парсинга сценовых графов и многораундовой интерактивной сегментации. Мы также вводим текстовую награду за соответствие ответа, которая позволяет эффективно применять обучение с подкреплением для генерации масок, что приводит к значительному улучшению на бенчмарках GRES и GCG. Наши результаты демонстрируют масштабируемую и простую парадигму для оснащения MLLM мощными поксельными возможностями. Наш код и модели доступны.
Как можно использовать искусственный интеллект для достижения нового уровня состояния искусства в решении научной задачи? Предыдущие работы по масштабированию во время тестирования, такие как AlphaEvolve, выполняют поиск с помощью промптинг-запросов к замороженной большой языковой модели (LLM). Мы применяем обучение с подкреплением во время тестирования, что позволяет LLM продолжать обучение, но уже на основе опыта, специфичного для конкретной тестовой задачи. Эта форма непрерывного обучения весьма специфична, поскольку её цель — создать одно выдающееся решение, а не множество хороших в среднем, и решить именно данную задачу, а не обобщать на другие проблемы. Следовательно, наша цель обучения и процедура поиска разработаны так, чтобы отдавать приоритет наиболее перспективным решениям. Мы называем этот метод «Обучением во время тестирования для открытия» (Test-Time Training to Discover, TTT-Discover). В соответствии с предыдущими работами мы сосредотачиваемся на задачах с непрерывными вознаграждениями. Мы сообщаем результаты для каждой проблемы, которую мы attempted, в области математики, проектирования GPU-ядров, разработки алгоритмов и биологии. TTT-Discover устанавливает новое состояние искусства почти во всех из них: (i) задача Эрдёша о минимальном перекрытии и неравенство автокорреляции; (ii) соревнование по оптимизации ядер в GPUMode (до 2 раз быстрее предыдущих лучших результатов); (iii) прошлые соревнования по алгоритмам AtCoder; и (iv) задача шумоподавления в анализе одноклеточных данных. Наши решения проверяются экспертами или организаторами. Все наши результаты достигнуты с использованием открытой модели OpenAI gpt-oss-120b и могут быть воспроизведены с помощью нашего публично доступного кода, в отличие от предыдущих лучших результатов, которые требовали закрытых frontier-моделей. Наши запуски обучения во время тестирования выполняются с использованием Tinker, API от Thinking Machines, стоимостью всего в несколько сотен долларов за задачу.
В данном отчете представлена серия Qwen3-TTS — семейство передовых многозадачных, управляемых, надежных и потоковых моделей преобразования текста в речь. Qwen3-TTS поддерживает передовое клонирование голоса за 3 секунды и управление на основе описания, позволяя как создавать совершенно новые голоса, так и осуществлять детальный контроль над выходной речью. Обученная на более чем 5 миллионах часов речевых данных на 10 языках, Qwen3-TTS использует архитектуру языковой модели с двойной траекторией для синтеза в реальном времени в сочетании с двумя токенизаторами речи: 1) Qwen-TTS-Tokenizer-25Hz — это кодек с одной кодбукой, акцентирующий семантическое содержание, который обеспечивает бесшовную интеграцию с Qwen-Audio и позволяет осуществлять потоковую реконструкцию волновой формы с помощью блочного DiT. 2) Qwen-TTS-Tokenizer-12Hz достигает экстремального снижения битрейта и сверхмалой задержки при потоковой передаче, обеспечивая немедленную отправку первого пакета (97 мс) благодаря своей 16-слойной мультикодбуке с частотой 12.5 Гц и легковесному каузальному ConvNet. Многочисленные эксперименты демонстрируют передовую производительность в различных объективных и субъективных тестах (например, многозадачный тестовый набор TTS, InstructTTSEval и наш тестовый набор длинной речи). Для содействия исследованиям и разработкам в сообществе мы выпускаем оба токенизатора и модели под лицензией Apache 2.0.
Искусственные интеллектуальные агенты в ближайшем будущем могут стать способными к автономному выполнению ценных долгосрочных задач в различных областях. Существующие бенчмарки либо не измеряют реальные практические задачи, либо недостаточно сложны для содержательной оценки передовых моделей. Для решения этой проблемы мы представляем Terminal-Bench 2.0: тщательно отобранный сложный бенчмарк, состоящий из 89 задач в средах компьютерных терминалов, созданных на основе проблем из реальных рабочих процессов. Каждая задача характеризуется уникальной средой, человеко-читаемым решением и комплексными тестами для верификации. Мы демонстрируем, что передовые модели и агенты набирают менее 65% по данному бенчмарку, и проводим анализ ошибок для выявления направлений улучшения моделей и агентов. Мы публикуем набор данных и среду оценки для помощи разработчикам и исследователям в будущих работах по адресу https://www.tbench.ai/.
В данной статье представлено семейство продвинутых визуальных кодировщиков OpenVision 3, которые изучают единое унифицированное визуальное представление, способное служить как для понимания изображений, так и для их генерации. Наша базовая архитектура проста: мы подаем латентные представления изображений, сжатые с помощью VAE, в кодировщик ViT и обучаем его выходные данные для поддержки двух взаимодополняющих ролей. Во-первых, выход кодировщика передается в декодер ViT-VAE для реконструкции исходного изображения, что побуждает представление захватывать генеративную структуру. Во-вторых, то же самое представление оптимизируется с помощью контрастивного обучения и задач создания подписей к изображениям, усиливая семантические признаки. Совместно оптимизируя сигналы, управляемые реконструкцией и семантикой, в общем латентном пространстве, кодировщик изучает представления, которые хорошо синергируют и обобщаются в обоих режимах. Мы проверяем эту унифицированную конструкцию с помощью обширных последующих оценок при замороженном кодировщике. Для мультимодального понимания мы подключаем кодировщик к框架 LLaVA-1.5: он работает сопоставимо со стандартным визуальным кодировщиком CLIP (например, 62.4 против 62.2 на SeedBench и 83.7 против 82.9 на POPE). Для генерации мы тестируем его в框架 RAE: наша модель существенно превосходит стандартный кодировщик на основе CLIP (например, gFID: 1.89 против 2.54 на ImageNet). Мы надеемся, что эта работа сможет стимулировать будущие исследования в области унифицированного моделирования.
Поиск по составным изображениям (CIR) является ключевой и сложной задачей в области мультимодального понимания. Существующие бенчмарки CIR обычно отличаются ограниченным набором категорий запросов и не отражают разнообразные требования реальных сценариев. Чтобы устранить этот пробел в оценке, мы используем редактирование изображений для точного контроля типов и содержания модификаций, создав конвейер синтеза запросов для широкого спектра категорий. С помощью этого конвейера мы создали EDIR — новый детализированный бенчмарк для CIR. EDIR включает 5000 высококачественных запросов, структурированных по пяти основным категориям и пятнадцати подкатегориям. Наше всестороннее тестирование 13 моделей мультимодальных эмбеддингов выявило значительный разрыв в возможностях: даже передовые модели (например, RzenEmbed и GME) демонстрируют нестабильные результаты across всем подкатегориям, что подчеркивает строгость нашего бенчмарка. Сравнительный анализ дополнительно выявляет inherentные ограничения существующих бенчмарков, такие как модальные смещения и недостаточный охват категорий. Кроме того, эксперимент по in-domain обучению подтверждает практическую применимость нашего бенчмарка. Этот эксперимент проясняет сложность задачи, разделяя категории, решаемые с помощью целевых данных, и те, которые выявляют фундаментальные ограничения современных архитектур моделей.
Производительность современных систем искусственного интеллекта фундаментально ограничена качеством их базовых вычислительных ядер, которые транслируют высокоуровневую алгоритмическую семантику в низкоуровневые аппаратные операции. Достижение почти оптимальных ядер требует экспертного понимания аппаратных архитектур и моделей программирования, что делает разработку ядер критически важным, но печально известным своей трудоемкостью и плохой масштабируемостью процессом. Недавние достижения в области больших языковых моделей (LLM) и агентов на их основе открыли новые возможности для автоматизации генерации и оптимизации ядер. LLM хорошо подходят для сжатия экспертных знаний о ядрах, которые сложно формализовать, в то время как агентские системы дополнительно обеспечивают масштабируемую оптимизацию, превращая разработку ядер в итерационный цикл, управляемый обратной связью. В этой области был достигнут быстрый прогресс. Однако область остается фрагментированной, ей не хватает систематической перспективы для LLM-управляемой генерации ядер. Данный обзор заполняет этот пробел, предоставляя структурированный обзор существующих подходов, охватывающих методы на основе LLM и агентские workflows оптимизации, а также систематизируя наборы данных и бенчмарки, лежащие в основе обучения и оценки в этой области. Кроме того, очерчены ключевые открытые проблемы и будущие направления исследований, с целью создания всеобъемлющего ориентира для следующего поколения автоматической оптимизации ядер. Для отслеживания прогресса в этой области мы поддерживаем репозиторий с открытым исходным кодом на GitHub по адресу https://github.com/flagos-ai/awesome-LLM-driven-kernel-generation.
Оценка прогресса выполнения задачи требует анализа долгосрочной динамики, а не просто распознавания статического визуального содержания. Хотя современные визуально-языковые модели (VLM) превосходно описывают видимое содержимое, остается неясным, способны ли они определить, насколько далеко продвинулось выполнение задачи, на основе частичных наблюдений. Для решения этой задачи мы представляем Progress-Bench — эталонный набор для систематической оценки способности VLM к анализу прогресса. Помимо тестирования, мы также исследуем вдохновленную человеком двухэтапную парадигму анализа прогресса с помощью как беспараметрического промптинга, так и параметрического подхода на основе специально созданного набора данных ProgressLM-45K. Эксперименты с 14 VLM показывают, что большинство моделей еще не готовы к оценке прогресса задач, демонстрируя чувствительность к модальности демонстраций и изменениям точки зрения, а также слабую обработку случаев, не подлежащих ответу. В то время как беспараметрический промптинг, обеспечивающий структурированный анализ прогресса, дает ограниченный и зависимый от модели прирост, параметрическая модель ProgressLM-3B демонстрирует стабильное улучшение даже при небольшом масштабе модели, несмотря на обучение на наборе задач, полностью не пересекающемся с оценочными задачами. Дальнейший анализ выявляет характерные паттерны ошибок и проясняет, когда и почему анализ прогресса оказывается успешным или терпит неудачу.
Обобщение моделей видеоматирования на реальные видео остается серьезной проблемой из-за нехватки размеченных данных. Для решения этой задачи мы представляем Video Mask-to-Matte Model (VideoMaMa), которая преобразует грубые маски сегментации в пиксельно-точные альфа-маты, используя предобученные модели диффузии для видео. VideoMaMa демонстрирует сильную способность к нулевому обобщению на реальные видеозаписи, несмотря на то, что обучалась исключительно на синтетических данных. Опираясь на эту возможность, мы разрабатываем масштабируемый конвейер псевдоразметки для крупномасштабного видеоматирования и создаем набор данных Matting Anything in Video (MA-V), который содержит высококачественные аннотации матирования для более чем 50 тыс. реальных видео, охватывающих разнообразные сцены и движения. Для проверки эффективности этого набора данных мы дообучаем модель SAM2 на MA-V, получая SAM2-Matte, которая превосходит ту же модель, обученную на существующих наборах данных для матирования, по устойчивости на видеороликах в естественных условиях. Эти результаты подчеркивают важность крупномасштабного псевдоразмеченного видеоматирования и показывают, как генеративные априорные знания и доступные подсказки сегментации могут способствовать масштабируемому прогрессу в исследованиях видеоматирования.
Современные модели генерации видео демонстрируют впечатляющую способность улавливать сложные физические взаимодействия и эволюцию сцены во времени. Чтобы использовать их пространственно-временные априорные знания, в робототехнике видео-модели адаптируют для обучения политик, однако это вносит сложность, требуя многоэтапного дообучения и новых архитектурных компонентов для генерации действий. В данной работе мы представляем Cosmos Policy — простой подход для адаптации крупной предобученной видео-модели (Cosmos-Predict2) в эффективную политику робота посредством одноэтапного дообучения на данных демонстраций, собранных на целевом роботизированном платформе, без каких-либо модификаций архитектуры. Cosmos Policy обучается напрямую генерировать действия робота, закодированные в виде латентных кадров в рамках процесса латентной диффузии видео-модели, используя её предобученные априорные знания и базовый алгоритм обучения для захвата сложных распределений действий. Дополнительно Cosmos Policy генерирует изображения будущих состояний и значения (ожидаемые кумулятивные награды), которые аналогично кодируются как латентные кадры, что позволяет планировать траектории действий во время тестирования с более высокой вероятностью успеха. В наших экспериментах Cosmos Policy достигает наилучших результатов на бенчмарках LIBERO и RoboCasa в симуляции (98.5% и 67.1% среднего успеха, соответственно) и наивысшего среднего балла в сложных задачах биманипуляции в реальном мире, превосходя сильные диффузионные политики, обученные с нуля, политики на основе видео-моделей и передовые модели "визуальный язык-действие", дообученные на тех же демонстрациях. Более того, используя данные о выполнении политики, Cosmos Policy может обучаться на опыте, уточняя свою модель мира и функцию ценности, и использовать планирование на основе модели для достижения ещё более высоких показателей успеха в сложных задачах. Мы публикуем код, модели и данные для обучения по адресу: https://research.nvidia.com/labs/dir/cosmos-policy/
Преобразование перспективных изображений и видео в 360° панорамы позволяет создавать иммерсивные 3D-миры. Существующие подходы часто полагаются на явное геометрическое выравнивание между перспективной проекцией и пространством равнопромежуточной проекции (ERP). Однако это требует известных метаданных камеры, что ограничивает применение к данным из реального мира, где такая калибровка обычно отсутствует или зашумлена. Мы предлагаем 360Anything, геометрически-независимый фреймворк, построенный на предварительно обученных диффузионных трансформерах. Рассматривая перспективный вход и панорамную цель просто как последовательности токенов, 360Anything изучает отображение "перспектива-в-равнопромежуточную" чисто на основе данных, устраняя необходимость в информации о камере. Наш подход достигает передовой производительности как в генерации изображений, так и видео из перспективы в 360°, превосходя предыдущие работы, использующие точную информацию о камере. Мы также выявляем коренную причину артефактов швов на границах ERP — дополнение нулями в энкодере VAE — и представляем Круговое латентное кодирование для обеспечения бесшовной генерации. Наконец, мы демонстрируем конкурентоспособные результаты в бенчмарках zero-shot оценки угла обзора и ориентации камеры, показывая глубокое геометрическое понимание 360Anything и его более широкую полезность в задачах компьютерного зрения. Дополнительные результаты доступны по адресу https://360anything.github.io/.
Создание анимированных 3D-объектов является ключевой задачей для многих приложений, однако большинство передовых разработок зачастую сложно применить на практике из-за ограниченных условий работы, длительного времени выполнения или недостаточного качества. Мы представляем ActionMesh — генеративную модель, которая предсказывает готовые к использованию 3D-сетки «в действии» прямым проходом. Черпая вдохновение в ранних видео-моделях, наше ключевое наблюдение заключается в модификации существующих 3D-диффузионных моделей для включения временной оси, что приводит к框架, которую мы назвали «временной 3D-диффузией». Конкретно, мы сначала адаптируем стадию 3D-диффузии для генерации последовательности синхронизированных латентных представлений, соответствующих изменяющимся во времени и независимым 3D-формам. Во-вторых, мы разрабатываем временной 3D-автоэнкодер, который преобразует последовательность независимых форм в соответствующие деформации предопределенной эталонной формы, позволяя нам строить анимацию. Объединяя эти два компонента, ActionMesh генерирует анимированные 3D-сетки из различных входных данных, таких как моноскопическое видео, текстовое описание или даже 3D-сетка с текстовым промтом, описывающим её анимацию. Кроме того, по сравнению с предыдущими подходами, наш метод работает быстро и производит результаты, не требующие риггинга и обладающие согласованной топологией, что обеспечивает быструю итерацию и беспрепятственное применение таких методов, как текстурирование и перепривязка. Мы оцениваем нашу модель на стандартных бенчмарках для видео-к-4D (Consistent4D, Objaverse) и сообщаем о состоянии дел в производительности как по геометрической точности, так и по временной согласованности, демонстрируя, что наша модель может предоставлять анимированные 3D-сетки с беспрецедентной скоростью и качеством.
Обобщение мультимодальных больших языковых моделей (MLLM) на новые видеодомены является ключевым для практического применения, но остается сложной задачей из-за нехватки размеченных данных. Хотя обучение в контексте (In-Context Learning, ICL) предлагает путь адаптации без дообучения, стандартные методы полагаются на большие размеченные наборы данных, что зачастую непрактично в специализированных средах, таких как промышленные или хирургические условия, поскольку требует аннотаций экспертов. Чтобы устранить этот разрыв, мы представляем VIOLA (Video In-cOntext Learning with minimal Annotation) — эффективный по меткам фреймворк, который сочетает минимальный контроль эксперта с обилием немаркированных данных. Во-первых, для максимизации эффективности строго ограниченного бюджета на разметку мы предлагаем выборку, взвешенную по плотности и неопределенности. В отличие от стандартных стратегий, основанных на разнообразии или неопределенности, которые рискуют отбирать визуальные выбросы, наш метод использует оценку плотности для идентификации примеров, которые одновременно разнообразны, репрезентативны и информативны. Во-вторых, чтобы использовать оставшиеся немаркированные данные без распространения шума, мы создаем гибридный пул и вводим уверенно-чувствительное извлечение и уверенно-чувствительное промптирование. Эти механизмы явно моделируют надежность меток, извлекая демонстрации на основе композитной оценки схожести и уверенности, одновременно позволяя MLLM адаптивно различать проверенные истинные метки и зашумленные псевдометки. Многочисленные эксперименты на девяти различных бенчмарках с использованием четырех MLLM демонстрируют, что наш фреймворк значительно превосходит различные базовые методы в условиях с малым объемом данных, достигая надежной адаптации при минимальных затратах на разметку.
Крупные языковые модели (LLMs) все чаще используются в качестве симуляторов человека как для оценки диалоговых систем, так и для генерации данных для дообучения. Однако наивные промпты в стиле «действуй как пользователь» часто приводят к многословным и неестественным высказываниям, что подчеркивает необходимость принципиальной оценки так называемых прокси-агентов пользователя. Мы представляем MIRRORBENCH — воспроизводимый и расширяемый фреймворк для бенчмаркинга, который оценивает прокси-агенты исключительно по их способности генерировать правдоподобные пользовательские высказывания в различных диалоговых задачах, явно отделяя эту способность от успешности решения последующих задач. MIRRORBENCH включает модульный механизм выполнения с типизированными интерфейсами, регистры на основе метаданных, поддержку нескольких бэкендов, кэширование и надежную наблюдаемость. Система поддерживает подключаемые прокси-агенты, наборы данных, задачи и метрики, позволяя исследователям оценивать произвольные симуляторы в единой, учитывающей дисперсию среде. Мы включили три метрики лексического разнообразия (MATTR, K Юла и HD-D) и три метрики на основе LLM-оценки (GTEval, попарная неразличимость и оценка по рубрикам с обоснованием). На четырех открытых наборах данных MIRRORBENCH демонстрирует результаты с учетом дисперсии и выявляет систематические различия между прокси-агентами и реальными пользователями. Фреймворк имеет открытый исходный код и включает простой интерфейс командной строки для проведения экспериментов, управления конфигурациями и кэширования, а также генерации отчетов. Фреймворк доступен по адресу https://github.com/SAP/mirrorbench.
Мы представляем dla-ideal-solver — высокопроизводительный фреймворк для моделирования двумерной агрегации, ограниченной диффузией (DLA), с использованием Python с ускорением на Numba. Благодаря применению компиляции "на лету" (JIT) мы достигаем вычислительной производительности, сопоставимой с классическими статическими реализациями, сохраняя при этом гибкость высокоуровневого языка. Мы исследуем лапласову неустойчивость роста для различных геометрий инжекции и концентраций случайных блужданий. Наш анализ подтверждает устойчивость стандартной фрактальной размерности D_f ≈ 1.71 для разреженных режимов, что согласуется с универсальностью класса Виттена-Сандера. Однако мы наблюдаем четкий переход к компактному эденовскому росту (D_f ≈ 1.87) в условиях высокой плотности, что объясняется насыщением длины экранирования. Помимо стандартного масштабирования масса-радиус, мы используем обобщенные размерности Реньи и метрики лакунарности для количественной оценки монофрактального характера и пространственной неоднородности агрегатов. Данная работа создает воспроизводимую открытую платформу для исследования фазовых переходов в неравновесной статистической механике.
По мере того как большие языковые модели (БЯМ) становятся все более распространенными в образовательных приложениях, возникает растущая потребность в научно обоснованных методах проектирования и оценки промптов БЯМ, которые генерируют персонализированные и педагогически выверенные результаты. Данное исследование представляет обобщаемый систематический подход к оценке промптов, продемонстрированный на примере анализа сгенерированных БЯМ уточняющих вопросов в рамках структурированной диалоговой активности. Было разработано и протестировано шесть шаблонов промптов. Шаблоны включали устоявшиеся паттерны инженерии промптов, причем каждый промпт делал акцент на различных педагогических стратегиях. Шаблоны промптов сравнивались в рамках турнирной системы оценки, которая может быть адаптирована для других образовательных приложений. В турнире использовалась рейтинговая система Glicko2, при этом восемь судей оценивали пары вопросов по трем параметрам: формат, поддержка диалога и уместность для учащихся. Данные были получены из 120 реальных пользовательских взаимодействий в трех различных образовательных средах. Результаты показали, что один промпт, связанный со стратегическим чтением, превзошел другие шаблоны с вероятностью выигрыша от 81% до 100% в парных сравнениях. Этот промпт сочетал паттерны "персона" и "менеджер контекста" и был разработан для поддержки метакогнитивных стратегий обучения, таких как самонаправляемое обучение. Представленная методология демонстрирует, как исследователи в области образовательных технологий могут систематически оценивать и улучшать дизайн промптов, переходя от ad-hoc инженерии промптов к их научно обоснованной разработке для образовательных приложений.
Хотя большие языковые модели (LLM) демонстрируют впечатляющие возможности, их ненадежность остается серьезным препятствием для развертывания в областях с высокими ставками. В данном обзоре прослеживается функциональная эволюция в решении этой проблемы: эволюция неопределенности от пассивного диагностического показателя к активному управляющему сигналу, направляющему поведение модели в реальном времени. Мы показываем, как неопределенность используется в качестве активного управляющего сигнала на трех направлениях: в рамках расширенного логического вывода для оптимизации вычислений и запуска самокоррекции; в автономных агентах для управления метакогнитивными решениями об использовании инструментов и поиске информации; а также в обучении с подкреплением для смягчения проблемы взлома функции вознаграждения и обеспечения самоусовершенствования за счет внутренних вознаграждений. Обосновывая эти достижения в emerging теоретических рамках, таких как байесовские методы и конформное прогнозирование, мы предлагаем единую перспективу этого преобразующего тренда. Настоящий обзор предоставляет всесторонний обзор, критический анализ и практические шаблоны проектирования, утверждая, что овладение новой тенденцией работы с неопределенностью необходимо для создания следующего поколения масштабируемого, надежного и заслуживающего доверия искусственного интеллекта.
Искусственные интеллектуальные агенты стремительно эволюционируют от пассивных языковых моделей к автономным системам, выполняющим сложные многошаговые задачи. Однако их излишняя уверенность в случае неудачи остается фундаментальным барьером для развертывания в высокорисковых сценариях. Существующие методы калибровки, созданные для статичных одношаговых выводов, не способны решить уникальные проблемы агентских систем, такие как накопление ошибок вдоль траекторий, неопределенность от внешних инструментов и непрозрачные режимы сбоев. Для решения этих проблем мы впервые вводим задачу Агентской Калибровки Уверенности и предлагаем Холистическую Калибровку Траекторий (HTC) — новый диагностический фреймворк, который извлекает богатые процессуальные признаки, от макродинамики до микростабильности, по всей траектории агента. Благодаря простой интерпретируемой модели HTC последовательно превосходит сильные базовые методы как в калибровке, так и в дискриминации на восьми бенчмарках, с использованием различных больших языковых моделей и в разнообразных агентских фреймворках. Помимо производительности, HTC предлагает три ключевых преимущества: она обеспечивает интерпретируемость, выявляя сигналы, стоящие за сбоями; позволяет достичь переносимости, применяясь в различных доменах без переобучения; и демонстрирует обобщающую способность через Общий Агентский Калибратор (GAC), который достигает наилучшей калибровки (наименьшей ECE) на непредсказанном бенчмарке GAIA. В совокупности эти результаты устанавливают новую процессо-ориентированную парадигму для калибровки уверенности, предлагая фреймворк для диагностики и повышения надежности ИИ-агентов.
Хотя ИИ-агенты продемонстрировали впечатляющие способности в решении задач, требующих долгосрочного планирования, их надежность серьезно ограничена феноменом «спирали галлюцинаций», когда первоначальные эпистемические ошибки необратимо усугубляются. Существующие методы сталкиваются с дилеммой: методы количественной оценки неопределенности (UQ) обычно выступают как пассивные сенсоры, лишь диагностируя риски, но не устраняя их, в то время как механизмы саморефлексии страдают от непрерывных или бесцельных корректировок. Для преодоления этого разрыва мы предлагаем унифицированную агентскую систему двупроцессной оценки неопределенности (AUQ), преобразующую вербализованную неопределенность в активные двунаправленные управляющие сигналы. Наша архитектура включает два взаимодополняющих механизма: Систему 1 (Память, осведомленная о неопределенности, UAM), которая неявно распространяет вербализованную уверенность и семантические объяснения для предотвращения слепого принятия решений; и Систему 2 (Рефлексия, осведомленная о неопределенности, UAR), которая использует эти объяснения в качестве рациональных сигналов для целенаправленного разрешения неопределенности во время вывода только при необходимости. Это позволяет агенту динамически балансировать между эффективным выполнением и глубоким обдумыванием. Многочисленные эксперименты на замкнутых бенчмарках и открытых исследовательских задачах демонстрируют, что наш подход, не требующий обучения, обеспечивает превосходную производительность и калибровку на уровне траекторий. Мы считаем, что данная принципиальная框架 AUQ представляет собой значительный шаг к созданию надежных агентов.
Мы реализуем и тестируем на квантовом оборудовании IBM семейство схем, предложенное Виоларрисом для оценки операционных свидетелей межветвевой коммуникации, определяемых как корреляции в классических записях измерений, порождаемых скомпилированными схемами в стиле парадокса Вигнера. Мы реализуем пятикубитовый экземпляр протокола в виде паттерна передачи сообщений между регистрами в рамках единой схемы, а не физической сигнализации, и оцениваем его поведение в условиях реального шума устройства и ограничений компиляции. Схема кодирует эволюцию подсистемы наблюдателя, зависящую от условия ветвления, динамика которой определяется управляющим кубитом, с последующей управляемой операцией передачи, которая исследует корреляции между условными контекстами измерений. При выполнении на бэкенде ibm_fez с 20 000 снимков мы наблюдаем популяционную видимость 0.877, свидетелей когерентности 0.840 и -0.811 вдоль ортогональных осей и фазочувствительную величину приблизительно 1.17. В то время как метрика видимости нечувствительна к некоторым классам дефазирования, свидетели когерентности обеспечивают комплементарную чувствительность к внедиагональному шуму. Данная работа не проверяет и не проводит различий между интерпретациями квантовой механики. Вместо этого она предоставляет воспроизводимый конвейер операционных ограничений для оценки обнаруживаемости неидеальных каналов относительно калиброванного шума устройства.