Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области мультимодальных больших языковых моделей открывают беспрецедентные возможности для автоматизации графических интерфейсов. Однако фундаментальная проблема сохраняется: как эффективно получать высококачественные данные для обучения, обеспечивая надежность аннотаций? Мы представляем саморазвивающийся конвейер обучения, работающий на основе Калиброванной системы пошагового вознаграждения, которая преобразует траектории, сгенерированные моделью, в надежные обучающие сигналы посредством калибровки на уровне траекторий, достигая точности аннотаций >90% при стоимости в 10-100 раз ниже. Используя этот конвейер, мы представляем Step-GUI — семейство моделей (4B/8B), которое демонстрирует наилучшую производительность в задачах GUI (8B: 80.2% на AndroidWorld, 48.5% на OSWorld, 62.6% на ScreenShot-Pro), сохраняя при этом надежные общие способности. По мере улучшения возможностей GUI-агентов практическое развертывание требует стандартизированных интерфейсов для гетерогенных устройств при обеспечении конфиденциальности пользователей. Для этой цели мы предлагаем GUI-MCP — первый Model Context Protocol для автоматизации GUI с иерархической архитектурой, сочетающей низкоуровневые атомарные операции и высокоуровневую делегацию задач локальным специализированным моделям, что позволяет осуществлять выполнение с высоким уровнем конфиденциальности, когда чувствительные данные остаются на устройстве. Наконец, чтобы оценить, способны ли агенты справляться с реальными повседневными задачами, мы представляем AndroidDaily — эталонный тест, основанный на реальных паттернах использования мобильных устройств, включающий 3146 статических действий и 235 сквозных задач в высокочастотных ежедневных сценариях (8B: статические 89.91%, сквозные 52.50%). Наша работа способствует развитию практических GUI-агентов и демонстрирует значительный потенциал для реального развертывания в повседневном цифровом взаимодействии.
Эффективность, являясь критически важной практической проблемой для агентских и рассуждающих систем на основе больших языковых моделей (LLM), все в большей степени ограничивается присущей авторегрессионному (AR) декодированию задержкой. Спекулятивное декодирование смягчает эти затраты с помощью схемы «черновик-верификация», однако существующие подходы полагаются на AR-модели для генерации черновиков (т.н. драфтеры), что порождает две фундаментальные проблемы: (1) пошаговое накопление неопределенности приводит к прогрессирующему коллапсу доверия между целевой моделью и драфтером, и (2) присущее AR-драфтерам последовательное декодирование. В совокупности эти факторы ограничивают достигаемое ускорение. В данной работе мы показываем, что драфтеры на основе диффузионных больших языковых моделей (dLLM) могут естественным образом преодолеть эти проблемы благодаря принципиально иному вероятностному моделированию и эффективной стратегии параллельного декодирования. Основываясь на этом инсайте, мы представляем DEER — эффективную框架 спекулятивного декодирования, которая генерирует черновики с помощью диффузии и проверяет их с помощью AR-моделей. Для обеспечения генерации качественных черновиков DEER использует двухэтапный пайплайн обучения для согласования dLLM-драфтеров с целевой AR-моделью и дополнительно применяет одношаговое декодирование для создания длинных сегментов черновика. Эксперименты показывают, что DEER достигает длины принимаемого черновика до 32 токенов, что значительно превосходит результат в 10 токенов, достигнутый EAGLE-3. Более того, на тесте HumanEval с моделью Qwen3-30B-A3B, DEER демонстрирует ускорение в 5.54 раза, в то время как EAGLE-3 достигает лишь 2.41 раза. Код, модели, демо и т.д. будут доступны по адресу https://czc726.github.io/DEER/
Многотокенная генерация стала перспективной парадигмой для ускорения вывода больших моделей на основе трансформеров. Современные исследования в основном изучают диффузионные большие языковые модели (dLLM) для параллельного декодирования с целью снижения задержек вывода. Для достижения качества генерации на уровне авторегрессионных (AR) моделей многие методы адаптируют AR-модели в dLLM для обеспечения параллельного декодирования. Однако они страдают от ограниченного ускорения по сравнению с AR-моделями из-за несоответствия между предварительным и последующим обучением. В частности, маскированное распределение данных при последующем обучении существенно отклоняется от распределения реальных данных, наблюдаемых при предварительном обучении, а dLLM полагаются на двунаправленное внимание, что конфликтует с причинными априорными знаниями, усвоенными при предварительном обучении, и препятствует интеграции точного повторного использования KV-кэша. Для решения этой проблемы мы представляем Jacobi Forcing — прогрессивную парадигму дистилляции, в которой модели обучаются на собственных сгенерированных траекториях параллельного декодирования, плавно преобразуя AR-модели в эффективные параллельные декодеры с сохранением их причинных свойств вывода, усвоенных при предварительном обучении. Модели, обученные по этой парадигме (Jacobi Forcing Model), достигают 3.8-кратного ускорения в реальном времени на бенчмарках по программированию и математике при минимальной потере производительности. На основе характеристик траекторий Jacobi Forcing Models мы вводим многоблочное декодирование с рециклингом отклонений, которое позволяет увеличить количество принимаемых токенов за итерацию до 4.5 раз и достичь почти 4.0-кратного ускорения в реальном времени, эффективно обменивая дополнительные вычисления на снижение задержки вывода. Наш код доступен по адресу https://github.com/hao-ai-lab/JacobiForcing.
Современные мультимодальные большие языковые модели обладают мощными перцептивными и логическими способностями, однако высокие вычислительные затраты и требования к памяти затрудняют их прямое развертывание в on-device средах. Хотя модели с малым количеством параметров постепенно наделяются сильными общими возможностями, стандартные энкодеры Vision Transformer (ViT) остаются ключевым узким местом, страдая от чрезмерной задержки и потребления памяти при обработке входных данных высокого разрешения. Для решения этих проблем мы представляем HyperVL — эффективную мультимодальную большую языковую модель, адаптированную для инференса на устройстве. HyperVL использует стратегию разбиения изображения на фрагменты для ограничения пикового использования памяти и включает две новые методики: (1) Компрессор визуального разрешения (VRC), который адаптивно предсказывает оптимальное разрешение кодирования для устранения избыточных вычислений, и (2) Обучение двойной согласованности (DCL), которое согласует энкодеры ViT разных масштабов в единой структуре, позволяя динамически переключаться между визуальными ветвями при общем LLM. Экстенсивные эксперименты демонстрируют, что HyperVL достигает наилучших результатов среди моделей сопоставимого размера в нескольких бенчмарках. Кроме того, она существенно снижает задержку и энергопотребление на реальных мобильных устройствах, подтверждая свою практическую пригодность для мультимодального инференса на устройстве.
Современные подходы с обучением с подкреплением (ОП), такие как GRPO с контролем по результатам, продвинули логические рассуждения типа «цепочки мыслей» в визуально-языковых моделях (VLM), однако ключевые проблемы сохраняются: (i) зависимость от дорогостоящих и зашумленных ручных разметок или внешних верификаторов; (ii) плоские и разреженные схемы вознаграждений в GRPO; и (iii) логическая несогласованность между рассуждениями цепочки и её итоговым ответом. Мы представляем Puzzle Curriculum GRPO (PC-GRPO) — метод ОП с верифицируемыми вознаграждениями (RLVR), не требующий разметки и укрепляющий визуальные рассуждения в VLM без аннотаций или внешних верификаторов. PC-GRPO заменяет метки тремя самоконтролируемыми головоломками: PatchFit, Rotation (с бинарными вознаграждениями) и Jigsaw (с градуированными частичными вознаграждениями, смягчающими разреженность). Для борьбы с плоскими вознаграждениями и исчезающими групповыми относительными преимуществами мы вводим учитывающий сложность учебный план, который динамически взвешивает выборки и достигает пика на средней сложности. Мы дополнительно отслеживаем Согласованность Рассуждений и Ответа (RAC) после обучения: аналогично отчетам для стандартного GRPO в LLM, RAC обычно сначала растет, а затем ухудшается; наш учебный план задерживает этот спад, а схемы вознаграждения, обеспечивающие согласованность, дополнительно повышают RAC. RAC коррелирует с итоговой точностью. На различных бенчмарках и на базе моделей Qwen-7B и Qwen-3B PC-GRPO улучшает качество рассуждений, стабильность обучения и точность на конечных задачах, предлагая практический путь к масштабируемому, верифицируемому и интерпретируемому пост-обучению VLM с помощью ОП.
Универсальные трансформеры (UT) широко применяются для решения сложных задач логического вывода, таких как ARC-AGI и Судоку, однако конкретные источники их производительности остаются малоизученными. В данной работе мы систематически анализируем варианты UT и показываем, что улучшения на ARC-AGI в основном обусловлены рекуррентным индуктивным смещением и сильными нелинейными компонентами трансформера, а не сложными архитектурными решениями. Руководствуясь этим открытием, мы предлагаем Универсальную модель логического вывода (URM), которая улучшает UT за счёт коротких свёрток и усечённого обратного распространения ошибки. Наш подход значительно повышает производительность логического вывода, достигая state-of-the-art показателей 53,8% pass@1 на ARC-AGI 1 и 16,0% pass@1 на ARC-AGI 2. Наш код доступен по адресу https://github.com/zitian-gao/URM.
Современные модели визуальной генерации часто сталкиваются с проблемами согласованности при редактировании изображений из-за природы растровых изображений, где всё визуальное содержание объединено в единый холст. В отличие от них, профессиональные инструменты дизайна используют послойное представление, позволяющее изолированно редактировать элементы, сохраняя согласованность. Вдохновлённые этим, мы представляем Qwen-Image-Layered — эндо-энд диффузионную модель, которая декомпозирует одиночное RGB-изображение на несколько семантически разъединённых RGBA-слоёв, обеспечивая врождённую редактируемость, когда каждый RGBA-слой можно независимо изменять, не затрагивая остальное содержимое. Для поддержки декомпозиции с переменным числом слоёв мы вводим три ключевых компонента: (1) RGBA-VAE для унификации латентных представлений RGB- и RGBA-изображений; (2) архитектуру VLD-MMDiT (Variable Layers Decomposition MMDiT), способную декомпозировать переменное количество слоёв изображения; и (3) стратегию многоэтапного обучения для адаптации предварительно обученной модели генерации изображений в многслойный декомпозер. Кроме того, для решения проблемы нехватки высококачественных многослойных изображений для обучения мы создали пайплайн для извлечения и аннотирования многослойных изображений из документов Photoshop (PSD). Эксперименты показывают, что наш метод значительно превосходит существующие подходы по качеству декомпозиции и устанавливает новую парадигму для согласованного редактирования изображений. Наш код и модели доступны по адресу https://github.com/QwenLM/Qwen-Image-Layered.
Мы представляем IC-Effect — управляемую инструкциями, основанную на DiT (Diffusion Transformer) систему для видеомонтажа с визуальными эффектами (VFX) в условиях ограниченного количества примеров, которая синтезирует сложные эффекты (например, пламя, частицы и мультяшных персонажей), строго сохраняя пространственную и временную согласованность. Редактирование видео с VFX является чрезвычайно сложной задачей, поскольку вносимые эффекты должны бесшовно интегрироваться с фоном, фон должен оставаться полностью неизменным, а паттерны эффектов необходимо эффективно обучать на ограниченных парных данных. Однако существующие модели редактирования видео не удовлетворяют этим требованиям. IC-Effect использует исходное видео в качестве чистого контекстного условия, раскрывая способность моделей DiT к контекстному обучению для достижения точного сохранения фона и естественного внедрения эффектов. Двухэтапная стратегия обучения, состоящая из общей адаптации для редактирования с последующим эффекто-специфичным обучением через Effect-LoRA, обеспечивает точное следование инструкциям и надежное моделирование эффектов. Для дальнейшего повышения эффективности мы вводим пространственно-временную разреженную токенизацию, позволяющую достичь высокой точности при существенно сниженных вычислительных затратах. Мы также публикуем парный набор данных для VFX-редактирования, охватывающий 15 высококачественных визуальных стилей. Многочисленные эксперименты показывают, что IC-Effect обеспечивает высококачественное, управляемое и временно согласованное VFX-редактирование, открывая новые возможности для создания видео.
Пространственное понимание непрерывного визуального потока крайне важно для MLLM, чтобы они могли эволюционировать в универсальных помощников в физических средах. Однако до сих пор не существует всеобъемлющего бенчмарка, который бы комплексно оценивал прогресс в достижении этой цели. В данной работе мы представляем MMSI-Video-Bench — полностью размеченный человеком бенчмарк для оценки пространственного интеллекта MLLM на основе видео. Он реализует четырехуровневую структуру (Восприятие, Планирование, Прогнозирование и Межвидео-рассуждение) с помощью 1106 вопросов, основанных на 1278 клипах из 25 публичных наборов данных и внутренних видео. Каждый элемент тщательно спроектирован и проверен экспертами в области 3D-компьютерного зрения с пояснительными обоснованиями для обеспечения точной и однозначной привязки. Благодаря разнообразным источникам данных и комплексному охвату задач, MMSI-Video-Bench также поддерживает три предметно-ориентированных суб-бенчмарка (Бенчмарк восприятия внутренних сцен, Роботизированный бенчмарк и Бенчмарк локализации) для целевой оценки возможностей. Мы оценили 25 сильных открытых и проприетарных MLLM, выявив разительный разрыв между человеком и ИИ: многие модели показывают результаты, близкие к случайным, а лучшая модель для рассуждений отстает от человека почти на 60%. Мы также обнаружили, что модели, дообученные для пространственных задач, все еще не способны эффективно обобщать знания в нашем бенчмарке. Детальный анализ ошибок выявляет систематические сбои в геометрических рассуждениях, локализации движения, долгосрочном прогнозировании и установлении соответствий между видео. Мы также показываем, что типичные стратегии семплирования кадров плохо переносятся на наш бенчмарк, насыщенный задачами на рассуждение, и что ни 3D-пространственные подсказки, ни prompting по цепочке мыслей не дают значимого улучшения. Мы ожидаем, что наш бенчмарк станет надежной испытательной базой для развития видео-ориентированного пространственного интеллекта.
Неправомерное использование технологий генерации видео на основе искусственного интеллекта вызвало серьезную общественную озабоченность, подчеркнув острую необходимость в надежных детекторах видео, созданных ИИ. Однако большинство существующих методов ограничиваются бинарной классификацией и не предоставляют необходимых объяснений для интерпретации человеком. В данной статье мы представляем Skyra — специализированную мультимодальную большую языковую модель (MLLM), которая идентифицирует визуальные артефакты, воспринимаемые человеком, в видео, сгенерированных ИИ, и использует их в качестве обоснованных доказательств как для обнаружения, так и для объяснения. Для достижения этой цели мы создали ViF-CoT-4K для контролируемого тонкого обучения (SFT) — первый масштабный набор данных об артефактах в видео, созданных ИИ, с детализированными аннотациями, выполненными человеком. Затем мы разработали двухэтапную стратегию обучения, которая систематически улучшает пространственно-временное восприятие артефактов, способность к объяснению и точность обнаружения нашей модели. Для всесторонней оценки Skyra мы представляем ViF-Bench — эталонный набор, содержащий 3 тыс. высококачественных образцов, сгенерированных более чем десятью передовыми генераторами видео. Многочисленные эксперименты демонстрируют, что Skyra превосходит существующие методы по нескольким эталонным тестам, а наша оценка дает ценные insights для развития объяснимого обнаружения видео, сгенерированных ИИ.
Генеративные модели способны синтезировать высокореалистичный контент, так называемые дипфейки, который уже массово используется для подрыва достоверности цифровых медиа. Современные методы обнаружения дипфейков ненадежны по двум причинам: (i) последующее различение недостоверного контента часто невозможно (например, с запомненными образцами), что приводит к неограниченному уровню ложноположительных срабатываний (FPR); и (ii) обнаружению не хватает устойчивости, поскольку злоумышленники могут адаптироваться к известным детекторам с почти идеальной точностью, используя минимальные вычислительные ресурсы. Для преодоления этих ограничений мы предлагаем фреймворк повторного синтеза, позволяющий определить, является ли образец подлинным или его аутентичность может быть правдоподобно оспорена. Мы делаем два ключевых вклада, ориентируясь на настройку высокой точности при низкой полноте в условиях противодействия эффективным (т.е. с ограниченными вычислительными ресурсами) оппонентам. Во-первых, мы демонстрируем, что наш калиброванный метод повторного синтеза является наиболее надежным подходом для верификации подлинных образцов при сохранении контролируемо низкого FPR. Во-вторых, мы показываем, что наш метод обеспечивает устойчивость к атакам со стороны эффективных противников, в то время как предыдущие методы легко обходятся при идентичных вычислительных бюджетах. Наш подход поддерживает работу с несколькими модальностями и использует передовые методы инверсии.
Как люди, мы по своей природе способны рассуждать на любом временном горизонте, то есть можем решать, нужно ли нам последовательно просматривать длинные видео или полностью смотреть короткие, в зависимости от требований конкретной задачи. Учитывая это, можно было бы ожидать, что модели для анализа видео будут гибко рассуждать в различных временных масштабах. Однако современные передовые модели по-прежнему обучаются давать ответы за один шаг, обрабатывая при этом большое количество кадров, что аналогично просмотру всего длинного видео и требует значительных ресурсов. Это поднимает вопрос: возможно ли создать производительные системы анализа видео с произвольным горизонтом? Вдохновляясь поведением человека, мы, во-первых, предлагаем SAGE — агентную систему, которая проводит многошаговый анализ длинных видео, решая при этом более простые задачи за один шаг. Во-вторых, мы представляем простой конвейер генерации синтетических данных с использованием Gemini-2.5-Flash для обучения оркестратора SAGE-MM, который является ядром системы SAGE. Мы также предлагаем эффективный рецепт последующего обучения с подкреплением, необходимый для привития SAGE-MM способности к рассуждению на любом горизонте. В-третьих, мы создали SAGE-Bench со средней продолжительностью видео более 700 секунд для оценки способности к анализу видео в реальных сценариях развлекательного контента. Наконец, мы эмпирически подтверждаем эффективность нашей системы, данных и метода обучения с подкреплением, наблюдая значительное улучшение результатов — до 6.1% в задачах открытого анализа видео и впечатляющее улучшение на 8.2% для видео длиннее 10 минут.
В последних мультимодальных исследованиях диффузионная парадигма стала перспективной альтернативой авторегрессионной парадигме (AR) благодаря своим уникальным преимуществам при декодировании. Однако из-за ограниченных возможностей базовой диффузионной языковой модели производительность диффузионной визуально-языковой модели (dVLM) по-прежнему значительно отстает от основных моделей. Это порождает простой, но фундаментальный вопрос: возможно ли создавать dVLM на основе существующих мощных AR-моделей? В ответ мы предлагаем DiffusionVL — семейство dVLM, которое можно получить из любой мощной AR-модели. С помощью простого тонкого настроя мы успешно адаптируем предварительно обученные AR-модели к диффузионной парадигме. Этот подход позволил сделать два ключевых наблюдения: (1) Переход от мультимодальных моделей на основе AR к диффузии оказывается чрезвычайно эффективным. (2) Прямое преобразование AR-языковой модели в dVLM также осуществимо и демонстрирует производительность, сопоставимую с визуально-инструктивным тонким настроем в стиле LLaVA. Кроме того, мы внедряем в dVLM блочное декодирование, которое поддерживает генерацию произвольной длины и повторное использование KV-кэша, что обеспечивает значительное ускорение вывода. Мы провели многочисленные эксперименты. Несмотря на обучение с использованием менее 5% данных, требуемых предыдущими методами, DiffusionVL демонстрирует всестороннее улучшение производительности — прирост на 34,4% на тесте MMMU-Pro (vision) и на 37,5% на тесте MME (Cog.) — наряду с двукратным ускорением вывода. Модель и код доступны по адресу https://github.com/hustvl/DiffusionVL.
Подкрепляющее обучение стало ключевым инструментом для усиления способностей к рассуждению у больших языковых моделей, однако современные механизмы исследования фундаментально не согласованы с тем, как эти модели фактически обучаются. Бонусы за энтропию и внешние семантические компараторы поощряют поверхностное варьирование, но не гарантируют, что сэмплированные траектории будут различаться в направлениях обновления, формирующих оптимизацию. Мы предлагаем G2RL — градиентно-управляемый фреймворк подкрепляющего обучения, в котором исследование направляется не внешними эвристиками, а собственной геометрией обновления первого порядка модели. Для каждого ответа G2RL строит признак на уровне последовательности из чувствительности последнего слоя модели, получаемый с пренебрежимо малой стоимостью при стандартном прямом проходе, и измеряет, как каждая траектория повлияет на политику, сравнивая эти признаки внутри сэмплированной группы. Траектории, вносящие новые направления градиента, получают ограниченный мультипликативный множитель вознаграждения, в то время как избыточные или отклоняющиеся от многообразия обновления ослабляются, что создает самореферентный сигнал исследования, естественным образом согласованный со стабильностью в стиле PPO и KL-контролем. На наборах задач по математике и общим рассуждениям (MATH500, AMC, AIME24, AIME25, GPQA, MMLUpro) для базовых моделей Qwen3 1.7B и 4B G2RL последовательно улучшает показатели pass@1, maj@16 и pass@k по сравнению с GRPO на основе энтропии и методами с внешними эмбеддингами. Анализируя индуцированную геометрию, мы обнаруживаем, что G2RL расширяет исследование в существенно более ортогональные и зачастую противоположные направления градиента, сохраняя семантическую связность, что демонстрирует: собственное пространство обновления политики предоставляет гораздо более достоверную и эффективную основу для направления исследования в подкрепляющем обучении больших языковых моделей.
Современные исследования в области многозадачного распознавания именованных сущностей (NER) показали, что большие языковые модели (LLM) способны обеспечивать эффективное синтетическое обучение, однако такие наборы данных в основном появлялись как побочные продукты широкомасштабных экспериментов, а не как систематические, пригодные для повторного использования ресурсы. Мы представляем FiNERweb — конвейер создания наборов данных, который масштабирует парадигму «учитель-ученик» до 91 языка и 25 систем письменности. Основываясь на FineWeb-Edu, наш подход использует обучение регрессионных моделей для идентификации фрагментов текста, релевантных для NER, и аннотирует их с помощью многоязычных LLM, в результате чего получается около 225 тысяч фрагментов с 235 тысячами уникальных меток сущностей. Наши эксперименты показывают, что регрессионная модель достигает показателя F1 выше 84, а модели, обученные на FiNERweb, демонстрируют сопоставимую или улучшенную производительность в условиях zero-shot переноса на английский, тайский и суахили, несмотря на обучение на данных в 19 раз меньшего объема по сравнению с сильными базовыми уровнями. Кроме того, мы оцениваем качество аннотаций с использованием LLM-как-судьи и наблюдаем стабильно высокие баллы как за достоверность (3,99 из 5), так и за полноту (4,05 из 5), что указывает на надежные и информативные аннотации. Дополнительно мы публикуем набор данных как с английскими метками, так и с переведенными наборами меток на соответствующих целевых языках, поскольку мы наблюдаем, что производительность современных передовых моделей снижается на 0,02–0,09 F1 при оценке с использованием меток на целевом языке вместо английских. Мы публикуем FiNERweb вместе со всеми сопутствующими материалами для исследовательского сообщества, чтобы способствовать более эффективному обучению по схеме «учитель-ученик» для многозадачного распознавания именованных сущностей.
Крупные языковые модели (LLM) все чаще используются для генерации синтетических наборов данных для оценки и обучения последующих моделей. Однако предыдущие исследования отмечали, что такие сгенерированные данные страдают от недостатка разнообразия. В данной статье мы предлагаем Voyager — новый принципиальный подход к созданию разнообразных наборов данных. Наш подход является итеративным и напрямую оптимизирует математическую величину, отвечающую за разнообразие набора данных, с использованием аппарата детерминантных точечных процессов. Кроме того, наш подход не требует обучения, применим к моделям с закрытым исходным кодом и масштабируем. Наряду с теоретическим обоснованием работы нашего метода, мы также демонстрируем в ходе всесторонних экспериментов, что Voyager значительно превосходит популярные базовые подходы, обеспечивая повышение разнообразия в 1,5–3 раза.
Авторегрессионные диффузионные модели для видео демонстрируют потенциал в моделировании мира, но уязвимы к смещению экспозиции, возникающему из-за несоответствия между обучением и тестированием. Хотя последние работы решают эту проблему с помощью пост-обработки, они обычно полагаются на двунаправленную учительскую модель или онлайн-дискриминатор. Для создания сквозного решения мы представляем Resampling Forcing — безучительскую архитектуру, которая позволяет обучать авторегрессионные видео-модели с нуля и в больших масштабах. Ключевым элементом нашего подхода является схема самопередискретизации, которая имитирует ошибки модели на исторических кадрах во время вывода в процессе обучения. Условливаясь на этих деградировавших историях, разреженная причинная маска обеспечивает временную причинность, одновременно позволяя параллельное обучение с использованием диффузионных потерь на уровне кадров. Для эффективного генерации длинных последовательностей мы дополнительно вводим маршрутизацию истории — беспараметрический механизм, который динамически извлекает k наиболее релевантных исторических кадров для каждого запроса. Эксперименты показывают, что наш подход достигает производительности, сопоставимой с базовыми методами на основе дистилляции, демонстрируя при этом превосходную временную согласованность на длинных видео благодаря обучению на нативной длине.
Автономное вождение долгое время основывалось на модульных конвейерах «Восприятие-Решение-Действие», где созданные вручную интерфейсы и основанные на правилах компоненты часто дают сбой в сложных или редких сценариях. Их каскадная конструкция дополнительно распространяет ошибки восприятия, ухудшая последующее планирование и управление. Модели «Видение-Действие» (Vision-Action, VA) решают некоторые ограничения, изучая прямые соответствия от визуальных входных данных к действиям, но они остаются «чёрными ящиками», чувствительными к сдвигам распределения данных и лишены структурированного мышления или способностей следовать инструкциям. Недавний прогресс в области больших языковых моделей (Large Language Models, LLMs) и мультимодального обучения стимулировал появление фреймворков «Видение-Язык-Действие» (Vision-Language-Action, VLA), которые интегрируют восприятие с принятием решений, основанным на языке. Объединяя визуальное понимание, лингвистические рассуждения и исполнительные выходные данные, VLA открывают путь к более интерпретируемым, обобщаемым и согласованным с человеком политикам вождения. Данная работа предлагает структурированную характеристику формирующегося ландшафта VLA для автономного вождения. Мы прослеживаем эволюцию от ранних подходов VA к современным фреймворкам VLA и систематизируем существующие методы по двум основным парадигмам: сквозные VLA (End-to-End VLA), которые интегрируют восприятие, рассуждение и планирование в единой модели, и двухсистемные VLA (Dual-System VLA), которые разделяют медленное обдумывание (с помощью VLM) и быстрое, критичное к безопасности выполнение (с помощью планировщиков). В рамках этих парадигм мы далее выделяем подклассы, такие как текстовые и численные генераторы действий, а также механизмы явного и неявного управления. Мы также обобщаем репрезентативные наборы данных и бенчмарки для оценки систем вождения на основе VLA и выделяем ключевые проблемы и открытые направления, включая устойчивость, интерпретируемость и точность следования инструкциям. В целом, данная работа направлена на создание последовательной основы для продвижения систем автономного вождения, совместимых с человеком.
Последние достижения в области генерации видео впечатляют: модели теперь способны создавать визуально привлекательные видео с синхронизированным звуком. Хотя существующие бенчмарки для генерации видео предлагают всесторонние метрики для оценки визуального качества, в них отсутствуют убедительные методы оценки для аудио-видео генерации, особенно для моделей, предназначенных для создания синхронизированных аудио-видео выходных данных. Чтобы восполнить этот пробел, мы представляем VABench — всеобъемлющую и многомерную систему бенчмарков, разработанную для систематической оценки возможностей синхронной аудио-видео генерации. VABench охватывает три основных типа задач: генерация аудио-видео по тексту (T2AV), генерация аудио-видео по изображению (I2AV) и генерация стерео аудио-видео. Кроме того, в рамках системы созданы два основных оценочных модуля, покрывающих 15 измерений. Эти измерения специально оценивают парное сходство (текст-видео, текст-аудио, видео-аудио), синхронизацию аудио и видео, соответствие артикуляции речи, а также тщательно отобранные пары вопрос-ответ (QA) для аудио и видео, среди других аспектов. Более того, VABench охватывает семь основных содержательных категорий: животные, звуки, производимые человеком, музыка, звуки окружающей среды, синхронные физические звуки, сложные сцены и виртуальные миры. Мы предоставляем систематический анализ и визуализацию результатов оценки, стремясь установить новый стандарт для оценки моделей генерации видео с функциями синхронного звука и способствовать всестороннему прогрессу в данной области.
На самом базовом уровне пиксели являются источником визуальной информации, посредством которой мы воспринимаем мир. Пиксели содержат информацию всех уровней — от низкоуровневых атрибутов до высокоуровневых концепций. Автокодировщики представляют собой классическую и проверенную временем парадигму для обучения представлений из пикселей или других исходных данных. В данной работе мы демонстрируем, что самообучение на основе автокодировщиков остается конкурентоспособным и сегодня, позволяя получать качественные представления для последующих задач, сохраняя при этом простоту, стабильность и эффективность. Наша модель, получившая кодовое название «Pixio», представляет собой усовершенствованный маскированный автокодировщик (MAE) с более сложными задачами предварительного обучения и более мощными архитектурами. Модель обучалась на 2 миллиардах веб-изображений с использованием стратегии самоотбора при минимальном участии человека. Pixio демонстрирует конкурентоспособные результаты в широком спектре практических задач, включая оценку монокулярной глубины (например, Depth Anything), прямое 3D-восстановление (MapAnything), семантическую сегментацию и обучение роботов, превосходя или соответствуя результатам DINOv3, обученной в аналогичных масштабах. Наши результаты позволяют предположить, что самообучение в пространстве пикселей может служить перспективной альтернативой и дополнением к подходам, работающим в латентном пространстве.
Быстрая эволюция моделей генерации изображений по тексту произвела революцию в создании визуального контента. Хотя коммерческие продукты, такие как Nano Banana Pro, привлекли значительное внимание, их потенциал в качестве универсальных решений для традиционных задач низкоуровневого компьютерного зрения остается в значительной степени неисследованным. В данном исследовании мы изучаем ключевой вопрос: является ли Nano Banana Pro универсальным решением для низкоуровневого зрения? Мы провели всестороннюю оценку с нулевым разгоном (zero-shot) на 14 различных низкоуровневых задачах, охватывающих 40 разнообразных наборов данных. Используя простые текстовые промпты без тонкой настройки, мы сравнили Nano Banana Pro с передовыми специализированными моделями. Наш обширный анализ выявляет отчетливую дихотомию производительности: хотя Nano Banana Pro демонстрирует превосходное субъективное визуальное качество, часто генерируя правдоподобные высокочастотные детали, которые превосходят результаты специализированных моделей, он отстает по традиционным количественным метрикам, основанным на эталонных изображениях. Мы объясняем это расхождение присущей генеративным моделям стохастичностью, которая мешает им поддерживать строгую пиксельную согласованность, требуемую традиционными метриками. Данный отчет идентифицирует Nano Banana Pro как способного претендента для zero-shot решения задач низкоуровневого зрения, но при этом подчеркивает, что достижение высокой точности, свойственной узкоспециализированным моделям, остается значительным препятствием.
Мы представляем FrontierCS — набор из 156 открытых задач из различных областей информатики, разработанных и проверенных экспертами, включая PhD в области computer science, участников и авторов задач соревнований по программированию высшего эшелона. В отличие от существующих бенчмарков, сфокусированных на задачах с известными оптимальными решениями, FrontierCS нацелен на проблемы, для которых оптимальное решение неизвестно, но качество решения может быть объективно оценено. Модели решают эти задачи путем реализации исполняемых программ, а не вывода прямого ответа. FrontierCS включает алгоритмические задачи, часто являющиеся NP-трудными вариантами задач из соревновательного программирования с объективной системой частичных баллов, а также исследовательские задачи с аналогичным свойством. Для каждой задачи мы предоставляем эталонное решение от экспертов и автоматический оценщик. Сочетая открытый дизайн, измеримый прогресс и экспертный отбор, FrontierCS предлагает бенчмарк на переднем крае сложности в компьютерных науках. Эмпирически мы обнаружили, что современные модели рассуждений все еще значительно отстают от экспертов-людей как на алгоритмическом, так и на исследовательском треках, что одного лишь увеличения вычислительного бюджета для рассуждений недостаточно для сокращения этого разрыва, и что модели часто чрезмерно оптимизируются под генерацию просто работоспособного кода вместо открытия высококачественных алгоритмов и проектирования систем.
Вычислительные затраты и затраты памяти, связанные с расширением контекстного окна больших языковых моделей (LLM), серьезно ограничивают их масштабируемость. Примечательным решением является визуально-текстовое сжатие (VTC), примером которого служат такие фреймворки, как DeepSeek-OCR и Glyph, преобразующие длинные тексты в плотные двумерные визуальные представления, достигая тем самым коэффициентов сжатия токенов в 3–20 раз. Однако влияние такой высокой информационной плотности на ключевые способности визуально-языковых моделей (VLM) к работе с длинным контекстом остается недостаточно изученным. Чтобы восполнить этот пробел, мы представляем первый бенчмарк для VTC и систематически оцениваем производительность VLM в трех сценариях понимания длинного контекста: VTC-Retrieval, который оценивает способность модели извлекать и агрегировать информацию; VTC-Reasoning, который требует от моделей выявления скрытых связей для нахождения фактов с минимальным лексическим перекрытием; и VTC-Memory, который измеряет способность к комплексному ответу на вопросы в рамках долгосрочной диалоговой памяти. Кроме того, мы создали VTCBench-Wild для моделирования разнообразных сценариев ввода. Мы всесторонне оценили ведущие модели с открытым исходным кодом и проприетарные модели на наших бенчмарках. Результаты показывают, что, несмотря на способность хорошо декодировать текстовую информацию (например, с помощью OCR), большинство VLM демонстрируют удивительно низкую способность к пониманию длинного контекста при работе со сжатой VTC информацией, не справляясь с выявлением длинных связей или зависимостей в контексте. Данное исследование обеспечивает глубокое понимание VTC и служит основой для проектирования более эффективных и масштабируемых VLM.
Агенты больших языковых моделей (LLM) все чаще развертываются в средах, генерирующих массовый динамический контекст. Однако сохраняется ключевое ограничение: хотя агенты имеют доступ к этому контексту, их статические промты не обладают механизмами для эффективного управления им, что приводит к повторяющимся ошибкам коррекции и улучшения. Для преодоления этого пробела в возможностях мы представляем SCOPE (Self-evolving Context Optimization via Prompt Evolution). SCOPE формулирует управление контекстом как задачу онлайн-оптимизации, синтезируя руководства из траекторий выполнения для автоматической эволюции промта агента. Мы предлагаем механизм Dual-Stream, который балансирует тактическую специфичность (устранение непосредственных ошибок) со стратегической обобщенностью (развитие долгосрочных принципов). Кроме того, мы вводим Perspective-Driven Exploration для максимизации охвата стратегий, повышая вероятность наличия у агента правильной стратегии для любой конкретной задачи. Эксперименты на бенчмарке HLE показывают, что SCOPE повышает процент успешного выполнения задач с 14,23% до 38,64% без вмешательства человека. Мы публикуем наш код по адресу https://github.com/JarvisPei/SCOPE.
Система автоматической идентификации (АИС) обеспечивает мониторинг морской деятельности на основе данных, но страдает от проблем с надежностью и нерегулярными интервалами передачи. Мы решаем задачу прогнозирования пункта назначения судна с использованием глобальных данных АИС, предлагая дифференцированный подход, который преобразует протяженные порт-порт траектории во вложенную последовательную структуру. Используя пространственную сетку, данный метод снижает пространственно-временные искажения, сохраняя при этом детальное разрешение. Мы представляем новую архитектуру глубокого обучения WAY, разработанную для обработки этих реструктурированных траекторий с целью долгосрочного прогнозирования пункта назначения за несколько дней или недель. Архитектура WAY состоит из слоя представления траекторий и блоков канально-агрегирующей последовательной обработки (CASP). Слой представления генерирует многоканальные векторные последовательности из кинематических и некинематических признаков. Блоки CASP используют многоголовую канальную и самовнимательность для агрегации и передачи последовательной информации. Дополнительно мы предлагаем специализированную технику Gradient Dropout (GD), которая позволяет осуществлять обучение по схеме «многие-ко-многим» на одиночных метках, предотвращая всплески смещенной обратной связи за счет стохастического блокирования потока градиентов в зависимости от длины выборки. Эксперименты на 5-летних данных АИС демонстрируют превосходство WAY над традиционными подходами, основанными на пространственной сетке, независимо от стадии прохождения траектории. Результаты также подтверждают, что применение GD приводит к повышению производительности. Наконец, мы исследуем потенциал применения WAY в реальных условиях посредством многозадачного обучения для оценки времени прибытия.
Эффективность агентов обучения с подкреплением (ОП) критически зависит от качества базовых признаковых представлений. Гиперболические пространства признаков хорошо подходят для этой цели, поскольку они естественным образом отражают иерархическую и реляционную структуру, часто присутствующую в сложных средах ОП. Однако использование этих пространств обычно сталкивается с проблемами оптимизации из-за нестационарности ОП. В данной работе мы определяем ключевые факторы, определяющие успех и неудачу при обучении глубоких гиперболических агентов ОП. Анализируя градиенты основных операций в моделях гиперболической геометрии — шаре Пуанкаре и гиперболоиде — мы показываем, что embeddings с большой нормой дестабилизируют градиентное обучение, приводя к нарушениям trust-region в проксимальной оптимизации политики (PPO). На основе этих инсайтов мы представляем Hyper++ — нового гиперболического агента PPO, который состоит из трех компонентов: (i) стабильное обучение критика с помощью категориальной функции потерь для ценности вместо регрессии; (ii) регуляризация признаков, гарантирующая ограниченность норм и избегающая проклятия размерности, присущего отсечению (clipping); и (iii) использование более удобной для оптимизации формулировки гиперболических слоев нейронной сети. В экспериментах на ProcGen мы показываем, что Hyper++ гарантирует стабильное обучение, превосходит предыдущие гиперболические агенты и сокращает реальное время обучения примерно на 30%. На Atari-5 с Double DQN Hyper++ значительно превосходит евклидовые и гиперболические базовые методы. Наш код доступен по адресу https://github.com/Probabilistic-and-Interactive-ML/hyper-rl.
Малые языковые модели (SLM) широко применяются в задачах, требующих низкой задержки и облегченного развертывания, особенно в классификации. Поскольку интерпретируемость и устойчивость приобретают все большее значение, обучение с использованием объяснений стало эффективной парадигмой за счет введения атрибуционного контроля в процессе обучения; однако получение общих и надежных атрибуционных априори остается серьезной проблемой. Анализ репрезентативных методов атрибуции в задачах классификации показывает, что хотя эти методы могут достоверно выделять токены, релевантные классу, они часто фокусируются на общих ключевых словах, разделяемых семантически схожими классами. Поскольку такие классы уже сложно различить при стандартном обучении, эти атрибуции предоставляют недостаточно дискриминативных сигналов, ограничивая их способность улучшать дифференциацию модели. Для преодоления этого ограничения мы предлагаем Class-Aware Attribution Prior (CAP) — новую систему извлечения атрибуционных априори, которая направляет языковые модели на захват тонких межклассовых различий и генерацию более значимых дискриминативных априори. Развивая эту идею, мы дополнительно представляем CAP Hybrid, комбинирующий априори из CAP с априори существующих атрибуционных методов для формирования более полного и сбалансированного контрольного сигнала. Согласовывая самоатрибуцию модели с этими обогащенными априори, наш подход стимулирует изучение разнообразных признаков, релевантных для принятия решений. Многочисленные эксперименты в сценариях с полными данными, малым количеством примеров и в условиях атак демонстрируют, что наш метод последовательно улучшает как интерпретируемость, так и устойчивость.
Модели типа «Смесь экспертов» (MoE) стали фактически стандартной архитектурой для масштабирования языковых моделей без значительного увеличения вычислительных затрат. Современные MoE-модели демонстрируют явную тенденцию к высокой гранулярности экспертов (меньшая промежуточная размерность эксперта) и большей разреженности (постоянное число активируемых экспертов при увеличении общего их количества), что повышает качество модели на один FLOP. Однако мелкозернистые MoE страдают от увеличения объема памяти для активаций и снижения аппаратной эффективности из-за более высоких затрат на ввод-вывод, в то время как более разреженные MoE сталкиваются с бесполезными вычислениями из-за дополнения (padding) в групповых ядрах GEMM. В ответ на это мы предлагаем эффективный по памяти алгоритм для вычисления прямого и обратного проходов MoE с минимальным кэшированием активаций для обратного прохода. Мы также разрабатываем GPU-ядро, которое совмещает операции ввода-вывода с вычислениями, принося пользу всем MoE-архитектурам. Наконец, мы предлагаем новый метод «округления токенов», который минимизирует бесполезные вычисления, вызванные дополнением в групповых ядрах GEMM. В результате наш метод SonicMoE сокращает объем памяти для активаций на 45% и обеспечивает увеличение пропускной способности вычислений в 1.86 раза на GPU Hopper по сравнению с ядром MoE в формате BF16 от ScatterMoE для мелкозернистой 7B MoE. Конкретно, SonicMoE на 64 H100 обеспечивает пропускную способность обучения в 213 миллиардов токенов в день, что сопоставимо с 225 миллиардами токенов в день у ScatterMoE на 96 H100 для обучения 7B MoE-модели с использованием FSDP-2 в кодовой базе lm-engine. В условиях высокой разреженности MoE наш алгоритм округления токенов с учетом блоков (tile-aware) дает дополнительное ускорение времени выполнения ядра в 1.16 раза по сравнению с классической маршрутизацией top-K, сохраняя при этом схожую производительность на downstream-задачах. Мы открываем исходный код всех наших ядер, чтобы обеспечить более быструю обучение MoE-моделей.
Персонализированная языковая модель должна запоминать факты о пользователе, корректно их применять и адаптироваться со временем, чтобы формировать ответы, предпочтительные для пользователя. Существующие бенчмарки персонализации языковых моделей в основном сосредоточены на двух аспектах: точном запоминании информации о пользователе и точном применении запомненной информации в последующих задачах. Мы утверждаем, что третий аспект — **приятность** (likability) — является одновременно субъективным и ключевым для пользовательского опыта, однако недостаточно измеряется текущими бенчмарками. Для комплексного измерения приятности мы представляем **LikeBench** — многосессионную динамическую систему оценки, которая измеряет приятность по нескольким измерениям, оценивая, насколько языковая модель способна адаптироваться со временем к предпочтениям пользователя, чтобы давать более приятные ответы. В LikeBench языковые модели ведут диалог с симулированным пользователем и обучаются предпочтениям исключительно из текущего диалога. По мере развития взаимодействия модели пытаются адаптировать свои ответы, и после каждого хода симулированный пользователь оценивает их приятность по семи измерениям. Насколько нам известно, мы первые, кто декомпозирует приятность на несколько диагностических метрик: эмоциональная адаптация, соответствие формальности общения, адаптация знаний, понимание ссылок, соответствие желаемой длине диалога, соответствие юмору и использование отсылок (callback), — что позволяет точнее определить слабые места модели. Чтобы сделать симулированного пользователя более реалистичным и различающим, LikeBench использует детализированные, психологически обоснованные описательные персонажи вместо грубых персонажей, основанных на оценках черт по шкале "высоко/низко", как в предыдущих работах. Наш бенчмарк показывает, что высокая производительность запоминания не гарантирует высокую приятность: DeepSeek R1, обладая более низкой точностью запоминания (86%, 17 фактов/профиль), превзошел Qwen3 на 28% по баллу приятности, несмотря на более высокую точность запоминания Qwen3 (93%, 43 факта/профиль). Даже передовые модели, такие как GPT-5, хорошо адаптируются в коротких диалогах, но демонстрируют лишь ограниченную устойчивость в более длинных и зашумленных взаимодействиях.
Роботизированное манипулирование требует как богатого мультимодального восприятия, так и эффективных обучающих систем для решения сложных задач в реальном мире. Сенсоры типа «вижу-сквозь-кожу» (STS), объединяющие тактильное и визуальное восприятие, предлагают перспективные возможности сенсорики, в то время как современное имитационное обучение предоставляет мощные инструменты для формирования политик управления. Однако существующие конструкции STS-сенсоров не обеспечивают одновременного мультимодального восприятия и страдают от ненадежного тактильного отслеживания. Более того, интеграция этих богатых мультимодальных сигналов в обучающиеся системы манипулирования остается нерешенной задачей. Мы представляем TacThru — STS-сенсор, обеспечивающий одновременное визуальное восприятие и надежное извлечение тактильных сигналов, и TacThru-UMI — фреймворк имитационного обучения, который использует эти мультимодальные сигналы для манипулирования. Наш сенсор отличается полностью прозрачным эластомером, постоянной подсветкой, новыми маркерами в виде ключевых линий и эффективным отслеживанием, в то время как наша обучающая система интегрирует эти сигналы с помощью Transformer-based Diffusion Policy. Эксперименты на пяти сложных реальных задачах показывают, что TacThru-UMI достигает среднего показателя успеха 85,5%, значительно превосходя базовые подходы с чередованием тактильного и визуального восприятия (66,3%) и только визуальным восприятием (55,4%). Система демонстрирует превосходство в критических сценариях, включая обнаружение контакта с тонкими и мягкими объектами и прецизионное манипулирование, требующее мультимодальной координации. Данная работа демонстрирует, что сочетание одновременного мультимодального восприятия с современными обучающими фреймворками позволяет реализовать более точное и адаптивное роботизированное манипулирование.
Человеческое общение включает непрерывный обмен речью и невербальными сигналами, такими как кивки головой, перемещения взгляда и мимика, которые передают внимание и эмоции. Моделирование этих двунаправленных динамик в 3D необходимо для создания выразительных аватаров и интерактивных роботов. Однако существующие подходы часто рассматривают говорение и слушание как независимые процессы или полагаются на некаузальное моделирование полных последовательностей, что нарушает временную согласованность между репликами. Мы представляем TIMAR (Turn-level Interleaved Masked AutoRegression) — каузальную архитектуру для генерации 3D-движений головы в диалоге, которая моделирует беседу как чередующиеся аудиовизуальные контексты. Она объединяет мультимодальную информацию внутри каждой реплики и применяет каузальное внимание на уровне реплик для накопления истории диалога, в то время как облегченный диффузионный модуль прогнозирует непрерывную 3D-динамику головы, учитывающую как координацию, так и выразительную вариативность. Эксперименты на бенчмарке DualTalk показывают, что TIMAR снижает расстояние Фреше и MSE на 15–30% на тестовой выборке и демонстрирует аналогичный прирост на данных вне распределения. Исходный код будет опубликован в репозитории GitHub https://github.com/CoderChen01/towards-seamleass-interaction.