Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем STEP3-VL-10B — компактную модель-основу с открытым исходным кодом, призванную пересмотреть баланс между эффективностью малого размера и мультимодальным интеллектом уровня современных флагманов. STEP3-VL-10B реализована благодаря двум стратегическим изменениям: во-первых, унифицированной стратегии предварительного обучения на 1,2 трлн мультимодальных токенов с полным размораживанием параметров, которая интегрирует выровненный по языку перцептивный энкодер с декодером Qwen3-8B для создания внутренней синергии между зрением и языком; и, во-вторых, масштабируемого конвейера пост-обучения, включающего более 1000 итераций обучения с подкреплением. Ключевым элементом является реализация параллельного скоординированного рассуждения (PaCoRe) для масштабирования вычислений во время тестирования, что позволяет распределять ресурсы на масштабируемое перцептивное рассуждение, исследующее и синтезирующее разнообразные визуальные гипотезы. В результате, несмотря на компактный размер в 10 млрд параметров, STEP3-VL-10B не уступает или превосходит модели в 10–20 раз крупнее (например, GLM-4.6V-106B, Qwen3-VL-235B) и ведущие проприетарные флагманы, такие как Gemini 2.5 Pro и Seed-1.5-VL. Демонстрируя наилучшую в своем классе производительность, модель достигает 92,2% на MMBench и 80,11% на MMMU, одновременно преуспевая в сложных рассуждениях с результатами 94,43% на AIME2025 и 75,95% на MathVision. Мы публикуем полный набор модели, чтобы предоставить сообществу мощный, эффективный и воспроизводимый базовый уровень.
Как центры человеческой активности, городские территории состоят из множества семантических объектов. Сегментация этих разнообразных объектов на спутниковых снимках крайне важна для широкого спектра прикладных задач. Современные передовые модели сегментации надежно выделяют объекты, определяемые физическими атрибутами (например, здания, водные объекты), но по-прежнему испытывают трудности с социально определяемыми категориями (например, школы, парки). В данной работе мы достигаем социо-семантической сегментации с помощью рассуждений моделей «визуальный язык-текст». Для этого мы представляем набор данных Urban Socio-Semantic Segmentation под названием SocioSeg — новый ресурс, содержащий спутниковые снимки, цифровые карты и пиксельные аннотации социальных семантических объектов, организованные в иерархическую структуру. Кроме того, мы предлагаем новую систему рассуждений «визуальный язык-текст» под названием SocioReasoner, которая имитирует человеческий процесс идентификации и аннотирования социальных семантических объектов посредством кросс-модального распознавания и многоэтапных рассуждений. Мы используем обучение с подкреплением для оптимизации этого недифференцируемого процесса и раскрытия способностей модели к рассуждению. Эксперименты демонстрируют преимущества нашего подхода по сравнению с современными моделями и его сильную способность к обобщению в условиях zero-shot. Наш набор данных и код доступны по адресу https://github.com/AMAP-ML/SocioReasoner.
Обучение с подкреплением стало ключевой парадигмой для посттренинговой настройки больших языковых моделей, особенно для сложных задач логического вывода, однако оно часто страдает от коллапса исследования: политики преждевременно концентрируются на узком наборе доминирующих шаблонов рассуждений, улучшая pass@1, но ограничивая разнообразие на уровне траекторий и рост показателя pass@k. Мы утверждаем, что эта проблема возникает из-за регуляризации локального поведения токенов вместо поощрения разнообразия множеств решений. Для её решения мы предлагаем Обучение с подкреплением с учетом уникальности — целевую функцию на уровне траекторий, которая явно вознаграждает правильные решения, демонстрирующие редкие высокоуровневые стратегии. Наш метод использует LLM-арбитр для кластеризации траекторий одной задачи в соответствии с их высокоуровневыми стратегиями решения, игнорируя поверхностные вариации, и перевзвешивает преимущества политики обратно пропорционально размеру кластера. В результате правильные, но новые стратегии получают большее вознаграждение, чем избыточные. На наборах задач по математике, физике и медицинской диагностике наш подход стабильно улучшает pass@k при больших бюджетах сэмплирования и увеличивает площадь под кривой pass@k без ухудшения pass@1, поддерживая исследование и выявляя более разнообразные стратегии решения в масштабе.
Многоагентные системы эволюционировали в практических LLM-управляемых коллабораторов для многих приложений, обретая устойчивость за счет разнообразия и перекрестной проверки. Однако обучение с подкреплением в многоагентной среде (MARL) ресурсоемко и нестабильно: взаимная адаптация агентов порождает нестационарность, а вознаграждения часто являются разреженными и имеют высокую дисперсию. Поэтому мы представляем MATTRL — фреймворк, который внедряет структурированный текстовый опыт в процесс многоагентного принятия решений на этапе вывода. MATTRL формирует команду специалистов-экспертов для многоходовых дискуссий, извлекает и интегрирует опыт, полученный в режиме тестирования, и достигает консенсуса для финального принятия решений. Мы также исследуем распределение заслуг для построения пула опыта на уровне ходов и его последующего внедрения в диалог. На сложных тестовых наборах в областях медицины, математики и образования MATTRL повышает точность в среднем на 3,67% по сравнению с многоагентным базовым уровнем и на 8,67% по сравнению с аналогичными одноагентными базовыми уровнями. В рамках ablation-исследований анализируются различные схемы распределения заслуг и проводится детальное сравнение их влияния на результаты обучения. MATTRL предлагает стабильный, эффективный и экономичный путь к устойчивому к сдвигам распределения многоагентному мышлению без необходимости тонкой настройки.
Редактирование изображений на основе инструкций является одной из наиболее быстро развивающихся областей генеративного искусственного интеллекта. За последний год эта сфера достигла нового уровня: были выпущены десятки моделей с открытым исходным кодом наряду с высокопроизводительными коммерческими системами. Однако в настоящее время лишь ограниченное число подходов с открытым исходным кодом обеспечивает качество, пригодное для практического применения. Кроме того, диффузионные модели, являющиеся доминирующим выбором для таких конвейеров, часто обладают большим размером и высокими вычислительными затратами для многих сценариев развертывания и исследований, при этом широко используемые варианты обычно содержат от 6 до 20 миллиардов параметров. В данной статье представлен компактный высокопроизводительный конвейер редактирования изображений на основе инструкций, который использует современную модель Qwen3-VL с 2 миллиардами параметров для управления процессом редактирования и диффузионную модель Sana1.5 с 1,6 миллиардами параметров для генерации изображений. Наши проектные решения в области архитектуры, обработки данных, конфигурации обучения и оценки нацелены на обеспечение недорогого вывода и строгой согласованности с исходным изображением при сохранении высокого качества для основных категорий редактирования, достижимых в данном масштабе. При оценке на бенчмарках ImgEdit и GEdit предложенный метод демонстрирует результаты на уровне или превосходящие производительность значительно более крупных базовых моделей, включая модели с параметрами в несколько раз больше и более высокой стоимостью вывода, и особенно эффективен при редактированиях, требующих сохранения входного изображения, таких как корректировка атрибутов, удаление объектов, изменение фона и целевая замена. Модель умещается в 24 ГБ памяти GPU и генерирует отредактированные изображения с разрешением до 2K приблизительно за 4 секунды на NVIDIA H100 в формате BF16 без дополнительной оптимизации вывода или дистилляции.
Ключевая проблема AI for Science заключается не только в способности к рассуждениям, но и в возможности создания вычислительных методов в открытой научной среде. Существующие агенты на основе больших языковых моделей опираются на статические, предопределенные библиотеки инструментов — парадигму, которая принципиально несостоятельна в научных областях, где инструменты малочисленны, разнородны и по своей природе неполны. В данной статье мы предлагаем новую парадигму — эволюцию инструментов во время тестирования (Test-Time Tool Evolution, TTE), которая позволяет агентам синтезировать, проверять и развивать исполняемые инструменты непосредственно в процессе вывода. Преобразуя инструменты из фиксированных ресурсов в артефакты, определяемые конкретной задачей, TTE преодолевает жесткость и проблему «длинного хвоста» статических библиотек инструментов. Для обеспечения строгой оценки мы представляем SciEvo — эталонный набор данных, включающий 1590 задач научного мышления, поддерживаемых 925 автоматически созданными инструментами. Многочисленные эксперименты показывают, что TTE демонстрирует наилучшие результаты как по точности, так и по эффективности использования инструментов, а также обеспечивает эффективную кросс-доменную адаптацию вычислительных средств. Код и эталонный набор данных опубликованы по адресу https://github.com/lujiaxuan0520/Test-Time-Tool-Evol.
Развитие искусственного интеллекта в направлении агентной науки в настоящее время сдерживается проблемой сверхдолгосрочной автономии — способности сохранять стратегическую согласованность и осуществлять итерационные корректировки в течение экспериментальных циклов, длящихся дни или недели. Хотя большие языковые модели (БЯМ) продемонстрировали мастерство в краткосрочных рассуждениях, они легко перегружаются деталями исполнения в высокоразмерных средах с запаздывающей обратной связью, характерных для реальных исследований, и не способны интегрировать редкие сигналы обратной связи в последовательное долгосрочное руководство. В данной работе представлен ML-Master 2.0 — автономный агент, который овладевает сверхдолгосрочной инженерией машинного обучения (ИМО), представляющей собой репрезентативный микрокосм научного открытия. Переосмыслив управление контекстом как процесс когнитивного накопления, наш подход представляет Иерархическое Когнитивное Кэширование (ИКК) — многоуровневую архитектуру, вдохновленную компьютерными системами, которая позволяет структурно дифференцировать опыт во времени. Динамически преобразуя временные следы выполнения в стабильные знания и межзадачную мудрость, ИКК позволяет агентам разделять непосредственное исполнение и долгосрочную экспериментальную стратегию, эффективно преодолевая ограничения масштабирования статических контекстных окон. В оценках на MLE-Bench от OpenAI при 24-часовом бюджете ML-Master 2.0 достигает рекордного уровня получения медалей в 56,44%. Наши результаты демонстрируют, что сверхдолгосрочная автономия предлагает масштабируемую модель для ИИ, способного к автономному исследованию за пределами сложностей, имеющих человеческие прецеденты.
Модели предварительного обучения Vision-Language (VLP) демонстрируют высокую производительность в различных downstream-задачах, обучаясь на крупномасштабных парах «изображение-текст» с помощью контрастного предобучения. Публикация обширных англоязычных наборов данных изображений и текстов (таких как COYO-700M и LAION-400M) позволила широко внедрить модели, такие как CLIP и SigLIP, в задачи, включая кросс-модальный поиск и генерацию подписей к изображениям. Однако развитие китайского визуально-языкового предобучения существенно отстает из-за нехватки высококачественных китайских данных типа «изображение-текст». Чтобы устранить этот пробел, мы разработали комплексный пайплайн для создания высококачественного китайского кросс-модального набора данных. В результате мы представляем DanQing, который содержит 100 миллионов пар «изображение-текст», собранных из Common Crawl. В отличие от существующих наборов данных, DanQing создан с помощью более строгого процесса отбора, что обеспечивает превосходное качество данных. Более того, DanQing в основном построен на основе веб-данных за 2024-2025 годы, что позволяет моделям лучше улавливать эволюционирующие семантические тренды и, следовательно, предлагать большую практическую пользу. Мы сравниваем DanQing с существующими наборами данных путем непрерывного предобучения модели SigLIP2. Результаты экспериментов показывают, что DanQing стабильно достигает превосходной производительности в ряде китайских downstream-задач, включая классификацию с нулевым обучением (zero-shot), кросс-модальный поиск и оценки на основе LMM. Для содействия дальнейшим исследованиям в области китайского визуально-языкового предобучения мы опубликуем набор данных DanQing под лицензией Creative Commons CC-BY 4.0.
Современные модели генерации видео продемонстрировали появление механизма Chain-of-Frame (CoF) — последовательного фрейм-за-фреймом визуального вывода. Благодаря этой возможности видео-модели успешно применяются для решения различных визуальных задач (например, прохождения лабиринтов, визуальных головоломок). Однако их потенциал для улучшения генерации изображений по текстовому описанию (Text-to-Image, T2I) остаётся в значительной степени неисследованным из-за отсутствия чётко определённой отправной точки для визуального рассуждения и интерпретируемых промежуточных состояний в процессе T2I-генерации. Для преодоления этого разрыва мы предлагаем CoF-T2I — модель, интегрирующую CoF-рассуждения в T2I-генерацию посредством прогрессивного визуального уточнения, где промежуточные кадры выступают в качестве явных шагов рассуждения, а конечный кадр принимается в качестве результата. Для организации такого явного процесса генерации мы создали CoF-Evol-Instruct — набор данных CoF-траекторий, моделирующих процесс генерации от семантики к эстетике. Для дальнейшего повышения качества и избежания артефактов движения мы реализовали независимое кодирование для каждого кадра. Эксперименты показывают, что CoF-T2I значительно превосходит базовую видео-модель и демонстрирует конкурентоспособные результаты на сложных бенчмарках, достигая 0.86 на GenEval и 7.468 на Imagine-Bench. Эти результаты свидетельствуют о существенном потенциале видео-моделей для развития высококачественной генерации изображений по текстовому описанию.
Последние достижения в области диффузионных моделей (ДМ) для генерации изображений по тексту (text-to-image, T2I) позволили добиться высококачественного визуального синтеза по разнообразным текстовым запросам. Однако большинство существующих T2I ДМ, даже оснащённые текстовыми энкодерами на основе больших языковых моделей (БЯМ), остаются преобразователями «текст-пиксели» — они используют БЯМ лишь в качестве текстовых энкодеров, не задействуя их присущие способности к рассуждению для вывода того, что должно быть изображено визуально по заданному текстовому запросу. Чтобы выйти за рамки такого буквального поколения, мы предлагаем парадигму «подумай, затем сгенерируй» (think-then-generate, T2G), в которой текстовый энкодер на основе БЯМ побуждается к рассуждению и переформулированию исходных пользовательских запросов; состояния переписанных запросов затем служат условиями для диффузии. Для этого мы сначала активируем шаблон «подумай и перепиши» в энкодере БЯМ с помощью лёгкого процесса контролируемого тонкого обучения. Впоследствии энкодер БЯМ и диффузионная основа совместно оптимизируются с использованием метода Dual-GRPO для обеспечения достоверного рассуждения о контексте и точного воспроизведения семантики. В частности, текстовый энкoder усиливается с использованием вознаграждений, основанных на изображениях, для вывода и припоминания знаний о мире, в то время как диффузионная основа стимулируется к созданию семантически согласованных и визуально целостных изображений. Эксперименты показывают существенное улучшение фактической согласованности, семантического соответствия и визуального реализма на бенчмарках для генерации и редактирования изображений, основанных на рассуждениях, достигая показателя 0.79 по шкале WISE, что почти соответствует уровню GPT-4. Наши результаты представляют собой многообещающий шаг к созданию моделей следующего поколения, объединяющих способности к рассуждению, выражению и демонстрации.
Крупные модели диффузии и потоковые модели для видео достигли выдающихся успехов в генерации высококачественного видео, однако их применение в интерактивных приложениях реального времени остается ограниченным из-за неэффективного многошагового процесса сэмплирования. В данной работе мы представляем Transition Matching Distillation (TMD) — новую структуру для дистилляции моделей видео-диффузии в эффективные генераторы с малым количеством шагов. Основная идея TMD заключается в сопоставлении многошаговой траектории удаления шума модели диффузии с малошаговым процессом вероятностного перехода, где каждый переход моделируется как легковесное условное потоковое преобразование. Для обеспечения эффективной дистилляции мы разлагаем исходную основную архитектуру диффузии на два компонента: (1) основную сеть, содержащую большинство ранних слоев, которая извлекает семантические представления на каждом внешнем шаге перехода; и (2) потоковый головной модуль, состоящий из последних нескольких слоев, который использует эти представления для выполнения нескольких внутренних потоковых обновлений. Имея предварительно обученную модель видео-диффузии, мы сначала добавляем к модели потоковый головной модуль и адаптируем его в условное потоковое отображение. Затем мы применяем дистилляцию с согласованием распределений к студенческой модели с развертыванием потокового головного модуля на каждом шаге перехода. Многочисленные эксперименты по дистилляции текстово-видео моделей Wan2.1 1.3B и 14B демонстрируют, что TMD обеспечивает гибкий и эффективный компромисс между скоростью генерации и визуальным качеством. В частности, TMD превосходит существующие дистиллированные модели при сопоставимых вычислительных затратах на вывод по показателям визуального правдоподобия и соответствия текстовому описанию. Страница проекта: https://research.nvidia.com/labs/genair/tmd
Метод инструментально-интегрированного рассуждения (Tool-Integrated Reasoning, TIR) позволяет большим языковым моделям (LLM) решать сложные задачи, чередуя шаги рассуждений с обращениями к внешним инструментам. Однако существующие методы обучения с подкреплением обычно опираются на награды на уровне результата или траектории, присваивая одинаковые преимущества всем шагам внутри траектории. Такое грубое распределение заслуг не позволяет отличить эффективные вызовы инструментов от избыточных или ошибочных, особенно в сценариях с длительным горизонтом планирования и множественными взаимодействиями. Для решения этой проблемы мы предлагаем фреймворк MatchTIR, который вводит детализированный контроль посредством распределения наград на уровне хода на основе двудольного соответствия и двухуровневой оценки преимуществ. В частности, мы формулируем распределение заслуг как задачу о двудольном соответствии между предсказанными и эталонными трассировками, используя две стратегии назначения для получения плотных наград на уровне хода. Кроме того, для балансировки локальной точности шагов и глобального успеха задачи мы вводим схему двухуровневой оценки преимуществ, которая интегрирует сигналы уровня хода и уровня траектории, присваивая различные значения преимуществ отдельным шагам взаимодействия. Многочисленные эксперименты на трех тестовых наборах демонстрируют превосходство MatchTIR. Примечательно, что наша модель объемом 4B превосходит большинство конкурентов с 8B параметрами, особенно в задачах с длительным горизонтом и множественными взаимодействиями. Наш код доступен по адресу https://github.com/quchangle1/MatchTIR.
Современные самые мощные видео-языковые модели (VLM) остаются проприетарными. Наиболее сильные открытые модели либо полагаются на синтетические данные от проприетарных VLM, фактически дистиллируя их знания, либо не раскрывают свои обучающие данные и методологию. В результате сообщество открытого исходного кода лишено фундамента для улучшения передовых видео- (и изображений-) языковых моделей. Критически важно, что многие прикладные задачи требуют не только понимания видео на высоком уровне, но и привязки к пикселям — либо через указание, либо через отслеживание. Даже проприетарные модели не обладают этой возможностью. Мы представляем Molmo2 — новое семейство VLM, которые являются передовыми среди открытых моделей и демонстрируют исключительные новые возможности точечной привязки в задачах с одним изображением, несколькими изображениями и видео. Наш ключевой вклад — это коллекция из 7 новых видео-датасетов и 2 мульти-изобразительных датасетов, включая набор данных с детальными описаниями видео для предварительного обучения, набор данных с произвольными вопросами и ответами по видео для тонкой настройки, новый набор данных для отслеживания объектов со сложными запросами и инновационный набор данных для указания в видео, все собранные без использования закрытых VLM. Мы также представляем метод обучения для этих данных, использующий эффективную схему упаковки и кодирования деревьев сообщений, и показываем, что двунаправленное внимание на визуальные токены и новая стратегия взвешивания токенов повышают производительность. Наша лучшая 8-миллиардная модель превосходит другие в классе открытых моделей по работе с короткими видео, подсчетом объектов и описанием сцен, а также конкурентоспособна в задачах с длинными видео. В задачах видео-привязки Molmo2 значительно превосходит существующие открытые модели, такие как Qwen3-VL (35.5 против 29.6 по точности подсчета в видео), и превосходит проприетарные модели, такие как Gemini 3 Pro, в некоторых задачах (38.4 против 20.0 по F1 для указания в видео и 56.2 против 41.1 по J&F для отслеживания в видео).
Мы представляем Alterbute — диффузионный метод для редактирования внутренних атрибутов объекта на изображении. Наш подход позволяет изменять цвет, текстуру, материал и даже форму объекта, сохраняя его воспринимаемую идентичность и контекст сцены. Существующие методы либо полагаются на неконтролируемые априорные предположения, которые часто не сохраняют идентичность, либо используют излишне жёсткий контроль, препятствующий значимым вариациям внутренних свойств. Наш метод основан на: (i) ослабленной функции обучения, которая позволяет модели изменять как внутренние, так и внешние атрибуты, обусловленные эталонным изображением идентичности, текстовым описанием целевых внутренних атрибутов, а также фоновым изображением и маской объекта, определяющими внешний контекст. На этапе вывода мы ограничиваем внешние изменения, повторно используя исходный фон и маску объекта, тем самым гарантируя изменение только целевых внутренних атрибутов; (ii) Визуальных Именованных Объектах (ВИО) — детализированных категориях визуальной идентичности (например, «Porsche 911 Carrera»), которые группируют объекты, имеющие общие идентифицирующие черты, но допускающие вариативность внутренних атрибутов. Мы используем модель «визуальный язык» для автоматического извлечения меток ВИО и описаний внутренних атрибутов из большого публичного набора изображений, что обеспечивает масштабируемый контроль с сохранением идентичности. Alterbute превосходит существующие методы в задаче редактирования внутренних атрибутов объекта с сохранением идентичности.
Хотя агенты на основе языковых моделей могут взаимодействовать со средой через вызов внешних инструментов, их расширенные возможности также усиливают риски безопасности. Мониторинг поведений вызова инструментов на уровне шагов в реальном времени и проактивное вмешательство до небезопасного выполнения критически важны для развертывания агентов, однако эта проблема остается малоизученной. В данной работе мы сначала создаем TS-Bench — новый эталонный набор для обнаружения безопасности вызова инструментов на уровне шагов у агентов на основе языковых моделей. Затем мы разрабатываем защитную модель TS-Guard с использованием многозадательного обучения с подкреплением. Модель проактивно обнаруживает небезопасные действия вызова инструментов до их выполнения, анализируя историю взаимодействий. Она оценивает вредоносность запросов и корреляции между действиями и атаками, формируя интерпретируемые и обобщаемые оценки безопасности и обратную связь. Кроме того, мы представляем TS-Flow — framework логического вывода, управляемый защитной обратной связью для агентов на основе языковых моделей, который сокращает вредоносные вызовы инструментов у агентов в стиле ReAct в среднем на 65% и повышает успешность выполнения доброкачественных задач примерно на 10% при атаках инъекцией в промпты.
Быстрая эволюция больших языковых моделей (LLM) и мультимодальных больших языковых моделей (MLLM) привела к значительному прогрессу в области рассуждений, восприятия и генеративных способностей в сферах языка и зрения. Однако остается неясным, приводят ли эти достижения к соразмерному улучшению безопасности, отчасти из-за фрагментированных практик оценки, ограниченных отдельными модальностями или моделями угроз. В данном отчете мы представляем комплексную оценку безопасности 7 передовых моделей: GPT-5.2, Gemini 3 Pro, Qwen3-VL, Doubao 1.8, Grok 4.1 Fast, Nano Banana Pro и Seedream 4.5. Мы оцениваем каждую модель в языковых, визуально-языковых условиях и условиях генерации изображений, используя единый протокол, который интегрирует бенчмарк-оценку, адверсарную оценку, мультиязычную оценку и оценку соответствия. Агрегирование наших оценок в рейтинги безопасности и профили безопасности моделей по множеству режимов оценки выявляет резко неоднородную картину безопасности. В то время как GPT-5.2 демонстрирует стабильно высокую и сбалансированную производительность по безопасности во всех оценках, другие модели показывают выраженные компромиссы между бенчмарк-безопасностью, адверсарным соответствием, мультиязычным обобщением и нормативным соответствием. Как языковые, так и визуально-языковые модальности демонстрируют значительную уязвимость при адверсарной оценке, при этом все модели существенно деградируют, несмотря на сильные результаты в стандартных бенчмарках. Модели для генерации изображений по тексту достигают относительно более сильного соответствия в регулируемых визуальных категориях риска, но остаются хрупкими при адверсарных или семантически неоднозначных промптах. В целом, эти результаты показывают, что безопасность передовых моделей по своей природе многомерна — она формируется модальностью, языком и схемой оценки, что подчеркивает необходимость стандартизированных оценок безопасности для точного определения рисков в реальном мире и руководства ответственной разработкой и развертыванием моделей.
Вывод физических действий из визуальных наблюдений является фундаментальной способностью для развития машинного интеллекта в физическом мире. Для достижения этой цели необходимы масштабные видеодатасеты действий с открытой лексикой, охватывающие широкие предметные области. Мы представляем Action100M — крупномасштабный набор данных, созданный на основе 1.2 млн интернет-инструкционных видео (общей продолжительностью 14.6 лет), который содержит порядка 100 миллионов временно локализованных сегментов с разметкой действий открытой лексики и расширенными описаниями. Action100M генерируется полностью автоматизированным конвейером, который (i) выполняет иерархическую временную сегментацию с использованием эмбеддингов V-JEPA 2, (ii) создает многоуровневые описания кадров и сегментов, организованные в виде Дерева описаний (Tree-of-Captions), и (iii) агрегирует данные с помощью модели логического вывода (GPT-OSS-120B) в рамках многоэтапной процедуры Self-Refine для формирования структурированных аннотаций (краткое/детальное действие, исполнитель, краткое/детальное описание). Обучение модели VL-JEPA на Action100M демонстрирует последовательное улучшение результатов с ростом объема данных и высокую zero-shot производительность на различных бенчмарках распознавания действий, что утверждает Action100M в качестве новой основы для масштабируемых исследований в области понимания видео и моделирования мира.
Генерация интерактивных гуманоидных видео направлена на синтез реалистичных визуальных агентов, способных взаимодействовать с человеком посредством непрерывного и отзывчивого видеопотока. Несмотря на recentние достижения в синтезе видео, существующие методы часто сталкиваются с компромиссом между синтезом высокого качества и требованиями к интерактивности в реальном времени. В данной статье мы предлагаем FlowAct-R1 — фреймворк, специально разработанный для генерации интерактивных гуманоидных видео в реальном времени. Построенный на архитектуре MMDiT, FlowAct-R1 позволяет осуществлять потоковый синтез видео произвольной длительности при сохранении низкой задержки отклика. Мы представляем стратегию chunkwise diffusion forcing, дополненную новой вариацией self-forcing, для снижения накопления ошибок и обеспечения долгосрочной временной согласованности в процессе непрерывного взаимодействия. Благодаря эффективной дистилляции и системным оптимизациям наш фреймворк достигает стабильных 25 кадров/с при разрешении 480p с временем до первого кадра (TTFF) всего около 1,5 секунд. Предложенный метод обеспечивает целостный и детализированный контроль над телом, позволяя агенту естественно переходить между различными поведенческими состояниями в интерактивных сценариях. Результаты экспериментов демонстрируют, что FlowAct-R1 достигает исключительной поведенческой выразительности и перцептивной реалистичности, сохраняя при этом robustную обобщающую способность для различных стилей персонажей.
Мы представляем семейство открытых базовых моделей для музыки, предназначенных для продвижения масштабного понимания и генерации музыки в разнообразных задачах и модальностях. Наша архитектура состоит из четырёх основных компонентов: (1) HeartCLAP — модель согласования аудио и текста; (2) HeartTranscriptor — надежная модель распознавания текстов песен, оптимизированная для реальных музыкальных сценариев; и (3) HeartCodec — музыкальный кодек-токенизатор с низкой частотой кадров (12.5 Гц), но высокой точностью воспроизведения, который захватывает долгосрочную музыкальную структуру, сохраняя тонкие акустические детали и обеспечивая эффективное авторегрессионное моделирование; (4) HeartMuLa — модель генерации песен на основе больших языковых моделей (LLM), способная синтезировать музыку высокого качества при наличии богатых, управляемых пользователем условий (например, текстовых описаний стиля, текстов песен и референсного аудио). Кроме того, она предоставляет два специализированных режима: (i) детальное управление музыкальными атрибутами, позволяющее пользователю задавать стиль различных разделов песни (например, вступление, куплет, припев) с помощью промптов на естественном языке; и (ii) генерация короткой, увлекательной музыки, подходящей для использования в качестве фоновой музыки в коротких видео. Наконец, производительность HeartMuLa значительно улучшается при масштабировании до 7 миллиардов параметров. Впервые мы демонстрируем, что систему коммерческого уровня, сопоставимую с Suno, можно воспроизвести с использованием академических объемов данных и вычислительных ресурсов GPU. Мы ожидаем, что эти базовые модели послужат надежным базисом для будущих исследований и будут способствовать практическому применению в мультимодальном контент-продюсировании.
Крупные языковые модели (LLM) стали мощным инструментом для эволюционного поиска, однако проектирование эффективных каркасов поиска остается несистематическим. Несмотря на перспективность, современные системы с LLM в контуре не имеют системного подхода к управлению эволюционным процессом. Мы выделяем три типа сбоев: *загрязнение контекста*, когда история экспериментов смещает генерацию будущих кандидатов; *коллапс режима*, когда агенты стагнируют в локальных минимумах из-за дисбаланса исследования-эксплуатации; и *слабая коллаборация*, когда жесткие стратегии скрещивания не позволяют эффективно использовать параллельные траектории поиска. Для решения этих проблем мы представляем Progress-Aware Consistent Evolution (PACEvolve) — фреймворк, предназначенный для надежного управления контекстом агента и динамикой поиска. PACEvolve сочетает иерархическое управление контекстом (HCM) с прореживанием для борьбы с загрязнением контекста; *бэктрекинг на основе импульса (MBB)* для выхода из локальных минимумов; и самоадаптивную политику сэмплирования, которая объединяет бэктрекинг и скрещивание для динамической координации поиска (CE), позволяя агентам балансировать внутреннюю оптимизацию с коллаборацией между траекториями. Мы демонстрируем, что PACEvolve обеспечивает системный путь к последовательному самосовершенствованию на длинных горизонтах, достигая state-of-the-art результатов на LLM-SR и KernelBench, а также находя решения, превосходящие рекорд на Modded NanoGPT.
Генерация молекул, удовлетворяющих точным числовым ограничениям по нескольким физико-химическим свойствам, является важной и сложной задачей. Хотя большие языковые модели (LLM) обладают высокой выразительностью, они испытывают трудности с точным многоцелевым управлением и численными рассуждениями без внешней структуры и обратной связи. Мы представляем MolGen — фрагментный, дополненный поиском двухэтапный фреймворк для генерации молекул при ограничениях на множественные свойства. Этап I: Генерация прототипа: мульти-агентный модуль рассуждений выполняет анкерованные поиском фрагментные модификации для создания кандидата вблизи допустимой области. Этап II: Тонкая оптимизация на основе обучения с подкреплением (RL): фрагментный оптимизатор, обученный с помощью Group Relative Policy Optimization (GRPO), применяет одно- или многошаговые уточнения для явной минимизации отклонений свойств от целевых значений, одновременно регулируя сложность редактирования и отклонение от прототипа. Оба этапа основаны на большом автоматически курируемом наборе данных, содержащем цепочки рассуждений о фрагментных модификациях и измеренные изменения свойств, что обеспечивает детерминированное, воспроизводимое управление и контролируемые многошаговые рассуждения. В отличие от предыдущих работ, наш фреймворк лучше анализирует молекулы, используя фрагменты, и поддерживает контролируемое уточнение для достижения числовых целей. Эксперименты по генерации при двух наборах ограничений на свойства (QED, LogP, молекулярная масса и HOMO, LUMO) демонстрируют стабильное улучшение валидности и точного соответствия многоцелевым свойствам, превосходя сильные LLM и графовые алгоритмы.
Современные модели генерации видео создают перспективный визуальный контент, но часто нарушают фундаментальные принципы физики, что ограничивает их практическую применимость. Хотя некоторые связывают этот недостаток с недостаточным пониманием физики на этапе предварительного обучения, мы обнаружили, что проблема физической правдоподобности также проистекает из неоптимальных стратегий вывода. Поэтому мы представляем WMReward и рассматриваем повышение физической правдоподобности генерации видео как задачу согласования на этапе вывода. В частности, мы используем сильный физический априор латентной мировой модели (в данном случае VJEPA-2) в качестве вознаграждения для поиска и управления множественными кандидатными траекториями денойзинга, что позволяет масштабировать вычислительные ресурсы на этапе тестирования для улучшения производительности генерации. Экспериментально наш подход существенно повышает физическую правдоподобность в условиях генерации по изображению, нескольким кадрам и текстовому описанию, что подтверждается исследованием человеческих предпочтений. Примечательно, что на конкурсе PhysicsIQ Challenge ICCV 2025 Perception Test мы достигли итогового результата в 62.64%, заняв первое место и превзойдя предыдущее состояние искусства на 7.42%. Наша работа демонстрирует жизнеспособность использования латентных мировых моделей для улучшения физической правдоподобности генерации видео, выходящую за рамки данной конкретной реализации или параметризации.
Унифицированные модели генерации и редактирования изображений страдают от сильной интерференции задач в архитектурах плотных диффузионных трансформаторов, где общее пространство параметров вынуждено искать компромисс между конфликтующими целями (например, локальное редактирование и предметно-ориентированная генерация). Хотя разреженная парадигма смеси экспертов (Mixture-of-Experts, MoE) является перспективным решением, её управляющие сети остаются агностичными к задаче, работая на основе локальных признаков без учёта глобального целеполагания. Эта агностичность препятствует содержательной специализации и не позволяет устранить лежащую в основе интерференцию задач. В данной статье мы предлагаем новую структуру для внедрения семантического замысла в маршрутизацию MoE. Мы представляем схему иерархической семантической аннотации задач для создания структурированных дескрипторов (например, область, тип, сохранение). Затем мы разрабатываем регуляризацию прогностического выравнивания, чтобы согласовать внутренние решения маршрутизации с высокоуровневой семантикой задачи. Данная регуляризация преобразует управляющую сеть из агностичного исполнителя в диспетчерский центр. Наша модель эффективно снижает интерференцию задач, превосходя плотные базовые линии по точности и качеству, а наш анализ показывает, что эксперты естественным образом развивают чёткие и семантически коррелированные специализации.
Следование инструкциям является критически важным для больших языковых моделей, однако реальные инструкции часто содержат логические структуры, такие как последовательные зависимости и условные ветвления. Существующие методы обычно создают наборы данных с параллельными ограничениями и оптимизируют средние показатели вознаграждения, игнорируя логические зависимости и порождая зашумленные сигналы. Мы предлагаем логически структурированную обучающую систему LSRIF, которая явно моделирует логику инструкций. Сначала мы создаем набор данных LSRInstruct со структурами ограничений, такими как параллельные, последовательные и условные типы, а затем разрабатываем метод структурированного вознаграждения LSRIF, включающий агрегацию по среднему для параллельных структур, распространение штрафа за неудачу для последовательных структур и избирательные вознаграждения для условных ветвей. Эксперименты показывают, что LSRIF обеспечивает значительное улучшение в следовании инструкциям (внутри домена и вне домена) и в общих рассуждениях. Анализ показывает, что обучение с явными логическими структурами приводит к обновлению параметров в слоях внимания и усиливает токено-ориентированное внимание к ограничениям и логическим операторам.
Выявление уклончивых ответов в ходе конференц-звонков по отчетности имеет решающее значение для финансовой прозрачности, однако прогресс сдерживается отсутствием масштабных бенчмарков. Мы представляем EvasionBench, включающий 30 000 обучающих примеров и 1000 размеченных человеком тестовых примеров (каппа Коэна 0.835) по трем уровням уклончивости. Нашим ключевым вкладом является многомодельная система разметки, основанная на ключевой идее: расхождения между передовыми большими языковыми моделями сигнализируют о сложных примерах, наиболее ценных для обучения. Мы выявляем пограничные случаи, когда две сильные модели-аннотаторы дают противоречивые оценки, привлечая модель-арбитра для финальной разметки. Этот подход превосходит дистилляцию от одной модели на 2.4%, при этом примеры с арбитражем улучшают обобщающую способность, несмотря на более высокие потери при обучении (0.421 против 0.393) — что свидетельствует о неявной регуляризации за счет анализа разногласий. Наша обученная модель Eva-4B (4 миллиарда параметров) достигает точности 81.3%, превосходя базовую модель на 25 процентных пунктов и приближаясь к производительности передовых LLM при существенно меньших вычислительных затратах на вывод.
Современные многомодальные методы латентного рассуждения часто полагаются на внешние данные (например, вспомогательные изображения), игнорируя внутреннюю динамику визуального внимания. В данной работе мы выявляем критический **Разрыв Восприятия** при дистилляции: студенческие модели часто имитируют текстовый вывод учителя, фокусируясь при этом на принципиально различных визуальных областях, фактически опираясь на языковые априорные предположения, а не на обоснованное восприятие. Для преодоления этого разрыва мы предлагаем **LaViT** — фреймворк, выравнивающий латентные визуальные представления, а не статические эмбеддинги. LaViT заставляет студенческую модель авторегрессивно восстанавливать визуальную семантику и траектории внимания учителя до генерации текста, используя механизм кумулятивного сенсорного гейтирования для предотвращения поиска кратчайших путей обучения. Многочисленные эксперименты показывают, что LaViT значительно улучшает визуальную обоснованность, демонстрируя прирост до +16,9% в сложных задачах рассуждения и позволяя компактной модели на 3 млрд параметров превзойти более крупные открытые варианты, а также проприетарные модели, такие как GPT-4o.
Мощные 3D-представления, такие как инвариантные карты точек DUSt3R, кодирующие трехмерную форму и параметры камеры, значительно продвинули прямое 3D-реконструирование. Хотя карты точек предполагают статичные сцены, Динамические Карты Точек (DPM) расширяют эту концепцию на динамический 3D-контент, дополнительно представляя движение сцены. Однако существующие DPM ограничены парами изображений и, как и DUSt3R, требуют последующей обработки методом оптимизации, когда задействовано более двух ракурсов. Мы полагаем, что DPM более полезны при применении к видео, и представляем V-DPM для демонстрации этого. Во-первых, мы показываем, как сформулировать DPM для видео-ввода таким образом, чтобы максимизировать выразительную способность, облегчить нейронное предсказание и обеспечить повторное использование предварительно обученных моделей. Во-вторых, мы реализуем эти идеи на основе VGGT — современного и мощного 3D-реконструктора. Хотя VGGT обучалась на статичных сценах, мы показываем, что умеренного количества синтетических данных достаточно, чтобы адаптировать её в эффективный предсказатель V-DPM. Наш подход достигает передовых результатов в 3D- и 4D-реконструкции динамических сцен. В частности, в отличие от недавних динамических расширений VGGT, таких как P3, DPM восстанавливают не только динамическую глубину, но и полное 3D-движение каждой точки сцены.
Повышение способностей к логическому выводу у больших языковых моделей (LLM) остается актуальной темой исследований в последнее время. Однако большинство соответствующих работ основаны на вознаграждениях за результат на уровне траектории, упуская детальный контроль в процессе рассуждений. Другие существующие框架 обучения, пытающиеся объединить сигналы процесса для оптимизации LLM, также сильно зависят от трудоемких дополнительных шагов, таких как MCTS, обучение отдельной модели вознаграждения и т.д., что снижает эффективность обучения. Более того, интуиция, стоящая за дизайном сигналов процесса, не имеет строгого теоретического обоснования, оставляя понимание механизма оптимизации неясным. В данной статье мы предлагаем обучение с подкреплением на основе процесса (Process Reward Learning, PRL), которое декомпозирует регуляризованный энтропией objective обучения с подкреплением на промежуточные шаги со строго определенными пошаговыми вознаграждениями. Отталкиваясь от теоретической мотивации, мы выводим формулировку PRL, которая по сути эквивалентна максимизации вознаграждения плюс штрафной член KL-дивергенции между политикой и референсной моделью. При этом PRL позволяет преобразовать вознаграждение за результат в сигналы пошагового контроля, что способствует лучшему управлению исследованием в процессе RL-оптимизации. Результаты наших экспериментов демонстрируют, что PRL не только улучшает среднюю производительность LLM в логическом выводе (измеряемую по метрике average@n), но и расширяет границы рассуждений, улучшая показатель pass@n. Многочисленные эксперименты подтверждают эффективность и обобщаемость подхода PRL.
Несмотря на значительный прогресс в области 4D-генерации, риггинга и анимации, ключевые структурные и динамические компоненты анимации обычно моделируются как отдельные задачи. Существующие пайплайны полагаются на готовые скелеты и веса скиннинга для генерации движения и рассматривают авто-риггинг как независимый процесс, что снижает масштабируемость и интерпретируемость. Мы представляем RigMo — унифицированную генеративную框架, которая совместно обучается риггингу и анимации непосредственно на последовательностях необработанных мешей, без каких-либо аннотаций рига, предоставленных человеком. RigMo кодирует деформации на вершину в два компактных латентных пространства: риг-пространство, которое декодируется в явные гауссовы кости и веса скиннинга, и пространство движения, которое генерирует зависящие от времени SE(3) преобразования. Вместе эти выходные данные определяют анимируемый меш с явной структурой и согласованным движением, обеспечивая прямую вывод рига и анимации для деформируемых объектов. Помимо объединенного обнаружения рига и движения, мы представляем модель Motion-DiT, работающую в латентном пространстве RigMo, и демонстрируем, что эти структурно-осознанные латентные представления естественным образом поддерживают последующие задачи генерации движения. Эксперименты на DeformingThings4D, Objaverse-XL и TrueBones показывают, что RigMo обучается создавать гладкие, интерпретируемые и физически правдоподобные риги, одновременно достигая превосходной реконструкции и обобщения на уровне категорий по сравнению с существующими базовыми методами авто-риггинга и деформации. RigMo устанавливает новую парадигму для унифицированного, структурно-осознанного и масштабируемого динамического 3D-моделирования.
Агенты, основанные на отыгрыше ролей (RP), полагаются на поведенческие профили для последовательных действий в различных нарративных контекстах. Однако существующие профили в основном неструктурированы, неисполняемы и слабо верифицированы, что приводит к хрупкому поведению агентов. Мы предлагаем Кодифицированные Деревья Решений (КДР) — основанный на данных фреймворк, который извлекает исполняемую и интерпретируемую структуру решений из масштабных нарративных данных. КДР представляет поведенческие профили в виде дерева условных правил, где внутренние узлы соответствуют проверенным условиям сцены, а листья кодируют обоснованные поведенческие утверждения, что позволяет детерминированно извлекать контекстно-релевантные правила во время исполнения. Дерево обучается путем итеративного выявления кандидатов в виде правил «сцена-действие», их проверки на данных и уточнения посредством иерархической специализации, в результате чего создаются профили, поддерживающие прозрачный анализ и принципиальные обновления. На множестве бенчмарков КДР значительно превосходит профили, написанные человеком, и предыдущие методы индукции профилей для 85 персонажей из 16 артефактов, что указывает на то, что кодифицированные и верифицированные поведенческие репрезентации приводят к более надежному обоснованию агентов.
Преобразование клинических текстовых запросов в SQL в реальных условиях требует анализа разнородных таблиц электронных медицинских карт, временных окон и когорт пациентов по схожести для генерации исполняемых запросов. Мы представляем CLINSQL — эталонный набор из 633 экспертно-размеченных задач на основе MIMIC-IV v3.1, требующий многотабличных соединений, клинически значимых фильтров и работоспособного SQL. Решение CLINSQL предполагает навигацию по метаданным схемы и клиническим системам кодирования, обработку длинных контекстов и построение многошаговых запросов, выходящих за рамки традиционного text-to-SQL. Мы оцениваем 22 проприетарные и открытые модели с использованием саморефлексии по методу цепочки мыслей, применяя рубричный анализ SQL с проверкой исполнения, ориентированный на ключевые клинические требования. Несмотря на последние достижения, производительность остается далекой от клинической надежности: на тестовой выборке GPT-5-mini достигает 74.7% по исполнению, DeepSeek-R1 лидирует среди открытых моделей с 69.2%, а Gemini-2.5-Pro снижает результат с 85.5% на простых задачах до 67.2% на сложных. Успехи в решении CLINSQL означают ощутимый прогресс в создании клинически надежных систем text-to-SQL для анализа реальных электронных медицинских карт.
Появление фреймворков для ИИ-агентов привело к возникновению навыков агентов — модульных пакетов, содержащих инструкции и исполняемый код, которые динамически расширяют возможности агента. Хотя такая архитектура обеспечивает мощную настройку, навыки выполняются с неявным доверием и минимальной проверкой, создавая значительную, но не охарактеризованную поверхность для атак. Мы проводим первое крупномасштабное эмпирическое исследование безопасности этой развивающейся экосистемы, собрав 42 447 навыков с двух крупных маркетплейсов и систематически проанализировав 31 132 из них с помощью SkillScan — многоэтапной системы обнаружения, интегрирующей статический анализ с семантической классификацией на основе больших языковых моделей (LLM). Наши результаты выявляют повсеместные риски безопасности: 26,1% навыков содержат по крайней мере одну уязвимость, охватывающую 14 различных шаблонов в четырёх категориях: инъекция в промпты, эксфильтрация данных, повышение привилегий и риски цепочки поставок. Наиболее распространены эксфильтрация данных (13,3%) и повышение привилегий (11,8%), в то время как 5,2% навыков демонстрируют шаблоны высокой степени серьёзности, что с высокой вероятностью указывает на злонамеренный умысел. Мы обнаружили, что навыки, включающие исполняемые скрипты, в 2,12 раза чаще содержат уязвимости, чем навыки, состоящие только из инструкций (OR=2,12, p<0,001). Наш вклад включает: (1) обоснованную таксономию уязвимостей, выведенную из анализа 8 126 уязвимых навыков; (2) проверенную методику обнаружения с точностью 86,7% и полнотой 82,5%; и (3) открытый набор данных и инструментарий для обнаружения для поддержки будущих исследований. Эти результаты демонстрируют насущную необходимость во внедрении систем разрешений на основе возможностей и обязательной проверки безопасности до того, как данный вектор атак будет шире использован злоумышленниками.
Данное исследование посвящено применению инженерии промптов для повышения эффективности больших языковых моделей (БЯМ), в частности GPT-4o-mini и gemini-1.5-flash, в задачах анализа тональности. В работе проводится оценка продвинутых методов промптинга, таких как few-shot обучение, chain-of-thought prompting и самоcогласованность, в сравнении с базовым подходом. Ключевые задачи включают классификацию тональности, аспектно-ориентированный анализ тональности и выявление тонких нюансов, таких как ирония. В исследовании подробно описываются теоретическая база, используемые наборы данных и методы, а также оценивается производительность БЯМ по таким метрикам, как точность, полнота, прецизионность и F1-мера. Результаты показывают, что продвинутые методы промптинга существенно улучшают анализ тональности, при этом подход few-shot демонстрирует наилучшие результаты для GPT-4o-mini, а метод chain-of-thought повышает точность обнаружения иронии в модели gemini-1.5-flash до 46%. Таким образом, хотя продвинутые методы промптинга в целом повышают производительность, тот факт, что few-shot промптинг наиболее эффективен для GPT-4o-mini, а chain-of-thought — для обнаружения иронии в gemini-1.5-flash, указывает на необходимость адаптации стратегий промптинга как к конкретной модели, так и к задаче. Это подчеркивает важность согласования дизайна промптов с архитектурой БЯМ и семантической сложностью решаемой задачи.
Обучение согласованности с возмущением признаков является широко используемой стратегией в полуавтоматической сегментации медицинских изображений. Однако многие существующие методы возмущения основываются на dropout и требуют тщательной ручной настройки коэффициента dropout, который представляет собой чувствительный гиперпараметр, часто сложный для оптимизации и способный привести к субоптимальной регуляризации. Для преодоления этого ограничения мы предлагаем VQ-Seg — первый подход, использующий векторное квантование (VQ) для дискретизации пространства признаков и внедряющий новый управляемый модуль квантованного возмущения (QPM), заменяющий dropout. Наш QPM возмущает дискретные представления путем перестановки пространственных расположений индексов кодовой книги, обеспечивая эффективную и управляемую регуляризацию. Для смягчения потенциальных потерь информации, вызванных квантованием, мы разработали двухветвевую архитектуру, в которой проквантованное пространство признаков используется совместно для задач реконструкции изображений и сегментации. Кроме того, мы вводим адаптер признаков после квантования (PFA) для включения guidance от фундаментальной модели (FM), восполняя потерянную при квантовании семантическую информацию высокого уровня. Дополнительно мы собрали масштабный набор данных по раку лёгких (LC), содержащий 828 КТ-снимков с разметкой центрального типа карциномы лёгкого. Многочисленные эксперименты на наборе LC и других публичных бенчмарках демонстрируют эффективность нашего метода, который превосходит современные подходы. Код доступен по адресу: https://github.com/script-Yang/VQ-Seg.
Искусственные интеллектуальные агенты уязвимы для атак внедрения промптов, при которых вредоносное содержание перехватывает управление поведением агента для кражи учетных данных или причинения финансового ущерба. Единственной известной надежной защитой является архитектурная изоляция, которая строго отделяет доверенное планирование задач от наблюдений за недоверенной средой. Однако применение этого подхода к агентам компьютерного взаимодействия (АКВ) — системам, автоматизирующим задачи путем просмотра экранов и выполнения действий — представляет фундаментальную проблему: современные агенты требуют непрерывного наблюдения за состоянием пользовательского интерфейса (UI) для определения каждого действия, что противоречит изоляции, необходимой для безопасности. Мы разрешаем это противоречие, демонстрируя, что рабочие процессы UI, будучи динамичными, структурно предсказуемы. Мы представляем однократное планирование для АКВ, при котором доверенный планировщик генерирует полный граф выполнения с условными ветвлениями до любого наблюдения потенциально вредоносного контента, обеспечивая доказуемые гарантии целостности потока управления против произвольных инъекций инструкций. Хотя эта архитектурная изоляция успешно предотвращает инъекции инструкций, мы показываем, что необходимы дополнительные меры для предотвращения атак перенаправления ветвей, которые манипулируют элементами UI для запуска непредусмотренных допустимых путей в плане. Мы оцениваем нашу разработку на OSWorld и сохраняем до 57% производительности передовых моделей, одновременно повышая производительность менее крупных открытых моделей до 19%, демонстрируя, что строгая безопасность и практическая полезность могут сосуществовать в АКВ.
Мы представляем WildRayZer — самоконтролируемый фреймворк для синтеза новых ракурсов в динамических сценах с движением как камеры, так и объектов. Динамическое содержание нарушает многовидовую согласованность, на которую опираются модели для статичных сцен, что приводит к эффекту ореола, артефактам геометрии и нестабильной оценке позы. WildRayZer решает эту проблему с помощью анализа методом синтеза: статичный рендерер, учитывающий только движение камеры, восстанавливает жесткую структуру сцены, а его остаточные сигналы выявляют нестационарные области. На основе этих остатков мы строим псевдомаски движения, дистиллируем оценщик движения и используем его для маскирования входных токенов и управления градиентами потерь, чтобы обучение фокусировалось на согласованном восстановлении фона между ракурсами. Для масштабного обучения и оценки мы создали Dynamic RealEstate10K (D-RE10K) — реалистичный датасет из 15 тыс. динамических последовательностей, снятых с рук, и D-RE10K-iPhone — парный бенчмарк с нестационарными объектами и очищенными сценами для оценки синтеза с учетом переходных процессов при малом количестве исходных видов. Эксперименты показывают, что WildRayZer стабильно превосходит оптимизационные и прямые базовые методы как по качеству удаления нестационарных объектов, так и по визуальному качеству полного кадра, выполняя всего один прямой проход.
Крупные языковые модели (LLM) часто демонстрируют диагональные паттерны внимания, при которых оценки внимания концентрируются вдоль Δ-й субдиагонали для некоторого смещения Δ. Эти паттерны играют ключевую роль в передаче информации между токенами. Но почему они возникают? В данной статье мы объясняем возникновение этих доминирующих диагональных голов внимания (SDH) как с эмпирической, так и с теоретической точек зрения. Во-первых, анализируя открытые LLM, мы обнаруживаем, что SDH являются внутренним свойством моделей и обобщаются на промпты извне распределения обучающих данных. Чтобы объяснить внутреннее возникновение SDH, мы анализируем запросы, ключи и ротационные позиционные эмбеддинги (RoPE), которые совместно определяют оценки внимания. Наш эмпирический анализ выявляет два характерных условия для SDH: (1) Запросы и ключи являются почти ранга один, и (2) RoPE доминируют средне- и высокочастотные компоненты. При этих условиях запросы и ключи практически идентичны для всех токенов, а взаимодействия между средне- и высокочастотными компонентами RoPE приводят к возникновению SDH. Помимо эмпирических данных, мы теоретически показываем, что этих условий достаточно для обеспечения появления SDH, формализуя их в качестве наших модельных предположений. В частности, мы анализируем динамику обучения неглубокого трансформера, оснащенного RoPE, при этих условиях и доказываем, что модели, обученные методом градиентного спуска, проявляют SDH. Эти SDH обобщаются на промпты извне распределения данных.
Крупные языковые модели (LLM) стали основой многих повседневных приложений. Однако по мере эволюции данных их знания быстро устаревают. Задача непрерывного обучения состоит в том, чтобы обновлять LLM новой информацией без стирания ранее приобретенных знаний. Хотя такие методы, как полное тонкое настройка, позволяют интегрировать новые данные, они требуют значительных вычислительных ресурсов и склонны к катастрофическому забыванию, при котором предыдущие знания перезаписываются. Подходы с дополненной памятью решают эту проблему, оснащая LLM банком памяти — внешним модулем памяти, который хранит информацию для будущего использования. Однако эти методы сталкиваются с серьезным ограничением: в реальных сценариях, когда поступают крупномасштабные потоки данных, размер банка памяти постоянно растет. В данной статье мы предлагаем модель MBC, которая сжимает банк памяти с помощью стратегии оптимизации кодбука в процессе онлайн-адаптивного обучения. Для обеспечения стабильности обучения мы также вводим механизм онлайн-сброса, предотвращающий коллапс кодбука. Кроме того, мы используем Key-Value Low-Rank Adaptation в слоях внимания LLM, что позволяет эффективно использовать сжатые представления памяти. Эксперименты на базовых наборах данных для вопроса-ответа показывают, что MBC сокращает размер банка памяти до 0,3% по сравнению с наиболее конкурентоспособным базовым методом, сохраняя при этом высокую точность удержания знаний в процессе онлайн-адаптивного обучения. Наш код общедоступен по адресу https://github.com/Thomkat/MBC.