Ежедневно отобранные исследовательские статьи по ИИ с переводами
Оптическое распознавание символов (OCR) эволюционировало от транскрипции на уровне строк к структурированному парсингу документов, что требует от моделей восстановления длинных последовательностей, содержащих разметку, таблицы и формулы. Несмотря на недавние успехи в области визуально-языковых моделей, большинство существующих систем полагаются на авторегрессионное декодирование, которое вносит последовательную задержку и усиливает распространение ошибок в длинных документах. В данной работе мы переосмысливаем задачу OCR документов с точки зрения обратного рендеринга, утверждая, что причинно-следственное генерация слева направо является артефактом сериализации, а не внутренним свойством задачи. Руководствуясь этим наблюдением, мы предлагаем MinerU-Diffusion, унифицированную диффузионную модель, которая заменяет авторегрессионное последовательное декодирование на параллельное диффузионное шумоподавление при визуальном условии. MinerU-Diffusion использует блочный диффузионный декодер и стратегию обучения по учебному плану, управляемую неопределенностью, чтобы обеспечить стабильное обучение и эффективный вывод длинных последовательностей. Многочисленные эксперименты демонстрируют, что MinerU-Diffusion последовательно повышает устойчивость, достигая до 3.2-кратного ускорения декодирования по сравнению с авторегрессионными аналогами. Оценки на предложенном бенчмарке Semantic Shuffle дополнительно подтверждают снижение зависимости от лингвистических априорных знаний и усиление визуальных возможностей OCR.
Теория динамических систем и обучение с подкреплением рассматривают эволюцию мира как динамику латентных состояний, управляемую действиями, где визуальные наблюдения предоставляют частичную информацию о состоянии. Современные видео-модели мира пытаются изучить эту обусловленную действиями динамику из данных. Однако существующие наборы данных редко соответствуют требованию: обычно им не хватает разнообразных и семантически значимых пространств действий, а действия напрямую связаны с визуальными наблюдениями, а не опосредованы лежащими в основе состояниями. В результате действия часто переплетаются с изменениями на пиксельном уровне, что затрудняет для моделей изучение структурированной динамики мира и поддержание согласованной эволюции на длительных горизонтах. В данной статье мы представляем WildWorld — крупномасштабный набор данных для моделирования мира с условиями по действиям, содержащий явные аннотации состояний, автоматически собранный из фотореалистичной AAA-игры в жанре action RPG (Monster Hunter: Wilds). WildWorld содержит более 108 миллионов кадров и включает более 450 действий, включая перемещение, атаки и применение навыков, вместе с синхронизированными покадровыми аннотациями скелетов персонажей, состояний мира, поз камеры и карт глубины. Мы также представляем WildBench для оценки моделей по критериям Следования Действиям и Выравнивания Состояний. Обширные эксперименты выявляют сохраняющиеся трудности в моделировании семантически насыщенных действий и поддержании согласованности состояний на длительных горизонтах, подчеркивая необходимость генерации видео с учетом состояния. Страница проекта: https://shandaai.github.io/wildworld-project/.
Агентные мультимодальные крупные языковые модели (MLLM) (например, OpenAI o3 и Gemini Agentic Vision) демонстрируют выдающиеся способности к рассуждениям за счёт итеративного вызова визуальных инструментов. Однако каскадные циклы восприятия, рассуждений и вызова инструментов создают значительные последовательные накладные расходы. Эти расходы, обозначаемые как *агентная глубина*, приводят к неприемлемой задержке и серьёзно ограничивают системную параллельность. Для решения этой проблемы мы предлагаем SpecEyes — фреймворк для спекулятивного ускорения на уровне агентов, который устраняет это последовательное узкое место. Ключевая идея заключается в том, что облегчённая MLLM, не использующая инструменты, может выступать в роли спекулятивного планировщика, предсказывающего траекторию выполнения, что позволяет досрочно завершать работу затратных цепочек инструментов без потери точности. Для регулирования этого спекулятивного планирования мы вводим когнитивный механизм управления на основе разделимости ответов, который количественно оценивает уверенность модели для самопроверки без необходимости в эталонных метках. Кроме того, мы разрабатываем гетерогенный параллельный конвейер, который использует несохраняющую состояние параллельность малой модели для маскировки сохраняющего состояние последовательного выполнения крупной модели, максимизируя пропускную способность системы. Многочисленные эксперименты на V* Bench, HR-Bench и POPE показывают, что SpecEyes обеспечивает ускорение в 1.1–3.35 раза по сравнению с агентным базовым уровнем, сохраняя или даже улучшая точность (до +6.7%), тем самым повышая пропускную способность системы при параллельных рабочих нагрузках.
Системы на основе больших языковых моделей (LLM) становятся все более популярными для решения задач путем построения исполняемых рабочих процессов, которые чередуют вызовы LLM, информационный поиск, использование инструментов, выполнение кода, обновление памяти и верификацию. В данном обзоре рассматриваются современные методы проектирования и оптимизации таких рабочих процессов, которые мы трактуем как агентные вычислительные графы (ACGs). Мы систематизируем литературу на основе того, когда определяется структура рабочего процесса, где под структурой понимается то, какие компоненты или агенты присутствуют, как они зависят друг от друга и как информация передается между ними. Такой подход позволяет различать статические методы, которые фиксируют каркас многократно используемого рабочего процесса до развертывания, и динамические методы, которые выбирают, генерируют или изменяют рабочий процесс для конкретного запуска до или во время выполнения. Мы далее классифицируем предыдущие работы по трем измерениям: когда определяется структура, какая часть рабочего процесса оптимизируется и какие оценочные сигналы направляют оптимизацию (например, метрики задач, сигналы верификаторов, предпочтения или обратная связь на основе трассировки). Мы также различаем шаблоны многократно используемых рабочих процессов, реализованные графы для конкретного запуска и трассы выполнения, отделяя многократно используемые проектные решения от структур, фактически развернутых в данном запуске, и от реализованного поведения во время выполнения. Наконец, мы описываем перспективу оценки с учетом структуры, которая дополняет метрики последующих задач такими свойствами, как характеристики графа, стоимость выполнения, устойчивость и структурная вариативность для разных входных данных. Наша цель — предоставить четкую терминологию, унифицированную основу для позиционирования новых методов, более сопоставимый взгляд на существующий корпус литературы и более воспроизводимый стандарт оценки для будущих работ по оптимизации рабочих процессов для LLM-агентов.
Познание человеком новых концепций по своей природе является потоковым процессом: мы непрерывно распознаем новые объекты или идентичности и со временем обновляем наши воспоминания. Однако современные методы мультимодальной персонализации в основном ограничены статичными изображениями или офлайн-видео. Это разрывает связь между непрерывным визуальным входом и мгновенной обратной связью из реального мира, ограничивая их способность обеспечивать персонализированные реакции в реальном времени, необходимые для будущих ИИ-ассистентов. Чтобы устранить этот разрыв, мы впервые предлагаем и формально определяем новую задачу персонализированного потокового понимания видео (PSVU). Для содействия исследованиям в этом новом направлении мы представляем PEARL-Bench — первый комплексный бенчмарк, специально разработанный для оценки этой сложной задачи. Он оценивает способность модели реагировать на персонализированные концепции в точные временные метки в двух режимах: (1) покадровом, фокусирующемся на конкретном человеке или объекте в дискретных кадрах, и (2) новом видеорежиме, фокусирующемся на персонализированных действиях, разворачивающихся в непрерывных кадрах. PEARL-Bench включает 132 уникальных видео и 2173 детальных аннотации с точными временными метками. Разнообразие концепций и качество аннотаций строго обеспечиваются за счет комбинированного пайплайна автоматической генерации и человеческой проверки. Для решения этой сложной новой задачи мы дополнительно предлагаем PEARL — подключаемую стратегию, не требующую обучения, которая служит сильным базовым уровнем. Обширные оценки восьми офлайн- и онлайн-моделей демонстрируют, что PEARL достигает наилучшей производительности. Примечательно, что она обеспечивает последовательное улучшение PSVU при применении к трем различным архитектурам, доказывая свою высокую эффективность и надежность. Мы надеемся, что эта работа продвинет персонализацию моделей «визуальный язык» (VLM) и вдохновит на дальнейшие исследования в области потоковых персонализированных ИИ-ассистентов. Код доступен по адресу https://github.com/Yuanhong-Zheng/PEARL.
Модели оптического потока, обученные на высококачественных данных, часто демонстрируют значительное ухудшение производительности при столкновении с реальными искажениями, такими как размытие, шум и артефакты сжатия. Чтобы преодолеть это ограничение, мы формулируем новую задачу — определение оптического потока с учетом деградации, направленную на точную оценку плотных соответствий в видео с реальными искажениями. Наше ключевое наблюдение заключается в том, что промежуточные представления диффузионных моделей восстановления изображений по своей природе учитывают искажения, но им не хватает временной осведомленности. Чтобы устранить этот недостаток, мы расширяем модель, обеспечивая ее способность учитывать соседние кадры с помощью полного пространственно-временного внимания, и эмпирически демонстрируем, что полученные признаки обладают возможностями определения соответствий "с нуля". Основываясь на этом открытии, мы представляем DA-Flow — гибридную архитектуру, которая объединяет эти диффузионные признаки со сверточными признаками в рамках итеративной схемы уточнения. DA-Flow значительно превосходит существующие методы оптического потока в условиях сильной деградации в нескольких тестовых наборах.
Высококачественные сочлененные 3D-ассеты являются незаменимыми для воплощенного ИИ и физического моделирования, однако генерация 3D по-прежнему сосредоточена на статических сетках, оставляя пробел в интерактивных объектах, готовых к симуляции. Большинство современных методов создания сочлененных объектов опираются на многоэтапные конвейеры, в которых ошибки накапливаются в развязанных модулях. В качестве альтернативы унифицированные MLLM предлагают одноэтапный путь к совместному пониманию статических ассетов и генерации ассетов, готовых к симуляции. Однако плотная воксельная 3D-токенизация порождает длинные последовательности 3D-токенов и высокие накладные расходы памяти, ограничивая масштабируемость для сложных сочлененных объектов. Для решения этой проблемы мы предлагаем SIMART, унифицированную MLLM-структуру, которая совместно выполняет декомпозицию на уровне частей и кинематическое прогнозирование. Благодаря внедрению разреженного 3D VQ-VAE, SIMART сокращает количество токенов на 70% по сравнению с плотными воксельными токенами, обеспечивая создание многокомпонентных сборок высокой точности. SIMART демонстрирует наилучшую производительность на наборах данных PartNet-Mobility и AIGC из реального мира и позволяет проводить физически корректную роботизированную симуляцию.
Унифицированные модели, способные к чередующейся генерации, стали перспективной парадигмой, при этом научное сообщество всё чаще конвергирует к авторегрессионному моделированию для текста и сопоставлению потоков (flow matching) для генерации изображений. Для развития этого направления мы предлагаем унифицированную архитектуру обучения с подкреплением, специально разработанную для чередующейся генерации. Мы проверяем наш подход на его фундаментальном элементе: одном цикле генерации изображения на основе рассуждений, в котором модель сначала расширяет пользовательский промпт путём логического вывода, а затем синтезирует изображение. Формулируя этот мультимодальный процесс генерации как марковский процесс принятия решений с разреженными терминальными наградами, мы представляем UniGRPO для совместной оптимизации политик генерации текста и изображений с использованием GRPO. Придерживаясь минималистичной методологии, чтобы избежать избыточного усложнения, мы используем устоявшиеся методики обучения для обеих модальностей, бесшовно интегрируя стандартный GRPO для логического вывода и FlowGRPO для визуального синтеза. Чтобы обеспечить масштабируемость для многоцикловой чередующейся генерации, мы вносим две ключевые модификации в оригинальный FlowGRPO: (1) отказ от генерации без классификатора для сохранения линейных, неразветвлённых траекторий, что необходимо для масштабирования в сложных сценариях, включающих многоходовое взаимодействие и генерацию по множественным условиям (например, редактирование); и (2) замену стандартного латентного KL-штрафа на MSE-штраф, применяемый непосредственно к полям скоростей, что обеспечивает более устойчивый и прямой сигнал регуляризации для эффективного подавления эксплуатации наград. Наши эксперименты демонстрируют, что данный унифицированный подход к обучению существенно повышает качество генерации изображений за счёт логического вывода, предоставляя надёжный и масштабируемый базис для последующего обучения полностью чередующихся моделей.
Современные модели генерации видео демонстрируют впечатляющий фотореализм, но им не хватает точного контроля, необходимого для соответствия генерируемого контента конкретным требованиям сцены. Более того, без наличия явной лежащей в основе геометрии эти модели не могут гарантировать 3D-консистентность. С другой стороны, 3D-движки обеспечивают детальный контроль над каждым элементом сцены и по своей природе предоставляют нативную 3D-консистентность, однако их вывод часто остается в ловушке "зловещей долины". Преодоление этого разрыва между синтетическим и реальным миром требует как структурной точности, при которой вывод должен в точности сохранять геометрию и динамику входных данных, так и глобальной семантической трансформации, при которой материалы, освещение и текстуры должны быть целостно преобразованы для достижения фотореализма. Мы представляем RealMaster — метод, который использует модели диффузии видео для преобразования рендеренного видео в фотореалистичное видео при полном сохранении соответствия выходным данным 3D-движка. Для обучения этой модели мы генерируем парный набор данных с помощью стратегии распространения на основе якорей, при которой первый и последний кадры улучшаются для реалистичности и распространяются на промежуточные кадры с использованием геометрических условий. Затем мы обучаем IC-LoRA на этих парных видео, чтобы перенести качественные результаты пайплайна в модель, которая обобщается за рамки ограничений пайплайна, обрабатывает объекты и персонажи, появляющиеся в середине последовательности, и позволяет проводить вывод без необходимости в якорных кадрах. При оценке на сложных последовательностях из GTA-V, RealMaster значительно превосходит существующие базовые методы редактирования видео, улучшая фотореализм при сохранении геометрии, динамики и идентичности, заданных исходным 3D-контролем.
Метод Pose-free feed-forward 3D Gaussian Splatting (3DGS) открыл новое направление для быстрого 3D-моделирования, позволяя генерировать высококачественные гауссовы представления по неоткалиброванным многовидовым изображениям за один прямой проход. Доминирующий подход в этой области использует унифицированные монолитные архитектуры, часто построенные на геометрически-ориентированных 3D-фундаментальных моделях, для совместного оценивания поз камер и синтеза 3DGS-представлений в рамках единой сети. Несмотря на архитектурную простоту, такие «все-в-одном» конструкции могут быть неоптимальными для генерации высокоточной 3DGS, поскольку они переплетают геометрические рассуждения и моделирование внешнего вида в рамках общего представления. В данной работе мы представляем 2Xplat — фреймворк pose-free feed-forward 3DGS, основанный на схеме с двумя экспертами, которая явно разделяет оценивание геометрии и генерацию гауссовых представлений. Специализированный эксперт по геометрии сначала предсказывает позы камер, которые затем явно передаются мощному эксперту по внешнему виду, синтезирующему 3D-гауссовы объекты. Несмотря на концептуальную простоту, которая ранее практически не исследовалась, предложенный подход демонстрирует высокую эффективность. Менее чем за 5 тысяч итераций обучения предложенный конвейер с двумя экспертами существенно превосходит предыдущие подходы pose-free feed-forward 3DGS и достигает производительности на уровне современных методов с известными позами. Эти результаты ставят под сомнение преобладающую унифицированную парадигму и указывают на потенциальные преимущества модульных принципов проектирования для сложных задач геометрического оценивания и синтеза внешнего вида.
Мультимодальное рассуждение по цепочке мыслей (CoT) требует от больших визуально-языковых моделей построения траекторий рассуждений, которые чередуют перцептивное обоснование с многошаговым выводом. Однако существующие методы обучения с подкреплением с верифицируемыми вознаграждениями (RLVR) обычно оптимизируют рассуждения на грубом уровне гранулярности, трактуя CoT единообразно без различения их varying degrees визуального обоснования. В данной работе мы проводим покомпонентный анализ мультимодальных траекторий рассуждений и показываем, что успешное рассуждение характеризуется структурированной динамикой компонентов, отражающей как перцептивное обоснование, так и исследовательский вывод. Основываясь на этом анализе, мы предлагаем Оптимизацию политики восприятия-исследования (PEPO), которая извлекает априорное распределение восприятия из сходства скрытых состояний и интегрирует его с энтропией компонентов через гладкий механизм стробирования для получения покомпонентных преимуществ. PEPO бесшовно интегрируется с существующими RLVR-фреймворками, такими как GRPO и DAPO, не требуя ни дополнительного контроля, ни вспомогательных ветвей. Многочисленные эксперименты на разнообразных мультимодальных бенчмарках демонстрируют последовательное и устойчивое улучшение по сравнению с сильными RL-базисами, охватывая геометрические рассуждения, визуальное обоснование, решение визуальных головоломок и few-shot классификацию, при сохранении стабильной динамики обучения. Код: https://github.com/xzxxntxdy/PEPO
Мультимодальные большие языковые модели (MБЯМ) достигли прогресса в области универсального понимания видео, но сталкиваются с трудностями при работе с длинными видео высокого разрешения — они обрабатывают каждый пиксель одинаково в своих визуальных трансформерах (ViT) или ЯМ, несмотря на значительную пространственно-временную избыточность. Мы представляем AutoGaze, легковесный модуль, который удаляет избыточные патчи до их обработки ViT или МБЯМ. Обученный с помощью предсказания следующего токена и обучения с подкреплением, AutoGaze авторегрессивно выбирает минимальный набор много масштабных патчей, способных восстановить видео в рамках заданного пользователем порога ошибки, устраняя избыточность при сохранении информации. Экспериментально AutoGaze сокращает количество визуальных токенов в 4–100 раз и ускоряет работу ViT и МБЯМ до 19 раз, позволяя масштабировать МБЯМ для работы с видео длиной до 1000 кадров в разрешении 4K и демонстрируя превосходные результаты на видео-бенчмарках (например, 67.0% на VideoMME). Кроме того, мы представляем HLVid: первый бенчмарк вопросов и ответов для длинных видео высокого разрешения с 5-минутными видео в 4K, где МБЯМ, масштабированная с помощью AutoGaze, улучшает результат базового уровня на 10.1% и превосходит предыдущую лучшую МБЯМ на 4.5%. Страница проекта: https://autogaze.github.io/.
Модели «Vision-Language-Action» (VLA) обычно преобразуют визуальные наблюдения и языковые инструкции напрямую в сигналы управления роботом. Такое «чернокобоксичное» отображение заставляет единый прямой проход одновременно выполнять интерпретацию инструкций, пространственную привязку и низкоуровневое управление, что часто приводит к низкой пространственной точности и ограниченной устойчивости в сценариях, выходящих за пределы распределения обучающих данных. Для преодоления этих ограничений мы предлагаем VP-VLA — двухсистемную архитектуру, которая разделяет высокоуровневые рассуждения и низкоуровневое исполнение с помощью структурированного интерфейса визуальных подсказок. А именно, «Планировщик Системы 2» декомпозирует сложные инструкции на подзадачи и идентифицирует соответствующие целевые объекты и местоположения целей. Эти пространственные якоря затем накладываются непосредственно на визуальные наблюдения в виде структурированных визуальных подсказок, таких как прицельные маркеры и ограничивающие рамки. Руководствуясь этими подсказками и усиливаясь за счет новой вспомогательной задачи визуального заземления в процессе обучения, «Контроллер Системы 1» надежно генерирует точные низкоуровневые исполнительные движения. Эксперименты на бенчмарке Robocasa-GR1-Tabletop и в симуляции SimplerEnv демонстрируют, что VP-VLA повышает процент успешного выполнения на 5% и 8.3%, превосходя конкурентоспособные базовые методы, включая QwenOFT и GR00T-N1.6.
Последние достижения в области латентных моделей мира (например, V-JEPA2) продемонстрировали значительный потенциал в прогнозировании будущих состояний мира на основе видеонаблюдений. Тем не менее, плотное предсказание из короткого окна наблюдения ограничивает временной контекст и может смещать предсказания в сторону локальной, низкоуровневой экстраполяции, что затрудняет capture долгосрочной семантики и снижает полезность для последующих задач. Модели "зрение–язык" (VLMs), напротив, обеспечивают сильную семантическую обоснованность и общие знания за счет рассуждений по равномерно сэмплированным кадрам, но они не идеальны в качестве самостоятельных плотных предсказателей из-за разреженной выборки, обусловленной вычислительными затратами, узкого места в виде языкового вывода, которое сжимает состояния тонкого взаимодействия в ориентированные на текст представления, и несоответствия режима данных при адаптации к малым наборам данных с условиями действий. Мы предлагаем фреймворк латентного моделирования мира в стиле JEPA с управлением от VLM, который сочетает моделирование динамики плотных кадров с долгосрочным семантическим руководством через двухвременной путь: плотную ветвь JEPA для тонких сигналов движения и взаимодействия и равномерно сэмплированную "мыслящую" ветвь VLM с большим временным шагом для насыщенного знаниями руководства. Для эффективной передачи прогрессирующих сигналов рассуждения VLM мы вводим модуль извлечения иерархических пирамидальных представлений, который агрегирует многоуровневые представления VLM в признаки руководства, совместимые с латентным предсказанием. Эксперименты по прогнозированию траекторий манипуляций руками показывают, что наш метод превосходит как сильный базовый уровень только на VLM, так и базовый уровень на основе JEPA-предсказателя, и обеспечивает более устойчивое поведение при долгосрочном прогоне.
Систематические обзоры литературы играют ключевую роль в синтезе научных данных, однако они требуют значительных затрат, сложно масштабируются и отнимают много времени, создавая узкие места для формирования политики, основанной на доказательствах. Мы исследуем, способны ли большие языковые модели автоматизировать полный рабочий процесс систематического обзора — от поиска статей, их отбора и извлечения данных до синтеза отчета. Примененная к эпидемиологическим обзорам девяти приоритетных патогенов, обозначенных ВОЗ, и проверенная по экспертным эталонным данным, наша агентская система с открытым исходным кодом (AgentSLR) демонстрирует результаты, сопоставимые с результатами работы исследователей-людей, при этом сокращая время проведения обзора примерно с 7 недель до 20 часов (ускорение в 58 раз). Наше сравнение пяти передовых моделей показывает, что эффективность в задачах систематического обзора в меньшей степени зависит от размера модели или стоимости вывода, чем от ее уникальных возможностей. С помощью валидации с участием человека мы выявляем основные типы ошибок. Наши результаты демонстрируют, что агентский искусственный интеллект может существенно ускорить синтез научных доказательств в узкоспециализированных областях.
Активное компьютерное зрение обещает эффективное, биологически правдоподобное восприятие за счет последовательных локализованных "взглядов", но ему не хватает масштабируемых архитектур общего назначения и конвейеров предварительного обучения. В результате, фундаментальные модели активного зрения оставались неисследованными. Мы представляем CanViT — первую AVFM, не зависящую от конкретной задачи и политики обзора. CanViT использует позиционное кодирование, зависящее от сцены, для связывания ретинотопического бэкбона на основе Vision Transformer и сционотопического латентного рабочего пространства на всю сцену, называемого "холстом". Эффективное взаимодействие с этой высокопроизводительной рабочей памятью обеспечивается Canvas Attention — новым асимметричным механизмом перекрестного внимания. Мы разделяем "мышление" (уровень бэкбона) и "память" (уровень холста), устраняя самовнимание и полносвязные слои на стороне холста для достижения последовательного вывода с низкой задержкой и масштабируемости до больших сцен. Мы предлагаем схему предварительного обучения активному зрению без использования меток — агенто-независимую латентную дистилляцию от пассивного к активному: восстановление DINOv3-эмбеддингов на всю сцену из последовательностей низкоразрешающих "взглядов" со случайными локациями, уровнями масштабирования и длинами. Мы предварительно обучаем CanViT-B со случайной инициализации на 13.2 миллионах сцен ImageNet-21k — на порядок больше, чем предыдущие активные модели — и 1 миллиарде случайных "взглядов", за 166 часов на одном H100. На сегментации ADE20K замороженный CanViT-B достигает 38.5% mIoU за один низкоразрешающий "взгляд", превосходя результат лучшей активной модели (27.6%) при в 19.5 раз меньших FLOPs на выводе и без тонкой настройки, а также своего учителя DINOv3 при сопоставимых FLOPs или входных данных. При добавлении "взглядов" CanViT-B достигает 45.9% mIoU на ADE20K. На классификации ImageNet-1k CanViT-B достигает 81.2% точности top-1 с замороженными пробами учителя. CanViT обобщается на более длинные последовательности, большие сцены и новые политики обзора. Наша работа закрывает большой разрыв между пассивным и активным зрением в семантической сегментации и демонстрирует потенциал AVFM как нового направления исследований.
Точное предсказание вторичной структуры РНК лежит в основе аннотации транскриптома, механистического анализа некодирующих РНК и разработки РНК-терапевтических средств. Недавние достижения, основанные на глубоком обучении и фреймворковых моделях РНК, сложно интерпретировать, поскольку существующие бенчмарки могут переоценивать способность к обобщению данных между различными семействами РНК. Мы представляем Комплексную иерархическую аннотацию групп некодирующих РНК (CHANRG) — бенчмарк, содержащий 170 083 структурно нередунантных РНК, отобранных из более чем 10 миллионов последовательностей базы данных Rfam 15.0 с использованием структурной дедупликации, геномно-ориентированного разделения данных и многоуровневой структурной оценки. Среди 29 алгоритмов предсказания методы на основе фреймворковых моделей показали наивысшую точность на тестовой выборке, но утратили большую часть этого преимущества на данных за пределами распределения, в то время как структурированные декодеры и прямые нейросетевые предикторы сохранили значительно более высокую робастность. Этот разрыв сохранялся после контроля длины последовательности и отражал как потерю структурного охвата, так и некорректное предсказание третичных взаимодействий. В совокупности CHANRG и оценочный стек, свободный от дополнения (padding-free) и учитывающий симметрию, обеспечивают более строгую и инвариантную к размеру батча основу для разработки предсказателей структуры РНК с демонстрируемой робастностью к данным за пределами распределения обучения.
Генерация изображений на основе объектов всё чаще предполагает возможность тонкого управления несколькими сущностями в рамках одного изображения. В рабочих процессах с множественными референсами пользователи могут предоставлять несколько изображений объектов, референс фона и длинные промпты с индексацией по сущностям для управления несколькими людьми в одной сцене. В этом сценарии ключевым типом ошибок является ошибочное присвоение атрибутов между объектами: атрибуты сохраняются, редактируются или переносятся на неправильный объект. Существующие бенчмарки и метрики в основном делают акцент на целостной точности или самоподобии отдельных объектов, что затрудняет диагностику таких ошибок. Мы представляем MultiBind — бенчмарк, созданный на основе реальных фотографий с несколькими людьми. Каждый экземпляр предоставляет обрезанные изображения объектов с масками и ограничивающими рамками в порядке слотов, канонизированные референсы объектов, инпаинтеный референс фона и плотный промпт с индексацией по сущностям, полученный из структурированных аннотаций. Мы также предлагаем протокол оценки по размерностям с перепутыванием, который сопоставляет сгенерированные объекты с истинными слотами и измеряет межслотовое сходство с использованием специализированных моделей для идентификации лиц, внешности, позы и эмоций. Вычитая соответствующие матрицы сходства для исходных данных, наш метод отделяет самоухудшение качества от истинной интерференции между объектами и выявляет интерпретируемые паттерны ошибок, такие как дрейф, обмен, доминирование и смешение. Эксперименты с современными генераторами для множественных референсов показывают, что MultiBind выявляет ошибки связывания, которые остаются незамеченными при использовании традиционных метрик реконструкции.
Модели видео-действий (VAM) стали перспективной основой для воплощенного интеллекта, обучаясь неявной динамике мира из необработанных видеопотоков для генерации временно согласованных прогнозов действий. Хотя такие модели демонстрируют высокую производительность в задачах с длительным горизонтом планирования благодаря визуальному анализу, они остаются ограниченными в сценариях с интенсивными контактами, где критические состояния взаимодействия лишь частично наблюдаемы только на основе зрения. В частности, тонкая модуляция усилий и переходы контакта ненадежно кодируются в визуальных токенах, что приводит к нестабильному или неточному поведению. Для преодоления этого разрыва мы представляем Видео-Тактильную Модель Действий (VTAM) — мультимодальную框架 моделирования мира, которая интегрирует тактильное восприятие в качестве дополнительного опорного сигнала. VTAM дополняет предварительно обученный видео-трансформер тактильными потоками посредством легкой трансферной дообучки модальностей, обеспечивая эффективное кросс-модальное обучение представлениям без парных тактильно-языковых данных или независимого тактильного предварительного обучения. Для стабилизации мультимодального слияния мы вводим тактильный регуляризационный штраф, который обеспечивает сбалансированное кросс-модальное внимание, предотвращая доминирование визуальных латентных переменных в модели действий. VTAM демонстрирует превосходную производительность в манипуляциях с интенсивными контактами, сохраняя надежный уровень успеха в среднем 90 процентов. В сложных сценариях, таких как захват и перемещение картофельных чипсов, требующих высокоточной осведомленности о усилиях, VTAM превосходит базовый уровень π 0.5 на 80 процентов. Наши результаты показывают, что интеграция тактильной обратной связи необходима для коррекции ошибок визуальной оценки в моделях действий мира, предлагая масштабируемый подход к физически обоснованным базовым моделям воплощенного интеллекта.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) значительно улучшило способность к рассуждениям у больших языковых моделей (LLM), однако токен-уровневые механизмы, лежащие в основе этих улучшений, остаются неясными. Мы представляем систематическое эмпирическое исследование распределительных эффектов RLVR, организованное вокруг трех основных анализов: (1) токен-уровневая характеристика распределительных сдвигов между базовой и RL-моделями, (2) влияние токен-уровневых распределительных сдвигов на производительность рассуждений на уровне последовательности с помощью кросс-сэмплинговых интервенций и (3) детальная механика этих сдвигов на токен-уровне. Мы обнаруживаем, что RL-дообучение вызывает высоко разреженные и целенаправленные изменения, при этом лишь небольшая доля распределений токенов демонстрирует значимое расхождение между базовой и RL-политиками. Мы дополнительно характеризуем структуру и эволюцию этих сдвигов с помощью анализа энтропии токенов, позиционной концентрации и перераспределения вероятностной массы. Для оценки функциональной важности этих разреженных изменений мы проводим кросс-сэмплинговые эксперименты, которые выборочно заменяют выбор токенов между базовой и RL-моделями с различными бюджетами вмешательства. Мы показываем, что вставка лишь небольшой доли токенов, сэмплированных RL-моделью, в генерации базовой модели постепенно восстанавливает gains производительности RL, в то время как внедрение аналогично малого числа выборов токенов базовой модели в иначе сгенерированные RL-последовательности снижает производительность до базового уровня, изолируя небольшой набор токен-уровневых решений, непосредственно ответственных за улучшения производительности RLVR. Наконец, мы исследуем взвешенные по расхождению варианты сигнала преимущества в качестве диагностической интервенции, обнаруживая, что они могут приводить к улучшениям по сравнению с базовыми уровнями. В совокупности наши результаты проливают свет на распределительные изменения, индуцированные RLVR, и предоставляют детальный, токен-уровневый взгляд на понимание RLVR-дообучения как целенаправленного процесса refinement.
Предсказание будущего движения является ключевой задачей в понимании видео и управляемой генерации видеоконтента. Плотные точечные траектории представляют собой компактное и выразительное представление движения, однако моделирование их будущей эволюции на основе наблюдаемого видео остается сложной проблемой. Мы предлагаем фреймворк, который предсказывает будущие траектории и видимость точек на основе прошлых траекторий и контекста видео. Наш метод состоит из трех компонентов: (1) Кодирование смещений от сетки-якоря, которое уменьшает зависимую от местоположения погрешность, представляя каждую точку как смещение от ее якоря в центре пикселя; (2) TrajLoom-VAE, который изучает компактное пространственно-временное латентное пространство для плотных траекторий с использованием маскированного восстановления и регуляризатора пространственно-временной согласованности; и (3) TrajLoom-Flow, который генерирует будущие траектории в латентном пространстве с помощью сопоставления потоков, используя граничные сигналы и тонкую настройку за K шагов в режиме политики для стабильной выборки. Мы также представляем TrajLoomBench — унифицированный бенчмарк, охватыющий реальные и синтетические видео со стандартизированной настройкой, согласованной с бенчмарками генерации видео. По сравнению с современными методами наш подход увеличивает горизонт предсказания с 24 до 81 кадра, одновременно улучшая реалистичность и стабильность движения на различных наборах данных. Предсказанные траектории напрямую поддерживают последующую генерацию и редактирование видео. Код, веса моделей и наборы данных доступны по адресу https://trajloom.github.io/.
Реальный мир нестационарен и бесконечно сложен, что требует от интеллектуальных агентов способности к непрерывному обучению без запретительных затрат на переобучение с нуля. Хотя онлайн-непрерывное обучение предлагает основу для таких условий, усвоение новой информации часто конфликтует с ранее полученными знаниями, вызывая катастрофическое забывание и ухудшение обобщающей способности. Для решения этой проблемы мы предлагаем обучение с дополнением абстракцией (AAT) — модификацию функции потерь, побуждающую модели выявлять латентную реляционную структуру, общую для различных примеров. Совместно оптимизируя конкретные экземпляры и их абстрактные представления, AAT вводит эффективную по памяти индуктивную предвзятость, которая стабилизирует обучение в строго онлайн-потоках данных, устраняя необходимость в буфере воспроизведения. Чтобы охватить многогранную природу абстракции, мы представляем и оцениваем AAT на двух тестовых наборах: контролируемом реляционном наборе данных, где абстракция реализована через маскирование сущностей, и нарративном наборе данных, где абстракция выражена через общие пословицы. Наши результаты показывают, что AAT демонстрирует производительность, сравнимую или превосходящую сильные базовые методы с повторением опыта (ER), несмотря на нулевые дополнительные затраты памяти и минимальные изменения целевой функции обучения. Данная работа подчеркивает структурную абстракцию как мощную альтернативу ER, не требующую памяти.
Существующие подходы к повышению эффективности больших визуально-языковых моделей (LVLM) в основном основаны на концепции редукции визуальных токенов. Однако этот подход создает информационное узкое место, которое ухудшает производительность, особенно в сложных задачах, требующих детального понимания и рассуждений. В данной работе мы оспариваем эту парадигму, представляя метод VISOR (VISion On Request), который снижает затраты на вывод, не отбрасывая визуальную информацию. Вместо сжатия изображения VISOR повышает эффективность за счет разрежения взаимодействия между визуальными и текстовыми токенами. А именно, языковая модель обращается к полному набору высокоразрешающих визуальных токенов через небольшой, стратегически размещенный набор слоев внимания: общий визуальный контекст обеспечивается эффективным перекрестным вниманием между текстом и изображением, в то время как несколько удачно расположенных и динамически выбираемых слоев самовнимания уточняют сами визуальные представления, позволяя при необходимости проводить сложные рассуждения с высоким разрешением. Основываясь на этом принципе, мы сначала обучаем единую универсальную сеть для ряда вычислительных бюджетов, варьируя количество слоев самовнимания, а затем вводим легковесный механизм политики, который динамически распределяет визуальные вычисления на основе сложности каждого отдельного примера. Многочисленные эксперименты показывают, что VISOR значительно сокращает вычислительные затраты, одновременно соответствуя или превосходя современные результаты на разнообразном наборе бенчмарков, и превосходит в сложных задачах, требующих детального визуального понимания.
Монокулярный синтез новых видов традиционно требовал парных многовидовых изображений для обучения, что ограничивало масштаб и разнообразие обучающих данных. Мы утверждаем, что это необязательно: достаточно одного вида. Мы представляем OVIE, который обучается исключительно на несвязанных интернет-изображениях. Мы используем монокулярный оценщик глубины в качестве геометрического каркаса на этапе обучения: мы преобразуем исходное изображение в 3D, применяем выбранное преобразование камеры и проецируем для получения псевдоцелевого вида. Для обработки дискклюзий мы вводим маскированную схему обучения, которая ограничивает геометрические, перцептивные и текстурные потери валидными областями, позволяя обучаться на 30 миллионах неотобранных изображений. На этапе вывода OVIE не требует геометрии, не нуждаясь в оценщике глубины или 3D-представлении. Обученный исключительно на реальных изображениях, OVIE превосходит предыдущие методы в условиях zero-shot, будучи при этом в 600 раз быстрее второго лучшего базового метода. Код и модели общедоступны по адресу https://github.com/AdrienRR/ovie.
Мультимодальные ИИ-агенты всё чаще автоматизируют сложные рабочие процессы в реальном мире, связанные с выполнением действий в интернете. Однако современные бенчмарки для веб-агентов имеют серьёзный недостаток: они полностью сосредоточены на веб-взаимодействии и восприятии, не учитывая контекст физического окружения пользователя. Это ограничение не позволяет оценивать работу агентов в ключевых сценариях, например, когда агенту необходимо использовать эгоцентрическое визуальное восприятие (например, через AR-очки) для распознавания объекта в окружении пользователя с последующим выполнением связанной задачи в сети. Чтобы устранить этот пробел, мы представляем Ego2Web — первый бенчмарк, предназначенный для объединения восприятия эгоцентрического видео и выполнения действий в веб-среде. Ego2Web сочетает записи видео от первого лица из реального мира с веб-задачами, для успешного выполнения которых требуется визуальное понимание, планирование веб-задач и взаимодействие в онлайн-среде. Мы используем автоматизированный конвейер генерации данных в сочетании с проверкой и доработкой человеком для создания тщательно проработанных пар «видео-задача» высокого качества, охватывающих различные типы веб-задач, включая электронную коммерцию, поиск медиа, поиск информации и т.д. Для обеспечения точной и масштабируемой оценки нашего бенчмарка мы также разработали новый метод автоматической оценки LLM-as-a-Judge, Ego2WebJudge, который достигает примерно 84% согласия с человеческой оценкой, что существенно выше, чем у существующих методов оценки. Эксперименты с различными современными агентами на нашем Ego2Web показывают, что их производительность слабая, с значительным потенциалом для улучшения во всех категориях задач. Мы также провели всестороннее абляционное исследование дизайна задач, подчеркивающее необходимость точного понимания видео в предложенной задаче и ограничения текущих агентов. Мы надеемся, что Ego2Web станет важным новым ресурсом для разработки по-настоящему эффективных ИИ-помощников, способных бесшовно видеть, понимать и действовать в физическом и цифровом мирах.
Хотя модели «визуальный язык» (Vision-Language Models, VLM) демонстрируют выдающиеся результаты, их евклидовы эмбеддинги остаются ограниченными в способности捕获 иерархических отношений, таких как часть-целое или родитель-потомок, и часто сталкиваются с трудностями в сценариях с композицией множества объектов. Гиперболические VLM решают эту проблему, лучше сохраняя иерархические структуры и моделируя отношения часть-целое (например, вся сцена и её частичные изображения) через отношение следования (entailment). Однако существующие подходы не учитывают, что каждая часть имеет разный уровень семантической репрезентативности по отношению к целому. Мы предлагаем метод UNcertainty-guided Compositional Hyperbolic Alignment (UNCHA) для улучшения гиперболических VLM. UNCHA моделирует семантическую репрезентативность части по отношению к целому с помощью гиперболической неопределённости, назначая меньшую неопределённость более репрезентативным частям и большую неопределённость — менее репрезентативным для всей сцены. Затем эта репрезентативность включается в контрастную функцию потерь с весами, управляемыми неопределённостью. Наконец, неопределённость дополнительно калибруется с помощью loss-функции следования, регуляризованной энтропийным членом. С предложенными функциями потерь UNCHA изучает гиперболические эмбеддинги с более точным упорядочиванием часть-целое,捕获 базовую композиционную структуру изображения и улучшая понимание сложных многокомпонентных сцен. UNCHA достигает state-of-the-art результатов на бенчмарках zero-shot классификации, retrieval и многоклассовой классификации. Наш код и модели доступны по адресу: https://github.com/jeeit17/UNCHA.git.
Видео-ориентированные мировые модели предлагают мощную парадигму для воплощённого моделирования и планирования, однако современные модели часто генерируют физически нереалистичные манипуляции — такие как проникновение объектов и движение с нарушением гравитации — из-за обучения на общих визуальных данных и вероятностных целевых функциях, игнорирующих физические законы. Мы представляем ABot-PhysWorld, 14-миллиардную диффузионную трансформерную модель, которая генерирует визуально реалистичные, физически правдоподобные и управляемые действиями видео. Построенная на курируемом наборе данных из трёх миллионов клипов манипуляций с физически обоснованной аннотацией, модель использует новую пост-тренировочную архитектуру на основе DPO с разделёнными дискриминаторами для подавления нефизического поведения при сохранении визуального качества. Параллельный контекстный блок обеспечивает точное пространственное внедрение действий для кросс-эмбодиментного управления. Для лучшей оценки обобщения мы представляем EZSbench, первый независимый от обучения бенчмарк для воплощённого zero-shot тестирования, объединяющий реальные и синтетические комбинации робот-задача-сцена. В нём используется разделённый протокол для независимой оценки физического реализма и соответствия действий. ABot-PhysWorld демонстрирует новое состояние искусства на PBench и EZSbench, превосходя Veo 3.1 и Sora v2 Pro по физической правдоподобности и согласованности траекторий. Мы опубликуем EZSbench для содействия стандартизированной оценке в области воплощённой генерации видео.
Обладают ли большие языковые модели моральным мышлением или они лишь имитируют его? Мы исследуем, демонстрируют ли ответы LLM на моральные дилеммы подлинную прогрессию через стадии морального развития по Кольбергу, или же обучение согласованию (alignment training) порождает лишь рассужденчески-подобные выводы, которые поверхностно напоминают зрелое моральное суждение без лежащей в его основе траектории развития. Используя валидированный конвейер оценки LLM-как-судьи (LLM-as-judge) на трех моделях-судьях, мы классифицировали более 600 ответов от 13 LLM, охватывающих широкий спектр архитектур, масштабов параметров и режимов обучения, на шести классических моральных дилеммах, и провели десять дополнительных анализов для характеристики природы и внутренней согласованности полученных паттернов. Наши результаты выявляют поразительную инверсию: ответы подавляюще соответствуют постконвенциональному рассуждению (Стадии 5-6) независимо от размера модели, архитектуры или стратегии промптинга, что является эффективной противоположностью человеческих норм развития, где доминирует Стадия 4. Наиболее показательно, что подмножество моделей демонстрирует моральный разрыв (moral decoupling): систематическое несоответствие между заявленным моральным обоснованием и выбором действия — форма логической несогласованности, которая сохраняется при изменении масштаба и стратегии промптинга и представляет собой прямой провал согласованности рассуждений, независимый от риторической изощренности. Масштаб модели оказывает статистически значимый, но практически малый эффект; тип обучения не имеет значимого независимого основного эффекта; и модели демонстрируют почти роботизированную кросс-дилеммную согласованность, порождая логически неразличимые ответы на семантически различные моральные проблемы. Мы предполагаем, что эти паттерны являются свидетельством морального чревовещания (moral ventriloquism): усвоения через обучение согласованию риторических условностей зрелого морального рассуждения без лежащей в их основе траектории развития, которую эти условности призваны отражать.
Искусственные интеллектуальные агенты — системы, способные самостоятельно предпринимать действия для достижения сложных целей при ограниченном контроле со стороны человека — вышли на передний план. Эти системы теперь широко используются для создания программного обеспечения, ведения бизнес-деятельности и автоматизации повседневных личных задач. Хотя ИИ-агенты затрагивают многие области права, от агентского права и договоров до деликтной ответственности и трудового законодательства, они ставят особенно острые вопросы для наиболее значимого глобального регулирования ИИ — Закона Европейского Союза об искусственном интеллекте (AI Act). Принятый до разработки и широкого распространения ИИ-агентов, Закон ЕС об ИИ сталкивается со значительными препятствиями в решении проблем управления, возникающих в связи с этой преобразующей технологией, таких как сбои в работе при автономном выполнении задач, риск misuse агентов злоумышленниками и неравный доступ к экономическим возможностям, предоставляемым ИИ-агентами. Мы систематически анализируем реакцию Закона ЕС об ИИ на эти вызовы, уделяя внимание как материально-правовым положениям регламента, так и, что крайне важно, институциональным框架, призванным обеспечить его реализацию. Наш анализ распределения Законом обязанностей по мониторингу и правоприменению, reliance на саморегулирование отрасли и уровня государственного финансирования показывает, как регулирующая框架, разработанная для традиционных систем ИИ, может оказаться непригодной для ИИ-агентов. В совокупности наши выводы свидетельствуют о том, что политикам в ЕС и за его пределами необходимо изменить курс, и в ближайшее время, если они хотят эффективно регулировать следующее поколение технологий ИИ.
Детерминированные защитные механизмы предварительного исполнения оценивают, соответствуют ли отдельные действия агентов их назначенным ролям. Хотя эти системы эффективны для авторизации на уровне отдельных действий, они структурно неспособны обнаруживать распределенные атаки, которые разбивают вредоносные намерения на множество по отдельности корректных шагов. В данной статье представлена Модуль Риска Сессии (Session Risk Memory, SRM) — легковесный детерминированный модуль, расширяющий статичные механизмы исполнения авторизацией на уровне траектории поведения. SRM поддерживает компактный семантический центроид, отражающий эволюционирующий поведенческий профиль сессии агента, и накапливает сигнал риска с помощью экспоненциального скользящего среднего от выходных сигналов механизма, нормализованных относительно базового уровня. Модуль работает с тем же векторным семантическим представлением, что и базовый механизм, не требуя дополнительных модельных компонентов, обучения или вероятностного вывода. Мы оцениваем SRM на многозадачном бенчмарке из 80 сессий, содержащих сценарии медленной утечки данных, постепенного повышения привилегий и дрейфа соответствия. Результаты показывают, что ILION+SRM достигает F1 = 1.0000 с 0% ложных срабатываний, по сравнению со статичным ILION (F1 = 0.9756, 5% FPR), при этом обе системы сохраняют 100% уровень обнаружения. Ключевым является то, что SRM устраняет все ложные срабатывания с накладными расходами на один шаг менее 250 микросекунд. Данный фреймворк вводит концептуальное различие между пространственной согласованностью авторизации (оцениваемой на уровне действия) и временной согласованностью авторизации (оцениваемой на уровне траектории), обеспечивая принципиальную основу для обеспечения безопасности на уровне сессии в агентских системах.
Современные фреймворки ИИ-агентов преждевременно фиксируют единый протокол взаимодействия, статичную стратегию интеграции инструментов и неизменяемые модели пользователя, что ограничивает их применение в разнообразных парадигмах взаимодействия. Для преодоления этих ограничений мы представляем STEM Agent (Self-adapting, Tool-enabled, Extensible, Multi-agent) — модульную архитектуру, вдохновлённую биологической плюрипотентностью, в которой недифференцированное ядро агента специализируется в виде обработчиков протоколов, привязок к инструментам и подсистем памяти, комбинирующихся в полнофункциональную ИИ-систему. Фреймворк унифицирует пять протоколов взаимодействия (A2A, AG-UI, A2UI, UCP и AP2) за единым шлюзом, вводит Профилировщик Абонента, который непрерывно изучает пользовательские предпочтения по более чем двадцати поведенческим параметрам, выносит все доменные возможности наружу через Model Context Protocol (MCP) и реализует биологически вдохновлённую систему приобретения навыков, в которой повторяющиеся паттерны взаимодействия кристаллизуются в повторно используемые навыки агента через жизненный цикл созревания, аналогичный клеточной дифференцировке. Дополняя эти возможности, система памяти включает механизмы консолидации — эпизодическое удаление, семантическую дедупликацию и извлечение паттернов, — спроектированные для сублинейного роста при длительном взаимодействии. Всесторонний набор из 413 тестов проверяет поведение обработчиков протоколов и интеграцию компонентов на всех пяти архитектурных уровнях, завершаясь менее чем за три секунды.
Методы оценки качества изображений без эталона (NR-IQA) ставят целью оценку перцептивного качества без доступа к эталонному изображению безупречного качества. Обучение модели NR-IQA сталкивается с фундаментальным ограничением: необходимостью в большом количестве дорогостоящих перцептивных меток, поставленных человеком. Мы предлагаем SHAMISA, неконтрастивный самообучающийся фреймворк, который обучается на немаркированных искаженных изображениях, используя явно структурированное реляционное руководство. В отличие от предыдущих методов, накладывающих жесткие бинарные ограничения сходства, SHAMISA вводит неявные структурные ассоциации, определяемые как мягкие, управляемые отношения, которые одновременно учитывают искажения и чувствительны к содержанию; эти отношения выводятся из синтетических метаданных и внутренней структуры признаков. Ключевым нововведением является наш композиционный механизм искажений, который генерирует несчетное множество деградаций из непрерывных пространств параметров, сгруппированных таким образом, что в каждый момент времени изменяется только один фактор искажения. Это позволяет осуществлять детальный контроль над репрезентационным сходством во время обучения: изображения с общими паттернами искажений сближаются в пространстве embeddings, в то время как вариации степени тяжести искажений порождают структурированные, предсказуемые смещения. Мы интегрируем эти идеи с помощью двухисточниковых реляционных графов, которые кодируют как известные профили деградации, так и возникающие структурные сходства, чтобы направлять процесс обучения на всем его протяжении. Сверточный кодировщик обучается под таким руководством, а затем замораживается для вывода; прогнозирование качества выполняется линейным регрессором на основе его признаков. Многочисленные эксперименты на синтетических, аутентичных и межнаборных бенчмарках NR-IQA демонстрируют, что SHAMISA достигает высокой общей производительности с улучшенной межнаборной обобщающей способностью и устойчивостью, и все это — без использования аннотаций качества от человека или контрастивных функций потерь.
Обучение с объектно-ориентированным представлением видео (Video Object-Centric Learning) ставит целью декомпозицию исходных видеозаписей на небольшой набор объектных слотов, однако существующие модели со слотовым вниманием часто страдают от сильной перефрагментации. Это происходит потому, что модель неявно побуждается занимать все слоты для минимизации реконструкционной цели, тем самым представляя один объект с помощью нескольких избыточных слотов. Мы преодолеваем это ограничение с помощью реконструкционно-направленного слотового учебного плана (SlotCurri). Обучение начинается всего с несколькими грубыми слотами и постепенно выделяет новые слоты в тех областях, где ошибка реконструкции остается высокой, тем самым расширяя возможности только там, где это необходимо, и предотвращая фрагментацию с самого начала. Однако при расширении слотов значимые подчасти могут появиться только в том случае, если семантика на грубом уровне уже хорошо разделена; но при небольшом начальном бюджете слотов и цели MSE семантические границы остаются размытыми. Поэтому мы дополняем MSE структурно-ориентированной функцией потерь, которая сохраняет локальный контраст и информацию о границах, чтобы побудить каждый слот уточнять свои семантические границы. Наконец, мы предлагаем циклический вывод, который продвигает слоты вперед, а затем назад по последовательности кадров, создавая временно-согласованные объектные представления даже в самых ранних кадрах. В совокупности SlotCurri решает проблему перефрагментации объектов, распределяя репрезентационную мощность там, где реконструкция терпит неудачу, с дополнительным усилением за счет структурных сигналов и циклического вывода. Значительные улучшения FG-ARI на +6.8 для YouTube-VIS и +8.3 для MOVi-C подтверждают эффективность SlotCurri. Наш код доступен по адресу github.com/wjun0830/SlotCurri.
Пользователи в корпоративной среде всё чаще полагаются на ИИ-агентов для запросов к своим данным на естественном языке. Однако создание надежных агентов для работы с данными остается сложной задачей, поскольку реальные данные часто фрагментированы между множеством гетерогенных систем баз данных, содержат несогласованные ссылки, а информация скрыта в неструктурированном тексте. Существующие бенчмарки решают лишь отдельные аспекты этой проблемы — например, перевод вопросов с естественного языка в SQL-запросы или ответы на вопросы по небольшим таблицам, предоставленным в контексте, — но не оценивают полный цикл интеграции, преобразования и анализа данных из нескольких систем баз данных. Чтобы заполнить этот пробел, мы представляем бенчмарк Data Agent Benchmark (DAB), основанный на формирующем исследовании нагрузок корпоративных агентов данных в шести отраслях. DAB включает 54 запроса к 12 наборам данных, 9 доменам и 4 системам управления базами данных. На этом бенчмарке лучшая передовая модель (Gemini-3-Pro) демонстрирует точность pass@1 всего 38%. Мы тестируем пять передовых больших языковых моделей, анализируем типичные ошибки и формулируем выводы для будущей разработки агентов данных. Наш бенчмарк и код экспериментов опубликованы на github.com/ucbepic/DataAgentBench.