Ежедневно отобранные исследовательские статьи по ИИ с переводами
Что происходит, когда рассказчик забывает собственную историю? Большие языковые модели (LLM) теперь способны генерировать повествования объемом в десятки тысяч слов, но зачастую им не удается сохранять последовательность на протяжении всего текста. При создании развернутых нарративов эти модели могут противоречить собственным установленным фактам, чертам персонажей и правилам мира. Существующие бенчмарки для генерации историй в основном сосредоточены на качестве сюжета и беглости, оставляя ошибки непоследовательности практически без внимания. Чтобы восполнить этот пробел, мы представляем ConStory-Bench — бенчмарк, предназначенный для оценки нарративной согласованности при генерации длинных текстов. Он содержит 2000 промптов для четырех сценариев задач и определяет таксономию из пяти категорий ошибок с 19 уточненными подтипами. Мы также разработали ConStory-Checker — автоматизированный конвейер, который выявляет противоречия и обосновывает каждое решение явными текстовыми свидетельствами. Оценивая ряд LLM с помощью пяти исследовательских вопросов, мы обнаружили, что ошибки непоследовательности демонстрируют четкие тенденции: они наиболее распространены в фактологическом и временном измерениях, склонны появляться в середине повествования, возникают в текстовых сегментах с более высокой энтропией на уровне токенов, а определенные типы ошибок имеют тенденцию к совместному появлению. Эти результаты могут помочь в будущих усилиях по улучшению согласованности в генерации длинных нарративов. Страница проекта доступна по адресу https://picrew.github.io/constory-bench.github.io/.
Развитие пространственного интеллекта фундаментально зависит от доступа к крупномасштабным, детализированным 3D-данным. Однако существующие подходы в основном создают бенчмарки пространственного понимания путем генерации пар «вопрос-ответ» (QA) из ограниченного числа датасетов с ручной разметкой, вместо систематической аннотации новых крупномасштабных 3D-сцен из необработанных веб-данных. Как следствие, их масштабируемость серьезно ограничена, а производительность моделей дополнительно страдает от доменных разрывов, присущих этим узконаправленным курированным наборам данных. В данной работе мы представляем Holi-Spatial — первый полностью автоматизированный, крупномасштабный, пространственно-ориентированный мультимодальный датасет, созданный из исходных видеозаписей без вмешательства человека с использованием предложенного конвейера курирования данных. Holi-Spatial поддерживает многоуровневую пространственную разметку: от геометрически точных реконструкций методом 3D Gaussian Splatting (3DGS) с рендеренными картами глубины до объектно-уровневых и реляционных семантических аннотаций, а также соответствующих пар «вопрос-ответ» (QA) на пространственные темы. Следуя принципиальному и систематическому конвейеру, мы далее создаем Holi-Spatial-4M — первый крупномасштабный высококачественный семантический 3D-датасет, содержащий 12 тыс. оптимизированных 3DGS-сцен, 1,3 млн 2D-масок, 320 тыс. 3D-ограничивающих параллелепипедов, 320 тыс. описаний экземпляров объектов, 1,2 млн примеров 3D-привязки и 1,2 млн пар пространственных QA, охватывающих разнообразные геометрические, реляционные и семантические задачи на рассуждение. Holi-Spatial демонстрирует исключительное качество курирования данных, значительно превосходя существующие прямые методы и методы оптимизации для отдельных сцен на таких датасетах, как ScanNet, ScanNet++ и DL3DV. Более того, дообучение моделей «визуальный язык» (VLM) на задачах пространственного рассуждения с использованием этого набора данных также привело к существенному улучшению их производительности.
Прямоточные геометрические фундаментальные модели демонстрируют высокую точность реконструкции на коротких временных интервалах, однако их масштабирование для минутных видео ограничивается квадратичной сложностью механизма внимания или ограниченной эффективной памятью в рекуррентных архитектурах. Мы представляем LoGeR (Long-context Geometric Reconstruction) — новую архитектуру, которая масштабирует плотную 3D-реконструкцию на экстремально длинные последовательности без последующей оптимизации. LoGeR обрабатывает видеопотоки фрагментами, используя сильные двунаправленные априорные предположения для высокоточной реконструкции внутри фрагмента. Для решения ключевой задачи обеспечения согласованности на границах фрагментов мы предлагаем гибридный модуль памяти на основе обучения. Эта двухкомпонентная система сочетает параметрическую память с обучением во время тестирования (Test-Time Training, TTT) для закрепления глобальной системы координат и предотвращения дрейфа масштаба, а также непараметрический механизм скользящего внимания (Sliding Window Attention, SWA) для сохранения несжатого контекста, обеспечивающего высокоточное выравнивание смежных участков. Примечательно, что данная архитектура памяти позволяет обучать LoGeR на последовательностях из 128 кадров с последующим обобщением на тысячи кадров на этапе вывода. По результатам оценки на стандартных бенчмарках и заново адаптированном наборе данных VBR с последовательностями длиной до 19 тыс. кадров, LoGeR существенно превосходит предыдущие передовые прямоточные методы — сокращая ATE на KITTI более чем на 74% — и обеспечивает робастную, глобально согласованную реконструкцию на беспрецедентно больших временных горизонтах.
Беспризорное обучение с подкреплением с верифицируемыми вознаграждениями (URLVR) предлагает путь для масштабирования обучения больших языковых моделей (LLM) за пределами ограничений обучения с учителем, позволяя получать вознаграждения без использования размеченных данных. Недавние работы используют внутренние сигналы модели, демонстрируя многообещающие первоначальные успехи, однако их потенциал и ограничения остаются неясными. В данной работе мы заново исследуем URLVR и представляем всесторонний анализ, охватывающий таксономию, теорию и обширные эксперименты. Мы сначала классифицируем методы URLVR на внутренние и внешние в зависимости от источников вознаграждения, затем устанавливаем единую теоретическую основу, которая показывает, что все внутренние методы в конечном счете сходятся к "заострению" начального распределения модели. Этот механизм заострения успешен, когда начальная уверенность модели соответствует правильности ответа, но катастрофически терпит неудачу при их несоответствии. В ходе систематических экспериментов мы демонстрируем, что внутренние вознаграждения последовательно следуют паттерну "взлета-и-падения" для всех методов, причем время коллапса определяется априорными знаниями модели, а не инженерными решениями. Несмотря на эти ограничения масштабирования, мы обнаруживаем, что внутренние вознаграждения сохраняют ценность при дообучении модели во время выполнения на небольших наборах данных, и предлагаем использовать шаг коллапса модели (Model Collapse Step) для измерения априорных знаний, который служит практическим индикатором пригодности модели для обучения с подкреплением. Наконец, мы исследуем методы внешнего вознаграждения, которые основывают верификацию на вычислительной асимметрии, показывая предварительные свидетельства того, что они могут преодолеть потолок "уверенность-правильность". Наши результаты очерчивают границы применимости внутренних методов URLVR, одновременно указывая пути к разработке масштабируемых альтернатив.
Крупные языковые модели с рассуждениями продемонстрировали выдающиеся результаты благодаря развитию методов масштабирования на этапе тестирования, которые повышают точность прогнозирования за счет генерации нескольких кандидатных ответов и выбора наиболее надежного варианта. Хотя предыдущие исследования показали, что внутренние сигналы модели, такие как оценки уверенности, частично указывают на правильность ответа и демонстрируют распределительную корреляцию с точностью, эта распределительная информация не использовалась в полной мере для руководства выбором ответа. Мотивируясь этим, мы предлагаем метод DistriVoting, который включает априорные распределения в качестве дополнительного сигнала наряду с уверенностью при голосовании. Конкретно наш метод (1) сначала декомпозирует смешанное распределение уверенности на положительную и отрицательную компоненты с помощью гауссовских смесей, (2) затем применяет фильтр отклонения на основе положительных/отрицательных выборок из них, чтобы уменьшить перекрытие между двумя распределениями. Кроме того, для дальнейшего снижения перекрытия с точки зрения самого распределения мы предлагаем SelfStepConf, который использует покомпонентную уверенность для динамической корректировки процесса вывода, увеличивая разделение между двумя распределениями для повышения надежности оценок уверенности при голосовании. Эксперименты на 16 моделях и 5 тестовых наборах данных показывают, что наш метод значительно превосходит современные подходы.
Унифицированные редакторы диффузии часто используют фиксированный общий базовый блок для разнородных задач, что приводит к интерференции задач и плохой адаптации к разнородным требованиям (например, локальные против глобальных, семантические против фотометрических). В частности, распространенные варианты ControlNet и OmniControl комбинируют множественные управляющие сигналы (например, текст, маску, референс) через статичную конкатенацию или аддитивные адаптеры, которые не могут динамически приоритизировать или подавлять конфликтующие модальности. Это приводит к артефактам, таким как просачивание цвета через границы масок, дрейф идентичности или стиля, и непредсказуемому поведению при многомодальных входах. Чтобы решить эту проблему, мы предлагаем метод Condition-Aware Routing of Experts (CARE-Edit), который согласует вычислительную модель с конкретными компетенциями редактирования. В основе метода лежит легковесный латентно-внимательный маршрутизатор, который распределяет закодированные токены диффузии между четырьмя специализированными экспертами — Текст, Маска, Референс и Базовый — на основе многомодальных условий и временных шагов диффузии: (i) модуль Mask Repaint сначала уточняет грубые пользовательские маски для точного пространственного guidance; (ii) маршрутизатор применяет разреженный top-K выбор для динамического распределения вычислений между наиболее релевантными экспертами; (iii) модуль Latent Mixture затем объединяет выходы экспертов, согласованно интегрируя семантическую, пространственную и стилистическую информацию в базовые изображения. Эксперименты подтверждают высокую производительность CARE-Edit на задачах контекстного редактирования, включая удаление, замену, текстовое редактирование и перенос стиля. Эмпирический анализ дополнительно раскрывает специфичное для задач поведение специализированных экспертов, демонстрируя важность динамической, обусловленной условиями обработки для смягчения конфликтов при многомодальных условиях.
Последние достижения в области унифицированных мультимодальных моделей (UMM) значительно продвинули генерацию изображений по текстовому описанию (T2I), особенно благодаря интеграции рассуждений по цепочке мыслей (CoT). Однако существующие методы T2I на основе CoT в значительной степени опираются на абстрактное планирование на естественном языке, которому не хватает точности, необходимой для сложных пространственных композиций, структурированных визуальных элементов и плотного текстового содержимого. В данной работе мы предлагаем CoCo (Code-as-CoT), фреймворк рассуждений, управляемый кодом, который представляет процесс рассуждения в виде исполняемого кода, обеспечивая явное и проверяемое промежуточное планирование для генерации изображений. Получив текстовый промпт, CoCo сначала генерирует исполняемый код, который определяет структурную композицию сцены; этот код затем выполняется в изолированной среде для рендеринга детерминированного чернового изображения. Затем модель уточняет этот черновик посредством детального редактирования изображения для получения окончательного высококачественного результата. Для поддержки данной парадигмы обучения мы создали CoCo-10K, курируемый набор данных, содержащий структурированные пары «черновик-финальное изображение», предназначенные для обучения как построению структурированных черновиков, так и корректирующему визуальному уточнению. Эмпирические оценки на StructT2IBench, OneIG-Bench и LongText-Bench показывают, что CoCo достигает улучшений на +68,83%, +54,8% и +41,23% по сравнению с прямой генерацией, одновременно превосходя другие методы генерации, использующие CoT. Эти результаты демонстрируют, что исполняемый код является эффективной и надежной парадигмой рассуждений для точной, контролируемой и структурированной генерации изображений по тексту. Код доступен по адресу: https://github.com/micky-li-hd/CoCo
Авторегрессионная (AR) диффузия предлагает перспективную основу для генерации видео теоретически бесконечной длины. Однако ключевой проблемой является сохранение временной непрерывности при предотвращении прогрессирующего снижения качества, вызванного накоплением ошибок. Для обеспечения непрерывности существующие методы обычно используют в качестве контекста сильно очищенные от шума кадры; однако эта практика распространяет ошибки предсказания с высокой уверенностью, тем самым усугубляя деградацию. В данной статье мы утверждаем, что использование абсолютно чистого контекста не является необходимым. Вдохновляясь двунаправленными диффузионными моделями, которые удаляют шум с кадров на общем уровне зашумленности, сохраняя при этом согласованность, мы предполагаем, что использование контекста с тем же уровнем шума, что и у текущего блока, обеспечивает достаточный сигнал для временной согласованности, одновременно эффективно смягчая распространение ошибок. Основываясь на этом инсайте, мы предлагаем HiAR — иерархическую фреймворк дениойзинга, который меняет традиционный порядок генерации: вместо последовательного завершения каждого блока он выполняет причинную генерацию по всем блокам на каждом шаге дениойзинга, так что каждый блок всегда обусловлен контекстом с тем же уровнем шума. Такая иерархия естественным образом допускает конвейерный параллельный вывод, что дает ускорение в 1.8 раза в реальном времени в нашей 4-шаговой конфигурации. Мы также наблюдаем, что самодистилляция (self-rollout distillation) в этой парадигме усиливает присущий режим-ориентированной обратной KL-цели ярлык для сцен с низкой динамикой движения. Для противодействия этому мы вводим регуляризатор на основе прямого KL-расхождения в режиме двунаправленного внимания, который сохраняет разнообразие движений для причинного вывода, не interfering с loss-функцией дистилляции. На бенчмарке VBench (генерация 20с) HiAR демонстрирует наивысший общий балл и наименьший временной дрейф среди всех сравниваемых методов.
По мере того как языковые модели (ЯМ) эволюционируют от чат-ассистентов до долгосрочных агентов, способных к многошаговым рассуждениям и использованию инструментов, существующие бенчмарки остаются в основном ограниченными структурированными или экзаменационными задачами, которые не соответствуют реальным профессиональным требованиям. Для решения этой проблемы мы представляем **OneMillion-Bench** — бенчмарк из 400 экспертно отобранных задач в области права, финансов, промышленности, здравоохранения и естественных наук, созданный для оценки агентов в экономически значимых сценариях. В отличие от предыдущих работ, данный бенчмарк требует поиска авторитетных источников, разрешения противоречивых данных, применения предметно-ориентированных правил и принятия ограниченных решений, где корректность зависит от процесса рассуждений не меньше, чем от конечного ответа. Мы применяем рубричный протокол оценки, учитывающий фактологическую точность, логическую согласованность, практическую реализуемость и профессиональное соответствие, сфокусированный на задачах экспертного уровня для обеспечения содержательного различия между агентами. В совокупности **OneMillion-Bench** предоставляет единую тестовую среду для оценки агентской надежности, профессиональной глубины и практической готовности в предметно-интенсивных сценариях.
Хотя авторегрессионные (AR) системы ASR на основе больших языковых моделей (LLM) демонстрируют высокую точность, их последовательное декодирование ограничивает параллелизм и приводит к высокой задержке. Мы предлагаем NLE, неавторегрессионный (NAR) подход, который формулирует распознавание речи как условное редактирование транскрипта, обеспечивая полностью параллельное предсказание. NLE извлекает акустические эмбеддинги и первоначальную гипотезу из предобученного речевого энкодера, а затем уточняет гипотезу с помощью двунаправленного LLM-редактора, обученного с целью латентного выравнивания. Стратегия чередующегося дополнения (interleaved padding) использует склонность трансформеров к тождественным отображениям, позволяя модели фокусироваться на исправлениях, а не на полной реконструкции. На лидерборде Open ASR модель NLE++ достигает среднего WER 5.67% с RTFx (обратный коэффициент реального времени) 1630. В сценариях с одиночными высказываниями NLE обеспечивает 27-кратное ускорение по сравнению с AR-базлином, что делает его пригодным для приложений реального времени.
Агентные системы, работающие в больших экосистемах инструментов, должны планировать и выполнять долгосрочные рабочие процессы в условиях слабого или непроверяемого контроля. Хотя фронтирные модели смягчают эти проблемы за счет масштаба и больших бюджетов контекста, малые языковые модели (SLM) остаются хрупкими: активная загрузка инструментов насыщает контекст, ошибки выполнения накапливаются со временем, а разреженные вознаграждения ограничивают обучение. Мы представляем ATLAS — фреймворк тонкой настройки с подкреплением, который позволяет SLM эффективно работать в средах с крупномасштабным пространством инструментов, обучаясь тому, как приобретать контекст и как выполнять действия. Наш подход вносит два ключевых вклада. Во-первых, мы рассматриваем управление контекстом и структуру выполнения как обучаемые решения, сочетая итеративную загрузку инструментов с программной оркестрацией инструментов для ограничения роста контекста и стабилизации долгосрочных траекторий. Во-вторых, мы предлагаем рубричную тонкую настройку с подкреплением, которая декомпозирует успешность задачи на структурированные, согласованные с задачей критерии и позволяет масштабируемое обучение с использованием небольших моделей-судей. На бенчмарках MCP эти проектные решения демонстрируют значительный и стабильный прогресс по сравнению с базовыми методами общего RL, позволяя SLM объемом 4B приближаться к производительности фронтирных агентов при значительно более жестких ограничениях по параметрам и контексту.
Мы представляем AutoResearch-RL — фреймворк, в котором агент обучения с подкреплением проводит открытые исследования нейросетевых архитектур и гиперпараметров без участия человека, работая непрерывно до тех пор, пока критерий останова не сигнализирует о сходимости или исчерпании ресурсов. На каждом шаге агент предлагает модификацию кода целевого скрипта обучения, выполняет его в рамках фиксированного бюджета машинного времени, наблюдает скалярное вознаграждение, вычисленное на основе валидационных бит-на-байт (val-bpb), и обновляет свою политику с помощью проксимального оптимизатора политик (PPO). Ключевая идея проектирования заключается в разделении трёх аспектов: (i) замороженное окружение (конвейер данных, протокол оценки и константы), которое гарантирует корректное сравнение между экспериментами; (ii) изменяемый целевой файл (train.py), представляющий редактируемое состояние агента; и (iii) мета-обучающийся (сам RL-агент), который накапливает растущую траекторию результатов экспериментов и использует их для формирования последующих предложений. Мы формализуем это как марковский процесс принятия решений, выводим гарантии сходимости при слабых предположениях и эмпирически демонстрируем на бенчмарке предобучения nanochat с одной GPU, что AutoResearch-RL обнаруживает конфигурации, которые соответствуют или превосходят ручно настроенные базовые уровни после примерно 300 ночных итераций, без участия человека в цикле.
Современные агенты с графическим интерфейсом пользователя (GUI) работают в основном по реактивной парадигме: пользователь должен предоставить явную инструкцию для выполнения задачи агентом. Однако интеллектуальный AI-ассистент должен быть проактивным, то есть способным предвосхищать намерения пользователя непосредственно из непрерывных визуальных входных данных, таких как скриншоты мобильных устройств или рабочих столов, и предлагать своевременные рекомендации без явного запроса пользователя. Переход к этой проактивной парадигме сопряжен со значительными трудностями. Активность на реальных экранах редко бывает линейной; она состоит из длительных траекторий, насыщенных шумным просмотром, бессмысленными действиями и многопоточным переключением между задачами. Для решения этой проблемы мы представляем PIRA-Bench (Benchmark для проактивных агентов рекомендации намерений) — новый бенчмарк для оценки мультимодальных больших языковых моделей (MLLM) на непрерывных, слабо размеченных визуальных данных. В отличие от реактивных наборов данных, PIRA-Bench содержит сложные траектории с множеством переплетающихся намерений и зашумленные сегменты с различными контекстами пользовательских профилей, что бросает вызов агентам в обнаружении actionable-событий с учетом пользовательских предпочтений. Кроме того, мы предлагаем базовый метод PIRF — фреймворк отслеживания состояния с учетом памяти, который позволяет общим MLLM управлять несколькими потоками задач и обрабатывать вводящие в заблуждение визуальные входные данные. PIRA-Bench служит первым шагом на пути к созданию надежных и проактивных персональных помощников на основе GUI.
Модели диффузии ухудшают изображения путем добавления шума, и обращение этого процесса выявляет иерархию информации на различных временных шагах. Теория масштабного пространства демонстрирует аналогичную иерархию с помощью низкочастотной фильтрации. Мы формализуем эту связь и показываем, что состояния диффузии с высоким уровнем шума содержат не больше информации, чем небольшие, уменьшенные изображения — это ставит вопрос о том, почему их необходимо обрабатывать в полном разрешении. Чтобы решить эту проблему, мы интегрируем масштабные пространства в процесс диффузии, сформулировав семейство моделей диффузии с обобщенными линейными искажениями и практическими реализациями. Использование уменьшения разрешения в качестве искажения приводит к нашей предложенной модели — Scale Space Diffusion. Для поддержки Scale Space Diffusion мы представляем Flexi-UNet, вариант UNet, который выполняет шумоподавление с сохранением и увеличением разрешения, используя только необходимые части сети. Мы оцениваем нашу архитектуру на наборах данных CelebA и ImageNet и анализируем ее масштабируемость across разрешениям и глубине сети. Наш проект доступен на веб-сайте: https://prateksha.github.io/projects/scale-space-diffusion/.
Современные модели генерации видео страдают от высокой вычислительной задержки, что делает приложения реального времени чрезмерно затратными. В данной работе мы преодолеваем это ограничение, используя присущую видео латентным патчам временную избыточность. С этой целью мы предлагаем фреймворк Latent Inter-frame Pruning with Attention Recovery (LIPAR), который обнаруживает и пропускает повторные вычисления дублированных латентных патчей. Кроме того, мы представляем новый механизм восстановления внимания (Attention Recovery), который аппроксимирует значения внимания для отсеченных токенов, тем самым устраняя визуальные артефакты, возникающие при наивном применении метода прореживания. Экспериментально наш метод увеличивает пропускную способность редактирования видео в 1.45 раза, достигая в среднем 12.2 кадров в секунду на NVIDIA A6000 по сравнению с базовыми 8.4 кадрами в секунду. Предложенный метод не снижает качество генерации и может быть бесшовно интегрирован в модель без дополнительного обучения. Наш подход эффективно устраняет разрыв между традиционными алгоритмами сжатия и современными генеративными конвейерами.
Хотя малошаговые генеративные модели позволили достичь мощной генерации изображений и видео при значительно меньших затратах, общие парадигмы обучения с подкреплением (RL) для малошаговых моделей остаются нерешенной проблемой. Существующие RL-подходы для малошаговых диффузионных моделей сильно зависят от обратного распространения через дифференцируемые модели вознаграждения, что исключает использование большинства важных сигналов вознаграждения из реального мира, например, недифференцируемых наград, таких как бинарная оценка предпочтения человеком, количество объектов и т.д. Для корректного включения недифференцируемых наград с целью улучшения малошаговых генеративных моделей мы представляем TDM-R1 — новую парадигму обучения с подкреплением, построенную на основе передовой малошаговой модели, сопоставления распределений траекторий (Trajectory Distribution Matching, TDM). TDM-R1 разделяет процесс обучения на этапы обучения суррогатной функции вознаграждения и обучения генератора. Кроме того, мы разработали практические методы получения пошаговых сигналов вознаграждения вдоль детерминированной траектории генерации TDM, что привело к созданию унифицированного метода пост-обучения с подкреплением, который значительно улучшает способности малошаговых моделей работать с общими наградами. Мы проводим обширные эксперименты, охватывающие рендеринг текста, визуальное качество и согласование с предпочтениями. Все результаты демонстрируют, что TDM-R1 является мощной парадигмой обучения с подкреплением для малошаговых тексто-изобразительных моделей, достигая передовых показателей RL как по внутридоменным, так и по внедоменным метрикам. Более того, TDM-R1 также эффективно масштабируется на недавно появившуюся мощную Z-Image модель, последовательно превосходя как её 100-NFE, так и малошаговые варианты, используя всего 4 NFE. Страница проекта: https://github.com/Luo-Yihong/TDM-R1
Крупные языковые модели (LLM) продемонстрировали высокие общие способности, однако их развертывание в финансовой сфере остается сложной задачей из-за насыщенной предметной терминологии, строгих требований к численным рассуждениям и низкой терпимости к фактическим ошибкам. Мы проводим контролируемое эмпирическое исследование, показывающее, что в специализированных вертикальных доменах производительность в значительной степени определяется качеством и профилем сложности/проверяемости данных пост-обучения. Мы представляем наборы данных ODA-Fin-SFT-318k, созданный посредством многоступенчатой дистилляции и верификации для получения высококачественных данных с цепочкой рассуждений (Chain-of-Thought), и ODA-Fin-RL-12k, отобранный для сложных, но проверяемых задач, которые балансируют точность вознаграждения и разнообразие задач. Используя стандартные конвейеры SFT и RL, мы показываем, что высококачественная дистилляция CoT создает надежную основу на этапе SFT, в то время как выборка с учетом сложности и проверяемости улучшает обобщающую способность RL. При оценке на девяти тестовых наборах, охватывающих общие финансовые задачи, анализ тональности и численные рассуждения, наша модель ODA-Fin-RL-8B последовательно превосходит передовые открытые финансовые LLM сопоставимого размера. Мы публикуем наши наборы данных ODA-Fin-SFT-318k и ODA-Fin-RL-12k, а также обученные модели для развития ориентированных на данные исследований в области финансового ИИ.
Обучение больших языковых моделей (LLM) в качестве автономных агентов часто начинается с имитационного обучения, однако оно учит агентов только тому, *что* делать, не объясняя *почему*: агенты никогда не сопоставляют успешные действия с субоптимальными альтернативами и, следовательно, не обладают пониманием качества действий. Современные подходы пытаются решить эту проблему, вводя контроль саморефлексии, основанный на сравнении действий эксперта и альтернативных действий. Однако тренировочная парадигма фундаментально остается имитационной: модель имитирует заранее подготовленные тексты рефлексии, а не учится рассуждать автономно. Мы предлагаем Агентское Критическое Обучение (ACT) — парадигму обучения с подкреплением, которая тренирует агентов определять лучшее действие среди альтернатив. Награждая модель за правильность её суждений, ACT стимулирует модель автономно развивать способность к рассуждению о качестве действий, порождая подлинную саморефлексию, а не имитируя её. На трех сложных агентских тестовых наборах ACT стабильно улучшает производительность агентов в сочетании с различными методами пост-обучения. Он обеспечивает среднее улучшение на 5.07 баллов по сравнению с имитационным обучением и на 4.62 балла по сравнению с обучением с подкреплением. По сравнению с подходами, которые внедряют способность к рефлексии через дистилляцию знаний, ACT также демонстрирует явные преимущества, давая среднее улучшение на 2.42 балла. Более того, ACT обеспечивает сильную обобщающую способность вне распределения на агентских тестах и улучшает результаты на общих тестах логического мышления без каких-либо специфичных для рассуждений тренировочных данных, что подчеркивает ценность нашего метода. Эти результаты позволяют предположить, что ACT является перспективным путем к созданию более рефлексивных и способных LLM-агентов.
Трансформеры для компьютерного зрения (ViT) часто демонстрируют ухудшение работы при сдвигах распределения данных, поскольку они полагаются на ложные корреляции, такие как фоновые сигналы, а не на семантически значимые признаки. Существующие методы регуляризации, как правило, основаны на простых масках переднего плана и фона, которые не способны уловить тонкие семантические концепции, определяющие объект (например, «длинный клюв» и «крылья» для «птицы»). Как следствие, эти методы обеспечивают ограниченную устойчивость к сдвигам распределения. Чтобы устранить этот недостаток, мы представляем новую структуру дообучения, которая направляет рассуждения модели в сторону семантики на уровне концептов. Наш подход оптимизирует внутренние карты релевантности модели для их согласования с пространственно привязанными концептуальными масками. Эти маски генерируются автоматически, без ручной разметки: релевантные для класса концепты сначала предлагаются с помощью метода на основе БОМ, не требующего меток, а затем сегментируются с использованием ВОМ. Цель дообучения — согласовать релевантность с этими концептуальными областями, одновременно подавляя фокус на ложные фоновые участки. Примечательно, что этот процесс требует лишь минимального набора изображений и использует половину классов набора данных. Масштабные эксперименты на пяти эталонных тестах для данных с отличающимся распределением демонстрируют, что наш метод повышает устойчивость для нескольких моделей на основе ViT. Кроме того, мы показываем, что результирующие карты релевантности демонстрируют лучшее соответствие семантическим частям объекта, предлагая масштабируемый путь к созданию более устойчивых и интерпретируемых моделей компьютерного зрения. Наконец, мы подтверждаем, что концептуально-ориентированные маски обеспечивают более эффективный контроль для устойчивости модели по сравнению с традиционными картами сегментации, что подтверждает нашу центральную гипотезу.
Этап холодного старта играет ключевую роль в обучении мультимодальных моделей с большими возможностями рассуждений (MLRM), однако его механизмы остаются недостаточно изученными. Для анализа этой стадии мы вводим показатель визуального внимания (Visual Attention Score, VAS) — метрику на основе внимания, которая количественно оценивает степень фокусировки модели на визуальных токенах. Мы обнаружили, что производительность рассуждений сильно коррелирует с VAS (r=0,9616): модели с более высоким VAS демонстрируют значительно более сильные мультимодальные рассуждения. Неожиданно оказалось, что мультимодальный холодный старт не повышает VAS, приводя к распределениям внимания, близким к базовой модели, тогда как холодный старт только на текстовых данных вызывает явный рост VAS. Мы назвали это контр-интуитивное явление «ленивой локализацией внимания» (Lazy Attention Localization). Чтобы подтвердить его причинную роль, мы разработали интервенции, не требующие дообучения, которые напрямую модулируют распределение внимания на этапе вывода, что дало прирост производительности на 1–2% без какого-либо переобучения. Основываясь на этих выводах, мы дополнительно предлагаем AVAR (Attention-Guided Visual Anchoring and Reflection) — комплексную структуру холодного старта, которая объединяет синтез данных с визуальной привязкой, цели, управляемые вниманием, и формирование вознаграждения с визуальной привязкой. Примененная к Qwen2.5-VL-7B, AVAR демонстрирует средний прирост в 7,0% по семи бенчмаркам мультимодальных рассуждений. Абляционные исследования дополнительно подтверждают, что каждый компонент AVAR вносит пошаговый вклад в общее улучшение. Код, данные и модели доступны по адресу https://github.com/lrlbbzl/Qwen-AVAR.
Существующие методы настройки концепций достигли значительных результатов в области высокоточной и многоконцептной персонализации. Однако они часто игнорируют влияние изучения новых персонализированных концепций на поведение и возможности исходной модели. Для решения этой проблемы мы предлагаем метод PureCC. В PureCC вводится новая цель разъединенного обучения для настройки концепций, которая сочетает неявное руководство целевой концепции с исходным условным прогнозированием. Такая разделенная форма позволяет PureCC существенно фокусироваться на исходной модели в процессе обучения. Кроме того, на основе этой цели PureCC разрабатывает двухканальный конвейер обучения, включающий замороженный экстрактор, предоставляющий очищенные представления целевой концепции в качестве неявного руководства, и обучаемую потоковую модель, производящую исходный условный прогноз, что совместно обеспечивает чистое изучение персонализированных концепций. Также PureCC вводит новый адаптивный коэффициент руководства λ^star для динамической регулировки силы воздействия целевой концепции, балансируя между точностью настройки и сохранением модели. Многочисленные эксперименты показывают, что PureCC достигает передовых результатов в сохранении исходного поведения и возможностей модели, одновременно обеспечивая высокоточную настройку концепций. Код доступен по адресу https://github.com/lzc-sg/PureCC.
Ландшафт ИИ-помощников в программировании претерпевает фундаментальный сдвиг: от сложных плагинов для IDE к универсальным агентам, нативным для терминала. Работая непосредственно там, где разработчики управляют системой контроля версий, выполняют сборку и развертывание окружений, агенты на базе командной строки предлагают беспрецедентную автономию для долгосрочных задач разработки. В данной статье мы представляем OPENDEV — агент для программирования с открытым исходным кодом, работающий из командной строки и созданный специально для этой новой парадигмы. Эффективная автономная помощь требует строгого контроля безопасности и высокоэффективного управления контекстом для предотвращения его раздувания и деградации рассуждений. OPENDEV преодолевает эти challenges за счет архитектуры составной ИИ-системы с маршрутизацией моделей, специализированных под рабочие нагрузки, двухагентной архитектуры, разделяющей планирование и выполнение, ленивого обнаружения инструментов и адаптивного сжатия контекста, которое прогрессивно уменьшает объем старых наблюдений. Кроме того, он использует автоматизированную систему памяти для накопления знаний, специфичных для проекта, между сеансами и противодействует затуханию инструкций с помощью событийно-управляемых системных напоминаний. Применяя явные фазы рассуждений и уделяя приоритетное внимание эффективности контекста, OPENDEV обеспечивает безопасную и расширяемую основу для ИИ-помощников, ориентированных на терминал, предлагая blueprint для надежной автономной разработки программного обеспечения.
Авторегрессионные (AR) языковые модели опираются на причинную токенизацию, однако распространение этой парадигмы на область компьютерного зрения остается нетривиальной задачей. Современные визуальные токенизаторы либо преобразуют 2D-патчи в неупорядоченные последовательности, либо накладывают эвристические порядки, которые не соответствуют паттерну «предсказания следующего токена». Недавно предложенные диффузионные автоэнкодеры также демонстрируют ограничения: условие декодера на всех токенах лишено причинности, а применение механизма вложенного дропаута приводит к дисбалансу. Для решения этих проблем мы представляем CaTok — 1D причинный токенизатор изображений с декодером MeanFlow. Путем выбора токенов в течение временных интервалов и их привязки к целевой функции MeanFlow, как показано на Рис. 1, CaTok обучается причинным 1D-представлениям, которые поддерживают как быстрое одношаговое генерацию, так и многошаговую выборку высокой точности, одновременно естественным образом захватывая разнообразные визуальные концепции в интервалах токенов. Для дальнейшей стабилизации и ускорения обучения мы предлагаем простую регуляризацию REPA-A, которая выравнивает признаки энкодера с моделями Vision Foundation Models (VFMs). Эксперименты показывают, что CaTok достигает state-of-the-art результатов в реконструкции ImageNet, демонстрируя значения 0.75 FID, 22.53 PSNR и 0.674 SSIM при меньшем количестве эпох обучения, а AR-модель показывает производительность, сопоставимую с ведущими подходами.
Тюнинг промптов на основе CLIP позволяет предобученным визуально-языковым моделям (VLM) эффективно адаптироваться к последующим задачам. Хотя существующие исследования достигли значительного прогресса, они уделяют недостаточно внимания изменениям внутренних репрезентаций внимания в VLM в процессе настройки. В данной работе мы связываем ошибки прогнозирования при тюнинге промптов со смещениями внимания к переднему плану в визуальном кодировщике и предлагаем метод FVG-PT — адаптивный модуль направляющего внимания на передний план по принципу «включи и работай». Конкретно, FVG-PT вводит обучаемый «Вентиль надежности переднего плана» для автоматического улучшения качества выделения переднего плана, применяет модуль «Компенсации дистилляции переднего плана» для направления визуального внимания на целевой объект и дополнительно вводит модуль «Предварительной калибровки» для снижения ухудшения обобщающей способности из-за чрезмерной фокусировки на переднем плане. Эксперименты на нескольких базовых моделях и наборах данных подтверждают эффективность и совместимость FVG-PT. Код доступен по адресу: https://github.com/JREion/FVG-PT.
Обучение моделей нового поколения для генерации кода требует высококачественных наборов данных, однако существующие наборы сталкиваются с проблемами дисбаланса сложности, несогласованности форматов и низкого качества данных. Мы решаем эти проблемы с помощью систематической обработки данных и масштабирования сложности. Мы представляем четырехэтапную систему обработки данных, включающую сбор, обработку, фильтрацию и проверку, а также автоматическую фильтрацию по сложности через основанную на больших языковых моделях (LLM) систему «прогноз-калибровка-выбор». Эта система использует многомерные метрики сложности по пяти взвешенным параметрам для сохранения сложных задач и удаления упрощенных. Результирующий набор данных MicroCoder включает десятки тысяч отобранных реальных задач по спортивному программированию с различных платформ с акцентом на актуальность и сложность. Оценки на строго неизвестном LiveCodeBench показывают, что MicroCoder обеспечивает в 3 раза больший прирост производительности в течение 300 шагов обучения по сравнению с широко используемыми базовыми наборами данных сопоставимого размера, с устойчивыми преимуществами как при использовании GRPO, так и его вариантов в качестве алгоритмов обучения. Набор данных MicroCoder демонстрирует значительное улучшение результатов на задачах средней и высокой сложности для моделей разного размера, достигая до 17.2% относительного прироста в общей производительности там, где возможности моделей наиболее напряжены. Эти результаты подтверждают, что курирование данных с учетом сложности улучшает производительность моделей на сложных задачах, предоставляя важные инсайты для создания наборов данных в области генерации кода.
Современные модели генерации кода демонстрируют увеличение длины выходных данных, ускоренный рост возможностей и измененную динамику обучения, что делает традиционные методологии, алгоритмы и наборы данных обучения неэффективными для повышения их производительности. Для решения этих проблем обучения мы предлагаем MicroCoder-GRPO — усовершенствованный подход Group Relative Policy Optimization с тремя инновациями: условное маскирование усечения для улучшения потенциала длинных выводов при сохранении стабильности обучения, выбор температуры на основе разнообразия для поддержания и стимулирования разнообразия выходных данных, а также удаление KL-потерь с высокими коэффициентами отсечения для обеспечения разнообразия решений. MicroCoder-GRPO демонстрирует до 17,6% относительного улучшения по сравнению с сильными базовыми уровнями на LiveCodeBench v6, с более выраженными gains при расширенном контекстном оценивании. Кроме того, мы выпускаем MicroCoder-Dataset — более сложный тренировочный корпус, который обеспечивает в 3 раза больший прирост производительности, чем mainstream-наборы данных на LiveCodeBench v6 в течение 300 шагов обучения, и MicroCoder-Evaluator — надежную framework с приблизительно 25% улучшенной точностью оценки и примерно на 40% более быстрым выполнением. Благодаря комплексному анализу более тридцати контролируемых экспериментов мы выявили 34 insights по обучению в семи основных аспектах, демонстрируя, что правильно обученные модели могут достигать конкурентоспособной производительности с более крупными аналогами.
Полуструктурированная N:M разреженность и низкобитная квантизация (например, 1.58-битный BitNet) — это два перспективных подхода к повышению эффективности больших языковых моделей (LLM), однако до сих пор они изучались преимущественно изолированно. В данной работе мы исследуем их взаимодействие и показываем, что 1.58-битный BitNet по своей природе более совместим с N:M разреженностью, чем модели с полной точностью. Для изучения этого эффекта мы предлагаем Sparse-BitNet — унифицированную структуру, которая впервые обеспечивает стабильное обучение при совместном применении 1.58-битной квантизации и динамической N:M разреживания. На различных масштабах моделей и режимах обучения (разреженное предварительное обучение и схемы "от плотной к разреженной") 1.58-битный BitNet последовательно демонстрирует меньшее снижение производительности по сравнению с базовыми вариантами с полной точностью при тех же уровнях разреженности и способен выдерживать более высокую структурную разреженность до коллапса точности. Более того, с использованием нашего специализированного ядра для разреженных тензоров Sparse-BitNet достигает значительного ускорения как при обучении, так и при выводе — до 1.30 раза. Эти результаты подчеркивают, что комбинация экстремально низкобитной квантизации с полуструктурированной N:M разреженностью является перспективным направлением для создания эффективных LLM. Код доступен по адресу https://github.com/AAzdi/Sparse-BitNet.
Визуально-языковые модели (VLM) стали перспективным направлением для сквозного автономного вождения, объединяя визуальные наблюдения, контекст вождения и языковые рассуждения. Однако существующие системы на основе VLM сталкиваются с компромиссом между высокоуровневыми рассуждениями и планированием траектории: крупные модели обеспечивают глубокое семантическое понимание, но их адаптация для точного управления дорогостояща, тогда как небольшие VLM-модели можно эффективно дообучать, но они часто демонстрируют более слабые способности к рассуждению. Мы предлагаем NaviDriveVLM — развязанную архитектуру, которая разделяет рассуждения и генерацию действий с помощью крупномасштабного Навигатора и легковесного Обучаемого Водителя. Такая конструкция сохраняет способность к рассуждениям, снижает стоимость обучения и предоставляет явное интерпретируемое промежуточное представление для последующего планирования. Эксперименты на базе nuScenes показывают, что NaviDriveVLM превосходит крупные VLM-базисы в сквозном планировании траектории.
По мере смещения создания видеоконтента в сторону длинных нарративов, компоновка коротких клипов в связные сюжетные линии приобретает все большее значение. Однако преобладающие подходы к поиску остаются нечувствительными к контексту на этапе вывода, отдавая приоритет локальной семантической согласованности в ущерб сохранению состояний и идентичности. Для преодоления этого структурного ограничения мы формализуем задачу согласованного видеопоиска (CVR) и представляем диагностический бенчмарк, охватывающий YouCook2, COIN и CrossTask. Мы предлагаем CAST (Context-Aware State Transition) — легковесный модуль типа «подключи и работай», совместимый с различными замороженными пространствами визуально-языковых Embedding-векторов. Предсказывая остаточное обновление (Δ), обусловленное состоянием из визуальной истории, CAST вводит явное индуктивное смещение для эволюции латентного состояния. Многочисленные эксперименты показывают, что CAST улучшает производительность на YouCook2 и CrossTask, остается конкурентоспособным на COIN и стабильно превосходит zero-shot базовые модели в различных фоновых архитектурах. Кроме того, CAST обеспечивает полезный сигнал для переранжирования кандидатов из «черного ящика» генерации видео (например, из Veo), способствуя созданию более временно согласованных продолжений.
Авторегрессионные (AR) языковые модели формируют репрезентации инкрементально посредством предсказания слева направо, в то время как диффузионные языковые модели (dLLM) обучаются через деноизинг полной последовательности. Хотя современные dLLM достигают производительности AR-моделей, остаётся неясным, преобразуют ли диффузионные цели фундаментально внутренние репрезентации по глубине сети. Мы проводим первый послойный и поэлементный репрезентационный анализ, сравнивая нативные dLLM (LLaDA), нативные AR-модели (Qwen2.5) и dLLM, инициализированные AR-моделями (Dream-7B). Мы обнаруживаем, что диффузионные цели приводят к иным, более иерархическим абстракциям со значительной избыточностью на ранних слоях и сниженной склонностью к недавним элементам, тогда как AR-цели порождают тесно связанные, зависящие от глубины репрезентации. Ключевой вывод: dLLM, инициализированные AR-моделями, сохраняют AR-подобную репрезентационную динамику несмотря на диффузионное обучение, что свидетельствует о сохраняющейся предвзятости инициализации. Используя наблюдаемую репрезентационную избыточность, мы представляем статический, агностичный к задаче метод пропуска слоёв на этапе вывода, не требующий изменений архитектуры или разделения KV-кэша. Нативные dLLM достигают сокращения FLOPs до 18,75% при сохранении более 90% производительности на тестах по логическому мышлению и генерации кода, тогда как AR-модели резко деградируют при сопоставимом пропуске. Эти результаты связывают цели обучения со структурой репрезентаций и позволяют достичь практического выигрыша в эффективности, ортогонального к механизму кэширования.
Прямое редактирование на основе промптов часто терпит неудачу при сложных преобразованиях, поскольку расплывчатые и субъективные промпты требуют тонкого понимания того, что именно следует изменить в изображении. Наша ключевая идея заключается в том, что использование композиционных инструментов редактирования изображений вместо прямых промптов выигрывает от структурированного планирования на уровне агента с явными рассуждениями, что приводит к лучшим результатам. Этот структурированный фреймворк планирования позволяет эффективно проводить пост-обучение с подкреплением (RL) на оффлайн-траекториях с оценкой качества для повышения производительности. Мы представляем инструментальный агентный фреймворк пост-обучения RL, который решает эту задачу через структурированное планирование с цепочкой рассуждений (chain-of-thought). Наши ключевые вклады включают: (1) Методологию агентного планирования на основе инструментов, которая объединяет композиционную библиотеку ортогональных примитивных преобразований, структурированное представление контекста и явные пошаговые рассуждения для декомпозиции сложного стилистического редактирования на интерпретируемые последовательности инструментов. (2) Пайплайн генерации синтетических данных, производящий три крупномасштабных набора данных (каждый моделирует ~10K траекторий) с цепочками рассуждений, планами и оценками качества, поскольку существующие наборы данных не предоставляют такого уровня контроля. Наши наборы данных и код общедоступны в репозитории HuggingFace. (3) Методы оффлайн-обучения с подкреплением для обучения планировщиков с рассуждениями как наши основные алгоритмические вклады, которые стабильно превосходят базовый уровень Edit-Only по визуальному качеству и следованию инструкциям. (4) Всесторонняя оценка на моделях Qwen3-VL с 4B и 8B параметрами, показывающая, что наши методы превосходят другие базовые подходы в большинстве композиционных задач, что подтверждено человеческой оценкой.
Мы представляем OfficeQA Pro — эталонный тест для оценки ИИ-агентов на основе обоснованных рассуждений по множеству документов в рамках большого и гетерогенного корпуса документов. Корпус состоит из бюллетеней Министерства финансов США за почти 100 лет, включающих 89 000 страниц и более 26 миллионов числовых значений. OfficeQA Pro содержит 133 вопроса, требующих точного парсинга документов, поиска и аналитических рассуждений как по неструктурированному тексту, так и по табличным данным. Передовые большие языковые модели, включая Claude Opus 4.6, GPT-5.4 и Gemini 3.1 Pro Preview, демонстрируют точность менее 5% на OfficeQA Pro при использовании параметрических знаний и менее 12% при дополнительном доступе к интернету. Даже при прямом доступе к корпусу документов передовые агенты испытывают трудности более чем с половиной вопросов, показывая средний результат 34,1%. Мы установили, что предоставление агентам структурированного представления документов, созданного с помощью Databricks ai_parse_document, дает средний относительный прирост производительности 16,1% для различных агентов. Мы провели дополнительные абляционные исследования для изучения влияния выбора модели, представления таблиц, стратегии поиска и масштабирования на этапе тестирования на производительность. Несмотря на эти улучшения, до достижения агентами надежности в корпоративных задачах обоснованных рассуждений остается значительный потенциал для роста.
Фундаментальные модели переходят от автономных предикторов к развернутым системам, предназначенным для работы в течение длительных временных горизонтов. В реальных развертываниях цели не являются фиксированными: предметные области дрейфуют, пользовательские предпочтения эволюционируют, а новые задачи появляются уже после выпуска модели. Это повышает статус непрерывного обучения и мгновенной персонализации от опциональных функций до ключевых архитектурных требований. Однако большинство конвейеров адаптации по-прежнему следуют парадигме статических весов: после обучения (или после любого шага адаптации) выполнение инференса использует единый вектор параметров, независимо от намерений пользователя, домена или ограничений, специфичных для конкретного экземпляра. Это трактует обученную или адаптированную модель как единую точку в пространстве параметров. В гетерогенных и непрерывно эволюционирующих режимах различные цели могут порождать разделенные области допустимых значений параметров, вынуждая любое единое общее обновление идти на компромисс, вызывать интерференцию или чрезмерную специализацию. В результате непрерывное обучение и персонализация часто реализуются как повторная перезапись общих весов, что создает риск деградации ранее изученных поведений. Мы предлагаем HY-WU (Weight Unleashing), фреймворк адаптации с приоритетом памяти, который смещает давление адаптации от перезаписи единой общей точки параметров. HY-WU реализует функциональную (операторную) память в виде нейронного модуля: генератора, который синтезирует обновления весов на лету на основе условий экземпляра, создавая операторы, специфичные для экземпляра, без оптимизации во время тестирования.
Современные генеративные видео-модели мира ставят целью симулировать эволюцию визуальной среды, позволяя наблюдателю интерактивно исследовать сцену путем управления камерой. Однако в них неявно предполагается, что мир эволюционирует только в поле зрения наблюдателя. Как только объект покидает зону видимости, его состояние «замораживается» в памяти, и последующее возвращение в ту же область часто не отражает событий, которые должны были произойти за это время. В данной работе мы выявляем и формализуем это упущенное ограничение как проблему «динамики вне поля зрения», которая мешает видео-моделям мира представлять непрерывно эволюционирующий мир. Для решения этой проблемы мы предлагаем LiveWorld — новую архитектуру, расширяющую видео-модели мира для поддержки постоянной эволюции среды. Вместо трактовки мира как статичной наблюдательной памяти LiveWorld моделирует устойчивое глобальное состояние, состоящее из статичного 3D-фона и динамических сущностей, которые продолжают эволюционировать даже в отсутствие наблюдения. Для поддержания этой скрытой динамики LiveWorld вводит мониторный механизм, автономно симулирующий временное развитие активных сущностей и синхронизирующий их обновленные состояния при повторном посещении, обеспечивая пространственно-согласованный рендеринг. Для оценки мы дополнительно представляем LiveBench — специализированный бенчмарк для задачи поддержания динамики вне поля зрения. Масштабные эксперименты показывают, что LiveWorld обеспечивает непрерывную эволюцию событий и долгосрочную согласованность сцен, сокращая разрыв между существующей 2D-памятью на основе наблюдений и истинной 4D-симуляцией динамического мира. Исходный код и бенчмарк будут общедоступны по адресу https://zichengduan.github.io/LiveWorld/index.html.
В данной работе рассматривается проблема тактильного переноса политик из симуляции в реальность для задач, связанных с интенсивным контактом. Существующие методы в основном ориентированы на сенсоры на основе зрения и делают акцент на качестве рендеринга изображений, предлагая при этом излишне упрощенные модели силы и сдвига. Как следствие, эти модели демонстрируют значительный разрыв между симуляцией и реальностью для многих задач, требующих точных манипуляций. Мы представляем HydroShear — неголономный гидроупругий тактильный симулятор, который продвигает состояние дел в области, моделируя: а) переходы между сцеплением и проскальзыванием, б) зависящее от траектории нарастание силы и сдвига и в) полные SE(3) взаимодействия между объектом и сенсором. HydroShear расширяет гидроупругие модели контакта, используя функции знакового расстояния (SDF) для отслеживания перемещений точек на поверхности индентора во время физического взаимодействия с мембраной сенсора. Наш подход генерирует физически обоснованные, вычислительно эффективные силовые поля для произвольных водонепроницаемых геометрий, оставаясь независимым от базового физического движка. В экспериментах с датчиками GelSight Mini HydroShear более точно воспроизводит реальный тактильный сдвиг по сравнению с существующими методами. Эта точность позволяет осуществлять бесшаговый перенос политик обучения с подкреплением из симуляции в реальность для четырех задач: вставки штыря, упаковки в контейнер, размещения книги на полке и выдвижения ящика для точного управления захватом при проскальзывании. Наш метод достигает среднего показателя успешности 93%, превосходя политики, обученные на тактильных изображениях (34%), и альтернативные методы симуляции сдвига (58%-61%).
Дистилляция знаний (KD) широко применяется в семантической сегментации для сжатия больших моделей, однако традиционные подходы в основном сохраняют точность внутри домена, пренебрегая обобщающей способностью за его пределами, что критически важно при сдвигах распределения данных. Это ограничение усугубляется с появлением визуальных фундаментальных моделей (VFM): хотя VFM демонстрируют высокую устойчивость на невидимых данных, их дистилляция с помощью традиционной KD часто ослабляет эту способность. Мы предлагаем Обобщаемую Дистилляцию Знаний (GKD) — многоэтапную структуру, которая явно улучшает способность к обобщению. GKD разделяет обучение представлений и обучение решению задачи. На первом этапе студент приобретает доменно-независимые представления посредством селективной дистилляции признаков, а на втором этапе эти представления замораживаются для адаптации к задаче, что позволяет избежать переобучения на видимых доменах. Для дальнейшего поддержания переноса мы вводим механизм мягкой дистилляции на основе запросов, в котором признаки студента выступают в роли запросов к представлениям учителя, чтобы выборочно извлекать переносимое пространственное знание из VFM. Многочисленные эксперименты на пяти бенчмарках обобщения на новые домены показывают, что GKD стабильно превосходит существующие методы KD, достигая в среднем прироста +1.9% в дистилляции «фундаментальная-в-фундаментальную» (F2F) и +10.6% в дистилляции «фундаментальная-в-локальную» (F2L). Код будет доступен по адресу https://github.com/Younger-hua/GKD.
Современные языковые модели по-прежнему используют фиксированные, заранее определённые субсловные токенизации. После обучения токенизатора языковая модель может работать только на этом фиксированном уровне гранулярности, что часто приводит к хрупкому и контр-интуитивному поведению даже у моделей с сильными рассуждениями. Мы представляем ByteFlow Net — новую иерархическую архитектуру, которая полностью устраняет токенизаторы и вместо этого позволяет моделям самостоятельно изучать сегментацию исходных потоков байтов на семантически значимые единицы. ByteFlow Net выполняет сегментацию на основе сжатия, используя кодовую скорость латентных представлений, что позволяет получать адаптивные границы при сохранении статического графа вычислений с помощью Top-K селекции. В отличие от предыдущих методов само-токенизации, зависящих от хрупких эвристик с индуктивными смещениями, созданными человеком, ByteFlow Net адаптирует гранулярность своего внутреннего представления к самим входным данным. Эксперименты показывают, что эта стратегия чанкинга на основе сжатия обеспечивает значительный прирост производительности: ByteFlow Net превосходит как трансформеры на основе BPE, так и предыдущие байт-уровневые архитектуры. Эти результаты свидетельствуют, что сквозное моделирование без токенизаторов не только осуществимо, но и более эффективно, открывая путь к созданию более адаптивных и информационно-обоснованных языковых моделей.
Ручная оптимизация GPU-ядр является сложной и трудоемкой задачей. С быстрым развитием больших языковых моделей (LLM) автоматизированная оптимизация GPU-ядр постепенно становится достижимой реальностью. Однако современные методы автоматической оптимизации на основе LLM узко сосредоточены на задачах машинного обучения, таких как оптимизация операторов PyTorch, игнорируя более широкие области, например, операции с разреженными матрицами в научных вычислениях. Расширение на эти приложения порождает новые вызовы для бенчмарков и алгоритмов. Следовательно, разработка универсального метода автоматической оптимизации ядер становится нашей основной целью. В данной статье мы решаем проблему отсутствия систематической оценки для многопользовательских сценариев, представляя MSKernelBench — бенчмарк, охватывающий различные сценарии, включая базовые алгебраические операции, распространенные ядра LLM, операторы для разреженных матриц и процедуры научных вычислений, каждый из которых поддерживает точности FP32 и BF16. На основе этого бенчмарка мы представляем CUDAMaster — многокомпонентную, аппаратно-ориентированную систему для оптимизации ядер, которая использует данные профилирования и автоматически строит полный инструментарий компиляции и выполнения. Результаты экспериментов показывают, что CUDAMaster обеспечивает значительное ускорение для большинства операторов, превосходя Astra примерно на 35%. В ряде случаев его производительность соответствует или превосходит высокооптимизированные проприетарные библиотеки, такие как cuBLAS. Демонстрация исходного и оптимизированного кода для каждого оператора доступна по адресу https://hanyx2021.github.io/MSKernelBenchDemo/.
Предсказание реакции клеток на генетические возмущения является фундаментальной задачей для понимания функций генов, механизмов заболеваний и разработки терапий. Хотя современные подходы на основе глубокого обучения показали перспективность в моделировании ответов единичных клеток на возмущения, они испытывают трудности с обобщением across различными типами клеток и контекстами возмущений из-за ограниченной контекстной информации в процессе генерации. Мы представляем PT-RAG (Perturbation-aware Two-stage Retrieval-Augmented Generation) — новую архитектуру, которая расширяет методологию генерации с дополнением retrieval за пределы традиционных приложений языковых моделей до клеточной биологии. В отличие от стандартных RAG-систем, разработанных для retrieval текста с предобученными большими языковыми моделями, retrieval возмущений не имеет устоявшихся метрик схожести и требует обучения тому, что составляет релевантный контекст, что делает дифференцируемый retrieval необходимым. PT-RAG решает эту проблему с помощью двухэтапного конвейера: сначала осуществляется retrieval кандидатных возмущений K с использованием эмбеддингов GenePT, затем адаптивное уточнение выбора с помощью дискретной выборки Гамбела-Софтмакс, обусловленной как состоянием клетки, так и входным возмущением. Этот учитывающий тип клетки дифференцируемый retrieval позволяет осуществлять сквозную оптимизацию цели retrieval совместно с генерацией. На наборе данных по единичным генным возмущениям Replogle-Nadig мы демонстрируем, что PT-RAG превосходит как модель STATE, так и стандартную RAG в идентичных экспериментальных условиях, с наиболее значительным улучшением по метрикам распределительного сходства (W_1, W_2). Примечательно, что резкий провал стандартной RAG сам по себе является ключевым finding: он демонстрирует, что дифференцируемый retrieval, учитывающий тип клетки, необходим в данной области, и что наивный retrieval может активно ухудшать производительность. Наши результаты утверждают генерацию с дополнением retrieval в качестве перспективной парадигмы для моделирования клеточных ответов на генетические возмущения. Код для воспроизведения наших экспериментов доступен по адресу https://github.com/difra100/PT-RAG_ICLR.
Городские транспортные потоки определяются сложным нелинейным взаимодействием между конфигурацией землепользования и пространственно-временной неоднородностью мобильностного спроса. Традиционные глобальные регрессионные и временные модели не способны одновременно улавливать эту многомасштабную динамику для различных видов транспорта. В данном исследовании предлагается гибридный аналитический фреймворк GeoAI, который последовательно интегрирует многомасштабную географически взвешенную регрессию (MGWR), метод случайных лесов (RF) и пространственно-временные графовые сверточные сети (ST-GCN) для моделирования пространственно-временной неоднородности паттернов транспортных потоков и их взаимодействия с землепользованием для трех режимов передвижения: автомобильного транспорта, общественного транспорта и активной мобильности. Применение фреймворка к эмпирически калиброванному набору данных по 350 транспортным анализным зонам в шести городах с контрастными морфологиями выявило четыре ключевых результата: (i) гибридный GeoAI демонстрирует среднеквадратичную ошибку 0.119 и R^2=0.891, превосходя все базовые модели на 23-62%; (ii) SHAP-анализ определяет смешанность землепользования как наиболее значимый предиктор для автомобильных потоков, а плотность остановок — для общественного транспорта; (iii) кластеризация DBSCAN выявляет пять функционально distinct типов городского трафика с силуэтным score 0.71, а остатки гибридной модели показывают Moran's I=0.218 (p<0.001), что на 72% ниже базовых показателей OLS; (iv) эксперименты по межгородскому переносу демонстрируют умеренную трансферабельность внутри кластеров (R^2>=0.78) и ограниченную обобщаемость между кластерами, подчеркивая primacy урбанистического морфологического контекста. Фреймворк предоставляет планировщикам и транспортным инженерам интерпретируемый и масштабируемый инструментарий для evidence-based управления multimodal мобильностью и проектирования политик землепользования.
Отслеживание произвольных точек (TAP) — фундаментальная, но сложная задача компьютерного зрения, требующая высокой точности и долгосрочного анализа движения. Недавние попытки комбинировать RGB-кадры и потоки событий показали перспективность, однако обычно они основываются на синхронном или неадаптивном слиянии, что приводит к временному рассогласованию и значительному ухудшению при отказе одной из модальностей. Мы представляем TAPFormer — трансформерную архитектуру, выполняющую асинхронное временно-согласованное слияние кадров и событий для робастного и высокочастотного отслеживания произвольных точек. Нашим ключевым нововведением является механизм транзиентного асинхронного слияния (TAF), который явно моделирует временную эволюцию между дискретными кадрами посредством непрерывных событийных обновлений, устраняя разрыв между низкочастотными кадрами и высокочастотными событиями. Кроме того, модуль кросс-модального локально-взвешенного слияния (CLWF) адаптивно регулирует пространственное внимание в соответствии с надежностью модальностей, формируя стабильные и дискриминативные признаки даже в условиях размытия или низкой освещенности. Для оценки нашего подхода в реалистичных условиях мы создали новый набор данных TAP для кадров и событий в реальном мире при различных условиях освещения и движения. Наш метод превосходит существующие трекеры точек, демонстрируя улучшение средней ошибки в пикселях на 28.2% в пределах порога. Более того, на стандартных бенчмарках отслеживания точек наш трекер стабильно показывает наилучшие результаты. Сайт проекта: tapformer.github.io
Карты потоков позволяют генерировать высококачественные изображения за один прямой проход. Однако, в отличие от итеративных диффузионных моделей, отсутствие у них явной траектории сэмплинга затрудняет включение внешних ограничений для условной генерации и решения обратных задач. Мы предлагаем Вариационные Карты Потоков (Variational Flow Maps, VFM) — фреймворк для условного сэмплинга, который смещает перспективу обусловливания от «направления пути сэмплинга» к «обучению правильному начальному шуму». Конкретно, имея наблюдение, мы стремимся обучить модель-адаптер шума, которая выдает распределение шума таким образом, чтобы после отображения в пространство данных с помощью карты потока сэмплы соответствовали наблюдению и априорному распределению данных. Для этого мы разрабатываем принципиально вариационную цель, которая совместно обучает адаптер шума и карту потока, улучшая соответствие между шумом и данными, так что сэмплирование из сложного апостериорного распределения данных достигается с помощью простого адаптера. Эксперименты на различных обратных задачах показывают, что VFM производит хорошо калиброванные условные сэмплы за один (или несколько) шагов. Для ImageNet VFM достигает конкурентоспособной точности, ускоряя сэмплирование на порядки по сравнению с альтернативными итеративными диффузионными/потоковыми моделями. Код доступен по адресу https://github.com/abbasmammadov/VFM.
Слайды служат ключевым средством передачи информации в презентационных сценариях, таких как академическая среда, образование и бизнес. Несмотря на их важность, создание качественных наборов слайдов остается трудоемким и когнитивно сложным процессом. Последние достижения в области генеративных моделей, такие как Nano Banana Pro, сделали автоматизированное создание слайдов все более осуществимым. Однако существующие оценки генерации слайдов часто являются крупнозернистыми и опираются на целостные суждения, что затрудняет точную оценку возможностей моделей или отслеживание значительных успехов в данной области. На практике отсутствие детализированных, проверяемых критериев оценки создает серьезное препятствие как для исследований, так и для практического внедрения. В данной статье мы предлагаем PresentBench — детализированный бенчмарк на основе рубрик для оценки автоматизированного создания слайдов в реальных условиях. Он содержит 238 примеров для оценки, каждый из которых дополнен исходными материалами, необходимыми для создания слайдов. Кроме того, мы вручную разработали в среднем 54.1 пункта контрольного списка для каждого примера, сформулированных в виде бинарных вопросов, чтобы обеспечить детализированную, специфичную для каждого случая оценку генерируемых наборов слайдов. Масштабные эксперименты показывают, что PresentBench обеспечивает более надежные результаты оценки по сравнению с существующими методами и демонстрирует значительно более сильное соответствие человеческим предпочтениям. Более того, наш бенчмарк выявляет, что NotebookLM значительно превосходит другие методы генерации слайдов, подчеркивая существенный прогресс в этой области.
Генеративные диффузионные модели все чаще используются для аугментации данных медицинской визуализации, однако текстовые промты не позволяют создавать причинно-следственные тренировочные данные. Повторное генерирование по промту полностью изменяет траекторию генерации, искажая анатомию, текстуру и фон. Методы редактирования на основе инверсии вносят ошибку реконструкции, приводящую к структурному дрейфу. Мы предлагаем MedSteer — бестренировочный фреймворк для эндоскопического синтеза на основе управления активациями. MedSteer идентифицирует вектор патологии для каждой контрастной пары промтов в кросс-аттенционных слоях диффузионного трансформера. На этапе вывода метод направляет активации изображения вдоль этого вектора, генерируя с нуля контрафактуальные пары, в которых единственное различие заключается в управляемом концепте. Вся остальная структура сохраняется по построению. Мы оцениваем MedSteer в трех экспериментах на наборах данных Kvasir v3 и HyperKvasir. При генерации контрафактуальных данных для трех клинических пар концептов MedSteer демонстрирует частоту смены признаков 0.800, 0.925 и 0.950, превосходя лучший инверсионный базовый метод как по частоте смены концепта, так и по сохранению структуры. В задаче разделения признаков красителя MedSteer обеспечивает 75% удаления красителя против 20% (PnP) и 10% (h-Edit). При использовании в задаче детекции полипов аугментация контрафактуальными парами MedSteer достигает AUC ViT 0.9755 против 0.9083 при количественно сопоставимом повторном генерировании по промтам, что подтверждает ключевую роль контрафактуальной структуры в улучшении результатов. Код доступен по ссылке https://github.com/phamtrongthang123/medsteer
Разнообразие выходных данных в генерации текста необходимо для эффективного исследования в сложных задачах логического рассуждения, таких как генерация кода и решение математических задач. Подобные задачи Pass@k выигрывают от наличия различных кандидатов, покрывающих пространство решений. Однако традиционные подходы к сэмплированию часто тратят вычислительные ресурсы на повторяющиеся режимы сбоев. Хотя диффузионные языковые модели стали конкурентоспособной альтернативой преобладающей авторегрессионной парадигме, они остаются подверженными этой избыточности, когда независимые сэмплы часто схлопываются в схожие режимы. Для решения этой проблемы мы предлагаем бесплатное с точки зрения обучения и малозатратное вмешательство для повышения генеративного разнообразия в диффузионных языковых моделях. Наш подход последовательно модифицирует промежуточные сэмплы в батче, где каждый сэмпл отталкивается от пространства признаков предыдущих сэмплов, активно штрафуя избыточность. В отличие от предыдущих методов, требующих переобучения или поиска по лучу, наша стратегия влечет незначительные вычислительные накладные расходы, гарантируя, что каждый сэмпл вносит уникальную перспективу в батч. Мы оцениваем наш метод на бенчмарках HumanEval и GSM8K, используя модель LLaDA-8B-Instruct. Наши результаты демонстрируют значительное улучшение разнообразия и производительности Pass@k при различных настройках температуры. Как простая модификация процесса сэмплирования, наш метод предлагает немедленное, малозатратное улучшение для текущих и будущих диффузионных языковых моделей в задачах, выигрывающих от разнообразного поиска решений. Наш код доступен по адресу https://github.com/sean-lamont/odd.
Мы исследуем самодиффузиофорез сферической химически активной частицы вблизи плоской непроницаемой стенки, уделяя основное внимание влиянию ориентации частицы на движение. Мы анализируем частицу Янус с асимметричной химической активностью поверхности, состоящую из небольшой инертной области внутри каталитически активного колпачка. Хотя для изучения таких частиц использовались численные модели, они сталкиваются с трудностями при разрешении течения и переноса в режиме экстремального приближения к стенке из-за геометрического ограничения и крутых градиентов концентрации растворенного вещества. Мы преодолеваем это ограничение с помощью асимптотического анализа в пределе ближнего контакта, где зазор между частицей и стенкой мал. В частности, мы рассматриваем выделенный предел, в котором размер инертной области асимптотически сравним с размером области смазочного слоя. Мы анализируем осесимметричную конфигурацию, в которой инертная грань ориентирована параллельно стенке, и распространяем анализ на слегка наклоненные ориентации. Мы обнаруживаем, что опрокидывание определяет, будет ли наклоненная частица поворачиваться обратно к осесимметричному состоянию или продолжит переориентацию, что характеризует её вращательную устойчивость в режиме ближнего контакта.
Современные агенты графического интерфейса пользователя (GUI) на основе визуально-языковых моделей (VLM) должны не только точно выполнять действия, но и оперативно реагировать на пользовательские инструкции. В то время как существующие исследования безопасности GUI-агентов в основном сосредоточены на манипулировании корректностью действий, риски безопасности, связанные с эффективностью отклика, остаются практически не изученными. В данной статье мы представляем SlowBA — новую атаку типа «бэкдор», нацеленную на отзывчивость VLM-агентов GUI. Ключевая идея заключается в манипулировании задержкой ответа путем индуцирования чрезмерно длинных цепочек рассуждений при определенных триггерных паттернах. Для достижения этой цели мы предлагаем двухэтапную стратегию внедрения бэкдора на уровне вознаграждений (RBI), которая сначала выравнивает формат длинного ответа, а затем обучает триггерно-активируемое поведение с помощью обучения с подкреплением. Кроме того, мы разработали реалистичные всплывающие окна в качестве триггеров, естественным образом появляющихся в средах GUI, что повышает скрытность атаки. Многочисленные эксперименты на различных наборах данных и базовых моделях демонстрируют, что SlowBA способна значительно увеличить длину ответа и задержку, при этом в значительной степени сохраняя точность выполнения задач. Атака остается эффективной даже при малой доли заражения данных и в условиях применения нескольких защитных механизмов. Эти результаты выявляют ранее упускаемую уязвимость безопасности в GUI-агентах и подчеркивают необходимость разработки защитных мер, учитывающих как корректность действий, так и эффективность отклика. Код доступен по адресу https://github.com/tu-tuing/SlowBA.
Обучение с подражанием (IL) позволяет роботам осваивать манипуляционные навыки на основе экспертных демонстраций. Метод Diffusion Policy (DP) моделирует многомодальное поведение эксперта, но страдает от деградации производительности с увеличением горизонта наблюдения, что ограничивает его применение в задачах долгосрочного манипулирования. Мы предлагаем модуль Self-Evolving Gated Attention (SEGA), который поддерживает эволюционирующее во времени латентное состояние с помощью механизма gated attention, обеспечивая эффективные рекуррентные обновления. Это позволяет сжимать наблюдения за длительный период в представление фиксированного размера, одновременно фильтруя нерелевантную временную информацию. Интеграция SEGA в DP дает метод Self-Evolving Diffusion Policy (SeedPolicy), который устраняет узкое место временного моделирования и позволяет масштабируемо расширять горизонт планирования с умеренными вычислительными затратами. На наборе данных RoboTwin 2.0, содержащем 50 задач манипулирования, SeedPolicy превосходит DP и другие базовые методы IL. В среднем для бэкбонов на основе CNN и Transformer SeedPolicy демонстрирует относительное улучшение на 36.8% в чистых условиях и на 169% в усложненных рандомизированных условиях по сравнению с DP. По сравнению с моделями типа «визуальный язык-действие», такими как RDT с 1.2 млрд параметров, SeedPolicy показывает сопоставимую производительность, используя на один-два порядка меньше параметров, что демонстрирует высокую эффективность и масштабируемость. Эти результаты устанавливают SeedPolicy как передовой метод обучения с подражанием для долгосрочного роботизированного манипулирования. Код доступен по адресу: https://github.com/Youqiang-Gui/SeedPolicy.
Модели мира позволяют осуществлять планирование в предсказанном воображаемом будущем пространстве, предлагая многообещающую основу для навигации в телесном воплощении. Однако существующие модели мира для навигации часто страдают от недостаточной согласованности по условию действия, из-за чего визуально правдоподобные предсказания могут смещаться при многошаговом развертывании и ухудшать качество планирования. Более того, эффективное развертывание требует диффузионного вывода за малое количество шагов, но существующие методы дистилляции явно не сохраняют согласованность развертывания, создавая несоответствие между обучением и выводом. Для решения этих задач мы предлагаем MWM — мобильную модель мира для навигации к цели, заданной изображением, на основе планирования. В частности, мы вводим двухэтапную схему обучения, которая сочетает предварительное обучение структуры с последующим дообучением на Согласованности по Условию Действия (Action-Conditioned Consistency, ACC) для улучшения согласованности развертывания при условии действия. Мы также представляем Дистилляцию Состояний с Согласованностью Вывода (Inference-Consistent State Distillation, ICSD) для дистилляции диффузии за малое число шагов с улучшенной согласованностью развертывания. Наши эксперименты на бенчмарках и реальных задачах демонстрируют стабильное улучшение по визуальному правдоподобию, точности траекторий, успешности планирования и эффективности вывода. Код: https://github.com/AIGeeksGroup/MWM. Веб-сайт: https://aigeeksgroup.github.io/MWM.