Ежедневно отобранные исследовательские статьи по ИИ с переводами
Память является критически важной для искусственных интеллектуальных агентов, однако широко используемая статическая память, направленная на создание заранее доступных данных, неизбежно подвержена значительным потерям информации. Для преодоления этого ограничения мы предлагаем новую концепцию, называемую общей агентной памятью (General Agentic Memory, GAM). GAM следует принципу «компиляции точно в срок» (just-in-time, JIT), фокусируясь на создании оптимизированных контекстов для клиента во время выполнения, сохраняя при этом только простую, но полезную память на этапе оффлайн. Для достижения этой цели GAM использует двойную архитектуру, состоящую из следующих компонентов. 1) Запоминающее устройство (Memorizer), которое выделяет ключевую историческую информацию с использованием легковесной памяти, сохраняя при этом полную историческую информацию в универсальном хранилище страниц. 2) Исследователь (Researcher), который извлекает и интегрирует полезную информацию из хранилища страниц для онлайн-запросов, руководствуясь предварительно построенной памятью. Такая архитектура позволяет GAM эффективно использовать агентные возможности и масштабируемость передовых больших языковых моделей (LLM) во время тестирования, а также оптимизировать производительность на всех этапах с помощью обучения с подкреплением. В нашем экспериментальном исследовании мы демонстрируем, что GAM достигает значительного улучшения в различных сценариях выполнения задач, основанных на памяти, по сравнению с существующими системами памяти.
Люди естественным образом адаптируются к разнообразным средам, изучая базовые правила в мирах с различной динамикой, наблюдениями и структурами вознаграждений. В отличие от этого, существующие агенты обычно демонстрируют улучшения путем саморазвития в рамках единственной области, что подразумевает фиксированное распределение среды. Межсредовое обучение до сих пор в значительной степени не измерялось: отсутствует стандартный набор контролируемых, гетерогенных сред, а также унифицированный способ представления того, как агенты обучаются. Мы устраняем эти пробелы в два этапа. Во-первых, мы предлагаем AutoEnv — автоматизированную систему, которая рассматривает среды как факторизуемые распределения по переходам, наблюдениям и вознаграждениям, что позволяет с низкими затратами (в среднем 4,12 долл. США) генерировать гетерогенные миры. С помощью AutoEnv мы создали AutoEnv-36 — набор данных из 36 сред с 358 проверенными уровнями, на которых семь языковых моделей достигают 12–49% нормированного вознаграждения, что демонстрирует сложность AutoEnv-36. Во-вторых, мы формализуем обучение агента как компонентно-ориентированный процесс, управляемый тремя стадиями — Выбор, Оптимизация и Оценка, — применяемыми к улучшаемому компоненту агента. Используя эту формулировку, мы разрабатываем восемь методов обучения и оцениваем их на AutoEnv-36. Эмпирически показано, что выигрыш от любого отдельного метода обучения быстро уменьшается с ростом числа сред, что свидетельствует о неспособности фиксированных методов обучения масштабироваться в гетерогенных средах. Адаптивный к среде выбор методов обучения существенно улучшает производительность, но демонстрирует убывающую отдачу по мере расширения пространства методов. Эти результаты подчеркивают как необходимость, так и текущие ограничения обучения агентов для масштабируемой межсредовой генерализации и позиционируют AutoEnv и AutoEnv-36 в качестве испытательного стенда для изучения межсредового обучения агентов. Код доступен по адресу https://github.com/FoundationAgents/AutoEnv.
Пиксельная диффузия ставит целью генерацию изображений непосредственно в пространстве пикселей сквозным образом. Данный подход позволяет избежать ограничений VAE в двухэтапной латентной диффузии, обеспечивая более высокую емкость модели. Существующие модели пиксельной диффузии страдают от медленного обучения и вывода, поскольку они обычно моделируют как высокочастотные сигналы, так и низкочастотную семантику в рамках единого диффузионного трансформера (DiT). В поисках более эффективной парадигмы пиксельной диффузии мы предлагаем частотно-развязанную структуру пиксельной диффузии. Руководствуясь интуицией о необходимости разделения генерации высокочастотных и низкочастотных компонентов, мы используем облегченный пиксельный декодер для генерации высокочастотных деталей, обусловленных семантическими ориентирами от DiT. Это позволяет DiT специализироваться на моделировании низкочастотной семантики. Кроме того, мы вводим частотно-чувствительную loss-функцию flow-matching, которая акцентирует визуально значимые частоты, подавляя незначимые. Многочисленные эксперименты показывают, что DeCo демонстрирует превосходную производительность среди моделей пиксельной диффузии, достигая FID 1.62 (256x256) и 2.22 (512x512) на ImageNet, сокращая разрыв с методами латентной диффузии. Более того, наша предобученная тексто-изобразительная модель достигает лидирующего общего балла 0.86 на GenEval в системном сравнении. Код общедоступен по адресу https://github.com/Zehong-Ma/DeCo.
Глубокие исследовательские модели выполняют многошаговое исследование для генерации развернутых, хорошо аргументированных ответов. Однако большинство открытых глубоких исследовательских моделей обучаются на легко проверяемых задачах кратких вопросов-ответов с помощью обучения с подкреплением с проверяемыми вознаграждениями (RLVR), что не распространяется на реалистичные задачи с длинными ответами. Мы решаем эту проблему с помощью Обучения с подкреплением с эволюционирующими рубриками (RLER), в рамках которого мы создаем и поддерживаем рубрики, коэволюционирующие с политикой модели в процессе обучения; это позволяет рубрикам включать информацию, недавно исследованную моделью, и предоставлять дискриминативную обратную связь на основе текущей политики. Используя RLER, мы разработали Deep Research Tulu (DR Tulu-8B) — первую открытую модель, непосредственно обученную для открытого глубокого исследования с длинными ответами. На четырех benchmarks глубокого исследования с длинными ответами в областях науки, здравоохранения и общего назначения DR Tulu существенно превосходит существующие открытые глубокие исследовательские модели и соответствует или превосходит проприетарные системы глубокого исследования, будучи при этом значительно меньше и дешевле в расчете на запрос. Для содействия будущим исследованиям мы публикуем все данные, модели и код, включая нашу новую агентскую инфраструктуру на основе MCP для систем глубокого исследования.
Агенты компьютерного взаимодействия (CUA) становятся все более способными к автономной работе в цифровых средах через графические пользовательские интерфейсы (GUI). Однако большинство GUI по-прежнему проектируются в первую очередь для людей — с приоритетом эстетики и удобства использования — что вынуждает агентов адаптировать человеко-ориентированное поведение, избыточное для эффективного выполнения задач. В то же время быстрый прогресс в языковых моделях, ориентированных на программирование (Coder), преобразовал автоматизированное проектирование GUI. Это поднимает фундаментальный вопрос: могут ли CUA выступать в роли судей для помощи Coder в автоматизированном проектировании GUI? Для исследования мы представляем AUI-Gym — бенчмарк для автоматической разработки GUI, охватывающий 52 приложения из различных областей. Используя языковые модели, мы синтезировали 1560 задач, моделирующих реальные сценарии. Для обеспечения надежности задач мы дополнительно разработали верификатор, который программно проверяет, выполнима ли каждая задача в своей среде. На основе этого мы предлагаем фреймворк Collaboration Coder-CUA: Coder выступает в роли Дизайнера, генерируя и редактируя веб-сайты, а CUA служит Судьей, оценивая функциональность и совершенствуя проекты. Успех измеряется не визуальным видом, а решаемостью задач и успешностью навигации CUA. Чтобы преобразовать обратную связь от CUA в полезные рекомендации, мы разрабатываем CUA Dashboard, который сжимает многошаговые истории навигации в сжатые визуальные сводки, предлагая интерпретируемые руководства для итеративного перепроектирования. Позиционируя агентов одновременно как дизайнеров и судей, наш фреймворк смещает проектирование интерфейсов в сторону эффективности и надежности, ориентированной на агентов. Наша работа представляет собой шаг к переходу агентов от пассивного использования к активному участию в цифровых средах. Наш код и набор данных доступны по адресу https://github.com/showlab/AUI.
Трансформеры диффузии недавно продемонстрировали высокое качество генерации изображений из текста в разрешении около 1K, однако наше исследование показывает, что их масштабирование до нативного 4K с разнообразными соотношениями сторон выявляет тесно связанный режим сбоя, затрагивающий позиционное кодирование, сжатие VAE и оптимизацию. Решение любой из этих проблем по отдельности оставляет существенный потенциал качества нереализованным. Поэтому мы применяем подход совместного проектирования данных и модели и представляем UltraFlux — основанный на Flux диффузионный трансформер, обученный нативно в 4K на наборе данных MultiAspect-4K-1M. Этот корпус из 1 миллиона 4K-изображений обеспечивает контролируемое покрытие различных соотношений сторон, двуязычные описания и богатые метаданные VLM/IQA для сэмплинга с учетом разрешения и соотношения сторон. Со стороны модели UltraFlux сочетает: (i) Resonance 2D RoPE с YaRN для позиционного кодирования, учитывающего размер окна обучения, частоты и соотношения сторон в 4K; (ii) простую неадверсариальную схему пост-тренировочной доработки VAE, повышающую точность реконструкции в 4K; (iii) SNR-Aware Huber Wavelet функцию потерь, перебалансирующую градиенты по временным шагам и частотным полосам; и (iv) поэтапную стратегию эстетического curriculum learning, концентрирующую supervision высокоэстетичных примеров на шагах с высоким шумом, управляемых априорной моделью. В совокупности эти компоненты создают стабильный 4K диффузионный трансформер, сохраняющий детализацию и обобщающийся для широких, квадратных и высоких соотношений сторон. На бенчмарке Aesthetic-Eval при 4096 и в мульти-AR 4K настройках UltraFlux последовательно превосходит сильные открытые базовые линии по метрикам fidelity, эстетики и соответствия тексту, а с использованием LLM-рефайтера промптов достигает или превосходит результаты проприетарной модели Seedream 4.0.
Крупномасштабные генеративные модели для видео в последнее время продемонстрировали высокие визуальные способности, позволяя предсказывать последующие кадры, которые соответствуют логическим и физическим закономерностям, выявленным в текущем наблюдении. В данной работе мы исследуем, можно ли использовать такие возможности для управляемой генерации видео из изображений, интерпретируя визуальные сигналы, встроенные в кадры, как инструкции — парадигму, которую мы называем «инструктирование в видео». В отличие от управления на основе текстовых описаний, которые по своей природе являются глобальными и обобщенными, инструктирование в видео кодирует указания пользователя непосредственно в визуальной области с помощью таких элементов, как наложенный текст, стрелки или траектории. Это позволяет устанавливать явные, пространственно-ориентированные и однозначные соответствия между визуальными объектами и их предполагаемыми действиями за счет назначения различных инструкций разным объектам. Многочисленные эксперименты с тремя современными генераторами, включая Veo 3.1, Kling 2.5 и Wan 2.2, показывают, что видеомодели могут надежно интерпретировать и выполнять такие визуально встроенные инструкции, особенно в сложных сценариях с множеством объектов.
Масштабирование вычислительных ресурсов на этапе тестирования повышает производительность больших языковых моделей (LLM) при решении различных задач, что также было распространено на агентов, дополненных инструментами. Для таких агентов масштабирование включает не только «мышление» в токенах, но и «действие» посредством вызовов инструментов. Количество вызовов инструментов напрямую ограничивает взаимодействие агента с внешней средой. Однако мы обнаруживаем, что простое предоставление агентам большего бюджета на вызовы инструментов не улучшает производительность, поскольку они не обладают «осознанием бюджета» и быстро достигают потолка эффективности. Чтобы решить эту проблему, мы исследуем, как эффективно масштабировать таких агентов при явно заданных бюджетах на вызовы инструментов, фокусируясь на агентах веб-поиска. Сначала мы представляем Budget Tracker — легковесный плагин, который обеспечивает агенту постоянное осознание бюджета, позволяя простое, но эффективное масштабирование. Далее мы разрабатываем BATS (Budget Aware Test-time Scaling) — продвинутую систему, которая использует это осознание для динамической адаптации стратегии планирования и проверки, решая, «углубиться ли» в перспективное направление или «переключиться» на новые пути в зависимости от оставшихся ресурсов. Для анализа масштабирования «затраты-производительность» контролируемым образом мы формализуем унифицированную метрику затрат, совместно учитывающую потребление токенов и инструментов. Мы представляем первое систематическое исследование агентов с ограниченным бюджетом, показывающее, что методы с осознанием бюджета создают более благоприятные кривые масштабирования и расширяют границу Парето «затраты-эффективность». Наша работа предоставляет эмпирические insights для более прозрачного и принципиального понимания масштабирования инструментально-расширенных агентов.
Модели «зрение–язык» (Vision-Language Models, VLM) преуспевают в рассуждениях в лингвистическом пространстве, но испытывают трудности с перцептивным пониманием, требующим плотного визуального восприятия, например, пространственного мышления и геометрического осознания. Это ограничение проистекает из того факта, что современные VLM имеют ограниченные механизмы для захвата плотной визуальной информации в пространственных измерениях. Мы представляем Chain-of-Visual-Thought (COVT) — фреймворк, который позволяет VLM рассуждать не только словами, но и с помощью непрерывных визуальных токенов — компактных латентных представлений, кодирующих богатые перцептивные признаки. В рамках небольшого бюджета примерно в 20 токенов COVT извлекает знания от облегченных визуальных экспертов, захватывая дополнительные свойства, такие как 2D-внешний вид, 3D-геометрия, пространственная компоновка и структура границ. Во время обучения VLM с COVT авторегрессивно предсказывает эти визуальные токены для реконструкции плотных сигналов супервизии (например, глубины, сегментации, границ и DINO-признаков). На этапе вывода модель рассуждает непосредственно в пространстве непрерывных визуальных токенов, сохраняя эффективность, с возможностью декодирования плотных предсказаний для интерпретируемости. Оценка на более чем десяти разнообразных перцептивных бенчмарках, включая CV-Bench, MMVP, RealWorldQA, MMStar, WorldMedQA и HRBench, показала, что интеграция COVT в мощные VLM, такие как Qwen2.5-VL и LLaVA, стабильно улучшает производительность на 3–16% и демонстрирует, что компактное непрерывное визуальное мышление обеспечивает более точный, обоснованный и интерпретируемый мультимодальный интеллект.
Мы представляем HunyuanVideo 1.5 — легковесную, но мощную модель генерации видео с открытым исходным кодом, которая достигает передового качества визуализации и согласованности движения всего с 8.3 миллиардами параметров, обеспечивая эффективный вывод на потребительских графических процессорах. Этот результат основан на нескольких ключевых компонентах: тщательной обработке данных, усовершенствованной архитектуре DiT с избирательным и скользящим мозаичным вниманием (SSTA), улучшенном двуязычном понимании за счет глиф-ориентированного текстового кодирования, прогрессивном предварительном и пост-обучении, а также эффективной сети повышения разрешения видео. Благодаря этим решениям мы разработали унифицированную структуру, способную генерировать высококачественные видео по текстовому описанию и из изображений в различных длительностях и разрешениях. Многочисленные эксперименты демонстрируют, что эта компактная и эффективная модель устанавливает новый рекорд среди моделей генерации видео с открытым исходным кодом. Опубликовав код и веса модели, мы предоставляем сообществу высокопроизводительную основу, которая снижает барьер для создания видео и исследований, делая передовые технологии генерации доступными для широкой аудитории. Все ресурсы с открытым кодом доступны по адресу https://github.com/Tencent-Hunyuan/HunyuanVideo-1.5.
Надежная функция вознаграждения крайне важна для обучения с подкреплением (RL) в задаче генерации изображений. Большинство современных подходов RL полагаются на предварительно обученные модели предпочтений, которые выводят скалярные вознаграждения для аппроксимации человеческих предпочтений. Однако эти вознаграждения часто не отражают человеческое восприятие и уязвимы для взлома (reward hacking), когда более высокие баллы не соответствуют лучшим изображениям. Для решения этой проблемы мы представляем Adv-GRPO — RL-фреймворк с адверсарным вознаграждением, который итеративно обновляет как модель вознаграждения, так и генератор. Модель вознаграждения обучается с учителем, используя эталонные изображения в качестве позитивных примеров, что позволяет в значительной степени избежать взлома. В отличие от KL-регуляризации, которая ограничивает обновления параметров, наше обученное вознаграждение напрямую направляет генератор через его визуальные выходы, что приводит к созданию изображений более высокого качества. Более того, хотя оптимизация существующих функций вознаграждения может смягчить проблему взлома, их внутренние смещения остаются. Например, PickScore может ухудшать качество изображения, тогда как вознаграждения на основе OCR часто снижают эстетическую достоверность. Чтобы решить эту проблему, мы используем само изображение в качестве вознаграждения, применяя эталонные изображения и фундаментальные модели компьютерного зрения (например, DINO) для предоставления богатых визуальных вознаграждений. Эти плотные визуальные сигналы, в отличие от единственного скаляра, приводят к последовательному улучшению по метрикам качества изображения, эстетики и специфичным для задачи показателям. Наконец, мы показываем, что комбинация эталонных образцов с вознаграждениями от фундаментальных моделей позволяет осуществлять перенос распределения и гибкую настройку стиля. При оценке людьми наш метод превосходит Flow-GRPO и SD3, достигая 70.0% и 72.4% процентов предпочтений по качеству изображения и эстетике соответственно. Код и модели были опубликованы.
Радиология играет ключевую роль в современной медицине, однако рост объемов визуализации значительно опередил увеличение числа специалистов. Фундаментальные модели предлагают путь к автоматизации всего спектра радиологических задач, но существующие медицинские модели остаются ограниченными: они обрабатывают объемные КТ и МРТ как низкокачественные 2D-срезы, отбрасывают критически важную информацию о градациях серого и не имеют оценочных框架, отражающих реальную клиническую практику. Мы представляем Pillar-0 — фундаментальную модель для радиологии, предварительно обученную на 42 990 КТ органов малого таза, 86 411 КТ грудной клетки, 14 348 КТ головы и 11 543 МРТ молочных желез из крупного академического центра, вместе с RATE — масштабируемой框架 для извлечения структурированных меток по 366 радиологическим находкам с почти идеальной точностью с использованием больших языковых моделей. На внутренних тестовых наборах из 14 230 КТ органов малого таза, 10 646 КТ грудной клетки, 4 906 КТ головы и 1 585 МРТ молочных желез Pillar-0 устанавливает новый рубеж производительности, достигая средних значений AUROC 86.4, 88.0, 90.1 и 82.9, превосходя MedGemma (Google), MedImageInsight (Microsoft), Lingshu (Alibaba) и Merlin (Stanford) на 7.8–15.8 пунктов AUROC и занимая первое место в 87.2% (319/366) задач. Pillar-0 аналогично превосходит все базовые модели при внешней валидации на наборе данных Stanford Abdominal CT, включая Merlin (82.2 против 80.6 AUROC). Pillar-0 расширяется на задачи за пределами предварительного обучения, такие как долгосрочное прогнозирование риска рака легких, где она улучшает state-of-the-art модель Sybil на 3.0 пункта C-index на NLST и обобщается с улучшениями на 5.9 (MGH) и 1.9 (CGMH). В задаче обнаружения кровоизлияний в мозг Pillar-0 достигла AUROC >95, используя лишь 1/20 данных от следующей наиболее эффективной по выборке базовой модели. Pillar-0 и RATE вместе представляют открытую, клинически строгую основу для построения высокопроизводительных радиологических систем, позволяя реализовывать приложения, ранее невозможные из-за вычислительных, данных и оценочных ограничений.
Трансформеры диффузионных моделей продемонстрировали выдающиеся способности в визуальном синтезе, однако часто испытывают трудности с семантическими рассуждениями высокого уровня и долгосрочным планированием. Это ограничение регулярно приводит к визуальным галлюцинациям и рассогласованию с пользовательскими инструкциями, особенно в сценариях, требующих сложного понимания сцены, взаимодействий человек-объект, многоэтапных действий и контекстного анализа движения. Для решения этих проблем мы предлагаем Plan-X — фреймворк, который явно обеспечивает семантическое планирование высокого уровня для управления процессом генерации видео. Его основой является Семантический Планировщик, обучаемая мультимодальная языковая модель, которая анализирует намерения пользователя на основе текстовых промптов и визуального контекста, а также авторегрессивно генерирует последовательность текстово-обоснованных пространственно-временных семантических токенов. Эти семантические токены, дополняющие руководство текстовыми промптами высокого уровня, служат структурированными «семантическими эскизами» во времени для видео-диффузионной модели, сильной стороной которой является синтез визуальных деталей высокой точности. Plan-X эффективно интегрирует преимущества языковых моделей в мультимодальном контекстном анализе и планировании с преимуществами диффузионных моделей в фотореалистичном синтезе видео. Многочисленные эксперименты демонстрируют, что наш фреймворк существенно снижает визуальные галлюцинации и обеспечивает детализированную генерацию видео, согласованную с инструкциями и мультимодальным контекстом.
Мульти-агентные системы демонстрируют высокую производительность на задачах общего рассуждения. Однако отсутствие обучения в специализированных областях снижает их точность. Современные методы обучения тренируют единую большую языковую модель (LLM) для всех агентов системы, что может ограничивать производительность из-за различных распределений, лежащих в основе разных агентов. Следовательно, следующим шагом должна стать разработка обучения мульти-агентных систем с различными LLM. Однако этот подход создает проблемы оптимизации. Например, агенты работают на разных частотах, развертывания включают вызовы различных под-агентов, а агенты часто развертываются на отдельных серверах, что нарушает сквозной поток градиентов. Для решения этих проблем мы предлагаем M-GRPO — иерархическое расширение Group Relative Policy Optimization, предназначенное для вертикальных мульти-агентных систем с главным агентом (планировщиком) и несколькими под-агентами (исполнителями многошаговых инструментов). M-GRPO вычисляет групповые относительные преимущества как для главного, так и для под-агентов, сохраняя иерархическое распределение заслуг. Также вводится схема выравнивания траекторий, которая генерирует пакеты фиксированного размера, несмотря на переменное количество вызовов под-агентов. Мы развертываем разделенный конвейер обучения, в котором агенты работают на отдельных серверах и обмениваются минимальной статистикой через общее хранилище. Это позволяет масштабировать обучение без перекрестного распространения ошибки между серверами. В экспериментах на реальных тестовых наборах (например, GAIA, XBench-DeepSearch и WebWalkerQA) M-GRPO последовательно превосходит как одноагентный GRPO, так и мульти-агентный GRPO с замороженными под-агентами, демонстрируя улучшенную стабильность и эффективность использования выборок. Эти результаты показывают, что выравнивание гетерогенных траекторий и разделение оптимизации между специализированными агентами улучшает выполнение задач рассуждения с использованием инструментов.
Мы представляем M³-Bench — первый эталонный комплекс для оценки мультимодального использования инструментов в рамках протокола Model Context Protocol. Комплекс ориентирован на реалистичные многошаговые и многопоточные рабочие процессы, требующие визуального обоснования и текстовых рассуждений, кросс-инструментальных зависимостей и сохранения промежуточных ресурсов между шагами. Мы предлагаем подход выравнивания на основе схожести, который сериализует каждый вызов инструмента, векторизует сигнатуры с помощью sentence-энкодера и выполняет венгерское сопоставление с группировкой по схожести для получения проверяемых взаимно-однозначных соответствий. На основе этого выравнивания мы рассчитываем интерпретируемые метрики, разделяющие семантическую точность и согласованность workflow. Комплекс охватывает 28 серверов с 231 инструментом и предоставляет стандартизированные траектории, отобранные с помощью конвейера Executor & Judge с человеческой проверкой; вспомогательный ансамбль из четырех больших языковых моделей (LLM) оценивает завершение задачи и обоснованность информации. Оценки репрезентативных современных мультимодальных LLM (MLLM) выявляют устойчивые пробелы в мультимодальном использовании инструментов MCP, особенно в точности аргументов и структурной согласованности, подчеркивая необходимость методов, совместно рассуждающих над изображениями, текстом и графами инструментов. Анонимный репозиторий нашего комплекса доступен по адресу https://github.com/EtaYang10th/Open-M3-Bench.
Мы представляем One4D — унифицированную систему для генерации и реконструкции 4D-контента, которая создает динамические 4D-данные в виде синхронизированных RGB-кадров и карт точек. Благодаря единому механизму маскированного кондиционирования (Unified Masked Conditioning, UMC), который последовательно обрабатывает различную степень разреженности входных кадров, One4D обеспечивает плавный переход между генерацией 4D из одного изображения, реконструкцией 4D из полного видео, а также смешанной генерацией и реконструкцией по разреженным кадрам. Наша система адаптирует мощную модель генерации видео для совместного создания RGB и карт точек с тщательно продуманной архитектурой сети. Стандартные стратегии тонкой настройки диффузионных моделей для реконструкции карт глубины или точек часто оказываются неэффективными при совместной генерации RGB и карт точек, быстро ухудшая качество базовой видео-модели. Для решения этой проблемы мы предлагаем метод Decoupled LoRA Control (DLC), который использует два модально-специфичных LoRA-адаптера для формирования разделенных вычислительных ветвей для RGB-кадров и карт точек, соединенных легковесными, инициализированными нулями управляющими связями, которые постепенно обучаются взаимной пиксельной согласованности. Обученная на смеси синтетических и реальных 4D-данных при умеренных вычислительных затратах, One4D генерирует высококачественные RGB-кадры и точные карты точек как в задачах генерации, так и реконструкции. Данная работа представляет собой шаг в сторону создания общих, высококачественных геометрически-ориентированных моделей 4D-мира на основе видео-диффузионных моделей. Страница проекта: https://mizhenxing.github.io/One4D
Многовариантное тестирование (MCQA) стало популярным форматом для оценки и тонкой настройки с подкреплением (RFT) современных мультимодальных языковых моделей. Его ограниченный формат вывода позволяет проводить упрощенную детерминистическую автоматическую проверку. Однако мы обнаружили, что варианты ответов могут содержать уязвимые сигналы, что делает метрики точности ненадежными для оценки реальных возможностей моделей и поощряет явное или неявное угадывание ответов в процессе RFT. Мы предлагаем ReVeL (Rewrite and Verify by LLM) — фреймворк, который преобразует вопросы с множественным выбором в открытые вопросы, сохраняя при этом возможность проверки ответов там, где это возможно. Фреймворк классифицирует вопросы по типам ответов и применяет соответствующие схемы переформулировки и верификации. При применении для RFT мы конвертировали 20 тыс. примеров MCQA и использовали GRPO для тонкой настройки моделей Qwen2.5-VL. Модели, обученные на ReVeL-OpenQA, демонстрируют сопоставимую с MCQA точность на бенчмарках с множественным выбором и улучшают точность открытых вопросов примерно на шесть процентных пунктов, что указывает на лучшую эффективность данных и более robust-сигналы подкрепления по сравнению с обучением на основе MCQA. При использовании для оценки ReVeL также выявляет до 20 процентных пунктов завышения оценок в бенчмарках MCQA (относительно OpenQA), повышает точность оценивания, сокращая при этом стоимость и задержки. Код и данные будут опубликованы в открытом доступе.
Хотя качество веб-данных критически важно для больших языковых моделей, большинство усилий по их курированию сосредоточено на фильтрации и дедупликации, рассматривая преобразование HTML в текст как фиксированный этап предварительной обработки. Существующие веб-корпуса полагаются на эвристические экстракторы, такие как Trafilatura, которые плохо сохраняют структуру документа и часто искажают структурированные элементы, такие как формулы, код и таблицы. Мы выдвигаем гипотезу, что улучшение качества извлечения может быть столь же значимым для итоговой производительности, как и агрессивные стратегии фильтрации. Мы представляем MinerU-HTML — новый конвейер извлечения, который переформулирует извлечение контента как задачу последовательной классификации, решаемую языковой моделью с 0.6 миллиардами параметров. В отличие от эвристик, основанных на текстовой плотности, MinerU-HTML использует семантическое понимание и применяет двухэтапный конвейер форматирования, который явно категоризирует семантические элементы перед преобразованием в Markdown. Ключевое преимущество в том, что его модельный подход по своей природе масштабируем, в то время как эвристические методы предлагают ограниченные пути для улучшений. На MainWebBench, нашем бенчмарке из 7 887 размеченных веб-страниц, MinerU-HTML достигает показателя 81.8% ROUGE-N F1 по сравнению с 63.6% у Trafilatura, с исключительным сохранением структурированных элементов (90.9% для блоков кода, 94.0% для формул). Используя MinerU-HTML, мы создали AICC (AI-ready Common Crawl) — многоязычный корпус объемом 7.3 триллиона токенов, полученный из двух снимков Common Crawl. В контролируемых экспериментах по предварительному обучению, где AICC и извлеченный с помощью Trafilatura корпус TfCC проходят идентичную фильтрацию, модели, обученные на AICC (62 млрд токенов), достигают средней точности 50.8% по 13 бенчмаркам, превосходя TfCC на 1.08 п.п. — что является прямым доказательством значительного влияния качества извлечения на способности моделей. AICC также превосходит RefinedWeb и FineWeb по ключевым бенчмаркам. Мы публично выпускаем MainWebBench, MinerU-HTML и AICC, демонстрируя, что извлечение HTML является критически важным, но часто недооцениваемым компонентом построения веб-корпусов.
В данной работе представлен метод управляемого разложения на слои (Controllable Layer Decomposition, CLD), предназначенный для получения детального и контролируемого многослойного разделения растровых изображений. В практических рабочих процессах дизайнеры обычно создают и редактируют каждый RGBA-слой независимо перед их объединением в итоговое растровое изображение. Однако этот процесс необратим: после композиции редактирование на уровне слоев становится невозможным. Существующие методы обычно опираются на матирование и дорисовку изображений, но остаются ограниченными в плане управляемости и точности сегментации. Для решения этих задач мы предлагаем два ключевых модуля: LayerDecompose-DiT (LD-DiT), который разделяет элементы изображения на отдельные слои и обеспечивает детальный контроль; и Многослойный Условный Адаптер (Multi-Layer Conditional Adapter, MLCA), который внедряет информацию целевого изображения в токены нескольких слоев для достижения точного условного генерирования. Для проведения всесторонней оценки мы создали новый бенчмарк и ввели специализированные метрики оценки. Результаты экспериментов показывают, что CLD стабильно превосходит существующие методы как по качеству декомпозиции, так и по управляемости. Более того, разделенные слои, полученные с помощью CLD, можно напрямую редактировать в распространенных инструментах дизайна, таких как PowerPoint, что подчеркивает его практическую ценность и применимость в реальных творческих рабочих процессах.
Мы предлагаем полностью основанный на данных подход к проектированию оценщиков взаимной информации (ВИ). Поскольку любой оценщик ВИ является функцией от наблюдаемой выборки из двух случайных величин, мы параметризуем эту функцию с помощью нейронной сети (MIST) и обучаем её сквозным образом для прогнозирования значений ВИ. Обучение проводится на крупном мета-датасете из 625 000 синтетических совместных распределений с известной истинной ВИ. Для работы с переменными размерами выборок и размерностями мы используем двумерную схему внимания, обеспечивающую перестановочную инвариантность входных выборок. Для количественной оценки неопределенности мы оптимизируем функцию потерь квантильной регрессии, что позволяет оценщику аппроксимировать выборочное распределение ВИ вместо возврата точечной оценки. Данная исследовательская программа отличается от предыдущих работ полностью эмпирическим подходом, жертвуя универсальными теоретическими гарантиями ради гибкости и эффективности. Экспериментально обученные оценщики значительно превосходят классические базовые методы при различных размерах выборок и размерностях, включая совместные распределения, не встречавшиеся при обучении. Получаемые квантильные интервалы хорошо калиброваны и надежнее доверительных интервалов на основе бустраппинга, в то время как вывод осуществляется на порядки быстрее существующих нейросетевых аналогов. Помимо непосредственных практических преимуществ, данная框架 создает обучаемые, полностью дифференцируемые оценщики, которые можно встраивать в более крупные обучающие конвейеры. Более того, используя инвариантность ВИ к обратимым преобразованиям, мета-датасеты можно адаптировать к произвольным модальностям данных с помощью нормализующих потоков, обеспечивая гибкое обучение для разнообразных целевых мета-распределений.
Поиск информации является ключевой способностью ИИ-агентов, требующей от них сбора и анализа информации, полученной с помощью инструментов, в рамках длительных траекторий. Однако такие многошаговые задачи поиска информации остаются сложными для агентов на основе языковых моделей. Хотя процессные модели вознаграждения (PRM) могут направлять агентов, ранжируя кандидатные шаги во время тестирования, существующие PRM, разработанные для кратких рассуждений с бинарной оценкой, не способны уловить более богатые аспекты шагов поиска информации, такие как взаимодействие с инструментами и анализ их результатов, а также справиться с быстро растущим контекстом в долгосрочных задачах. Чтобы устранить эти ограничения, мы представляем PRInTS — генеративную PRM, обученную с двойными возможностями: (1) плотное оценивание на основе рассуждений модели по множественным параметрам качества шага (например, интерпретация результатов работы инструмента, информативность вызова инструмента) и (2) суммаризация траектории, которая сжимает растущий контекст, сохраняя при этом essentialную информацию для оценки шага. Обширные оценки на бенчмарках FRAMES, GAIA (уровни 1–3) и WebWalkerQA (легкий–сложный) для нескольких моделей, а также ablation-исследования показывают, что best-of-n семплирование с PRInTS улучшает способности к поиску информации у моделей с открытым исходным кодом, а также у специализированных агентов, соответствуя или превосходя производительность передовых моделей при использовании значительно меньшей базовой модели-агента и опережая другие сильные baseline-методы моделирования вознаграждения.
Мы представляем Upsample Anything — легковесный фреймворк оптимизации на этапе тестирования (test-time optimization, TTO), который восстанавливает низкоразрешенные признаки до пиксельных выходов высокого разрешения без какого-либо обучения. Хотя Vision Foundation Models демонстрируют сильную обобщающую способность для разнообразных downstream-задач, их представления обычно прореживаются в 14/16 раз (например, ViT), что ограничивает их прямое использование в пиксельных приложениях. Существующие подходы к увеличению разрешения признаков зависят от переобучения на конкретных наборах данных или ресурсоемкой неявной оптимизации, что ограничивает масштабируемость и обобщение. Upsample Anything решает эти проблемы с помощью простой покартинной оптимизации, которая изучает анизотропное гауссово ядро, комбинирующее пространственные и диапазонные признаки, эффективно связывая Gaussian Splatting и Joint Bilateral Upsampling. Изученное ядро действует как универсальный, учитывающий границы оператор, который бесшовно переносится между архитектурами и модальностями, позволяя точно восстанавливать признаки, карты глубины или вероятностные карты в высоком разрешении. Фреймворк работает всего за ~0.419 с на изображение 224x224 и достигает state-of-the-art результатов в семантической сегментации, оценке глубины, а также в увеличении разрешения карт глубины и вероятностей. Страница проекта: https://seominseok0429.github.io/Upsample-Anything/.
Модели "визуальный язык" (VLM) демонстрируют хорошие результаты в стандартных видеозадачах, но испытывают трудности с физически обоснованными рассуждениями, включающими динамику движения и пространственные взаимодействия. Это ограничение снижает их способность интерпретировать видео с реальным или созданным искусственным интеллектом контентом (AIGC), а также генерировать физически согласованный контент. Мы представляем подход, который устраняет этот пробел путем перевода контекстных сигналов физического мира в интерпретируемые представления, согласованные с восприятием, пониманием и логическими рассуждениями VLM. Мы представляем MASS-Bench — комплексный бенчмарк, состоящий из 4350 видеороликов реального мира и AIGC, а также 8361 пары "вопрос-ответ" свободной формы, сфокусированных на задачах понимания, связанных с физикой, с детальными аннотациями, включающими визуальное детектирование, локализацию в подсегментах и полное 3D-трекинг движения сущностей на протяжении всей последовательности. Далее мы представляем MASS — модель-агностичный метод, который внедряет пространственно-временные сигналы в языковое пространство VLM посредством 3D-кодирования на основе глубины и визуальной привязки, в сочетании с трекером движения для анализа динамики объектов. Для усиления межмодального согласования и логического вывода мы применяем тонкую настройку с подкреплением. Эксперименты и абляционные исследования показывают, что наши доработанные VLM превосходят сравнимые и более крупные базовые модели, а также предыдущие передовые модели, на 8,7% и 6,0% соответственно, достигая производительности, сопоставимой с закрытыми передовыми VLM, такими как Gemini-2.5-Flash, в задачах физических рассуждений и понимания. Эти результаты подтверждают эффективность нашего подхода.
Долгосрочное роботизированное манипулирование остается сложной задачей для моделей Vision-Language-Action (VLA), несмотря на недавний прогресс в области нулевого обобщения и переноса из симуляции в реальный мир. Современные модели VLA страдают от стадийных галлюцинаций, когда агенты используют грубые оценочные сигналы для обхода многошаговых задач, сообщая о высоком прогрессе, не выполняя их по-настоящему. Мы представляем EvoVLA, самообучаемую VLA-структуру, которая решает эту проблему с помощью трех взаимодополняющих компонентов: Stage-Aligned Reward (SAR), использующую триплетное контрастное обучение с жесткими негативными примерами, сгенерированными Gemini, для предотвращения визуальных сокращений; Pose-Based Object Exploration (POE), которая основывает любопытство на относительной позе объект-захват вместо сырых пикселей; и Long-Horizon Memory, которая использует избирательное сохранение контекста и управляемое слияние для стабилизации внутреннего формирования в ходе продолжительных прогонов. Обширные оценки на Discoverse-L, бенчмарке долгосрочного манипулирования с тремя многостадийными задачами, показывают, что EvoVLA улучшает средний успех задач на 10.2 процентных пункта по сравнению с сильнейшим базовым методом (OpenVLA-OFT), достигая 69.2 процента. EvoVLA также демонстрирует в полтора раза лучшую эффективность использования образцов и сокращает стадийные галлюцинации с 38.5 процента до 14.8 процента. Развертывание в реальном мире на физических роботах достигает среднего уровня успеха в 54.6 процента по четырем задачам манипулирования, превосходя OpenVLA-OFT на 11 пунктов, что демонстрирует эффективный перенос из симуляции в реальность и сильное обобщение. Код: https://github.com/AIGeeksGroup/EvoVLA. Сайт: https://aigeeksgroup.github.io/EvoVLA.
Современные модели потоков демонстрируют выдающееся качество, но требуют медленного, итеративного сэмплирования. Для ускорения этого процесса из предобученных моделей-учителей может быть извлечена карта потоков — процедура, которая традиционно требует сэмплирования из внешнего набора данных. Мы утверждаем, что эта зависимость от данных влечет за собой фундаментальный риск *Несоответствия Учителя и Данных*, поскольку статический набор данных может давать неполное или даже несовместимое представление о полных генеративных возможностях модели-учителя. Это заставляет нас задаться вопросом, является ли такая зависимость от данных действительно необходимой для успешного извлечения карты потоков. В данной работе мы исследуем альтернативу, не требующую данных, которая сэмплирует только из априорного распределения — распределения, которому учитель гарантированно следует по своей конструкции, — тем самым полностью устраняя риск несоответствия. Чтобы продемонстрировать практическую осуществимость этого подхода, мы представляем принципиальную框架, которая учится предсказывать траекторию сэмплирования учителя, одновременно активно корректируя собственные накапливающиеся ошибки для обеспечения высокой точности. Наш метод превосходит все аналоги, основанные на данных, и устанавливает новое состояние искусства с существенным отрывом. В частности, при извлечении из SiT-XL/2+REPA наш метод достигает впечатляющего FID 1.45 на ImageNet 256x256 и 1.49 на ImageNet 512x512, в обоих случаях всего за 1 шаг сэмплирования. Мы надеемся, что наша работа заложит основы более надежной парадигмы для ускорения генеративных моделей и будет способствовать более широкому внедрению извлечения карты потоков без использования данных.
Хотя современные мировые модели способны генерировать высокореалистичные видео, их способность к планированию траекторий для роботов остается неясной и не имеет количественной оценки. Мы представляем Target-Bench — первый бенчмарк, специально разработанный для оценки мировых моделей в задаче планирования пути без карты к семантическим целям в реальных условиях. Target-Bench содержит 450 видеопоследовательностей, собранных роботом, которые охватывают 45 семантических категорий, с эталонными траекториями на основе SLAM. Наш конвейер оценки восстанавливает движение камеры из сгенерированных видео и измеряет производительность планирования с помощью пяти взаимодополняющих метрик, которые количественно оценивают способность достижения цели, точность траектории и направленную согласованность. Мы оценили передовые модели, включая Sora 2, Veo 3.1 и серию Wan. Лучшая готовая модель (Wan2.2-Flash) показывает общий балл всего 0.299, что выявляет существенные ограничения текущих мировых моделей для задач роботизированного планирования. Мы демонстрируем, что дообучение открытой модели с 5 миллиардами параметров всего на 325 сценариях из нашего набора данных позволяет достичь общего балла 0.345 — это улучшение более чем на 400% по сравнению с базовой версией (0.066) и на 15% выше, чем у лучшей готовой модели. Мы опубликуем код и набор данных в открытом доступе.
Мы представляем метод извлечения моносематических нейронов, определяемых как латентные измерения, соответствующие связным и интерпретируемым концепциям, из эмбеддингов пользователей и объектов в системах рекомендаций. Наш подход использует Разреженный Автокодировщик (SAE) для выявления семантической структуры в предобученных представлениях. В отличие от работ по языковым моделям, моносематичность в рекомендациях должна сохранять взаимодействия между раздельными эмбеддингами пользователей и объектов. Для достижения этой цели мы вводим прогнозно-ориентированную функцию потерь, которая распространяет ошибку через замороженную рекомендательную систему и согласует изученную латентную структуру с прогнозами сродства между пользователями и объектами модели. Полученные нейроны захватывают такие свойства, как жанр, популярность и временные тренды, и поддерживают постфактум операции управления, включая целевое фильтрование и продвижение контента без модификации базовой модели. Наш метод обобщается на различные рекомендательные модели и наборы данных, предоставляя практический инструмент для интерпретируемой и управляемой персонализации. Код и ресурсы для оценки доступны по адресу https://github.com/DeltaLabTLV/Monosemanticity4Rec.
Верность объяснений, измеряющая точность отражения истинных механизмов рассуждений модели, остается критически малоизученной в рекомендательных системах. Мы представляем SPINRec (стохастическое интегрирование по путям для объяснений нейросетевых рекомендательных систем) — модель-агностический подход, адаптирующий методы интегрирования по путям к разреженной и неявной природе рекомендательных данных. Для преодоления ограничений предыдущих методов SPINRec использует стохастический выбор базового уровня: вместо интегрирования от фиксированного или нереалистичного базового уровня метод выбирает несколько правдоподобных пользовательских профилей из эмпирического распределения данных и отбирает наиболее достоверный путь атрибуции. Данная конструкция учитывает влияние как наблюдаемых, так и ненаблюдаемых взаимодействий, обеспечивая более стабильные и персонализированные объяснения. Мы проводим наиболее комплексную на сегодняшний день оценку верности для трех моделей (MF, VAE, NCF), трех наборов данных (ML1M, Yahoo! Music, Pinterest) и набора контрафактивных метрик, включая кривые возмущений на основе AUC и диагностики фиксированной длины. SPINRec стабильно превосходит все базовые методы, устанавливая новый стандарт достоверной объяснимости в рекомендательных системах. Код и инструменты оценки доступны по адресу https://github.com/DeltaLabTLV/SPINRec.
Генерация взаимодействия руки и объекта (HOI) играет ключевую роль в развитии приложений в анимации и робототехнике. Современные видеоориентированные методы в основном являются одноракурсными, что препятствует полноценному восприятию 3D-геометрии и часто приводит к геометрическим искажениям или неестественным паттернам движения. Хотя 3D HOI-подходы способны генерировать динамически правдоподобные движения, их зависимость от высококачественных 3D-данных, снятых в контролируемых лабораторных условиях, серьезно ограничивает их обобщающую способность для реальных сценариев. Чтобы преодолеть эти ограничения, мы представляем SyncMV4D — первую модель, которая совместно генерирует синхронизированные многовидовые HOI-видео и 4D-движения за счет объединения визуальных prior'ов, динамики движения и многовидовой геометрии. Наша framework включает два ключевых нововведения: (1) модель совместной диффузии для нескольких ракурсов (MJD), которая совместно генерирует HOI-видео и промежуточные движения, и (2) модуль согласования диффузионных точек (DPA), который уточняет грубое промежуточное движение в глобально выровненные метрические 4D-треки точек. Для тесной связи 2D-внешнего вида с 4D-динамикой мы устанавливаем замкнутый цикл взаимного усиления. В процессе денойзинга диффузии сгенерированное видео обусловливает уточнение 4D-движения, в то время как выровненные 4D-треки точек репроецируются для управления совместной генерацией на следующем шаге. Экспериментально наш метод демонстрирует превосходство над современными аналогами по визуальному реализму, правдоподобию движений и многовидовой согласованности.
Крупные языковые модели (LLMs) широко используются для решения фактологических задач, таких как «Что лечит астму?» или «Какова столица Латвии?». Однако до сих пор неясно, насколько стабильно LLMs кодируют в своих внутренних вероятностных представлениях различия между истинным, ложным и ни-истинным-ни-ложным контентом. Мы вводим понятие репрезентационной стабильности как устойчивости репрезентаций достоверности в LLMs к perturbations в операциональном определении истины. Мы оцениваем репрезентационную стабильность путем (i) обучения линейного зонда на активациях LLMs для разделения истинных и не-истинных утверждений и (ii) измерения того, как смещается изученная им решающая граница при контролируемых изменениях меток. Используя активации шестнадцати моделей с открытым исходным кодом и три фактологические области, мы сравниваем два типа ни-утверждений. Первые — это фактоподобные утверждения о сущностях, которые, как мы полагаем, отсутствуют в любых обучающих данных. Мы называем их незнакомыми ни-утверждениями. Вторые — это нефактические утверждения, взятые из известных вымышленных контекстов. Мы называем их знакомыми ни-утверждениями. Незнакомые утверждения вызывают наибольшее смещение границы, приводя к изменению до 40% суждений об истинности в хрупких областях (таких как определения слов), в то время как знакомые вымышленные утверждения остаются более когерентно сгруппированными и дают меньшие изменения (≤ 8.2%). Эти результаты позволяют предположить, что репрезентационная стабильность проистекает в большей степени из эпистемической familiarity, чем из лингвистической формы. В более широком смысле, наш подход предоставляет диагностический инструмент для аудита и обучения LLMs с целью сохранения когерентных назначений истинности в условиях семантической неопределенности, а не просто оптимизации для точности выходных данных.
Обнаружение замаскированных объектов — это новая и сложная задача компьютерного зрения, которая требует идентификации и сегментации объектов, незаметно сливающихся с окружающей средой из-за высокой схожести по цвету, текстуре и размеру. Эта задача дополнительно усложняется условиями низкой освещенности, частичной окклюзией, малым размером объектов, сложными фоновыми паттернами и наличием множественных объектов. Хотя для решения данной задачи было предложено множество sophisticated методов, современные подходы по-прежнему испытывают трудности с точным обнаружением замаскированных объектов в сложных сценариях, особенно при работе с мелкими и множественными объектами, что указывает на возможность улучшений. Мы предлагаем Multi-Scale Recursive Network, которая извлекает мультимасштабные признаки с помощью базового модуля Pyramid Vision Transformer и объединяет их с помощью специализированных Attention-Based Scale Integration Units, обеспечивая выборочное слияние признаков. Для более точного обнаружения объектов наш декодер рекурсивно уточняет признаки, используя Multi-Granularity Fusion Units. Разработана новая стратегия рекурсивно-обратной связи при декодировании для улучшения понимания глобального контекста, что помогает модели преодолевать трудности данной задачи. Благодаря совместному использованию мультимасштабного обучения и рекурсивной оптимизации признаков предложенный метод демонстрирует повышение производительности, успешно обнаруживая мелкие и множественные замаскированные объекты. Наша модель достигает state-of-the-art результатов на двух бенчмарках для обнаружения замаскированных объектов и занимает второе место на двух других. Наши коды, веса модели и результаты доступны по адресу https://github.com/linaagh98/MSRNet.