Ежедневно отобранные исследовательские статьи по ИИ с переводами
Планирование маршрутов общественного транспорта традиционно зависит от структурированной картографической инфраструктуры и сложных механизмов прокладки маршрутов, при этом не существует ни одного существующего набора данных, который поддерживал бы обучение моделей для обхода этой зависимости. Мы представляем TransitLM — крупномасштабный набор данных, содержащий более 13 миллионов записей планирования маршрутов общественного транспорта из четырёх китайских городов, охватывающий 120 845 станций и 13 666 линий. Данный набор публикуется как корпус для непрерывного предобучения и эталонные данные для трёх задач оценки с взаимодополняющими метриками. Эксперименты показывают, что большая языковая модель (LLM), обученная на TransitLM, генерирует структурно корректные маршруты с высокой точностью и неявно привязывает произвольные GPS-координаты к соответствующим станциям без какого-либо явного отображения. Эти результаты демонстрируют, что планирование маршрутов общественного транспорта может быть полностью изучено на основе данных, что обеспечивает сквозную генерацию маршрутов без карт непосредственно на основе информации о пунктах отправления и назначения. Набор данных и эталонные данные доступны по адресу https://huggingface.co/datasets/GD-ML/TransitLM, а код для оценки — по адресу https://github.com/HotTricker/TransitLM.
Мультимодальные большие языковые модели (МБЯМ) все чаще используются в ролях, ориентированных на взаимодействие с людьми, где восприятие личности имеет решающее значение, однако существующие бенчмарки оценивают эту способность исключительно на основе предсказания числовых оценок по Большой пятерке, оставляя открытым вопрос о том, действительно ли модели воспринимают личность через понимание поведения или лишь предвзято оценивают через поверхностное сопоставление шаблонов. Мы восполняем этот пробел тремя вкладами. (i) Новая задача: мы формализуем обоснованное рассуждение о личности (Grounded Personality Reasoning, GPR), которое требует от МБЯМ привязывать каждую оценку по Большой пятерке к наблюдаемым доказательствам через цепочку оценки, рассуждения и обоснования. (ii) Новый набор данных: мы выпускаем MM-OCEAN (1 104 видео, 5 320 вопросов с множественным выбором), созданный с помощью многоагентного конвейера с верификацией человеком, содержащий поведенческие наблюдения с временными метками, обоснованные доказательствами анализы черт и семь категорий MCQ для обоснования сигналов. (iii) Бенчмарк и анализ: мы разрабатываем трехуровневую оценку (оценка, рассуждение, обоснование) плюс четыре метрики режимов отказа на уровне выборки: уровень предвзятости (Prejudice Rate, PR), уровень конфабуляции (Confabulation Rate, CR), уровень неудачной интеграции (Integration-failure Rate, IR) и уровень целостного обоснования (Holistic-grounding Rate, HR), и проводим бенчмаркинг 27 МБЯМ (13 закрытых, 14 открытых). Анализ выявляет поразительный разрыв предвзятости: в целом по области 51% правильных оценок не обоснованы извлеченными сигналами, а уровень целостного обоснования колеблется от 0 до 33,5%. Эти результаты обнажают разрыв между получением правильной оценки и рассуждением по правильной причине, намечая дорожную карту для обоснованного социального познания в МБЯМ.
Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) стало центральным методом для улучшения способности больших языковых моделей к рассуждению. Несмотря на его эффективность, то, как вознаграждения на уровне ответов преобразуются в изменения вероятностей на уровне токенов, остается плохо изученным. Мы вводим дискриминаторную интерпретацию обновлений RLVR, показывая, что направление обновления градиента политики неявно действует как линейный дискриминатор над векторами градиентов токенов и тем самым определяет, какие вероятности токенов увеличиваются или уменьшаются в ходе обучения. В рамках стандартного RLVR на уровне последовательностей этот дискриминатор строится из центроидов положительной и отрицательной сторон, образованных взвешенным по преимуществу усреднением векторов градиентов токенов. Однако такое построение центроидов может доминироваться общими высокочастотными паттернами, такими как токены форматирования, что размывает разреженные, но дискриминативные направления, которые лучше отличают ответы с высоким вознаграждением от ответов с низким вознаграждением. Чтобы преодолеть это ограничение, мы предлагаем DelTA — дискриминативный метод назначения кредитов токенам, который оценивает коэффициенты токенов для усиления специфичных для стороны направлений градиентов токенов и понижения веса общих или слабо дискриминативных. Эти коэффициенты перевзвешивают самонормализованный суррогат RLVR, делая эффективные центроиды сторон более контрастными и тем самым изменяя направление обновления RLVR. На семи математических бенчмарках DelTA превосходит самые сильные базовые модели того же масштаба в среднем на 3,26 и 2,62 пункта на Qwen3-8B-Base и Qwen3-14B-Base соответственно. Дополнительные результаты по генерации кода, на другой базовой архитектуре и оценках на данных вне домена дополнительно демонстрируют способность DelTA к обобщению.
Возрастающая популярность агентов-помощников, таких как OpenClaw, подчеркивает растущий потенциал больших языковых моделей для поддержки пользователей в повседневной жизни и работе. Ключевой задачей в таких сценариях является проактивная помощь, поскольку пользователи часто начинают с нечетко сформулированных запросов и оставляют невысказанными важные потребности, ограничения или предпочтения. Однако существующие бенчмарки редко оценивают способность агентов выявлять и реализовывать такие скрытые намерения до того, как они будут явно выражены, особенно в рамках длительных многошаговых взаимодействий, где потребности пользователя возникают постепенно. Для устранения этого пробела мы представляем π-Bench — бенчмарк для проактивной помощи, включающий 100 многошаговых задач в разрезе 5 предметно-ориентированных пользовательских персон. Включая скрытые намерения пользователей, межзадачные зависимости и межсессионную непрерывность, π-Bench оценивает способность агентов предвидеть и удовлетворять потребности пользователей в ходе продолжительных взаимодействий, совместно измеряя проактивность и полноту выполнения задач в долгосрочных траекториях, которые лучше отражают реальное использование. Эксперименты показывают: (1) проактивная помощь остается сложной задачей; (2) существует четкое различие между полнотой выполнения задачи и проактивностью; (3) ценность предшествующего взаимодействия для разрешения скрытых намерений в последующих задачах.
Вывод с длинным контекстом в больших языковых моделях ограничен квадратичной стоимостью полного внимания. Существующие эффективные альтернативы часто опираются либо на изначально разреженное обучение, либо на эвристическое удаление токенов, создавая нежелательный компромисс между эффективностью, стоимостью обучения и точностью. В данной работе мы показываем, что LLM с полным вниманием уже внутренне разрежены и могут быть преобразованы в сильно разреженные модели с минимальной адаптацией. Наш подход основан на трех наблюдениях: (1) лишь небольшая подгруппа голов внимания действительно требует полной обработки длинного контекста; (2) долгосрочное извлечение управляется в первую очередь низкоразмерным подпространством, что позволяет эффективно извлекать релевантные токены с помощью 16-мерного индексатора; (3) полезный бюджет токенов сильно зависит от запроса, что делает динамический выбор top-p более подходящим, чем фиксированное top-k разрежение. Основываясь на этих идеях, мы предлагаем RTPurbo, который сохраняет полный кэш KV только для голов извлечения и вводит легковесный индексатор токенов для разреженного внимания. Используя внутреннюю разреженность модели, RTPurbo достигает разрежения всего за несколько сотен шагов обучения. Эксперименты на эталонных тестах с длинным контекстом и задачах рассуждения показывают, что RTPurbo сохраняет точность, близкую к безошибочной, обеспечивая при этом значительный прирост эффективности, включая ускорение предзаполнения до 9,36 раз при контексте в 1М и ускорение декодирования примерно в 2,01 раза. Эти результаты свидетельствуют о том, что сильное разреженное умозаключение может быть получено из стандартного обучения с полным вниманием без дорогостоящего собственного разреженного предобучения.
Недавнее развитие агентов возобновило спрос на способность больших языковых моделей (LLM) к рассуждению на основе длинного контекста. Однако обучение LLM такой способности требует дорогостоящего курирования длинных документов или эвристического синтеза контекста. Мы обнаружили, что агенты генерируют массивные траектории при решении задач, вызывая инструменты и получая наблюдения среды на протяжении множества шагов. Необходимая для ответа на исходный вопрос информация, таким образом, оказывается разбросанной по этим шагам, требуя интеграции удалённых фрагментов контекста. Тем не менее, стандартный SFT для агентов маскирует ответы инструментов и обучает только выбор инструментов на уровне шага, создавая слепую зону контроля, в которой эти разрозненные сигналы остаются неиспользованными. Мы предлагаем метод компиляции контекста агента (ACC), который преобразует траектории агентов поиска, программной инженерии и запросов к базам данных в пары вопрос-ответ для длинного контекста, объединяющие исходный вопрос с ответами инструментов и наблюдениями среды, собранными на нескольких шагах, обучая модель отвечать напрямую без использования инструментов. Это делает зависимости между вопросом и свидетельством явными, обеспечивая прямое обучение рассуждению на основе длинного контекста по удалённым сегментам без дополнительной разметки. ACC — простой, но эффективный подход, который может быть объединён с любым существующим методом расширения длинного контекста или обучения, предоставляя масштабируемые данные для контролируемой тонкой настройки. Мы валидируем ACC на задачах моделирования зависимостей на больших расстояниях с помощью MRCR и GraphWalks — это сложные бенчмарки, требующие разрешения cross-turn кореференций и обхода графов на расширенных контекстах. Обучение Qwen3-30B-A3B с ACC достигает 68.3 по MRCR (+18.1) и 77.5 по GraphWalks (+7.6), что сопоставимо с результатами Qwen3-235B-A22B, при этом сохраняя общие способности по GPQA, MMLU-Pro, AIME и IFEval. Дальнейший анализ механизмов показывает, что модель, обученная с ACC, демонстрирует адаптивную перестройку внимания и специализацию экспертов.
Готовые к симуляции физические 3D-активы стали перспективным направлением благодаря их широкой применимости в задачах нижнего уровня. Однако большинство существующих методов генерации 3D либо игнорируют физические свойства, либо ограничены одним классом активов, например, жесткими, деформируемыми или сочлененными объектами. Для преодоления этих ограничений мы представляем PhysX-Omni — унифицированную среду для генерации физических 3D-объектов, готовых к симуляции, охватывающую разнообразные типы активов. В частности, мы разрабатываем новое и эффективное представление геометрии, адаптированное для моделей зрения и языка, которое напрямую кодирует 3D-структуры высокого разрешения без сжатия, значительно улучшая качество генерации. Кроме того, мы создаем первый общий набор 3D-данных, готовых к симуляции, — PhysXVerse, охватывающий различные категории интерьеров и экстерьеров. Для всесторонней и гибкой оценки как генеративных, так и понимающих способностей в реальных условиях мы предлагаем PhysX-Bench, включающий шесть ключевых атрибутов: геометрию, абсолютный масштаб, материал, аффорданс, кинематику и описание функций. Обширные эксперименты с использованием традиционных метрик и PhysX-Bench показывают, что PhysX-Omni демонстрирует высокую производительность как в генерации, так и в понимании. Кроме того, дополнительные исследования подтверждают потенциал PhysX-Omni для применения в задачах генерации сцен, готовых к симуляции, и обучения роботизированных политик. Мы полагаем, что PhysX-Omni может значительно продвинуть широкий спектр прикладных задач нижнего уровня, особенно в области воплощенного ИИ и физически обоснованного моделирования.
Совместное аудиовизуальное рассуждение необходимо для омнимодального понимания, однако современные мультимодальные большие языковые модели (MLLMs) все еще испытывают трудности, когда рассуждение требует точных (детальных) свидетельств из обеих модальностей. Ключевое ограничение заключается в том, что явная текстовая цепочка рассуждений (CoT) сжимает непрерывные аудиовизуальные сигналы в дискретные токены, ослабляя временную привязку и смещая промежуточные рассуждения в сторону языковых априорных знаний. Мы утверждаем, что единое латентное пространство является более подходящей средой для таких рассуждений, поскольку оно сохраняет плотную сенсорную информацию, оставаясь при этом совместимым с авторегрессионной генерацией. Основываясь на этом понимании, мы предлагаем LatentOmni — межмодальный фреймворк рассуждений, который чередует текстовые рассуждения с аудиовизуальными латентными состояниями. LatentOmni вводит контроль на уровне признаков для выравнивания латентных состояний рассуждений с релевантными задаче сенсорными признаками и использует Omni-Sync Position Embedding (OSPE) для поддержания временной согласованности между латентными аудио- и визуальными состояниями. Мы также создаем набор данных LatentOmni-Instruct-35K, содержащий перемежающиеся траектории аудиовизуальных рассуждений для обучения рассуждению в латентном пространстве. Комплексная оценка на нескольких бенчмарках аудиовизуального рассуждения показывает, что LatentOmni достигает наилучших результатов среди оцениваемых моделей с открытым исходным кодом и стабильно превосходит базовый подход с явной текстовой CoT, что подтверждает перспективность совместного рассуждения в латентном пространстве как пути к более сильному омнимодальному пониманию.
Системы электронных таблиц (например, Microsoft Excel, Google Sheets) играют центральную роль в современных рабочих процессах, ориентированных на данные. По мере того как агенты ИИ становятся все более способными к автоматизации сложных задач, таких как управление компьютерами и создание презентаций, создание агента для работы с электронными таблицами на основе ИИ стало перспективным направлением исследований. Большинство существующих агентов для электронных таблиц полагаются на специализированные подсказки для универсальных LLM; хотя такой подход имеет потенциал для простых операций с таблицами, он с трудом справляется со сложными многошаговыми рабочими процессами, типичными для реальных приложений. Мы представляем Spreadsheet-RL — фреймворк для тонкой настройки с подкреплением (RL), предназначенный для обучения специализированных агентов электронных таблиц в реалистичной среде Microsoft Excel. Spreadsheet-RL включает автоматизированный конвейер для масштабируемого сбора пар начальных и целевых таблиц из онлайн-форумов, а также предметно-ориентированные оценочные задачи в таких областях, как финансы и управление цепочками поставок, которые мы объединяем в новый набор эталонных данных Domain-Spreadsheet. Фреймворк также включает среду Spreadsheet Gym, разработанную для многошагового обучения с подкреплением: Spreadsheet Gym предоставляет обширные функции Excel через изолированную среду Python, а также усовершенствованный инструментарий, включающий всесторонний набор инструментов и тщательно разработанные правила маршрутизации инструментов для задач с электронными таблицами. В ходе всесторонних экспериментов мы показываем, что Spreadsheet-RL существенно повышает производительность агента ИИ как на общих, так и на предметно-ориентированных задачах: он улучшает показатель Pass@1 для Qwen3-4B-Thinking-2507 на SpreadsheetBench с 12,0% до 23,4%, а на нашем подобранном наборе данных Domain-Spreadsheet — с 8,4% до 17,2%. Эти результаты подчеркивают высокий потенциал Spreadsheet-RL для обобщения и реального внедрения в автоматизацию работы с электронными таблицами, а в более широком смысле — его перспективность для улучшения взаимодействия LLM с интерфейсами данных в повседневной работе.
Авторегрессионные видеомодели диффузии обеспечили возможность создания миров в реальном времени, обусловленных действиями. Однако поддержание устойчивого мира, где возврат к ранее виденной точке обзора даёт согласованный контент, остаётся открытой проблемой. Полное внимание с кэшем «ключ-значение» (KV-кэш) сохраняет такую согласованность, но нарушает требования реального времени: объём памяти и вычислительные затраты на внимание линейно растут с длиной генерируемой последовательности. Инференс со скользящим окном восстанавливает пропускную способность, но теряет долгосрочную согласованность. Мы предлагаем WorldKV — беструдовую структуру, состоящую из двух компонентов: «Извлечение мира» и «Сжатие мира». «Извлечение мира» сохраняет вытесненные фрагменты KV-кэша в памяти GPU/CPU и выборочно извлекает релевантные сцене фрагменты через соответствие камеры и действий, вставляя их обратно в окно внимания без повторного кодирования. «Сжатие мира» удаляет избыточные токены внутри каждого фрагмента на основе сходства «ключ-ключ» с опорным кадром, вдвое сокращая память на фрагмент и позволяя вместить в 2 раза больше истории при фиксированном бюджете. На наборах данных Matrix-Game-2.0 и LingBot-World-Fast WorldKV достигает или превосходит точность полного KV-кэша при примерно двукратной пропускной способности и конкурирует с обученными на памяти базовыми моделями без какого-либо дообучения. Страница проекта: https://cvlab-kaist.github.io/WorldKV/
Искусственный интеллект (ИИ) все шире внедряется в научные открытия, однако остается неясным, способен ли он предвидеть научный прогресс. Для изучения этого вопроса мы вводим темпорально обоснованную систему оценки для прогнозирования научного прогресса в условиях контролируемых ограничений на объем знаний. Мы представляем CUSP (Cutoff-conditioned Unseen Scientific Progress) — междисциплинарный событийный бенчмарк, оценивающий научное прогнозирование в системах ИИ через оценку осуществимости, механистическое рассуждение, генеративное проектирование решений и временное предсказание. На основе 4 760 научных событий мы наблюдаем систематические и зависимые от области ограничения в современных передовых моделях. Хотя модели способны выделять правдоподобные направления исследований из конкурирующих вариантов, они не могут надежно предсказать, будут ли реализованы научные достижения, и систематически ошибаются в оценке времени их наступления. Производительность сильно неоднородна по различным областям: временные рамки прогресса в ИИ более предсказуемы, чем достижения в биологии, химии и физике. Производительность в значительной мере нечувствительна к тому, происходят ли события до или после точки отсечки обучения, что указывает на то, что эти ограничения не могут быть объяснены исключительно доступом к знаниям в обучающих данных. В условиях контролируемого доступа к информации дополнительные знания, полученные до точки отсечки, улучшают производительность, но не устраняют разрыв с условиями полной информации; этот разрыв становится более выраженным для достижений с высоким уровнем цитирования. Модели также демонстрируют систематическую избыточную уверенность и сильные смещения ответов, что свидетельствует о ненадежной оценке неопределенности. В совокупности современные системы ИИ не дотягивают до уровня предсказательных инструментов для научного прогресса. Доступ к предшествующим знаниям не приводит к надежному прогнозированию, и производительность выигрывает больше от информации о прошедших событиях, чем от перспективного предсказания.
Диффузионные трансформеры (DiTs) стали доминирующей архитектурой для генерации текста в изображение, однако их производительность снижается при генерации на разрешениях, выходящих за пределы тренировочного диапазона. Существующие подходы без обучения смягчают это путем модификации поведения внимания во время вывода, часто посредством экстраполяции поворотных позиционных внедрений (RoPE) в сочетании с масштабированием внимания. Однако эти стратегии применяют равномерное и не зависящее от содержимого масштабирование к компонентам RoPE с различными частотными характеристиками, что приводит к компромиссу между сохранением глобальной структуры и восстановлением мелких деталей. Мы представляем SEGA — метод без обучения, который динамически масштабирует внимание по компонентам RoPE в соответствии с пространственно-частотной структурой латентного представления на каждом шаге шумоподавления. Такое адаптивное масштабирование улучшает как структурную когерентность, так и точность мелких деталей. Эксперименты показывают, что SEGA последовательно улучшает синтез высокого разрешения для нескольких целевых разрешений, превосходя передовые базовые методы без обучения.
Надежное обучение и валидация систем автономного вождения (ADS) требуют массивных и разнообразных наборов данных. Собственные данные, собираемые парками автономных транспортных средств (AV), несмотря на высокую точность, ограничены по масштабу, разнообразию конфигураций сенсоров, а также географическому охвату и охвату редких сценариев поведения. В противоположность этому, данные из реального мира, такие как записи с видеорегистраторов, обеспечивают огромный масштаб и разнообразие, захватывая критические редкие сценарии и новые среды. Однако эти неструктурированные видеоданные из реального мира несовместимы с ADS, которые ожидают структурированные мультимодальные сенсорные входные данные для валидации и обучения. Для преодоления этого разрыва в данных мы предлагаем Sensor2Sensor — новую парадигму генеративного моделирования, которая преобразует монокулярные видеозаписи с видеорегистраторов из реального мира в высокоточный мультимодальный набор сенсоров (журналы AV), включающий многовидовые изображения камер и облака точек LiDAR. Ключевая проблема заключается в отсутствии парных обучающих данных. Мы решаем её, преобразуя реальные журналы AV в видео в стиле видеорегистраторов с помощью реконструкции на основе 4D-гауссовского всплеска (4DGS) и рендеринга с новых точек обзора. Затем Sensor2Sensor использует архитектуру диффузии для выполнения генеративного преобразования. Мы проводим всестороннюю количественную оценку точности и реалистичности сгенерированных сенсорных данных. Мы демонстрируем практическую полезность Sensor2Sensor, преобразуя сложные интернет-видео и записи с видеорегистраторов из реального мира в реалистичные мультимодальные форматы данных, тем самым открывая доступ к огромным внешним источникам данных для разработки AV.
Увеличение горизонта генерации моделей диффузии видео до длинных последовательностей остается давней и важной проблемой. Существующие методы, не требующие обучения, делятся на две категории: расширения двунаправленных моделей, которые тесно связаны с конкретными архитектурами и страдают от ухудшения качества на больших горизонтах, и авторегрессионные модели, которые накапливают ошибки дрейфа из-за экспозиционного смещения и склонны генерировать повторяющиеся паттерны движения. Для решения этих проблем мы предлагаем новый, но простой метод на этапе инференса для генерации длинных видео, который не зависит от архитектуры и не требует дополнительного обучения. Наш метод генерирует длинные видео с помощью перекрывающихся скользящих окон, где предсказанные чистые образцы из соседних окон смешиваются через согласование Твиди (Tweedie matching) для обеспечения как ограничения многообразия, так и временной согласованности в областях перекрытия. Затем стохастическая выборка на ранней фазе синхронизирует траектории каждого окна путем инжекции нового шума после каждой коррекции согласования Твиди на этапе высокого шума, перед переходом к детерминистической выборке ODE для сохранения точной визуальной детализации. Примененный к различным моделям генерации видео, наш метод генерирует видео в несколько раз длиннее исходной длины окна, превосходя как методы без обучения, так и авторегрессионные базовые линии по временной согласованности и визуальному качеству, а также расширяется на совместную генерацию аудио-видео и текст-в-3DGS без какого-либо дообучения.
Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в области пространственного интеллекта, однако существующие бенчмарки пространственного мышления в основном предполагают идеальные визуальные входные данные и игнорируют искажения, часто встречающиеся в реальных сценариях развертывания, такие как размытие движения, низкая освещенность, неблагоприятные погодные условия, искажение объектива и артефакты сжатия. Это поднимает фундаментальный вопрос: насколько устойчив пространственный интеллект современных MLLM при несовершенных визуальных наблюдениях? Чтобы ответить на этот вопрос, мы представляем SpaceDG — первый крупномасштабный набор данных для пространственного понимания с учетом искажений. Он построен на основе физически обоснованного движка синтеза искажений, который встраивает процесс формирования искажений в рендеринг 3D Gaussian Splatting (3DGS), что позволяет реалистично моделировать девять типов искажений. Полученный набор данных содержит около 1 миллиона пар вопрос-ответ из почти 1000 внутренних сцен. Мы также представляем SpaceDG-Bench — верифицированный человеком бенчмарк, включающий 1102 вопроса, охватывающих 11 категорий рассуждений и 9 типов визуальных искажений, что дает более 10 тысяч экземпляров VQA. Оценка 25 MLLM с открытым и закрытым исходным кодом показывает, что визуальные искажения последовательно и существенно ухудшают пространственное мышление, выявляя критический разрыв в устойчивости. Наконец, мы демонстрируем, что тонкая настройка на SpaceDG значительно повышает устойчивость к искажениям и может даже превзойти человеческую производительность в условиях искажений без какого-либо снижения производительности на чистых изображениях, что подчеркивает перспективность обучения с учетом искажений для создания устойчивого пространственного интеллекта.
Распространение больших языковых моделей (БЯМ) и модульных навыков наделило автономных агентов всё более мощными возможностями. Существующие фреймворки, как правило, полагаются на монолитные БЯМ и фиксированную логику для взаимодействия с этими навыками. Это создаёт критическое узкое место: разные БЯМ обладают различными преимуществами в разных областях, однако текущие фреймворки не используют взаимодополняющие сильные стороны моделей и навыков, тем самым ограничивая их производительность в решении прикладных задач. В данной работе мы представляем Maestro (Multimodal Agent for Expert-Skill Targeted Reinforced Orchestration) — фреймворк оркестрации на основе обучения с подкреплением (RL), который переформулирует гетерогенные мультимодальные задачи как процесс последовательного принятия решений над иерархическим реестром моделей и навыков. Вместо объединения всех знаний в одной модели Maestro обучает лёгкую политику для динамического составления ансамблей из замороженных экспертных моделей и двухуровневой библиотеки навыков, решая на каждом шаге, следует ли вызывать внешнего эксперта, какую пару модель-навык выбрать и когда завершить процесс. Политика оптимизируется с помощью RL на основе результатов, не требуя пошагового контроля. Мы оцениваем Maestro на десяти репрезентативных мультимодальных бенчмарках, охватывающих математические рассуждения, понимание диаграмм, восприятие с высоким разрешением и предметно-ориентированный анализ. С оркестратором размером всего 4B Maestro достигает средней точности 70.1%, превосходя как GPT-5 (69.3%), так и Gemini-2.5-Pro (68.7%). Важно отметить, что изученная политика координации обобщается на невидимые ранее модели и навыки без переобучения: добавление в реестр экспертов из других областей даёт среднюю точность 59.5% на четырёх сложных бенчмарках, превосходя все закрытые базовые решения. Maestro также сохраняет высокую вычислительную эффективность при низкой задержке. Исходный код доступен по адресу https://github.com/jinyangwu/Maestro.
Авторегрессионные видеодиффузионные модели (ARVD) зарекомендовали себя как перспективная архитектура для генерации потокового видео, открывая путь к интерактивной генерации видео в реальном времени и моделированию мирового окружения. Несмотря на свой потенциал, значительные затраты на логический вывод в ARVD остаются серьезным препятствием для практического развертывания, что делает квантизацию моделей естественным направлением для повышения эффективности. Однако квантизация для ARVD остается в значительной степени неизученной. Наш эмпирический анализ показывает, что прямое применение существующих схем квантизации, разработанных для стандартных диффузионных трансформеров, к ARVD приводит к неоптимальным результатам, выявляя особенности поведения при квантизации, отличающиеся от наблюдаемых в двунаправленных диффузионных моделях. В данной работе мы определяем две критические проблемы при квантизации ARVD: (C1) Сильно несбалансированная покадровая чувствительность к квантизации. Накопление ошибок в процессе авторегрессионной генерации может вызывать резко асимметричную чувствительность к квантизации между кадрами, демонстрируя экспоненциально убывающую закономерность. (C2) Ярко выраженные и разнородные выбросы в весах. Распределения весов содержат заметные каналы-выбросы, характер которых существенно варьируется в зависимости от типов слоев и глубины блоков. Для решения этих проблем мы предлагаем Q-ARVD — новую структуру для точной квантизации ARVD. (S1) Для преодоления сильно несбалансированной покадровой чувствительности Q-ARVD включает в целевую функцию квантизации механизм взвешивания кадров с учетом конечного качества. (S2) Для предотвращения снижения производительности из-за разнородных выбросов Q-ARVD вводит адаптивную двухмасштабную квантизацию, учитывающую выбросы, которая автоматически обнаруживает наличие и количество каналов-выбросов для произвольного слоя и изолирует их для защиты нормальных каналов. Обширные эксперименты демонстрируют превосходство Q-ARVD.
Модели вознаграждения за процесс (PRM) представляют собой мощный механизм управления рассуждениями больших языковых моделей благодаря предоставлению детализированного контроля на уровне отдельных шагов. Однако эта эффективность достигается ценой значительных затрат: PRM требуют экспертных аннотаций для каждого шага рассуждения, что делает их дорогостоящими и трудно масштабируемыми. В данной работе мы предлагаем метод обучения неконтролируемых PRM (uPRM), который не требует человеческого контроля ни на уровне пошаговых аннотаций, ни на уровне проверки окончательных ответов по истинным значениям. Ключевая идея нашего подхода заключается в определении оценочной функции, основанной на вероятностях следующего токена LLM, которая совместно оценивает кандидатные положения первых ошибочных шагов в пакете траекторий рассуждений. Мы демонстрируем эффективность uPRM в различных сценариях: (i) uPRM достигает до 15% абсолютного улучшения точности по сравнению с подходом "LLM в роли судьи" при определении первых ошибочных шагов на наборе данных ProcessBench; (ii) в качестве верификатора для масштабирования во время тестирования uPRM показывает результаты, сопоставимые с контролируемыми PRM, и превосходит базовый метод голосования большинством голосов на величину до 6,9%; (iii) при использовании в качестве сигнала вознаграждения в обучении с подкреплением uPRM обеспечивает более устойчивую оптимизацию политики на протяжении всего обучения по сравнению с контролируемым PRM, обученным с использованием истинных меток. В целом, наши результаты открывают путь к масштабируемому моделированию вознаграждения для сложных задач рассуждения.
Линейное внимание заменяет неограниченный кэш softmax-внимания рекуррентным состоянием фиксированного размера, сокращая смешивание последовательностей до линейного времени, а декодирование — до постоянной памяти. Сложность заключается не только в том, что забывать, но и в том, как редактировать эту сжатую память, не нарушая существующих ассоциаций. Модели с дельта-правилом вычитают текущее считанное значение перед записью нового, а Kimi Delta Attention (KDA) усиливает забывание с помощью поканального затухания. Однако активное редактирование по-прежнему использует единственный скалярный гейт для управления двумя разными вещами: тем, сколько старого содержимого стереть на стороне ключа, и тем, сколько нового содержимого зафиксировать на стороне значения. Мы представляем Gated DeltaNet-2, который обобщает как Gated DeltaNet, так и KDA, наследуя адаптивное забывание и поканальное затухание, одновременно устраняя их общее ограничение — скалярную связь между стиранием и записью. Gated Delta Rule-2 разделяет эти роли с помощью поканального гейта стирания b_t и поканального гейта записи w_t, сводясь к KDA, когда оба гейта коллапсируют в один и тот же скаляр, и к Gated DeltaNet, когда затухание также коллапсирует. Мы выводим представление быстрых весов, чанковый WY-алгоритм с поглощением поканального затухания в асимметричные факторы стирания, а также прямой проход с учетом гейтов, сохраняющий эффективное параллельное обучение. При 1,3 миллиарда параметров, обученных на 100 миллиардах токенов FineWeb-Edu, Gated DeltaNet-2 достигает наилучших общих результатов среди вариантов Mamba-2, Gated DeltaNet, KDA и Mamba-3 в задачах языкового моделирования, здравого смысла и поиска информации. Его преимущество наиболее заметно в тестах на длинном контексте RULER (иголка в стоге сена), где он улучшает оцененную настройку многоключевого поиска и остается сильным как в рекуррентных, так и в гибридных настройках. Код доступен по адресу: https://github.com/NVlabs/GatedDeltaNet-2.
Генерация изображений в открытом виде больше не является простой задачей преобразования запроса в изображение. Для получения высококачественных результатов часто требуется агент, сочетающий внутренние генеративные способности модели с внешними ресурсами. По мере того как запросы становятся более разнообразными и требовательными, мы стремимся разработать универсального агента генерации изображений, способного к самоэволюции через траектории и более эффективному использованию инструментов в различных задачах генерации. С этой целью мы предлагаем GenEvolve — самоэволюционирующую структуру на основе дистилляции визуального опыта с оркестровкой инструментов (Tool-Orchestrated Visual Experience Distillation). В GenEvolve каждая попытка генерации моделируется как траектория с оркестровкой инструментов, где агент собирает доказательства, выбирает референсы, вызывает навыки генерации и составляет их в программу запроса-референса. В отличие от существующих методов агентной генерации, которые в основном полагаются на скалярные вознаграждения на уровне изображений, GenEvolve сравнивает несколько траекторий для одного и того же запроса и абстрагирует различия между лучшими и худшими в структурированный визуальный опыт, предоставляемый только привилегированной ветви учителя. Вдохновленная само-дистилляцией на политике (on-policy self-distillation), дистилляция визуального опыта обеспечивает плотную супервизию на уровне токенов, помогая ученику интернализировать улучшенный поиск, активацию знаний, выбор референсов и построение запросов. Кроме того, мы создаем GenEvolve-Data и GenEvolve-Bench. Эксперименты на публичных бенчмарках и GenEvolve-Bench показывают значительные улучшения по сравнению с сильными базовыми линиями, достигая передовой производительности среди современных фреймворков генерации изображений. Наш веб-сайт: https://ephemeral182.github.io/GenEvolve/
LLM широко применяются в производственных средах, что доводит системы логического вывода до предела их возможностей. Раздельное обслуживание LLM (например, разделение PD и разделение KV-состояний) повышает масштабируемость и экономическую эффективность, но при этом превращает KV в явную нагрузку, пересекающую границы сети и хранилища, что делает KV доминирующим сквозным узким местом. Существующие методы сжатия KV обычно являются статическими конфигурациями времени выполнения, несмотря на то, что контекст производственного обслуживания меняется со временем по составу рабочей нагрузки, пропускной способности и бюджетам SLO/качества. В результате фиксированный выбор может быть неоптимальным или даже увеличивать задержку. Мы представляем \emph{KVServe} — первую сервис-ориентированную и адаптивную платформу сжатия коммуникаций KV для раздельного обслуживания LLM: KVServe (1) унифицирует сжатие KV в модульное пространство стратегий с новыми компонентами и межметодной рекомпозицией; (2) внедряет байесовский механизм профилирования, который эффективно исследует это пространство и выделяет трехмерное паретовское множество кандидатов, снижая накладные расходы автономного поиска в 50 раз; и (3) развертывает сервис-ориентированный онлайн-контроллер, который сочетает аналитическую модель задержки с легковесным бандитом для выбора профилей с учетом ограничений и коррекции несоответствия между автономным и онлайн-режимами. Интегрированный в vLLM и оцененный на различных наборах данных, моделях, GPU и сетях, KVServe достигает ускорения JCT в 9,13 раза при обслуживании с разделением PD и сокращения TTFT в 32,8 раза при обслуживании с разделением KV.
Прогресс в разработке языковых моделей часто определяется сравнительными решениями: какую архитектуру выбрать, какой корпус предварительного обучения использовать или какой рецепт обучения применить. Для принятия этих решений требуются надежные прогнозы производительности, однако два широко используемых сигнала принципиально ограничены. Потери перекрестной энтропии плохо согласуются с возможностями ниже по потоку, а прямая оценка ниже по потоку дорога, разрежена и часто неинформативна на ранних этапах обучения. Вместо этого мы предлагаем строить прокси-метрики путем агрегирования статистик на уровне токенов, таких как энтропия, точность top-k и ранг экспертного токена, из распределения следующего токена модели-кандидата по решениям, написанным экспертами. В трех сценариях наши прокси последовательно превосходят базовые показатели на основе потерь и вычислений: 1) Для выбора модели среди разных семейств они ранжируют разнородную популяцию моделей рассуждений со средним коэффициентом ранговой корреляции Спирмена 0,81 (по сравнению с 0,36 для потерь перекрестной энтропии); 2) Для выбора данных предварительного обучения они надежно ранжируют 25 корпусов-кандидатов для целевой модели примерно в 10 000 раз с меньшими вычислительными затратами, чем прямая оценка, сдвигая границу Парето за пределы существующих методов; и 3) для прогнозирования во время обучения они экстраполируют точность ниже по потоку на горизонт в 18 раз по вычислительным затратам с примерно вдвое меньшей ошибкой по сравнению с существующими альтернативами. В совокупности эти результаты показывают, что экспертные траектории являются широко полезным источником сигнала для оценки возможностей модели, обеспечивая надежное прогнозирование производительности на протяжении всего жизненного цикла разработки модели.
Существующие подходы к созданию цифровых короткометражек обычно полагаются на сценарии, сгенерированные одношаговыми LLM, и слабо связанные пайплайны, что не удовлетворяет трем ключевым требованиям к генерации короткометражек: (1) темп повествования, что приводит к слабым зацепкам, недостаточной эскалации и непривлекательным концовкам; (2) пространственная согласованность, что ведет к смещению планировок сцен и несогласованным позициям персонажей между клипами; (3) контроль качества на уровне производства, требующий обширной ручной проверки и коррекции на этапах сценария и визуализации. Мы представляем One Sentence, One Drama — иерархическую многоагентную структуру, которая преобразует однофразовую идею пользователя в полностью готовую короткометражку через структурированные промежуточные модули и итеративное уточнение. Наш подход основан на трех ключевых компонентах: (1) модуль генерации сюжета на основе дебатов многоагентной системы, который обеспечивает темп короткометражки и связность повествования; (2) 3D-обоснованный механизм генерации первого кадра, устанавливающий общую пространственную привязку для согласованного позиционирования персонажей и планировки сцен между клипами; (3) многоэтапные циклы рецензирования, выполняющие всестороннее выявление ошибок и целенаправленную коррекцию на этапах сценария, визуализации и генерации видео. Мы также вводим сценарный подбор фоновой музыки (BGM) и планирование переходов между сценами для улучшения иммерсивного опыта зрителей. Для систематической оценки этой задачи мы представляем Short-Drama-Bench — бенчмарк, расширяющий стандартные метрики качества видео критериями, специфичными для короткометражек. Экспериментальные результаты показывают, что наш метод значительно превосходит существующие пайплайны по качеству повествования, согласованности между клипами и общему впечатлению от просмотра.
Большие языковые модели (LLM) и агентные системы продемонстрировали потенциал для поддержки клинических решений, однако существующие работы в основном исходят из того, что доказательства уже отобраны и переданы модели. В реальных клинических рабочих процессах агенты должны самостоятельно вести поиск, итеративно планировать и синтезировать мультимодальные доказательства из разнородных источников. В данной статье мы представляем ClinSeekAgent — автоматическую агентную платформу для динамического мультимодального поиска доказательств, которая меняет парадигму от пассивного потребления доказательств к их активному сбору. Получая лишь клинический запрос и доступ к исходным источникам данных, ClinSeekAgent собирает доказательства, запрашивая медицинские базы знаний, работая с необработанными электронными медицинскими картами (ЭМК) и вызывая инструменты медицинской визуализации; уточняет свои гипотезы по мере появления новой информации; и интегрирует собранные доказательства в обоснованные клинические решения. ClinSeekAgent служит как агентом времени логического вывода для передовых LLM, так и конвейером времени обучения для дистилляции высококачественных агентных траекторий в компактные модели с открытым исходным кодом. Для проверки его эффективности на этапе логического вывода мы создали ClinSeek-Bench, который сопоставляет рассуждения на основе предварительно отобранных фиксированных данных (Curated Input) с автоматизированным поиском доказательств по необработанным клиническим данным (Automated Evidence-Seeking). В задачах, использующих только текстовые ЭМК, ClinSeekAgent повышает показатели F1 у Claude Opus 4.6 с 60,0 до 63,2, а у MiniMax M2.5 — с 43,1 до 47,3, демонстрируя положительный прирост в прогнозировании рисков для 7 из 9 оцененных базовых моделей. В мультимодальных задачах ClinSeekAgent улучшает показатели Claude Opus 4.6 с 47,5 до 62,6 (+15,1); все оцененные модели улучшили свои результаты в трёх группах задач, связанных с рентгенографией грудной клетки (CXR). Мы дополнительно валидируем ClinSeekAgent как конвейер обучения, дистиллируя траектории агентного поиска доказательств в модель ClinSeek-35B-A3B, которая достигает среднего F1 34,0 на существующем бенчмарке AgentEHR-Bench, превосходя базовую модель Qwen3.5-35B-A3B на +11,9 пункта и приближаясь к показателям Claude Opus 4.6.
Хотя большинство кадров длительного видео избыточно, ключевая информация сосредоточена в темпоральных сюрпризах: моментах, где фактические визуальные признаки отклоняются от их предсказанной эволюции. Вдохновляясь предсказательным кодированием человеческого мозга, мы представляем Swift Sampling — элегантный алгоритм выбора кадров, не требующий обучения, который автоматически идентифицирует моменты с высокой информативностью в видео. В частности, мы моделируем видео как дифференцируемую траекторию в латентном визуальном пространстве и вычисляем скорость и ускорение его признаков. Затем с помощью разложения Тейлора прогнозируется ожидаемый путь последующих кадров. Кадры, резко отклоняющиеся от этого предсказанного многообразия, идентифицируются как темпорально сюрпризные и отбираются для выборки. В отличие от предыдущих методов без обучения, полагающихся на вспомогательные сети или подбор гиперпараметров для конкретного видео, Swift Sampling чрезвычайно легковесен, добавляя лишь 0,02× вычислительных затрат к базовому процессору, что делает его в 30 раз дешевле по накладным расходам, чем ведущие базовые подходы. На трёх эталонных наборах данных для ответов на вопросы по длинным видео и 10 различных нисходящих задачах Swift Sampling превосходит равномерную выборку и предшествующие базовые методы, независимые от запроса. Особенно эффективен он для длинных видео с ограниченным бюджетом кадров, повышая точность до +12,5 баллов.
Карточки моделей описывают поведение модели с помощью комбинации текстовых описаний и структурированных артефактов, включая таблицы производительности, конфигурации и наборов данных. Существующие системы поиска моделей в основном полагаются на семантическое сходство по тексту, что может приводить к однородным наборам результатов и ограничивать поиск альтернатив. Мы утверждаем, что поиск моделей по своей сути является сравнительным: пользователи хотят модели, которые соответствуют задаче, но различаются измеримыми способами. Мы выдвигаем гипотезу, что такой баланс требует извлечения сжатых, качественных свидетельств, а не многословных описаний, и большая часть этих свидетельств сосредоточена в структурированных таблицах. Мы представляем StructuredSemanticSearch — управляемый таблицами фреймворк для поиска моделей, построенный на основе бенчмарка ModelTables. По запросу StructuredSemanticSearch комбинирует семантический базовый подход для согласования с задачей и конвейер, учитывающий структуру, который обнаруживает связанные с запросом таблицы карточек моделей с помощью операторов обнаружения таблиц, таких как объединяемость, соединяемость и поиск по ключевым словам. Извлеченные таблицы сопоставляются с карточками моделей в рамках контролируемого бюджета top-k, что позволяет проводить справедливое сравнение между текстовым и табличным поиском. Помимо поиска, StructuredSemanticSearch адаптирует интеграцию таблиц к области таблиц моделей с помощью интеграции, учитывающей ориентацию, создавая компактные интегрированные представления таблиц из частично перекрывающихся и иногда транспонированных таблиц свидетельств. Для оценки мы вводим протокол на основе нуггетов с возможностью аудита, который извлекает компактные элементы свидетельств из карточек моделей, сопоставляет запросы с нуггетами, специфичными для условий или намерений, и измеряет покрытие и разнообразие свидетельств по извлеченным наборам кандидатов карточек моделей. Этот протокол также обеспечивает масштабируемый путь к приблизительной, основанной на свидетельствах разметке в динамических озерах моделей. Эксперименты на 597 запросах рекомендаций моделей показывают улучшенное покрытие нуггетов для конвейера, учитывающего структуру, по сравнению с семантическим базовым подходом.
Как агенту следует принимать решение о том, когда и как планировать? Доминирующий подход строит агентов как реактивные политики с адаптивными вычислениями (например, цепочка рассуждений), обучаемые сквозным образом в расчете на то, что планирование возникнет неявно. Без контроля за наличием, структурой или горизонтом планирования такие системы резко увеличивают длину рассуждений, что приводит к неэффективному использованию токенов без надежного повышения точности. Мы утверждаем, что эффективное агентное рассуждение выигрывает от разложения принятия решений на три системы: симулятивное рассуждение (Система II), обосновывающее обдумывание на предсказании будущих состояний через модель мира; самоконтроль (Система III), решающий, когда и насколько глубоко планировать, с помощью обученного конфигуратора; и реактивное выполнение (Система I), обрабатывающее действия на мелком уровне. Симулятивное рассуждение обеспечивает унифицированное планирование для различных задач без инженерии под каждый домен, в то время как самоконтроль гарантирует, что планировщик вызывается только при необходимости. Для проверки этого мы разрабатываем SR^2AM (Self-Regulated Simulative Reasoning Agentic LLM — самоконтролируемый симулятивный рассуждающий агентный LLM), реализуя обе системы как отдельные этапы в цепочке рассуждений LLM, при этом LLM выступает в роли модели мира. Мы исследуем две реализации: запись решений из мультимодульной системы с подсказками (v0.1) и реконструкцию структурированных планов из трасс предварительно обученных рассуждающих LLM (v1.0), обученных сначала с учителем, а затем с помощью обучения с подкреплением (RL). В задачах математики, естественных наук, табличного анализа и поиска информации в интернете v0.1-8B и v1.0-30B достигают показателя Pass@1, конкурентоспособного с системами с 120–355B и 685B–1T параметров соответственно, при этом v1.0-30B использует на 25,8–95,3% меньше токенов рассуждений, чем сравнимые агентные LLM. Обучение с подкреплением увеличивает средний горизонт планирования на 22,8%, в то время как частота планирования растет лишь на 2,0%, что показывает, что оно учится планировать дальше вперед, а не чаще. В более широком смысле, обученный самоконтроль воплощает принцип, который, как мы ожидаем, выйдет за рамки планирования и распространится на то, как агенты управляют собственным обучением и адаптацией.
Традиционные методы визуального отслеживания объектов (VOT) обычно полагаются на целевую контролируемую предобучку, что ограничивает их обобщение на невидимые объекты и сложные сценарии с помехами, окклюзией и нелинейным движением. Недавние фундаментальные модели компьютерного зрения, например SAM 2, изучают сильные априорные знания о понимании видео в ходе крупномасштабного предобучения и предлагают многообещающую основу для создания более устойчивых и обобщаемых трекеров. Однако прямое применение SAM 2 к VOT остаётся неоптимальным, так как эта модель не моделирует явно динамику движения цели, а также не обеспечивает геометрическую и семантическую согласованность между кадрами — оба аспекта необходимы для надёжного отслеживания. Для решения этой проблемы мы предлагаем SAMOSA — новую структуру отслеживания, которая адаптирует SAM 2 к сложным сценариям VOT путём явного использования признаков движения, геометрии и семантики. В частности, мы вводим лёгкий нелинейный предиктор движения для моделирования динамики цели и управления выбором масок, а также фильтрацией памяти. Мы дополнительно используем семантические признаки для обнаружения смещений цели и восстановления после сбоев отслеживания, тогда как геометрические признаки включаются в качестве структурных ограничений для повышения стабильности отслеживания. Таким образом, SAMOSA устраняет разрыв между неявным априорным знанием о понимании видео, заложенным в SAM 2, и явным моделированием, ориентированным на отслеживание. Обширные эксперименты показывают, что SAMOSA стабильно превосходит современные подходы на основе SAM 2 на общих тестовых наборах, демонстрирует более сильное обобщение по сравнению с контролируемыми методами VOT и достигает значительного улучшения на наборах данных anti-UAV, которые типичны для сценариев сложного нелинейного движения. Наш код доступен по адресу https://github.com/DurYi/SAMOSA.
Мультимодальные большие языковые модели (МБЯМ) и диффузионные модели достигли значительной зрелости: МБЯМ превосходно рассуждают о гетерогенных мультимодальных входных данных с сильной семантической привязкой, в то время как диффузионные модели синтезируют изображения и видео с фотореалистичной точностью. Мы утверждаем, что эти два класса моделей могут быть объединены с помощью простого разделения труда: МБЯМ выполняют семантическое планирование, а диффузионные модели рендерят пиксели на основе высокоуровневых семантических указаний и низкоуровневых визуальных признаков. Развивая эту идею, мы предлагаем Bernini — унифицированный фреймворк для генерации и редактирования видео. Планировщик на основе МБЯМ предсказывает целевое семантическое представление непосредственно в пространстве вложений ViT, а рендерер на основе DiT синтезирует пиксели, обусловленные этим планом, дополненным текстовыми признаками и, для редактирования, признаками исходного VAE для сохранения деталей. Поскольку семантика служит интерфейсом, планировщик и рендерер могут обучаться отдельно и лишь слегка совместно дообучаться, сохраняя предварительно обученные сильные стороны обоих компонентов при эффективности обучения. Для лучшей обработки множественных визуальных входов мы вводим сегментно-осознанное 3D-вращательное позиционное встраивание (SA-3D RoPE) и дополнительно включаем в планировщик цепочку рассуждений для более эффективного переноса понимания в генерацию. Bernini достигает передовой производительности на широком спектре бенчмарков генерации и редактирования видео, при этом предварительно обученное понимание МБЯМ транслируется в сильную обобщающую способность на сложных задачах редактирования.
Во многих общественных зданиях предоставляются планы этажей с указателем «вы находитесь здесь», чтобы помочь посетителям ориентироваться. Локализация на плане этажа стремится вычислительно воспроизвести эту возможность, определяя, где были сделаны визуальные наблюдения в пределах плана этажа. Однако существующие методы обычно предполагают контролируемые маломасштабные среды и точные векторизованные планы этажей, что ограничивает их способность работать в крупномасштабных зданиях и с растровыми планами этажей. В данной работе мы представляем подход к выполнению локализации на плане этажа в естественных условиях, основывая задачу на реконструированном трехмерном представлении сцены. Имея неограниченный набор изображений, наш метод реконструирует трехмерную сцену, выровненную по гравитации, и проецирует ее в двумерную карту плотности, которая служит прокси-планом этажа. Затем локализация на плане этажа формулируется как выравнивание этого прокси с входным планом этажа с помощью двумерного преобразования подобия. Чтобы преодолеть разрыв в представлении между картами плотности и архитектурными планами этажей, мы адаптируем двумерную фундаментальную модель для изучения межмодальных соответствий, вводя схему тонкой настройки, которая поощряет семантически согласованные совпадения, сохраняя структурную согласованность. Обширные эксперименты демонстрируют существенные улучшения по сравнению с предыдущими методами, в том числе в условиях крайне разреженных данных, при наличии всего одного входного изображения. Наш код и данные будут доступны публично.
Согласование моделей генерации текста в изображение (T2I) с человеческими предпочтениями все чаще опирается на модели вознаграждения для изображений, которые оценивают или ранжируют сгенерированные изображения на основе соответствия промпту и перцептивного качества. Существующие модели вознаграждения обычно обучаются как модели предпочтений Брэдли-Терри (BT) на крупномасштабных корпусах человеческих предпочтений, что делает их дорогостоящими в обучении, сложными для адаптации и непрозрачными в своих критериях оценки. Между тем, судьи на основе визуально-языковых моделей (VLM) могут предоставлять более детализированные оценки с помощью текстовых рубрик, однако их вручную разработанные или эвристически сгенерированные правила оценки могут не отражать надежно человеческие предпочтения. В данной статье мы предлагаем AutoRubric-T2I — первую систему обучения рубрикам в T2I, которая автоматически синтезирует и выбирает явные рубрики для направления судей VLM. AutoRubric-T2I сначала синтезирует цепочки рассуждений из пар предпочтений в кандидатные рубрики, затем использует судью VLM для оценки парных изображений по каждой рубрике, получая попарные разности оценок рубрик для обучения предпочтениям. Для удаления шумных и избыточных правил мы дополнительно применяем регрессионный рефайнер с L1-регуляризацией, который отбирает Top-N наиболее дискриминативных рубрик. Обширные оценки показывают, что AutoRubric-T2I генерирует высококачественные, интерпретируемые сигналы вознаграждения, используя менее 0,01% аннотированных данных о предпочтениях, что существенно снижает необходимость в крупномасштабном обучении моделей вознаграждения. На эталонных тестах вознаграждения для изображений, таких как MMRB2, AutoRubric-T2I превосходит сильные базовые модели вознаграждения. Мы также проверяем AutoRubric-T2I в качестве вознаграждения для обучения с подкреплением на нижестоящих задачах T2I, включая TIIF и UniGenBench++, где он улучшает качество генерации по сравнению со скалярными моделями вознаграждения при использовании конвейера Flow-GRPO на диффузионных моделях.
Мы представляем TerminalWorld — масштабируемый механизм обработки данных, который автоматически восстанавливает задачи оценки высокой точности на основе «реальных» записей терминалов. Обработав 80 870 таких записей, механизм формирует полный эталонный набор (бенчмарк) из 1 530 проверенных задач, охватывающих 18 реальных категорий — от коротких повседневных операций до рабочих процессов, состоящих более чем из 50 шагов, и включающих 1 280 уникальных команд. На их основе мы отобрали проверенный поднабор из 200 репрезентативных задач, вручную отрецензированных. Комплексное тестирование на TerminalWorld-Verified с использованием восьми передовых моделей и шести агентов показывает, что современные системы всё ещё испытывают трудности с подлинными рабочими процессами в терминалах, достигая максимального процента успешного выполнения лишь 62,5%. Более того, TerminalWorld отражает реальные возможности работы с терминалом, которые отличаются от существующих экспертно составленных бенчмарков (например, Terminal-Bench); наблюдается лишь слабая корреляция с их показателями (коэффициент корреляции Пирсона r = 0,20). Автоматический механизм делает TerminalWorld изначально аутентичным и масштабируемым, позволяя оценивать агентов в реальных терминальных средах по мере развития практик разработчиков. Данные и код доступны по адресу https://github.com/EuniAI/TerminalWorld.
Продольные клинические записи содержат богатые свидетельства того, как пациенты изменяются с течением времени, однако преобразование этого сигнала в обучающую супервизию для клинического прогнозирования остаётся сложной задачей. Мы расширяем метод Foresight Learning на область клинического прогнозирования, преобразуя упорядоченные по времени записи из базы MIMIC-III в примеры, состоящие из прошлого контекста пациента, вопроса на естественном языке о возможном будущем событии и метки, полученной из более поздней документации. Этот процесс позволяет получить 6 900 примеров прогнозирования из 702 госпитализаций, охватывающих лекарственные препараты, процедуры, поддержку органов, микробиологию и летальность. Небольшой адаптер LoRA, обученный на этих примерах, улучшает результаты по сравнению с исходной моделью с подсказками: снижая ожидаемую ошибку калибровки с 0,1269 до 0,0398 и показатель Бриера с 0,199 до 0,145, а также незначительно превосходя точечные оценки GPT-5 на отложенных вопросах. Данный подход обеспечивает возможность повторного использования обучающего сигнала для клинического прогнозирования на основе продольных записей без необходимости вручную разработанных структурированных признаков или классификаторов для конкретных конечных точек.
Промышленно реализуемые топологии чипов должны удовлетворять тысячам геометрических правил проектирования, а проверка этих правил (DRC) осуществляется путём выполнения исполняемых скриптов DRC на топологиях. Перевод правил, заданных на естественном языке, в корректные скрипты DRC требует больших трудозатрат и специализированной экспертизы, что стимулирует создание агентов на основе больших языковых моделей для синтеза и отладки скриптов DRC. Однако существующие бенчмарки имеют малые оценочные наборы и зачастую оценивают скрипты по схожести кода, а не по корректности выполнения; кроме того, предыдущие методы, основанные на машинном обучении, либо игнорируют обратную связь по выполнению, либо требуют размеченных тестовых топологий на входе агента. Для решения этой проблемы мы представляем Rule2DRC — крупномасштабный бенчмарк для агентов, пишущих скрипты DRC, содержащий 1000 задач преобразования правил в скрипты и 13 921 оценочную топологию чипов для оценки на основе выполнения. Rule2DRC предоставляет конвейер оценки, измеряющий функциональную корректность по результатам выполнения DRC, не требуя подачи оценочных топологий на вход агенту. Мы также предлагаем SplitTester — агента-тестировщика для выбора программ, который использует обратную связь по выполнению для генерации различающих тестовых случаев и разделения ранее неразличимых кандидатных скриптов, что существенно улучшает производительность выбора лучшего из N (Best-of-N) в данной области. Код опубликован по адресу https://github.com/snu-mllab/Rule2DRC.
Обучение с подкреплением на основе верифицируемых вознаграждений (RLVR) демонстрирует многообещающие результаты для рассуждений больших языковых моделей, однако RLVR на основе результатов остаётся неэффективным для сложных задач из-за редкости правильных итоговых решений и невозможности использования частичного прогресса в неудачных попытках при распределении оценки на уровне примеров. Мы представляем SCRL (куррикулумное обучение с подкреплением на основе подзадач) — фреймворк куррикулумного обучения, который извлекает верифицируемые подзадачи из эталонных цепочек рассуждений и фиксирует итоговую подзадачу как исходную задачу. Это превращает частичный прогресс в сложных задачах в верифицируемые обучающие сигналы. Алгоритмически SCRL использует нормировку на уровне подзадач: вознаграждения независимо нормализуются для каждой позиции подзадачи, а полученные преимущества присваиваются соответствующим сегментам ответа, что обеспечивает более детальное распределение оценки без внешних рубрик или моделей вознаграждения. Наш анализ показывает, что куррикулумы подзадач выводят сложные задачи из «мёртвых зон» градиента, причём относительный выигрыш возрастает по мере усложнения исходной задачи. На семи бенчмарках математических рассуждений SCRL превосходит сильные базовые подходы куррикулумного обучения, улучшая среднюю точность по сравнению с GRPO на +4,1 пункта для Qwen3-4B-Base и на +1,9 пункта для Qwen3-14B-Base. На AIME24, AIME25 и IMO-Bench SCRL дополнительно улучшает pass@1 на +3,7 пункта и pass@64 на +4,6 пункта для Qwen3-4B-Base, что свидетельствует о более эффективном исследовании сложных задач рассуждений.
По мере того как носимые и мобильные устройства всё глубже внедряются в повседневную жизнь, они предоставляют практический способ непрерывного распознавания движений человека в естественных условиях. Однако инерциальные сигналы сильно зависят от конфигурации сенсоров, включая расположение на теле, место крепления, ориентацию датчика, аппаратное обеспечение устройства и протокол дискретизации. Эта зависимость от конфигурации затрудняет изучение представлений движений, переносимых между устройствами и наборами данных, и ограничивает более широкое применение носимых IMU за пределами распознавания в замкнутом множестве. Мы представляем AnyMo — геометрически-осведомлённый фреймворк для моделирования движений человека, не зависящий от конфигурации датчиков. AnyMo использует физически обоснованную симуляцию IMU на плотной сетке размещений на поверхности тела для генерации разнообразных и правдоподобных синтетических сигналов, предварительно обучает графовый энкодер на парных синтетических видах размещения и маскированных частичных наблюдениях, токенизирует многопозиционные IMU в токены движений всего тела и выравнивает эти токены с большой языковой моделью для понимания движений и языка. Мы оцениваем AnyMo на трёх взаимодополняющих задачах: распознавании активности в нулевом контексте на 14 невидимых наборах данных, кросс-модальном поиске и описании движений по данным носимых IMU, где он улучшает среднюю точность/F1/R@2 на 11.7%/11.6%/22.6% для HAR, увеличивает MRR для поиска IMU-текст и текст-IMU в нулевом контексте на 15.9% и 28.6% соответственно, а также улучшает BERT-F1 для описания в нулевом контексте на 18.8%. Эти результаты подтверждают AnyMo как универсальную модель для понимания носимых движений в естественных условиях. Страница проекта: https://baiyuchen.com/project/AnyMo.
Автоэнкодеры представлений (RAEs) используют замороженные фундаментальные модели зрения (VFMs) в качестве энкодеров-токенизаторов, обеспечивая надежные высокоуровневые представления, которые способствуют быстрой сходимости и высококачественной генерации в латентных диффузионных моделях. Однако заморозка VFM по своей сути ограничивает их способность к пространственной реконструкции, что ограничивает мелкозернистую генерацию и редактирование изображений; напротив, включение сигналов, ориентированных на реконструкцию, посредством тонкой настройки нарушает предобученное семантическое пространство и ухудшает точность генерации. Для решения этого компромисса мы предлагаем DecQ — простую, но эффективную структуру для RAE. В частности, DecQ вводит легковесные запросы, конденсирующие детали, которые извлекают мелкозернистую информацию из промежуточных признаков VFM с помощью модулей конденсации. Эти запросы встраиваются в декодер для поддержки реконструкции и совместно генерируются с патч-токенами в процессе генеративного моделирования. Агрегируя информацию как из мелких, так и из глубоких слоев, DecQ эффективно смягчает компромисс между реконструкцией и генерацией, улучшая как качество реконструкции, так и производительность генерации. Наши эксперименты показывают, что: (1) всего с 8 дополнительными запросами и 3,9% дополнительных вычислений DecQ улучшает реконструкцию по сравнению с замороженным RAE на основе DINOv2, увеличивая PSNR с 19,13 дБ до 22,76 дБ; (2) для генеративного моделирования DecQ достигает в 3,3 раза более быстрой сходимости, чем RAE, достигая FID 1,41 без направляющего сигнала и 1,05 с направляющим сигналом.
Обнаружение ценностей Шварца в политических текстах затруднительно, поскольку имплицитные сигналы часто зависят от окружающих аргументов и тонких различий между соседними ценностями. Мы изучаем, когда контекст и явное моральное знание помогают в обнаружении ценностей на уровне предложений. Используя формат ValuesML/Touché ValueEval, мы сравниваем входные данные на уровне предложений, окон и полных документов; настройки без RAG и с дополнением извлечением с курируемой базой моральных знаний; контролируемые энкодеры DeBERTa-v3-base/large; и zero-shot LLM от 12B до 123B параметров. Результаты показывают, что больший контекст не всегда лучше: контекст полного документа улучшает контролируемые энкодеры DeBERTa на 3,8–4,8 пункта macro-F1 по сравнению с вводом только предложений, но не помогает последовательно zero-shot LLM. Извлеченное моральное знание более последовательно полезно в сопоставимых сравнениях, улучшая каждое тестируемое семейство моделей и условие контекста при раннем слиянии. Однако масштабирование от DeBERTa-v3-base до large и от 12B до более крупных LLM не гарантирует улучшений, и простое раннее слияние превосходит протестированные варианты позднего слияния и кросс-внимания RAG для энкодеров. Анализ по отдельным ценностям показывает, что контекст и извлечение больше всего помогают для социально обусловленных или концептуально путаемых ценностей. Эти результаты свидетельствуют о том, что ценностно-чувствительная NLP должна оценивать контекст, знания и семейство моделей совместно, а не рассматривать более длинные входные данные или более крупные модели как универсальные улучшения.
Омни-проактивное понимание потокового видео, то есть автономное принятие решений о том, когда говорить и что говорить, на основе непрерывных аудиовизуальных потоков, является формирующейся способностью омни-модальных больших языковых моделей. Существующие бенчмарки имеют недостатки в трех ключевых аспектах: они полагаются в основном на визуальные сигналы, применяют протоколы опроса или фиксированных временных меток вместо истинной проактивной оценки и охватывают лишь ограниченный круг задач, что препятствует надежной оценке и дифференциации омни-проактивных потоковых моделей. Мы представляем OmniPro — первый бенчмарк для совместной оценки омни-модального восприятия, проактивного реагирования и разнообразных задач понимания видео. Он включает 2 700 проверенных человеком образцов, охватывающих 9 подзадач и 3 когнитивных уровня, покрывающих 6 базовых способностей понимания видео. Примечательно, что 84% образцов требуют аудиосигналов (речь или неречевые звуки), и каждый образец аннотирован метками изоляции модальности для обеспечения детального мультимодального анализа. Далее мы вводим протокол оценки с двумя режимами: режим Probe оценивает понимание содержания, запрашивая модель до и после каждого истинного триггера, в то время как режим Online оценивает полную проактивную способность, требуя от моделей автономного решения, когда отвечать на потоковом входе. Оценка 11 репрезентативных моделей выявляет три ключевых результата: (1) аудио обеспечивает стабильный прирост, но с высокой вариабельностью использования среди моделей, (2) производительность значительно снижается со временем, что указывает на ограниченную долгосрочную устойчивость, и (3) восприятие неречевого аудио остается самым слабым аспектом.
Поскольку большие языковые модели (LLM) всё больше определяют то, как пользователи формируют, уточняют и расширяют свои цели, приписывание вклада в сотрудничестве человека и ИИ становится критически важным как для пользователей, калибрующих собственную степень доверия, так и для оценщиков, анализирующих работу с помощью ИИ. Однако существующие методы сосредоточены на конечных артефактах, упуская процесс, в ходе которого сами цели формируются совместно. Мы представляем фреймворк приписывания вклада на уровне целей, CoTrace, который разлагает явные цели на проверяемые требования и отслеживает как прямые вклады, так и косвенные влияния на протяжении ходов диалога. Применяя CoTrace к 638 журналам реального сотрудничества, мы обнаружили, что, хотя на модели приходится лишь 11–26% вклада в формирование целей, они вносят значительно больший вклад в введение более низкоуровневых конкретных требований и осуществляют различные виды косвенного вклада. С помощью контролируемых симуляций мы показываем, что выбор дизайна взаимодействия существенно влияет на поведение модели по формированию целей. В пользовательском исследовании ознакомление участников с анализом на уровне целей сдвигает их воспринимаемый вклад почти на 2 балла по 5-балльной шкале, выявляя систематическую ошибку калибровки в том, как пользователи понимают свою собственную работу с помощью ИИ.
Мы представляем Lean Refactor — подключаемый агентный фреймворк с дополнением извлечениями для многоцелевого, управляемого и устойчивого к версиям рефакторинга Lean-доказательств. Доказательства, сгенерированные LLM, как известно, являются корректными, но многословными и хрупкими при смене версий библиотек, однако существующие работы по рефакторингу упускают из виду три практические проблемы: 1) рефакторинг Lean по своей сути многоцелевой (длина доказательства, стоимость компиляции и совместимость версий часто находятся в противоречии); 2) репозитории Lean обладают хрупкой совместимостью, в то время как выпуски LLM не учитывают версии Lean/Mathlib; 3) конвейеры на основе обучения требуют повторной тонкой настройки при каждом новом выпуске LLM, не масштабируясь ни при смене моделей, ни в цикле выпуска Lean. Lean Refactor управляет замороженным агентным LLM с помощью извлечений из кураторской базы данных многоцелевых стратегий рефакторинга, каждая из которых плотно аннотирована метаданными, такими как поддерживаемые версии Lean/Mathlib и ожидаемое снижение стоимости компиляции. Эксперименты показывают сжатие на уровне токенов более 70% на бенчмарках соревнований, более 20% на исследовательских репозиториях и сокращение времени компиляции до 60%, что превосходит предыдущие работы и Claude Code. Извлечение с фильтрацией по версии дополнительно улучшает сжатие для целевой версии Lean, а рефакторизованные доказательства miniF2F демонстрируют более сильный нулевой перенос версий на будущие выпуски Lean по сравнению с их нерефакторизованными аналогами.
Дисбаланс классов является фундаментальной проблемой в сегментации медицинских изображений, где частые классы, как правило, доминируют в обучении за счет редких классов. Методы, основанные на функциях потерь, смягчают дисбаланс путем перевзвешивания попиксельных потерь в пределах батча, в то время как стратегии выборки контролируют, какие изображения попадают в батч. Однако ни один из этих подходов явно не контролирует, какие классы присутствуют в батче, оставляя экспозицию редких классов лишь частично сбалансированной. В данной работе мы применяем эпизодическую выборку из обучения с несколькими примерами для обеспечения сбалансированного по классам построения батчей в условиях полностью контролируемого обучения. Мы отделяем эпизодическую выборку от ее традиционного контекста метрического обучения и оцениваем ее в сегментации компонентов тела на КТ-изображениях. Мы сравниваем эпизодическую выборку со случайной и взвешенной выборкой на девяти типах мышечной и жировой тканей, полученных из 210 снимков общедоступного набора данных SAROS. Обучение проводится в режимах полного и малого объема данных, а также с дополнительными сравнениями при одинаковом бюджете итераций обучения. При обучении на полных данных все три стратегии показали сопоставимые результаты (средний Dice 0,882 для эпизодической, 0,878 для случайной и взвешенной). При обучении на малых данных эпизодическая выборка превзошла случайную и взвешенную (0,787 против 0,758 и 0,762), что обусловлено 12-кратной разницей в количестве итераций обучения. При одинаковом бюджете итераций случайная и взвешенная выборки переобучались раньше, тогда как эпизодическая улучшалась примерно в три раза дольше до выхода на плато. Наши результаты выявляют бюджет итераций обучения как недостаточно учитываемый confounding-фактор в стратегиях выборки, что мотивирует внедрение протоколов оценки, учитывающих количество итераций для малых наборов данных. Кроме того, остаточное преимущество эпизодической выборки согласуется с эффектом неявной регуляризации за счет сбалансированных по классам батчей, предлагая низкозатратную, модельно-независимую стратегию для сегментации медицинских изображений с дисбалансом классов. Код доступен по адресу https://github.com/iasonsky/episodic-sampling.
Законы масштабирования сделали производительность языковых моделей предсказуемой на основе размера модели, данных и вычислительных ресурсов, однако они, как правило, рассматривают оптимизатор как фиксированную деталь обучения. Мы показываем, что это допущение упускает фундаментальную ось масштабирования представлений: насколько эффективно оптимизатор преобразует добавленную ширину FFN (сеть прямой связи) в используемую спектральную ёмкость. Используя собственные спектры представлений сети прямой связи, измеренные через мягкие и жесткие спектральные ранги, мы обнаруживаем, что одна и та же архитектура Transformer реализует заметно разные спектральные законы масштабирования при обучении с различными оптимизаторами. Фиксируя архитектуру и план изменения ширины, AdamW демонстрирует слабое масштабирование по жесткому рангу (β=0,44) на представлениях редких токенов (TAIL), где обучение, как известно, наиболее сложно, тогда как Muon достигает линейного масштабирования (β=1,02) в тех же режимах, что соответствует увеличению показателя масштабирования в 2,3 раза. Это различие не сводится к потерям на валидации: конфигурации AdamW могут соответствовать вариантам Dion с низким рангом по перплексии при продленном обучении, демонстрируя при этом резко различную спектральную геометрию, что показывает, что совпадение потерь не подразумевает совпадения структуры представлений. Асимметрия жесткого и мягкого рангов дополнительно выявляет, что оптимизаторы различаются не только тем, насколько ёмкость реализуется, но и тем, как эта ёмкость структурирована по собственным модам. Чтобы разделить эффекты оптимизатора и архитектуры, мы сравниваем их с архитектурными модификациями (например, ранг внимания и позиционное кодирование) и обнаруживаем, что спектральные сдвиги, вызванные оптимизатором, часто превышают архитектурные эффекты. Эти результаты указывают на оптимизацию как на первостепенную ось масштабирования представлений, мотивируя совместное проектирование оптимизатора и архитектуры.
Гипотеза сильного платонического представления предполагает, что сходимость представлений в искусственных нейронных сетях может быть использована конструктивно: вложения можно транслировать между моделями через универсальное латентное пространство без парных данных. Мы задаемся вопросом, можно ли восстановить аналогичную геометрию в мозге разных людей. Используя данные фМРТ из набора Natural Scenes Dataset, мы предлагаем самообучаемый кодер, который извлекает специфичные для субъекта вложения исключительно из данных мозга, используя повторные предъявления стимулов. Мы показываем, что эти независимо обученные пространства можно транслировать между субъектами с помощью неконтролируемых ортогональных вращений, без парных межсубъектных выборок или промежуточных представлений модели. Синхронизация попарных вращений в единое общее латентное пространство дополнительно улучшает межсубъектный поиск, что указывает на взаимную совместимость специфичных для субъекта пространств с общей системой координат. Эти результаты свидетельствуют о существовании общей нейронной геометрии в зрительной коре человека: специфичные для субъекта представления фМРТ приблизительно изометричны у разных индивидов и могут быть транслированы с помощью чисто геометрических преобразований.
Интерактивная потоковая генерация музыки обещает применение генеративных моделей для живых выступлений и совместного творчества, что невозможно с офлайн-моделями. Однако современные модели существуют в дискретном авторегрессивном режиме, требуя промышленных вычислительных мощностей как для обучения, так и для инференса. В данной работе мы исследуем, могут ли аудиодиффузионные модели, широко поддерживаемые сообществом открытого исходного кода, но обладающие непотоковой двунаправленной природой, быть эффективно перепрофилированы в интерактивные модели, доступные на потребительском оборудовании. Критически проанализировав современный конвейер блочной диффузии с дорисовыванием, мы выявляем критические неэффективности во время инференса, которые приводят к строго худшей вычислительной эффективности по сравнению с дискретными авторегрессивными аналогами. Мы предлагаем Модели диффузии живой музыки (LMDM) — простую модификацию генеративного диффузионного процесса, которая восстанавливает, а затем превосходит сложность инференса дискретных Моделей живой музыки (LMM) за счёт блочного кэширования KV. В отличие от LMM, LMDM дополнительно обеспечивают стабильное посттренировочное выравнивание благодаря нашей новой парадигме ARC-Forcing, уменьшая накопление ошибок без использования явных моделей RL или вознаграждения. Мы демонстрируем применение LMDM в ряде творческих областей, включая генерацию по текстовому условию, синтез музыки на основе эскизов и джем-сейшны. Наконец, мы показываем, как LMDM могут использоваться как генеративный инструмент в реальном сотрудничестве художника и ИИ, применяясь как «генеративная задержка» для трансформации импровизации музыкантов в реальном времени с целью создания переменных тембральных эффектов, работая локально на потребительском игровом ноутбуке.
Трехмерная реконструкция животных в естественных условиях остается сложной задачей из-за большого разнообразия видов, частых перекрытий и преобладания сцен с несколькими животными, тогда как существующие методы в основном ориентированы на сцены с одним животным. Мы представляем SAM 3D Animal — первую гибкую систему для трехмерной реконструкции нескольких животных по одному изображению. Основанный на параметрической модели животных SMAL+, наш метод совместно реконструирует несколько объектов и поддерживает гибкие подсказки в виде ключевых точек и масок, что позволяет более надежно устранять неоднозначность в перегруженных и затененных сценах. Для обучения такой модели мы дополнительно представляем Herd3D — набор данных для трехмерной реконструкции нескольких животных, содержащий более 5 000 изображений, предназначенный для увеличения разнообразия видов, взаимодействий и схем перекрытия. Эксперименты на наборах данных Animal3D, APTv2 и Animal Kingdom показывают, что наша система достигает передовых результатов по сравнению как с существующими модельно-ориентированными, так и с бесмодельными методами, демонстрируя масштабируемое и эффективное решение для управляемой подсказками трехмерной реконструкции животных в естественных условиях.
Визуально-инерциальная одометрия (VIO), имеющая критическое значение для навигации мобильных роботов, использует камеры с большим количеством пикселей. Захват и обработка изображений с камер требуют значительных ресурсов. В данной работе представлен минималистичный подход к плоской одометрии, демонстрирующий, что всего четыре визуальных измерения и ИНС могут обеспечить надежную оценку движения для роботов с дифференциальным приводом. Наша ключевая идея заключается в том, что четыре обращенных вниз фотодиода, воспринимающие мир через оптические маски Габора, генерируют сигналы, кодирующие скорость. Основываясь на этом, мы совместно оптимизируем параметры масок и временную сверточную сеть (TCN), используя физически обоснованный симулятор. Полученная модель декодирует скорость всего по четырем измерениям, поступающим от фотодиодов. Объединение этих оценок с угловой скоростью от ИНС позволяет получить непрерывную плоскую траекторию. Мы подтверждаем наш подход с помощью прототипа датчика, установленного на роботе с дифференциальным приводом. На различных внутренних и наружных поверхностях наша система точно отслеживает эталонные данные без какой-либо донастройки на реальных данных. Наша работа показывает, что минималистичное сенсорное обеспечение позволяет эффективно и точно выполнять плоскую одометрию.
Поиск изображений одежды является краеугольным камнем современных систем электронной коммерции. На практике существует высокая потребность в единой структуре, поддерживающей различные форматы запросов и поисковые намерения. Однако существующие подходы сосредоточены на узких задачах поиска и не в полной мере учитывают такое разнообразие. Поэтому в данной работе мы стремимся разработать унифицированную структуру, способную обрабатывать разнообразные реалистичные сценарии поиска одежды, достигая по-настоящему универсального поиска изображений одежды. Для создания фундаментальной основы данных мы сначала представляем U-FIRE — комплексный бенчмарк, объединяющий фрагментированные наборы данных одежды в единую коллекцию, дополненную двумя вручную подобранными наборами данных для тестирования обобщающей способности. Основываясь на этом, мы предлагаем FashionLens — унифицированную структуру на основе мультимодальных больших языковых моделей. Для обработки расходящихся целей сопоставления мы разрабатываем Калибратор сферических запросов с направляющими предложениями (Proposal-Guided Spherical Query Calibrator), который динамически смещает представления запросов в метрические пространства, согласованные с задачей, с помощью адаптивной сферической линейной интерполяции. Кроме того, чтобы смягчить дисбаланс оптимизации, вызванный различной сложностью задач и масштабами данных, мы разрабатываем стратегию градиентно-направленной адаптивной выборки (Gradient-Guided Adaptive Sampling), которая автоматически перераспределяет веса задач на основе сложности обучения в реальном времени и априорной информации о масштабе данных. Эксперименты на U-FIRE показывают, что FashionLens достигает самых современных результатов в различных сценариях поиска и обладает надежной обобщающей способностью для ранее не встречавшихся задач. Данные и код опубликованы в открытом доступе по адресу https://github.com/haokunwen/FashionLens.