Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя большие языковые модели (LLM) демонстрируют потенциал в области научных открытий, существующие исследования сосредоточены на выводе или обучении с обратной связью, оставляя неисследованным прямое моделирование генеративного процесса рассуждений, P(гипотеза|фон) (P(h|b)). Мы показываем, что прямое обучение P(h|b) математически неразрешимо из-за комбинаторной сложности (O(N^k)), присущей извлечению и компоновке инсайтов из обширной базы знаний. Чтобы преодолеть этот барьер, мы представляем MOOSE-Star — унифицированную структуру, обеспечивающую разрешимое обучение и масштабируемый вывод. В лучшем случае MOOSE-Star снижает сложность с экспоненциальной до логарифмической (O(log N)) за счет (1) обучения на декомпозированных подзадачах, выведенных из вероятностного уравнения открытия, (2) использования мотивационно-ориентированного иерархического поиска для обеспечения логарифмического извлечения и отсечения нерелевантных подпространств и (3) применения ограниченной композиции для обеспечения устойчивости к шуму при извлечении. Для обеспечения этого мы публикуем TOMATO-Star — набор данных из 108 717 декомпозированных статей (38 400 GPU-часов) для обучения. Кроме того, мы показываем, что в то время как метод грубой силы упирается в «стену сложности», MOOSE-Star демонстрирует непрерывное масштабирование во время тестирования.
Современные ИИ-агенты способны гибко использовать инструменты и выполнять сложные задачи, однако их долгосрочное развитие сдерживается отсутствием систематического накопления и передачи навыков. Без единого механизма консолидации навыков агенты постоянно «изобретают велосипед», заново находя решения в изолированных контекстах, не используя предыдущие стратегии. Чтобы преодолеть это ограничение, мы представляем SkillNet — открытую инфраструктуру, предназначенную для масштабируемого создания, оценки и организации навыков ИИ. SkillNet структурирует навыки в рамках единой онтологии, которая поддерживает создание навыков из гетерогенных источников, установление богатых реляционных связей и многомерную оценку по параметрам Безопасности, Полноты, Исполняемости, Поддерживаемости и Учета затрат. Наша инфраструктура интегрирует репозиторий из более чем 200 000 навыков, интерактивную платформу и универсальный инструментарий Python. Экспериментальные оценки на ALFWorld, WebShop и ScienceWorld демонстрируют, что SkillNet значительно повышает производительность агентов, улучшая среднее вознаграждение на 40% и сокращая шаги выполнения на 30% для нескольких базовых моделей. Формализуя навыки как развивающиеся, композируемые активы, SkillNet создает надежную основу для перехода агентов от преходящего опыта к устойчивому мастерству.
Агенты больших языковых моделей (LLM) способны автоматизировать рабочие процессы в области науки о данных, однако многие строгие статистические методы, реализованные в R, остаются недостаточно используемыми из-за трудностей LLM со статистическими знаниями и поиском инструментов. Существующие подходы с усилением поиска фокусируются на семантике уровня функций и игнорируют распределение данных, что приводит к субоптимальным результатам. Мы предлагаем DARE (Distribution-Aware Retrieval Embedding) — легковесную, подключаемую модель поиска, которая incorporates информацию о распределении данных в представления функций для поиска пакетов R. Нашими основными вкладами являются: (i) RPKB, курируемая база знаний пакетов R, созданная на основе 8191 высококачественного пакета из CRAN; (ii) DARE, модель эмбеддингов, которая объединяет признаки распределения с метаданными функций для повышения релевантности поиска; и (iii) RCodingAgent, LLM-агент, ориентированный на R, для надежной генерации кода на R, а также набор задач статистического анализа для систематической оценки LLM-агентов в реалистичных аналитических сценариях. Экспериментально DARE достигает значения NDCG@10 в 93.47%, превосходя современные модели эмбеддингов с открытым исходным кодом на величину до 17% в задаче поиска пакетов, при этом используя значительно меньше параметров. Интеграция DARE в RCodingAgent дает значительное улучшение результатов в последующих аналитических задачах. Данная работа способствует сокращению разрыва между автоматизацией с помощью LLM и зрелой статистической экосистемой R.
Мультимодальные агенты в реальном мире решают многошаговые задачи, основанные на визуальных данных. Например, агент может диагностировать неисправность устройства, сопоставляя фотографию проводки со схемой и проверяя решение по онлайн-документации, или планировать поездку, интерпретируя карту маршрутов и сверяя расписание с учетом ограничений. Однако существующие мультимодальные бенчмарки в основном оценивают одношаговое визуальное мышление или конкретные навыки работы с инструментами, не отражая в полной мере реализм, визуальную сложность и длинные цепочки использования инструментов, необходимые практическим агентам. Мы представляем AgentVista — бенчмарк для универсальных мультимодальных агентов, охватывающий 25 поддоменов в 7 категориях, который сочетает реалистичные и детализированные визуальные сценарии с естественным гибридным использованием инструментов. Задачи требуют длинных цепочек взаимодействий с инструментами across модальностей, включая веб-поиск, поиск изображений, навигацию по страницам и операции на основе кода для обработки изображений и общего программирования. Всесторонняя оценка современных моделей выявляет значительные пробелы в их способности выполнять длинные мультимодальные цепочки с инструментами. Даже лучшая модель в нашем исследовании, Gemini-3-Pro с инструментами, достигает общей точности лишь 27.3%, а сложные случаи могут требовать более 25 вызовов инструментов. Мы ожидаем, что AgentVista ускорит разработку более способных и надежных мультимодальных агентов для решения реалистичных и сверхсложных задач.
Масштабирование обучения с подражанием фундаментально ограничено эффективностью сбора данных. Хотя ручные интерфейсы стали масштабируемым решением для сбора данных в естественных условиях, они в основном работают в разомкнутом контуре: операторы вслепую собирают демонстрации, не зная слабых мест базовой политики, что приводит к неэффективному охвату критически важных распределений состояний. В то же время интерактивные методы, такие как DAgger, эффективно решают проблему ковариатного сдвига, но полагаются на физическое выполнение действий роботом, что дорого и сложно масштабировать. Чтобы разрешить это противоречие, мы представляем RoboPocket — портативную систему, которая обеспечивает мгновенную итерацию политики без робота с использованием одного смартфона потребительского класса. Её ключевая инновация — это фреймворк удаленного вывода, который визуализирует прогнозируемую траекторию политики с помощью дополненной реальности (AR) и визуального предвидения. Эта иммерсивная обратная связь позволяет сборщикам proactively выявлять потенциальные сбои и концентрировать сбор данных на слабых участках политики без необходимости использования физического робота. Кроме того, мы реализовали асинхронный конвейер онлайн-дообучения, который непрерывно обновляет политику поступающими данными, эффективно замыкая цикл обучения за считанные минуты. Многочисленные эксперименты демонстрируют, что RoboPocket подчиняется законам масштабирования данных и удваивает эффективность данных по сравнению с офлайн-стратегиями масштабирования, преодолевая их давний узкий по эффективности. Более того, наш мгновенный цикл итераций также повышает эффективность использования образцов до 2 раз в распределенных средах при небольшом количестве интерактивных исправлений на человека. Страница проекта и видео: https://robo-pocket.github.io.
Изображения "человек-товар", демонстрирующие интеграцию человека и продукта, играют ключевую роль в рекламе, электронной коммерции и цифровом маркетинге. Основная сложность генерации таких изображений заключается в обеспечении высокоточной сохранности деталей продукта. Среди существующих подходов инпантинг на основе референсных изображений предлагает целевое решение, используя изображения продукта в качестве ориентира для управления процессом восстановления. Однако сохраняются ограничения в трёх ключевых аспектах: отсутствие разнообразных крупномасштабных данных для обучения, неспособность современных моделей концентрироваться на сохранении деталей продукта и недостаточная точность грубого контроля для достижения точного руководства. Для решения этих проблем мы предлагаем HiFi-Inpaint — новую высокоточную систему инпантинга на основе референсов, предназначенную для генерации изображений "человек-товар". HiFi-Inpaint вводит механизм общего усиления внимания (Shared Enhancement Attention, SEA) для улучшения мелкозернистых характеристик продукта и функцию потерь, учитывающую детали (Detail-Aware Loss, DAL), для обеспечения точного контроля на уровне пикселей с использованием карт высоких частот. Кроме того, мы создали новый набор данных HP-Image-40K, образцы которого были отобраны из синтезированных данных и обработаны с помощью автоматической фильтрации. Результаты экспериментов показывают, что HiFi-Inpaint демонстрирует передовые результаты, обеспечивая генерацию изображений "человек-товар" с сохранением деталей.
Какую мультимодальную модель следует использовать для классификации? Предыдущие исследования предполагают, что ответ кроется в CLIP-подобных контрастных визуально-языковых моделях (VLM) благодаря их выдающейся производительности в few-shot классификации. В отличие от них, большие мультимодальные модели (LMM) больше подходят для сложных задач. В данной работе мы утверждаем, что этот ответ упускает из виду важную способность LMM — обучение в контексте (in-context learning). Мы проводим сравнительный анализ современных LMM на различных наборах данных для классификации в закрытом мире и обнаруживаем, что, хотя их производительность без дообучения (zero-shot) ниже, чем у CLIP, LMM с несколькими примерами в контексте могут сравниться или даже превзойти контрастные VLM с адаптерами на основе кэша — их «in-context» эквивалент. Мы расширяем этот анализ до условий открытого мира, где генеративная природа LMM делает их более подходящими для задачи. В этом сложном сценарии LMM испытывают трудности, когда им предоставляется неидеальная контекстная информация. Для решения этой проблемы мы предлагаем CIRCLE — простой метод, не требующий обучения, который присваивает псевдометки примерам в контексте, итеративно уточняя их с помощью самого доступного контекста. В ходе обширных экспериментов мы показываем, что CIRCLE устанавливает надежный базовый уровень для классификации в открытом мире, превосходя аналоги на основе VLM и подчеркивая потенциал LMM выступать в качестве унифицированных классификаторов и гибкой альтернативы специализированным моделям.
Стандартные бенчмарки становятся все менее надежными из-за насыщения, субъективности и слабой обобщающей способности. Мы утверждаем, что оценка способности модели к активному приобретению информации важна для оценки ее интеллекта. Мы предлагаем Интерактивные бенчмарки — унифицированную парадигму оценки, которая проверяет способность модели к рассуждению в интерактивном процессе при ограниченных ресурсах. Мы реализуем эту концепцию в двух сценариях: Интерактивные доказательства, где модели взаимодействуют с судьей для выведения объективных истин или ответов в логике и математике; и Интерактивные игры, где модели стратегически рассуждают для максимизации долгосрочной полезности. Наши результаты показывают, что интерактивные бенчмарки обеспечивают надежную и достоверную оценку интеллекта моделей, демонстрируя, что в интерактивных сценариях еще есть значительный простор для улучшения. Страница проекта: https://github.com/interactivebench/interactivebench
Несмотря на впечатляющий прогресс в генерации видео, существующие модели остаются ограниченными поверхностной правдоподобностью и не обладают целостным и единым пониманием мира. Предыдущие подходы обычно включают лишь одну форму знаний о мире или полагаются на жесткие стратегии согласования для введения дополнительных знаний. Однако согласование единичных знаний о мире недостаточно для формирования мировой модели, которая требует совместного моделирования множества разнородных измерений (например, здравого смысла в физике, 3D- и временной согласованности). Для преодоления этого ограничения мы представляем DreamWorld — унифицированную框架, которая интегрирует комплементарные знания о мире в генераторы видео через Парадигму Совместного Моделирования Мира, совместно предсказывая пиксели видео и признаки из фундаментальных моделей для захвата временной динамики, пространственной геометрии и семантической согласованности. Однако наивная оптимизация этих разнородных целей может приводить к визуальной нестабильности и временному мерцанию. Для смягчения этой проблемы мы предлагаем Постепенное Ослабление Согласованных Ограничений (Consistent Constraint Annealing, CCA) для прогрессирующего регулирования ограничений на уровне мира в процессе обучения и Внутреннее Направление по Множеству Источников (Multi-Source Inner-Guidance) для применения выученных априорных знаний о мире на этапе вывода. Обширные оценки показывают, что DreamWorld улучшает согласованность мира, превосходя Wan2.1 на 2.26 балла по VBench. Код будет общедоступен по адресу https://github.com/ABU121111/DreamWorld.
Низкобитная квантизация внимания, такая как SageAttention, стала эффективным подходом для ускорения вывода моделей, однако её применимость к обучению остаётся малоизученной. В предыдущей работе мы представили SageBwd — обучаемую квантизацию внимания в формате INT8, которая квантизирует шесть из семи матричных умножений матрицы внимания, сохраняя производительность при дообучении. Однако SageBwd демонстрировал устойчивый разрыв в производительности по сравнению с вниманием в полной точности (FPA) на этапе предварительного обучения. В данной работе мы исследуем причины этого разрыва и показываем, что SageBwd достигает производительности полной точности при предварительном обучении. Благодаря экспериментам и теоретическому анализу мы получили ряд важных инсайтов и выводов: (i) нормализация QK необходима для стабильности обучения при большом количестве токенов на шаг, (ii) ошибки квантизации в основном возникают из-за градиента оценок dS при обратном проходе, (iii) уменьшение количества токенов на шаг позволяет SageBwd достичь производительности FPA при предварительном обучении, и (iv) сглаживание K остаётся критически важным для стабильности обучения, тогда как сглаживание Q даёт ограниченный выигрыш на этапе предварительного обучения.
Мы представляем Timer-S1 — мощную фоновую модель для анализа временных рядов, основанную на архитектуре Mixture-of-Experts (MoE), с общим числом параметров 8,3 млрд, из которых 0,75 млрд параметров активируются для каждого токена, и длиной контекста 11,5 тыс. токенов. Чтобы преодолеть ограничения масштабируемости существующих предобученных моделей для временных рядов, мы применяем стратегию Serial Scaling в трёх измерениях: архитектура модели, набор данных и конвейер обучения. Timer-S1 интегрирует разреженные блоки TimeMoE и универсальные блоки TimeSTP для Serial-Token Prediction (STP) — универсальной задачи обучения, соответствующей последовательной природе прогнозирования. Предлагаемая парадигма вводит последовательные вычисления для улучшения долгосрочных прогнозов, избегая при этом ресурсоёмкого инференса в стиле rolling-прогноза и выраженного накопления ошибок, характерных для стандартного предсказания следующего токена. Стремясь к созданию качественного и несмещённого набора данных для обучения, мы подготовили TimeBench — корпус объёмом в один триллион временных точек, и применили тщательную аугментацию данных для снижения прогностического смещения. Кроме того, мы впервые внедрили этап пост-тренинга, включающий продолженное предобучение и расширение контекста, для улучшения краткосрочных и долгоконтекстных характеристик модели. По оценкам крупномасштабного бенчмарка GIFT-Eval, Timer-S1 демонстрирует наилучшие результаты прогнозирования, достигая рекордных показателей MASE и CRPS среди предобученных моделей. Timer-S1 будет опубликована для содействия дальнейшим исследованиям.
Современные модели генерации видео не способны моделировать физические последствия 3D-действий, такие как силовые воздействия и манипуляции роботов, поскольку им не хватает структурного понимания того, как действия влияют на трехмерные сцены. Мы представляем RealWonder — первую систему в реальном времени для генерации видео по действиям на основе одного изображения. Наше ключевое нововведение заключается в использовании физического моделирования в качестве промежуточного звена: вместо прямого кодирования непрерывных действий мы преобразуем их через физическую симуляцию в визуальные представления (оптические потоки и RGB), которые видеомодели могут обрабатывать. RealWonder интегрирует три компонента: 3D-реконструкцию из одиночных изображений, физическое моделирование и дистиллированный генератор видео, требующий всего 4 шага диффузии. Наша система достигает скорости 13.2 кадра в секунду при разрешении 480x832, обеспечивая интерактивное исследование силовых воздействий, действий роботов и управления камерой для твердых объектов, деформируемых тел, жидкостей и сыпучих материалов. Мы предполагаем, что RealWonder открывает новые возможности для применения видеомоделей в immersive-опыте, AR/VR и обучении роботов. Наш код и веса моделей общедоступны на странице проекта: https://liuwei283.github.io/RealWonder/
Квантование после обучения (PTQ) с вычислительной инвариантностью для больших языковых моделей (LLM) показало значительные успехи, однако их применение к мультимодальным большим языковым моделям (MLLM) сопряжено со существенными трудностями. В данной статье мы анализируем SmoothQuant в качестве примера и выявляем две ключевые проблемы: рассогласование сглаживания и кросс-модальную вычислительную инвариантность. Для решения этих проблем мы предлагаем Modality-Aware Smoothing Quantization (MASQuant) — новую структуру, которая вводит (1) сглаживание с учетом модальности (MAS), обучающее отдельные, специфичные для модальности коэффициенты сглаживания для предотвращения рассогласования, и (2) кросс-модальную компенсацию (CMC), которая устраняет кросс-модальную вычислительную инвариантность с помощью SVD-отбеливания, преобразующего различия мультимодальных активаций в низкоранговые формы, что позволяет унифицировать квантование для всех модальностей. MASQuant демонстрирует стабильную производительность квантования как для двух-, так и для трехмодальных MLLM. Результаты экспериментов показывают, что MASQuant конкурентоспособен среди современных алгоритмов PTQ. Исходный код: https://github.com/alibaba/EfficientAI.
Захват объектов является фундаментальной способностью роботов для взаимодействия с физическим миром. Люди, обладая двумя руками, автономно выбирают подходящие стратегии захвата на основе формы, размера и веса объектов, обеспечивая надежный захват и последующие манипуляции. В отличие от этого, современные роботизированные захваты остаются ограниченными, особенно в условиях многовариантности стратегий. Хотя значительные усилия были направлены на захваты параллельными захватами и одной рукой, ловкий захват для двуручных роботов остается малоизученным, причем данные являются основным узким местом. Достижение физически правдоподобных и геометрически соответствующих захватов, способных выдерживать внешние силовые воздействия, представляет значительные трудности. Для решения этих проблем мы представляем UltraDexGrasp — фреймворк для универсального ловкого захвата двуручными роботами. Предлагаемый конвейер генерации данных интегрирует синтез захватов на основе оптимизации с генерацией демонстраций на основе планирования, обеспечивая создание высококачественных и разнообразных траекторий для множества стратегий захвата. С помощью этого фреймворка мы создали UltraDexGrasp-20M — крупномасштабный многовариантный набор данных о захватах, содержащий 20 миллионов кадров для 1000 объектов. На основе UltraDexGrasp-20M мы дополнительно разработали простую, но эффективную политику захвата, которая принимает в качестве входных данных облака точек, агрегирует признаки сцены с помощью однонаправленного внимания и предсказывает управляющие команды. Обученная исключительно на синтетических данных, политика демонстрирует надежный zero-shot перенос из симуляции в реальность и стабильно успешно работает с новыми объектами различной формы, размера и веса, достигая среднего показателя успешности 81,2% в реальных условиях универсального ловкого захвата. Для содействия будущим исследованиям в области захватов двуручными роботами мы открываем исходный код конвейера генерации данных по адресу https://github.com/InternRobotics/UltraDexGrasp.
Трансформеры для компьютерного зрения продемонстрировали выдающиеся результаты в классификации, используя глобальный механизм самовнимания для учета дальнодействующих зависимостей. Однако этот же механизм может скрывать мелкозернистые пространственные детали, критически важные для таких задач, как сегментация. В данной работе мы стремимся улучшить производительность трансформеров для сегментации после стандартного обучения классификации на уровне изображения. В частности, мы предлагаем простой, но эффективный дополнительный модуль, который повышает качество решения задач сегментации, сохраняя при этом способности трансформеров к распознаванию на уровне изображения. В нашем подходе мы модулируем самовнимание с помощью обучаемого гауссовского ядра, которое смещает внимание в сторону соседних патчей. Дополнительно мы уточняем представления патчей для обучения более качественных эмбеддингов на их позициях. Эти модификации побуждают токены фокусироваться на локальном окружении и обеспечивают содержательные представления на пространственных позициях, сохраняя при этом способность модели учитывать глобальную информацию. Эксперименты подтверждают эффективность наших модификаций, что выражается в значительном улучшении сегментации на трех тестовых наборах данных (например, более чем на 6% и 4% для ViT Tiny и Base на ADE20K) без изменения режима обучения или ухудшения качества классификации. Код доступен по адресу https://github.com/sinahmr/LocAtViT/.
Модели рассуждений рассуждают вслух, но большая часть их высказываний — это шум. Мы представляем метод OPSDC (On-Policy Self-Distillation for Reasoning Compression), который учит модели рассуждать более лаконично, дистиллируя их собственное сжатое поведение обратно в них самих. Весь подход сводится к одной идее: получить логиты учителя, кондиционируя ту же модель на инструкции «будь лаконичным», и минимизировать обратную KL-дивергенцию на токен на собственных прогонах ученика. Никаких эталонных ответов, лимитов токенов или оценок сложности. Только самодистилляция. Однако эта простота скрывает удивительную изощренность: OPSDC автоматически агрессивно сжимает простые задачи, сохраняя при этом обдумывание, необходимое для сложных. На моделях Qwen3-8B и Qwen3-14B мы достигаем сокращения токенов на 57–59% на MATH-500 при одновременном повышении точности на 9–16 абсолютных пунктов. На AIME 2024 модель на 14B получает прирост в 10 пунктов при сжатии на 41%. В чем секрет? Большая часть того, что производят модели рассуждений, не просто избыточна — она активно вредна, усугубляя ошибки с каждым лишним токеном.
Мы представляем систему обучения поисковых агентов для предприятий с помощью обучения с подкреплением, которая достигает наилучших показателей на разнообразном наборе сложно проверяемых задач агентского поиска. Наша работа вносит четыре ключевых вклада. Во-первых, мы представляем KARLBench — оценочный комплекс с множественными возможностями, охватывающий шесть различных режимов поиска, включая поиск сущностей с ограничениями, синтез отчетов на основе нескольких документов, табличные численные рассуждения, исчерпывающий поиск сущностей, процедурные рассуждения над технической документацией и агрегацию фактов из внутренних заметок предприятия. Во-вторых, мы показываем, что модели, обученные на разнородном поисковом поведении, обобщаются существенно лучше, чем модели, оптимизированные для какого-либо одного теста. В-третьих, мы разрабатываем конвейер агентского синтеза, который использует рассуждения на длинных горизонтах и применение инструментов для генерации разнообразных, обоснованных и качественных обучающих данных с итеративной самозагрузкой от все более способных моделей. В-четвертых, мы предлагаем новую парадигму пост-обучения на основе итеративного off-policy RL с большими пакетами, которая эффективна по выборкам, устойчива к расхождениям между механизмами обучения и вывода и естественным образом расширяется до многозадачного обучения с обобщением на распределения, не представленные при обучении. По сравнению с Claude 4.6 и GPT 5.2, KARL является Парето-оптимальной на KARLBench с точки зрения компромиссов между стоимостью-качеством и задержкой-качеством, включая задачи, которые не входили в распределение обучающих данных. При достаточных вычислительных ресурсах на этапе тестирования она превосходит самые мощные закрытые модели. Эти результаты показывают, что специализированные синтетические данные в сочетании с многозадачным обучением с подкреплением позволяют создавать экономически эффективные и высокопроизводительные агенты знаний для обоснованных рассуждений.
Хотя наборы данных для понимания видео масштабировались до продолжительности в несколько часов, они обычно состоят из плотно сконкатенированных клипов, которые отличаются от естественной, неподготовленной повседневной жизни. Чтобы сократить этот разрыв, мы представляем MM-Lifelong — набор данных, разработанный для многомодального понимания на протяжении жизни (Multimodal Lifelong Understanding). Он включает 181.1 час видеоматериала, структурированного по шкалам День, Неделя и Месяц для отражения различной временной плотности. Обширные оценки выявляют два критических типа сбоев в современных парадигмах: сквозные MLLM страдают от ограничения рабочей памяти из-за насыщения контекста, в то время как репрезентативные агентные базовые линии сталкиваются с коллапсом глобальной локализации при навигации по разреженным временным шкалам длиной в месяц. Для решения этой проблемы мы предлагаем Рекурсивного Многомодального Агента (ReMA), который использует динамическое управление памятью для итеративного обновления рекурсивного состояния уверенности, значительно превосходя существующие методы. Наконец, мы устанавливаем разделения набора данных, предназначенные для изоляции временных и доменных смещений, обеспечивая строгую основу для будущих исследований в области обучения с учителем и обобщения на распределениях, отличных от обучающих.
Мультимодальная реидентификация объектов (ReID) направлена на использование комплементарной информации из различных модальностей для поиска конкретных объектов. Однако существующие методы часто полагаются на жесткую фильтрацию токенов или простые стратегии слияния, что может приводить к потере дискриминативных признаков и усилению фоновых помех. Для решения этих проблем мы предлагаем STMI — новую мультимодальную архитектуру обучения, состоящую из трех ключевых компонентов: (1) модуль модуляции признаков на основе сегментации (SFM) использует маски, сгенерированные SAM, для усиления репрезентаций переднего плана и подавления фонового шума посредством обучаемой модуляции внимания; (2) модуль семантического перераспределения токенов (STR) применяет обучаемые запросные токены и адаптивный механизм перераспределения для извлечения компактных и информативных репрезентаций без отбрасывания токенов; (3) модуль кросс-модального гиперграфового взаимодействия (CHI) строит унифицированный гиперграф across модальностями для захвата семантических отношений высокого порядка. Экстенсивные эксперименты на публичных бенчмарках (RGBNT201, RGBNT100 и MSVR310) демонстрируют эффективность и устойчивость предложенного фреймворка STMI в сценариях мультимодальной реидентификации.
Мы представляем Latent Particle World Model (LPWM) — самообучаемую объектно-ориентированную мировую модель, масштабируемую для работы с реальными наборами данных, содержащими множество объектов, и применимую для принятия решений. LPWM автономно обнаруживает ключевые точки, ограничивающие рамки и маски объектов непосредственно из видеоданных, что позволяет ей изучать богатые декомпозиции сцены без учителя. Наша архитектура обучается сквозным образом исключительно на видео и поддерживает гибкое условие на действия, язык и целевые изображения. LPWM моделирует стохастическую динамику частиц с помощью нового модуля латентных действий и достигает передовых результатов на различных реальных и синтетических наборах данных. Помимо стохастического моделирования видео, LPWM легко применима для принятия решений, включая имитационное обучение с условием на цель, что мы демонстрируем в статье. Код, данные, предобученные модели и видеоролики доступны по адресу: https://taldatech.github.io/lpwm-web
Обучение больших языковых моделей рассуждению с использованием поисковых систем посредством обучения с подкреплением затруднено фундаментальной проблемой распределения заслуг: существующие методы, такие как Search-R1, предоставляют лишь разреженное вознаграждение по итогу всей многошаговой траектории, что делает невозможным определение вклада отдельных решений в процессе рассуждения и поиска. Методы с пошаговым вознаграждением, такие как StepSearch, смягчают эту проблему за счет введения контроля на уровне шагов, но полагаются на эвристические вознаграждения, такие как TF-IDF совпадение с эталонными документами, и по-прежнему сэмплируют k полных траекторий на пример, сохраняя высокую дисперсию градиента. Мы предлагаем фреймворк SLATE, основанный на двух взаимодополняющих идеях: (1) усеченное пошаговое сэмплирование, которое генерирует k траекторий, имеющих общий префикс и различающихся только на следующем шаге, и (2) плотные вознаграждения от LLM-арбитра, которые заменяют эвристическую оценку на оценку способной языковой модели, оценивающей качество каждого шага рассуждения, поискового запроса и ответа, обеспечивая более богатый и надежный контроль. Теоретически мы доказываем, что при той же структуре плотного вознаграждения усеченное сэмплирование снижает дисперсию оценок преимущества до T раз по сравнению с полным сэмплированием траекторий для T-шаговых траекторий, что дает градиенты политики с меньшей дисперсией и более целенаправленные. Эксперименты на семи QA-бенчмарках подтверждают, что SLATE стабильно превосходит как базовые методы с разреженным вознаграждением, так и методы с пошаговым вознаграждением, с наибольшим преимуществом на более сложных многоходовых задачах и для моделей меньшего размера.
Инструментально расширенные агенты на основе больших языковых моделей (LLM) обещают объединить научное мышление с вычислениями, однако их внедрение в критически важных областях, таких как разработка лекарств, сдерживается двумя ключевыми барьерами: отсутствием регулируемого управления использованием инструментов и низкой надежностью при решении долгосрочных задач. В фармацевтических процессах с высокой взаимозависимостью автономные агенты часто отклоняются в неповторимые траектории, где ошибки на ранних стадиях мультипликативно накапливаются и приводят к неудачам на последующих этапах. Для преодоления этого мы представляем Mozi — двухуровневую архитектуру, которая объединяет гибкость генеративного ИИ с детерминированной строгостью вычислительной биологии. Уровень А (Плоскость управления) устанавливает регулируемую иерархию «супервизор-исполнитель», которая обеспечивает изоляцию инструментов по ролям, ограничивает выполнение задач заданными пространствами действий и управляет перепланированием на основе рефлексии. Уровень Б (Плоскость рабочих процессов) реализует канонические этапы разработки лекарств — от идентификации мишени до оптимизации лидера — в виде состоятельных, композируемых графов навыков. Этот уровень интегрирует строгие контракты данных и стратегические контрольные точки с участием человека (HITL) для обеспечения научной обоснованности на границах принятия решений с высокой неопределенностью. Работая на принципе «свободные рассуждения для безопасных задач, структурированное выполнение для долгосрочных процессов», Mozi предоставляет встроенные механизмы устойчивости и аудируемость на уровне трассировки для полного устранения накопления ошибок. Мы оцениваем Mozi на PharmaBench, специально созданном бенчмарке для биомедицинских агентов, демонстрируя превосходную точность оркестрации по сравнению с существующими базовыми методами. Кроме того, в сквозных терапевтических кейс-стади мы показываем способность Mozi ориентироваться в обширных химических пространствах, применять строгие фильтры токсичности и генерировать высококонкурентные in silico кандидаты, эффективно преобразуя LLM из хрупкого собеседника в надежного, управляемого коллегу-ученого.
Обучение транспортной модели, которая отображает исходное распределение на целевое, является канонической задачей машинного обучения. Однако в научных приложениях всё чаще требуются модели, способные к обобщению на исходные и целевые распределения, не встречавшиеся во время обучения. Мы представляем распределённо-обусловленный транспорт (РОТ) — методологию, которая обуславливает транспортные отображения на основе обученных векторных представлений исходных и целевых распределений, что позволяет обобщать на неизвестные пары распределений. РОТ также позволяет применять полуавтоматическое обучение для задач прогнозирования распределений: поскольку метод обучается на произвольных парах распределений, он может использовать распределения, наблюдаемые только при одном условии, для улучшения прогноза транспорта. РОТ является агностичным к базовому транспортному механизму и поддерживает модели, начиная от согласования потоков и заканчивая моделями на основе дивергенций распределений (например, Вассерштейна, MMD). Мы демонстрируем практические преимущества производительности РОТ на синтетических тестах и в четырёх биологических приложениях: переносе батч-эффектов в одноклеточной геномике, предсказании последствий возмущений по данным масс-цитометрии, изучении клональной транскрипционной динамики в гемопоэзе и моделировании эволюции последовательностей Т-клеточных рецепторов.
Роботы, работающие в общих с человеком средах, должны не только ориентироваться, взаимодействовать и детектировать окружение, но также интерпретировать и реагировать на динамичное, зачастую непредсказуемое поведение людей. Хотя последние достижения демонстрируют прогресс в улучшении восприятия и выполнения инструкций роботами с использованием Vision-Language Models (VLM), они остаются ограниченными в решении сложностей многомодального человеко-роботного взаимодействия (HRI). Мотивированные этой проблемой, мы представляем легковесный модуль языково-визуальной обратной связи, замыкающий цикл между LLM и визуальным энкодером в VLM. Модуль проецирует скрытые состояния image-токенов через gated Multi-Layer Perceptron (MLP) обратно на вход энкодера, инициируя второй проход, который переинтерпретирует сцену в контексте текста. Мы оцениваем этот подход на трех робототехнических задачах: навигация в симулированной среде (Habitat), последовательное описание сцен (Mementos-Robotics) и распознавание человеческих намерений (наш набор данных HRI). Результаты показывают, что наш метод улучшает Qwen 2.5 (7B) на 3.3% (меньшее расстояние), +0.057 балла за описание и +2.93% точности при менее чем 3% дополнительных параметров; Gemma 3 (4B) и LLaVA OV 1.5 (4B) демонстрируют смешанные результаты в навигации, но улучшения +0.111,+0.055 и +10.81%,+4.79% на двух последних задачах. Код доступен по адресу https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.