HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

24 papers found

SkillNet: Создание, оценка и объединение навыков искусственного интеллекта
SkillNet: Create, Evaluate, and Connect AI Skills

Feb 26

ByYuan Liang, Ruobin Zhong, Haoming Xu, Chen Jiang, Yi Zhong, Runnan Fang, Jia-Chen Gu, Shumin Deng, Yunzhi Yao, Mengru Wang, Shuofei Qiao, Xin Xu, Tongtong Wu, Kun Wang, Yang Liu, Zhen Bi, Jungang Lou, Yuchen Eleanor Jiang, Hangcheng Zhu, Gang Yu, Haiwen Hong, Longtao Huang, Hui Xue, Chenxi Wang, Yijun Wang, Zifei Shan, Xi Chen, Zhaopeng Tu, Feiyu Xiong, Xin Xie, Peng Zhang, Zhengke Gui, Lei Liang, Jun Zhou, Chiyu Wu, Jin Shang, Yu Gong, Junyu Lin, Changliang Xu, Hongjie Deng, Wen Zhang, Keyan Ding, Qiang Zhang, Fei Huang, Ningyu Zhang, Jeff Z. Pan, Guilin Qi, Haofen Wang, Huajun Chen

Современные ИИ-агенты способны гибко использовать инструменты и выполнять сложные задачи, однако их долгосрочное развитие сдерживается отсутствием систематического накопления и передачи навыков. Без единого механизма консолидации навыков агенты постоянно «изобретают велосипед», заново находя решения в изолированных контекстах, не используя предыдущие стратегии. Чтобы преодолеть это ограничение, мы представляем SkillNet — открытую инфраструктуру, предназначенную для масштабируемого создания, оценки и организации навыков ИИ. SkillNet структурирует навыки в рамках единой онтологии, которая поддерживает создание навыков из гетерогенных источников, установление богатых реляционных связей и многомерную оценку по параметрам Безопасности, Полноты, Исполняемости, Поддерживаемости и Учета затрат. Наша инфраструктура интегрирует репозиторий из более чем 200 000 навыков, интерактивную платформу и универсальный инструментарий Python. Экспериментальные оценки на ALFWorld, WebShop и ScienceWorld демонстрируют, что SkillNet значительно повышает производительность агентов, улучшая среднее вознаграждение на 40% и сокращая шаги выполнения на 30% для нескольких базовых моделей. Формализуя навыки как развивающиеся, композируемые активы, SkillNet создает надежную основу для перехода агентов от преходящего опыта к устойчивому мастерству.

MOOSE-Star: Преодоление барьера сложности для эффективного обучения в научных открытиях
MOOSE-Star: Unlocking Tractable Training for Scientific Discovery by Breaking the Complexity Barrier

Mar 4

ByZonglin Yang, Lidong Bing

Хотя большие языковые модели (LLM) демонстрируют потенциал в области научных открытий, существующие исследования сосредоточены на выводе или обучении с обратной связью, оставляя неисследованным прямое моделирование генеративного процесса рассуждений, P(гипотеза|фон) (P(h|b)). Мы показываем, что прямое обучение P(h|b) математически неразрешимо из-за комбинаторной сложности (O(N^k)), присущей извлечению и компоновке инсайтов из обширной базы знаний. Чтобы преодолеть этот барьер, мы представляем MOOSE-Star — унифицированную структуру, обеспечивающую разрешимое обучение и масштабируемый вывод. В лучшем случае MOOSE-Star снижает сложность с экспоненциальной до логарифмической (O(log N)) за счет (1) обучения на декомпозированных подзадачах, выведенных из вероятностного уравнения открытия, (2) использования мотивационно-ориентированного иерархического поиска для обеспечения логарифмического извлечения и отсечения нерелевантных подпространств и (3) применения ограниченной композиции для обеспечения устойчивости к шуму при извлечении. Для обеспечения этого мы публикуем TOMATO-Star — набор данных из 108 717 декомпозированных статей (38 400 GPU-часов) для обучения. Кроме того, мы показываем, что в то время как метод грубой силы упирается в «стену сложности», MOOSE-Star демонстрирует непрерывное масштабирование во время тестирования.

DARE: Согласование агентов на основе больших языковых моделей со статистической экосистемой R посредством распределённого поиска с учётом распределения данных
DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Mar 5

ByMaojun Sun, Yue Wu, Yifei Xie, Ruijian Han, Binyan Jiang, Defeng Sun, Yancheng Yuan, Jian Huang

Агенты больших языковых моделей (LLM) способны автоматизировать рабочие процессы в области науки о данных, однако многие строгие статистические методы, реализованные в R, остаются недостаточно используемыми из-за трудностей LLM со статистическими знаниями и поиском инструментов. Существующие подходы с усилением поиска фокусируются на семантике уровня функций и игнорируют распределение данных, что приводит к субоптимальным результатам. Мы предлагаем DARE (Distribution-Aware Retrieval Embedding) — легковесную, подключаемую модель поиска, которая incorporates информацию о распределении данных в представления функций для поиска пакетов R. Нашими основными вкладами являются: (i) RPKB, курируемая база знаний пакетов R, созданная на основе 8191 высококачественного пакета из CRAN; (ii) DARE, модель эмбеддингов, которая объединяет признаки распределения с метаданными функций для повышения релевантности поиска; и (iii) RCodingAgent, LLM-агент, ориентированный на R, для надежной генерации кода на R, а также набор задач статистического анализа для систематической оценки LLM-агентов в реалистичных аналитических сценариях. Экспериментально DARE достигает значения NDCG@10 в 93.47%, превосходя современные модели эмбеддингов с открытым исходным кодом на величину до 17% в задаче поиска пакетов, при этом используя значительно меньше параметров. Интеграция DARE в RCodingAgent дает значительное улучшение результатов в последующих аналитических задачах. Данная работа способствует сокращению разрыва между автоматизацией с помощью LLM и зрелой статистической экосистемой R.

AgentVista: Оценка мультимодальных агентов в сверхсложных реалистичных визуальных сценариях
AgentVista: Evaluating Multimodal Agents in Ultra-Challenging Realistic Visual Scenarios

Feb 26

ByZhaochen Su, Jincheng Gao, Hangyu Guo, Zhenhua Liu, Lueyang Zhang, Xinyu Geng, Shijue Huang, Peng Xia, Guanyu Jiang, Cheng Wang, Yue Zhang, Yi R. Fung, Junxian He

Мультимодальные агенты в реальном мире решают многошаговые задачи, основанные на визуальных данных. Например, агент может диагностировать неисправность устройства, сопоставляя фотографию проводки со схемой и проверяя решение по онлайн-документации, или планировать поездку, интерпретируя карту маршрутов и сверяя расписание с учетом ограничений. Однако существующие мультимодальные бенчмарки в основном оценивают одношаговое визуальное мышление или конкретные навыки работы с инструментами, не отражая в полной мере реализм, визуальную сложность и длинные цепочки использования инструментов, необходимые практическим агентам. Мы представляем AgentVista — бенчмарк для универсальных мультимодальных агентов, охватывающий 25 поддоменов в 7 категориях, который сочетает реалистичные и детализированные визуальные сценарии с естественным гибридным использованием инструментов. Задачи требуют длинных цепочек взаимодействий с инструментами across модальностей, включая веб-поиск, поиск изображений, навигацию по страницам и операции на основе кода для обработки изображений и общего программирования. Всесторонняя оценка современных моделей выявляет значительные пробелы в их способности выполнять длинные мультимодальные цепочки с инструментами. Даже лучшая модель в нашем исследовании, Gemini-3-Pro с инструментами, достигает общей точности лишь 27.3%, а сложные случаи могут требовать более 25 вызовов инструментов. Мы ожидаем, что AgentVista ускорит разработку более способных и надежных мультимодальных агентов для решения реалистичных и сверхсложных задач.

RoboPocket: Мгновенное улучшение политик роботов с помощью вашего телефона
RoboPocket: Improve Robot Policies Instantly with Your Phone

Mar 5

ByJunjie Fang, Wendi Chen, Han Xue, Fangyuan Zhou, Tian Le, Yi Wang, Yuting Zhang, Jun Lv, Chuan Wen, Cewu Lu

Масштабирование обучения с подражанием фундаментально ограничено эффективностью сбора данных. Хотя ручные интерфейсы стали масштабируемым решением для сбора данных в естественных условиях, они в основном работают в разомкнутом контуре: операторы вслепую собирают демонстрации, не зная слабых мест базовой политики, что приводит к неэффективному охвату критически важных распределений состояний. В то же время интерактивные методы, такие как DAgger, эффективно решают проблему ковариатного сдвига, но полагаются на физическое выполнение действий роботом, что дорого и сложно масштабировать. Чтобы разрешить это противоречие, мы представляем RoboPocket — портативную систему, которая обеспечивает мгновенную итерацию политики без робота с использованием одного смартфона потребительского класса. Её ключевая инновация — это фреймворк удаленного вывода, который визуализирует прогнозируемую траекторию политики с помощью дополненной реальности (AR) и визуального предвидения. Эта иммерсивная обратная связь позволяет сборщикам proactively выявлять потенциальные сбои и концентрировать сбор данных на слабых участках политики без необходимости использования физического робота. Кроме того, мы реализовали асинхронный конвейер онлайн-дообучения, который непрерывно обновляет политику поступающими данными, эффективно замыкая цикл обучения за считанные минуты. Многочисленные эксперименты демонстрируют, что RoboPocket подчиняется законам масштабирования данных и удваивает эффективность данных по сравнению с офлайн-стратегиями масштабирования, преодолевая их давний узкий по эффективности. Более того, наш мгновенный цикл итераций также повышает эффективность использования образцов до 2 раз в распределенных средах при небольшом количестве интерактивных исправлений на человека. Страница проекта и видео: https://robo-pocket.github.io.

HiFi-Inpaint: в сторону высокоточной реставрации на основе референсов для генерации детализированных изображений человека с продуктом
HiFi-Inpaint: Towards High-Fidelity Reference-Based Inpainting for Generating Detail-Preserving Human-Product Images

Mar 2

ByYichen Liu, Donghao Zhou, Jie Wang, Xin Gao, Guisheng Liu, Jiatong Li, Quanwei Zhang, Qiang Lyu, Lanqing Guo, Shilei Wen, Weiqiang Wang, Pheng-Ann Heng

Изображения "человек-товар", демонстрирующие интеграцию человека и продукта, играют ключевую роль в рекламе, электронной коммерции и цифровом маркетинге. Основная сложность генерации таких изображений заключается в обеспечении высокоточной сохранности деталей продукта. Среди существующих подходов инпантинг на основе референсных изображений предлагает целевое решение, используя изображения продукта в качестве ориентира для управления процессом восстановления. Однако сохраняются ограничения в трёх ключевых аспектах: отсутствие разнообразных крупномасштабных данных для обучения, неспособность современных моделей концентрироваться на сохранении деталей продукта и недостаточная точность грубого контроля для достижения точного руководства. Для решения этих проблем мы предлагаем HiFi-Inpaint — новую высокоточную систему инпантинга на основе референсов, предназначенную для генерации изображений "человек-товар". HiFi-Inpaint вводит механизм общего усиления внимания (Shared Enhancement Attention, SEA) для улучшения мелкозернистых характеристик продукта и функцию потерь, учитывающую детали (Detail-Aware Loss, DAL), для обеспечения точного контроля на уровне пикселей с использованием карт высоких частот. Кроме того, мы создали новый набор данных HP-Image-40K, образцы которого были отобраны из синтезированных данных и обработаны с помощью автоматической фильтрации. Результаты экспериментов показывают, что HiFi-Inpaint демонстрирует передовые результаты, обеспечивая генерацию изображений "человек-товар" с сохранением деталей.

Крупные мультимодальные модели как универсальные классификаторы в контексте
Large Multimodal Models as General In-Context Classifiers

Feb 26

ByMarco Garosi, Matteo Farina, Alessandro Conti, Massimiliano Mancini, Elisa Ricci

Какую мультимодальную модель следует использовать для классификации? Предыдущие исследования предполагают, что ответ кроется в CLIP-подобных контрастных визуально-языковых моделях (VLM) благодаря их выдающейся производительности в few-shot классификации. В отличие от них, большие мультимодальные модели (LMM) больше подходят для сложных задач. В данной работе мы утверждаем, что этот ответ упускает из виду важную способность LMM — обучение в контексте (in-context learning). Мы проводим сравнительный анализ современных LMM на различных наборах данных для классификации в закрытом мире и обнаруживаем, что, хотя их производительность без дообучения (zero-shot) ниже, чем у CLIP, LMM с несколькими примерами в контексте могут сравниться или даже превзойти контрастные VLM с адаптерами на основе кэша — их «in-context» эквивалент. Мы расширяем этот анализ до условий открытого мира, где генеративная природа LMM делает их более подходящими для задачи. В этом сложном сценарии LMM испытывают трудности, когда им предоставляется неидеальная контекстная информация. Для решения этой проблемы мы предлагаем CIRCLE — простой метод, не требующий обучения, который присваивает псевдометки примерам в контексте, итеративно уточняя их с помощью самого доступного контекста. В ходе обширных экспериментов мы показываем, что CIRCLE устанавливает надежный базовый уровень для классификации в открытом мире, превосходя аналоги на основе VLM и подчеркивая потенциал LMM выступать в качестве унифицированных классификаторов и гибкой альтернативы специализированным моделям.

MASQuant: Модально-осознанное сглаживающее квантование для мультимодальных больших языковых моделей
MASQuant: Modality-Aware Smoothing Quantization for Multimodal Large Language Models

Mar 5

ByLulu Hu, Wenhu Xiao, Xin Chen, Xinhua Xu, Bowen Xu, Kun Li, Yongliang Tao

Квантование после обучения (PTQ) с вычислительной инвариантностью для больших языковых моделей (LLM) показало значительные успехи, однако их применение к мультимодальным большим языковым моделям (MLLM) сопряжено со существенными трудностями. В данной статье мы анализируем SmoothQuant в качестве примера и выявляем две ключевые проблемы: рассогласование сглаживания и кросс-модальную вычислительную инвариантность. Для решения этих проблем мы предлагаем Modality-Aware Smoothing Quantization (MASQuant) — новую структуру, которая вводит (1) сглаживание с учетом модальности (MAS), обучающее отдельные, специфичные для модальности коэффициенты сглаживания для предотвращения рассогласования, и (2) кросс-модальную компенсацию (CMC), которая устраняет кросс-модальную вычислительную инвариантность с помощью SVD-отбеливания, преобразующего различия мультимодальных активаций в низкоранговые формы, что позволяет унифицировать квантование для всех модальностей. MASQuant демонстрирует стабильную производительность квантования как для двух-, так и для трехмодальных MLLM. Результаты экспериментов показывают, что MASQuant конкурентоспособен среди современных алгоритмов PTQ. Исходный код: https://github.com/alibaba/EfficientAI.

Timer-S1: Масштабируемая серийная фм-модель временных рядов миллиардного масштаба
Timer-S1: A Billion-Scale Time Series Foundation Model with Serial Scaling

Mar 5

ByYong Liu, Xingjian Su, Shiyu Wang, Haoran Zhang, Haixuan Liu, Yuxuan Wang, Zhou Ye, Yang Xiang, Jianmin Wang, Mingsheng Long

Мы представляем Timer-S1 — мощную фоновую модель для анализа временных рядов, основанную на архитектуре Mixture-of-Experts (MoE), с общим числом параметров 8,3 млрд, из которых 0,75 млрд параметров активируются для каждого токена, и длиной контекста 11,5 тыс. токенов. Чтобы преодолеть ограничения масштабируемости существующих предобученных моделей для временных рядов, мы применяем стратегию Serial Scaling в трёх измерениях: архитектура модели, набор данных и конвейер обучения. Timer-S1 интегрирует разреженные блоки TimeMoE и универсальные блоки TimeSTP для Serial-Token Prediction (STP) — универсальной задачи обучения, соответствующей последовательной природе прогнозирования. Предлагаемая парадигма вводит последовательные вычисления для улучшения долгосрочных прогнозов, избегая при этом ресурсоёмкого инференса в стиле rolling-прогноза и выраженного накопления ошибок, характерных для стандартного предсказания следующего токена. Стремясь к созданию качественного и несмещённого набора данных для обучения, мы подготовили TimeBench — корпус объёмом в один триллион временных точек, и применили тщательную аугментацию данных для снижения прогностического смещения. Кроме того, мы впервые внедрили этап пост-тренинга, включающий продолженное предобучение и расширение контекста, для улучшения краткосрочных и долгоконтекстных характеристик модели. По оценкам крупномасштабного бенчмарка GIFT-Eval, Timer-S1 демонстрирует наилучшие результаты прогнозирования, достигая рекордных показателей MASE и CRPS среди предобученных моделей. Timer-S1 будет опубликована для содействия дальнейшим исследованиям.

Интерактивные бенчмарки
Interactive Benchmarks

Mar 5

ByBaoqing Yue, Zihan Zhu, Yifan Zhang, Jichen Feng, Hufei Yang, Mengdi Wang

Стандартные бенчмарки становятся все менее надежными из-за насыщения, субъективности и слабой обобщающей способности. Мы утверждаем, что оценка способности модели к активному приобретению информации важна для оценки ее интеллекта. Мы предлагаем Интерактивные бенчмарки — унифицированную парадигму оценки, которая проверяет способность модели к рассуждению в интерактивном процессе при ограниченных ресурсах. Мы реализуем эту концепцию в двух сценариях: Интерактивные доказательства, где модели взаимодействуют с судьей для выведения объективных истин или ответов в логике и математике; и Интерактивные игры, где модели стратегически рассуждают для максимизации долгосрочной полезности. Наши результаты показывают, что интерактивные бенчмарки обеспечивают надежную и достоверную оценку интеллекта моделей, демонстрируя, что в интерактивных сценариях еще есть значительный простор для улучшения. Страница проекта: https://github.com/interactivebench/interactivebench

SageBwd: Обучаемое низкобитное внимание
SageBwd: A Trainable Low-bit Attention

Mar 2

ByJintao Zhang, Marco Chen, Haoxu Wang, Kai Jiang, Ion Stoica, Joseph E. Gonzalez, Jianfei Chen, Jun Zhu

Низкобитная квантизация внимания, такая как SageAttention, стала эффективным подходом для ускорения вывода моделей, однако её применимость к обучению остаётся малоизученной. В предыдущей работе мы представили SageBwd — обучаемую квантизацию внимания в формате INT8, которая квантизирует шесть из семи матричных умножений матрицы внимания, сохраняя производительность при дообучении. Однако SageBwd демонстрировал устойчивый разрыв в производительности по сравнению с вниманием в полной точности (FPA) на этапе предварительного обучения. В данной работе мы исследуем причины этого разрыва и показываем, что SageBwd достигает производительности полной точности при предварительном обучении. Благодаря экспериментам и теоретическому анализу мы получили ряд важных инсайтов и выводов: (i) нормализация QK необходима для стабильности обучения при большом количестве токенов на шаг, (ii) ошибки квантизации в основном возникают из-за градиента оценок dS при обратном проходе, (iii) уменьшение количества токенов на шаг позволяет SageBwd достичь производительности FPA при предварительном обучении, и (iv) сглаживание K остаётся критически важным для стабильности обучения, тогда как сглаживание Q даёт ограниченный выигрыш на этапе предварительного обучения.

DreamWorld: Единое моделирование мира в генерации видео
DreamWorld: Unified World Modeling in Video Generation

Feb 28

ByBoming Tan, Xiangdong Zhang, Ning Liao, Yuqing Zhang, Shaofeng Zhang, Xue Yang, Qi Fan, Yanyong Zhang

Несмотря на впечатляющий прогресс в генерации видео, существующие модели остаются ограниченными поверхностной правдоподобностью и не обладают целостным и единым пониманием мира. Предыдущие подходы обычно включают лишь одну форму знаний о мире или полагаются на жесткие стратегии согласования для введения дополнительных знаний. Однако согласование единичных знаний о мире недостаточно для формирования мировой модели, которая требует совместного моделирования множества разнородных измерений (например, здравого смысла в физике, 3D- и временной согласованности). Для преодоления этого ограничения мы представляем DreamWorld — унифицированную框架, которая интегрирует комплементарные знания о мире в генераторы видео через Парадигму Совместного Моделирования Мира, совместно предсказывая пиксели видео и признаки из фундаментальных моделей для захвата временной динамики, пространственной геометрии и семантической согласованности. Однако наивная оптимизация этих разнородных целей может приводить к визуальной нестабильности и временному мерцанию. Для смягчения этой проблемы мы предлагаем Постепенное Ослабление Согласованных Ограничений (Consistent Constraint Annealing, CCA) для прогрессирующего регулирования ограничений на уровне мира в процессе обучения и Внутреннее Направление по Множеству Источников (Multi-Source Inner-Guidance) для применения выученных априорных знаний о мире на этапе вывода. Обширные оценки показывают, что DreamWorld улучшает согласованность мира, превосходя Wan2.1 на 2.26 балла по VBench. Код будет общедоступен по адресу https://github.com/ABU121111/DreamWorld.

RealWonder: Генерация видео в реальном времени на основе физических действий
RealWonder: Real-Time Physical Action-Conditioned Video Generation

Mar 5

ByWei Liu, Ziyu Chen, Zizhang Li, Yue Wang, Hong-Xing Yu, Jiajun Wu

Современные модели генерации видео не способны моделировать физические последствия 3D-действий, такие как силовые воздействия и манипуляции роботов, поскольку им не хватает структурного понимания того, как действия влияют на трехмерные сцены. Мы представляем RealWonder — первую систему в реальном времени для генерации видео по действиям на основе одного изображения. Наше ключевое нововведение заключается в использовании физического моделирования в качестве промежуточного звена: вместо прямого кодирования непрерывных действий мы преобразуем их через физическую симуляцию в визуальные представления (оптические потоки и RGB), которые видеомодели могут обрабатывать. RealWonder интегрирует три компонента: 3D-реконструкцию из одиночных изображений, физическое моделирование и дистиллированный генератор видео, требующий всего 4 шага диффузии. Наша система достигает скорости 13.2 кадра в секунду при разрешении 480x832, обеспечивая интерактивное исследование силовых воздействий, действий роботов и управления камерой для твердых объектов, деформируемых тел, жидкостей и сыпучих материалов. Мы предполагаем, что RealWonder открывает новые возможности для применения видеомоделей в immersive-опыте, AR/VR и обучении роботов. Наш код и веса моделей общедоступны на странице проекта: https://liuwei283.github.io/RealWonder/

Само-дистилляция в рамках политики для сжатия рассуждений
On-Policy Self-Distillation for Reasoning Compression

Mar 5

ByHejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang, Jiachen Sun

Модели рассуждений рассуждают вслух, но большая часть их высказываний — это шум. Мы представляем метод OPSDC (On-Policy Self-Distillation for Reasoning Compression), который учит модели рассуждать более лаконично, дистиллируя их собственное сжатое поведение обратно в них самих. Весь подход сводится к одной идее: получить логиты учителя, кондиционируя ту же модель на инструкции «будь лаконичным», и минимизировать обратную KL-дивергенцию на токен на собственных прогонах ученика. Никаких эталонных ответов, лимитов токенов или оценок сложности. Только самодистилляция. Однако эта простота скрывает удивительную изощренность: OPSDC автоматически агрессивно сжимает простые задачи, сохраняя при этом обдумывание, необходимое для сложных. На моделях Qwen3-8B и Qwen3-14B мы достигаем сокращения токенов на 57–59% на MATH-500 при одновременном повышении точности на 9–16 абсолютных пунктов. На AIME 2024 модель на 14B получает прирост в 10 пунктов при сжатии на 41%. В чем секрет? Большая часть того, что производят модели рассуждений, не просто избыточна — она активно вредна, усугубляя ошибки с каждым лишним токеном.

UltraDexGrasp: Обучение универсальному точному захвату для двуручных роботов с использованием синтетических данных
UltraDexGrasp: Learning Universal Dexterous Grasping for Bimanual Robots with Synthetic Data

Mar 5

BySizhe Yang, Yiman Xie, Zhixuan Liang, Yang Tian, Jia Zeng, Dahua Lin, Jiangmiao Pang

Захват объектов является фундаментальной способностью роботов для взаимодействия с физическим миром. Люди, обладая двумя руками, автономно выбирают подходящие стратегии захвата на основе формы, размера и веса объектов, обеспечивая надежный захват и последующие манипуляции. В отличие от этого, современные роботизированные захваты остаются ограниченными, особенно в условиях многовариантности стратегий. Хотя значительные усилия были направлены на захваты параллельными захватами и одной рукой, ловкий захват для двуручных роботов остается малоизученным, причем данные являются основным узким местом. Достижение физически правдоподобных и геометрически соответствующих захватов, способных выдерживать внешние силовые воздействия, представляет значительные трудности. Для решения этих проблем мы представляем UltraDexGrasp — фреймворк для универсального ловкого захвата двуручными роботами. Предлагаемый конвейер генерации данных интегрирует синтез захватов на основе оптимизации с генерацией демонстраций на основе планирования, обеспечивая создание высококачественных и разнообразных траекторий для множества стратегий захвата. С помощью этого фреймворка мы создали UltraDexGrasp-20M — крупномасштабный многовариантный набор данных о захватах, содержащий 20 миллионов кадров для 1000 объектов. На основе UltraDexGrasp-20M мы дополнительно разработали простую, но эффективную политику захвата, которая принимает в качестве входных данных облака точек, агрегирует признаки сцены с помощью однонаправленного внимания и предсказывает управляющие команды. Обученная исключительно на синтетических данных, политика демонстрирует надежный zero-shot перенос из симуляции в реальность и стабильно успешно работает с новыми объектами различной формы, размера и веса, достигая среднего показателя успешности 81,2% в реальных условиях универсального ловкого захвата. Для содействия будущим исследованиям в области захватов двуручными роботами мы открываем исходный код конвейера генерации данных по адресу https://github.com/InternRobotics/UltraDexGrasp.

Vision Transformer с локальной самоаттенцией
Locality-Attending Vision Transformer

Mar 5

BySina Hajimiri, Farzad Beizaee, Fereshteh Shakeri, Christian Desrosiers, Ismail Ben Ayed, Jose Dolz

Трансформеры для компьютерного зрения продемонстрировали выдающиеся результаты в классификации, используя глобальный механизм самовнимания для учета дальнодействующих зависимостей. Однако этот же механизм может скрывать мелкозернистые пространственные детали, критически важные для таких задач, как сегментация. В данной работе мы стремимся улучшить производительность трансформеров для сегментации после стандартного обучения классификации на уровне изображения. В частности, мы предлагаем простой, но эффективный дополнительный модуль, который повышает качество решения задач сегментации, сохраняя при этом способности трансформеров к распознаванию на уровне изображения. В нашем подходе мы модулируем самовнимание с помощью обучаемого гауссовского ядра, которое смещает внимание в сторону соседних патчей. Дополнительно мы уточняем представления патчей для обучения более качественных эмбеддингов на их позициях. Эти модификации побуждают токены фокусироваться на локальном окружении и обеспечивают содержательные представления на пространственных позициях, сохраняя при этом способность модели учитывать глобальную информацию. Эксперименты подтверждают эффективность наших модификаций, что выражается в значительном улучшении сегментации на трех тестовых наборах данных (например, более чем на 6% и 4% для ViT Tiny и Base на ADE20K) без изменения режима обучения или ухудшения качества классификации. Код доступен по адресу https://github.com/sinahmr/LocAtViT/.

KARL: Агенты знаний с использованием обучения с подкреплением
KARL: Knowledge Agents via Reinforcement Learning

Mar 5

ByJonathan D. Chang, Andrew Drozdov, Shubham Toshniwal, Owen Oertell, Alexander Trott, Jacob Portes, Abhay Gupta, Pallavi Koppol, Ashutosh Baheti, Sean Kulinski, Ivan Zhou, Irene Dea, Krista Opsahl-Ong, Simon Favreau-Lessard, Sean Owen, Jose Javier Gonzalez Ortiz, Arnav Singhvi, Xabi Andrade, Cindy Wang, Kartik Sreenivasan, Sam Havens, Jialu Liu, Peyton DeNiro, Wen Sun, Michael Bendersky, Jonathan Frankle

Мы представляем систему обучения поисковых агентов для предприятий с помощью обучения с подкреплением, которая достигает наилучших показателей на разнообразном наборе сложно проверяемых задач агентского поиска. Наша работа вносит четыре ключевых вклада. Во-первых, мы представляем KARLBench — оценочный комплекс с множественными возможностями, охватывающий шесть различных режимов поиска, включая поиск сущностей с ограничениями, синтез отчетов на основе нескольких документов, табличные численные рассуждения, исчерпывающий поиск сущностей, процедурные рассуждения над технической документацией и агрегацию фактов из внутренних заметок предприятия. Во-вторых, мы показываем, что модели, обученные на разнородном поисковом поведении, обобщаются существенно лучше, чем модели, оптимизированные для какого-либо одного теста. В-третьих, мы разрабатываем конвейер агентского синтеза, который использует рассуждения на длинных горизонтах и применение инструментов для генерации разнообразных, обоснованных и качественных обучающих данных с итеративной самозагрузкой от все более способных моделей. В-четвертых, мы предлагаем новую парадигму пост-обучения на основе итеративного off-policy RL с большими пакетами, которая эффективна по выборкам, устойчива к расхождениям между механизмами обучения и вывода и естественным образом расширяется до многозадачного обучения с обобщением на распределения, не представленные при обучении. По сравнению с Claude 4.6 и GPT 5.2, KARL является Парето-оптимальной на KARLBench с точки зрения компромиссов между стоимостью-качеством и задержкой-качеством, включая задачи, которые не входили в распределение обучающих данных. При достаточных вычислительных ресурсах на этапе тестирования она превосходит самые мощные закрытые модели. Эти результаты показывают, что специализированные синтетические данные в сочетании с многозадачным обучением с подкреплением позволяют создавать экономически эффективные и высокопроизводительные агенты знаний для обоснованных рассуждений.

Мо-цзы: Управляемая автономия для агентов больших языковых моделей в области разработки лекарственных средств
Mozi: Governed Autonomy for Drug Discovery LLM Agents

Mar 4

ByHe Cao, Siyu Liu, Fan Zhang, Zijing Liu, Hao Li, Bin Feng, Shengyuan Bai, Leqing Chen, Kai Xie, Yu Li

Инструментально расширенные агенты на основе больших языковых моделей (LLM) обещают объединить научное мышление с вычислениями, однако их внедрение в критически важных областях, таких как разработка лекарств, сдерживается двумя ключевыми барьерами: отсутствием регулируемого управления использованием инструментов и низкой надежностью при решении долгосрочных задач. В фармацевтических процессах с высокой взаимозависимостью автономные агенты часто отклоняются в неповторимые траектории, где ошибки на ранних стадиях мультипликативно накапливаются и приводят к неудачам на последующих этапах. Для преодоления этого мы представляем Mozi — двухуровневую архитектуру, которая объединяет гибкость генеративного ИИ с детерминированной строгостью вычислительной биологии. Уровень А (Плоскость управления) устанавливает регулируемую иерархию «супервизор-исполнитель», которая обеспечивает изоляцию инструментов по ролям, ограничивает выполнение задач заданными пространствами действий и управляет перепланированием на основе рефлексии. Уровень Б (Плоскость рабочих процессов) реализует канонические этапы разработки лекарств — от идентификации мишени до оптимизации лидера — в виде состоятельных, композируемых графов навыков. Этот уровень интегрирует строгие контракты данных и стратегические контрольные точки с участием человека (HITL) для обеспечения научной обоснованности на границах принятия решений с высокой неопределенностью. Работая на принципе «свободные рассуждения для безопасных задач, структурированное выполнение для долгосрочных процессов», Mozi предоставляет встроенные механизмы устойчивости и аудируемость на уровне трассировки для полного устранения накопления ошибок. Мы оцениваем Mozi на PharmaBench, специально созданном бенчмарке для биомедицинских агентов, демонстрируя превосходную точность оркестрации по сравнению с существующими базовыми методами. Кроме того, в сквозных терапевтических кейс-стади мы показываем способность Mozi ориентироваться в обширных химических пространствах, применять строгие фильтры токсичности и генерировать высококонкурентные in silico кандидаты, эффективно преобразуя LLM из хрупкого собеседника в надежного, управляемого коллегу-ученого.

К мультимодальному непрерывному пониманию: набор данных и агентная базовая модель
Towards Multimodal Lifelong Understanding: A Dataset and Agentic Baseline

Mar 5

ByGuo Chen, Lidong Lu, Yicheng Liu, Liangrui Dong, Lidong Zou, Jixin Lv, Zhenquan Li, Xinyi Mao, Baoqi Pei, Shihao Wang, Zhiqi Li, Karan Sapra, Fuxiao Liu, Yin-Dong Zheng, Yifei Huang, Limin Wang, Zhiding Yu, Andrew Tao, Guilin Liu, Tong Lu

Хотя наборы данных для понимания видео масштабировались до продолжительности в несколько часов, они обычно состоят из плотно сконкатенированных клипов, которые отличаются от естественной, неподготовленной повседневной жизни. Чтобы сократить этот разрыв, мы представляем MM-Lifelong — набор данных, разработанный для многомодального понимания на протяжении жизни (Multimodal Lifelong Understanding). Он включает 181.1 час видеоматериала, структурированного по шкалам День, Неделя и Месяц для отражения различной временной плотности. Обширные оценки выявляют два критических типа сбоев в современных парадигмах: сквозные MLLM страдают от ограничения рабочей памяти из-за насыщения контекста, в то время как репрезентативные агентные базовые линии сталкиваются с коллапсом глобальной локализации при навигации по разреженным временным шкалам длиной в месяц. Для решения этой проблемы мы предлагаем Рекурсивного Многомодального Агента (ReMA), который использует динамическое управление памятью для итеративного обновления рекурсивного состояния уверенности, значительно превосходя существующие методы. Наконец, мы устанавливаем разделения набора данных, предназначенные для изоляции временных и доменных смещений, обеспечивая строгую основу для будущих исследований в области обучения с учителем и обобщения на распределениях, отличных от обучающих.

Усеченная пошаговая выборка с процессуальными вознаграждениями для поисково-усиленного рассуждения
Truncated Step-Level Sampling with Process Rewards for Retrieval-Augmented Reasoning

Feb 26

ByChris Samarinas, Haw-Shiuan Chang, Hamed Zamani

Обучение больших языковых моделей рассуждению с использованием поисковых систем посредством обучения с подкреплением затруднено фундаментальной проблемой распределения заслуг: существующие методы, такие как Search-R1, предоставляют лишь разреженное вознаграждение по итогу всей многошаговой траектории, что делает невозможным определение вклада отдельных решений в процессе рассуждения и поиска. Методы с пошаговым вознаграждением, такие как StepSearch, смягчают эту проблему за счет введения контроля на уровне шагов, но полагаются на эвристические вознаграждения, такие как TF-IDF совпадение с эталонными документами, и по-прежнему сэмплируют k полных траекторий на пример, сохраняя высокую дисперсию градиента. Мы предлагаем фреймворк SLATE, основанный на двух взаимодополняющих идеях: (1) усеченное пошаговое сэмплирование, которое генерирует k траекторий, имеющих общий префикс и различающихся только на следующем шаге, и (2) плотные вознаграждения от LLM-арбитра, которые заменяют эвристическую оценку на оценку способной языковой модели, оценивающей качество каждого шага рассуждения, поискового запроса и ответа, обеспечивая более богатый и надежный контроль. Теоретически мы доказываем, что при той же структуре плотного вознаграждения усеченное сэмплирование снижает дисперсию оценок преимущества до T раз по сравнению с полным сэмплированием траекторий для T-шаговых траекторий, что дает градиенты политики с меньшей дисперсией и более целенаправленные. Эксперименты на семи QA-бенчмарках подтверждают, что SLATE стабильно превосходит как базовые методы с разреженным вознаграждением, так и методы с пошаговым вознаграждением, с наибольшим преимуществом на более сложных многоходовых задачах и для моделей меньшего размера.

Латентные частично-ориентированные мировые модели: Самоконтролируемое объектно-центрированное моделирование стохастической динамики
Latent Particle World Models: Self-supervised Object-centric Stochastic Dynamics Modeling

Mar 4

ByTal Daniel, Carl Qi, Dan Haramati, Amir Zadeh, Chuan Li, Aviv Tamar, Deepak Pathak, David Held

Мы представляем Latent Particle World Model (LPWM) — самообучаемую объектно-ориентированную мировую модель, масштабируемую для работы с реальными наборами данных, содержащими множество объектов, и применимую для принятия решений. LPWM автономно обнаруживает ключевые точки, ограничивающие рамки и маски объектов непосредственно из видеоданных, что позволяет ей изучать богатые декомпозиции сцены без учителя. Наша архитектура обучается сквозным образом исключительно на видео и поддерживает гибкое условие на действия, язык и целевые изображения. LPWM моделирует стохастическую динамику частиц с помощью нового модуля латентных действий и достигает передовых результатов на различных реальных и синтетических наборах данных. Помимо стохастического моделирования видео, LPWM легко применима для принятия решений, включая имитационное обучение с условием на цель, что мы демонстрируем в статье. Код, данные, предобученные модели и видеоролики доступны по адресу: https://taldatech.github.io/lpwm-web

STMI: Сегментационно-ориентированная модуляция токенов с кросс-модальным гиперграфовым взаимодействием для многомодальной реидентификации объектов
STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification

Feb 28

ByXingguo Xu, Zhanyu Liu, Weixiang Zhou, Yuansheng Gao, Junjie Cao, Yuhao Wang, Jixiang Luo, Dell Zhang

Мультимодальная реидентификация объектов (ReID) направлена на использование комплементарной информации из различных модальностей для поиска конкретных объектов. Однако существующие методы часто полагаются на жесткую фильтрацию токенов или простые стратегии слияния, что может приводить к потере дискриминативных признаков и усилению фоновых помех. Для решения этих проблем мы предлагаем STMI — новую мультимодальную архитектуру обучения, состоящую из трех ключевых компонентов: (1) модуль модуляции признаков на основе сегментации (SFM) использует маски, сгенерированные SAM, для усиления репрезентаций переднего плана и подавления фонового шума посредством обучаемой модуляции внимания; (2) модуль семантического перераспределения токенов (STR) применяет обучаемые запросные токены и адаптивный механизм перераспределения для извлечения компактных и информативных репрезентаций без отбрасывания токенов; (3) модуль кросс-модального гиперграфового взаимодействия (CHI) строит унифицированный гиперграф across модальностями для захвата семантических отношений высокого порядка. Экстенсивные эксперименты на публичных бенчмарках (RGBNT201, RGBNT100 и MSVR310) демонстрируют эффективность и устойчивость предложенного фреймворка STMI в сценариях мультимодальной реидентификации.

Транспорт с условием на распределение
Distribution-Conditioned Transport

Mar 5

ByNic Fishman, Gokul Gowri, Paolo L. B. Fischer, Marinka Zitnik, Omar Abudayyeh, Jonathan Gootenberg

Обучение транспортной модели, которая отображает исходное распределение на целевое, является канонической задачей машинного обучения. Однако в научных приложениях всё чаще требуются модели, способные к обобщению на исходные и целевые распределения, не встречавшиеся во время обучения. Мы представляем распределённо-обусловленный транспорт (РОТ) — методологию, которая обуславливает транспортные отображения на основе обученных векторных представлений исходных и целевых распределений, что позволяет обобщать на неизвестные пары распределений. РОТ также позволяет применять полуавтоматическое обучение для задач прогнозирования распределений: поскольку метод обучается на произвольных парах распределений, он может использовать распределения, наблюдаемые только при одном условии, для улучшения прогноза транспорта. РОТ является агностичным к базовому транспортному механизму и поддерживает модели, начиная от согласования потоков и заканчивая моделями на основе дивергенций распределений (например, Вассерштейна, MMD). Мы демонстрируем практические преимущества производительности РОТ на синтетических тестах и в четырёх биологических приложениях: переносе батч-эффектов в одноклеточной геномике, предсказании последствий возмущений по данным масс-цитометрии, изучении клональной транскрипционной динамики в гемопоэзе и моделировании эволюции последовательностей Т-клеточных рецепторов.

Облегченное визуальное мышление для социально адаптированных роботов
Lightweight Visual Reasoning for Socially-Aware Robots

Mar 4

ByAlessio Galatolo, Ronald Cumbal, Alexandros Rouchitsas, Katie Winkle, Didem Gürdür Broo, Ginevra Castellano

Роботы, работающие в общих с человеком средах, должны не только ориентироваться, взаимодействовать и детектировать окружение, но также интерпретировать и реагировать на динамичное, зачастую непредсказуемое поведение людей. Хотя последние достижения демонстрируют прогресс в улучшении восприятия и выполнения инструкций роботами с использованием Vision-Language Models (VLM), они остаются ограниченными в решении сложностей многомодального человеко-роботного взаимодействия (HRI). Мотивированные этой проблемой, мы представляем легковесный модуль языково-визуальной обратной связи, замыкающий цикл между LLM и визуальным энкодером в VLM. Модуль проецирует скрытые состояния image-токенов через gated Multi-Layer Perceptron (MLP) обратно на вход энкодера, инициируя второй проход, который переинтерпретирует сцену в контексте текста. Мы оцениваем этот подход на трех робототехнических задачах: навигация в симулированной среде (Habitat), последовательное описание сцен (Mementos-Robotics) и распознавание человеческих намерений (наш набор данных HRI). Результаты показывают, что наш метод улучшает Qwen 2.5 (7B) на 3.3% (меньшее расстояние), +0.057 балла за описание и +2.93% точности при менее чем 3% дополнительных параметров; Gemma 3 (4B) и LLaVA OV 1.5 (4B) демонстрируют смешанные результаты в навигации, но улучшения +0.111,+0.055 и +10.81%,+4.79% на двух последних задачах. Код доступен по адресу https://github.com/alessioGalatolo/VLM-Reasoning-for-Robotics.