HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

33 papers found

Эффективное рассуждение посредством сбалансированного мышления
Efficient Reasoning with Balanced Thinking

Mar 12

ByYulin Li, Tengyao Tu, Li Ding, Junjie Wang, Huiling Zhen, Yixin Chen, Yong Li, Zhuotao Tian

127

Крупные модели рассуждений (Large Reasoning Models, LRMs) демонстрируют впечатляющие способности к логическому выводу, однако часто страдают от "передумывания" (overthinking), затрачивая избыточные вычислительные шаги на простые задачи, или "недодумывания" (underthinking), не исследуя достаточное количество путей рассуждения, несмотря на имеющиеся возможности. Эти проблемы приводят к неэффективности и потенциальным ошибкам, ограничивая практическое применение в условиях ограниченных ресурсов. Существующие методы смягчения "передумывания", такие как подавление рефлексивных ключевых слов или регулирование длины рассуждений, могут непреднамеренно вызывать "недодумывание", снижая точность. Поэтому мы предлагаем ReBalance, беcтренировочную (training-free) структуру, которая обеспечивает эффективный вывод за счет сбалансированного мышления. ReBalance использует уверенность (confidence) в качестве непрерывного индикатора динамики рассуждений, выявляя "передумывание" по высокой дисперсии уверенности и "недодумывание" по стабильной избыточной уверенности. Агрегируя скрытые состояния из небольшого набора данных в прототипы режимов рассуждения, мы вычисляем вектор коррекции (steering vector) для управления траекториями рассуждений LRMs. Динамическая функция управления модулирует силу и направление этого вектора на основе уверенности в реальном времени, устраняя избыточность при "передумывании" и стимулируя исследование при "недодумывании". Масштабные эксперименты, проведенные на четырех моделях объемом от 0.5 до 32 миллиардов параметров и девяти тестовых наборах по математическим рассуждениям, общим вопросам и ответам, а также задачам программирования, демонстрируют, что ReBalance эффективно сокращает избыточность вывода, одновременно повышая точность, предлагая универсальную, беcтренировочную и готовую к использованию стратегию для эффективного и надежного развертывания LRMs. Код доступен по адресу https://github.com/yu-lin-li/ReBalance.

MetaClaw: Just Talk — агент, который метаобучается и эволюционирует в реальных условиях
MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild

Mar 17

ByPeng Xia, Jianwen Chen, Xinyu Yang, Haoqin Tu, Jiaqi Liu, Kaiwen Xiong, Siwei Han, Shi Qiu, Haonian Ji, Yuyin Zhou, Zeyu Zheng, Cihang Xie, Huaxiu Yao

110

Агенты больших языковых моделей (LLM) все чаще применяются для решения сложных задач, однако развернутые агенты часто остаются статичными и не адаптируются к изменяющимся потребностям пользователей. Это создает противоречие между необходимостью обеспечения непрерывности обслуживания и потребностью в обновлении функциональных возможностей для соответствия меняющимся распределениям задач. На таких платформах, как OpenClaw, которые обрабатывают разнородные рабочие нагрузки по 20+ каналам, существующие методы либо сохраняют необработанные траектории без извлечения знаний, либо поддерживают статические библиотеки навыков, либо требуют disruptive простоя для переобучения. Мы представляем MetaClaw — фреймворк непрерывного мета-обучения, который совместно развивает базовую политику LLM и библиотеку повторно используемых поведенческих навыков. MetaClaw использует два взаимодополняющих механизма. Быстрая адаптация на основе навыков анализирует траектории неудач с помощью эволютора LLM для синтеза новых навыков, обеспечивая мгновенное улучшение без простоя. Оппортунистическая оптимизация политики выполняет градиентные обновления посредством тонкой настройки LoRA в облаке и обучения с подкреплением с использованием моделей вознаграждения за процесс (RL-PRM). Это инициируется в периоды неактивности пользователей Оппортунистическим планировщиком мета-обучения (OMLS), который отслеживает системную неактивность и календарные данные. Эти механизмы взаимно усиливают друг друга: усовершенствованная политика генерирует лучшие траектории для синтеза навыков, а более богатые навыки предоставляют данные более высокого качества для оптимизации политики. Для предотвращения загрязнения данных механизм версионирования разделяет данные поддержки и запросов. Построенный на прокси-архитектуре, MetaClaw масштабируется до LLM производственного размера без локальных GPU. Эксперименты на MetaClaw-Bench и AutoResearchClaw показывают, что адаптация на основе навыков повышает точность до 32% в относительном выражении. Полный конвейер повышает точность Kimi-K2.5 с 21,4% до 40,6% и увеличивает комплексную устойчивость на 18,3%. Код доступен по адресу https://github.com/aiming-lab/MetaClaw.

Video-CoE: Усиление прогнозирования событий на видео с помощью цепи событий
Video-CoE: Reinforcing Video Event Prediction via Chain of Events

Mar 16

ByQile Su, Jing Tang, Rui Chen, Lei Sun, Xiangxiang Chu

Несмотря на прогресс в применении мультимодальных языковых моделей (MLLM) для различных задач обработки видео, прогнозирование видеособытий (Video Event Prediction, VEP) остается относительно малоизученной областью. VEP требует от модели проведения тонкого временного моделирования видео и установления логических взаимосвязей между видео и будущими событиями, с чем современные MLLM по-прежнему справляются плохо. В данной работе мы сначала представляем всестороннюю оценку современных ведущих MLLM на задаче VEP, выявляя причины их неточных прогнозов, включая недостаток способности к логическому рассуждению для предсказания будущих событий и недостаточное использование визуальной информации. Для решения этих проблем мы предлагаем парадигму «Цепочка событий» (Chain of Events, CoE), которая строит временные цепочки событий, чтобы неявно заставить MLLM концентрироваться на визуальном содержании и логических связях между видео и будущими событиями, стимулируя способности модели к рассуждению с помощью нескольких протоколов обучения. Результаты экспериментов на публичных бенчмарках демонстрируют, что наш метод превосходит как ведущие открытые, так и коммерческие MLLM, устанавливая новый state-of-the-art в задаче VEP. Код и модели будут скоро выпущены.

MosaicMem: Гибридная пространственная память для управляемых видеомировых моделей
MosaicMem: Hybrid Spatial Memory for Controllable Video World Models

Mar 17

ByWei Yu, Runjia Qian, Yumeng Li, Liquan Wang, Songheng Yin, Sri Siddarth Chakaravarthy P, Dennis Anthony, Yang Ye, Yidi Li, Weiwei Wan, Animesh Garg

Видеодиффузионные модели выходят за рамки коротких правдоподобных клипов, приближаясь к симуляторам миров, которые должны сохранять согласованность при движении камеры, повторных посещениях сцен и вмешательствах. Однако пространственная память остается ключевым узким местом: явные 3D-структуры могут улучшить согласованность на основе репроекции, но плохо справляются с изображением движущихся объектов, в то время как неявная память часто приводит к неточному движению камеры даже при корректных позах. Мы предлагаем Mosaic Memory (MosaicMem) — гибридную пространственную память, которая поднимает патчи в 3D для надежной локализации и целевого поиска, одновременно используя собственные механизмы кондиционирования модели для сохранения генерации, следующей за промптом. MosaicMem компонует пространственно выровненные патчи в запрашиваемом виде через интерфейс patch-and-compose, сохраняя то, что должно оставаться неизменным, и позволяя модели дорисовывать то, что должно развиваться. Благодаря кондиционированию камеры PRoPE и двум новым методам выравнивания памяти эксперименты показывают улучшенное следование позам по сравнению с неявной памятью и более сильное моделирование динамики, чем у явных базовых методов. MosaicMem также позволяет осуществлять навигацию на уровне минут, редактирование сцены на основе памяти и авторегрессионное развертывание.

Выравнивание делает языковые модели нормативными, а не дескриптивными
Alignment Makes Language Models Normative, Not Descriptive

Mar 17

ByEilam Shapira, Moshe Tennenholtz, Roi Reichart

Посттренировочная адаптация (alignment) оптимизирует языковые модели для соответствия сигналам человеческих предпочтений, однако эта задача не эквивалентна моделированию наблюдаемого человеческого поведения. Мы сравниваем 120 пар базовых и адаптированных моделей на основе более 10 000 реальных решений людей в многораундовых стратегических играх — торгах, убеждении, переговорах и повторяющихся матричных играх. В этих условиях базовые модели превосходят свои адаптированные аналоги в прогнозировании человеческого выбора с соотношением почти 10:1, и этот результат устойчив для разных семейств моделей, формулировок промптов и конфигураций игр. Однако эта закономерность меняется в ситуациях, где поведение людей с большей вероятностью следует нормативным предсказаниям: адаптированные модели доминируют в однораундовых классических играх (по всем 12 протестированным типам) и в нестратегических лотерейных выборах — и даже в самих многораундовых играх, но только в первом раунде, до формирования истории взаимодействия. Данная граничная закономерность указывает на то, что адаптация вызывает нормативное смещение: она улучшает прогнозирование, когда человеческое поведение относительно хорошо описывается нормативными решениями, но ухудшает его в многораундовых стратегических контекстах, где поведение формируется под влиянием дескриптивных динамик, таких как взаимность, реторсия и адаптация, зависящая от истории взаимодействий. Эти результаты раскрывают фундаментальный компромисс между оптимизацией моделей для использования человеком и их применением в качестве прокси человеческого поведения.

Дополняющее обучение с подкреплением
Complementary Reinforcement Learning

Mar 18

ByDilxat Muhtar, Jiashun Liu, Wei Gao, Weixun Wang, Shaopan Xiong, Ju Huang, Siran Yang, Wenbo Su, Jiamang Wang, Ling Pan, Bo Zheng

Подкрепляемое обучение (Reinforcement Learning, RL) стало мощной парадигмой для обучения агентов на основе больших языковых моделей (LLM), однако остается ограниченным низкой эффективностью использования данных. Это связано не только с разреженной обратной связью по результатам, но и с неспособностью агента использовать предыдущий опыт между эпизодами. Хотя расширение возможностей агентов за счет исторического опыта представляется перспективным решением, существующие подходы страдают от ключевого недостатка: опыт, извлеченный из истории, либо хранится статично, либо не способен к совместной эволюции с улучшающимся актором. Это приводит к прогрессирующему рассогласованию между опытом и развивающимися возможностями актора, что снижает полезность опыта в процессе обучения. Вдохновленные комплементарными системами обучения в нейронауках, мы представляем Комплементарное RL, которое обеспечивает seamless совместную эволюцию экстрактора опыта и актора политики в рамках цикла оптимизации RL. Конкретно, актор оптимизируется с помощью разреженных вознаграждений, основанных на результатах, в то время как экстрактор опыта оптимизируется в зависимости от того, способствует ли извлеченный им опыт успеху актора, тем самым синхронизируя стратегию управления опытом с растущими возможностями актора. Экспериментально показано, что Комплементарное RL превосходит базовые методы агентного RL, основанные только на результатах и не обучающиеся на опыте, демонстрируя 10% улучшение производительности в сценариях с одной задачей и устойчивую масштабируемость в условиях многозадачности. Эти результаты утверждают Комплементарное RL в качестве парадигмы для эффективного обучения агентов на основе опыта.

Когда ИИ прокладывает путь в тумане войны
When AI Navigates the Fog of War

Mar 17

ByMing Li, Xirui Li, Tianyi Zhou

Способен ли искусственный интеллект анализировать ход войны до того, как её траектория станет исторически очевидной? Анализ этой способности затруднён из-за сильного влияния утечки данных из обучающего набора на ретроспективные геополитические прогнозы. Мы решаем эту проблему с помощью темпорально обоснованного кейс-стади ранних этапов ближневосточного конфликта 2026 года, который развернулся после даты отсечения обучающих данных для современных передовых моделей. Мы формируем 11 критических временных узлов, 42 верифицируемых вопроса, специфичных для каждого узла, и 5 общих исследовательских вопросов, требуя от моделей рассуждений исключительно на основе информации, которая была бы общедоступна в каждый конкретный момент. Такой дизайн существенно снижает проблему утечки данных из обучающей выборки, создавая условия, хорошо подходящие для изучения того, как модели анализируют развивающийся кризис в условиях «тумана войны», и предоставляет, насколько нам известно, первый темпорально обоснованный анализ рассуждений больших языковых моделей в условиях текущего геополитического конфликта. Наш анализ выявляет три ключевых результата. Во-первых, современные передовые большие языковые модели часто демонстрируют поразительную степень стратегического реализма, выходя в рассуждениях за рамки поверхностной риторики к более глубоким структурным стимулам. Во-вторых, эта способность распределена неравномерно: модели более надёжны в экономически и логистически структурированных контекстах, чем в политически неоднозначных средах с множеством акторов. Наконец, нарративы моделей эволюционируют со временем, смещаясь от первоначальных ожиданий быстрой локализации конфликта к более системным объяснениям, описывающим региональную конфронтацию и затухание конфликта по мере истощения сторон. Поскольку на момент написания статьи конфликт продолжается, данная работа может служить архивным снимком рассуждений модели в период разворачивающегося геополитического кризиса, позволяя проводить будущие исследования без ретроспективного искажения, присущего анализу постфактум.

GigaWorld-Policy: Эффективная модель мира, центрированная на действиях
GigaWorld-Policy: An Efficient Action-Centered World--Action Model

Mar 18

ByAngen Ye, Boyuan Wang, Chaojun Ni, Guan Huang, Guosheng Zhao, Hao Li, Hengtao Li, Jie Li, Jindi Lv, Jingyu Liu, Min Cao, Peng Li, Qiuping Deng, Wenjun Mei, Xiaofeng Wang, Xinze Chen, Xinyu Zhou, Yang Wang, Yifan Chang, Yifan Li, Yukun Zhou, Yun Ye, Zhichao Liu, Zheng Zhu

Модели «Мир-Действие» (WAM), инициализированные на основе предварительно обученных моделей генерации видео, продемонстрировали значительный потенциал для обучения политик роботов. Однако существующие подходы сталкиваются с двумя критическими проблемами, которые ограничивают их производительность и практическое применение. Во-первых, совместное прогнозирование будущей визуальной динамики и соответствующих действий требует значительных вычислительных затрат на этапе вывода. Во-вторых, совместное моделирование часто приводит к переплетению визуальных и моторных представлений, из-за чего точность прогнозирования действий становится сильно зависимой от качества предсказания будущих видео. Для решения этих проблем мы представляем GigaWorld-Policy — ориентированную на действия WAM, которая изучает 2D пиксельно-действенную динамику, обеспечивая при этом эффективное декодирование действий с опциональной генерацией видео. Конкретно, мы формулируем обучение политики как две связанные компоненты: модель предсказывает последовательности будущих действий на основе текущего наблюдения и одновременно генерирует будущие видео, обусловленные предсказанными действиями и тем же наблюдением. Политика обучается с контролем как по предсказанию действий, так и по генерации видео, что обеспечивает более богатые обучающие сигналы и способствует физически правдоподобным действиям через ограничения визуальной динамики. Благодаря причинно-следственной архитектуре, которая предотвращает влияние токенов будущего видео на токены действий, явная генерация будущих видео на этапе вывода является опциональной, что позволяет ускорить предсказание действий при развертывании. Для поддержки этой парадигмы мы подготовили разнообразный крупномасштабный набор данных о роботах для предварительного обучения ориентированной на действия модели генерации видео, которая затем адаптируется в качестве базовой модели для обучения политик роботов. Результаты экспериментов на реальных роботизированных платформах показывают, что GigaWorld-Policy работает в 9 раз быстрее, чем ведущий WAM-аналог Motus, при этом повышая процент успешного выполнения задач на 7%. Более того, по сравнению с pi-0.5, GigaWorld-Policy улучшает производительность на 95% в среде RoboTwin 2.0.

LoST: Токенизация по уровням семантики для трёхмерных форм
LoST: Level of Semantics Tokenization for 3D Shapes

Mar 18

ByNiladri Shekhar Dutt, Zifan Shi, Paul Guerrero, Chun-Hao Paul Huang, Duygu Ceylan, Niloy J. Mitra, Xuelin Chen

Токенизация является фундаментальной техникой в генеративном моделировании различных модальностей. В частности, она играет ключевую роль в авторегрессионных (AR) моделях, которые в последнее время стали перспективным вариантом для 3D-генерации. Однако оптимальная токенизация 3D-форм остается открытым вопросом. Передовые (SOTA) методы в основном полагаются на иерархии геометрических уровней детализации (LoD), изначально разработанные для рендеринга и сжатия. Эти пространственные иерархии часто неэффективны с точки зрения использования токенов и лишены семантической согласованности для AR-моделирования. Мы предлагаем токенизацию по уровням семантики (LoST), которая упорядочивает токены по семантической значимости таким образом, что начальные префиксы декодируются в полные, правдоподобные формы, обладающие основной семантикой, а последующие токены уточняют специфичные для экземпляра геометрические и семантические детали. Для обучения LoST мы представляем Relational Inter-Distance Alignment (RIDA), новую функцию потерь для семантического выравнивания 3D, которая согласует реляционную структуру латентного пространства 3D-форм со структурой семантического пространства признаков DINO. Эксперименты показывают, что LoST достигает наилучшего восстановления, значительно превосходя предыдущие 3D-токенизаторы на основе LoD по метрикам как геометрического, так и семантического восстановления. Более того, LoST обеспечивает эффективную и качественную AR 3D-генерацию и позволяет решать такие задачи, как семантический поиск, используя при этом всего 0,1–10% токенов, необходимых предыдущим AR-моделям.

Смотри, прежде чем действовать: улучшение представлений визуальных базовых моделей для моделей "зрение-язык-действие"
Look Before Acting: Enhancing Vision Foundation Representations for Vision-Language-Action Models

Mar 16

ByYulin Luo, Hao Chen, Zhuangzhe Wu, Bowen Sui, Jiaming Liu, Chenyang Gu, Zhuoyang Liu, Qiuxuan Feng, Jiale Yu, Shuo Gu, Peng Jia, Pheng-Ann Heng, Shanghang Zhang

Модели Vision-Language-Action (VLA) недавно появились как перспективная парадигма для роботизированного манипулирования, где надежное прогнозирование действий критически зависит от точной интерпретации и интеграции визуальных наблюдений, обусловленных языковыми инструкциями. Хотя последние работы направлены на улучшение визуальных возможностей моделей VLA, большинство подходов рассматривают LLM-основу как черный ящик, предоставляя ограниченное понимание того, как визуальная информация заземляется в генерации действий. Поэтому мы проводим систематический анализ нескольких моделей VLA в различных парадигмах генерации действий и наблюдаем, что чувствительность к визуальным токенам прогрессивно снижается в более глубоких слоях во время генерации действий. Мотивированные этим наблюдением, мы предлагаем DeepVision-VLA, построенную на основе фреймворка Vision-Language Mixture-of-Transformers (VL-MoT). Этот фреймворк обеспечивает общее внимание между базовой визуальной моделью и основой VLA, внедряя многоуровневые визуальные признаки от визуального эксперта в более глубокие слои основы VLA для улучшения визуальных представлений с целью точного и сложного манипулирования. Кроме того, мы вводим Action-Guided Visual Pruning (AGVP), который использует внимание поверхностных слоев для отсеивания нерелевантных визуальных токенов при сохранении релевантных задаче, усиливая критические визуальные подсказки для манипулирования с минимальными вычислительными затратами. DeepVision-VLA превосходит предыдущие передовые методы на 9.0% и 7.5% на симулированных и реальных задачах соответственно, предоставляя новые идеи для проектирования визуально улучшенных моделей VLA.

BenchPreS: Бенчмарк для контекстно-зависимой персонализированной селективности предпочтений в LLM с постоянной памятью
BenchPreS: A Benchmark for Context-Aware Personalized Preference Selectivity of Persistent-Memory LLMs

Mar 17

BySangyeon Yoon, Sunkyoung Kim, Hyesoo Hong, Wonje Jeung, Yongil Kim, Wooseok Seo, Heuiyeen Yeen, Albert No

Крупные языковые модели (LLMs) всё чаще сохраняют пользовательские предпочтения в постоянной памяти для поддержки персонализации во время взаимодействий. Однако в условиях коммуникации с третьими сторонами, регулируемых социальными и институциональными нормами, применение некоторых пользовательских предпочтений может быть неуместным. Мы представляем BenchPreS — методологию, которая оценивает, насколько уместно применяются или подавляются пользовательские предпочтения, хранящиеся в памяти, в различных коммуникационных контекстах. Используя две взаимодополняющие метрики — коэффициент ошибочного применения (Misapplication Rate, MR) и коэффициент уместного применения (Appropriate Application Rate, AAR), — мы обнаружили, что даже передовым LLM сложно применять предпочтения с учётом контекста. Модели с более строгим следованием предпочтениям демонстрируют более высокие показатели их избыточного применения, причём ни возможности логического вывода, ни защитные механизмы на основе промтов не решают эту проблему полностью. Эти результаты свидетельствуют о том, что современные LLM трактуют персонализированные предпочтения как глобально обязательные к применению правила, а не как контекстно-зависимые нормативные сигналы.

Временные выигрыши, пространственные издержки: переосмысление тонкой настройки видео в мультимодальных больших языковых моделях
Temporal Gains, Spatial Costs: Revisiting Video Fine-Tuning in Multimodal Large Language Models

Mar 18

ByLinghao Zhang, Jungang Li, Yonghua Hei, Sicheng Tao, Song Dai, Yibo Yan, Zihao Dongfang, Weiting Liu, Chenxi Qin, Hanqian Li, Xin Zou, Jiahao Zhang, Shuhang Xun, Haiyun Jiang, Xuming Hu

Мультимодальные большие языковые модели (MLLM) обычно обучаются в несколько этапов, причем контролируемая тонкая настройка на видео (Video-SFT) служит ключевым шагом для улучшения визуального понимания. Однако ее влияние на тонкую эволюцию визуальных способностей, в частности на баланс между пространственным и временным пониманием, остается малоизученным. В данной статье мы систематически исследуем, как Video-SFT преобразует визуальные возможности MLLM. На различных архитектурах, масштабах параметров и настройках сэмплирования кадров мы наблюдаем устойчивую закономерность: Video-SFT надежно улучшает производительность на видео, но часто дает ограниченный выигрыш или даже приводит к деградации на бенчмарках со статичными изображениями. Мы further показываем, что этот компромисс тесно связан с временным бюджетом: увеличение количества сэмплируемых кадров обычно улучшает работу с видео, но не обеспечивает надежного улучшения производительности на статичных изображениях. Мотивированные этим открытием, мы исследуем стратегию Hybrid-Frame, учитывающую инструкции, которая адаптивно распределяет количество кадров и частично смягчает компромисс между изображением и видео. Наши результаты указывают на то, что Video-SFT не является панацеей для MLLM, и сохранение пространственного понимания остается центральной проблемой при совместном обучении на изображениях и видео.

ESPIRE: Диагностический эталон для оценки пространственного мышления визуально-языковых моделей в физическом окружении
ESPIRE: A Diagnostic Benchmark for Embodied Spatial Reasoning of Vision-Language Models

Mar 13

ByYanpeng Zhao, Wentao Ding, Hongtao Li, Baoxiong Jia, Zilong Zheng

В последнее время в моделях "визуальный язык" (VLM) наметилась тенденция к улучшению их пространственного восприятия для применения в воплощенных доменах. Несмотря на прогресс, существующие методы оценки были ограничены как по методологии, так и по охвату, что препятствовало быстрой итерационной разработке моделей. Для устранения этих ограничений мы предлагаем ESPIRE — диагностический бенчмарк для воплощенного пространственного мышления. ESPIRE предоставляет симулированный мир, который физически обосновывает VLM-модели и оценивает их на задачах, ориентированных на пространственное мышление в робототехнике, тем самым сокращая разрыв между оценкой и реальным развертыванием. Для адаптации VLM-моделей к робототехническим задачам мы разлагаем каждую задачу на локализацию и исполнение, представляя обе как генеративные проблемы, что резко контрастирует с преобладающими дискриминативными оценками (например, через визуальные вопросы-ответы), которые полагаются на отвлекающие факторы и игнорируют исполнение. Такое разложение дополнительно позволяет проводить детальный анализ, выходящий за рамки пассивного пространственного мышления в сторону мышления для действия. Мы системно проектируем ESPIRE как на уровне инструкций, так и на уровне окружения, обеспечивая широкий охват сценариев пространственного рассуждения. Мы используем ESPIRE для диагностики ряда передовых VLM-моделей и предоставляем углубленный анализ их поведения в контексте пространственного мышления.

V-JEPA 2.1: Раскрытие потенциала плотных признаков в самообучении на видео
V-JEPA 2.1: Unlocking Dense Features in Video Self-Supervised Learning

Mar 15

ByLorenzo Mur-Labadia, Matthew Muckley, Amir Bar, Mido Assran, Koustuv Sinha, Mike Rabbat, Yann LeCun, Nicolas Ballas, Adrien Bardes

Мы представляем V-JEPA 2.1 — семейство самообучаемых моделей, которые формируют плотные высококачественные визуальные представления как для изображений, так и для видео, сохраняя при этом глубокое глобальное понимание сцены. Данный подход объединяет четыре ключевых компонента. Во-первых, функция плотного прогностического потерь использует задачу, основанную на маскировании, в которой как видимые, так и замаскированные токены вносят вклад в обучающий сигнал, способствуя явной пространственной и временной привязке. Во-вторых, глубокая самообученность применяет самообучаемую задачу иерархически на нескольких промежуточных слоях энкодера для повышения качества представлений. В-третьих, мультимодальные токенизаторы обеспечивают единый процесс обучения для изображений и видео. Наконец, модель выигрывает от эффективного масштабирования как ёмкости модели, так и объёма обучающих данных. В совокупности эти проектные решения порождают представления, которые являются пространственно структурированными, семантически связными и временно согласованными. Эмпирически V-JEPA 2.1 демонстрирует наилучшие результаты на нескольких сложных тестах, включая 7.71 mAP на Ego4D для прогнозирования краткосрочных объектных взаимодействий и 40.8 Recall@5 на EPIC-KITCHENS для прогнозирования действий высокого уровня, а также 20-процентное улучшение успешности захвата реальным роботом по сравнению с V-JEPA-2 AC. Модель также показывает высокую производительность в роботизированной навигации (5.687 ATE на TartanDrive), оценке глубины (0.307 RMSE на NYUv2 с линейным пробником) и глобальном распознавании (77.7 на Something-Something-V2). Эти результаты свидетельствуют о том, что V-JEPA 2.1 существенно продвигает состояние дел в области плотного визуального понимания и моделирования мира.

Stereo World Model: Генерация стереоскопического видео с управлением от камеры
Stereo World Model: Camera-Guided Stereo Video Generation

Mar 18

ByYang-Tian Sun, Zehuan Huang, Yifan Niu, Lin Ma, Yan-Pei Cao, Yuewen Ma, Xiaojuan Qi

Мы представляем StereoWorld — стереоскопическую мировую модель с условием от камеры, которая совместно изучает изображение и бинокулярную геометрию для сквозной генерации стереовидео. В отличие от монокулярных RGB или RGBD подходов, StereoWorld работает исключительно в RGB-модальности, одновременно выводя геометрию напрямую из диспаратности. Для эффективного достижения согласованной стереогенерации наш подход вводит две ключевые разработки: (1) унифицированный RoPE в системе координат камеры, который обогащает латентные токены ротационным позиционным кодированием, учитывающим параметры камеры, обеспечивая относительное, видовое и временное согласованное кондиционирование при сохранении априорных знаний предобученных видео-моделей через стабильную инициализацию механизма внимания; и (2) декомпозицию механизма внимания с учётом стерео, которая разлагает полное 4D-внимание на 3D-внутривидовое внимание плюс горизонтальное построчное внимание, используя эпиполярный prior для захвата соответствий, выровненных по диспаратности, при существенно меньших вычислительных затратах. В тестах StereoWorld превосходит мощные конвейеры типа «монокулярное-затем-преобразование» по стереосогласованности, точности диспаратности и достоверности движения камеры, обеспечивая более чем в 3 раза ускорение генерации с дополнительным 5% улучшением согласованности точек обзора. Помимо бенчмарков, StereoWorld позволяет осуществлять сквозной бинокулярный рендеринг для VR без оценки глубины или заливки, улучшает обучение воплощённых стратегий за счёт метрического обоснования глубины и совместим с дистилляцией длинных видео для расширенного интерактивного стереосинтеза.

AdaMem: Адаптивная пользовательская память для диалоговых агентов с длительным горизонтом взаимодействия
AdaMem: Adaptive User-Centric Memory for Long-Horizon Dialogue Agents

Mar 17

ByShannan Yan, Jingchen Ni, Leqi Zheng, Jiajun Zhang, Peixi Wu, Dacheng Yin, Jing Lyu, Chun Yuan, Fengyun Rao

Крупные языковые модели (LLM) все чаще используют внешнюю память для поддержки долгосрочного взаимодействия, персонализированного ассистирования и многошаговых рассуждений. Однако существующие системы памяти по-прежнему сталкиваются с тремя ключевыми проблемами: они часто чрезмерно полагаются на семантическое сходство, что может приводить к пропуску доказательств, важных для пользовательско-ориентированного понимания; они нередко хранят связанные события как изолированные фрагменты, ослабляя временную и причинно-следственную связность; и они обычно используют статичную гранулярность памяти, которая плохо адаптируется к требованиям различных вопросов. Мы предлагаем AdaMem, адаптивную пользовательско-ориентированную архитектуру памяти для диалоговых агентов с долгосрочным горизонтом. AdaMem организует историю диалога в рабочую, эпизодическую, персональную и графовую память, позволяя системе сохранять текущий контекст, структурированный долгосрочный опыт, стабильные пользовательские характеристики и связи с учетом отношений в единой структуре. На этапе вывода AdaMem сначала определяет целевого участника, затем строит условный маршрут извлечения, сочетающий семантический поиск с расширением графа по связям только при необходимости, и, наконец, формирует ответ через специализированный конвейер синтеза доказательств и генерации ответов. Мы оцениваем AdaMem на бенчмарках LoCoMo и PERSONAMEM для долгосрочных рассуждений и моделирования пользователя. Результаты экспериментов показывают, что AdaMem достигает наилучших результатов на обоих бенчмарках. Код будет опубликован после принятия статьи.

Консервативное обучение политик роботов на офлайн-данных с помощью перевзвешивания апостериорных переходов
Conservative Offline Robot Policy Learning via Posterior-Transition Reweighting

Mar 17

ByWanpeng Zhang, Hao Luo, Sipeng Zheng, Yicheng Feng, Haiweng Xu, Ziheng Xi, Chaoyi Xu, Haoqi Yuan, Zongqing Lu

Офлайн-послеобучение адаптирует предварительно обученную политику робота к целевому набору данных с помощью регрессии с учителем по записанным действиям. На практике наборы данных роботов неоднородны: они смешивают конструкции роботов, настройки камер и демонстрации разного качества, поэтому многие траектории отражают корректирующее поведение, непостоянный навык оператора или слабо информативный контроль. Равномерное послеобучение придает всем образцам одинаковый вес и, следовательно, может усреднять противоречивые или малопризначные данные. Мы предлагаем взвешивание по апостериорному переходу (Posterior-Transition Reweighting, PTR) — беспризовый и консервативный метод послеобучения, который определяет, насколько каждый обучающий образец должен влиять на обновление с учителем. Для каждого образца PTR кодирует наблюдаемое последствие после действия как латентную цель, вставляет её в кандидатский пул несовпадающих целей и использует отдельную модель оценки переходов для вычисления апостериорной вероятности идентификации softmax по индексам целей. Отношение апостериорной вероятности к равномерному распределению определяет PTR-оценку, которая преобразуется в ограниченно-смешанный вес и применяется к исходной целевой функции действий через самонормируемую взвешенную регрессию. Эта конструкция не требует вычислимой функции правдоподобия политики и совместима как с диффузионными, так и с методами согласования потоков для моделирования действий. Вместо равномерного доверия ко всей записанной информации управления PTR перераспределяет вес в зависимости от того, насколько attributable (объяснимо) последствие после действия каждого образца в рамках текущего представления, улучшая консервативную офлайн-адаптацию к неоднородным данным роботов.

Эффективное исследование в больших масштабах
Efficient Exploration at Scale

Mar 18

BySeyed Mohammad Asghari, Chris Chute, Vikranth Dwaracherla, Xiuyuan Lu, Mehdi Jafarnia, Victor Minden, Zheng Wen, Benjamin Van Roy

Мы разрабатываем алгоритм онлайн-обучения, который значительно повышает эффективность использования данных при обучении с подкреплением на основе человеческих предпочтений (RLHF). Наш алгоритм инкрементально обновляет модели вознаграждения и языковые модели по мере поступления данных о выборах. Модель вознаграждения адаптируется к данным о выборах, в то время как языковая модель обновляется с помощью модификации алгоритма REINFORCE, где сигналы подкрепления предоставляются моделью вознаграждения. Повышение эффективности обеспечивается несколькими особенностями: небольшим положительным смещением, добавляемым к каждому сигналу подкрепления, использованием эпистемической нейронной сети, моделирующей неопределенность вознаграждения, и исследованием, направляемым информацией. При использовании больших языковых моделей (LLM) Gemma наш алгоритм достигает производительности офлайн RLHF, обученного на 200 тыс. разметок, используя менее 20 тыс. разметок, что демонстрирует более чем 10-кратный выигрыш в эффективности данных. Экстраполируя наши результаты, мы ожидаем, что наш алгоритм, обученный на 1 млн разметок, достигнет результатов офлайн RLHF, обученного на 1 млрд разметок. Это представляет собой 1000-кратное улучшение. Насколько нам известно, это первые результаты, демонстрирующие возможность столь значительных улучшений.

Унифицированная оценка пространственно-временных токенов для эффективных видео-VLM
Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

Mar 18

ByJianrui Zhang, Yue Yang, Rohun Tripathi, Winson Han, Ranjay Krishna, Christopher Clark, Yong Jae Lee, Sangho Lee

Отсев токенов (token pruning) является ключевым методом повышения вычислительной эффективности моделей «визуальный язык» (vision-language models, VLMs), особенно для задач, связанных с видео, где временная избыточность широко распространена. Существующие подходы обычно отбирают токены либо (1) исключительно внутри визуального трансформера (ViT) для унимодальных задач восприятия, таких как распознавание действий и сегментация объектов, без адаптации к последующим задачам «визуальный язык»; либо (2) только внутри большой языковой модели (LLM), оставляя выход ViT неизменным, что часто требует сложных механизмов отбора токенов, обусловленных текстом. В данной статье мы представляем Пространственно-временное оценивание токенов (Spatio-Temporal Token Scoring, STTS) — простой и легковесный модуль, который отбирает визуальные токены как в ViT, так и в LLM без текстовых условий или слияния токенов и полностью совместим с сквозным обучением. Обучаясь оценивать токены во времени с помощью вспомогательной функции потерь и в пространстве с помощью градиентов от последующей LLM, а также благодаря нашему эффективному алгоритму упаковки, STTS отсеивает 50% визуальных токенов по всей архитектуре, что приводит к повышению эффективности на 62% как при обучении, так и при выводе, при падении среднего показателя производительности всего на 0,7% по 13 задачам вопросно-ответной системы для коротких и длинных видео. Выигрыш в эффективности возрастает с увеличением количества кадров, выбираемых из видео. Применение масштабирования на этапе тестирования для QA по длинным видео дополнительно дает прирост производительности на 0,5–1% по сравнению с базовым уровнем. В целом, STTS представляет собой новую, простую, но эффективную методику унифицированного отбора визуальных токенов на уровне всей архитектуры.

Экспертное пороговое маршрутизирование для авторегрессионного языкового моделирования с динамическим распределением вычислений и балансировкой нагрузки
Expert Threshold Routing for Autoregressive Language Modeling with Dynamic Computation Allocation and Load Balancing

Mar 12

ByHanchi Sun, Yixin Liu, Yonghui Wu, Lichao Sun

Токен-выборочная смесь экспертов (TC-MoE) направляет каждый токен к фиксированному числу экспертов, что ограничивает динамическое распределение вычислений и требует вспомогательных функций потерь для поддержания баланса нагрузки. Мы предлагаем маршрутизацию по порогу эксперта (ET), при которой каждый эксперт поддерживает экспоненциально взвешенное скользящее среднее (EMA) пороговое значение, оцениваемое на основе глобального распределения токенов. Как на этапе обучения, так и на этапе вывода каждый токен независимо направляется к эксперту, если его оценка превышает порог этого эксперта, что позволяет динамически распределять вычисления и достигать баланса нагрузки без вспомогательных потерь. Данный полностью причинный механизм устраняет зависимость от других токенов в пакете, что делает его хорошо подходящим для авторегрессионного языкового моделирования. В экспериментах по предварительному обучению с масштабированием до 2.4 млрд параметров на FineWeb-Edu подход ET демонстрирует перекрестную энтропию на 0.067 ниже, чем TC-MoE, что эквивалентно достижению той же производительности при использовании в 1.6 раза меньшего количества токенов.

RAMP: Адаптивное квантование смешанной точности с подкреплением для эффективного вывода LLM на устройстве
RAMP: Reinforcement Adaptive Mixed Precision Quantization for Efficient On Device LLM Inference

Mar 18

ByArpit Singh Gautam, Saurabh Jha

Квантование после обучения критически важно для развертывания больших языковых моделей (LLM) на оборудовании с ограниченными ресурсами, однако современные методы применяют единую разрядность для всех слоев, что приводит к субоптимальному компромиссу между точностью и эффективностью. Мы представляем RAMP (Reinforcement Adaptive Mixed Precision) — метод на основе фреймворка Soft Actor-Critic с офф-политикой, который обучается назначать разрядность для каждого слоя, чтобы минимизировать перплексию при заданном глобальном бюджете на биты. Политика основывается на 11-мерном векторе, содержащем статистики активаций, свойства весов и структурные дескрипторы, что обеспечивает перенос между семействами моделей и масштабами без дообучения (zero-shot). Для обеспечения стабильного квантования ниже 4 бит мы вводим Scale Folding — метод предварительной обработки, который мигрирует выбросы в активациях в веса с помощью поэлементного масштабирования по каналам и компенсации в слоях нормализации. Функция вознаграждения, приоритезирующая качество и использующая асимметричные штрафы и "обрывы" бюджета, обеспечивает быструю сходимость. Для модели Llama 2 7B RAMP достигает перплексии 5.54 при размере 3.68 ГБ (эффективная разрядность 3.65 бита), превосходя равномерное 4-битное квантование AWQ (5.60 при 3.90 ГБ) и GPTQ на 6% по размеру и на 1–3% по качеству. Важно, что политика, обученная только на Llama 2 7B, обобщается без дообучения (zero-shot) на Llama 2 13B и Mistral 7B, часто превосходя специализированное обучение для конкретной цели, что подтверждает гипотезу о том, что чувствительность к квантованию в первую очередь определяется архитектурой. Конвейер HALO экспортирует распределения разрядности в формат GGUF для выполнения выводов на CPU, GPU и периферийных устройствах без использования специальных ядер, сохраняя 99.5% производительности FP16 на задачах проверки здравого смысла.

LaDe: Единая генерация и декомпозиция многослойных графических медиа
LaDe: Unified Multi-Layered Graphic Media Generation and Decomposition

Mar 18

ByVlad-Constantin Lungu-Stan, Ionut Mironica, Mariana-Iuliana Georgescu

Генерация слоев медиадизайна позволяет создавать полностью редактируемые многослойные проектные документы, такие как плакаты, листовки и логотипы, используя только текстовые промпты на естественном языке. Существующие методы либо ограничивают вывод фиксированным количеством слоев, либо требуют, чтобы каждый слой содержал только пространственно непрерывные области, что приводит к линейному росту числа слоев со сложностью дизайна. Мы предлагаем LaDe (Layered Media Design) — фреймворк на основе латентной диффузии, который генерирует переменное количество семантически значимых слоев. LaDe объединяет три компонента: расширитель промптов на основе LLM, преобразующий краткое описание намерения пользователя в структурированные описания для каждого слоя, которые направляют генерацию; Latent Diffusion Transformer с механизмом позиционного кодирования 4D RoPE, совместно генерирующий полный медиадизайн и его составные RGBA-слои; и RGBA VAE, декодирующий каждый слой с полной поддержкой альфа-канала. Благодаря условию на сэмплы слоев во время обучения, наш унифицированный фреймворк поддерживает три задачи: генерацию изображений по тексту, генерацию многослойного медиадизайна по тексту и декомпозицию медиадизайна. Мы сравниваем LaDe с Qwen-Image-Layered на задачах генерации слоев по тексту и изображению на тестовом наборе Crello. LaDe превосходит Qwen-Image-Layered в генерации слоев по тексту, улучшая соответствие между текстом и слоями, что подтверждено двумя оценщиками VLM-as-a-judge (GPT-4o mini и Qwen3-VL).

Эффективное обучение без тренировки с многотокенным предсказанием на основе зондирования эмбеддинг-пространства
Efficient Training-Free Multi-Token Prediction via Embedding-Space Probing

Mar 18

ByRaghavv Goel, Mukul Gagrani, Mingu Lee, Chris Lott

Крупные языковые модели (LLM) демонстрируют скрытые способности к прогнозированию нескольких токенов (MTP), несмотря на то, что обучаются исключительно для генерации следующего токена. Мы предлагаем простой, не требующий обучения метод MTP, который зондирует LLM с помощью динамически создаваемых масок-токенов, извлеченных из ее пространства эмбеддингов. Это позволяет параллельно предсказывать будущие токены без изменения весов модели или использования вспомогательных draft-моделей. Наш метод строит спекулятивное дерево токенов путем сэмплирования топ-K кандидатов из логитов масок-токенов и применяет облегченную стратегию отсечения для сохранения продолжений с высокой вероятностью. Во время декодирования кандидатные предсказания проверяются параллельно, что приводит к генерации без потерь при существенном сокращении количества вызовов модели и повышении пропускной способности по токенам. На различных бенчмарках наш метод MTP на основе зондирования стабильно превосходит существующие базовые методы, не требующие обучения, увеличивая длину принятия примерно на 12% для LLaMA3 и на 8–12% для Qwen3, а также достигая прироста пропускной способности до 15–19%. Наконец, мы предоставляем теоретические инсайты и эмпирические доказательства того, что декодерные слои естественным образом выравнивают репрезентации масок-токенов с состояниями следующих токенов, обеспечивая точное многошаговое прогнозирование без переобучения или вспомогательных моделей.

ACE-LoRA: Графово-внимательное контекстное усиление для параметрически-эффективной адаптации медицинских моделей компьютерного зрения и языка
ACE-LoRA: Graph-Attentive Context Enhancement for Parameter-Efficient Adaptation of Medical Vision-Language Models

Mar 17

ByM. Arda Aydın, Melih B. Yilmaz, Aykut Koç, Tolga Çukur

Успех моделей типа CLIP, работающих с визуальными и текстовыми данными (Vision-Language Models, VLM), на естественных изображениях вдохновил на создание их медицинских аналогов. Однако существующие подходы в основном сводятся к двум крайностям: специализированным моделям, обучаемым на данных одной предметной области, которые хорошо улавливают специфические детали, но плохо обобщаются, и универсальным медицинским VLM, обучаемым на мультидоменных данных, которые сохраняют широкую семантику, но нивелируют тонкие диагностические признаки. Преодоление этого компромисса между специализацией и обобщающей способностью остается сложной задачей. Для решения данной проблемы мы предлагаем ACE-LoRA — параметрически эффективный фреймворк адаптации для универсальных медицинских VLM, который сохраняет надежную zero-shot обобщающую способность. ACE-LoRA интегрирует модули Low-Rank Adaptation (LoRA) в замороженные текстово-визуальные энкодеры и вводит модуль Attention-based Context Enhancement Hypergraph Neural Network (ACE-HGNN), который захватывает контекстные взаимодействия высшего порядка, выходящие за рамки парного сходства, чтобы обогатить глобальные представления локализованными диагностическими признаками. Это устраняет ключевое ограничение предыдущих методов параметрически эффективной тонкой настройки (Parameter-Efficient Fine-Tuning, PEFT), игнорирующих тонкие детали. Для дальнейшего улучшения кросс-модального согласования мы формулируем label-guided InfoNCE loss, чтобы эффективно подавлять ложные негативы между семантически связанными парами «изображение-текст». Несмотря на добавление всего 0.95 млн обучаемых параметров, ACE-LoRA стабильно превосходит современные медицинские VLM и базовые методы PEFT в задачах zero-shot классификации, сегментации и детекции в различных предметных областях. Наш код доступен по адресу https://github.com/icon-lab/ACE-LoRA.

От новичка к профессионалу: эффективное освоение навыков с помощью распределительно-контрактивной RL-дообучения
From Prior to Pro: Efficient Skill Mastery via Distribution Contractive RL Finetuning

Mar 10

ByZhanyi Sun, Shuran Song

Мы представляем фреймворк Distribution Contractive Reinforcement Learning (DICE-RL), который использует обучение с подкреплением (RL) в качестве оператора "контракции распределения" для уточнения предварительно обученных генеративных политик роботов. DICE-RL превращает априорное распределение поведений, полученное при предварительном обучении, в высокопроизводительную "профессиональную" политику, усиливая поведения с высокой успешностью на основе онлайн-обратной связи. Мы предварительно обучаем политику на основе диффузии или потоков для широкого охвата поведений, а затем дообучаем её с помощью стабильного и эффективного по выборкам Residual off-policy RL фреймворка, который сочетает селективную регуляризацию поведения с выбором действий на основе ценности. Многочисленные эксперименты и анализ показывают, что DICE-RL надежно улучшает производительность, демонстрируя высокую стабильность и эффективность использования данных. Он позволяет осваивать сложные навыки манипулирования с длительным горизонтом планирования непосредственно из высокоразмерных пиксельных входов, как в симуляции, так и на реальном роботе. Сайт проекта: https://zhanyisun.github.io/dice.rl.2026/.

VideoAtlas: Навигация по длинным видео с логарифмическими вычислительными затратами
VideoAtlas: Navigating Long-Form Video in Logarithmic Compute

Mar 18

ByMohamed Eltahir, Ali Habibullah, Yazan Alshoibi, Lama Ayash, Tanveer Hussain, Naeemullah Khan

Расширение языковых моделей на видео сталкивается с двумя проблемами: представление данных, где существующие методы полагаются на приближенные (потериные) аппроксимации, и длинный контекст, где конвейеры на основе заголовков или агентов сворачивают видео в текст, теряя визуальную точность. Для преодоления этого мы представляем VideoAtlas, универсальную среду для представления видео в виде иерархической сетки, которая одновременно является беспотерьной, навигируемой, масштабируемой, не требующей заголовков и предварительной обработки. Обзор видео доступен с первого взгляда, а любая область может быть рекурсивно увеличена, причем одно и то же визуальное представление единообразно используется для самого видео, промежуточных исследований и памяти агента, что исключает потери при преобразовании в текст на всех этапах. Эта иерархическая структура гарантирует, что глубина доступа растет лишь логарифмически с длиной видео. Что касается длинного контекста, то Рекурсивные Языковые Модели (РЯМ) недавно предложили мощное решение для длинного текста, но их расширение на визуальную область требует структурированной среды для рекурсии, которую и предоставляет VideoAtlas. Рассматривая VideoAtlas как Марковский процесс принятия решений, мы получаем Video-RLM: параллельную архитектуру «Мастер-Работник», где Мастер координирует глобальное исследование, а Работники параллельно углубляются в назначенные области для накопления беcпотерьных визуальных свидетельств. Мы демонстрируем три ключевых результата: (1)~логарифмический рост вычислительных затрат с длительностью видео, дополнительно усиленный 30-60\% процентом попаданий в мультимодальный кэш, возникающим благодаря структурному повтору в сетке. (2)~Бюджетирование среды, где ограничение максимальной глубины исследования предоставляет принципиальный гиперпараметр для баланса вычислений и точности. (3)~Возникающее адаптивное распределение вычислений, которое масштабируется с гранулярностью вопроса. При переходе от бенчмарков длительностью в 1 час к 10-часовым, Video-RLM остается наиболее устойчивым к длительности методом с минимальной деградацией точности, демонстрируя, что навигация в структурированной среде является жизнеспособной и масштабируемой парадигмой для понимания видео.

FINER: Многоязыковые большие языковые модели галлюцинируют при обработке детализированных негативных запросов
FINER: MLLMs Hallucinate under Fine-grained Negative Queries

Mar 18

ByRui Xiao, Sanghwan Kim, Yongqin Xian, Zeynep Akata, Stephan Alaniz

Мультимодальные большие языковые модели (MБЯМ) страдают от галлюцинаций, особенно при работе с детализированными запросами, — проблема, недостаточно отраженная в существующих бенчмарках, которые фокусируются на общих вопросах, связанных с изображениями. Мы представляем метод FINER (FIne-grained NEgative queRies) вместе с двумя бенчмарками: FINER-CompreCap и FINER-DOCCI. Используя FINER, мы анализируем галлюцинации в четырех сценариях: множественные объекты, множественные атрибуты, множественные отношения и вопросы «что». Наши бенчмарки показывают, что МБЯМ галлюцинируют, когда тонкие несоответствия сочетаются с реально присутствующими элементами на изображении. Для решения этой проблемы мы предлагаем FINER-Tuning, использующий оптимизацию прямых предпочтений (DPO) на данных, вдохновленных FINER. Дообучение четырех передовых МБЯМ с помощью FINER-Tuning позволяет достичь улучшения до 24,2% (InternVL3.5-14B) в снижении галлюцинаций согласно нашим бенчмаркам, одновременно повышая производительность на восьми существующих наборах данных по галлюцинациям и улучшая общие мультимодальные способности по шести бенчмаркам. Код, бенчмарки и модели доступны по адресу: https://explainableml.github.io/finer-project/.

HeBA: Гетерогенные адаптеры узких мест для устойчивых визуально-языковых моделей
HeBA: Heterogeneous Bottleneck Adapters for Robust Vision-Language Models

Mar 17

ByMd Jahidul Islam

Адаптация крупномасштабных моделей «визуальный язык» (Vision-Language Models, VLM), таких как CLIP, для решения последующих задач часто страдает от архитектурного подхода «универсальность для всех», при котором визуальные и текстовые токены обрабатываются единообразно с помощью широких, обобщенных адаптеров. Мы утверждаем, что такая однородность игнорирует различную структурную природу модальностей — пространственную локальность в изображениях в противовес семантической плотности в тексте. Чтобы решить эту проблему, мы предлагаем HeBA (Heterogeneous Bottleneck Adapter) — унифицированную архитектурную структуру, которая вводит модально-специфичные структурные индуктивные смещения. HeBA отличается от традиционных конструкций за счет трех ключевых архитектурных нововведений: (1) **Гетерогенность**: она обрабатывает визуальные токены с помощью двумерных depthwise separable сверток для сохранения пространственных корреляций, в то время как текстовые токены обрабатываются отдельно с помощью плотных линейных проекций для улавливания семантических связей; (2) **Регуляризация через узкое место (Bottleneck)**: в отличие от стандартных расширяющихся адаптеров, HeBA использует компрессионное узкое место (D -> D/4), которое явно заставляет модель изучать компактные, устойчивые признаки и действует как структурный регуляризатор; и (3) **Активная инициализация градиента**: мы оспариваем ограничивающую парадигму нулевой инициализации, используя стратегию инициализации Kaiming, которая обеспечивает достаточный начальный поток градиентов для ускорения сходимости без ущерба для предварительно обученных знаний замороженной базовой модели. Многочисленные эксперименты демонстрируют, что архитектурно-специализированный дизайн HeBA обеспечивает превосходную стабильность и точность, устанавливая новый state-of-the-art на 11 бенчмарках по обучению с малым числом примеров (few-shot). Код доступен по адресу https://github.com/Jahid12012021/VLM-HeBA.

Ученый по ИИ с использованием масштабирования синтетических задач
AI Scientist via Synthetic Task Scaling

Mar 17

ByZiyang Cai, Harkirat Behl

С появлением ИИ-агентов автоматическое научное открытие стало достижимой целью. Многие последние работы предлагают каркасы агентных систем, способных выполнять исследования в области машинного обучения, но не дают принципиального способа обучения таких агентов — и современные большие языковые модели часто генерируют правдоподобные, но неэффективные идеи. Для продвижения в обучении агентов, способных учиться на практике, мы предлагаем новый конвейер генерации синтетической среды, ориентированный на агентов машинного обучения. Наш конвейер автоматически синтезирует задачи по машинному обучению, совместимые с фреймворком SWE-agent, включая выбор темы, предложение набора данных и генерацию кода. Получаемые синтетические задачи 1) основаны на реальных наборах данных машинного обучения, поскольку предлагаемые наборы данных проверяются через Huggingface API, и 2) проверены на более высокое качество с помощью цикла самоотладки. Чтобы оценить эффективность наших синтетических задач, мы используем MLGym — бенчмарк для задач машинного обучения. На основе синтетических задач мы семплируем траектории из модели-учителя (GPT-5), а затем используем эти траектории для обучения модели-ученика (Qwen3-4B и Qwen3-8B). Модели-ученики, обученные на наших синтетических задачах, демонстрируют улучшенную производительность на MLGym, повышая метрику AUP на 9% для Qwen3-4B и на 12% для Qwen3-8B.

AdapterTune: Низкоранговые адаптеры с нулевой инициализацией для замороженных Vision Transformer
AdapterTune: Zero-Initialized Low-Rank Adapters for Frozen Vision Transformers

Mar 16

BySalim Khazem

Перенос обучения с замороженной основой (frozen-backbone) для Vision Transformers сталкивается с двумя недостаточно изученными проблемами: нестабильностью оптимизации при наивном добавлении адаптеров в фиксированный экстрактор признаков и отсутствием принципиальных рекомендаций по выбору их емкости. Мы представляем метод AdapterTune, который дополняет каждый трансформаторный блок остаточным низкоранговым узким местом (bottleneck), чья проекция вверх инициализирована нулями. Это гарантирует, что адаптированная сеть начинает работу ровно с предобученной функции и исключает дрейф представлений на ранних эпохах. С аналитической стороны мы формализуем ранг адаптера как бюджет емкости для аппроксимации сдвигов пространства признаков целевой задачи. Полученное разложение избыточного риска предсказывает монотонный, но убывающий прирост точности с увеличением ранга — поведение по типу «локтя», которое мы подтверждаем в контролируемых экспериментах. Мы проводим оценку на 9 наборах данных и 3 масштабах основы с многократным усреднением по случайным seed. На основном наборе из 5 задач переноса AdapterTune улучшает точность Top-1 по сравнению с переносом только головы (head-only) в среднем на +14.9 пунктов, при этом обучая лишь 0.92% параметров от полной тонкой настройки (full fine-tuning), и превосходит полную тонкую настройку в 10 из 15 пар «набор данных-основа». По всему бенчмарку AdapterTune превосходит перенос только головы на всех протестированных парах. Абляционные исследования по рангу, размещению и инициализации изолируют влияние каждого проектного решения. Код доступен по адресу: https://github.com/salimkhazem/adaptertune

Согласованная реконструкция человека и сцены по многоперсональному многовидовому видео за один проход
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Mar 13

BySangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park

Последние достижения в области фундаментальных 3D-моделей вызвали растущий интерес к реконструкции людей и их окружающей среды. Однако большинство существующих подходов ориентированы на монокулярные входные данные, и их расширение для многовидовых сценариев требует дополнительных модулей или предварительно обработанных данных. В связи с этим мы представляем CHROMM — унифицированную систему, которая совместно оценивает камеры, облака точек сцены и человеческие меши из многовидео с несколькими людьми, не полагаясь на внешние модули или предварительную обработку. Мы интегрируем строгие геометрические и человеческие априорные данные из Pi3X и Multi-HMR в единую обучаемую архитектуру нейронной сети и вводим модуль корректировки масштаба для решения проблемы несоответствия масштабов между людьми и сценой. Мы также представляем стратегию многовидового слияния для агрегации оценок с каждого вида в единое представление на этапе тестирования. Наконец, мы предлагаем геометрический метод ассоциации нескольких людей, который более надежен, чем подходы на основе внешнего вида. Эксперименты на наборах данных EMDB, RICH, EgoHumans и EgoExo4D показывают, что CHROMM демонстрирует конкурентоспособные результаты в оценке глобального движения человека и многовидовой позы, работая при этом более чем в 8 раз быстрее, чем предыдущие оптимизационные многовидовые подходы. Страница проекта: https://nstar1125.github.io/chromm.

PRISM: Раскрытие механизмов удержания и взаимодействия в середине обучения
PRISM: Demystifying Retention and Interaction in Mid-Training

Mar 17

ByBharat Runwal, Ashish Agrawal, Anurag Roy, Rameswar Panda

Мы представляем PRISM — всестороннее эмпирическое исследование решений по проектированию промежуточного этапа обучения больших языковых моделей. В ходе контролируемых экспериментов с семью базовыми моделями, охватывающими четыре семейства (Granite, LLaMA, Mistral, Nemotron-H), два типа архитектур (плотный Transformer и гибрид attention-Mamba) и масштабы от 3 до 24 миллиардов параметров, мы показываем, что промежуточное обучение на приблизительно 27 миллиардах высококачественных токенов приводит к стабильному улучшению на +15…+40 пунктов по математике, +5…+12 пунктов по коду и +6…+13 пунктов по научным тестам при сохранении общей производительности. Полный конвейер PRISM до обучения с подкреплением (RL) улучшает макро-среднее по шести тестам на рассуждение с менее чем 12 до 29–42 (улучшение в 3–4 раза), тогда как RL, примененный напрямую к большинству базовых моделей, остается существенно менее эффективным, с показателями AIME близкими к нулю. Состав данных наиболее важен на этапе промежуточного обучения, а не RL: включение научных данных во время промежуточного обучения открывает прирост в +17…+28 пунктов по GPQA-Diamond во время RL, в то время как изменение состава данных RL дает различия менее 2 пунктов. Механистический анализ показывает, что промежуточное обучение плотно перестраивает более 90% весов модели, тогда как RL вносит разреженные, фронтально-нагруженные коррективы примерно в 5% параметров. Анализ представлений (CKA) подтверждает, что RL последовательно сохраняет геометрию представлений, достигнутую на промежуточном обучении (CKA > 0,998), across архитектур. Ключевой вывод: RL применяет идентичные изменения весов независимо от начальной точки, но достигает успеха только на моделях после промежуточного обучения, что согласуется с гипотезой, что промежуточное обучение переводит модель в конфигурацию, из которой RL может эффективно улучшать производительность. Наши результаты демонстрируют, что промежуточное обучение с учетом сохранения знаний высокоэффективно для надежного улучшения способностей к рассуждению, и предоставляют практические рекомендации по проектированию надежных конвейеров промежуточного обучения.

Фанар-Садик: Многоагентная архитектура для обоснованных вопросно-ответных систем в исламской тематике
Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Mar 9

ByUmmar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam

Крупные языковые модели (LLM) способны бегло отвечать на вопросы религиозного характера, однако они часто склонны к галлюцинациям и ошибочной атрибуции источников, что особенно проблематично в исламском контексте, где пользователи ожидают опоры на канонические тексты (Коран и Сунну) и учет нюансов мусульманского права (фикха). Генерация с расширением выборки (RAG) частично устраняет эти ограничения, обосновывая генерацию внешними свидетельствами. Однако единый конвейер «извлечь-затем-сгенерировать» не способен охватить всё разнообразие исламских запросов. Пользователи могут запрашивать дословные цитаты из священных текстов, фетвы со ссылками на источники или вычисления в рамках религиозных предписаний, такие как закят и правила наследования, требующие строгого соблюдения арифметических и правовых инвариантов. В данной работе мы представляем двуязычного (арабский/английский) мультиагентного исламского ассистента Fanar-Sadiq, который является ключевым компонентом платформы Fanar AI. Fanar-Sadiq направляет запросы, связанные с исламом, к специализированным модулям в рамках архитектуры, основанной на использовании инструментов агентами. Система поддерживает маршрутизацию с учетом намерения, ответы по фикху, обоснованные поиском, с детерминированной нормализацией цитирования и трассировкой верификации, точный поиск аятов с проверкой цитирования, а также детерминированные калькуляторы для суннитского закята и наследования с учетом мазхабных вариаций. Мы оцениваем полную сквозную систему на публичных бенчмарках исламских вопросов и ответов и демонстрируем ее эффективность и производительность. Наша система в настоящее время общедоступна и бесплатна через API и веб-приложение, и за менее чем год к ней было обращено около 1,9 млн раз.