HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

21 papers found

Seed Diffusion: Масштабная диффузионная языковая модель с высокоскоростным выводом
Seed Diffusion: A Large-Scale Diffusion Language Model with High-Speed Inference

Aug 4

ByYuxuan Song, Zheng Zhang, Cheng Luo, Pengyang Gao, Fan Xia, Hao Luo, Zheng Li, Yuehang Yang, Hongli Yu, Xingwei Qu, Yuwei Fu, Jing Su, Ge Zhang, Wenhao Huang, Mingxuan Wang, Lin Yan, Xiaoying Jia, Jingjing Liu, Wei-Ying Ma, Ya-Qin Zhang, Yonghui Wu, Hao Zhou

130

Мы представляем Seed Diffusion Preview — крупномасштабную языковую модель, основанную на дискретной диффузии, которая обеспечивает исключительно высокую скорость вывода. Благодаря не-последовательному, параллельному генеративному процессу, модели дискретной диффузии значительно ускоряют генерацию, устраняя присущую задержку пошагового декодирования токенов, что было недавно продемонстрировано (например, в моделях Mercury Coder и Gemini Diffusion). Seed Diffusion Preview достигает скорости вывода 2 146 токенов в секунду на GPU H20, сохраняя при этом конкурентоспособную производительность на широком спектре стандартных бенчмарков для оценки кода. Это значительно быстрее, чем современные модели Mercury и Gemini Diffusion, устанавливая новый эталон на Парето-фронте скорости и качества для моделей генерации кода.

Skywork UniPic: Унифицированное авторегрессионное моделирование для визуального понимания и генерации
Skywork UniPic: Unified Autoregressive Modeling for Visual Understanding and Generation

Aug 5

ByPeiyu Wang, Yi Peng, Yimeng Gan, Liang Hu, Tianyidan Xie, Xiaokun Wang, Yichen Wei, Chuanxin Tang, Bo Zhu, Changshi Li, Hongyang Wei, Eric Li, Xuchen Song, Yang Liu, Yahui Zhou

Мы представляем Skywork UniPic — авторегрессионную модель с 1,5 миллиардами параметров, которая объединяет понимание изображений, генерацию изображений по тексту и редактирование изображений в рамках единой архитектуры, устраняя необходимость в специализированных адаптерах или межмодульных соединителях. Мы демонстрируем, что компактные мультимодальные системы могут достигать передовых показателей на стандартном оборудовании. Skywork UniPic достигает оценки GenEval 0,86, превосходя большинство существующих унифицированных моделей; устанавливает новый рекорд DPG-Bench для сложной генерации — 85,5; получает 5,83 на GEditBench-EN и 3,49 на ImgEdit-Bench для редактирования изображений; а также генерирует изображения 1024 x 1024 с использованием менее 15 ГБ видеопамяти GPU (например, RTX 4090). Основные особенности модели включают: (1) разделенную стратегию кодирования, использующую маскированный авторегрессионный кодировщик для синтеза и кодировщик SigLIP2 для понимания, которые передают данные в общий авторегрессионный декодер; (2) прогрессивный, учитывающий разрешение график обучения, масштабирующийся от 256 x 256 до 1024 x 1024 с динамическим размораживанием параметров для баланса между емкостью и стабильностью; и (3) тщательно отобранные наборы данных объемом 100 миллионов элементов, дополненные моделями вознаграждения для уточнения целей генерации и редактирования. Показывая, что высококачественная мультимодальная интеграция не требует чрезмерных ресурсов, Skywork UniPic устанавливает практическую парадигму для развертываемых, высококачественных мультимодальных ИИ-систем. Код и веса модели доступны по адресу: https://huggingface.co/Skywork/Skywork-UniPic-1.5B.

LongVie: Управляемая генерация сверхдлинных видео с использованием мультимодальных данных
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation

Aug 5

ByJianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu

Генерация управляемых сверхдлинных видео является фундаментальной, но сложной задачей. Хотя существующие методы эффективны для коротких роликов, они сталкиваются с проблемами при масштабировании, такими как временная несогласованность и ухудшение визуального качества. В данной работе мы сначала исследуем и выделяем три ключевых фактора: раздельную инициализацию шума, независимую нормализацию управляющих сигналов и ограничения однородного руководства. Для решения этих проблем мы предлагаем LongVie — сквозную авторегрессионную структуру для генерации управляемых длинных видео. LongVie вводит два основных подхода для обеспечения временной согласованности: 1) унифицированную стратегию инициализации шума, которая поддерживает согласованность генерации между клипами, и 2) глобальную нормализацию управляющих сигналов, обеспечивающую выравнивание в пространстве управления на протяжении всего видео. Для смягчения ухудшения визуального качества LongVie использует 3) мультимодальную структуру управления, которая интегрирует как плотные (например, карты глубины), так и разреженные (например, ключевые точки) управляющие сигналы, дополненные 4) стратегией обучения, учитывающей деградацию, которая адаптивно балансирует вклад модальностей с течением времени для сохранения визуального качества. Мы также представляем LongVGenBench — комплексный бенчмарк, состоящий из 100 высококачественных видео, охватывающих разнообразные реальные и синтетические среды, каждое продолжительностью более одной минуты. Многочисленные эксперименты показывают, что LongVie достигает передовых показателей в управляемости на длинных дистанциях, согласованности и качестве.

CompassVerifier: Унифицированный и надежный верификатор для оценки языковых моделей и вознаграждения результатов
CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward

Aug 5

ByShudong Liu, Hongwei Liu, Junnan Liu, Linchen Xiao, Songyang Gao, Chengqi Lyu, Yuzhe Gu, Wenwei Zhang, Derek F. Wong, Songyang Zhang, Kai Chen

Проверка ответов имеет решающее значение не только для оценки больших языковых моделей (LLM) путем сопоставления их неструктурированных выводов с эталонными ответами, но также служит моделью вознаграждения для оптимизации LLM. Большинство систем оценки полагаются на регулярные выражения или используют общие LLM для проверки ответов, что требует обширной и повторяющейся настройки правил регулярных выражений или оценочных промптов. В текущих методологиях сохраняются два фундаментальных ограничения: 1) отсутствие всеобъемлющих бенчмарков, которые систематически оценивают возможности проверки для различных LLM; и 2) начальная стадия разработки верификаторов, где существующие подходы не обладают ни устойчивостью к сложным краевым случаям, ни универсальностью для различных доменов. В данной работе мы разрабатываем CompassVerifier — точную и устойчивую легковесную модель верификатора для оценки и вознаграждения результатов. Она демонстрирует компетентность в различных областях, включая математику, знания и разнообразные задачи на логическое мышление, с возможностью обработки различных типов ответов, таких как многосоставные задачи, формулы и последовательные ответы, а также эффективно выявляет аномальные/некорректные ответы. Мы представляем бенчмарк VerifierBench, состоящий из выводов моделей, собранных из множества источников данных, дополненных ручным анализом паттернов метаошибок для улучшения CompassVerifier. Мы ожидаем, что CompassVerifier и VerifierBench будут способствовать развитию проверки ответов, протоколов оценки и исследований в области обучения с подкреплением. Код и набор данных доступны по адресу https://github.com/open-compass/CompassVerifier.

Интеграция инструментов с обучением с подкреплением для глубокого поиска в репозиториях
Tool-integrated Reinforcement Learning for Repo Deep Search

Aug 5

ByZexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

Локализация проблем, процесс определения мест в коде, которые требуют изменений для устранения программных ошибок, является важной, но сложной задачей в разработке программного обеспечения. Семантический разрыв между описаниями проблем на естественном языке и ошибочным кодом требует сложного многошагового рассуждения через зависимости в коде. Существующие агенты на основе больших языковых моделей (LLM) пытаются решить эту проблему, интегрируя инструменты поиска в репозиториях. Однако это превращает локализацию проблем в трудоемкую задачу, которую мы называем Глубокий Поиск в Репозитории (Repo Deep Search), требующую от LLM эффективного использования различных инструментов поиска на протяжении многошагового процесса рассуждения и навигации. Для решения этой задачи мы представляем ToolTrain, двухэтапную структуру обучения с интеграцией инструментов, сочетающую тонкую настройку с отбраковкой и обучение с подкреплением с использованием инструментов, чтобы улучшить способность LLM использовать инструменты поиска для локализации проблем. Экспериментальные результаты показывают, что модели, обученные с помощью ToolTrain, достигают наилучших результатов, причем наша 32B модель даже превосходит Claude-3.7 в локализации на уровне функций. Результаты также демонстрируют, что улучшенная производительность локализации приводит к лучшей производительности в сквозном решении проблем. Это дополнительно подтверждает, что обучение для локализации проблем является жизнеспособной и эффективной стратегией для улучшения автоматизированной разработки программного обеспечения.

LiveMCPBench: Способны ли агенты ориентироваться в океане инструментов MCP?
LiveMCPBench: Can Agents Navigate an Ocean of MCP Tools?

Aug 3

ByGuozhao Mo, Wenliang Zhong, Jiawei Chen, Xuanang Chen, Yaojie Lu, Hongyu Lin, Ben He, Xianpei Han, Le Sun

С быстрым развитием протокола Model Context Protocol (MCP) количество MCP-серверов превысило 10 000. Однако существующие бенчмарки MCP ограничены настройками для одного сервера с использованием лишь нескольких инструментов, что затрудняет эффективную оценку возможностей агентов в крупномасштабных реальных сценариях. Чтобы устранить это ограничение, мы представляем LiveMCPBench — первый комплексный бенчмарк, включающий 95 реальных задач, основанных на экосистеме MCP, предназначенный для оценки LLM-агентов в масштабе на различных серверах. Для поддержки масштабируемого и воспроизводимого процесса оценки в крупномасштабных средах MCP мы создали LiveMCPTool — разнообразную и легко развертываемую коллекцию из 70 MCP-серверов и 527 инструментов. Кроме того, мы представляем LiveMCPEval — фреймворк LLM-as-a-Judge, который позволяет проводить автоматизированную и адаптивную оценку в динамических, изменяющихся во времени средах задач, достигая 81% согласия с оценками людей. Наконец, мы предлагаем MCP Copilot Agent — многошагового агента, который маршрутизирует инструменты для динамического планирования и выполняет их для взаимодействия с API во всем наборе LiveMCPTool. Наша оценка охватывает 10 ведущих моделей, при этом лучшая модель (Claude-Sonnet-4) достигает уровня успешности 78,95%. Однако мы наблюдаем значительные различия в производительности между моделями, и несколько широко используемых моделей показывают низкие результаты в сложных, насыщенных инструментами средах LiveMCPBench. В целом, LiveMCPBench предлагает первую унифицированную структуру для тестирования LLM-агентов в реалистичных, насыщенных инструментами и динамичных средах MCP, закладывая прочную основу для масштабируемых и воспроизводимых исследований возможностей агентов. Наш код и данные будут общедоступны по адресу https://icip-cas.github.io/LiveMCPBench.

Сдвиг представления: унификация сжатия токенов с использованием FlashAttention
Representation Shift: Unifying Token Compression with FlashAttention

Aug 1

ByJoonmyung Choi, Sanghyeok Lee, Byungoh Ko, Eunseo Kim, Jihyung Kil, Hyunwoo J. Kim

Трансформеры продемонстрировали выдающиеся успехи в задачах, связанных с обработкой изображений, текста и видео. Однако увеличение сложности задач привело к созданию более крупных моделей и увеличению количества токенов, что повысило квадратичную стоимость механизма самовнимания и накладные расходы на доступ к памяти GPU. Для снижения вычислительной стоимости самовнимания в предыдущих работах предлагались методы сжатия токенов, которые удаляют избыточные или менее информативные токены. В то же время были разработаны оптимизированные ядра внимания, такие как FlashAttention, которые уменьшают накладные расходы на память, избегая построения карт внимания и связанных с ними операций ввода-вывода в высокоскоростную память (HBM). Однако это делает их несовместимыми с большинством методов сжатия токенов, не требующих обучения, которые полагаются на карты внимания для определения важности токенов. В данной работе мы предлагаем метрику Representation Shift, которая не требует обучения и является универсальной для различных моделей. Она измеряет степень изменения представления каждого токена, что позволяет интегрировать сжатие токенов с FlashAttention без использования карт внимания или повторного обучения. Наш метод также обобщается за пределы трансформеров, применим к сверточным нейронным сетям (CNN) и моделям пространства состояний. Эксперименты показывают, что Representation Shift обеспечивает эффективное сжатие токенов, совместимое с FlashAttention, что приводит к значительному ускорению до 5,5% и 4,4% в задачах поиска видео по тексту и ответов на вопросы по видео соответственно. Код доступен по адресу https://github.com/mlvlab/Representation-Shift.

CRINN: Контрастное обучение с подкреплением для поиска приближенных ближайших соседей
CRINN: Contrastive Reinforcement Learning for Approximate Nearest Neighbor Search

Aug 4

ByXiaoya Li, Xiaofei Sun, Albert Wang, Chris Shum, Jiwei Li

Алгоритмы поиска приближенных ближайших соседей (ANNS) становятся все более важными для современных приложений искусственного интеллекта, особенно в задачах генерации с использованием поиска (RAG) и в приложениях на основе агентов с использованием крупных языковых моделей (LLM). В данной статье мы представляем CRINN — новую парадигму для алгоритмов ANNS. CRINN рассматривает оптимизацию ANNS как задачу обучения с подкреплением, где скорость выполнения служит сигналом вознаграждения. Этот подход позволяет автоматически генерировать все более быстрые реализации ANNS при соблюдении ограничений на точность. Наши экспериментальные результаты демонстрируют эффективность CRINN на шести широко используемых наборах данных для тестирования NNS. По сравнению с современными открытыми алгоритмами ANNS, CRINN показывает наилучшую производительность на трех из них (GIST-960-Euclidean, MNIST-784-Euclidean и GloVe-25-angular) и делит первое место на двух других (SIFT-128-Euclidean и GloVe-25-angular). Успех CRINN имеет значение, выходящее за рамки оптимизации ANNS: он подтверждает, что LLM, усиленные обучением с подкреплением, могут служить эффективным инструментом для автоматизации сложных алгоритмических оптимизаций, требующих специализированных знаний и трудоемкой ручной доработки. Код доступен по адресу: https://github.com/deepreinforce-ai/CRINN.

Потенциал обучения с подкреплением для авторегрессивного редактирования изображений
The Promise of RL for Autoregressive Image Editing

Aug 1

BySaba Ahmadi, Rabiul Awal, Ankur Sikarwar, Amirhossein Kazemnejad, Ge Ya Luo, Juan A. Rodriguez, Sai Rajeswar, Siva Reddy, Christopher Pal, Benno Krojer, Aishwarya Agrawal

Мы исследуем три стратегии для повышения производительности в широком спектре задач редактирования изображений: контролируемое тонкое настройка (SFT), обучение с подкреплением (RL) и рассуждения по цепочке мыслей (CoT). Чтобы изучить все эти компоненты в единой согласованной структуре, мы используем авторегрессивную мультимодальную модель, которая обрабатывает текстовые и визуальные токены унифицированным образом. Мы обнаруживаем, что RL в сочетании с крупным мультимодальным верификатором LLM является наиболее эффективной из этих стратегий. В результате мы представляем EARL: Editing with Autoregression and RL — мощную модель редактирования изображений на основе RL, которая демонстрирует конкурентоспособные результаты на разнообразных задачах редактирования по сравнению с сильными базовыми моделями, несмотря на использование значительно меньшего объема обучающих данных. Таким образом, EARL расширяет границы возможностей авторегрессивных мультимодальных моделей в области редактирования изображений. Мы публикуем наш код, обучающие данные и обученные модели по адресу https://github.com/mair-lab/EARL.

Goedel-Prover-V2: Масштабирование формального доказательства теорем с использованием структурированного синтеза данных и самокоррекции
Goedel-Prover-V2: Scaling Formal Theorem Proving with Scaffolded Data Synthesis and Self-Correction

Aug 5

ByYong Lin, Shange Tang, Bohan Lyu, Ziran Yang, Jui-Hui Chung, Haoyu Zhao, Lai Jiang, Yihan Geng, Jiawei Ge, Jingruo Sun, Jiayun Wu, Jiri Gesi, Ximing Lu, David Acuna, Kaiyu Yang, Hongzhou Lin, Yejin Choi, Danqi Chen, Sanjeev Arora, Chi Jin

Мы представляем Goedel-Prover-V2, серию открытых языковых моделей, которые устанавливают новый эталон в области автоматизированного доказательства теорем. Основанный на стандартном конвейере экспертной итерации и обучения с подкреплением, наш подход включает три ключевых инновации: (1) Синтез данных с постепенным усложнением: мы генерируем синтетические задачи возрастающей сложности, чтобы обучить модель осваивать всё более сложные теоремы; (2) Самоисправление с использованием верификатора: мы позволяем модели итеративно корректировать свои доказательства, используя обратную связь от компилятора Lean; (3) Усреднение моделей: мы объединяем контрольные точки моделей, чтобы смягчить снижение разнообразия выходных данных на поздних этапах обучения. Наша небольшая модель, Goedel-Prover-V2-8B, достигает 84,6% pass@32 на MiniF2F и превосходит DeepSeek-Prover-V2-671B по тому же показателю, несмотря на то, что она в 80 раз меньше. Наша флагманская модель, Goedel-Prover-V2-32B, достигает 88,1% на MiniF2F при pass@32 в стандартном режиме и 90,4% в режиме самоисправления, значительно опережая предыдущие достижения. Кроме того, наша флагманская модель решает 86 задач на PutnamBench при pass@184, занимая первое место среди открытых моделей в рейтинге, превосходя рекорд DeepSeek-Prover-V2-671B, который решил 47 задач при pass@1024, при значительно меньшем размере модели и вычислительных ресурсах. На момент выпуска (июль-август 2025 года) Goedel-Prover-V2 демонстрирует наилучшую общую производительность среди всех открытых систем доказательства теорем. Она также входит в число лучших моделей, включая закрытые системы с публично заявленной производительностью, при ограниченном бюджете вычислительных ресурсов на этапе тестирования. Наши модели, код и данные доступны по адресу https://github.com/Goedel-LM/Goedel-Prover-V2.

Мультичеловеческий интерактивный набор данных для разговоров
Multi-human Interactive Talking Dataset

Aug 5

ByZeyu Zhu, Weijia Wu, Mike Zheng Shou

Существующие исследования в области генерации говорящих видео в основном сосредоточены на монологах одного человека или изолированных анимациях лица, что ограничивает их применимость для реалистичных взаимодействий между несколькими людьми. Чтобы устранить этот пробел, мы представляем MIT — крупномасштабный набор данных, специально разработанный для генерации видео с участием нескольких говорящих людей. Для этого мы разработали автоматизированный процесс сбора и аннотирования видеозаписей многочеловеческих разговоров. Полученный набор данных включает 12 часов видео высокого разрешения, на каждом из которых запечатлены от двух до четырех говорящих, с детальными аннотациями поз тела и речевых взаимодействий. Он фиксирует естественную динамику разговоров в сценариях с несколькими участниками, предоставляя богатый ресурс для изучения интерактивных визуальных поведений. Чтобы продемонстрировать потенциал MIT, мы также предлагаем CovOG — базовую модель для этой новой задачи. Она включает в себя Multi-Human Pose Encoder (MPE) для обработки различного числа говорящих путем агрегирования индивидуальных эмбеддингов поз, а также Interactive Audio Driver (IAD) для модуляции динамики головы на основе аудио-характеристик, специфичных для каждого говорящего. Вместе эти компоненты демонстрируют возможность и вызовы генерации реалистичных видео с участием нескольких говорящих людей, устанавливая MIT как ценный эталон для будущих исследований. Код доступен по адресу: https://github.com/showlab/Multi-human-Talking-Video-Dataset.

LAMIC: Композиция нескольких изображений с учетом макета через масштабируемость мультимодального трансформатора диффузии
LAMIC: Layout-Aware Multi-Image Composition via Scalability of Multimodal Diffusion Transformer

Aug 1

ByYuzhuo Chen, Zehua Ma, Jianhua Wang, Kai Kang, Shunyu Yao, Weiming Zhang

В управляемом синтезе изображений создание согласованных и последовательных изображений на основе нескольких референсов с учетом пространственной компоновки остается открытой проблемой. Мы представляем LAMIC — фреймворк для композиции нескольких изображений с учетом компоновки, который впервые расширяет модели диффузии с одним референсом на сценарии с несколькими референсами без необходимости обучения. Построенный на основе модели MMDiT, LAMIC вводит два механизма внимания, работающих по принципу "plug-and-play": 1) Group Isolation Attention (GIA) для улучшения разделения сущностей и 2) Region-Modulated Attention (RMA) для генерации с учетом компоновки. Для всесторонней оценки возможностей модели мы также вводим три метрики: 1) Inclusion Ratio (IN-R) и Fill Ratio (FI-R) для оценки управления компоновкой и 2) Background Similarity (BG-S) для измерения согласованности фона. Многочисленные эксперименты показывают, что LAMIC достигает наилучших результатов по большинству ключевых метрик: он стабильно превосходит существующие базовые модели с несколькими референсами по показателям ID-S, BG-S, IN-R и AVG во всех настройках и демонстрирует наилучший DPG в задачах сложной композиции. Эти результаты демонстрируют превосходные способности LAMIC в сохранении идентичности, сохранении фона, управлении компоновкой и следовании текстовым инструкциям, все это достигается без какого-либо обучения или тонкой настройки, что подчеркивает сильную способность к обобщению в условиях "zero-shot". Наследуя преимущества передовых моделей с одним референсом и обеспечивая бесшовное расширение на сценарии с несколькими изображениями, LAMIC устанавливает новую парадигму управляемой композиции нескольких изображений без необходимости обучения. По мере развития базовых моделей ожидается, что производительность LAMIC будет масштабироваться соответствующим образом. Наша реализация доступна по адресу: https://github.com/Suchenl/LAMIC.

ChartCap: Снижение галлюцинаций при генерации описаний плотных графиков
ChartCap: Mitigating Hallucination of Dense Chart Captioning

Aug 5

ByJunyoung Lim, Jaewoo Ahn, Gunhee Kim

Создание точных, информативных и свободных от галлюцинаций подписей к графикам остается сложной задачей для моделей обработки визуальных и языковых данных, главным образом из-за отсутствия крупномасштабных, высококачественных наборов данных, содержащих реальные графики. Однако существующие наборы данных с реальными графиками страдают от включения избыточной информации, которую невозможно вывести из графика, а также от недостаточного отражения структурных элементов и ключевых выводов. В связи с этим мы представляем ChartCap — крупномасштабный набор данных, содержащий 565 тысяч изображений реальных графиков, снабженных типозависимыми, детализированными подписями, которые исключают избыточную информацию и подробно выделяют как структурные элементы, так и ключевые выводы. Для создания ChartCap мы разработали четырехэтапный процесс, который генерирует подписи, используя только доступные данные из графика, и применяем проверку человеком на основе цикличной согласованности, что ускоряет контроль качества без ущерба для точности. Кроме того, мы предлагаем новый метрический показатель — Визуальный индекс согласованности, который оценивает качество подписи, измеряя сходство между графиком, воссозданным из подписи, и исходным графиком, независимо от эталонных подписей. Многочисленные эксперименты подтверждают, что модели, дообученные на ChartCap, стабильно генерируют более точные и информативные подписи с меньшим количеством галлюцинаций, превосходя как открытые, так и проприетарные модели, а также даже подписи, созданные человеком.

HyCodePolicy: Гибридные языковые контроллеры для мультимодального мониторинга и принятия решений в воплощенных агентах
HyCodePolicy: Hybrid Language Controllers for Multimodal Monitoring and Decision in Embodied Agents

Aug 4

ByYibin Liu, Zhixuan Liang, Zanxin Chen, Tianxing Chen, Mengkang Hu, Wanxi Dong, Congsheng Xu, Zhaoming Han, Yusen Qin, Yao Mu

Последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили обеспечить более богатое перцептивное обоснование для генерации политик кода в воплощенных агентах. Однако большинство существующих систем не имеют эффективных механизмов для адаптивного мониторинга выполнения политик и исправления кодов в процессе выполнения задач. В данной работе мы представляем HyCodePolicy, гибридную языковую систему управления, которая систематически интегрирует синтез кода, геометрическое обоснование, перцептивный мониторинг и итеративное исправление в замкнутый цикл программирования для воплощенных агентов. Технически, получив инструкцию на естественном языке, наша система сначала разбивает её на подцели и генерирует начальную исполняемую программу, основанную на объектно-ориентированных геометрических примитивах. Затем программа выполняется в симуляции, в то время как модель обработки изображений и текста (VLM) наблюдает за выбранными контрольными точками для обнаружения и локализации сбоев выполнения, а также для выяснения причин сбоев. Объединяя структурированные трассировки выполнения, фиксирующие события на уровне программы, с перцептивной обратной связью на основе VLM, HyCodePolicy определяет причины сбоев и исправляет программы. Этот гибридный механизм двойной обратной связи позволяет осуществлять самокорректирующийся синтез программ с минимальным участием человека. Наши результаты демонстрируют, что HyCodePolicy значительно повышает устойчивость и эффективность использования данных в политиках манипуляции роботов, предлагая масштабируемую стратегию для интеграции мультимодального рассуждения в контуры автономного принятия решений.

UniEgoMotion: Унифицированная модель для реконструкции, прогнозирования и генерации эгоцентрического движения
UniEgoMotion: A Unified Model for Egocentric Motion Reconstruction, Forecasting, and Generation

Aug 2

ByChaitanya Patel, Hiroki Nakamura, Yuta Kyuragi, Kazuki Kozuka, Juan Carlos Niebles, Ehsan Adeli

Генерация и прогнозирование эгоцентрического движения человека с учетом контекста сцены играет ключевую роль в улучшении опыта AR/VR, совершенствовании взаимодействия человека с роботами, развитии вспомогательных технологий и создании адаптивных решений в здравоохранении за счет точного предсказания и симуляции движения с точки зрения первого лица. Однако существующие методы в основном сосредоточены на синтезе движения от третьего лица с использованием структурированного 3D-контекста сцены, что ограничивает их эффективность в реальных эгоцентрических условиях, где ограниченное поле зрения, частые окклюзии и динамические камеры затрудняют восприятие сцены. Чтобы устранить этот пробел, мы представляем две новые задачи: генерацию эгоцентрического движения и прогнозирование эгоцентрического движения, которые используют изображения от первого лица для синтеза движения с учетом сцены без необходимости явного 3D-контекста. Мы предлагаем UniEgoMotion — унифицированную условную модель диффузии движения с новой головоцентрической репрезентацией движения, адаптированной для эгоцентрических устройств. Простой, но эффективный дизайн UniEgoMotion поддерживает реконструкцию, прогнозирование и генерацию эгоцентрического движения на основе визуальных данных от первого лица в единой структуре. В отличие от предыдущих работ, игнорирующих семантику сцены, наша модель эффективно извлекает контекст сцены из изображений для вывода правдоподобного 3D-движения. Для облегчения обучения мы представляем EE4D-Motion — крупномасштабный набор данных, созданный на основе EgoExo4D и дополненный псевдо-истинными аннотациями 3D-движения. UniEgoMotion достигает наилучших результатов в реконструкции эгоцентрического движения и является первой моделью, способной генерировать движение на основе одного эгоцентрического изображения. Многочисленные оценки демонстрируют эффективность нашей унифицированной структуры, устанавливая новый стандарт для моделирования эгоцентрического движения и открывая новые возможности для эгоцентрических приложений.

Что покупает ваш ИИ-агент? Оценка, последствия и возникающие вопросы в агентной электронной коммерции
What Is Your AI Agent Buying? Evaluation, Implications and Emerging Questions for Agentic E-Commerce

Aug 4

ByAmine Allouah, Omar Besbes, Josué D Figueroa, Yash Kanoria, Akshit Kumar

Онлайн-рынки будут трансформированы автономными ИИ-агентами, действующими от имени потребителей. Вместо того чтобы люди просматривали и кликали, агенты на основе моделей "визуальный язык" (VLM) смогут анализировать веб-страницы, оценивать продукты и совершать транзакции. Это поднимает фундаментальный вопрос: что покупают ИИ-агенты и почему? Мы разработали ACES — песочницу, которая объединяет платформонезависимого VLM-агента с полностью программируемым имитационным рынком для изучения этого вопроса. Сначала мы проводим базовые проверки рациональности в контексте простых задач, а затем, рандомизируя позиции продуктов, цены, рейтинги, отзывы, спонсируемые метки и рекомендации платформ, получаем причинно-следственные оценки того, как передовые VLM-модели действительно совершают покупки. Модели демонстрируют сильные, но неоднородные эффекты позиционирования: все предпочитают верхнюю строку, но разные модели выбирают разные столбцы, что подрывает предположение о универсальном "топовом" ранге. Они наказывают спонсируемые метки и поощряют рекомендации. Чувствительность к цене, рейтингам и отзывам направленно схожа с человеческой, но резко варьируется по величине между моделями. Вдохновленные сценариями, где продавцы используют ИИ-агентов для оптимизации списков продуктов, мы показываем, что агент со стороны продавца, вносящий незначительные изменения в описания продуктов, ориентируясь на предпочтения ИИ-покупателей, может обеспечить существенный рост доли рынка, если доминирует ИИ-опосредованный шопинг. Мы также обнаружили, что модальные выборы продуктов могут различаться между моделями, и в некоторых случаях спрос может концентрироваться на нескольких избранных продуктах, что поднимает вопросы конкуренции. В совокупности наши результаты проливают свет на то, как ИИ-агенты могут вести себя в условиях электронной коммерции, и выявляют конкретные стратегии продавцов, вопросы дизайна платформ и регулирования в экосистеме, опосредованной ИИ.

Двунаправленная оценка правдоподобия с использованием мультимодальных больших языковых моделей для поиска текст-видео
Bidirectional Likelihood Estimation with Multi-Modal Large Language Models for Text-Video Retrieval

Jul 31

ByDohwan Ko, Ji Soo Lee, Minhyuk Choi, Zihang Meng, Hyunwoo J. Kim

Задача поиска текст-видео (Text-Video Retrieval) заключается в нахождении наиболее релевантного текстового (или видеоролика) кандидата для заданного видеозапроса (или текстового запроса) из крупномасштабных онлайн-баз данных. В последних работах используются многомодальные большие языковые модели (MLLMs) для улучшения поиска, особенно для длинных или сложных пар запрос-кандидат. Однако мы наблюдаем, что наивное применение MLLMs, а именно поиск на основе вероятности кандидата, приводит к смещению в сторону априорных предпочтений, отдавая предпочтение кандидатам с изначально более высокими априорными вероятностями, а не тем, которые более релевантны запросу. Для решения этой проблемы мы предлагаем новый подход к поиску — Bidirectional Likelihood Estimation with MLLM (BLiM), который учитывает как вероятность запроса, так и вероятность кандидата, обучая модель генерировать текст на основе заданного видео, а также видеопризнаки на основе заданного текста. Кроме того, мы представляем модуль нормализации априорных вероятностей кандидатов (Candidate Prior Normalization, CPN), простой, но эффективный метод калибровки оценок, не требующий обучения, который предназначен для устранения смещения априорных вероятностей кандидатов. На четырех бенчмарках для задачи поиска текст-видео наш подход BLiM, оснащенный CPN, превосходит предыдущие модели с наилучшими результатами в среднем на 6.4 R@1, эффективно устраняя смещение априорных вероятностей и подчеркивая релевантность запроса и кандидата. Наш детальный анализ в различных многомодальных задачах, выходящих за рамки поиска, подчеркивает широкую применимость CPN, который улучшает визуальное понимание, снижая зависимость от текстовых априорных вероятностей. Код доступен по адресу https://github.com/mlvlab/BLiM.

TreeRanker: Быстрая и независимая от модели система ранжирования для предложений кода в IDE
TreeRanker: Fast and Model-agnostic Ranking System for Code Suggestions in IDEs

Aug 4

ByDaniele Cipollone, Egor Bogomolov, Arie van Deursen, Maliheh Izadi

Автодополнение на уровне токенов является одной из наиболее важных функций в современных интегрированных средах разработки (IDE). Оно помогает разработчикам, предлагая соответствующие идентификаторы и API во время написания кода. Хотя предложения обычно формируются на основе статического анализа, их полезность во многом зависит от того, как они ранжируются, поскольку правильные предсказания, скрытые глубоко в списке, редко замечаются пользователями. Большинство современных систем полагаются на ручные эвристики или легковесные модели машинного обучения, обученные на логах пользователей, которые можно улучшить для более точного учета контекстной информации и обобщения между проектами и стилями программирования. В данной работе мы предлагаем новый подход к ранжированию статических предложений с использованием языковых моделей в легковесном и модельно-независимом стиле. Наш метод организует все допустимые предложения в префиксное дерево и выполняет один жадный проход декодирования для сбора оценок на уровне токенов по всему дереву. Это позволяет обеспечить точное ранжирование с учетом токенов без необходимости использования поиска по лучу, инженерии промптов или адаптации моделей. Подход является быстрым, архитектурно-независимым и совместимым с уже развернутыми моделями для автодополнения кода. Эти результаты демонстрируют практичный и эффективный путь интеграции языковых моделей в уже существующие инструменты IDE, что в конечном итоге обеспечивает более умную и отзывчивую помощь разработчикам.

AttnTrace: Трассировка контекста на основе внимания для языковых моделей с длинным контекстом
AttnTrace: Attention-based Context Traceback for Long-Context LLMs

Aug 5

ByYanting Wang, Runpeng Geng, Ying Chen, Jinyuan Jia

Модели с длинным контекстом (LLMs), такие как Gemini-2.5-Pro и Claude-Sonnet-4, всё чаще используются для создания продвинутых ИИ-систем, включая конвейеры генерации с использованием извлечения данных (RAG) и автономных агентов. В таких системах LLM получает инструкцию вместе с контекстом — часто состоящим из текстов, извлечённых из базы знаний или памяти — и генерирует ответ, который контекстуально обоснован, следуя инструкции. Недавние исследования предложили решения для отслеживания подмножества текстов в контексте, которые в наибольшей степени влияют на ответ, сгенерированный LLM. Эти решения имеют множество практических применений, включая проведение анализа после атак и повышение интерпретируемости и доверия к выводам LLM. Несмотря на значительные усилия, современные решения, такие как TracLLM, часто приводят к высоким вычислительным затратам — например, TracLLM требуется сотни секунд для выполнения отслеживания для одной пары ответ-контекст. В данной работе мы предлагаем AttnTrace — новый метод отслеживания контекста, основанный на весах внимания, генерируемых LLM для промпта. Для эффективного использования весов внимания мы вводим две техники, предназначенные для повышения эффективности AttnTrace, и предоставляем теоретические обоснования для нашего выбора. Мы также проводим систематическую оценку AttnTrace. Результаты показывают, что AttnTrace более точный и эффективный, чем существующие современные методы отслеживания контекста. Мы также демонстрируем, что AttnTrace может улучшить современные методы обнаружения инъекций промптов в длинных контекстах с использованием парадигмы "атрибуция перед обнаружением". В качестве практического применения мы показываем, что AttnTrace может эффективно выявлять вставленные инструкции в статье, предназначенной для манипуляции отзывами, сгенерированными LLM. Код доступен по адресу https://github.com/Wang-Yanting/AttnTrace.

AlignGuard-LoRA: Сохранение выравнивания при тонкой настройке с использованием разложения, управляемого критерием Фишера, и регуляризации столкновений на основе римановой геодезической
AlignGuard-LoRA: Alignment-Preserving Fine-Tuning via Fisher-Guided Decomposition and Riemannian-Geodesic Collision Regularization

Aug 4

ByAmitava Das, Abhilekh Borah, Vinija Jain, Aman Chadha

Низкоранговая адаптация (LoRA) стала стандартным инструментом для эффективной тонкой настройки больших языковых моделей (LLM). Однако даже незначительные обновления LoRA могут вызывать смещение выравнивания, ослабляя ограничения безопасности и поведения из-за запутанных изменений параметров. Для решения этой проблемы мы предлагаем AlignGuard-LoRA (AGL), принципиальную структуру для сохранения выравнивания во время тонкой настройки. AGL включает несколько ключевых компонентов: основную функцию потерь для контроля, регуляризацию на основе матрицы информации Фишера для ограничения обновлений в чувствительных к выравниванию подпространствах, и задачно-специфическую регуляризацию для стабилизации интеграции новых знаний. Мы также вводим регуляризацию с учетом коллизий, сочетающую риманово перекрытие — которое штрафует координатные помехи — и геодезическое разделение — которое способствует непересекающейся геометрии обновлений. Мы создали DriftCaps, целевой диагностический набор безопасных и небезопасных запросов, предназначенный для количественной оценки смещения выравнивания и ухудшения безопасности. Эмпирические оценки показывают, что AGL снижает смещение выравнивания до 50% на критически важных для безопасности тестах без ухудшения производительности на целевых задачах. Комплексный анализ подтверждает, что каждый компонент вносит уникальный вклад в сохранение скрытых безопасных поведений. Наконец, мы выводим и проверяем закон масштабирования для катастрофического забывания, показывая, что AGL сглаживает рост потерь после тонкой настройки, сохраняя динамику адаптации. AGL представляет собой структурно обоснованное усовершенствование LoRA, обеспечивающее сохранение выравнивания с минимальными компромиссами. Для поощрения дальнейших исследований и разработок мы открываем исходный код нашей реализации.

TRACEALIGN — Отслеживание смещения: Атрибуция сбоев согласованности к источникам убеждений на этапе обучения в крупных языковых моделях
TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs

Aug 4

ByAmitava Das, Vinija Jain, Aman Chadha

Крупные языковые модели (LLMs), дообученные для соответствия человеческим ценностям, часто демонстрируют дрейф согласованности, генерируя небезопасные или нарушающие политику завершения при воздействии враждебных запросов, декодирующих возмущений или перефразированных "взломов". Хотя предыдущие работы поведенчески характеризовали сбои согласованности, мало что известно о источниках убеждений во время обучения, лежащих в основе этих сбоев. Мы представляем TraceAlign — унифицированную структуру для отслеживания небезопасных завершений до их корневых причин в обучающем корпусе модели. Центральным элементом нашего подхода является Индекс Конфликта Убеждений (BCI), который количественно оценивает семантическую несогласованность между сгенерированными фрагментами и согласованными политиками на основе извлеченных обучающих документов с использованием совпадения суффиксных массивов. Мы предлагаем три взаимодополняющих вмешательства: (i) TraceShield — фильтр безопасности на этапе вывода, который отклоняет завершения с фрагментами с высоким BCI, (ii) Контрастная Функция Потери для Устранения Конфликта Убеждений — контрастная цель дообучения, штрафующая продолжения с высоким BCI во время DPO, и (iii) Prov-Decode — стратегия декодирования с учетом происхождения, которая блокирует расширения лучей, предсказанные как ведущие к фрагментам с высоким BCI. Вместе эти защиты снижают дрейф согласованности до 85% на нашем курируемом бенчмарке Alignment Drift Benchmark (ADB), сохраняя полезность на стандартных задачах с дельтой менее 0,2 и улучшая качество отказов. Мы также выводим теоретическую верхнюю границу вероятности дрейфа через статистику фрагментов суффиксных массивов, связывая частоту и длину запоминания с риском реактивации враждебных запросов. Таким образом, TraceAlign предоставляет первый масштабируемый, отслеживаемый и обоснованный инструментарий для понимания и устранения сбоев согласованности на уровне источников. Чтобы стимулировать дальнейшие исследования и разработки, мы открываем исходный код нашей реализации по адресу: https://anonymous.4open.science/r/tracealign-2DA7.