HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

34 papers found

Moebius: 0,2B-параметровый легковесный фреймворк для инпейнтинга изображений с производительностью уровня 10B
Moebius: 0.2B Lightweight Image Inpainting Framework with 10B-Level Performance

Jun 17

ByKangsheng Duan, Ziyang Xu, Wenyu Liu, Xiaohu Ruan, Xiaoxin Chen, Xinggang Wang

Хотя промышленные базовые модели уровня 10B продвинули границы возможностей восстановления изображений, их непомерные вычислительные затраты серьезно затрудняют практическое развертывание. Создание узкоспециализированного, высокооптимизированного решателя конкретных задач является многообещающим решением; однако экстремальное структурное сжатие неизбежно вызывает серьезное узкое место представления. Для преодоления этого мы предлагаем Moebius — высокоэффективный легковесный фреймворк для восстановления изображений. Мы систематически реконструируем диаффузионный бэкбон, вводя блок Local-λ Mix Interaction (LλMI). Состоящий из модулей Local-λ и Interactive-λ, он элегантно обобщает пространственные контексты и глобальные семантические априорные знания в линейные матрицы фиксированного размера, сохраняя сложные скрытые взаимодействия при радикальном сокращении параметров. Кроме того, чтобы раскрыть полную репрезентативную мощность этой высококомпактной архитектуры, мы синергетически объединяем ее с адаптивной стратегией дистилляции с несколькими гранулярностями. Действуя строго в скрытом пространстве во избежание дорогостоящего декодирования в пространстве пикселей, эта стратегия динамически балансирует несколько градиентных потерь для достижения высокоточного выравнивания. Обширные эксперименты на наборах данных естественных и портретных изображений показывают, что эта оптимальная синергия позволяет Moebius конкурировать или даже превосходить по качеству генерации промышленный генералист FLUX.1-Fill-Dev уровня 10B. Примечательно, что Moebius достигает этого, используя менее 2% параметров (0,22B против 11,9B), обеспечивая при этом ускорение общего времени вывода более чем в 15 раз, устанавливая новый стандарт эффективности для высокоточного восстановления изображений. Страница проекта: https://hustvl.github.io/Moebius.

DragMesh-2: Физически правдоподобное ловкое взаимодействие руки с сочлененными объектами
DragMesh-2: Physically Plausible Dexterous Hand-Object Interaction with Articulated Objects

Jun 13

ByTianshan Zhang, Yijia Duan, Yanjun Li, Zeyu Zhang, Hao Tang

Ловкое взаимодействие с сочлененными объектами важно для бытовой, вспомогательной и человекоподобной манипуляции, где многопальцевые руки могут обеспечивать податливые контактные схемы, выходящие за рамки захвата параллельными губками. Однако манипуляция сочлененными объектами отличается от манипуляции статическими объектами: целевая часть не может быть непосредственно приведена в действие, а ее движение должно возникать за счет устойчивого физического контакта «рука—ручка». Это делает переход от объектно-центрированной генерации сочлененных движений к управляемому рукой ловкому взаимодействию руки с объектом нетривиальным, поскольку воспроизведение геометрической траектории или выполнение по разомкнутому циклу не моделирует контактную динамику, необходимую для перемещения сочлененной части. Кроме того, политики, обученные только на завершение задачи при фиксированной динамике, могут переобучаться на номинальные контактные нагрузки, особенно при отсутствии тактильной или силовой обратной связи, и ухудшаться при изменении контактной нагрузки. Для решения этих проблем мы представляем DragMesh-2 — контактно-ориентированную структуру для ловкого взаимодействия с сочлененными объектами, которая расширяет сочлененное взаимодействие от объектно-центрированной генерации до управляемого рукой ловкого взаимодействия руки с объектом, где сочлененное движение должно возникать через физический контакт. Мы также предлагаем PICA — физически информированный механизм обучения с учетом контакта, который внедряет физические сигналы в обучение политики без тактильной или силовой обратной связи, повышая устойчивость и успешность выполнения задачи при изменяющихся контактных нагрузках. Наконец, мы проводим систематическую оценку в нескольких условиях демпфирования и категориях сочлененных объектов для изучения устойчивости к изменению контактной нагрузки, а также предоставляем ресурс для ловкого взаимодействия на основе чистой геометрии для поддержки будущих исследований в области локомоции-манипуляции и взаимодействия человекоподобной руки с объектом. Для семи объектов из набора GAPartNet DragMesh-2 демонстрирует более высокую устойчивость к изменению контактной нагрузки по сравнению с конкурирующими методами, сохраняя при этом высокий уровень успешности задач в различных условиях демпфирования.

Игровое агентное обучение роботов
Playful Agentic Robot Learning

Jun 17

ByJunyi Zhang, Jiaxin Ge, Hanjun Yoo, Letian Fu, Zihan Yang, Yaowei Liu, Raj Saravanan, Shaofeng Yin, Justin Yu, Dantong Niu, Zirui Wang, Roei Herzig, Ken Goldberg, Yutong Bai, David M. Chan, Ion Stoica, Angjoo Kanazawa, Jiahui Lei, Haiwen Feng, Trevor Darrell

Современные агентные робототехнические системы способны писать исполняемые программы в стиле «код как политика», наблюдать за обратной связью и корректировать поведение в рамках нескольких попыток, однако они остаются преимущественно ориентированными на выполнение задач: переиспользуемые навыки приобретаются только после явных инструкций. Мы исследуем игровое агентное обучение роботов, в котором воплощенный кодирующий агент использует самонаправленную игру как непрерывный этап обучения навыкам до поступления целевых задач. Мы представляем RATs — команды робототехнических агентов, предназначенные для приобретения навыков в игровом режиме. В процессе игры RATs предлагают новые, но обучаемые исследовательские задачи, планируют и выполняют робототехнические кодовые политики, проверяют промежуточный прогресс, диагностируют сбои, повторяют попытки с плотной пошаговой обратной связью и сохраняют успешные выполнения в постоянную библиотеку кодовых навыков. На этапе тестирования агент повторно использует релевантные навыки из этой замороженной библиотеки для решения новых задач. Эксперименты в средах LIBERO-PRO и MolmoSpaces показывают, что навыки, полученные в игре, улучшают выполнение отложенных целевых задач по сравнению с базовыми методами без игры и со случайной игрой, обеспечивая прирост в 20,6 и 17,0 процентных пунктов относительно CaP-Agent0 на LIBERO-PRO и MolmoSpaces соответственно. Более того, изученные навыки могут быть интегрированы в другие агенты, использующие подход «код как политика» на этапе вывода, путем простого извлечения их в контекст, что улучшает перенос на RoboSuite и реальный мир на 8,9 и 8,8 пункта соответственно без дообучения базовой модели.

S-Agent: Использование пространственных инструментов вызывает рассуждение для пространственного интеллекта
S-Agent: Spatial Tool-Use Elicits Reasoning for Spatial Intelligence

Jun 18

ByYalun Dai, Hao Li, Shulin Tian, Runmao Yao, Yuhao Dong, Fangzhou Hong, Zhaoxi Chen, Fangfu Liu, Baoliang Tian, Dingwen Zhang, Tao Wang, Kim-Hui Yap, Ziwei Liu

Реальная пространственная интеллектуальность требует рассуждений о непрерывном и изменяющемся трехмерном мире, однако существующие VLM и агенты, расширенные инструментами, в значительной степени остаются привязанными к статическому, не имеющему состояния выводу на основе изолированных визуальных наблюдений. Мы представляем \textsc{S-Agent} — парадигму агента пространственного использования инструментов для понимания и рассуждения о непрерывных многовидовых изображениях и видео. Формулируя пространственное рассуждение как накопление пространственно-временных свидетельств, а не изолированное покадровое предсказание, S-Agent переосмысливает пространственное восприятие как понимание, центрированное на сцене, выходящее за рамки покадрового распознавания. В частности, S-Agent представляет VLM как семантического планировщика, который решает, какие свидетельства необходимы, в то время как иерархия пространственных инструментов и экспертов локализует объекты в 2D, поднимает их в 3D-геометрические свидетельства и агрегирует эти свидетельства в высокоуровневые пространственные знания (например, подсчет, измерение, ориентация и относительное положение). Кроме того, механизм временной памяти, включающий Память сцены для поддержания изменяющегося состояния сцены и Память агента для накопления контекста рассуждений, обеспечивает интеграцию свидетельств между кадрами и шагами рассуждений. Всесторонние эксперименты на эталонах пространственного рассуждения по многовидовым изображениям и видео показывают, что S-Agent последовательно улучшает как открытые, так и закрытые VLM без необходимости обучения. Помимо расширения во время вывода, контролируемая тонкая настройка (SFT) на сгенерированных S-Agent пространственных траекториях S-300K дает S-Agent-8B — компактный пространственный агент, который значительно превосходит базовые модели аналогичного масштаба (например, Qwen3-VL-8B) и показывает результаты, сопоставимые с продвинутыми закрытыми моделями (например, GPT-5.4 и Gemini 3).

Multi-LCB: Расширение LiveCodeBench на несколько языков программирования
Multi-LCB: Extending LiveCodeBench to Multiple Programming Languages

Jun 18

ByMaria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov, Adamenko Pavel, Ivan Lopatin, Alexey Kutalev, Dmitrii Babaev

LiveCodeBench (LCB) недавно стал широко используемым бенчмарком для оценки больших языковых моделей (LLM) на задачах генерации кода. Благодаря подборке задач по спортивному программированию, постоянному добавлению новых задач в набор и их фильтрации по датам выпуска, LCB обеспечивает оценку с учетом контаминации и предоставляет целостное представление о способностях кодирования. Однако LCB по-прежнему ограничен языком Python, оставляя открытым вопрос о том, способны ли LLM обобщать свои навыки на различные языки программирования, необходимые в реальной программной инженерии. Мы представляем Multi-LCB — бенчмарк для оценки LLM на двенадцати языках программирования, включая Python. Multi-LCB преобразует задачи из набора данных LCB на Python в эквивалентные задачи на других языках, сохраняя при этом механизмы контроля контаминации и протокол оценки LCB. Благодаря полной совместимости с оригинальным форматом LCB, Multi-LCB будет автоматически отслеживать будущие обновления LCB, обеспечивая систематическую оценку компетентности в генерации кода на разных языках и требуя от моделей поддержания производительности далеко за пределами Python. Мы оценили 24 LLM для инструкций и рассуждений на Multi-LCB, выявив признаки переобучения на Python, контаминации, специфичной для языка, и существенные различия в многоязычной производительности. Наши результаты утверждают Multi-LCB как строгий новый бенчмарк для оценки кода на нескольких языках программирования, напрямую устраняя основное ограничение LCB и раскрывая критические пробелы в текущих возможностях LLM.

За пределами статических рейтингов: прогностическая валидность для оценки LLM-агентов
Beyond Static Leaderboards: Predictive Validity for the Evaluation of LLM Agents

Jun 18

ByDhaval C. Patel, Kaoutar El Maghraoui, Shuxin Lin, Yusheng Li, Tianjun Feng, Chun-Yi Tsai, Yihan Sun, Wei Alexander Xin, Akshat Bhandari, Tanisha Rathod, Aaron Fan, Sanskruti Vijay Shejwal, Tomas Pasiecznik, Sagar Chethan Kumar, Tanmay Agarwal, Rohith Kanathur, Sam Colman, Amaan Sheikh, Dev Bahl, Ann Li, Krish Veera, Alimurtaza Mustafa Merchant, Shambhawi Baswaraj Bhure, Sajal Kumar Goyla, Chengrui Li, Kirthana Natarajan, Rui Li, Thomas Ajai, Rujing Li, Vivek G. Iyer, Sanjaii Vijayakumar, Yitong Bai, Ayal Yakobe, Darief Maes, Yassine Jebbouri, Tianyang Xu, Thai Quoc On, Vera Mazeeva, Winston Li, Yuval Shemla, Yeshitha Bhuvanesh, Rushin Bhatt, Siddharth Chethan Gowda, Alisha Vinod, Caroline Cahill, Shriya Aishani Rachakonda, Yunfeng Chen, Aryaman Agrawal, Aman Upganlawar, Mao Le Jonathan Ang, Yubin Sally Go, Madhav Rajkondawar, Yang-Jung Chen, Trisha Maturi, Ananya Kapoor, Andrew Li, Shrey Arora, Mana Abbaszadeh, Shen Li, Charles Xu, Byeolah Kwon

Бенчмарки для агентов стремительно развиваются, однако ни один отдельно взятый бенчмарк не охватывает более четырёх-пяти из тех измерений, которые выявляются при развёртывании. В данной работе представлена крупнейшая на сегодняшний день скоординированная серия углублённых исследований одного промышленного бенчмарка на базе MCP: четырнадцать параллельных исследований, охватывающих новые классы активов (включая мультимодальное визуальное расширение), альтернативные оркестровки, стратегии поиска, режимы рассуждений, оптимизацию инфраструктуры и зонды для оценки методологии. Обобщая эти исследования вместе с семью предыдущими бенчмарками для агентов, мы утверждаем, что лидерборды, основанные на агрегированных показателях, систематически недоопределяют оценку развёрнутых агентов. Ранжирования, построенные на агрегированных баллах, не переносятся на условия вне распределения; недавние ретроспективы соревнований, где публичные результаты сравнивались со скрытыми, предоставляют прямые эмпирические доказательства такой нестабильности рангов. Мы предлагаем ранжировать конфигурации по предиктивной валидности — корреляции между рангами внутри выборки и вне выборки, а не по среднему значению внутри выборки, — и представляем двенадцатиуровневый измерительный аппарат, который выявляет ключевые для развёртывания измерения, сводимые к HELM и его последователям в эпоху агентов. Предлагаемая позиция операционализируется через три фальсифицируемых критерия для условий вне распределения с явными порогами; существующие данные частично её подтверждают, но недостаточны для окончательного вывода. В заключение мы приводим предварительно зарегистрированный пилотный дизайн и видение на уровне всей области — того, что должно содержать следующее поколение бенчмарков для агентов.

FreeStyle: Свободное управление двухреферентной генерацией стиля и содержания на основе майнинга LoRA из сообщества
FreeStyle: Free Control of Style-Content Dual-Reference Generation from Community LoRA Mining

Jun 18

ByJinghong Lan, Wei Cheng, Yunuo Chen, Ziqi Ye, Peng Xing, Yixiao Fang, Rui Wang, Yufeng Yang, Xuanyang Zhang, Xianfang Zeng, Difan Zou, Gang Yu, Chi Zhang

Генерация на основе двух референсов (стиля и содержания) направлена на синтез изображения, сохраняющего структуру и семантику референса содержания, при этом принимающего стиль отдельного референса стиля. Несмотря на недавний прогресс, эта задача остается сложной, поскольку модели должны обеспечивать баланс между точностью сохранения содержания, соответствием стилю и следованием инструкции, избегая утечки семантики из референса стиля. Ключевым узким местом является отсутствие крупномасштабных тройных данных с чистым разделением содержания и стиля и широким покрытием редких стилей. В данной работе мы предлагаем FreeStyle — масштабируемую структуру двухреференсной генерации, основанную на извлечении LoRA из сообщества. Мы рассматриваем LoRA сообщества как композиционные якоря для стиля и содержания и проектируем строгий конвейер генерации и фильтрации для создания крупномасштабных троек «референс стиля — референс содержания» для нескольких базовых моделей. Для устранения утечки содержания мы применяем двухэтапную учебную программу с механизмами разделения, специфичными для каждого этапа: ограничение обогащения на уровне внимания, подавляющее утечку из референса стиля на этапе переноса стиля, и стратегию модуляции RoPE с учетом частоты, нацеленную на утечку, основанную на позиционном соответствии, на более сложном этапе двух референсов. Мы также представляем эталон, охватывающий генерацию как на основе референса стиля, так и на основе двух референсов, с оценками сходства стиля, сохранения содержания, эстетики, следования инструкциям и подавления утечки. Эталон включает инвариантную к стилю Оценку согласованности содержания (CAS) и вводит калиброванную Оценку отклонения на основе VLM для оценки надежности генерации и подавления утечки. Обширные эксперименты показывают, что наша модель достигает сильного баланса между соответствием стилю, сохранением содержания и подавлением утечки.

JanusMesh: Быстрая и Zero-Shot генерация 3D визуальных иллюзий посредством кросс-пространственного шумоподавления
JanusMesh: Fast and Zero-Shot 3D Visual Illusion Generation via Cross-Space Denoising

Jun 18

BySiang-Ling Zhang, Huai-Hsun Cheng, Tsung-Ju Yang, Yu-Lun Liu

Создание трехмерных визуальных иллюзий — одного 3D-меша, который с разных углов обзора раскрывает совершенно разную семантику — является увлекательной, но сложной задачей. Существующие методы, основанные на оптимизации, медленны и могут приводить к перенасыщенным цветам. Наивные подходы сшивания, напротив, не позволяют получать геометрически согласованные объекты, что приводит к видимым неестественным швам и утечкам семантики. В данной статье мы представляем быструю и не требующую обучения структуру для генерации текстово-управляемых 3D-иллюзий. Наш подход разделяет генерацию на два этапа. Сначала мы предлагаем процесс шумоподавления с двумя ветвями в кросс-пространственном представлении. Этот процесс динамически декодирует 3D-латентные представления в воксельное пространство для выравнивания ориентации под управлением CLIP и смешивания полей расстояний со знаком (SDF), что обеспечивает бесшовное геометрическое слияние. Затем мы вводим модуль синтеза текстур с учетом вида, который проецирует и агрегирует специфичные для каждого ракурса 2D-диффузионные априорные данные на объединенную геометрию. Обширные эксперименты показывают, что наш метод создает высокореалистичные двойные семантические 3D-иллюзии всего за 3–5 минут. Он значительно превосходит существующие методы по геометрической целостности, семантической распознаваемости и эффективности. Страница проекта: https://siang1105.github.io/JanusMesh.github.io/

FlowBender: обучение с учетом обратной связи для самокорректирующихся условных потоков
FlowBender: Feedback-Aware Training for Self-Correcting Conditional Flows

Jun 18

ByDaniel Gilo, Sven Elflein, Ido Sobol, Or Litany

Условные диффузионные модели и модели потоков регулярно не выполняют те самые ограничения, которые определяют их задачу. Например, модель, обученная с условием по глубине, часто генерирует изображения, повторно извлеченная глубина которых не соответствует входной, несмотря на то, что прямой оператор — предиктор глубины, определяющий ограничение, — доступен как на этапе обучения, так и на этапе вывода. Существующие подходы обычно делятся на две категории: контролируемые модели, которые рассматривают сигнал условия как статическую подсказку и игнорируют информацию о согласованности на этапе вывода, и методы, основанные на направляющей информации, которые обращаются к ней через настраиваемые вручную линейные обновления, как правило, жертвуя точностью соблюдения условия ради правдоподобия генерируемого образца. Мы утверждаем, что фундаментальный пробел в обеих парадигмах заключается в том, что модель никогда не обучается использовать свою собственную ошибку согласованности. Мы представляем FlowBender — замкнутую среду, которая рассматривает эту ошибку как входные данные первого класса, обучая сеть усваивать политику коррекции, обусловленную обратной связью на этапе вывода. На каждом шаге проход предварительного просмотра без направляющей информации оценивает чистый сигнал, через прямой оператор вычисляется отклонение, специфичное для задачи, и проход уточнения потребляет этот сигнал для получения скорректированной скорости. Мы предлагаем несколько вариантов FlowBender, включая формулировку на основе градиента для дифференцируемых операторов и вариант нулевого порядка для недифференцируемых сценариев, таких как сжатие JPEG. Для эффективной выборки мы вводим ярлык предыдущего шага, который позволяет выполнять замкнутую коррекцию с минимальными дополнительными вычислительными затратами. В задачах перевода изображение-в-изображение, восстановления и текстурирования 3D-сеток FlowBender последовательно превосходит стандартные контролируемые базовые модели, обучение с дополнением функции потерь на согласованность и современные методы направляющей информации на этапе вывода, одновременно улучшая точность и правдоподобие, а не жертвуя одним ради другого. Страница проекта: https://flow-bender.github.io/

ImageWAM: Действительно ли мировым моделям действий нужна генерация видео или достаточно только редактирования изображений?
ImageWAM: Do World Action Models Really Need Video Generation, or Just Image Editing?

Jun 17

ByYuyang Zhang, Wenyao Zhang, Zekun Qi, He Zhang, Haitao Lin, Jingbo Zhang, Yao Mu, Xiaokang Yang, Wenjun Zeng, Xin Jin

Модели мировых действий (WAMs) обычно опираются на генерацию видео для связывания визуального моделирования мира и управления роботами. Однако видеогенеративные WAM сталкиваются с тремя взаимосвязанными ограничениями: плотные многофреймовые токены будущего приводят к высоким вычислительным затратам при выводе, полное предсказание видео тратит ресурсы на нерелевантные для действия временные и внешние детали, а долгосрочное предвидение будущего может вносить ошибки, искажающие предсказание действий. Эти проблемы ставят простой вопрос: действительно ли модели мировых действий нуждаются в генерации видео? Мы предлагаем ImageWAM — простую структуру WAM, которая адаптирует предобученные модели редактирования изображений для предсказания действий робота. В отличие от генерации видео, редактирование изображений предоставляет лучше согласованный априорный контекст: оно требует моделирования только преобразования целевого кадра, фокусируется на релевантных для действия визуальных различиях между текущим и целевым состояниями и привязывает инструкции задачи к локализованным визуальным изменениям благодаря предварительному обучению редактированию. На практике ImageWAM не декодирует целевой кадр во время вывода; вместо этого она передаёт условия для эксперта действий с потоковым согласованием через KV-кэши, полученные при шумоподавлении в процессе редактирования изображений, используя их как компактный контекст «мир–действие». ImageWAM превосходит стандартные базовые модели VLA и сопоставимые конкурентные WAM без дополнительного предварительного обучения политик как в симуляционных, так и в реальных экспериментах. Она также сокращает количество FLOPs до 1/6, а задержку — до 1/4 от показателей видеогенеративных WAM. Анализ внимания дополнительно показывает, что кэши редактирования фокусируются на релевантных задаче областях изменений, что подтверждает эффективность редактирования изображений как альтернативы моделированию мировых действий на основе видео.

DF3DV-1K: Крупномасштабный набор данных и эталон для синтеза новых видов без отвлекающих объектов
DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

Jun 18

ByCheng-You Lu, Yi-Shan Hung, Wei-Ling Chi, Hao-Ping Wang, Charlie Li-Ting Tsai, Yu-Cheng Chang, Yu-Lun Liu, Thomas Do, Chin-Teng Lin

Достижения в области полей излучения позволили реализовать фотореалистичный синтез новых ракурсов. В ряде областей были разработаны крупномасштабные наборы данных на основе реальных сцен, поддерживающие комплексное эталонное тестирование и способствующие прогрессу за рамки реконструкции, специфичной для конкретной сцены. Однако для полей излучения без помех до сих пор отсутствует крупномасштабный набор данных, содержащий как чистые, так и загроможденные изображения для каждой сцены, что ограничивает развитие этого направления. Для устранения этого пробела мы представляем DF3DV-1K — крупномасштабный набор реальных данных, включающий 1 048 сцен, каждая из которых предоставляет наборы чистых и загроможденных изображений для эталонного тестирования. В общей сложности набор данных содержит 89 924 изображения, полученные с помощью бытовых камер для имитации любительской съёмки, и охватывает 128 типов помех и 161 тематику сцен в условиях помещений и на открытом воздухе. Подмножество из 41 тщательно отобранной сцены, DF3DV-41, систематически спроектировано для оценки устойчивости методов построения полей излучения без помех в сложных сценариях. Используя DF3DV-1K, мы проводим эталонное тестирование девяти современных методов построения полей излучения без помех и метода 3D Gaussian Splatting, выявляя наиболее устойчивые методы и наиболее сложные сценарии. Помимо эталонного тестирования, мы демонстрируем применение DF3DV-1K: тонкая настройка диффузионного 2D-улучшателя для совершенствования методов полей излучения позволяет добиться среднего улучшения PSNR на 0,96 дБ и LPIPS на 0,057 на отложенном наборе (например, DF3DV-41) и наборе On-the-go. Мы надеемся, что DF3DV-1K будет способствовать развитию компьютерного зрения без помех и стимулировать прогресс за рамки подходов, специфичных для отдельных сцен. Набор данных и таблица лидеров доступны по адресу https://johnnylu305.github.io/df3dv1k_web/.

ENPIRE: Агентное самоусовершенствование политик роботов в реальном мире
ENPIRE: Agentic Robot Policy Self-Improvement in the Real World

Jun 18

ByWenli Xiao, Jia Xie, Tonghe Zhang, Haotian Lin, Letian "Max" Fu, Haoru Xue, Jalen Lu, Yi Yang, Cunxi Dai, Zi Wang, Jimmy Wu, Guanzhi Wang, S. Shankar Sastry, Ken Goldberg, Linxi "Jim" Fan, Yuke Zhu, Guanya Shi

Достижение ловкого роботизированного манипулирования в реальном мире в значительной степени зависит от человеческого контроля и инженерной разработки алгоритмов, что становится ключевым узким местом на пути к общему физическому интеллекту. Хотя появляющиеся программные агенты (coding agents) способны генерировать код для автоматизации поиска алгоритмов, их успехи в основном ограничены цифровыми средами. Мы предполагаем, что отсутствующей абстракцией для автоматизации робототехнических исследований является повторяемая обратная связь для улучшения политики в реальном мире: сброс сцены, выполнение политики, верификация результата и уточнение следующей итерации. Для преодоления этого разрыва мы представляем ENPIRE — каркасную среду (harness framework) для программных агентов, которая реализует эту процедуру физической обратной связи с помощью четырех основных модулей: модуля среды (Environment, EN) для автоматического сброса и верификации; модуля улучшения политики (Policy Improvement, PI), запускающего уточнение политики; модуля развертывания (Rollout, R) для оценки политик с помощью одного или нескольких физических роботов, работающих параллельно; и модуля эволюции (Evolution, E), в котором программные агенты анализируют журналы, изучают литературу, улучшают инфраструктуру обучения и код алгоритмов для устранения режимов отказов. Эта замкнутая система превращает обучение манипулированию в реальном мире в контролируемую процедуру оптимизации, минимизируя усилия человека и позволяя проводить корректные абляции по вариантам рецептов обучения и агентов. Работая на базе ENPIRE, передовые программные агенты могут автономно обучить политику достижения 99% успеха на сложных задачах ловкого манипулирования, таких как упорядочивание коробки с булавками, затягивание кабельной стяжки и использование инструментов — процесс, который дополнительно ускоряется при развертывании команды агентов на флоте роботов. Наши результаты указывают на практичный и масштабируемый путь внедрения программных агентов для автономного продвижения робототехники в физическом мире.

Современные мировые модели не имеют устойчивого ядра состояния
Current World Models Lack a Persistent State Core

Jun 18

ByJinpeng Lu, Dexu Zhu, Haoyuan Shi, Linghan Cai, Guo Tang, Yinda Chen, Jie Cao, Duyu Tang, Yi Zhang, Yong Dai, Xiaozhu Ju

Модели мира всё чаще рассматриваются как решающий шаг на пути к общему искусственному интеллекту, однако моделирование физического мира требует не просто генерации убедительных кадров по запросу: для этого необходимо внутреннее состояние мира, которое непрерывно развивается во времени, независимо от наблюдения, чтобы объекты сохраняли устойчивость, а события завершались независимо от того, смотрит ли камера, — подобно тому, как Луна продолжает своё движение по орбите, когда на неё никто не смотрит. Это требование остаётся слепой зоной существующих бенчмарков, которые оценивают поверхностные свойства, такие как точность, движение и управляемость камеры, но никогда не проверяют, продолжает ли сгенерированный мир развиваться, когда он перестаёт наблюдаться. Мы представляем WRBench — первый систематический диагностический бенчмарк, который трактует движение камеры как вмешательство в наблюдаемость и разбивает оценку на калиброванную человеком цепочку вопросов: выполняет ли камера запрошенное взаимодействие, остаётся ли сцена непрерывной и идентифицируемой, пока находится в поле зрения, и соответствует ли возвращающийся целевой объект событию, которое было запущено. На 9600 видеороликах от 23 моделей, охватывающих четыре парадигмы управления, один вывод оказывается незыблемым: современные системы поддерживают наблюдаемый мир как трекинг-шот, возобновляя возвращающийся целевой объект в том состоянии, в котором он был оставлен, а не продвигая событие, пока оно оставалось невидимым. Поскольку эта неудача повторяется во всех парадигмах управления, семействах моделей и масштабах, надёжная эволюция состояния мира не следует из более чистого изображения, более точного управления, более богатых геометрических априорных представлений или одного лишь количества параметров. Поэтому мы утверждаем, что стабильность ядра физического состояния и согласованность мировых линий при вмешательстве точки обзора должны стать целями первого порядка при разработке модели мира, чтобы модель мира отражала то, как мир будет разворачиваться, а не то, как выглядит следующий кадр.

FAPO: Полностью автономная оптимизация промптов многошаговых LLM-пайплайнов
FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines

Jun 17

ByPaul Kassianik, Baturay Saglam, Huaibo Zhao, Blaine Nelson, Supriti Vijay, Aman Priyanshu, Amin Karbasi

Многоэтапные LLM-пайплайны выходят из строя из-за взаимодействия между этапами извлечения, рассуждения и форматирования, поэтому оптимизация только промптов может не заметить узких мест в цепочке. Мы представляем FAPO (Fully Autonomous Prompt Optimization) — фреймворк, позволяющий Claude Code оптимизировать LLM-пайплайн в стандартизированной кодовой базе. FAPO оценивает пайплайн, проверяет промежуточные шаги, диагностирует сбои, предлагает ограниченные изменения и многократно проверяет варианты для оптимизации относительно функции оценки. Сначала он пытается редактировать промпты и только когда оптимизация промптов кажется недостаточной, изменяет структуру цепочки в разрешенных пределах, если атрибуция выявляет структурное узкое место. На шести тестовых наборах и трех моделях задач FAPO превосходит базовый GEPA в 15 из 18 сравнений модель-тест. В 11 сравнениях модель-тест FAPO побеждает с непересекающимися диапазонами среднего ± стандартное отклонение по испытаниям, а средний прирост FAPO над GEPA составляет +14,1 п.п. В шести сравнениях на HoVer и IFBench, где поиск с приоритетом промптов перешел к структурным изменениям, FAPO выигрывает все шесть со средним приростом +33,8 п.п. FAPO также улучшает производительность на задачах безопасности: на CTIBench-RCM, задаче сопоставления CVE с CWE в области безопасности, FAPO только с промптами повышает точность теста на +4,0 п.п. на GPT-5, +7,1 п.п. на Foundation-Sec-8B-Instruct и +2,0 п.п. на Foundation-Sec-8B-Reasoning. Эти результаты позиционируют FAPO как передовую технику оптимизации пайплайнов как для задач общего назначения, так и для задач безопасности.

Контекстно-зависимое обучение с подкреплением для агентных и мультимодальных больших языковых моделей
Context-Aware RL for Agentic and Multimodal LLMs

Jun 15

ByPeiyang Xu, Bangzheng Li, Sijia Liu, Karthik R. Narasimhan, Pramod Viswanath, Prateek Mittal, Xingyu Fu

Большие языковые модели (LLMs) часто дают сбой, когда ответ требует выявления небольшого, но решающего фрагмента доказательств в длинном или сложном контексте, например, одной строки в трассировке инструментов или тонкой детали на изображении. Мы предлагаем ContextRL — контекстно-зависимый метод обучения с подкреплением (RL), который улучшает долгосрочное рассуждение и мультимодальную производительность с помощью косвенной вспомогательной цели. Вместо контроля только финального ответа, ContextRL предъявляет модели запрос, ответ и два очень похожих контекста, а затем вознаграждает её за выбор контекста, который подтверждает пару «запрос–ответ», тем самым стимулируя точное обоснование. Мы формируем контрастные контекстные данные в двух областях: для программных агентов в качестве контекстов выступают траектории, что даёт 1 тыс. пар, построенных с помощью фильтрации по условиям; для мультимодального рассуждения в качестве контекстов выступают изображения, что даёт 7 тыс. пар, построенных с помощью генеративного редактирования и поиска по сходству. ContextRL достигает среднего прироста +2.2% по сравнению со стандартным GRPO на 5 долгосрочных бенчмарках и +1.8% на 12 разнообразных бенчмарках вопросно-ответных задач по изображениям. Чтобы отделить влияние предложенной цели от влияния дополнительных данных, мы сравниваем её с базовыми линиями увеличения данных, которые используют те же контрастные контексты в качестве стандартных примеров «запрос–контекст–ответ». Эти базовые линии дают незначительное улучшение или не дают его вовсе, что свидетельствует о том, что выигрыш возникает благодаря предложенной цели выбора контекста, а не только за счёт контрастных данных.

Изучение поведения информационного поиска с учётом окружающей среды
Understanding the Behaviors of Environment-aware Information Retrieval

Jun 15

ByRuifeng Yuan, Chaohao Yuan, David Dai, Yu Rong, Hong Cheng, Hou Pong Chan, Chenghao Xiao

Недавние подходы на основе генерации с дополнением результатов поиска (RAG) продемонстрировали высокую эффективность при обработке сложных запросов, однако современные исследования упускают из виду критическую проблему: для достижения оптимальной производительности различные системы поиска требуют принципиально разных стратегий формулирования запросов. В данной работе мы впервые проводим систематический анализ того, как большие языковые модели (LLM) могут научиться адаптировать свои стратегии формулирования запросов под различные поисковые системы с помощью обучения с подкреплением (RL). Наше эмпирическое исследование показывает, что RL эффективно обучает LLM подстраивать запросы под конкретные характеристики поисковых систем. Мы обнаружили, что разные поисковые системы демонстрируют удивительно разные оптимальные стили запросов (например, описательные в сравнении с вопросительными), что указывает на неэффективность стратегий, разработанных для одной системы, при применении к другой. Далее мы демонстрируем, что производительность может быть улучшена за счет включения специфичных для поисковых систем рекомендаций от человека и увеличения размера модели. Для облегчения обучения на траекториях с несколькими шагами поиска мы вводим технику развертки на основе ветвления, которая повышает стабильность обучения. Наша работа представляет первые эмпирические доказательства и практически применимые идеи для построения действительно осведомленных о поисковых системах RAG-систем. Код и ресурсы доступны по адресу https://github.com/LCO-Embedding/Envs-aware-Information-Retrieval.

Мышление с визуальной привязкой
Thinking with Visual Grounding

Jun 15

ByJunkai Zhang, Yihe Deng, Kai-Wei Chang, Wei Wang

Визуальное мышление должно не только выглядеть правдоподобно, но и предъявлять свои доказательства. Хотя современные модели зрения-языка (VLM) способны генерировать цепочки рассуждений на естественном языке, эти цепочки часто оставляют опорные области изображения неявными, что затрудняет их проверку и контроль. Мы вводим визуально обоснованное мышление — процесс рассуждения, в котором модели чередуют мысли на естественном языке с явными точечными или прямоугольными привязками к визуальным свидетельствам, используемым на каждом шаге. Это позволяет модели выражать промежуточные рассуждения на языке, одновременно привязывая ключевые объекты к тем областям изображения, на которые они ссылаются. Для обучения такого поведения мы создаем масштабируемый конвейер синтеза, который дистиллирует корректные трассы визуальных рассуждений, извлекает требуемые в трассах визуальные объекты, привязывает их с помощью агента на основе SAM3 и выводит согласованные точечные и прямоугольные сигналы обучения из полученных масок. Кроме того, мы предлагаем усиленное обучение с учетом привязки, которое объединяет награды за правильность ответов с плотными наградами за привязку, оценивающими, соответствуют ли сгенерированные ссылки на объекты правильным визуальным свидетельствам. На двух бенчмарках подсчета и четырех бенчмарках пространственных рассуждений добавление визуально обоснованного мышления к модели Gemma3-4B-IT последовательно улучшает производительность по сравнению с исходной моделью и базовой линией без обоснованного мышления. В пространственных рассуждениях модели с визуально обоснованным мышлением на 4B параметров достигают, а в некоторых случаях и превосходят, модель Gemma3-27B-IT из того же семейства моделей. Наш анализ показывает, что точечная привязка хорошо подходит для подсчета, в то время как прямоугольная привязка получает наибольшую выгоду от явных наград за привязку в пространственных задачах. В целом, наши результаты показывают, что VLM мыслят лучше, когда их промежуточные мысли связаны с теми областями изображения, которые делают их истинными.

LedgerAgent: Структурированное состояние для агентов, вызывающих инструменты с соблюдением политик
LedgerAgent: Structured State for Policy-Adherent Tool-Calling Agents

Jun 18

ByMd Nayem Uddin, Amir Saeidi, Eduardo Blanco, Chitta Baral

Агенты, вызывающие инструменты с соблюдением политик в сферах обслуживания клиентов, должны поддерживать состояния задач на протяжении нескольких циклов взаимодействия, одновременно вызывая инструменты и следуя политикам домена. Состояния задач включают релевантные факты, идентификаторы, ограничения и условия, наблюдаемые в ходе взаимодействия с пользователем и вызовов инструментов. В стандартных агентах состояния задач не представлены отдельно. Наблюдения, результаты работы инструментов и инструкции политик помещаются в подсказку, оставляя агентам необходимость каждый раз заново восстанавливать релевантные состояния при принятии решения о следующем действии. Такая конструкция делает управление состояниями неявным, порождая два распространённых типа сбоев. Агент может извлечь верные факты, но затем обосновать своё решение устаревшей, отсутствующей или неверной информацией; синтаксически корректный вызов инструмента может нарушить политику домена, зависящую от текущего состояния задачи. Мы представляем LedgerAgent — метод времени вывода для агентов, вызывающих инструменты, который поддерживает наблюдаемые состояния задач в отдельном реестре и отображает эти состояния в подсказку. Реестр также используется для проверки зависящих от состояния ограничений политик перед выполнением вызовов инструментов, изменяющих окружение, блокируя нарушения политик. На четырёх доменах обслуживания клиентов и смешанной панели моделей с открытым и закрытым весом LedgerAgent улучшает средний показатель passk по сравнению со стандартным подходом вызова инструментов на основе подсказок, причём наибольший прирост наблюдается при более строгих метриках согласованности по нескольким попыткам.

HumanScale: эгоцентрическое видео человека может превзойти данные реальных роботов для предварительного обучения воплощенных агентов
HumanScale: Egocentric Human Video Can Outperform Real-Robot Data for Embodied Pretraining

Jun 18

ByJuncheng Ma, Jianxin Bi, Yufan Deng, Xuanran Zhai, Kewei Zhang, Ye Huang, Bo Liang, Shukai Gong, Jiankai Tu, Xiaotian Tang, Jiaxin Li, Kaiqi Chen, Duomin Wang, Yuqi Wang, Bingyi Kang, Eric Huang, Zhiyang Dou, Zhen Dong, Enze Xie, Wojciech Matusik, Tat-Seng Chua, Daquan Zhou

Ожидается, что воплощенные фундаментальные модели выиграют от масштабирования данных, как и большие языковые модели, но сталкиваются с гораздо более жестким узким местом данных. Траектории реальных роботов, управляемых телеоператором, остаются доминирующим источником предварительного обучения благодаря точному контролю действий и согласованию с воплощением, однако их масштабируемость ограничена высокой стоимостью сбора, сложностью получения и низким разнообразием поведения и окружающей среды. Эти ограничения вызвали интерес к эгоцентрическим видеозаписям человека как масштабируемой, значительно более дешевой и более разнообразной альтернативе для предварительного обучения воплощенных моделей. Однако его эффективность по сравнению с данными реальных роботов, управляемых телеоператором, остается недостаточно изученной. Чтобы ответить на этот вопрос, мы проводим систематическое исследование, сравнивающее эгоцентрические видеозаписи человека и траектории реальных роботов, управляемых телеоператором, в качестве источников данных для предварительного обучения воплощенных фундаментальных моделей, при фиксированных протоколах посттренировки и валидации. Удивительно, но мы обнаруживаем, что эгоцентрические данные, обработанные с помощью тщательно разработанного конвейера фильтрации и маркировки, являются не просто жизнеспособной заменой для предварительного обучения моделей, но могут привести к превосходной производительности. При одинаковом объеме данных для предварительного обучения модели, обученные на эгоцентрических данных, достигают на 24% меньших потерь при валидации при прогнозировании действий реального робота, а также на 52,5% и 90% более высоких показателей успеха при выполнении задач реальным роботом в распределении и вне распределения соответственно. Этот результат подтверждает масштабируемую парадигму для воплощенных фундаментальных моделей: предварительное обучение на эгоцентрических видеозаписях человека для изучения разнообразных представлений мира, затем адаптация с небольшим количеством размеченных данных реальных роботов для согласования пространства действий. Мы надеемся, что это исследование поощрит более широкое изучение эгоцентрических данных и предложит руководство по оценке качества данных перед дорогостоящим сбором данных роботов.

Holo-World: унифицированное управление камерой, объектами и погодой для модели видеомира
Holo-World: Unified Camera, Object and Weather Control for Video World Model

Jun 18

ByXiangchen Yin, Wenzhang Sun, Jiahui Yuan, Zijie Liu, Yinda Chen, Wei Li, Dachun Kai, Chunfeng Wang, Xiaoyan Sun

Модели мира видео движутся в сторону сохранения наблюдаемого мира при управляемом движении камеры и объектов, одновременно допуская изменение его состояния окружающей среды. Однако эти средства управления остаются изолированными, и генерация погоды обычно опирается на исходное видео или реконструированную сцену, которая уже задает будущую структуру. Мы изучаем настройку «источник-состояние» с привязкой к первому кадру, где модель начинает работу с одного изображения, следует явным командам управления камерой и объектами, а также опциональным указанием погоды, после чего генерирует видео, которое либо сохраняет исходный мир, либо переносит его в целевое состояние погоды. Для решения этих задач мы сначала создаем HoloStateData — набор видеоданных состояний, который преобразует разнообразные видео в унифицированные образцы управления для контроля камеры, объектов и погоды. Во-вторых, мы представляем Holo-World — унифицированную управляемую модель мира видео, которая совместно управляет сценой на основе одного изображения. Ее унифицированный адаптер сцены факторизует сохранение мира и перенос погоды в различные подпространства параметров, используя визуализированный фон, буферы геометрии и управление объектами для поддержания управляемой структуры сцены при моделировании зависящих от погоды внешнего вида и эффектов частиц. Кроме того, разложенный CFG «сцена-погода» направляет остатки сцены и погоды отдельно, усиливая целевые погодные эффекты без чрезмерного усиления полного условия. Количественные и качественные эксперименты показывают, что Holo-World сохраняет точное управление камерой и объектами с согласованной структурой сцены, перенося сцены в различные целевые состояния погоды, превосходя базовые методы редактирования погоды из видео в видео в генерации состояний погоды. Страница проекта доступна по адресу https://xiangchenyin.github.io/Holo-World/.

Освобождение закона с помощью LOCUS: Корпус местных постановлений для Соединенных Штатов
Freeing the Law with LOCUS: A Local Ordinance Corpus for the United States

Jun 17

ByDenis Peskoff, Joe Barrow, Christopher Vu, Diag Davenport

Прогресс в области юридического искусственного интеллекта всё больше зависит от доступа к авторитетным юридическим текстам в масштабе. Однако один из наиболее значимых уровней американского права по-прежнему почти не представлен в существующих машиночитаемых корпусах: местные постановления. Местные кодексы регулируют зонирование, жильё, лицензирование бизнеса, общественное здравоохранение, шум, контроль за животными и многие другие сферы повседневного регулирования, но они раздроблены по платформам поставщиков, предназначенным для просмотра человеком, а не для массового исследовательского доступа. Мы представляем LOCUS — корпус местных постановлений для Соединённых Штатов (Local Ordinance Corpus for the United States) — всеобъемлющий корпус и согласованный на уровне округов слой доступа для муниципальных и окружных кодексов постановлений США. Сырой корпус, доступный для исследователей, охватывает практически все общедоступные муниципальные и окружные кодексы постановлений. Полученный сырой корпус содержит кодексы из 9 239 городов и округов. Меньший согласованный на уровне округов слой доступа LOCUS обеспечивает покрытие для 2 309 из 3 144 крупнейших округов США, что составляет большинство населения. Мы используем OCR для обработки множества форматов документов, которые препятствовали тому, чтобы право стало общедоступным ресурсом. Мы публикуем корпус с метаданными о покрытии для поддержки воспроизводимости, последующих исследований в области юридического ИИ и постепенного расширения машиночитаемого доступа к местному праву. Мы обучаем набор классификаторов и скоринговых моделей на основе ModernBERT для анализа местного права США по нескольким измерениям, таким как непрозрачность и патернализм, которые ранее не изучались в таком масштабе. LOCUS-v1 и его производные модели доступны по адресу: https://huggingface.co/datasets/LocalLaws/LOCUS-v1

FID-лотерея: количественная оценка скрытой случайности при оценке генеративных моделей
The FID Lottery: Quantifying Hidden Randomness in Generative-Model Evaluation

Jun 18

ByNicolas Dufour, Alexei A. Efros, Patrick Pérez

Расстояние Фреше для начальных слоёв (FID) является фактическим критерием оценки качества генерации изображений, однако в большинстве статей приводится лишь одно число, полученное от одной обученной модели при одном значении сида сэмплирования. Насколько воспроизводимо это число, если переобучить модель или просто повторить сэмплирование из неё? В данной работе мы рассматриваем FID как случайную величину на двумерной панели сидов обучения и генерации и непосредственно измеряем её дисперсию на нескольких сотнях сетей SiT, обученных на условном по классам ImageNet 256x256. Мы сообщаем о поразительных результатах: (a) Переобучение модели по тому же рецепту, но с другим сидом, изменяет FID в 3,2 раза сильнее (в пространстве признаков Inception), чем повторная генерация выборок из фиксированной сети. (b) Этот разрыв обусловлен тремя факторами: случайной инициализацией, порядком данных и гауссовым шумом на каждом шаге в функции потерь согласования потоков. (c) Увеличение вычислительных ресурсов или размера модели едва сужает разброс, удерживая коэффициент вариации (КВ) FID в пределах 1–2%. (d) Настройка безклассового направляющего сигнала для каждой ячейки вдвое уменьшает разброс, но перетасовывает, какие сиды работают лучше всего, при этом удачный сид обучения достигает того же FID при вычислительных затратах до двух раз меньших, чем неудачный. На основе этих результатов мы рекомендуем новый протокол оценки FID: проводить оценку при оптимальной для каждой ячейки настройке направляющего сигнала, считать любой разрыв FID ниже эмпирически измеренного ~1,3% КВ неубедительным и сообщать доверительный интервал по нескольким сидам обучения, а не единственное число FID.

Taylor-Calibrate: Принципиальная инициализация для гибридной дистилляции линейного внимания
Taylor-Calibrate: Principled Initialization for Hybrid Linear Attention Distillation

Jun 15

ByZhongzhu Zhou, Qingyang Wu, Junxiong Wang, Mayank Mishra, Shuaiwen Leon Song, Ben Athiwaratkun, Chenfeng Xu

Гибридные модели линейного внимания предлагают многообещающий путь к более быстрому инференсу длинных контекстов: они снижают квадратичную стоимость и нагрузку на KV-кэш полного softmax-внимания, сохраняя при этом значительную часть качества моделей Transformer. Практический способ получения таких моделей заключается в конвертации предобученного Transformer вместо обучения новой архитектуры с нуля, однако такая конвертация остаётся неустойчивой. Простое копирование проекций внимания учителя в студента Gated DeltaNet (GDN) не задаёт новую рекуррентную динамику затухания, записи и выходного стробирования. В результате конвертированная модель часто начинает работу в плохом динамическом режиме и вынуждена тратить множество токенов дистилляции на исправление инициализации вместо изучения оставшегося поведения учителя. Мы предлагаем Taylor-Calibrate — легковесный метод инициализации для гибридных студентов GDN. Метод использует статистику внимания учителя, направляемую разложением Тейлора, для установки проекции значений, временного масштаба памяти, строгов записи и выходного строба, после чего применяет короткий шаг поканального выравнивания для согласования каждого конвертированного слоя с выходом учителя. В четырёх конфигурациях учителя и трёх стратегиях сохранённых слоёв Taylor-Calibrate даёт существенно более сильные нуль-шот студенты, с улучшением до 88 раз в репрезентативной абляции, и достигает целевых показателей восстановления при использовании в 4,9–9,2 раза меньшего количества обучающих токенов по сравнению с наивной конвертацией.

Адаптивные объемные поля механических свойств, инвариантные к разрешению
Adaptive Volumetric Mechanical Property Fields Invariant to Resolution

Jun 16

ByRishit Dagli, Donglai Xiang, Vismay Modi, Xuning Yang, Gavriel State, David I. W. Levin, Maria Shugrina

Точные механические свойства (или материаловедческие) — модуль Юнга (E), коэффициент Пуассона (ν) и плотность (ρ) — являются необходимыми для достоверного физического моделирования цифровых миров, однако большинство 3D-ресурсов не содержат эту информацию. Мы предлагаем AdaVoMP — метод прогнозирования точных плотных пространственно-варьирующихся (E, ν, ρ) для входных 3D-объектов разных представлений, улучшающий разрешение, точность и эффективность использования памяти по сравнению с современным уровнем техники. Основой нашего подхода является разреженная и адаптивная воксельная структура SAV, которая эффективно представляет как входную 3D-форму, так и выходное поле материала. Мы заменяем модель с фиксированным вокселем наиболее точного предшествующего метода VoMP на новую модель кодер-декодер на основе разреженного трансформера, которая авторегрессивно учится генерировать уникальную SAV для каждой входной формы, чтобы представлять её материалы, достигая разрешения в 16^3 раз выше, чем в предшествующих работах. Эксперименты показывают, что AdaVoMP оценивает более точные объёмные свойства даже при меньших вычислительных затратах во время тестирования по сравнению со всеми предшествующими подходами. Это позволяет нам преобразовывать сложные 3D-объекты высокого разрешения в ресурсы, готовые к симуляции, что приводит к реалистичным симуляциям деформируемых тел.

Селективное синергетическое обучение для объектно-центрированного обучения видео
Selective Synergistic Learning for Video Object-Centric Learning

Jun 14

ByWonJun Moon, Jae-Pil Heo

Типичные подходы к видео-объектно-центрированному обучению (VOCL) используют слотовые архитектуры, основанные на реконструктивно-управляемых структурах кодировщик-декодировщик, где обучение опосредуется двумя пространственными картами: картами внимания от кодировщика и картами объектов от декодировщика. Поскольку эти две различные карты обладают разными свойствами, недавняя стратегия плотного выравнивания попыталась устранить это несоответствие, принуждая к согласованию всех пространственно-временных патчей через контрастное обучение. Однако такое неизбирательное выравнивание непреднамеренно распространяет внутренние слабости каждого модуля, такие как зашумленные предсказания кодировщика и размытые границы декодировщика. Более того, вычисление плотных сходств по всем парам влечет квадратичную вычислительную сложность относительно общего числа пространственно-временных патчей, что резко ограничивает масштабируемость. Исходя из этого, мы предлагаем селективное синергетическое обучение (SSync). Вместо исчерпывающего попарного выравнивания патчей SSync предотвращает распространение ошибок, дистиллируя лишь наиболее надежные сигналы: используя кодировщик строго для уточнения границ, а декодировщик — для устранения шума внутри объектов. Это реализуется с помощью псевдо-маркировки с линейной сложностью, что исключает необходимость квадратичных пространственных сравнений. Кроме того, чтобы избежать усиления архитектурных смещений, таких как избыточность слотов, мы вводим транзитивное объединение псевдо-меток, которое консолидирует перекрывающиеся слоты на основе согласованности пространственно-временной активации. Обширные эксперименты показывают, что SSync улучшает качество декомпозиции, работает как универсальный подключаемый модуль, а также демонстрирует исключительную устойчивость к конфигурациям слотов. Код доступен по ссылке github.com/wjun0830/SSync.

Планирование с учетом длительности для обслуживания ASR при дрейфе рабочей нагрузки
Duration Aware Scheduling for ASR Serving Under Workload Drift

Mar 11

ByDarshan Makwana, Yash Jogi, Harsh Kotta, Aayush Kubba

Политики планирования в масштабных конвейерах обслуживания систем автоматического распознавания речи (ASR) играют ключевую роль в определении сквозной задержки (E2E). Тем не менее, широко используемые движки обслуживания полагаются на планирование по принципу «первым пришёл — первым обслужен» (FCFS), которое игнорирует изменчивость длительности запросов и приводит к блокировке головы очереди при дрейфе нагрузки. Мы показываем, что длительность аудио является точным прокси для времени обработки задачи в таких моделях ASR, как Whisper, и используем это наблюдение для внедрения планирования, учитывающего длительность. Мы интегрируем два классических алгоритма — «кратчайшая задача первой» (SJF) и «следующий с наибольшим коэффициентом отклика» (HRRN) — в vLLM и оцениваем их в условиях реалистичных и дрейфующих нагрузок. На наборе данных LibriSpeech test-clean SJF снижает медианную сквозную задержку до 73% при высокой нагрузке по сравнению с базовым вариантом, но увеличивает хвостовую задержку на 90-м процентиле до 97% из-за голодания длинных запросов. HRRN решает эту проблему компромисса: он уменьшает медианную сквозную задержку до 28%, ограничивая ухудшение хвостовой задержки не более чем 24%. Эти преимущества сохраняются при дрейфе нагрузки, без падения пропускной способности и с накладными расходами на планирование менее 0,1 мс на запрос.

LegalHalluLens: типизированный аудит галлюцинаций и калиброванные многоагентные дебаты для надежного юридического ИИ
LegalHalluLens: Typed Hallucination Auditing and Calibrated Multi-Agent Debate for Trustworthy Legal AI

Jun 16

ByLalit Yadav, Akshaj Gurugubelli

Системы ИИ, развернутые в юридических рабочих процессах, галлюцинируют с частотой, которую агрегированные метрики оценивают примерно в 52%, но это среднее значение скрывает, где концентрируются ошибки и в каком направлении они возникают, оставляя сотрудников по комплаенсу без действенного сигнала для надежного развертывания. Мы представляем LegalHalluLens — фреймворк аудита с тремя компонентами: типизированные профили галлюцинаций по четырем юридически обоснованным категориям утверждений (числовые, временные, обязательства/права, фактические) на основе CUAD (Hendrycks et al., 2021); Индекс направления риска (RDI), сводящий смещение между пропуском и изобретением к одному скаляру, сопоставимому при развертывании; и типизированный дебатный пайплайн, откалиброванный как по величинам, так и по направлениям. На 510 контрактах и 249 252 экземплярах уровня пунктов мы измерили внутримодельный разрыв приблизительно в 38–40 процентных пунктов между утверждениями об обязательствах/числах и временными утверждениями, который скрывает агрегированная отчетность, и показали, что две системы с одинаковым показателем в 52% могут иметь противоположные RDI. Дебатный пайплайн сокращает сфабрикованные обнаружения на 45%, при этом выигрыш по каждой категории отслеживает диагноз, соответствуя коммерческим API при существенно меньшей магистрали (4 млрд активных параметров). Типизированные профили и RDI выявляют режимы отказов, которые скрывают агрегированные метрики; мы также показываем, что эти диагностические данные служат калибровочными входами для многомодельных дебатных пайплайнов, где скептические возражения и асимметричные шлюзы, нацеленные на измеренные режимы отказов, превосходят дебаты с общей настройкой. Фреймворк поддерживает закупки с учетом направления, подотчетность и разработку агентов для юридического ИИ, развернутого в реальных условиях.

Переосмысление смещения сжатия в FP4-предобучении больших языковых моделей: геометрическое происхождение, системное влияние и рецепт UFP4
Rethinking Shrinkage Bias in LLM FP4 Pretraining: Geometric Origin, Systemic Impact, and UFP4 Recipe

Jun 18

ByQian Zhao, Kunlong Chen, Changxin Tian, Zhonghui Jiang, Haitao Zhang, Chaofan Yu, Peijie Jiang, Mingliang Gong, Jia Liu, Ziqi Liu, Zhiqiang Zhang, Jun Zhou

Обучение с использованием FP4 обещает существенное снижение затрат памяти и вычислений при предварительном обучении больших языковых моделей (LLM), однако текущие аппаратные тракты и рецепты FP4, включая системы класса NVIDIA Blackwell/Rubin и графические процессоры серии AMD MI350, по-прежнему ориентированы на элементы данных формата E2M1. В данном исследовании мы выявляем фундаментальное ограничение этого выбора: неоднородные форматы, такие как E2M1, по своей сути страдают от смещения сжатия (Shrinkage Bias) — систематической отрицательной ошибки округления, вызванной геометрической асимметрией их представимых сегментов. Мы показываем, что это смещение накапливается мультипликативно по слоям и усиливается случайным преобразованием Адамара (RHT), что дает единое объяснение нестабильности обучения, наблюдаемой в существующих рецептах FP4 на основе E2M1. Напротив, равномерные сетки (E1M2/INT4) обходят эту ошибку геометрии сетки и лучше преобразуют улучшенное использование сегментов, обеспечиваемое RHT, в более высокое качество квантования. Основываясь на этом открытии, мы предлагаем UFP4 — рецепт равномерного 4-битного обучения, который применяет RHT ко всем трем обучающим GEMM, ограничивая стохастическое округление только градиентом dY. При длительном предварительном обучении моделей Dense 1.5B, MoE 7.9B и MoE 124B UFP4 стабильно достигает меньшего относительного ухудшения потерь по сравнению с BF16, чем сильные базовые подходы на основе E2M1, что подтверждается анализом законов масштабирования и абляционными исследованиями. Наши результаты показывают, что будущие ускорители должны поддерживать равномерные 4-битные сетки типа E1M2/INT4 в качестве первоклассных примитивов обучения наряду с E2M1.

LooseControlVideo: Режиссерский контроль видео с использованием пространственного блокирования
LooseControlVideo: Directorial Video Control using Spatial Blocking

Jun 17

ByShariq Farooq Bhat, Niloy J. Mitra, Kalyan Sunkavalli

Точная трехмерная пространственная организация в генерации видео по текстовому описанию остается значительной проблемой, особенно для сцен с несколькими объектами, где семантическая компоновка и временная динамика часто взаимосвязаны. В то время как существующие модели, работающие с условиями глубины, достигают хорошей структурной точности, они требуют плотного, покадрового руководства, которое трудоемко в создании для динамических событий с деформируемыми объектами. Мы представляем LooseControlVideo — фреймворк, обеспечивающий интуитивное и выразительное управление путем использования разреженных ориентированных 3D-боксов в качестве «блокирующего» прокси. Это позволяет пользователям задавать высокоуровневую компоновку и траекторию, в то время как генеративная модель видео создает реалистичные окклюзии, динамику и взаимодействия. Мы достигаем этого путем тонкой настройки бэкбона Wan 2.2 на наборе видеоданных, аннотированных с помощью DNOCS — нового кодирования для трехмерного размера, ориентации и окклюзий с глубинной упорядоченностью. Кроме того, наш метод позволяет выполнять локализованное уточнение, например, корректировку траектории прыжка или добавление взаимодействия, с минимальным нарушением общего контекста сцены. Обширные оценки на бенчмарках nuScenes, HO-3D и BEHAVE демонстрируют, что LooseControlVideo значительно превосходит существующие базовые модели, использующие 2D-боксы и потоковые методы. Наши результаты показывают улучшение в 1.2–3 раза по ошибке траектории; улучшение в 2 раза по согласованности жесткого движения; и увеличение точности окклюзий в 1.5–2 раза по сравнению с современными моделями, работающими с условиями компоновки, что демонстрирует, что ориентированные 3D-примитивы обеспечивают хорошую геометрическую предварительную информацию для сложного многодетального видеосоздания.

JAMER: Набор данных и бенчмарк фреймворка кода на уровне проекта для профессиональных игровых движков
JAMER: Project-Level Code Framework Dataset and Benchmark on Professional Game Engines

Jun 18

ByJianwen Sun, Chuanhao Li, Zizhen Li, Yukang Feng, Fanrui Zhang, Yifei Huang, Yu Dai, Kaipeng Zhang

Современная разработка игр с использованием искусственного интеллекта достигла значительного прогресса в генерации ассетов, проектировании геймплея и кодировании веб-игр, однако инженерия кода на уровне проектов в профессиональных игровых движках остаётся малоизученной из-за отсутствия крупномасштабных наборов данных и детерминированных методов оценки. Мы представляем JamSet и JamBench — первый набор данных и эталонный тест для игрового кода на уровне проектов, построенные на базе профессионального игрового движка. Ключевая идея заключается в том, что соревнования Game Jam — сообщественные мероприятия, где разработчики создают полноценные игры в условиях жёстких временных ограничений — предоставляют тысячи открытых проектов, подходящих для этой цели. Используя текстовый формат и режим безголового выполнения движка Godot, мы разрабатываем детерминированный конвейер верификации, охватывающий этапы от проверки целостности файлов до сбора поведения во время выполнения, и выделяем 8 133 верифицированных проекта из более чем 240 000 репозиториев. Из них 300 проектов, прошедших ручную верификацию, образуют JamBench; остальные входят в состав JamSet. JamBench определяет задачи тематической генерации и дополнения кода, оцениваемые с помощью конвейера, объединяющего процент успешной компиляции, оценку структурной полноты (SCS) и оценку поведенческого соответствия (BAS). Оценка 9 передовых моделей выявила «обрыв возможностей» по мере увеличения масштаба проекта: показатель успешного выполнения снизился с 80,4% для малых проектов до 5,7% для крупных (Task2a). Кодовые агенты улучшают показатели компиляции, но не повышают качество поведения во время выполнения, что указывает на то, что узким местом является архитектурное проектирование, а не синтаксическая корректность. Эксперименты подтверждают эффективность JamSet в качестве обучающих данных. Все данные и код находятся в открытом доступе.

Настраиваемое извлечение клинической информации с помощью агентного RAG: что работает, что ломается и почему
Configurable Clinical Information Extraction with Agentic RAG: What Works, What Breaks, and Why

Jun 17

ByOsman Alperen Çinar-Koraş, Marie Bauer, Sameh Khattab, Merlin Engelke, Moon Kim, Stephan Settelmeier, Shigeyasu Sugawara, Fabian Freisleben, Felix Nensa, Jens Kleesiek

Контексты пациентов охватывают сотни разнородных документов и тысячи структурированных точек данных, однако метаданные на уровне документов, необходимые системам ИИ для поиска и сортировки, отсутствуют или являются неполными. Стандартная генерация с расширенным поиском (RAG) не справляется с этими данными, неправильно обрабатывая временные рассуждения, междокументные зависимости и отсутствующие метаданные. Мы развёртываем ACIE (Агентное клиническое извлечение информации) в Университетской клинике Эссена: локальный агентный конвейер RAG, который анализирует полные контексты пациентов и подкрепляет каждый ответ исходными фрагментами для проверки врачом. Мы количественно оцениваем разрыв в метаданных, прослеживаем архитектурные решения, сформированные этим разрывом, и оцениваем извлечение данных наряду с независимым ретроспективным исследованием регистра лимфомы, в котором врачи ядерной медицины проверяют каждое извлечённое значение на соответствие указанным источникам. На 7 326 оценках врачи приняли 96,5% извлечений, причём приемлемость по типам варьировалась от 80% до 99%.

Многообразие данных под микроскопом
The Data Manifold under the Microscope

Jun 14

ByMarios Koulakis, Constantin Seibold

Существует значительный разрыв между теорией и практикой в глубоком обучении. Границы ошибок обобщения и аппроксимации часто выводятся для упрощенных моделей или оказываются слишком свободными, чтобы быть информативными. Многие опираются на гипотезу многообразия и на геометрические характеристики, такие как внутренняя размерность, кривизна и радиус достижимости. Прогресс требует понимания геометрии многообразий данных и подходящих эталонных тестов, однако существующие варианты поляризованы: аналитические многообразия с известной геометрией, но ограниченной применимостью, или реальные наборы данных, где геометрию можно оценить лишь грубо. Мы представляем эталонную платформу для изучения геометрии данных. Мы перепрофилируем и расширяем dSprites и COIL-20, добавляя новые оси преобразований и плотную, выровненную по осям выборку, и объединяем их с конечно-разностными оценщиками, которые восстанавливают кривизну, радиус достижимости и объем с точностью, близкой к эталонной, в условиях, где универсальные оценщики ненадежны или сложны в применении. Эта платформа задумана как контролируемый испытательный стенд, полезный как среда калибровки для геометрических оценщиков и «песочница» для проверки теоретических предположений. Для иллюстрации ее использования мы представляем два прикладных исследования, а именно оценку поведения границ Геновезе и соавт. и Фефермана и соавт. при масштабировании, а также отслеживание послойной геометрии β-VAE, подчеркивая поведение текущих границ и ценность контролируемых эталонов для направления и проверки будущей теории. Справочная реализация доступна по адресу https://github.com/koulakis/manifold-microscope.

ReSyn: Обобщенный фреймворк рекурсивного синтеза регулярных выражений
ReSyn: A Generalized Recursive Regular Expression Synthesis Framework

Jun 13

BySeongmin Kim, Hyunjoon Cheon, Su-Hyeon Kim, Yo-Sub Han, Sang-Ki Ko

Существующие системы программирования по примерам (PBE) часто полагаются на упрощённые эталоны, которые не отражают высокую структурную сложность реальных регулярных выражений, такую как более глубокая вложенность и частое использование операций объединения. Для преодоления связанного с этим снижения производительности мы предлагаем ReSyn — не зависящую от конкретного синтезатора структуру «разделяй и властвуй», которая разбивает сложную задачу синтеза на управляемые подзадачи. Мы также представляем Set2Regex — эффективный по числу параметров синтезатор, учитывающий инвариантность примеров к перестановкам. Результаты экспериментов показывают, что ReSyn значительно повышает точность различных синтезаторов, а его комбинация с Set2Regex устанавливает новый современный уровень на сложном реальном эталоне. Полный исходный код, наборы данных и предобученные контрольные точки моделей доступны по адресу https://github.com/mrseongminkim/ReSyn.

Нет ресурсов, нет бенчмарков, нет проблем? Оценка и улучшение LLM для генерации кода на языках без ресурсов
No Resource, No Benchmarks, No Problem? Evaluating and Improving LLMs for Code Generation in No-Resource Languages

Jun 15

ByAlessandro Giagnorio, Alberto Martin-Lopez, Gabriele Bavota

Большие языковые модели (БЯМ) значительно продвинули автоматизацию задач программной инженерии. Одним из ярких примеров является генерация кода, где БЯМ создает код на указанном языке программирования на основе описания на естественном языке. Большинство исследований в этой области сосредоточено на высокоресурсных языках, таких как Python или Java, которые выигрывают от обилия обучающих данных. Меньшее число работ посвящено низкоресурсным языкам, которые недостаточно представлены в обучающих корпусах. В противоположность этому, языки с нулевыми ресурсами, для которых БЯМ практически не видели обучающих данных, остаются в значительной степени неизученными. Такие языки часто возникают в промышленности, где организации разрабатывают проприетарные или предметно-ориентированные языки, не поддерживаемые коммерческими инструментами, такими как GitHub Copilot. Это приводит к необходимости для компаний развертывать собственные внутренние рекомендаторы кода. Для изучения возможных решений в этом контексте мы создаем и публикуем три бенчмарка генерации кода для языков с нулевыми ресурсами, основанных на двух недавно предложенных языках программирования, для которых доступно очень мало обучающих данных. Используя эти бенчмарки, мы экспериментируем с несколькими решениями для обучения БЯМ работе с языками с нулевыми ресурсами, включая методы на основе подсказок, а также предобучение и дообучение с использованием доступного небольшого объема данных. Хотя дальнейшее предобучение дает наибольший прирост производительности для языков с нулевыми ресурсами, его непосредственное применение к моделям, настроенным на инструкции, вредит их способности следовать инструкциям. Чтобы решить эту проблему, мы начинаем с базовой модели, дополнительно предобучаем ее на целевом языке, а затем внедряем способность следовать инструкциям через перенос разности весов из инструктивной модели. Такой подход значительно улучшает возможности генерации кода в условиях нулевых ресурсов, позволяя компаниям дешево развертывать специализированную инструктивную модель, не сталкиваясь с вычислительными затратами на дообучение на инструкциях.