HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

35 papers found

Tstars-Tryon 1.0: Надежная и реалистичная виртуальная примерка разнообразных предметов одежды
Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Apr 21

ByMengting Chen, Zhengrui Chen, Yongchao Du, Zuan Gao, Taihang Hu, Jinsong Lan, Chao Lin, Yefeng Shen, Xingjian Wang, Zhao Wang, Zhengtao Wu, Xiaoli Xu, Zhengze Xu, Hao Yan, Mingzhou Zhang, Jun Zheng, Qinye Zhou, Xiaoyong Zhu, Bo Zheng

Последние достижения в области генерации и редактирования изображений открыли новые возможности для виртуальной примерки. Однако существующие методы по-прежнему не справляются со сложными требованиями реального мира. Мы представляем Tstars-Tryon 1.0 — коммерческую систему виртуальной примерки, отличающуюся надежностью, реалистичностью, универсальностью и высокой эффективностью. Во-первых, наша система сохраняет высокий процент успешных операций в сложных случаях, таких как экстремальные позы, значительные изменения освещения, размытие в движении и другие условия неконтролируемой среды. Во-вторых, она обеспечивает высокофотореалистичные результаты с мелкими деталями, точно сохраняя текстуру одежды, свойства материалов и структурные характеристики, при этом практически избегая артефактов, характерных для ИИ-генерации. В-третьих, помимо примерки одежды, наша модель поддерживает гибкую композицию нескольких изображений (до 6 референсов) для 8 категорий товаров с согласованным контролем идентичности человека и фона. В-четвертых, для преодоления проблем задержки при коммерческом развертывании система оптимизирована для скорости вывода, обеспечивая генерацию, близкую к реальному времени, для бесшовного пользовательского опыта. Эти возможности реализованы благодаря комплексному системному дизайну, включающему сквозную архитектуру модели, масштабируемый механизм данных, надежную инфраструктуру и многоэтапную парадигму обучения. Многочисленные оценки и масштабное промышленное внедрение демонстрируют, что Tstars-Tryon 1.0 достигает лидирующих показателей общей производительности. Для поддержки будущих исследований мы также публикуем комплексный бенчмарк. Модель развернута в промышленных масштабах в приложении Taobao, обслуживая миллионы пользователей и десятки миллионов запросов.

CoInteract: Синтез физически согласованных видео взаимодействия человека с объектом посредством пространственно-структурированного совместного генерирования
CoInteract: Physically-Consistent Human-Object Interaction Video Synthesis via Spatially-Structured Co-Generation

Apr 21

ByXiangyang Luo, Xiaozhe Xin, Tao Feng, Xu Guo, Meiguang Jin, Junfeng Ma

Синтез видео с взаимодействием человек-объект (HOI) имеет широкую практическую ценность в электронной коммерции, цифровой рекламе и виртуальном маркетинге. Однако современные диффузионные модели, несмотря на их фотореалистичные возможности рендеринга, часто демонстрируют недостатки в (i) структурной стабильности чувствительных областей, таких как кисти рук и лица, и (ii) физически правдоподобном контакте (например, избегании взаимопроникновения руки и объекта). Мы представляем CoInteract, сквозную архитектуру для синтеза HOI-видео, управляемую эталонным изображением человека, эталонным изображением продукта, текстовыми промптами и речевым аудио. CoInteract включает две взаимодополняющие конструкции, встроенные в основу Diffusion Transformer (DiT). Во-первых, мы предлагаем Human-Aware Mixture-of-Experts (MoE), которая направляет токены к легковесным, специализированным на регионах экспертам с помощью пространственно-контролируемой маршрутизации, улучшая структурную достоверность мелких деталей при минимальных параметрических затратах. Во-вторых, мы предлагаем Spatially-Structured Co-Generation, парадигму обучения с двумя потоками, которая совместно моделирует поток RGB-внешнего вида и вспомогательный поток HOI-структуры для внедрения априорных знаний о геометрии взаимодействия. Во время обучения поток HOI взаимодействует с RGB-токенами, а его обучение регуляризует общие веса основы; на этапе вывода ветвь HOI удаляется для генерации RGB без дополнительных затрат. Результаты экспериментов показывают, что CoInteract значительно превосходит существующие методы по структурной стабильности, логической согласованности и реализму взаимодействия.

AgentSPEX: Язык спецификации и исполнения агентов
AgentSPEX: An Agent SPecification and EXecution Language

Apr 14

ByPengcheng Wang, Jerry Huang, Jiarui Yao, Rui Pan, Peizhi Niu, Yaowenqi Liu, Ruida Wang, Renhao Lu, Yuwei Guo, Tong Zhang

Системы агентов на основе языковых моделей обычно используют реактивное prompting, при котором единая инструкция направляет модель через открытую последовательность шагов рассуждений и использования инструментов. Это оставляет поток управления и промежуточное состояние неявными, что потенциально затрудняет контроль за поведением агента. Оркестровые фреймворки, такие как LangGraph, DSPy и CrewAI, накладывают более жесткую структуру за счет явных определений рабочих процессов, но тесно связывают логику workflow с Python, что затрудняет поддержку и модификацию агентов. В данной статье мы представляем AgentSPEX — язык спецификации и исполнения агентов для определения workflow агентов LLM с явным потоком управления и модульной структурой, а также настраиваемый механизм исполнения агентов. AgentSPEX поддерживает типизированные шаги, ветвление и циклы, параллельное выполнение, переиспользуемые подмодули и явное управление состоянием. Эти workflow выполняются в рамках механизма исполнения, который предоставляет доступ к инструментам, изолированную виртуальную среду, а также поддержку контрольных точек, верификации и логирования. Кроме того, мы предоставляем визуальный редактор с синхронизированными представлениями графа и workflow для создания и инспекции. Мы включаем готовых к использованию агентов для углубленного и научного исследования и оцениваем AgentSPEX на 7 бенчмарках. Наконец, мы показываем в ходе пользовательского исследования, что AgentSPEX предлагает более интерпретируемую и доступную парадигму создания workflow по сравнению с популярным существующим фреймворком для агентов.

AnyRecon: 3D-реконструкция с произвольного ракурса на основе видео-диффузионной модели
AnyRecon: Arbitrary-View 3D Reconstruction with Video Diffusion Model

Apr 21

ByYutian Chen, Shi Guo, Renbiao Jin, Tianshuo Yang, Xin Cai, Yawen Luo, Mingxin Yang, Mulin Yu, Linning Xu, Tianfan Xue

Восстановление трехмерных сцен по разреженным видам играет ключевую роль для моделирования сцен из случайных съемок, но остается сложной задачей для негенеративных методов реконструкции. Существующие подходы на основе диффузионных моделей смягчают эту проблему, синтезируя новые ракурсы, однако они часто используют в качестве условия только один или два кадра съемки, что ограничивает геометрическую согласованность и масштабируемость для больших или разнородных сцен. Мы предлагаем AnyRecon — масштабируемую систему для реконструкции по произвольным и неупорядоченным разреженным данным, которая сохраняет явный геометрический контроль при поддержке гибкой мощности условных данных. Для обеспечения дальнодействующего кондиционирования наш метод создает устойчивую глобальную память сцены с помощью кэша предварительно загруженных ракурсов и устраняет временное сжатие для сохранения покомпонентного соответствия при значительных изменениях точки обзора. Помимо улучшения генеративной модели, мы также выявили, что взаимодействие между генерацией и реконструкцией критически важно для крупномасштабных 3D-сцен. Поэтому мы представляем стратегию геометрически осознанного кондиционирования, которая связывает генерацию и реконструкцию через явную 3D-геометрическую память и геометрически управляемое извлечение референсных ракурсов. Для обеспечения эффективности мы комбинируем 4-шаговую дистилляцию диффузии с разреженной внимательностью в пределах контекстного окна, чтобы снизить квадратичную сложность. Многочисленные эксперименты демонстрируют надежную и масштабируемую реконструкцию для нерегулярных входных данных, больших разрывов в ракурсах и протяженных траекторий.

TEMPO: Масштабирование обучения во время тестирования для больших моделей рассуждений
TEMPO: Scaling Test-time Training for Large Reasoning Models

Apr 21

ByQingyang Zhang, Xinke Kong, Haitao Wu, Qinghua Hu, Minghao Wu, Baosong Yang, Yu Cheng, Yun Luo, Ganqu Cui, Changqing Zhang

Метод обучения во время тестирования (TTT) адаптирует параметры модели на немаркированных тестовых примерах в процессе вывода, непрерывно расширяя возможности, недостижимые при офлайн-обучении. Несмотря на первоначальный прогресс, существующие методы TTT для больших языковых моделей (LRM) быстро выходят на плато и не получают пользы от дополнительных вычислительных ресурсов во время тестирования. Без внешней калибровки самогенерируемый сигнал вознаграждения постепенно смещается по мере эволюции модельной политики, что приводит как к плато производительности, так и к коллапсу разнообразия. Мы предлагаем TEMPO — фреймворк TTT, который чередует уточнение политики на немаркированных вопросах с периодической перекалибровкой критика на размеченном наборе данных. Формализуя эту чередующуюся процедуру через алгоритм максимизации ожидания (EM), мы показываем, что предыдущие методы можно интерпретировать как неполные варианты, опускающие критически важный шаг перекалибровки. Возвращение этого шага усиливает нижнюю оценку доказательности (ELBO) и обеспечивает устойчивое улучшение. На разнообразных семействах моделей (Qwen3 и OLMO3) и задачах логического вывода TEMPO улучшает показатели OLMO3-7B на AIME 2024 с 33.0% до 51.1%, а Qwen3-14B — с 42.3% до 65.8%, сохраняя при этом высокое разнообразие.

PlayCoder: Создание исполняемого GUI-кода, сгенерированного большими языковыми моделями
PlayCoder: Making LLM-Generated GUI Code Playable

Apr 21

ByZhiyuan Peng, Wei Tao, Xin Yin, Chenhao Ying, Yuan Luo, Yiwen Guo

Крупные языковые модели (LLМ) демонстрируют высокие результаты в генерации кода, однако их способность создавать GUI-приложения, особенно игры, остается недостаточно изученной. Существующие бенчмарки в основном оценивают корректность через тестовые случаи, что недостаточно для GUI-приложений, поскольку эти системы являются интерактивными, событийно-ориентированными и требуют корректных переходов состояний в последовательностях пользовательских действий. Их оценка, следовательно, должна учитывать потоки взаимодействия и логику интерфейса, а не только результаты прохождения/непрохождения тестов. Для изучения этой проблемы мы представляем PlayEval — репозиторий-ориентированный бенчмарк, созданный на основе 43 мультиязычных GUI-приложений на Python, TypeScript и JavaScript. В отличие от предыдущих бенчмарков для GUI, которые сложно адаптировать к десктопным средам, PlayEval охватывает шесть основных категорий GUI-приложений и напрямую поддерживает оценку генерации кода. Мы также предлагаем Play@k — метрику, которая измеряет, может ли хотя бы один из *k* сгенерированных кандидатов быть пройден от начала до конца без логических ошибок. Для обеспечения надежной оценки мы разрабатываем PlayTester — агента на основе LLМ, который выполняет целевые прохождения GUI и автоматически обнаруживает нарушения логики. Эксперименты с 10 передовыми кодогенерирующими LLМ показывают, что, несмотря на высокие показатели компиляции, они достигают near-zero Play@3, выявляя серьезные слабости в генерации логически корректных GUI-приложений. Для решения этой проблемы мы представляем PlayCoder — многоагентную, репозиторий-ориентированную среду, которая генерирует, оценивает и итеративно исправляет код GUI-приложений в замкнутом цикле. PlayCoder существенно улучшает как функциональную корректность, так и семантическое соответствие для моделей с открытым и закрытым исходным кодом, достигая до 38,1% Exec@3 и 20,3% Play@3. Кейс-стади дополнительно показывают, что система может выявлять скрытые логические ошибки, пропущенные традиционными метриками, и исправлять их с помощью целевых правок.

ShadowPEFT: Теневая сеть для параметрически эффективной тонкой настройки
ShadowPEFT: Shadow Network for Parameter-Efficient Fine-Tuning

Apr 21

ByXianming Li, Zongxi Li, Tsz-fung Andrew Lee, Jing Li, Haoran Xie, Qing Li

Параметрически-эффективное тонкое настройка (PEFT) снижает стоимость обучения полнопараметрической настройки больших языковых моделей (LLM) путем обучения лишь небольшого набора специфичных для задачи параметров при замороженном предобученном ядре. Однако существующие подходы, такие как LoRA (Low-Rank Adaptation), достигают адаптации путем вставки независимых низкоранговых возмущений непосредственно к отдельным весам, что приводит к локальной параметризации адаптации. Мы предлагаем ShadowPEFT — централизованную PEFT-архитектуру, которая вместо этого выполняет послойное уточнение через разделяемый по глубине теневой модуль. На каждом трансформерном слое ShadowPEFT поддерживает параллельное теневое состояние и эволюционирует его многократно для получения прогрессивно обогащенных скрытых состояний. Данная конструкция смещает адаптацию от распределенных возмущений в пространстве весов к разделяемому процессу уточнения в пространстве слоев. Поскольку теневой модуль отделен от ядра, он может использоваться повторно по глубине, независимо предобучаться и опционально развертываться в автономном режиме, что выгодно для сценариев периферийных вычислений. Эксперименты на бенчмарках генерации и понимания показывают, что ShadowPEFT соответствует или превосходит LoRA и DoRA при сопоставимых бюджетах обучаемых параметров. Дополнительные анализы предобучения теневого модуля, межнаборного переноса, масштабирования параметров, задержки вывода и системной оценки свидетельствуют, что централизованная адаптация в пространстве слоев является конкурентоспособной и гибкой альтернативой традиционным низкоранговым PEFT-методам.

Chat2Workflow: Бенчмарк для генерации исполняемых визуальных рабочих процессов с помощью естественного языка
Chat2Workflow: A Benchmark for Generating Executable Visual Workflows with Natural Language

Apr 21

ByYi Zhong, Buqiang Xu, Yijun Wang, Zifei Shan, Shuofei Qiao, Guozhou Zheng, Ningyu Zhang

В настоящее время исполняемые визуальные рабочие процессы стали основной парадигмой в реальных промышленных развертываниях, предлагая высокую надежность и управляемость. Однако в текущей практике такие рабочие процессы почти полностью создаются с помощью ручного проектирования: разработчики должны тщательно проектировать рабочие процессы, писать промпты для каждого шага и многократно пересматривать логику по мере изменения требований, что делает разработку дорогостоящей, трудоемкой и подверженной ошибкам. Чтобы исследовать, могут ли большие языковые модели автоматизировать этот многошаговый интерактивный процесс, мы представляем Chat2Workflow — бенчмарк для генерации исполняемых визуальных рабочих процессов непосредственно из естественного языка, а также предлагаем надежную агентскую структуру для снижения повторяющихся ошибок выполнения. Chat2Workflow построен на основе большой коллекции реальных бизнес-процессов, где каждый экземпляр спроектирован так, что сгенерированный рабочий процесс может быть преобразован и напрямую развернут на практических платформах, таких как Dify и Coze. Результаты экспериментов показывают, что хотя современные языковые модели часто способны улавливать общие намерения, они испытывают трудности с генерацией корректных, стабильных и исполняемых рабочих процессов, особенно в условиях сложных или изменяющихся требований. Несмотря на то, что наша агентская структура обеспечивает повышение уровня разрешения ошибок до 5,34%, сохраняющийся разрыв с реальными требованиями позиционирует Chat2Workflow как основу для развития промышленной автоматизации. Код доступен по адресу https://github.com/zjunlp/Chat2Workflow.

AJ-Bench: Бенчмаркинг агента-в-роли-судьи для контекстно-зависимой оценки
AJ-Bench: Benchmarking Agent-as-a-Judge for Environment-Aware Evaluation

Apr 20

ByWentao Shi, Yu Wang, Yuyang Zhao, Yuxin Chen, Fuli Feng, Xueyuan Hao, Xi Su, Qi Gu, Hui Su, Xunliang Cai, Xiangnan He

По мере того как обучение с подкреплением продолжает масштабировать тренировку агентов на основе больших языковых моделей, надежная верификация поведения агентов в сложных средах становится все более сложной задачей. Существующие подходы полагаются на основанные на правилах верификаторы или модели LLM-as-a-Judge, которые плохо обобщаются за пределы узких предметных областей. Метод Agent-as-a-Judge преодолевает это ограничение, активно взаимодействуя со средами и инструментами для получения проверяемых доказательств, однако его возможности остаются недостаточно изученными. Мы представляем бенчмарк AJ-Bench для систематической оценки метода Agent-as-a-Judge в трех областях — поиске, системах данных и графических пользовательских интерфейсах — включающий 155 задач и 516 размеченных траекторий. Бенчмарк комплексно оценивает способности агентов-судей в приобретении информации, верификации состояния и верификации процессов. Эксперименты демонстрируют стабильное превосходство над базовыми методами LLM-as-a-Judge, одновременно выявляя существенные нерешенные проблемы в агентной верификации. Наши данные и код доступны по адресу https://aj-bench.github.io/.

Двухканальное обучение для информационного поиска с выполнением инструкций
Dual-View Training for Instruction-Following Information Retrieval

Apr 20

ByQingcheng Zeng, Puxuan Yu, Aman Mehta, Fuheng Zhao, Rajhans Samdani

Исследования в области информационного поиска с выполнением инструкций (IF-IR) изучают поисковые системы, которые должны не только находить документы, релевантные запросу, но и подчиняться явным ограничениям пользователя, таким как обязательные атрибуты, исключения или предпочтения по выводу. Однако большинство систем поиска обучаются в основном на семантическую релевантность и часто не способны отличить документы, соответствующие теме, от тех, которые удовлетворяют инструкции. Мы предлагаем стратегию синтеза данных с двойным представлением, основанную на полярной инверсии: для данного запроса, документа, релевантного согласно инструкции, и сложного негативного примера, который соответствует запросу, но нарушает инструкцию, мы используем большую языковую модель (LLM) для генерации дополнительной инструкции, при которой два документа меняются метками релевантности. Представляя одну и ту же пару документов в условиях дополнительных инструкций, инвертирующих их метки релевантности, обучающий сигнал заставляет систему поиска переоценивать один и тот же набор кандидатов через призму инструкции, а не полагаться на фиксированные тематические признаки. На энкодере с 305 миллионами параметров наш метод улучшает производительность на бенчмарке FollowIR на 45%, превосходя универсальные модели эмбеддингов сопоставимого или большего масштаба. Сравнивая модели при равных бюджетах данных, мы также показываем, что разнообразие данных и контроль выполнения инструкций играют взаимодополняющие роли: первое сохраняет общее качество поиска, а второе повышает чувствительность к инструкциям. Эти результаты подчеркивают ценность целенаправленного синтеза данных для создания поисковых систем, которые одновременно являются широко способными и учитывающими инструкции.

Код-свитчинг в информационном поиске: эталоны, анализ и ограничения современных поисковых систем
Code-Switching Information Retrieval: Benchmarks, Analysis, and the Limits of Current Retrievers

Apr 19

ByQingcheng Zeng, Yuheng Lu, Zeqi Zhou, Heli Qi, Puxuan Yu, Fuheng Zhao, Hitomi Yanaka, Weihao Xuan, Naoto Yokoya

Кодовое переключение является повсеместным лингвистическим феноменом в глобальной коммуникации, однако современные системы информационного поиска по-прежнему проектируются и оцениваются преимущественно в рамках монолингвальных контекстов. Чтобы преодолеть этот критический разрыв, мы представляем комплексное исследование, посвященное информационному поиску с кодовым переключением. Мы представляем CSR-L (Code-Switching Retrieval benchmark-Lite), создавая набор данных с помощью человеческой разметки для отражения аутентичной естественности смешанно-языковых запросов. Наша оценка, охватывающая статистические, плотные и парадигмы позднего взаимодействия, показывает, что кодовое переключение выступает в качестве фундаментального узкого места производительности, снижая эффективность даже robustных многоязычных моделей. Мы демонстрируем, что эта неудача проистекает из существенного расхождения в пространстве эмбеддингов между чистым и смешанно-языковым текстом. Масштабируя это исследование, мы предлагаем CS-MTEB, комплексный бенчмарк, охватывающий 11 разнообразных задач, где мы наблюдаем снижение производительности до 27%. Наконец, мы показываем, что стандартные многоязычные методики, такие как расширение словаря, недостаточны для полного устранения этих дефицитов. Эти результаты подчеркивают хрупкость современных систем и устанавливают кодовое переключение в качестве важнейшего рубежа для будущей оптимизации информационного поиска.

Понимание и обеспечение разделения весов в арифметике задач
Understanding and Enforcing Weight Disentanglement in Task Arithmetic

Apr 18

ByShangge Liu, Yuehan Yin, Lei Wang, Qi Fan, Yinghuan Shi, Wenbin Li, Yang Gao, Dacheng Tao

Арифметика задач предоставляет эффективный, не требующий дообучения способ редактирования предварительно обученных моделей, однако не имеет фундаментального теоретического объяснения своего успеха. Существующая концепция «разделения весов» описывает идеальный результат непересекающейся композиции задач, но не раскрывает ее первопричину. Ключевой вопрос — какие внутренние свойства предварительно обученной модели (θ₀) или векторов задач (τₜ) обеспечивают это разделение — остается малоизученным. В данной статье мы вводим Специализацию по Задачам и Признакам (TFS) — способность модели выделять различные внутренние признаки для разных задач — в качестве фундаментального принципа. Сначала мы доказываем, что TFS является достаточным условием для разделения весов. Что более важно, мы обнаруживаем, что TFS также порождает наблюдаемое геометрическое следствие: ортогональность векторов весов. Это позиционирует TFS как общую причину как желаемого функционального результата (разделения), так и измеримого геометрического свойства (ортогональности). Данная взаимосвязь дает ключевую идею для нашего метода: поскольку абстрактное свойство TFS сложно обеспечить напрямую, мы можем вместо этого способствовать разделению весов, формируя его конкретное геометрическое следствие — ортогональность. Поэтому мы предлагаем OrthoReg, простой и эффективный метод регуляризации, который активно формирует внутреннюю ортогональную структуру для обновлений весов (ΔW), составляющих τₜ, в процессе тонкой настройки. Мы также теоретически доказываем, что OrthoReg способствует разделению. Многочисленные эксперименты демонстрируют, что OrthoReg стабильно и значительно улучшает производительность различных методов арифметики задач. Код доступен по адресу https://github.com/RL-MIND/OrthoReg{https://github.com/RL-MIND/OrthoReg}.

CityRAG: Погружение в город через пространственно-привязанную генерацию видео
CityRAG: Stepping Into a City via Spatially-Grounded Video Generation

Apr 21

ByGene Chou, Charles Herrmann, Kyle Genova, Boyang Deng, Songyou Peng, Bharath Hariharan, Jason Y. Zhang, Noah Snavely, Philipp Henzler

Мы решаем задачу генерации трёхмерно-согласованной, навигируемой среды, которая пространственно привязана к реальности: симуляции реального местоположения. Существующие модели генерации видео способны создавать правдоподобную последовательность, согласованную с текстовым (T2V) или изображенческим (I2V) промптом. Однако способность реконструировать реальный мир при произвольных погодных условиях и динамических конфигурациях объектов крайне важна для прикладных задач, включая автономное вождение и симуляцию робототехники. Для решения этой задачи мы представляем CityRAG — модель генерации видео, которая использует большие корпусы геопривязанных данных в качестве контекста для привязки генерации к физической сцене, сохраняя при этом ранее изученные паттерны для сложных изменений движения и внешнего вида. CityRAG опирается на данные обучения, не выровненные по времени, что учит модель семантически разделять базовую сцену и её изменчивые атрибуты. Наши эксперименты демонстрируют, что CityRAG способна генерировать согласованные минуты длящиеся, физически обоснованные видеопоследовательности, поддерживать погодные и световые условия на протяжении тысяч кадров, достигать замыкания траектории и навигировать по сложным маршрутам для реконструкции реальной географии.

Спекулятивное декодирование для авторегрессионного генерации видео
Speculative Decoding for Autoregressive Video Generation

Apr 19

ByYuezhou Hu, Jintao Zhang

Авторегрессионная диффузия видео становится перспективной парадигмой для синтеза потокового видео, где дистилляция шагов служит основным методом ускорения вывода. Остается открытым вопрос, можно ли эффективно адаптировать спекулятивное декодирование — доминирующую стратегию ускорения больших языковых моделей — к авторегрессионной генерации видео, поскольку видео-блоки представляют собой непрерывные пространственно-временные тензоры без токен-уровневого распределения для точного rejection sampling. Мы представляем SDVG, который применяет спекулятивное декодирование к блочной авторегрессионной видео-диффузии, заменяя проверку токенов на маршрутизатор по качеству изображения. Драфтер объемом 1,3 млрд параметров предлагает кандидатные блоки за четыре шага денойзинга; каждый блок декодируется через VAE и оценивается с помощью ImageReward с агрегацией по наихудшему кадру — берется минимальная награда за кадр, чтобы выявить артефакты в отдельных кадрах, которые усреднение могло бы скрыть. Блоки с оценкой выше фиксированного порога τ принимаются в KV-кэш целевой модели на 14 млрд параметров; остальные перегенерируются целевой моделью. Два дополнительных конструктивных решения оказываются ключевыми: первый блок всегда принудительно отвергается для фиксации композиции сцены, а τ служит единственным регулятором, позволяющим построить плавную Парето-границу качества и скорости. На 1003 промптах MovieGenVideoBench (832x480) SDVG сохраняет 98,1% качества целевой модели по VisionReward (0,0773 против 0,0788) при ускорении в 1,59 раза с τ=-0,7 и достигает ускорения в 2,09 раза при сохранении 95,7% качества — стабильно превосходя генерацию только драфтером более чем на +17%. Фреймворк не требует дообучения, не вносит изменений в архитектуру и может быть бесшовно интегрирован в существующие pipelines авторегрессионной генерации видео.

Целенаправленный отбор данных предварительного обучения с помощью графа активации нейронов
Target-Oriented Pretraining Data Selection via Neuron-Activated Graph

Apr 17

ByZijun Wang, Haoqin Tu, Weidong Zhou, Yiyang Zhou, Xiaohuan Zhou, Bingni Zhang, Weiguo Feng, Taifeng Wang, Cihang Xie, Fengze Liu

Повседневные задачи имеют конкретную цель, а предварительное обучение моделей для достижения этой цели превращает их в экспертов. В данной статье мы исследуем целенаправленное предварительное обучение языковых моделей (Language Model, LM), представляя Ранжирование на основе Графа Активированных Нейронов (NAG-based Ranking) — бесплатную в обучении и интерпретируемую методологию для отбора данных предварительного обучения, ориентированных на цель. Вместо использования чернобоксных представлений наш подход напрямую характеризует каждый целевой вход с помощью разреженного набора высоковлиятельных нейронов в любой готовой большой языковой модели (LLM). Конкретно, мы количественно оцениваем влияние нейронов, выбираем наиболее значимые нейроны across слоев и объединяем их в компактный Граф Активированных Нейронов (Neuron-Activated Graph, NAG), после чего ранжируем данные-кандидаты по сходству их NAG с целевыми примерами. Мы провели эксперименты на шести бенчмарках, где наше ранжирование на основе NAG улучшило целенаправленное предварительное обучение в среднем на 4.9% по сравнению со случайной выборкой, а также превзошло современные базовые методы на 5.3% по точности на HellaSwag. Метод также остается эффективным в более применимой настройке с множественными целями, где наша лучшая конфигурация превосходит два базовых метода на 1.1% и 4.1% соответственно. Кроме того, мы предоставляем всесторонний анализ того, почему и как наш NAG работает: например, деактивация нейронов, отобранных NAG (всего 0.12% от общего числа), вызывает коллапс производительности на 23.5%, а ограничение NAG последним слоем приводит к среднему падению на 4.1%, что указывает на то, что NAG захватывает разреженный "функциональный хребет" для изучения целевых признаков. Код доступен по адресу https://github.com/asillycat/NAG.

SmartPhotoCrafter: Единая система анализа, генерации и оптимизации для автоматического редактирования фотографических изображений
SmartPhotoCrafter: Unified Reasoning, Generation and Optimization for Automatic Photographic Image Editing

Apr 21

ByYing Zeng, Miaosen Luo, Guangyuan Li, Yang Yang, Ruiyang Fan, Linxiao Shi, Qirui Yang, Jian Zhang, Chengcheng Liu, Siming Zheng, Jinwei Chen, Bo Li, Peng-Tao Jiang

Традиционное редактирование фотографических изображений обычно требует от пользователей достаточного эстетического понимания для формулирования соответствующих инструкций по корректировке качества изображения и параметров камеры. Однако эта парадигма основана на явном указании пользователем эстетических предпочтений, что зачастую бывает неоднозначным, неполным или недоступным для неопытных пользователей. В данной работе мы предлагаем SmartPhotoCrafter — автоматический метод редактирования фотографических изображений, который формулирует процесс редактирования как тесно связанный процесс «рассуждение-генерация». Предложенная модель сначала выполняет анализ качества изображения и выявляет недостатки с помощью модуля Image Critic, а затем модуль Photographic Artist реализует целевые правки для повышения привлекательности изображения, устраняя необходимость в явных инструкциях от пользователя. Используется многоэтапный конвейер обучения: (i) Предварительное обучение основы для формирования базового эстетического понимания и навыков редактирования, (ii) Адаптация с контролем множественных правок, направляемых рассуждением, для включения богатой семантической информации, и (iii) Согласованное обучение с подкреплением по схеме «рассуждение-генерация» для совместной оптимизации рассуждений и генерации. В процессе обучения SmartPhotoCrafter уделяет особое внимание фотореалистичной генерации изображений, одновременно поддерживая задачи как восстановления, так и ретуширования изображений с последовательным соблюдением семантики, связанной с цветом и тоном. Мы также создали специализированный для каждого этапа набор данных, который постепенно формирует навыки рассуждения, контролируемой генерации, эффективного межмодульного взаимодействия и, в конечном счете, высококачественного фотографического улучшения. Эксперименты демонстрируют, что SmartPhotoCrafter превосходит существующие генеративные модели в задаче автоматического фотографического улучшения, достигая фотореалистичных результатов и проявляя более высокую чувствительность к тональным аспектам при выполнении инструкций по ретуши. Страница проекта: https://github.com/vivoCameraResearch/SmartPhotoCrafter.

UniMesh: Унификация понимания и генерации 3D-мешей
UniMesh: Unifying 3D Mesh Understanding and Generation

Apr 19

ByPeng Huang, Yifeng Chen, Zeyu Zhang, Hao Tang

Последние достижения в области 3D-видения привели к созданию специализированных моделей для решения либо задач понимания 3D-сцен (например, классификация форм, сегментация, реконструкция), либо задач генерации 3D-данных (например, синтез, достраивание и редактирование). Однако эти задачи часто решаются изолированно, что приводит к фрагментированным архитектурам и представлениям, препятствующим передаче знаний и целостному моделированию сцен. Для решения этих проблем мы предлагаем UniMesh — унифицированную систему, которая совместно обучается генерации и пониманию 3D-данных в рамках единой архитектуры. Во-первых, мы представляем новый Mesh Head, который выступает в качестве кроссмодельного интерфейса, связывающего диффузионную генерацию изображений с неявными декодерами форм. Во-вторых, мы разрабатывали Chain of Mesh (CoM) — геометрическую реализацию итеративного рассуждения, которая позволяет осуществлять управляемое пользователем семантическое редактирование сетки через замкнутый цикл латентного пространства, промптинга и повторной генерации. В-третьих, мы внедрили механизм саморефлексии, основанный на триаде «Актор-Оценщик-Самоанализ», для диагностики и исправления ошибок в сложных задачах, таких как описание 3D-сцен. Результаты экспериментов показывают, что UniMesh не только демонстрирует конкурентоспособные результаты на стандартных бенчмарках, но и открывает новые возможности в области итеративного редактирования и взаимного усиления генерации и понимания. Код: https://github.com/AIGeeksGroup/UniMesh. Сайт: https://aigeeksgroup.github.io/UniMesh.

RDP LoRA: Геометрически обоснованная идентификация для параметрически эффективной адаптации больших языковых моделей
RDP LoRA: Geometry-Driven Identification for Parameter-Efficient Adaptation in Large Language Models

Apr 21

ByYusuf Çelebi, Yağız Asker, Özay Ezerceli, Mahmoud ElHussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu

Тонкая настройка больших языковых моделей (LLM) остаётся структурно неопределённой, несмотря на параметрически эффективные методы, такие как Low-Rank Adaptation (LoRA), поскольку слабо изучены специфические для слоёв роли внутренних представлений, что приводит к эвристическим решениям о том, где следует применять адаптацию. Мы моделируем эволюцию скрытых состояний как траекторию в высокоразмерном геометрическом пространстве и предлагаем использовать алгоритм Рамера-Дугласа-Пьюкера (RDP) — беспараметрический и не требующий обучения метод упрощения полигонов, который сохраняет глобальные структурные переходы, устраняя локально избыточные изменения, — для идентификации критических точек излома вдоль пути представлений. Ключевым моментом является то, что мы используем эти геометрические точки поворота не только для анализа, но и в качестве прямого сигнала для принятия решения о том, какие слои следует адаптировать в ходе параметрически эффективной тонкой настройки. Интегрируя эту стратегию выбора слоёв на основе геометрии в тонкую настройку LoRA модели Qwen3-8B-Base, мы достигаем превосходной производительности на MMLU-Math, используя всего 13 слоёв, отобранных с помощью RDP (81.67%), что значительно превосходит как адаптацию всех 36 слоёв (79.32%), так и случайный выбор 13 слоёв (75.56%), а также базовую модель Qwen3-8B-Base (74.25%). Эти результаты демонстрируют, что использование внутренней геометрии траекторий представлений обеспечивает надежный, интерпретируемый и не требующий обучения сигнал для оптимизации выбора слоёв в процессе адаптации модели.

MM-JudgeBias: Бенчмарк для оценки композиционных смещений в MLLM-как-судье
MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Apr 20

BySua Lee, Sanghee Park, Jinbae Im

Мультимодальные большие языковые модели (MБЯМ) все чаще используются в качестве автоматических оценщиков — парадигма, известная как «MБЯМ-как-судья». Однако их надежность и уязвимости к смещениям остаются недостаточно изученными. Мы обнаружили, что многие модели-судьи не способны надежно интегрировать ключевые визуальные или текстовые сигналы, что приводит к ненадежным оценкам при отсутствии или несоответствии доказательств, а также проявляет нестабильность при семантически нерелевантных возмущениях. Для решения этой проблемы мы систематически определяем Композиционное Смещение в системах MБЯМ-как-судья и представляем MM-JudgeBias — бенчмарк для его оценки. MM-JudgeBias вводит контролируемые возмущения в Запрос, Изображение и Ответ, а также оценивает поведение модели с помощью двух взаимодополняющих метрик: Отклонение от Смещения (Bias-Deviation, BD) для чувствительности и Соответствие Смещению (Bias-Conformity, BC) для стабильности. Наш набор данных, содержащий более 1800 тщательно отобранных и доработанных мультимодальных примеров, взятых из 29 исходных бенчмарков, позволяет провести детальную диагностику девяти типов смещений в различных задачах и доменах. Эксперименты с 26 современными MБЯМ выявили систематическое пренебрежение модальностями и асимметричные оценочные тенденции, что подчеркивает необходимость в создании более надежных моделей-судей.

LoopCTR: Раскрытие потенциала масштабирования циклов для прогнозирования кликабельности
LoopCTR: Unlocking the Loop Scaling Power for Click-Through Rate Prediction

Apr 21

ByJiakai Tang, Runfeng Zhang, Weiqiu Wang, Yifei Liu, Chuan Wang, Xu Chen, Yeqiu Yang, Jian Wu, Yuning Jiang, Bo Zheng

Масштабирование трансформерных моделей прогнозирования кликабельности (CTR) за счет увеличения количества параметров приводит к росту вычислительных затрат и требований к хранению данных, создавая растущий разрыв между амбициями по масштабированию и строгими ограничениями промышленного развертывания. Мы предлагаем LoopCTR, который вводит парадигму циклического масштабирования, увеличивая вычислительную нагрузку на этапе обучения за счет рекурсивного повторного использования общих слоев модели, что позволяет отделить вычисления от роста числа параметров. LoopCTR использует сэндвич-архитектуру, усиленную гиперсвязанными остатками и смесью экспертов, а также применяет поэтапный контроль на каждой глубине цикла для кодирования преимуществ многократных циклов в общих параметрах. Это позволяет реализовать стратегию «обучение с множественными циклами, вывод без циклов», при которой единственный прямой проход без каких-либо циклов уже превосходит все базовые модели. Эксперименты на трех публичных бенчмарках и одном промышленном наборе данных демонстрируют наилучшую производительность. Дополнительный анализ показывает наличие неиспользованного потенциала в 0.02–0.04 AUC, причем модели, обученные с меньшим количеством циклов, демонстрируют более высокий потенциальный потолок, указывая на перспективное направление для адаптивного вывода.

UDM-GRPO: Стабильная и эффективная групповая относительная оптимизация политики для равномерных дискретных диффузионных моделей
UDM-GRPO: Stable and Efficient Group Relative Policy Optimization for Uniform Discrete Diffusion Models

Apr 20

ByJiaqi Wang, Haoge Deng, Ting Pan, Yang Liu, Chengyuan Wang, Fan Zhang, Yonggang Qi, Xinlong Wang

Модель равномерного дискретного диффузионного процесса (Uniform Discrete Diffusion Model, UDM) недавно появилась как перспективная парадигма для дискретного генеративного моделирования, однако её интеграция с обучением с подкреплением остаётся практически неисследованной. Мы наблюдаем, что прямое применение GRPO к UDM приводит к нестабильности обучения и незначительному улучшению производительности. Для решения этой проблемы мы предлагаем \Ours — первую структуру для интеграции UDM с RL. Наш метод основан на двух ключевых идеях: (i) использование итогового чистого сэмпла в качестве действия обеспечивает более точные и стабильные сигналы оптимизации; и (ii) реконструкция траекторий через прямой диффузионный процесс лучше согласует вероятностные пути с распределением предварительного обучения. Дополнительно мы вводим две стратегии, Reduced-Step и CFG-Free, для дальнейшего повышения эффективности обучения. \Ours существенно улучшает производительность базовой модели в различных задачах T2I. В частности, точность GenEval возрастает с 69% до 96%, а PickScore увеличивается с 20.46 до 23.81, достигая наилучших результатов как в непрерывных, так и в дискретных настройках. На бенчмарке OCR точность повышается с 8% до 57%, что дополнительно подтверждает способность нашего метода к обобщению. Код доступен по адресу https://github.com/Yovecent/UDM-GRPO.

HP-Edit: Посттренировочный фреймворк для редактирования изображений на основе человеческих предпочтений
HP-Edit: A Human-Preference Post-Training Framework for Image Editing

Apr 21

ByFan Li, Chonghuinan Wang, Lina Lei, Yuping Qiu, Jiaqi Xu, Jiaxiu Jiang, Xinran Qin, Zhikai Chen, Fenglong Song, Zhixin Wang, Renjing Pei, Wangmeng Zuo

Распространенные задачи редактирования изображений обычно используют мощные генеративные диффузионные модели в качестве основной парадигмы для редактирования реального контента. В то же время, хотя методы обучения с подкреплением (RL), такие как Diffusion-DPO и Flow-GRPO, дополнительно улучшили качество генерации, эффективное применение обучения с подкреплением на основе человеческих предпочтений (RLHF) для диффузионного редактирования остается малоизученным из-за отсутствия масштабируемых наборов данных о человеческих предпочтениях и фреймворков, адаптированных к разнообразным потребностям редактирования. Чтобы заполнить этот пробел, мы предлагаем HP-Edit — фреймворк пост-обучения для редактирования, согласованного с человеческими предпочтениями, и представляем RealPref-50K, набор реальных данных, охватывающий восемь распространенных задач и сбалансированный по редактированию обычных объектов. В частности, HP-Edit использует небольшое количество данных оценки человеческих предпочтений и предварительно обученную крупную визуальную языковую модель (VLM) для создания HP-Scorer — автоматического оценщика, согласованного с человеческими предпочтениями. Затем мы используем HP-Scorer как для эффективного построения масштабируемого набора данных о предпочтениях, так и в качестве функции вознаграждения для пост-обучения модели редактирования. Мы также представляем RealPref-Bench — бенчмарк для оценки производительности редактирования в реальных условиях. Многочисленные эксперименты демонстрируют, что наш подход значительно улучшает модели, такие как Qwen-Image-Edit-2509, лучше согласовывая их выходные данные с человеческими предпочтениями.

Точный и масштабируемый функционал обменно-корреляционной энергии с использованием глубокого обучения
Accurate and scalable exchange-correlation with deep learning

Apr 21

ByGiulia Luise, Chin-Wei Huang, Thijs Vogels, Derk P. Kooi, Sebastian Ehlert, Stephanie Lanius, Klaas J. H. Giesbertz, Amir Karton, Deniz Gunceler, Stefano Battaglia, Gregor N. C. Simm, P. Bernát Szabó, Megan Stanley, Wessel P. Bruinsma, Lin Huang, Xinran Wei, José Garrido Torres, Abylay Katbashev, Rodrigo Chavez Zavaleta, Bálint Máté, Sékou-Oumar Kaba, Roberto Sordillo, Yingrong Chen, David B. Williams-Young, Christopher M. Bishop, Jan Hermann, Rianne van den Berg, Paola Gori-Giorgi

Теория функционала плотности (DFT) лежит в основе большей части современной вычислительной химии и науки о материалах. Однако надежность предсказаний DFT для экспериментально измеряемых свойств фундаментально ограничена необходимостью аппроксимации неизвестного обменно-корреляционного (XC) функционала. Традиционная парадигма повышения точности опиралась на все более сложные, создаваемые вручную функциональные формы. Этот подход привел к давнему компромиссу между вычислительной эффективностью и точностью, который остается недостаточным для надежного предсказательного моделирования лабораторных экспериментов. Здесь мы представляем Skala, XC-функционал на основе глубокого обучения, который превосходит современные гибридные функционалы по точности на основном наборе бенчмарков по химии main-group элементов GMTKN55 с ошибкой 2.8 ккал/моль, сохраняя при этом более низкую вычислительную стоимость, характерную для полулокальной DFT. Этот продемонстрированный отход от исторического компромисса между точностью и эффективностью стал возможным благодаря обучению нелокальных представлений электронной структуры непосредственно на данных, минуя необходимость во все более дорогостоящих ручно разрабатываемых признаках. Используя беспрецедентный объем высокоточной референсной данных из методов на основе волновой функции, мы устанавливаем, что современное глубокое обучение позволяет создавать систематически улучшаемые нейронные модели обмена и корреляции по мере расширения обучающих наборов данных, что открывает путь к постепенному повышению предсказательной способности расчетов из первых принципов.

Что делает языковую модель хорошим оптимизатором? Анализ траектории эволюционного поиска под управлением LLM
What Makes an LLM a Good Optimizer? A Trajectory Analysis of LLM-Guided Evolutionary Search

Apr 21

ByXinhao Zhang, Xi Chen, François Portet, Maxime Peyrard

Недавние исследования продемонстрировали перспективность использования больших языковых моделей (БЯМ) в эволюционных и агентных системах оптимизации. Однако механизмы, лежащие в основе этих улучшений оптимизации, остаются слабо изученными. В данной работе представлено масштабное исследование эволюционного поиска под управлением БЯМ, в ходе которого собраны траектории оптимизации для 15 моделей на 8 задачах. Хотя способность к решению задач в режиме zero-shot коррелирует с итоговыми результатами оптимизации, она объясняет лишь часть дисперсии: модели со сходной исходной производительностью часто порождают принципиально разные траектории поиска и результаты. Анализируя эти траектории, мы обнаружили, что эффективные БЯМ-оптимизаторы действуют как локальные уточнители, обеспечивая частые постепенные улучшения при одновременной прогрессирующей локализации поиска в семантическом пространстве. Напротив, слабые оптимизаторы демонстрируют значительный семантический дрейф со спорадическими прорывами, за которыми следует стагнация. Примечательно, что различные меры новизны решений не предсказывают итоговую производительность; новизна полезна только тогда, когда поиск остается достаточно локализованным в высокопроизводительных областях пространства решений. Наши результаты подчеркивают важность анализа траекторий для понимания и совершенствования систем оптимизации на основе БЯМ и дают практические рекомендации для их проектирования и обучения.

Контрастная атрибуция в реальных условиях: интерпретируемый анализ ошибок больших языковых моделей на реалистичных бенчмарках
Contrastive Attribution in the Wild: An Interpretability Analysis of LLM Failures on Realistic Benchmarks

Apr 20

ByRongyuan Tan, Jue Zhang, Zhuozhao Li, Qingwei Lin, Saravan Rajmohan, Dongmei Zhang

Инструменты интерпретируемости всё чаще применяются для анализа сбоев больших языковых моделей (LLM), однако предыдущие работы в основном сосредоточены на коротких промптах или упрощенных сценариях, оставляя поведение моделей на общепринятых бенчмарках недостаточно изученным. Чтобы восполнить этот пробел, мы исследуем контрастные атрибуции на основе LRP как практический инструмент анализа сбоев LLM в реалистичных условиях. Мы формулируем анализ сбоев как контрастную атрибуцию, приписывая разницу логитов между некорректным выходным токеном и корректной альтернативой входным токенам и внутренним состояниям модели, и представляем эффективное расширение, позволяющее строить межслойные графы атрибуции для длинных контекстов. Используя этот подход, мы проводим систематическое эмпирическое исследование на различных бенчмарках, сравнивая паттерны атрибуции между наборами данных, размерами моделей и контрольными точками обучения. Наши результаты показывают, что контрастная атрибуция на уровне токенов может давать информативные сигналы в некоторых случаях сбоев, но не является универсально применимой, что подчеркивает как её полезность, так и ограничения для реалистичного анализа ошибок LLM. Наш код доступен по адресу: https://aka.ms/Debug-XAI.

Масштабирование, управляемое оценкой, для научных открытий
Evaluation-driven Scaling for Scientific Discovery

Apr 21

ByHaotian Ye, Haowei Lin, Jingyi Tang, Yizhen Luo, Caiyin Yang, Chang Su, Rahul Thapa, Rui Yang, Ruihua Liu, Zeyu Li, Chong Gao, Dachao Ding, Guangrong He, Miaolei Zhang, Lina Sun, Wenyang Wang, Yuchen Zhong, Zhuohao Shen, Di He, Jianzhu Ma, Stefano Ermon, Tongyang Li, Xiaowen Chu, James Zou, Yuzhi Xu

Языковые модели все чаще используются в научных открытиях для генерации гипотез, предложения кандидатных решений, реализации систем и их итеративного совершенствования. В основе этих циклов проб и ошибок лежит оценка: процесс получения обратной связи о кандидатных решениях с помощью верификаторов, симуляторов или предметно-ориентированных функций оценки. Хотя предыдущие работы подчеркивали важность оценки, они не формулировали явно проблему масштабирования циклов открытий, управляемых оценкой, принципиальным и эффективным способом для расширения границ научного познания — проблему, которую решает данная статья. Мы представляем Simple Test-time Evaluation-driven Scaling (SimpleTES), общий фреймворк, который стратегически объединяет параллельное исследование, уточнение на основе обратной связи и локальный отбор, демонстрируя значительный прогресс, достигаемый за счет масштабирования циклов открытий по правильным направлениям. На 21 научной задаче из шести областей SimpleTES обнаруживает передовые решения, используя модели GPT с открытым исходным кодом, последовательно превосходя как базовые линии на основе фронтирных моделей, так и сложные оптимизационные конвейеры. В частности, мы ускорили широко используемый алгоритм LASSO более чем в 2 раза, разработали политики маршрутизации квантовых схем, снижающие накладные расходы на гейты на 24,5%, и открыли новые конструкции Эрдёша с минимальным перекрытием, превосходящие известные результаты. Помимо новых открытий, SimpleTES создает траекторные истории, которые естественным образом обучают модели на основе обратной связи. При дообучении на успешных траекториях модели не только повышают эффективность на известных задачах, но и обобщают знания на новые задачи, обнаруживая решения, недоступные базовым моделям. В совокупности наши результаты устанавливают эффективное масштабирование оценочных циклов как ключевое направление для развития научных открытий на основе больших языковых моделей и предоставляют простой, но практичный фреймворк для достижения этих результатов.

ClawNet: Сеть агентов с человеко-симбиотическим взаимодействием для автономного сотрудничества между пользователями
ClawNet: Human-Symbiotic Agent Network for Cross-User Autonomous Cooperation

Apr 21

ByZhiqin Yang, Zhenyuan Zhang, Xianzhang Jia, Jun Song, Wei Xue, Yonggang Zhang, Yike Guo

Современные фреймворки ИИ-агентов достигли значительного прогресса в автоматизации отдельных задач, однако все существующие системы обслуживают единственного пользователя. Человеческая производительность основывается на социальных и организационных отношениях, посредством которых люди координируются, ведут переговоры и делегируют полномочия. Когда агенты переходят от выполнения задач для одного человека к представлению его интересов при сотрудничестве с другими, инфраструктура для межпользовательского взаимодействия агентов полностью отсутствует, не говоря уже о механизмах управления, необходимых для её защиты. Мы утверждаем, что следующий рубеж для ИИ-агентов заключается не в усилении индивидуальных возможностей, а в цифровизации человеческих отношений сотрудничества. Для этой цели мы предлагаем парадигму человеко-симбиотических агентов. Каждый пользователь владеет постоянно связанной агентной системой, которая сотрудничает от его имени, формируя сеть, узлами которой являются люди, а не агенты. Данная парадигма основывается на трёх примитивах управления. Многоуровневая архитектура идентичности разделяет Менеджера Агентов и множество контекстно-зависимых Агентов Идентичности; Менеджер Агентов обладает глобальными знаниями, но архитектурно изолирован от внешней коммуникации. Ограниченная авторизация обеспечивает контроль доступа для каждой идентичности и эскалирует нарушения границ владельцу. Подотчётность на уровне действий регистрирует каждую операцию с привязкой к идентичности и авторизации владельца, гарантируя полную аудируемость. Мы реализуем эту парадигму в ClawNet — фреймворке для взаимодействия агентов с управлением идентичностью, который обеспечивает привязку идентичности и проверку авторизации через центральный оркестратор, позволяя нескольким пользователям безопасно сотрудничать через своих агентов.

Смягчение мультимодальных галлюцинаций с помощью поэтапного самовознаграждения
Mitigating Multimodal Hallucination via Phase-wise Self-reward

Apr 20

ByYu Zhang, Chuyang Sun, Kehai Chen, Xuefeng Bai, Yang Xiang, Min Zhang

Крупные визуально-языковые модели (LVLM) по-прежнему сталкиваются с проблемой визуальных галлюцинаций, когда генерируемые ответы не соответствуют визуальному входу. Существующие методы либо полагаются на крупномасштабные размеченные данные для тонкой настройки, что влечет значительные вычислительные затраты, либо используют статические пост-обработки, игнорирующие динамическую природу возникновения галлюцинаций. Для решения этих проблем мы представляем новую само-вознаграждающую структуру, позволяющую динамически смягчать галлюцинации во время вывода без внешнего контроля. С эмпирической стороны мы показываем, что визуальные галлюцинации демонстрируют фазово-динамические паттерны, достигая пика в начале каждой семантической фазы. Основываясь на этих наблюдениях, мы предлагаем PSRD (фазовое декодирование с само-вознаграждением) для онлайн-коррекции галлюцинаций, направляемое фазовыми сигналами само-вознаграждения. Для снижения затрат на повторную самооценку во время декодирования мы дистиллируем сигнал управления галлюцинациями из LVLM в облегченную модель вознаграждения. Эта модель вознаграждения затем обеспечивает оперативное руководство для целевого вмешательства в процессе декодирования, позволяя точно подавлять галлюцинации. Предлагаемый метод PSRD значительно снижает уровень галлюцинаций модели LLaVA-1.5-7B на 50.0% и последовательно превосходит существующие методы пост-обработки на пяти тестовых наборах для оценки галлюцинаций для четырех LVLM. Дальнейший анализ подтверждает, что PSRD эффективно смягчает распространение галлюцинаций и обеспечивает высоко контролируемый баланс между высокой производительностью и эффективностью вывода.

Микромодели языков обеспечивают мгновенные ответы
Micro Language Models Enable Instant Responses

Apr 21

ByWen Cheng, Tuochao Chen, Karim Helwani, Sriram Srinivasan, Luke Zettlemoyer, Shyamnath Gollakota

Периферийные устройства, такие как умные часы и умные очки, не могут непрерывно выполнять даже самые малые языковые модели с 100 млн - 1 млрд параметров из-за ограничений по энергопотреблению и вычислительным ресурсам, в то время как облачный вывод вносит задержки в несколько секунд, что разрушает иллюзию отзывчивого помощника. Мы представляем микромодели языка (μLM): сверхкомпактные модели (8-30 млн параметров), которые мгновенно генерируют первые 4-8 слов контекстуально обоснованного ответа непосредственно на устройстве, в то время как облачная модель завершает его, маскируя таким образом облачную задержку. Мы показываем, что полезная языковая генерация сохраняется и в этом экстремальном масштабе: наши модели соответствуют по качеству нескольким существующим моделям класса 70-256 млн параметров. Мы разработали фреймворк совместной генерации, который переосмысливает облачную модель как продолжателя, а не ответчика, достигая бесшовной передачи управления в середине предложения и структурированного изящного восстановления с помощью трех методов коррекции ошибок в случае неудачного локального начала. Эмпирические результаты показывают, что μLM способны инициировать ответы, которые более крупные модели бесшовно завершают, демонстрируя достижимость асимметричной коллаборации на порядки величин и открывая путь к отзывчивому ИИ для устройств с крайне ограниченными ресурсами. Чекпоинт модели и демо доступны по адресу https://github.com/Sensente/micro_language_model_swen_project.

Предсказание целых чисел по непрерывным параметрам
Predicting integers from continuous parameters

Apr 13

ByBas Maat, Peter Bloem

Мы изучаем задачу прогнозирования числовых меток, ограниченных целыми числами или их поддиапазоном. Например, количество голосов «за» в постах социальных сетей или число доступных велосипедов на станциях общественного проката. Хотя можно моделировать их как непрерывные величины и применять традиционную регрессию, такой подход изменяет исходное распределение меток с дискретного на непрерывное. Дискретные распределения обладают определёнными преимуществами, что подводит нас к вопросу: можно ли такие целочисленные метки напрямую моделировать с помощью дискретного распределения, параметры которого прогнозируются на основе признаков данного объекта. Более того, мы фокусируемся на сценарии использования выходных распределений нейронных сетей, что добавляет требование непрерывности параметров распределения, чтобы обратное распространение ошибки и градиентный спуск могли использоваться для обучения весов сети. Мы исследуем несколько вариантов таких распределений, как существующих, так и новых, и тестируем их на ряде задач, включая табличное обучение, последовательное прогнозирование и генерацию изображений. Мы обнаруживаем, что в целом наилучшие результаты демонстрируют два распределения: Bitwise, которое представляет целевое целое число в битовом виде и задает распределение Бернулли для каждого бита, и дискретный аналог распределения Лапласа, использующий распределение с экспоненциально убывающими хвостами вокруг непрерывного среднего значения.

MoVE: Перевод смеха и слёз с помощью смеси экспертов по вокализации в речевом переводе
MoVE: Translating Laughter and Tears via Mixture of Vocalization Experts in Speech-to-Speech Translation

Apr 19

BySzu-Chi Chen, I-Ning Tsai, Yi-Cheng Lin, Sung-Feng Huang, Hung-yi Lee

Современные системы речевого перевода (S2ST) демонстрируют высокую смысловую точность, но последовательно удаляют невербальные вокализации (NV), такие как смех и плач, передающие прагматический подтекст, что существенно ограничивает их практическую применимость. Мы решаем эту проблему с помощью трёх ключевых вкладов. Во-первых, мы предлагаем конвейер синтеза для создания масштабируемых экспрессивных наборов данных, чтобы преодолеть проблему нехватки данных. Во-вторых, мы предлагаем MoVE — архитектуру смеси экспертов на основе LoRA со специализированными адаптерами для передачи экспрессии и маршрутизатором с мягким взвешиванием, который комбинирует экспертов для воспроизведения гибридных эмоциональных состояний. В-третьих, мы показываем, что предобученные AudioLLM обеспечивают поразительную эффективность данных: для достижения высоких результатов достаточно 30 минут тщательно отобранных данных. В задаче англо-китайского S2ST, в сравнении с сильными базовыми моделями, MoVE воспроизводит целевые NV в 76% случаев и достигает наивысших оценок естественности и эмоциональной достоверности по мнению людей среди всех сравниваемых систем, тогда как существующие системы S2ST сохраняют не более 14% NV.

Когнитивный штраф: устранение рассуждений Системы 1 и Системы 2 в пограничных SLM для децентрализованного консенсуса
The Cognitive Penalty: Ablating System 1 and System 2 Reasoning in Edge-Native SLMs for Decentralized Consensus

Apr 18

BySyed Muhammad Aqdas Rizvi

Децентрализованные автономные организации (ДАО) проявляют склонность к исследованию малых языковых моделей (SLM) в качестве эдж-нативных конституционных файрволов для проверки предложений и противодействия семантическому социальному инжинирингу. Хотя масштабирование вычислительных ресурсов на этапе логического вывода (Система 2) усиливает формальную логику, её эффективность в высоко-адверсивных криптоэкономических средах управления остаётся недостаточно изученной. Для решения этой проблемы мы представляем Sentinel-Bench, эмпирический фреймворк на 840 выводах, проводящий строгое внутримодельное абляционное исследование на Qwen-3.5-9B. Переключая латентные рассуждения поверх замороженных весов, мы изолируем влияние вычислительных ресурсов логического вывода на адверсивном наборе данных Optimism DAO. Наши результаты выявляют серьёзную инверсию «вычисления-точность». Авторегрессионный базовый уровень (Система 1) продемонстрировал 100% устойчивость к атакам, 100% юридическую согласованность и финализацию состояния менее чем за 13 секунд. Напротив, рассуждения Системы 2 привнесли катастрофическую нестабильность, фундаментально обусловленную 26,7% уровнем не-сходимости рассуждений (когнитивный коллапс). Этот коллапс снизил стабильность консенсуса между попытками до 72,6% и привёл к 17-кратным задержкам, создав критические уязвимости для извлекаемой стоимости управления (GEV) и централизации аппаратного обеспечения. Хотя и редко (1,5% адверсивных испытаний), мы эмпирически зафиксировали «рассужденчески-индуцированный сикофантство», когда модель генерировала значительно более длинные внутренние монологи (в среднем 25 750 символов) для рационализации провала в адверсивной ловушке. Мы заключаем, что для эдж-нативных SLM, функционирующих в условиях византийской отказоустойчивости (BFT), параметризованная интуиция Системы 1 структурно и экономически превосходит итеративные обсуждения Системы 2 для децентрализованного консенсуса. Код и набор данных: https://github.com/smarizvi110/sentinel-bench

Цепь рассуждений снижает способности мультимодальных больших языковых моделей к визуально-пространственному мышлению
Chain-of-Thought Degrades Visual Spatial Reasoning Capabilities of Multimodal LLMs

Apr 17

BySai Srinivas Kancheti, Aditya Sanjiv Kanade, Vineeth N. Balasubramanian, Tanuja Ganu

Мультимодальные модели рассуждений (MRM), использующие цепочечное мышление (Chain-of-Thought, CoT), произвели революцию в решении математических и логических задач. Однако мы показываем, что данная парадигма испытывает трудности с обобщенным пространственным интеллектом. Мы проводим комплексную оценку семнадцати моделей на тринадцати пространственных бенчмарках и выявляем критический пробел: использование CoT-подсказок последовательно ухудшает результаты в задачах визуально-пространственного рассуждения. Более того, с помощью нового метода абляции No-Image++ мы демонстрируем, что MRM и языковые модели с CoT-подсказками подвержены серьезному обучению с использованием «коротких путей» и галлюцинируют визуальные детали на основе текстовых предикторов, даже когда изображение отсутствует. Эти результаты ставят под сомнение эффективность текстового CoT для пространственных задач и подчеркивают необходимость создания ориентированных на зрительное восприятие парадигм рассуждений.

Разумный взгляд: эталон визуальной абстракции, трансформации и композиции для мультимодальных языковых моделей
Mind's Eye: A Benchmark of Visual Abstraction, Transformation and Composition for Multimodal LLMs

Apr 17

ByRohit Sinha, Aditya Kanade, Sai Srinivas Kancheti, Vineeth N Balasubramanian, Tanuja Ganu

Мультимодальные большие языковые модели (МБЯМ) демонстрируют впечатляющий прогресс в решении стандартных задач по обработке визуальной информации и языка, однако их способности к визуальному познанию и пространственно-зрительным рассуждениям остаются малоизученными. Мы представляем "Мысленный взор" — тестовый набор с множественным выбором, состоящий из восьми заданий на визуально-когнитивные способности, вдохновленных классическими тестами на интеллект и организованных по новой таксономии "А-О-П": Абстракция, Отношения и Преобразование. Задания исследуют ключевые процессы подвижного интеллекта, такие как индукция паттернов, установление аналогий и мысленное преобразование. Мы оцениваем разнообразный набор проприетарных и открытых МБЯМ и сравниваем их результаты с показателями людей-участников. Люди достигают точности в 80%, в то время как лучшие модели МБЯМ показывают результат ниже 50%. Анализ ошибок выявляет недостатки в: (i) распределении зрительного внимания, (ii) внутреннем перцептивном манипулировании и (iii) слабой абстракции базовых визуальных концептов. Наши результаты свидетельствуют, что современные МБЯМ обладают ограниченными способностями к пространственно-зрительным рассуждениям по сравнению с человеком, что подчеркивает необходимость разработки более обоснованных с когнитивной точки зрения оценочных методик.

SPRITE: От статичных макетов до готового к движку игрового интерфейса
SPRITE: From Static Mockups to Engine-Ready Game UI

Mar 18

ByYunshu Bai, RuiHao Li, Hao Zhang, Chien Her Lim, Ming Yan, Mengtian Li

Реализация игрового интерфейса требует преобразования стилизованных макетов в интерактивные сущности движка. Однако современные инструменты типа "Screenshot-to-Code" часто не справляются с нерегулярной геометрией и сложными визуальными иерархиями, характерными для игровых интерфейсов. Для преодоления этого разрыва мы представляем SPRITE — конвейер, преобразующий статические скриншоты в редактируемые ассеты движка. Интегрируя модели "Vision-Language" (VLM) со структурированным промежуточным представлением на основе YAML, SPRITE явно захватывает сложные отношения контейнеров и нерегулярные макеты. Мы оценили SPRITE на специально созданном бенчмарке игровых UI и провели экспертные обзоры с профессиональными разработчиками для оценки точности реконструкции и эффективности прототипирования. Наши результаты демонстрируют, что SPRITE упрощает разработку, автоматизируя рутинное кодирование и разрешая сложные вложенные структуры. Обеспечивая быструю итерацию непосредственно в движке, SPRITE эффективно стирает границы между художественным дизайном и технической реализацией в игровой разработке. Страница проекта: https://baiyunshu.github.io/sprite.github.io/