HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

17 papers found

GLM-5V-Turbo: на пути к нативной базовой модели для мультимодальных агентов
GLM-5V-Turbo: Toward a Native Foundation Model for Multimodal Agents

Apr 29

ByV Team, Wenyi Hong, Xiaotao Gu, Ziyang Pan, Zhen Yang, Yuting Wang, Yue Wang, Yuanchang Yue, Yu Wang, Yanling Wang, Yan Wang, Xijun Liu, Wenmeng Yu, Weihan Wang, Wei Li, Shuaiqi Duan, Sheng Yang, Ruiliang Lv, Mingdao Liu, Lihang Pan, Ke Ning, Junhui Ji, Jinjiang Wang, Jing Chen, Jiazheng Xu, Jiale Zhu, Jiale Cheng, Ji Qi, Guobing Gan, Guo Wang, Cong Yao, Zijun Dou, Zihao Zhou, Zihan Wang, Zhiqi Ge, Zhijie Li, Zhenyu Hou, Zhao Xue, Zehui Wang, Zehai He, Yusen Liu, Yukuo Cen, Yuchen Li, Yuan Wang, Yijian Lu, Yanzi Wang, Yadong Xue, Xinyu Zhang, Xinyu Liu, Wenkai Li, Tianyu Tong, Tianshu Zhang, Shengdong Yan, Qinkai Zheng, Mingde Xu, Licheng Bao, Jiaxing Xu, Jiaxin Fan, Jiawen Qian, Jiali Chen, Jiahui Lin, Haozhi Zheng, Haoran Wang, Haochen Li, Fan Yang, Dan Zhang, Chuangxin Zhao, Chengcheng Wu, Boyan Shi, Bowei Jia, Baoxu Wang, Peng Zhang, Debing Liu, Bin Xu, Juanzi Li, Minlie Huang, Yuxiao Dong, Jie Tang

Мы представляем GLM-5V-Turbo — шаг к созданию полноценных базовых моделей для мультимодальных агентов. По мере того как базовые модели все чаще развертываются в реальных средах, агентские возможности зависят не только от языковых рассуждений, но и от способности воспринимать, интерпретировать и действовать в гетерогенных контекстах, таких как изображения, видео, веб-страницы, документы и графические интерфейсы. GLM-5V-Turbo создан вокруг этой цели: мультимодальное восприятие интегрировано как ядерный компонент рассуждений, планирования, использования инструментов и исполнения, а не как вспомогательный интерфейс к языковой модели. В данном отчете суммированы ключевые улучшения, лежащие в основе GLM-5V-Turbo, в области дизайна модели, мультимодального обучения, обучения с подкреплением, расширения инструментария и интеграции с агентскими фреймворками. Эти разработки приводят к высокой производительности в мультимодальном программировании, использовании визуальных инструментов и агентских задачах на основе фреймворков, сохраняя при этом конкурентоспособные возможности текстового программирования. Что более важно, наш процесс разработки предлагает практические инсайты для создания мультимодальных агентов, подчеркивая центральную роль мультимодального восприятия, иерархической оптимизации и надежной сквозной верификации.

Крупные языковые модели исследуют пространство через латентное дистиллирование
Large Language Models Explore by Latent Distilling

Apr 27

ByYuanhao Zeng, Ao Lu, Lufei Li, Zheng Zhang, Yexin Li, Kan Ren

Генерация разнообразных ответов крайне важна для масштабирования больших языковых моделей (БЯМ) на этапе тестирования, однако стандартная стохастическая выборка в основном дает поверхностные лексические вариации, ограничивая семантическое исследование. В данной статье мы предлагаем Эксплоративную выборку (ESamp) — подход к декодированию, который явно поощряет семантическое разнообразие в процессе генерации. ESamp мотивирован известным наблюдением, что нейронные сети склонны делать прогнозы с меньшей ошибкой на входах, похожих на ранее встречавшиеся, и допускают большую ошибку прогнозирования на новых. Опираясь на это свойство, мы обучаем легковесный Дистиллятор на этапе тестирования, чтобы предсказывать глубинные скрытые представления БЯМ по ее поверхностным представлениям, моделируя переходы между представлениями разной глубины в БЯМ. Во время декодирования Дистиллятор непрерывно адаптируется к отображениям, индуцированным текущим контекстом генерации. ESamp использует ошибку прогнозирования как сигнал новизны для перевзвешивания кандидатных токенов-продолжений, условленных на текущем префиксе, тем самым смещая декодирование в сторону менее изученных семантических паттернов. ESamp реализован с помощью асинхронного конвейера обучения-вывода с накладными расходами не более 5% в худшем случае (1.2% в оптимизированной версии). Эмпирические результаты показывают, что ESamp значительно повышает эффективность Pass@k для моделей логического вывода, демонстрируя превосходную или сопоставимую производительность с сильными стохастическими и эвристическими базовыми методами. Примечательно, что ESamp достигает robustного обобщения на математических, научных и кодогенерационных бенчмарках и ломает компромисс между разнообразием и связностью в творческом письме. Наш код доступен по адресу: https://github.com/LinesHogan/tLLM.

RADIO-ViPE: Онлайн-тесно связанное многомодальное объединение для семантического SLAM с открытым словарем в динамических средах
RADIO-ViPE: Online Tightly Coupled Multi-Modal Fusion for Open-Vocabulary Semantic SLAM in Dynamic Environments

Apr 28

ByZaid Nasser, Mikhail Iumanov, Tianhao Li, Maxim Popov, Jaafar Mahmoud, Sergey Kolyubin

Мы представляем RADIO-ViPE (Reduce All Domains Into One — Video Pose Engine) — систему семантического SLAM в реальном времени, которая обеспечивает геометрически осознанное открыто-лексическое связывание, ассоциируя произвольные запросы на естественном языке с локализованными 3D-областями и объектами в динамических средах. В отличие от существующих подходов, требующих калиброванных RGB-D данных с известной позой, RADIO-ViPE работает непосредственно с сырыми монохромными RGB-видеопотоками, не требуя априорных данных о внутренних параметрах камеры, датчиках глубины или инициализации позы. Система тесно связывает мультимодальные эмбеддинги — охватывающие зрение и язык — полученные от агломеративных фундаментальных моделей (например, RADIO), с геометрической информацией о сцене. Эта связь осуществляется на этапах инициализации, оптимизации и через соединения в графе факторов для повышения согласованности карты на основе множества модальностей. Оптимизация обернута в адаптивные робастные ядра, разработанные для обработки как активно движущихся объектов, так и элементов сцены, перемещенных агентом (например, мебели, переставленной во время эгоцентрической сессии). Эксперименты показывают, что RADIO-ViPE достигает наилучших результатов на динамическом бенчмарке TUM-RGBD, сохраняя при этом конкурентоспособную производительность по сравнению с офлайн-методами открытой лексики, которые полагаются на калиброванные данные и предположения о статичности сцены. RADIO-ViPE устраняет критический пробел в практическом развертывании, обеспечивая надежное открыто-лексическое семантическое связывание для автономной робототехники и неограниченных видеопотоков в естественных условиях. Страница проекта: https://be2rlab.github.io/radio_vipe

ClawGym: Масштабируемая платформа для создания эффективных Claw-агентов
ClawGym: A Scalable Framework for Building Effective Claw Agents

Apr 29

ByFei Bai, Huatong Song, Shuang Sun, Daixuan Cheng, Yike Yang, Chuan Hao, Renyuan Li, Feng Chang, Yuan Wei, Ran Tao, Bryan Dai, Jian Yang, Wayne Xin Zhao

Среды типа Claw поддерживают многошаговые рабочие процессы с локальными файлами, инструментами и устойчивыми состояниями рабочего пространства. Однако масштабируемая разработка в таких средах остаётся ограниченной из-за отсутствия систематической инфраструктуры, в частности, для синтеза верифицируемых обучающих данных и их интеграции с обучением агентов и диагностической оценкой. Для решения этой проблемы мы представляем ClawGym — масштабируемую инфраструктуру, поддерживающую полный жизненный цикл разработки персональных агентов в стиле Claw. Конкретно мы создаём ClawGym-SynData — разнообразный набор из 13,5 тыс. отфильтрованных задач, синтезированных на основе персонализированных интентов и операций, основанных на навыках, в паре с реалистичными макетами рабочих пространств и гибридными механизмами верификации. Затем мы обучаем семейство эффективных моделей в стиле Claw, названных ClawGym-Agents, с помощью контролируемого тонкого обучения на траекториях развёртывания типа "чёрный ящик", а также исследуем обучение с подкреплением через облегчённый конвейер, параллелизующий развёртывание в песочницах для каждой задачи. Для обеспечения достоверной оценки мы дополнительно создаём ClawGym-Bench — бенчмарк из 200 экземпляров, откалиброванных с помощью автоматической фильтрации и проверки человеком-LLM. Соответствующие ресурсы будут скоро выпущены по адресу https://github.com/ClawGym.

Переворачивая TIDE: Межархитектурное дистилляция для диффузионных больших языковых моделей
Turning the TIDE: Cross-Architecture Distillation for Diffusion Large Language Models

Apr 29

ByGongbo Zhang, Wen Wang, Ye Tian, Li Yuan

Диффузионные большие языковые модели (dLLM) обеспечивают параллельное декодирование и двунаправленный контекст, однако современные dLLM требуют миллиарды параметров для достижения конкурентоспособной производительности. В то время как существующие методы дистилляции для dLLM сокращают количество шагов вывода в рамках одной архитектуры, ни один из них не решает задачу кросс-архитектурного переноса знаний, при котором учитель и ученик различаются архитектурой, механизмом внимания и токенизатором. Мы представляем TIDE — первую систему кросс-архитектурной дистилляции dLLM, состоящую из трёх модульных компонентов: (1) TIDAL, который совместно модулирует интенсивность дистилляции в зависимости от прогресса обучения и шага диффузии, учитывая зависимую от шума надёжность учителя; (2) CompDemo, обогащающий контекст учителя с помощью комплементарного разделения масок для улучшения предсказаний при сильном маскировании; и (3) Reverse CALM — кросс-токенизаторную цель, инвертирующую согласование правдоподобия на уровне чанков, что обеспечивает ограниченные градиенты и двустороннюю фильтрацию шума. Дистилляция 8B плотной и 16B MoE моделей-учителей в 0.6B модель-ученика по двум гетерогенным конвейерам превосходит базовый уровень в среднем на 1.53 пункта по восьми тестам, демонстрируя значительный прирост в генерации кода, где результаты на HumanEval достигают 48.78 против 32.3 у AR-базиса.

Шаблоны диффузии: унифицированная плагин-архитектура для управляемой диффузии
Diffusion Templates: A Unified Plugin Framework for Controllable Diffusion

Apr 27

ByZhongjie Duan, Hong Zhang, Yingda Chen

Методы управляемой диффузии значительно расширили практическую применимость диффузионных моделей, однако обычно они разрабатываются как изолированные системы, привязанные к конкретным базовым архитектурам, с несовместимыми процессами обучения, форматами параметров и runtime-хуками. Эта фрагментация затрудняет повторное использование инфраструктуры между задачами, перенос возможностей между различными архитектурами или композицию нескольких управляющих воздействий в рамках единого конвейера генерации. Мы представляем Diffusion Templates — унифицированную и открытую плагин-архитектуру, которая отделяет базовый вывод модели от инжектирования управляющих возможностей. Фреймворк организован вокруг трёх компонентов: Template-моделей, которые преобразуют произвольные входные данные задачи в промежуточное представление возможностей; Template-кэша, функционирующего как стандартизированный интерфейс для инжектирования возможностей; и Template-конвейера, который загружает, объединяет и инжектирует один или несколько Template-кэшей в runtime базовой диффузионной модели. Поскольку интерфейс определён на системном уровне, а не привязан к конкретной управляющей архитектуре, разнородные носители возможностей, такие как KV-Cache и LoRA, могут поддерживаться в рамках единой абстракции. На основе этой архитектуры мы создали обширный зоопарк моделей, охватывающий структурное управление, регулировку яркости, цветокоррекцию, редактирование изображений, сверхразрешение, повышение резкости, эстетическую адаптацию, контентные ссылки, локальное inpaint-заполнение и управление возрастом. Эти кейс-стади демонстрируют, что Diffusion Templates способны унифицировать широкий спектр задач управляемой генерации, сохраняя модульность, композируемость и практическую расширяемость в условиях быстрой эволюции диффузионных базовых архитектур. Все ресурсы, включая код, модели и наборы данных, будут открыты.

FAMA: Метаагентный фреймворк с учетом сбоев для открытых LLM в интерактивных средах с использованием инструментов
FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments

Apr 28

ByAmir Saeidi, Venkatesh Mishra, Souradeep Mukhopadhyay, Gaowen Liu, Ali Payani, Jayanth Srinivasa, Chitta Baral

Крупные языковые модели все чаще используются в качестве ядра принятия решений автономных агентов, способных вносить изменения во внешнюю среду. Однако в диалоговых тестах, которые моделируют сценарии решения клиентоориентированных проблем в реальном мире, эти агенты часто терпят неудачу из-за каскадных эффектов неправильного принятия решений. Эти проблемы особенно выражены у моделей с открытым исходным кодом, имеющих меньший размер параметров, ограниченное окно контекста и сжатый бюджет вывода, что способствует накоплению ошибок в агентских сценариях. Для решения этих проблем мы представляем мета-агентный фреймворк с учетом ошибок (FAMA). FAMA работает в два этапа: сначала анализирует траектории неудач базовых агентов для выявления наиболее распространенных ошибок; затем использует механизм оркестровки, который активирует минимальное подмножество специализированных агентов, настроенных на устранение этих сбоев путем внедрения целевого контекста для агента использования инструментов до этапа принятия решений. Эксперименты с открытыми языковыми моделями демонстрируют повышение производительности до 27% в различных режимах оценки по сравнению со стандартными базовыми показателями. Эти результаты подчеркивают, что целевой отбор контекста через специализированных агентов для устранения распространенных сбоев является ценным принципом проектирования для создания надежных многоходовых агентов с использованием инструментов, моделирующих реальные диалоговые сценарии.

Унифицированное 4D моделирование мировых действий на основе видеоприоров с асинхронным шумоподавлением
Unified 4D World Action Modeling from Video Priors with Asynchronous Denoising

Apr 29

ByJun Guo, Qiwei Li, Peiyan Li, Zilong Chen, Nan Sun, Yifei Su, Heyun Wang, Yuan Zhang, Xinghang Li, Huaping Liu

Мы представляем X-WAM — унифицированную 4D-модель мира, которая объединяет выполнение роботизированных действий в реальном времени и синтез высокоточной 4D-модели мира (видео + 3D-реконструкция) в единой системе. Это решает ключевые ограничения предыдущих унифицированных моделей мира (например, UWM), которые моделируют только 2D-пиксельное пространство и не способны сбалансировать эффективность действий и качество моделирования мира. Чтобы использовать сильные визуальные априорные знания предобученных моделей диффузии видео, X-WAM предсказывает будущее состояние мира, генерируя RGB-D видео с нескольких ракурсов, и эффективно получает пространственную информацию за счёт лёгкой структурной адаптации: дублирования последних блоков предобученного Diffusion Transformer в выделенную ветку предсказания глубины для реконструкции будущей пространственной информации. Кроме того, мы предлагаем Асинхронный Сэмплинг Шума (ANS) для совместной оптимизации качества генерации и эффективности декодирования действий. ANS применяет специализированный асинхронный график денойзинга на этапе вывода, который быстро декодирует действия за меньшее число шагов для обеспечения эффективного выполнения в реальном времени, в то время как полная последовательность шагов посвящена генерации высококачественного видео. Вместо полного разделения временных шагов на этапе обучения, ANS производит сэмплирование из их совместного распределения для согласования с распределением на этапе вывода. Предобученная на более чем 5800 часах роботизированных данных, X-WAM достигает среднего показателя успеха 79.2% и 90.7% на бенчмарках RoboCasa и RoboTwin 2.0, одновременно создавая высококачественную 4D-реконструкцию и генерацию, превосходящую существующие методы как по визуальным, так и по геометрическим метрикам.

Ускорение посттренировочных прогонов RL с помощью системной спекулятивной декодирования
Accelerating RL Post-Training Rollouts via System-Integrated Speculative Decoding

Apr 29

ByHayate Iso, Tiyasa Mitra, Sudipta Mondal, Rasoul Shafipour, Venmugil Elango, Terry Kong, Yuki Huang, Seonjin Na, Izzy Putterman, Benjamin Chislett, Maor Ashkenazi, Joseph Guman, Gerald Shen, Tugrul Konuk, Ashwath Aithal, Ritika Borkar, Ran Zilberstein, Bita Rouhani

Пост-обучение с подкреплением (RL) передовых языковых моделей все чаще ограничивается скоростью генерации автогрессивных разверток (rollouts), что делает ускорение разверток ключевой задачей в области систем. Многие существующие методы повышения эффективности увеличивают пропускную способность за счет изменения режима развертки или оптимизации, например, с помощью исполнения вне политики (off-policy), повторного использования опыта (replay) или генерации с пониженной точностью. Мы исследуем спекулятивное декодирование (speculative decoding) как метод безубыточного ускорения RL-разверток, который сохраняет выходное распределение целевой модели. Мы реализовали спекулятивное декодирование в NeMo-RL с использованием бэкенда vLLM, поддерживая как синхронные, так и асинхронные конвейеры и обеспечивая возможность спекуляции во время RL-разверток. Это преимущество реализуемо для различных механизмов спекуляции, таких как предобученные MTP-головы (Mixture-of-Experts Token Prediction), небольшие внешние черновые модели (draft models) или даже такие методы, как Eagle3, которые традиционно применяются после фазы RL. Это открывает путь к внедрению передовых методов спекулятивного декодирования непосредственно в процесс RL-обучения. В задаче пост-обучения рассуждениям для модели масштаба 8 млрд параметров в условиях синхронного RL спекулятивное декодирование повышает пропускную способность разверток в 1,8 раза. Используя высокоточный симулятор производительности, мы прогнозируем, что комбинация спекулятивного декодирования с асинхронным RL позволяет достичь до 2,5-кратного ускорения сквозного обучения для модели масштаба 235 млрд параметров.

Управление на уровне операционного слоя для ончейн-агентов на основе языковых моделей в условиях реального капитала
Operating-Layer Controls for Onchain Language-Model Agents Under Real Capital

Apr 28

ByT. J. Barton, Chris Constantakis, Patti Hauseman, Annie Mous, Alaska Hoffman, Brian Bergeron, Hunter Goodreau

Мы исследуем надежность автономных агентов на основе языковых моделей, которые преобразуют пользовательские предписания в проверенные инструментальные действия при работе с реальным капиталом. Эксперимент проводился в рамках DX Terminal Pro — 21-дневного развертывания, в ходе которого 3505 агентов, финансируемых пользователями, торговали реальным ETH на ограниченном ончейн-рынке. Пользователи настраивали хранилища через структурированные контролы и стратегии на естественном языке, но только агенты могли выбирать обычные сделки купли/продажи. Система сгенерировала 7,5 млн вызовов агентов, примерно 300 тыс. ончейн-действий, объем торгов около $20 млн, более 5000 развернутого ETH, примерно 70 млрд токенов вывода и 99,9% успешных расчетов по транзакциям, прошедшим проверку политик. Долгоработающие агенты накапливали тысячи последовательных решений, включая более 6000 циклов «промпт-состояние-действие» для постоянно активных агентов, что дало масштабную трассировку от пользовательского предписания до сформированного промпта, рассуждений, проверки, состояния портфеля и расчета. Надежность обеспечивалась не только базовой моделью; она возникала на операционном уровне вокруг модели: компиляция промптов, типизированные контролы, проверка политик, защита исполнения, архитектура памяти и трассируемость на уровне цепочек действий. Предварительное тестирование выявило сбои, которые редко измеряются в текстовых бенчмарках, включая фабрикацию торговых правил, паралич из-за комиссий, числовую анкеровку, торговлю по ритму и неверное прочтение токеномики. Целевые изменения в системе снизили долю сфабрикованных правил продажи с 57% до 3%, уменьшили наблюдения, вызванные комиссиями, с 32,5% до менее 10%, и увеличили развертывание капитала с 42,9% до 78,0% в тестовой группе, подверженной этим проблемам. Мы показываем, что агенты, управляющие капиталом, должны оцениваться по всему пути от пользовательского предписания до промпта, проверенного действия и расчета.

Обзор симуляции пользовательского диалога на основе больших языковых моделей
A Survey on LLM-based Conversational User Simulation

Apr 27

ByBo Ni, Leyao Wang, Yu Wang, Branislav Kveton, Franck Dernoncourt, Yu Xia, Hongjie Chen, Reuben Leura, Samyadeep Basu, Subhojyoti Mukherjee, Puneet Mathur, Nesreen Ahmed, Junda Wu, Li Li, Huixin Zhang, Ruiyi Zhang, Tong Yu, Sungchul Kim, Jiuxiang Gu, Zhengzhong Tu, Alexa Siu, Zichao Wang, David Seunghyun Yoon, Nedim Lipka, Namyong Park, Zihao Lin, Trung Bui, Yue Zhao, Tyler Derr, Ryan A. Rossi

Моделирование пользователей давно играет важнейшую роль в информатике благодаря своему потенциалу для поддержки широкого спектра приложений. Язык, являясь основным средством человеческого общения, составляет основу социального взаимодействия и поведения. Как следствие, моделирование разговорного поведения стало ключевой областью исследований. Недавние достижения в области больших языковых моделей (БЯМ) значительно ускорили прогресс в этой области, позволив генерировать синтетические пользовательские диалоги с высокой точностью. В данной статье мы рассматриваем последние достижения в области моделирования диалоговых пользователей на основе БЯМ. Мы представляем новую таксономию, охватывающую гранулярность пользователя и цели моделирования. Кроме того, мы систематически анализируем основные методы и методологии оценки. Наша цель — информировать научное сообщество о последних достижениях в области моделирования диалоговых пользователей и способствовать дальнейшим исследованиям, выявляя нерешенные проблемы и систематизируя существующие работы в рамках единой структуры.

PSP: интерпретируемый бенчмарк акцентирования по измерениям для индийского синтеза речи
PSP: An Interpretable Per-Dimension Accent Benchmark for Indic Text-to-Speech

Apr 28

ByVenkata Pushpak Teja Menta

Стандартные методы оценки систем синтеза речи (TTS) измеряют разборчивость (WER, CER) и общую естественность (MOS, UTMOS), но не позволяют количественно оценить акцент. Синтезатор может показывать высокие результаты по всем четырем параметрам, но при этом звучать неносительно в аспектах, которые являются фонематически значимыми для целевого языка. Для индийских языков такими особенностями являются ретрофлексная артикуляция, аспирация, долгота гласных и ретрофлексный аппроксимант в тамильском языке (буква «zha»). Мы представляем PSP (Phoneme Substitution Profile) — интерпретируемый бенчмарк акцента по отдельным фонологическим параметрам для индийских TTS. PSP декомпозирует акцент на шесть взаимодополняющих измерений: частоту коллапса ретрофлексных (RR), верность аспирации (AF), верность долготы гласных (LF), верность тамильского «zha» (ZF), расстояние Фреше для аудио (FAD) и дивергенцию просодической сигнатуры (PSD). Первые четыре измеряются с помощью вынужденного выравнивания и акустических проб на основе центроидов носителей языка в пространстве эмбеддингов слоя 9 модели Wav2Vec2-XLS-R; последние два представляют собой корпусные распределительные расстояния. В данной версии v1 мы проводим сравнительный анализ четырех коммерческих и открытых систем (ElevenLabs v3, Cartesia Sonic-3, Sarvam Bulbul, Indic Parler-TTS) на пилотных наборах данных для хинди, телугу и тамильского языка, с включением пятой системы (Praxy Voice) для всех трех языков, а также тематическое исследование R5->R6 для телугу. Три ключевых вывода: (i) частота коллапса ретрофлексных монотонно возрастает с увеличением фонологической сложности: хинди < телугу < тамильский (~1%, ~40%, ~68%); (ii) порядок систем по PSP расходится с порядком по WER — лидеры по WER среди коммерческих систем не являются единообразными лидерами по верности ретрофлексных или просодики; (iii) ни одна система не является Парето-оптимальной по всем шести измерениям. Мы публикуем референсные центроиды носителей (500 клипов на язык), эмбеддинги 1000 клипов для FAD, матрицы просодических признаков 500 клипов для PSD, золотые эталонные наборы из 300 высказываний на язык, код оценки под лицензией MIT и центроиды под лицензией CC-BY. Формальное исследование корреляции с MOS отложено до версии v2; в v1 приводятся пять сигналов внутренней согласованности, а также проверка на аудио носителей.

Пракси Голос: Восстановление голоса по промптам + BUPS для коммерческого индийского TTS на основе замороженной неиндийской модели с нулевой стоимостью коммерческих обучающих данных
Praxy Voice: Voice-Prompt Recovery + BUPS for Commercial-Class Indic TTS from a Frozen Non-Indic Base at Zero Commercial-Training-Data Cost

Apr 28

ByVenkata Pushpak Teja Menta

Коммерческие системы синтеза речи (TTS) генерируют звук, близкий к нативному для индийских языков, однако лучшие открытые основы (Chatterbox, Indic Parler-TTS, IndicF5) уступают им по измеряемым фонологическим параметрам, а наиболее широко используемая многоязычная база (Chatterbox, 23 языка) даже не токенизирует телугу или тамильский. Мы задаемся вопросом: каково минимальное вмешательство, которое позволяет такой ненативной для индийских языков базе достичь коммерческого уровня качества выходного аудио для телугу, тамильского и хинди, без обучения нового акустического декодера и без использования каких-либо коммерческих обучающих данных для TTS? Мы объединяем три компонента: (1) BUPS, унифицированное фонемное пространство для брахмических письменностей, которое детерминировано романизирует семь индийских письменностей в стандарт ISO-15919, чтобы токенизатор Chatterbox для латиницы мог их обрабатывать; (2) адаптер LoRA, применяемый только к предиктору текстовых токенов (модуль t3 в Chatterbox), обученный на ~1220 часах лицензированного индийского аудио с языковой меткой language_id в качестве прокси для хинди; (3) рецепт восстановления голоса по промпту — эталонный фрагмент длительностью 8-11 секунд на том же языке плюс три параметра переопределения сэмплирования (преувеличение 0.7, температура 0.6, min_p 0.1; "Конфигурация B") — который восстанавливает акустический выход коммерческого уровня без обучения акустического декодера. Для хинди LoRA снижает точность, и мы вместо этого используем vanilla Chatterbox + Конфигурацию B, что дает двухветвевое развертывание. По оценкам на пилотных наборах из 10 фраз с использованием сопутствующего бенчмарка PSP, система Praxy Voice соответствует или незначительно превосходит коммерческие базовые линии: 26.7% коллапса ретрофлексных согласных на телугу (против 33.3% у Sarvam Bulbul), 71% коллапса тамильского звука 'zha' (против 86% у трио коммерческих систем), LLM-WER 0.025 на хинди (наравне с Cartesia Sonic-3). Для внутрифразового кодового смешения мы добавляем третью ветвь (IndicF5 + транслитерация нативной письменности), которая снижает LLM-WER для кодового смешения с 0.80-0.85 до 0.14-0.27 для хинди/телугу/тамильского. Мы публикуем веса LoRA R6 (лицензия Apache-2.0), код и маршрутизатор для вывода (лицензия MIT), а также демо-интерфейс на Gradio.

FASH-iCNN: Обеспечение проверяемости редакторской моды через мультимодальное зондирование сверточной нейронной сети
FASH-iCNN: Making Editorial Fashion Identity Inspectable Through Multimodal CNN Probing

Apr 29

ByMorayo Danielle Adeyemi, Ryan A. Rossi, Franck Dernoncourt

Системы искусственного интеллекта в сфере моды регулярно кодируют эстетическую логику конкретных домов моды, редакторов и исторических периодов, не раскрывая её. Мы представляем FASH-iCNN, мультимодальную систему, обученную на 87 547 изображениях с показов Vogue от 15 домов моды за период с 1991 по 2024 год, которая делает эту культурную логику доступной для анализа. Получив фотографию предмета одежды, система определяет, какой дом моды его создал, к какой эпохе он принадлежит и какую цветовую традицию отражает. Модель, работающая только с изображением одежды, идентифицирует дом моды с точностью 78,2% (top-1) для 14 домов, десятилетие — с точностью 88,6% (top-1), а конкретный год — с точностью 58,3% (top-1) за 34 года со средней ошибкой всего 2,2 года. Исследование визуальных каналов, несущих этот сигнал, выявляет чёткое различие: удаление цвета снижает точность идентификации дома моды лишь на 10,6 п.п., тогда как удаление текстуры снижает её на 37,6 п.п., что подтверждает текстуру и яркость в качестве основных носителей редакционной идентичности. FASH-iCNN рассматривает редакционную культуру как сигнал, а не как фоновый шум, определяя, какие дома моды, эпохи и цветовые традиции повлияли на каждый результат, чтобы пользователи могли видеть не только прогноз системы, но и то, какие дома моды, редакторы и исторические моменты закодированы в этом прогнозе.

Исследование визуального планирования в моделях редактирования изображений
Probing Visual Planning in Image Editing Models

Apr 23

ByZhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma

Визуальное планирование представляет собой ключевой аспект человеческого интеллекта, особенно в задачах, требующих сложного пространственного мышления и навигации. Однако в машинном обучении эта по своей сути визуальная проблема часто решается через вербально-ориентированную призму. Хотя последние исследования демонстрируют перспективность полностью визуальных подходов, они страдают от значительной вычислительной неэффективности из-за пошаговой парадигмы планирования-через-генерацию. В данной работе мы представляем EAR — парадигму редактирования-как-рассуждения, которая переформулирует визуальное планирование как одношаговое преобразование изображения. Чтобы изолировать внутреннее рассуждение от визуального распознавания, мы используем абстрактные головоломки в качестве зондирующих задач и представляем AMAZE, процедурно генерируемый набор данных, включающий классические задачи Лабиринта и Ферзей, охватывающие различные, взаимодополняющие формы визуального планирования. Абстрактная природа AMAZE также способствует автоматической оценке авторегрессионных и диффузионных моделей как с точки зрения пиксельной точности, так и логической корректности. Мы оцениваем ведущие проприетарные и открытые модели редактирования. Результаты показывают, что все они испытывают трудности в условиях zero-shot, однако дообучение на базовых масштабах обеспечивает значительную генерализацию на более крупные внутридоменные масштабы, а также на внедоменные масштабы и геометрии. Тем не менее, наша лучшая модель, работающая на высокопроизводительном оборудовании, не может сравниться с эффективностью zero-shot человеческих решателей, что подчеркивает сохраняющийся разрыв в области нейронного визуального мышления.

Повышение конфиденциальности и эффективности коммуникации в не-IID федеративном обучении с адаптивным квантованием и дифференциальной конфиденциальностью
Enhanced Privacy and Communication Efficiency in Non-IID Federated Learning with Adaptive Quantization and Differential Privacy

Apr 25

ByEmre Ardıç, Yakup Genç

Федеративное обучение (ФО) — это распределенный метод машинного обучения, при котором множество устройств совместно обучают модель под управлением центрального сервера без обмена исходными данными. Одной из ключевых проблем ФО является коммуникационное узкое место, вызванное вариациями скорости соединения и пропускной способности между устройствами. Поэтому крайне важно уменьшать объем передаваемых данных в процессе обучения. Кроме того, существует потенциальный риск раскрытия конфиденциальной информации через анализ модели или градиентов во время обучения. Для решения проблем конфиденциальности и эффективности коммуникаций мы комбинируем методы дифференциальной приватности (ДП) и адаптивного квантования. Мы используем ДП на основе распределения Лапласа для обеспечения конфиденциальности, что остается относительно малоизученным в контексте ФО и обеспечивает более строгие гарантии приватности по сравнению с ДП на основе гауссовского механизма. Мы предлагаем простой и эффективный глобальный планировщик разрядности на основе косинусного аннилинга по раундам, а также клиентский планировщик, который динамически адаптируется на основе вклада клиента, оцениваемого через анализ энтропии набора данных. Мы оцениваем наш подход с помощью обширных экспериментов на наборах данных CIFAR-10, MNIST и медицинских изображений, используя не-IID распределения данных при различном количестве клиентов, планировщиках разрядности и бюджетах приватности. Результаты показывают, что наши методы адаптивного квантования сокращают общий объем передаваемых данных до 52,64% для MNIST, 45,06% для CIFAR-10 и от 31% до 37% для наборов медицинских изображений по сравнению с обучением на 32-битных числах с плавающей запятой, при этом сохраняя конкурентоспособную точность модели и обеспечивая надежную защиту приватности за счет дифференциальной приватности.

Отбор образцов с использованием многозадачных автоэнкодеров в федеративном обучении с неодинаково распределенными данными
Sample Selection Using Multi-Task Autoencoders in Federated Learning with Non-IID Data

Apr 28

ByEmre Ardıç, Yakup Genç

Федеративное обучение — это парадигма машинного обучения, в которой множество устройств совместно обучают модель под управлением центрального сервера при сохранении конфиденциальности данных. Однако его эффективность часто ограничивается из-за наличия избыточных, вредоносных или аномальных примеров, что приводит к деградации модели и снижению производительности. Для решения этих проблем мы предлагаем новые методы отбора примеров для классификации изображений, использующие многозадачный автоэнкодер для оценки вклада примеров на основе анализа потерь и признаков. Наш подход включает unsupervised-обнаружение выбросов с помощью методов one-class SVM (OCSVM), isolation forest (IF) и адаптивного порога потерь (AT), управляемых центральным сервером для фильтрации зашумленных примеров на клиентах. Мы также предлагаем многоклассовую функцию потерь на основе deep support vector data description (SVDD), контролируемую центральным сервером, для улучшения отбора примеров на основе признаков. Мы проверили наши методы на наборах данных CIFAR10 и MNIST при различном количестве клиентов, не-IID распределениях и уровне шума до 40%. Результаты демонстрируют значительное улучшение точности при отборе примеров по потерям: прирост до 7,02% на CIFAR10 с OCSVM и 1,83% на MNIST с AT. Кроме того, наша федеративная функция потерь SVDD дополнительно улучшает отбор примеров по признакам, обеспечивая прирост точности до 0,99% на CIFAR10 с OCSVM. Эти результаты подтверждают эффективность наших методов для повышения точности модели при различных количествах клиентов и уровнях шума.