HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

14 papers found

GLM-4.5: Агентные, Рассуждающие и Программирующие (ARC) Базовые Модели
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Aug 8

ByGLM-4. 5 Team, Aohan Zeng, Xin Lv, Qinkai Zheng, Zhenyu Hou, Bin Chen, Chengxing Xie, Cunxiang Wang, Da Yin, Hao Zeng, Jiajie Zhang, Kedong Wang, Lucen Zhong, Mingdao Liu, Rui Lu, Shulin Cao, Xiaohan Zhang, Xuancheng Huang, Yao Wei, Yean Cheng, Yifan An, Yilin Niu, Yuanhao Wen, Yushi Bai, Zhengxiao Du, Zihan Wang, Zilin Zhu, Bohan Zhang, Bosi Wen, Bowen Wu, Bowen Xu, Can Huang, Casey Zhao, Changpeng Cai, Chao Yu, Chen Li, Chendi Ge, Chenghua Huang, Chenhui Zhang, Chenxi Xu, Chenzheng Zhu, Chuang Li, Congfeng Yin, Daoyan Lin, Dayong Yang, Dazhi Jiang, Ding Ai, Erle Zhu, Fei Wang, Gengzheng Pan, Guo Wang, Hailong Sun, Haitao Li, Haiyang Li, Haiyi Hu, Hanyu Zhang, Hao Peng, Hao Tai, Haoke Zhang, Haoran Wang, Haoyu Yang, He Liu, He Zhao, Hongwei Liu, Hongxi Yan, Huan Liu, Huilong Chen, Ji Li, Jiajing Zhao, Jiamin Ren, Jian Jiao, Jiani Zhao, Jianyang Yan, Jiaqi Wang, Jiayi Gui, Jiayue Zhao, Jie Liu, Jijie Li, Jing Li, Jing Lu, Jingsen Wang, Jingwei Yuan, Jingxuan Li, Jingzhao Du, Jinhua Du, Jinxin Liu, Junkai Zhi, Junli Gao, Ke Wang, Lekang Yang, Liang Xu, Lin Fan, Lindong Wu, Lintao Ding, Lu Wang, Man Zhang, Minghao Li, Minghuan Xu, Mingming Zhao, Mingshu Zhai, Pengfan Du, Qian Dong, Shangde Lei, Shangqing Tu, Shangtong Yang, Shaoyou Lu, Shijie Li, Shuang Li, Shuang-Li, Shuxun Yang, Sibo Yi, Tianshu Yu, Wei Tian, Weihan Wang, Wenbo Yu, Weng Lam Tam, Wenjie Liang, Wentao Liu, Xiao Wang, Xiaohan Jia, Xiaotao Gu, Xiaoying Ling, Xin Wang, Xing Fan, Xingru Pan, Xinyuan Zhang, Xinze Zhang, Xiuqing Fu, Xunkai Zhang, Yabo Xu, Yandong Wu, Yida Lu, Yidong Wang, Yilin Zhou, Yiming Pan, Ying Zhang, Yingli Wang, Yingru Li, Yinpei Su, Yipeng Geng, Yitong Zhu, Yongkun Yang, Yuhang Li, Yuhao Wu, Yujiang Li, Yunan Liu, Yunqing Wang, Yuntao Li, Yuxuan Zhang, Zezhen Liu, Zhen Yang, Zhengda Zhou, Zhongpei Qiao, Zhuoer Feng, Zhuorui Liu, Zichen Zhang, Zihan Wang, Zijun Yao, Zikang Wang, Ziqiang Liu, Ziwei Chai, Zixuan Li, Zuodong Zhao, Wenguang Chen, Jidong Zhai, Bin Xu, Minlie Huang, Hongning Wang, Juanzi Li, Yuxiao Dong, Jie Tang

186

Мы представляем GLM-4.5, открытую модель крупного языка с архитектурой Mixture-of-Experts (MoE), содержащую 355 млрд общих параметров и 32 млрд активируемых параметров. Модель оснащена гибридным методом рассуждений, поддерживающим как режим мышления, так и режим прямого ответа. Благодаря многоэтапному обучению на 23 трлн токенов и комплексной пост-обработке, включающей итерации экспертных моделей и обучение с подкреплением, GLM-4.5 демонстрирует высокие результаты в задачах, связанных с агентными системами, рассуждениями и программированием (ARC), достигая 70,1% на TAU-Bench, 91,0% на AIME 24 и 64,2% на SWE-bench Verified. При значительно меньшем количестве параметров по сравнению с рядом конкурентов GLM-4.5 занимает 3-е место среди всех оцененных моделей и 2-е место в агентных тестах. Мы выпускаем как полную версию GLM-4.5 (355 млрд параметров), так и компактную версию, GLM-4.5-Air (106 млрд параметров), чтобы способствовать развитию исследований в области рассуждений и агентных ИИ-систем. Код, модели и дополнительная информация доступны по адресу https://github.com/zai-org/GLM-4.5.

Voost: Унифицированный и масштабируемый диффузионный трансформер для двунаправленной виртуальной примерки и снятия одежды
Voost: A Unified and Scalable Diffusion Transformer for Bidirectional Virtual Try-On and Try-Off

Aug 6

BySeungyong Lee, Jeong-gi Kwak

Виртуальная примерка ставит своей целью синтезировать реалистичное изображение человека в целевой одежде, однако точное моделирование соответствия между одеждой и телом остается сложной задачей, особенно при изменении позы и внешнего вида. В данной статье мы представляем Voost — унифицированную и масштабируемую структуру, которая совместно обучает виртуальную примерку и снятие одежды с использованием единого диффузионного трансформера. Моделируя обе задачи совместно, Voost позволяет каждой паре "одежда-человек" контролировать оба направления и поддерживает гибкое управление направлением генерации и категорией одежды, улучшая рассуждения о взаимосвязи одежды и тела без необходимости в специализированных сетях, вспомогательных функциях потерь или дополнительных метках. Кроме того, мы вводим две техники для этапа вывода: масштабирование температуры внимания для устойчивости к изменению разрешения или маски, и самокорректирующую выборку, которая использует двунаправленную согласованность между задачами. Многочисленные эксперименты демонстрируют, что Voost достигает наилучших результатов на бенчмарках как для примерки, так и для снятия одежды, стабильно превосходя сильные базовые модели по точности совмещения, визуальной достоверности и обобщаемости.

Memp: Исследование процедурной памяти агента
Memp: Exploring Agent Procedural Memory

Aug 8

ByRunnan Fang, Yuan Liang, Xiaobin Wang, Jialong Wu, Shuofei Qiao, Pengjun Xie, Fei Huang, Huajun Chen, Ningyu Zhang

Агенты на основе больших языковых моделей (LLM) демонстрируют высокие результаты в решении разнообразных задач, однако их процедурная память остается хрупкой, поскольку она либо создается вручную, либо заложена в статических параметрах. В данной работе мы исследуем стратегии, позволяющие наделить агентов обучаемой, обновляемой и долговременной процедурной памятью. Мы предлагаем подход Memp, который преобразует прошлые траектории агентов как в детализированные пошаговые инструкции, так и в более высокоуровневые, сценарные абстракции, и изучаем влияние различных стратегий на создание, извлечение и обновление процедурной памяти. В сочетании с динамическим режимом, который непрерывно обновляет, корректирует и устаревает свои данные, этот репозиторий развивается синхронно с новым опытом. Эмпирическая оценка на задачах TravelPlanner и ALFWorld показывает, что по мере уточнения репозитория памяти агенты достигают стабильно более высоких показателей успешности и большей эффективности в решении аналогичных задач. Более того, процедурная память, созданная на основе более мощной модели, сохраняет свою ценность: перенос этой памяти на менее мощную модель приводит к значительному улучшению производительности.

InfiGUI-G1: Развитие закрепления графического интерфейса с оптимизацией адаптивной стратегии исследования
InfiGUI-G1: Advancing GUI Grounding with Adaptive Exploration Policy Optimization

Aug 7

ByYuhang Liu, Zeyu Liu, Shuanghe Zhu, Pengxiang Li, Congkai Xie, Jiasheng Wang, Xueyu Hu, Xiaotian Han, Jianbo Yuan, Xinyao Wang, Shengyu Zhang, Hongxia Yang, Fei Wu

Появление мультимодальных больших языковых моделей (MLLMs) стимулировало развитие автономных агентов, работающих с графическими пользовательскими интерфейсами (GUI) на основе исключительно визуального ввода. Основной проблемой является надежное закрепление инструкций на естественном языке. Это требует точного пространственного выравнивания, которое корректно определяет координаты каждого элемента, и, что более важно, правильного семантического выравнивания, которое сопоставляет инструкции с функционально подходящим элементом интерфейса. Хотя обучение с подкреплением с проверяемыми наградами (RLVR) доказало свою эффективность в улучшении пространственного выравнивания для таких MLLMs, мы обнаружили, что неэффективное исследование ограничивает семантическое выравнивание, препятствуя изучению сложных семантических связей. Для решения этой проблемы исследования мы представляем Adaptive Exploration Policy Optimization (AEPO) — новую структуру оптимизации политик. AEPO использует стратегию генерации множественных ответов для обеспечения более широкого исследования, которое затем направляется теоретически обоснованной функцией адаптивной награды за исследование (AER), выведенной из принципов эффективности η=U/C. Наши модели, обученные с использованием AEPO, InfiGUI-G1-3B и InfiGUI-G1-7B, устанавливают новые рекорды на нескольких сложных тестах закрепления в GUI, демонстрируя значительные относительные улучшения до 9,0% по сравнению с базовым подходом RLVR на тестах, предназначенных для проверки обобщения и семантического понимания. Ресурсы доступны по адресу https://github.com/InfiXAI/InfiGUI-G1.

Обрезка непредсказуемого: эффективное рассуждение о коде через удивление первого токена
Pruning the Unsurprising: Efficient Code Reasoning via First-Token Surprisal

Aug 8

ByWenhao Zeng, Yaoning Wang, Chao Hu, Yuling Shi, Chengcheng Wan, Hongyu Zhang, Xiaodong Gu

Недавно крупные модели рассуждений (LRMs) продемонстрировали впечатляющие способности в анализе кода за счет масштабирования длины цепочки рассуждений (Chain-of-Thought, CoT). Однако чрезмерно длинные траектории рассуждений создают значительные трудности с точки зрения затрат на обучение, задержки при выводе и практической реализации. Хотя для решения этой проблемы появились различные подходы к сжатию CoT, они сталкиваются с неизбежными компромиссами: методы на уровне токенов часто нарушают синтаксическую и логическую согласованность, а методы на уровне шагов, основанные на перплексии, не могут надежно выделить логически важные этапы рассуждений. В данной статье мы предлагаем ASAP (Anchor-guided, Surprisal-based Pruning), новый двухэтапный фреймворк для сжатия CoT. ASAP сначала выполняет якорно-ориентированное сокращение, чтобы сохранить основную структуру рассуждений, что эффективно уменьшает пространство поиска для последующей обработки. Затем он обеспечивает логически осознанное сокращение, выбирая логически важные этапы рассуждений на основе новой метрики удивления первого токена. Наконец, ASAP обучает модели автономно генерировать и использовать эти сжатые CoT во время вывода, что позволяет эффективно выполнять рассуждения в задачах программирования. Эксперименты показывают, что ASAP достигает наивысшей точности на нескольких бенчмарках генерации кода, значительно снижая затраты на обучение и вывод. На сложном бенчмарке LiveCodeBench v4_v5 наш подход сокращает генерацию токенов на 23,5% и задержку вывода на 43,5% по сравнению с самым сильным базовым методом, при этом достигая конкурентоспособной точности 36,19% в метрике Pass@1. Наши результаты указывают на перспективное направление для создания мощных и эффективных LRMs.

Скрытая динамика массивных активаций при обучении трансформеров
Hidden Dynamics of Massive Activations in Transformer Training

Aug 5

ByJorge Gallego-Feliciano, S. Aaron McClendon, Juan Morinelli, Stavros Zervoudakis, Antonios Saravanos

Массивные активации — это скалярные значения в скрытых состояниях трансформеров, которые достигают значений на порядки больше, чем типичные активации, и, как было показано, критически важны для функциональности модели. Хотя предыдущие работы описывали эти явления в полностью обученных моделях, временная динамика их появления в процессе обучения остается плохо изученной. Мы представляем первый всесторонний анализ развития массивных активаций в ходе обучения трансформеров, используя семейство моделей Pythia в качестве тестовой платформы. С помощью систематического анализа моделей различных размеров на множестве контрольных точек обучения мы демонстрируем, что появление массивных активаций следует предсказуемым математическим закономерностям, которые могут быть точно смоделированы с использованием экспоненциально-модулированной логарифмической функции с пятью ключевыми параметрами. Мы разрабатываем машинно-обучаемую структуру для предсказания этих математических параметров исключительно на основе архитектурных спецификаций, достигая высокой точности для стационарного поведения и умеренной точности для времени и величины появления. Эти результаты позволяют архитекторам предсказывать и потенциально контролировать ключевые аспекты появления массивных активаций через выбор дизайна, что имеет значительные последствия для стабильности модели, длительности цикла обучения, интерпретируемости и оптимизации. Наши результаты показывают, что появление массивных активаций определяется дизайном модели и может быть предсказано, а потенциально и контролируемо, еще до начала обучения.

GENIE: Гауссово кодирование для интерактивного редактирования нейронных полей излучения
GENIE: Gaussian Encoding for Neural Radiance Fields Interactive Editing

Aug 4

ByMikołaj Zieliński, Krzysztof Byrski, Tomasz Szczepanik, Przemysław Spurek

Нейронные поля излучения (NeRF) и гауссово размытие (Gaussian Splatting, GS) недавно произвели революцию в представлении и рендеринге 3D-сцен. NeRF достигает высококачественного синтеза новых видов, обучая объемные представления с помощью нейронных сетей, но его неявное кодирование затрудняет редактирование и физическое взаимодействие. В отличие от этого, GS представляет сцены как явные коллекции гауссовых примитивов, что позволяет выполнять рендеринг в реальном времени, ускорять обучение и обеспечивать более интуитивное управление. Эта явная структура делает GS особенно подходящим для интерактивного редактирования и интеграции с физически основанными симуляциями. В данной статье мы представляем GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing), гибридную модель, которая сочетает фотореалистичное качество рендеринга NeRF с редактируемым и структурированным представлением GS. Вместо использования сферических гармоник для моделирования внешнего вида мы назначаем каждому гауссову примитиву обучаемое вложение признаков. Эти вложения используются для кондиционирования сети NeRF на основе k ближайших гауссовых примитивов к каждой точке запроса. Чтобы сделать это кондиционирование эффективным, мы вводим Ray-Traced Gaussian Proximity Search (RT-GPS), быстрый поиск ближайших гауссовых примитивов на основе модифицированного конвейера трассировки лучей. Мы также интегрируем многоуровневую хэш-сетку для инициализации и обновления гауссовых признаков. Вместе эти компоненты обеспечивают редактирование в реальном времени с учетом локальности: при перемещении или изменении гауссовых примитивов их интерполированное влияние сразу отражается в рендеринге. Сочетая преимущества неявных и явных представлений, GENIE поддерживает интуитивное управление сценами, динамическое взаимодействие и совместимость с физической симуляцией, устраняя разрыв между редактированием на основе геометрии и нейронным рендерингом. Код доступен по ссылке: https://github.com/MikolajZielinski/genie.

Адаптация моделей «зрение-язык» без использования меток: всесторонний обзор
Adapting Vision-Language Models Without Labels: A Comprehensive Survey

Aug 7

ByHao Dong, Lijun Sheng, Jian Liang, Ran He, Eleni Chatzi, Olga Fink

Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали выдающиеся способности к обобщению в широком спектре задач. Однако их производительность часто остается неоптимальной при прямом применении к конкретным сценариям без адаптации под конкретную задачу. Для повышения их полезности при сохранении эффективности использования данных в последних исследованиях все больше внимания уделяется методам неконтролируемой адаптации, которые не требуют размеченных данных. Несмотря на растущий интерес к этой области, до сих пор отсутствует единый, ориентированный на задачи обзор, посвященный неконтролируемой адаптации VLMs. Чтобы восполнить этот пробел, мы представляем всесторонний и структурированный обзор данной области. Мы предлагаем таксономию, основанную на доступности и характере немаркированных визуальных данных, классифицируя существующие подходы на четыре ключевые парадигмы: передача без данных (Data-Free Transfer), неконтролируемая передача между доменами (Unsupervised Domain Transfer), адаптация на этапе тестирования с использованием пакетных данных (Episodic Test-Time Adaptation) и адаптация на этапе тестирования в режиме реального времени (Online Test-Time Adaptation). В рамках этой структуры мы анализируем основные методологии и стратегии адаптации, связанные с каждой парадигмой, стремясь установить систематическое понимание области. Кроме того, мы рассматриваем репрезентативные бенчмарки для различных приложений и выделяем открытые вызовы и перспективные направления для будущих исследований. Активно поддерживаемый репозиторий соответствующей литературы доступен по адресу https://github.com/tim-learn/Awesome-LabelFree-VLMs.

MeshLLM: Расширение возможностей крупных языковых моделей для постепенного понимания и генерации 3D-мешей
MeshLLM: Empowering Large Language Models to Progressively Understand and Generate 3D Mesh

Aug 2

ByShuangkang Fang, I-Chao Shen, Yufeng Wang, Yi-Hsuan Tsai, Yi Yang, Shuchang Zhou, Wenrui Ding, Takeo Igarashi, Ming-Hsuan Yang

Мы представляем MeshLLM — инновационную структуру, которая использует большие языковые модели (LLM) для понимания и генерации текстово-сериализованных 3D-мешей. Наш подход решает ключевые ограничения существующих методов, включая ограниченный масштаб наборов данных при адаптации к длине токенов LLM и потерю структурной информации 3D-мешей в процессе сериализации. Мы вводим стратегию декомпозиции Primitive-Mesh, которая разделяет 3D-меши на структурно значимые подгруппы. Это позволяет создать крупномасштабный набор данных с более чем 1500 тыс. образцов, что почти в 50 раз превышает предыдущие методы и лучше соответствует принципам масштабирования LLM. Кроме того, мы предлагаем стратегии вывода связности граней из вершин и обучения локальной сборки мешей, что значительно улучшает способность LLM захватывать топологию мешей и пространственные структуры. Эксперименты показывают, что MeshLLM превосходит современную модель LLaMA-Mesh как в качестве генерации мешей, так и в понимании формы, подчеркивая его огромный потенциал в обработке текстово-сериализованных 3D-мешей.

OS-агенты: Обзор агентов на основе MLLM для универсальных вычислительных устройств
OS Agents: A Survey on MLLM-based Agents for General Computing Devices Use

Aug 6

ByXueyu Hu, Tao Xiong, Biao Yi, Zishu Wei, Ruixuan Xiao, Yurun Chen, Jiasheng Ye, Meiling Tao, Xiangxin Zhou, Ziyu Zhao, Yuhuai Li, Shengze Xu, Shenzhi Wang, Xinchen Xu, Shuofei Qiao, Zhaokai Wang, Kun Kuang, Tieyong Zeng, Liang Wang, Jiwei Li, Yuchen Eleanor Jiang, Wangchunshu Zhou, Guoyin Wang, Keting Yin, Zhou Zhao, Hongxia Yang, Fan Wu, Shengyu Zhang, Fei Wu

Мечта о создании искусственных интеллектуальных помощников, столь же способных и универсальных, как вымышленный J.A.R.V.I.S. из фильмов о Железном человеке, долгое время будоражила воображение. С развитием (мультимодальных) больших языковых моделей ((M)LLM) эта мечта стала ближе к реальности, поскольку агенты на основе (M)LLM, использующие вычислительные устройства (например, компьютеры и мобильные телефоны) и работающие в средах и интерфейсах (например, графический пользовательский интерфейс (GUI)), предоставляемых операционными системами (ОС) для автоматизации задач, значительно продвинулись. В данной статье представлен всесторонний обзор этих продвинутых агентов, обозначенных как ОС-агенты. Мы начинаем с разъяснения основ ОС-агентов, исследуя их ключевые компоненты, включая среду, пространство наблюдений и пространство действий, а также описываем основные возможности, такие как понимание, планирование и заземление. Затем мы рассматриваем методологии построения ОС-агентов, уделяя внимание специализированным базовым моделям и фреймворкам для агентов. Подробный обзор протоколов оценки и бенчмарков подчеркивает, как ОС-агенты оцениваются в различных задачах. Наконец, мы обсуждаем текущие вызовы и определяем перспективные направления для будущих исследований, включая безопасность и конфиденциальность, персонализацию и саморазвитие. Этот обзор направлен на консолидацию состояния исследований ОС-агентов, предоставляя инсайты для руководства как академическими изысканиями, так и промышленным развитием. Открытый репозиторий на GitHub поддерживается как динамический ресурс для стимулирования дальнейших инноваций в этой области. Мы представляем 9-страничную версию нашей работы, принятую на ACL 2025, чтобы предоставить краткий обзор данной области.

VLM4D: На пути к пространственно-временной осведомленности в моделях "визуальный язык"
VLM4D: Towards Spatiotemporal Awareness in Vision Language Models

Aug 4

ByShijie Zhou, Alexander Vilesov, Xuehai He, Ziyu Wan, Shuwang Zhang, Aditya Nagachandra, Di Chang, Dongdong Chen, Xin Eric Wang, Achuta Kadambi

Модели, объединяющие зрение и язык (Vision Language Models, VLMs), продемонстрировали впечатляющие способности в интеграции лингвистического и визуального мышления, но остаются фундаментально ограниченными в понимании динамических пространственно-временных взаимодействий. Люди без усилий отслеживают и анализируют движения объектов, их вращение и изменения перспективы — способности, которые критически важны для устойчивого понимания динамического реального мира, но которых заметно не хватает современным VLMs. В данной работе мы представляем VLM4D — первый бенчмарк, специально разработанный для оценки пространственно-временных способностей VLMs. Наш бенчмарк включает разнообразные реальные и синтетические видеоролики, сопровождаемые тщательно подобранными вопросами и ответами, акцентирующими внимание на поступательном и вращательном движении, осознании перспективы и непрерывности движения. В результате всесторонней оценки современных открытых и закрытых VLMs мы выявили значительные пробелы в производительности по сравнению с человеческими базовыми показателями, что подчеркивает фундаментальные недостатки существующих моделей. Подробный анализ показывает, что VLMs особенно испытывают трудности с интеграцией множественных визуальных сигналов и поддержанием временной согласованности. Мы также исследуем перспективные направления, такие как использование реконструкции 4D-полей признаков и целенаправленной пространственно-временной дообучения с учителем, демонстрируя их эффективность в улучшении пространственно-временного понимания. Наша работа направлена на стимулирование более глубокого изучения улучшения пространственной и временной привязки VLMs, прокладывая путь к более мощному и надежному визуальному интеллекту для динамических сред.

MELLA: Соединение языковых возможностей и культурной укоренённости для мультиязычных моделей с ограниченными ресурсами
MELLA: Bridging Linguistic Capability and Cultural Groundedness for Low-Resource Language MLLMs

Aug 7

ByYufei Gao, Jiaying Fei, Nuo Chen, Ruirui Chen, Guohang Yan, Yunshi Lan, Botian Shi

Мультимодальные большие языковые модели (MLLM) демонстрируют выдающиеся результаты в высокоресурсных языках. Однако их эффективность значительно снижается в контексте низкоресурсных языков. Современные методы мультиязычного улучшения часто ограничиваются текстовой модальностью или полагаются исключительно на машинный перевод. Хотя такие подходы помогают моделям приобрести базовые лингвистические способности и генерировать "поверхностные описания", они упускают важность мультимодальной информативности и культурной укоренённости, которые имеют решающее значение для эффективного обслуживания пользователей низкоресурсных языков. Чтобы устранить этот пробел, в данном исследовании мы выделяем две ключевые цели для действительно эффективной MLLM в условиях низкоресурсных языков, а именно: 1) лингвистическая способность и 2) культурная укоренённость, с особым акцентом на культурную осведомлённость. Для достижения этих двойных целей мы предлагаем стратегию двойного источника, которая направляет сбор данных, адаптированных для каждой цели, используя веб-альттексты на родном языке для культуры и подписи, сгенерированные MLLM, для лингвистики. В качестве конкретной реализации мы представляем MELLA — мультимодальный, мультиязычный набор данных. Результаты экспериментов показывают, что после тонкой настройки на MELLA наблюдается общее улучшение производительности для восьми языков на различных архитектурах MLLM, при этом модели генерируют "глубокие описания". Мы подтверждаем, что улучшение производительности связано как с усилением культурных знаний, так и с улучшением лингвистических способностей. Наш набор данных доступен по адресу https://opendatalab.com/applyMultilingualCorpus.

UI-AGILE: Развитие графических интерфейсов агентов с использованием эффективного обучения с подкреплением и точного привязывания на этапе вывода
UI-AGILE: Advancing GUI Agents with Effective Reinforcement Learning and Precise Inference-Time Grounding

Jul 29

ByShuquan Lian, Yuhang Wu, Jia Ma, Zihan Song, Bingqi Chen, Xiawu Zheng, Hui Li

Появление мультимодальных больших языковых моделей (MLLMs) привело к значительному прогрессу в возможностях агентов для графического пользовательского интерфейса (GUI). Тем не менее, существующие методы обучения и вывода GUI-агентов по-прежнему сталкиваются с проблемами в проектировании логических рассуждений, неэффективными системами вознаграждения и визуальным шумом. Для решения этих проблем мы представляем UI-AGILE — комплексную структуру, улучшающую GUI-агенты как на этапе обучения, так и на этапе вывода. Для обучения мы предлагаем ряд улучшений процесса тонкой настройки с учителем (SFT): 1) функцию непрерывного вознаграждения для стимулирования высокой точности локализации; 2) вознаграждение "Простое мышление" для баланса между планированием, скоростью и точностью локализации; и 3) стратегию повторной выборки на основе обрезки для смягчения проблемы разреженного вознаграждения и улучшения обучения на сложных задачах. Для вывода мы представляем метод "Разложенная локализация с выбором", который значительно повышает точность локализации на дисплеях с высоким разрешением, разбивая изображение на меньшие, управляемые части. Эксперименты показывают, что UI-AGILE достигает наилучших результатов на двух тестовых наборах данных ScreenSpot-Pro и ScreenSpot-v2. Например, использование предложенных методов улучшения обучения и вывода приводит к увеличению точности локализации на 23% по сравнению с лучшим базовым методом на ScreenSpot-Pro.

LightSwitch: Многовидовое переосвещение с использованием диффузии, управляемой материалами
LightSwitch: Multi-view Relighting with Material-guided Diffusion

Aug 8

ByYehonathan Litman, Fernando De la Torre, Shubham Tulsiani

Современные подходы к переосвещению в 3D демонстрируют перспективность в интеграции генеративных априорных моделей для переосвещения 2D-изображений, что позволяет изменять внешний вид 3D-представления, сохраняя при этом базовую структуру. Однако генеративные априорные модели, используемые для переосвещения 2D-изображений, которые напрямую изменяют освещение на основе входного изображения, не учитывают внутренние свойства объекта, которые могут быть выведены, или не способны масштабно обрабатывать данные с нескольких точек зрения, что приводит к неоптимальному переосвещению. В данной статье мы предлагаем LightSwitch — новую тонко настроенную диффузионную структуру для переосвещения материалов, которая эффективно изменяет освещение произвольного количества входных изображений до целевого состояния освещения, учитывая подсказки из выведенных внутренних свойств. Используя подсказки из данных с нескольких точек зрения и информации о материалах вместе с масштабируемой схемой шумоподавления, наш метод последовательно и эффективно переосвещает плотные данные с нескольких точек зрения для объектов с разнообразным составом материалов. Мы показываем, что качество предсказания переосвещения в 2D превосходит предыдущие передовые априорные модели, которые напрямую изменяют освещение на основе изображений. Кроме того, мы демонстрируем, что LightSwitch соответствует или превосходит современные методы диффузионного обратного рендеринга в переосвещении синтетических и реальных объектов всего за 2 минуты.

GLM-4.5: Агентные, Рассуждающие и Программирующие (ARC) Базовые Модели
GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models

Aug 8

186