Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

SingLoRA: Низкоранговая адаптация с использованием одной матрицы
SingLoRA: Low Rank Adaptation Using a Single Matrix

Jul 8, 2025

David Bensaïd, Noam Rotstein, Roy Velich, Daniel Bensaïd, Ron Kimmel

863

Метод Low-Rank Adaptation (LoRA) значительно продвинул эффективную настройку параметров крупных предобученных моделей. LoRA дополняет предобученные веса модели, добавляя произведение двух меньших матриц, которые вместе образуют низкоранговое обновление. Недавние исследования показали, что различия в масштабе между этими двумя матрицами часто приводят к нестабильной динамике обучения, что ухудшает производительность. В данной статье мы предлагаем SingLoRA, который переформулирует низкоранговую адаптацию, обучая обновление весов как разложение одной низкоранговой матрицы, умноженной на её транспонированную версию. Этот простой дизайн устраняет конфликты масштаба между матрицами, обеспечивая стабильную оптимизацию, и примерно вдвое сокращает количество параметров. Мы анализируем SingLoRA в рамках теории бесконечно широких нейронных сетей, показывая, что он гарантирует стабильное обучение признаков по своей конструкции. Многочисленные эксперименты на различных задачах подтверждают эти преимущества. В задачах здравого смысла, тонкая настройка модели LLama 7B на MNLI с использованием SingLoRA достигает точности 91,3%, превосходя LoRA (89,1%) и LoRA+ (90,2%), при использовании только 60% их параметров. В генерации изображений, тонкая настройка Stable Diffusion с SingLoRA значительно улучшает качество изображений на DreamBooth, достигая показателя сходства DINO 0,151, по сравнению с 0,148 и 0,143 для DoRA и LoRA соответственно.

Обзор латентного рассуждения
A Survey on Latent Reasoning

Jul 8, 2025

Rui-Jie Zhu, Tianhao Peng, Tianhao Cheng, Xingwei Qu, Jinfa Huang, Dawei Zhu, Hao Wang, Kaiwen Xue, Xuanliang Zhang, Yong Shan, Tianle Cai, Taylor Kergan, Assel Kembay, Andrew Smith, Chenghua Lin, Binh Nguyen, Yuqi Pan, Yuhong Chou, Zefan Cai, Zhenhe Wu, Yongchi Zhao, Tianyu Liu, Jian Yang, Wangchunshu Zhou, Chujie Zheng, Chongxuan Li, Yuyin Zhou, Zhoujun Li, Zhaoxiang Zhang, Jiaheng Liu, Ge Zhang, Wenhao Huang, Jason Eshraghian

693

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждению, особенно при использовании явного цепочечного рассуждения (CoT), которое вербализует промежуточные шаги. Хотя CoT улучшает как интерпретируемость, так и точность, его зависимость от естественного языка ограничивает пропускную способность модели. Латентное рассуждение решает эту проблему, выполняя многошаговый вывод полностью в непрерывном скрытом состоянии модели, устраняя необходимость в пошаговом контроле. Для продвижения исследований в области латентного рассуждения данный обзор предоставляет всесторонний обзор этой развивающейся области. Мы начинаем с рассмотрения фундаментальной роли слоев нейронных сетей как вычислительной основы для рассуждений, подчеркивая, как иерархические представления поддерживают сложные преобразования. Далее мы исследуем различные методологии латентного рассуждения, включая рекуррентные подходы на основе активаций, распространение скрытых состояний и стратегии тонкой настройки, которые сжимают или интериоризируют явные следы рассуждений. Наконец, мы обсуждаем передовые парадигмы, такие как латентное рассуждение бесконечной глубины с использованием маскированных диффузионных моделей, которые обеспечивают глобально согласованные и обратимые процессы рассуждения. Объединяя эти перспективы, мы стремимся прояснить концептуальный ландшафт латентного рассуждения и наметить будущие направления исследований на переднем крае когнитивных возможностей LLM. Связанный репозиторий GitHub, собирающий последние статьи и репозитории, доступен по адресу: https://github.com/multimodal-art-projection/LatentCoT-Horizon/.

OmniPart: Частно-ориентированная 3D-генерация с семантическим разделением и структурной целостностью
OmniPart: Part-Aware 3D Generation with Semantic Decoupling and Structural Cohesion

Jul 8, 2025

Yunhan Yang, Yufan Zhou, Yuan-Chen Guo, Zi-Xin Zou, Yukun Huang, Ying-Tian Liu, Hao Xu, Ding Liang, Yan-Pei Cao, Xihui Liu

491

Создание 3D-объектов с явной и редактируемой структурой частей имеет ключевое значение для развития интерактивных приложений, однако большинство генеративных методов производят только монолитные формы, что ограничивает их полезность. Мы представляем OmniPart — новый фреймворк для генерации 3D-объектов с учетом частей, который обеспечивает высокую семантическую декомпозицию компонентов при сохранении устойчивой структурной связности. OmniPart уникальным образом разделяет эту сложную задачу на два синергетических этапа: (1) авторегрессионный модуль планирования структуры генерирует управляемую последовательность 3D-ограничивающих рамок для частей переменной длины, критически направляемую гибкими 2D-масками частей, что позволяет интуитивно управлять декомпозицией частей без необходимости прямых соответствий или семантических меток; и (2) пространственно-условная модель исправленного потока, эффективно адаптированная из предварительно обученного генератора целостных 3D-объектов, синтезирует все 3D-части одновременно и согласованно в рамках запланированной компоновки. Наш подход поддерживает задаваемую пользователем гранулярность частей, точную локализацию и открывает возможности для разнообразных приложений. Многочисленные эксперименты демонстрируют, что OmniPart достигает передовых показателей, прокладывая путь к более интерпретируемому, редактируемому и универсальному 3D-контенту.

Как обучить вашего веб-агента на основе языковой модели: статистический анализ
How to Train Your LLM Web Agent: A Statistical Diagnosis

Jul 5, 2025

Dheeraj Vattikonda, Santhoshi Ravichandran, Emiliano Penaloza, Hadi Nekoei, Megh Thakkar, Thibault Le Sellier de Chezelles, Nicolas Gontier, Miguel Muñoz-Mármol, Sahar Omidi Shayegan, Stefania Raimondo, Xue Liu, Alexandre Drouin, Laurent Charlin, Alexandre Piché, Alexandre Lacoste, Massimo Caccia

442

Веб-агенты на основе LLM (языковых моделей большого масштаба) в последнее время достигли значительного прогресса, однако большая часть этих достижений связана с закрытыми системами, что увеличивает разрыв с открытыми альтернативами. Прогресс сдерживается двумя ключевыми проблемами: во-первых, узкой направленностью на одношаговые задачи, что игнорирует сложность многошаговых веб-взаимодействий, и во-вторых, высокими вычислительными затратами, необходимыми для пост-обучения веб-агентов на основе LLM. Для решения этих проблем мы представляем первое статистически обоснованное исследование по распределению вычислительных ресурсов для пост-обучения веб-агентов на основе LLM. Наш подход использует двухэтапный конвейер, включающий обучение модели Llama 3.1 8B (ученик) для имитации модели Llama 3.3 70B (учитель) с помощью контролируемого тонкого настройки (SFT), за которым следует обучение с подкреплением на основе политики (on-policy RL). Мы обнаружили, что этот процесс крайне чувствителен к выбору гиперпараметров, что делает исчерпывающий поиск непрактичным. Чтобы избавить других от дорогостоящих проб и ошибок, мы отобрали 1370 конфигураций и использовали бутстрэппинг для оценки эффективных гиперпараметров. Наши результаты показывают, что комбинация SFT с on-policy RL стабильно превосходит каждый из подходов по отдельности как на WorkArena, так и на MiniWob++. Более того, эта стратегия требует всего 55% вычислительных ресурсов для достижения пиковой производительности чистого SFT на MiniWob++, эффективно продвигая границу Парето в области вычислительной производительности, и является единственной стратегией, способной сократить разрыв с закрытыми моделями.

StreamVLN: Навигация на основе потокового анализа зрения и языка с использованием моделирования контекста SlowFast
StreamVLN: Streaming Vision-and-Language Navigation via SlowFast Context Modeling

Jul 7, 2025

Meng Wei, Chenyang Wan, Xiqian Yu, Tai Wang, Yuqiang Yang, Xiaohan Mao, Chenming Zhu, Wenzhe Cai, Hanqing Wang, Yilun Chen, Xihui Liu, Jiangmiao Pang

402

Навигация на основе зрения и языка (Vision-and-Language Navigation, VLN) в реальных условиях требует от агентов обработки непрерывных визуальных потоков и генерации действий с низкой задержкой, основанных на языковых инструкциях. Хотя видеомодели на основе больших языковых моделей (Video-LLMs) способствовали недавнему прогрессу, современные методы VLN, основанные на Video-LLM, часто сталкиваются с компромиссами между детальным визуальным пониманием, моделированием долгосрочного контекста и вычислительной эффективностью. Мы представляем StreamVLN — потоковую VLN-структуру, которая использует гибридную стратегию моделирования контекста с медленным и быстрым обновлением для поддержки мультимодального рассуждения над чередующимися визуальными, языковыми и действительными входами. Быстрый потоковый контекст диалога обеспечивает оперативную генерацию действий через скользящее окно активных диалогов, в то время как медленно обновляемый контекст памяти сжимает исторические визуальные состояния с использованием стратегии обрезки токенов с учетом 3D-аспектов. Благодаря этой медленно-быстрой конструкции StreamVLN достигает согласованного многократного диалога за счет эффективного повторного использования кэша ключей и значений (KV), поддерживая длинные видеопотоки с ограниченным размером контекста и затратами на вывод. Эксперименты на бенчмарках VLN-CE демонстрируют передовую производительность с стабильно низкой задержкой, обеспечивая надежность и эффективность при развертывании в реальных условиях. Страница проекта доступна по адресу: https://streamvln.github.io/{https://streamvln.github.io/}.

CriticLean: Обучение с подкреплением под руководством критика для математической формализации
CriticLean: Critic-Guided Reinforcement Learning for Mathematical Formalization

Jul 8, 2025

Zhongyuan Peng, Yifan Yao, Kaijing Ma, Shuyue Guo, Yizhe Li, Yichi Zhang, Chenchen Zhang, Yifan Zhang, Zhouliang Yu, Luming Li, Minghao Liu, Yihang Xia, Jiawei Shen, Yuchen Wu, Yixin Cao, Zhaoxiang Zhang, Wenhao Huang, Jiaheng Liu, Ge Zhang

381

Перевод математических утверждений на естественном языке в формальный, исполняемый код является фундаментальной задачей в области автоматического доказательства теорем. Хотя предыдущие работы были сосредоточены на успешной генерации и компиляции, мало внимания уделялось этапу критики — оценке того, действительно ли сгенерированные формализации точно передают семантический замысел исходной задачи. В данной статье мы представляем CriticLean, новую структуру обучения с подкреплением, управляемую критиком, которая повышает роль критика с пассивного валидатора до активного компонента обучения. В частности, сначала мы предлагаем CriticLeanGPT, обученный с помощью контролируемой тонкой настройки и обучения с подкреплением, для строгой оценки семантической точности формализаций в Lean 4. Затем мы представляем CriticLeanBench, эталонный тест, предназначенный для измерения способности моделей отличать семантически корректные формализации от некорректных, и показываем, что наши обученные модели CriticLeanGPT значительно превосходят сильные базовые модели с открытым и закрытым исходным кодом. На основе структуры CriticLean мы создаем FineLeanCorpus, набор данных, содержащий более 285 тысяч задач, который демонстрирует богатое разнообразие областей, широкий охват сложности и высокую корректность по оценке экспертов. В целом, наши результаты подчеркивают, что оптимизация этапа критики необходима для создания надежных формализаций, и мы надеемся, что наш CriticLean предоставит ценные идеи для будущих достижений в области формального математического рассуждения.

RLVER: Обучение с подкреплением с верифицируемыми эмоциональными вознаграждениями для эмпатичных агентов
RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

Jul 3, 2025

Peisong Wang, Ruotian Ma, Bang Zhang, Xingyu Chen, Zhiwei He, Kang Luo, Qingsong Lv, Qingxuan Jiang, Zheng Xie, Shanyi Wang, Yuan Li, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li

312

Крупные языковые модели (LLM) демонстрируют выдающиеся способности в логическом и алгоритмическом мышлении, однако их эмоциональный интеллект (EQ) значительно отстает от их когнитивных возможностей. Хотя обучение с подкреплением на основе проверяемых наград (RLVR) продвинулось в других областях, его применение в диалогах, особенно для развития эмоционального интеллекта, остается малоизученным. В данной работе мы представляем RLVER — первую сквозную систему обучения с подкреплением, которая использует проверяемые эмоциональные награды от симулированных пользователей для развития высших эмпатических способностей в LLM. В рамках этой системы самосогласованные аффективные симулированные пользователи участвуют в диалогах и генерируют детерминированные эмоциональные оценки в ходе бесед, которые служат сигналами награды для обучения модели. Тонкая настройка общедоступной модели Qwen2.5-7B-Instruct с использованием PPO повышает её оценку на Sentient-Benchmark с 13.3 до 79.2, при этом в значительной степени сохраняя математические и программистские способности. Многочисленные эксперименты показывают, что: (i) RLVER последовательно улучшает множество диалоговых навыков; (ii) Модели с мышлением и без него демонстрируют различные тенденции — модели с мышлением преуспевают в эмпатии и инсайтах, тогда как модели без мышления склонны к действиям; (iii) GRPO часто обеспечивает стабильные улучшения, в то время как PPO может выводить определенные способности на более высокий уровень; (iv) Более сложные среды не всегда лучше — умеренные условия могут давать более сильные результаты. Наши результаты демонстрируют, что RLVER представляет собой практичный путь к созданию эмоционально интеллектуальных и универсально способных языковых агентов.

MedGen: Разблокировка генерации медицинских видео за счет масштабирования детально аннотированных медицинских видеоматериалов
MedGen: Unlocking Medical Video Generation by Scaling Granularly-annotated Medical Videos

Jul 8, 2025

Rongsheng Wang, Junying Chen, Ke Ji, Zhenyang Cai, Shunian Chen, Yunjin Yang, Benyou Wang

251

Последние достижения в области генерации видео демонстрируют значительный прогресс в открытых областях, однако генерация медицинских видео остается малоизученной. Медицинские видео имеют критическое значение для таких приложений, как клиническое обучение, образование и симуляции, требуя не только высокой визуальной точности, но и строгой медицинской достоверности. Однако современные модели часто создают нереалистичный или ошибочный контент при работе с медицинскими запросами, что во многом связано с отсутствием крупномасштабных, высококачественных наборов данных, адаптированных для медицинской области. Для устранения этого пробела мы представляем MedVideoCap-55K — первый крупномасштабный, разнообразный и богатый текстовыми описаниями набор данных для генерации медицинских видео. Он включает более 55 000 отобранных видеоклипов, охватывающих реальные медицинские сценарии, что обеспечивает прочную основу для обучения универсальных моделей генерации медицинских видео. На основе этого набора данных мы разработали MedGen, который демонстрирует лидирующие результаты среди моделей с открытым исходным кодом и конкурирует с коммерческими системами по нескольким критериям, включая визуальное качество и медицинскую точность. Мы надеемся, что наш набор данных и модель станут ценным ресурсом и помогут стимулировать дальнейшие исследования в области генерации медицинских видео. Наш код и данные доступны по адресу https://github.com/FreedomIntelligence/MedGen.

GTA1: Агент масштабирования графического интерфейса во время тестирования
GTA1: GUI Test-time Scaling Agent

Jul 8, 2025

Yan Yang, Dongxu Li, Yutong Dai, Yuhao Yang, Ziyang Luo, Zirui Zhao, Zhiyuan Hu, Junzhe Huang, Amrita Saha, Zeyuan Chen, Ran Xu, Liyuan Pan, Caiming Xiong, Junnan Li

241

Агенты с графическим пользовательским интерфейсом (GUI) автономно работают на различных платформах (например, Linux), выполняя задачи путем взаимодействия с визуальными элементами. Конкретно, пользовательская инструкция разбивается на последовательность предложений действий, каждое из которых соответствует взаимодействию с GUI. После каждого действия агент наблюдает за обновленной средой GUI, чтобы спланировать следующий шаг. Однако возникают две основные проблемы: i) разрешение неоднозначности в планировании задач (т.е. последовательности предложений действий), где выбор подходящего плана нетривиален, так как может существовать множество допустимых вариантов; ii) точное выполнение действий в сложных и высокоразрешающих интерфейсах, т.е. точное взаимодействие с визуальными целями. В данной статье исследуются две вышеупомянутые проблемы с помощью нашего агента масштабирования на этапе тестирования GUI, а именно GTA1. Во-первых, для выбора наиболее подходящего предложения действия мы вводим метод масштабирования на этапе тестирования. На каждом шаге мы выбираем несколько кандидатов предложений действий и используем модель-судию для оценки и выбора наиболее подходящего. Это позволяет обменять вычислительные ресурсы на лучшее качество решений за счет параллельного выборки, сокращения шагов выполнения задач и улучшения общей производительности. Во-вторых, мы предлагаем модель, которая достигает повышенной точности при привязке выбранного предложения действия к соответствующим визуальным элементам. Наше ключевое наблюдение заключается в том, что обучение с подкреплением (RL) способствует визуальной привязке через внутреннее согласование целей, вознаграждая успешные клики по элементам интерфейса. Экспериментально наш метод демонстрирует передовые результаты на различных тестовых наборах. Например, GTA1-7B достигает точности 50.1%, 92.4% и 67.7% на Screenspot-Pro, Screenspot-V2 и OSWorld-G соответственно. В сочетании с планировщиком, применяющим нашу стратегию масштабирования на этапе тестирования, он показывает передовые результаты в агентской производительности (например, 45.2% успешности задач на OSWorld). Мы открываем исходный код и модели здесь.

Критика моделей мира
Critiques of World Models

Jul 7, 2025

Eric Xing, Mingkai Deng, Jinyu Hou, Zhiting Hu

201

Модель мира, предполагаемый алгоритмический суррогат реальной среды, с которой взаимодействуют и на которую воздействуют биологические агенты, в последние годы становится все более актуальной темой в связи с растущей потребностью в разработке виртуальных агентов с искусственным (общим) интеллектом. Вокруг того, что такое модель мира, как ее построить, как использовать и как оценивать, ведется множество дискуссий. В этом эссе, начиная с воображения, представленного в знаменитом научно-фантастическом произведении "Дюна", и черпая вдохновение из концепции "гипотетического мышления" в психологической литературе, мы предлагаем критический анализ нескольких школ мысли, связанных с моделированием мира, и утверждаем, что основная цель модели мира заключается в симуляции всех возможных действий в реальном мире для целенаправленного рассуждения и действия. На основе этой критики мы предлагаем новую архитектуру универсальной модели мира, основанную на иерархических, многоуровневых и смешанных непрерывных/дискретных представлениях, а также на генеративной и самообучающейся структуре, с перспективой создания системы искусственного общего интеллекта (AGI), основанной на физических, агентных и вложенных (PAN) принципах, реализуемых с помощью такой модели.

Nile-Chat: Языковые модели для египетского арабского и латинского письма
Nile-Chat: Egyptian Language Models for Arabic and Latin Scripts

Jul 6, 2025

Guokan Shang, Hadi Abdine, Ahmad Chamma, Amr Mohamed, Mohamed Anwar, Abdelaziz Bounhar, Omar El Herraoui, Preslav Nakov, Michalis Vazirgiannis, Eric Xing

191

Мы представляем Nile-Chat-4B, 3x4B-A6B и 12B — набор крупных языковых моделей (LLM) для египетского диалекта, специально разработанных для понимания и генерации текстов, написанных как арабской, так и латинской графикой. В частности, в модели Nile-Chat-3x4B-A6B мы внедряем новый подход к языковой адаптации, используя стратегию Branch-Train-MiX для объединения специализированных экспертов по разным системам письма в единую модель смеси экспертов (MoE). Наши модели Nile-Chat значительно превосходят ведущие многоязычные и арабские LLM, такие как LLaMa, Jais и ALLaM, на новых бенчмарках для египетского диалекта, охватывающих как задачи понимания, так и генерации. Особенно выделяется наша модель 12B, которая демонстрирует прирост производительности на 14,4% по сравнению с Qwen2.5-14B-Instruct на бенчмарках с латинской графикой. Все наши ресурсы находятся в открытом доступе. Мы считаем, что данная работа представляет собой комплексную методологию адаптации LLM к языкам с двойной графикой, решая часто упускаемый аспект в современной разработке языковых моделей.

Является ли разнообразие всем, что необходимо для масштабируемой роботизированной манипуляции?
Is Diversity All You Need for Scalable Robotic Manipulation?

Jul 8, 2025

Modi Shi, Li Chen, Jin Chen, Yuxiang Lu, Chiming Liu, Guanghui Ren, Ping Luo, Di Huang, Maoqing Yao, Hongyang Li

181

Масштабирование данных привело к значительным успехам в базовых моделях для обработки естественного языка (NLP) и компьютерного зрения (CV), однако принципы эффективного масштабирования данных в задачах манипуляции роботов остаются недостаточно изученными. В данной работе мы исследуем тонкую роль разнообразия данных в обучении роботов, рассматривая три ключевых аспекта — задачу (что делать), воплощение (какой робот используется) и эксперта (кто демонстрирует), — бросая вызов традиционной интуиции «чем разнообразнее, тем лучше». В ходе обширных экспериментов на различных роботизированных платформах мы выяснили, что (1) разнообразие задач оказывается более важным, чем количество демонстраций для каждой задачи, способствуя переносу знаний из разнообразных предварительно обученных задач на новые сценарии; (2) данные для предварительного обучения с использованием нескольких воплощений не обязательны для кросс-воплощенческого переноса — модели, обученные на высококачественных данных одного воплощения, могут эффективно переноситься на разные платформы, демонстрируя более предпочтительные свойства масштабирования при дообучении по сравнению с моделями, предварительно обученными на данных нескольких воплощений; и (3) разнообразие экспертов, обусловленное индивидуальными предпочтениями в операциях и стохастическими вариациями в демонстрациях человека, может затруднять обучение политик, причем многомодальность скорости становится ключевым фактором. На основе этих выводов мы предлагаем метод устранения смещения распределения для снижения неоднозначности скорости, что позволяет модели GO-1-Pro достичь значительного улучшения производительности на 15%, эквивалентного использованию в 2,5 раза больше данных для предварительного обучения. В совокупности эти результаты предоставляют новые перспективы и практические рекомендации по эффективному масштабированию наборов данных для манипуляции роботов.

Треугольник кодирования: как большая языковая модель понимает код?
Coding Triangle: How Does Large Language Model Understand Code?

Jul 8, 2025

Taolin Zhang, Zihan Ma, Maosong Cao, Junnan Liu, Songyang Zhang, Kai Chen

181

Крупные языковые модели (LLM) достигли значительных успехов в генерации кода, однако их истинная компетентность в программировании остается недостаточно изученной. Мы представляем фреймворк Code Triangle, который систематически оценивает LLM по трем фундаментальным измерениям: редакционный анализ, реализация кода и генерация тестовых случаев. Проведя обширные эксперименты на базе соревновательных программных тестов, мы обнаружили, что, хотя LLM способны формировать самосогласованную систему в рамках этих измерений, их решения часто уступают по разнообразию и устойчивости решениям, созданным человеком. Мы выявили значительный сдвиг в распределении между когнитивными способностями моделей и экспертизой человека, причем ошибки моделей имеют тенденцию к кластеризации из-за смещений в обучающих данных и ограниченного переноса логических рассуждений. Наше исследование демонстрирует, что включение редакционных материалов, решений и разнообразных тестовых случаев, созданных человеком, а также использование смесей моделей могут существенно повысить как производительность, так и устойчивость LLM. Кроме того, мы выявляем как согласованность, так и несогласованность в когнитивных процессах LLM, что может способствовать саморефлексии и самосовершенствованию, предоставляя потенциальное направление для разработки более мощных моделей генерации кода.

Дифференциальная Мамба
Differential Mamba

Jul 8, 2025

Nadav Schneider, Itamar Zimerman, Eliya Nachmani

163

Последовательные модели, такие как Transformers и RNN, часто избыточно распределяют внимание на нерелевантный контекст, что приводит к зашумленным промежуточным представлениям. Это ухудшает возможности крупных языковых моделей (LLM), способствуя возникновению галлюцинаций, ослаблению способностей к обработке длинных зависимостей и извлечению информации, а также снижению устойчивости. Недавние исследования показали, что дифференциальный подход может смягчить эту проблему в Transformers, повышая их эффективность в различных приложениях. В данной работе мы исследуем, могут ли эти методы, изначально разработанные для Transformers, быть применены к Mamba — новой архитектуре, основанной на селективных слоях пространства состояний, которая достигает производительности уровня Transformers с большей эффективностью. Мы показываем, что простое адаптирование дифференциального подхода к Mamba недостаточно и требует тщательных архитектурных модификаций. Для решения этой проблемы мы предлагаем новый дифференциальный механизм для Mamba, эмпирически проверенный на бенчмарках языкового моделирования, демонстрирующий улучшенные способности к извлечению информации и превосходную производительность по сравнению с базовой версией Mamba. Наконец, мы проводим обширные исследования и эмпирические анализы, чтобы обосновать наши проектные решения и предоставить доказательства того, что наш подход эффективно смягчает проблему избыточного распределения внимания в моделях на основе Mamba. Наш код доступен публично.

Эффективность-результативность переранжирования FLOPs для переранжировщиков на основе LLM
Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

Jul 8, 2025

Zhiyuan Peng, Ting-ruen Wei, Tingyu Song, Yilun Zhao, Yi Fang

131

Крупные языковые модели (LLM) в последнее время применяются для задач переранжирования в информационном поиске, демонстрируя высокую производительность. Однако их значительные вычислительные затраты часто препятствуют практическому внедрению. Существующие исследования оценивают эффективность переранжировщиков на основе LLM с использованием косвенных метрик, таких как задержка, количество прямых проходов, входных и выходных токенов. Однако эти метрики зависят от аппаратного обеспечения и выбора параметров выполнения (например, параллельное выполнение или нет, размер пакета и т.д.), а также часто не учитывают размер модели, что затрудняет интерпретацию и скрывает оценку компромисса между эффективностью и производительностью. Для решения этой проблемы мы предлагаем E2R-FLOPs для переранжировщиков на основе LLM: метрики ранжирования на петафлопс (RPP) для оценки релевантности на единицу вычислений и запросов на петафлопс (QPP) для аппаратно-независимой пропускной способности. Вместе с новыми метриками разработан интерпретируемый оценщик FLOPs, который позволяет оценить количество FLOPs для переранжировщика на основе LLM даже без проведения экспериментов. На основе предложенных метрик мы проводим комплексные эксперименты для оценки широкого спектра переранжировщиков на основе LLM с различной архитектурой, изучая компромисс между эффективностью и производительностью и привлекая внимание исследовательского сообщества к этой проблеме.

Высококачественное визуальное рассуждение с помощью многошагового обучения с подкреплением на основе заземления
High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning

Jul 8, 2025

Xinyu Huang, Yuhao Dong, Weiwei Tian, Bo Li, Rui Feng, Ziwei Liu

111

Современные крупные мультимодальные модели (LMM) сталкиваются с трудностями при обработке изображений высокого разрешения, поскольку такие входные данные преобразуются в огромное количество визуальных токенов, многие из которых не имеют отношения к целевой задаче. В данной работе мы предлагаем Multi-turn Grounding-based Policy Optimization (MGPO) — сквозную структуру обучения с подкреплением (RL), которая позволяет LMM итеративно фокусироваться на ключевых визуальных областях путем автоматического обрезки субизображений на основе координат, предсказанных моделью, в рамках многоходового диалогового подхода. В отличие от контролируемого тонкого настройки (SFT), требующего дорогостоящих дополнительных аннотаций для локализации, наш подход демонстрирует, что LMM могут развивать устойчивые способности к локализации в процессе RL-обучения, используя лишь бинарную функцию вознаграждения, основанную на правильности итогового ответа. Кроме того, мы наблюдаем, что LMM испытывают трудности с самостоятельным запуском визуальной локализации в процессе выполнения. Для решения этой проблемы "холодного старта" мы разработали многоходовый диалоговый шаблон и ограничили вычисление потерь политики выходами модели, сгенерированными в ходе нескольких раундов диалога, что способствует стабильной оптимизации. Многочисленные эксперименты показывают, что при обучении на стандартных данных визуальных вопросов и кратких ответов без аннотаций локализации MGPO эффективно развивает более сильные способности к локализации по сравнению с GRPO, что приводит к улучшению на 5,4% на in-distribution MME-Realworld и на 5,2% на сложном out-of-distribution (OOD) V* Bench. Примечательно, что пост-обучение MGPO на Qwen2.5-VL-7B с 21K образцов превосходит модели OpenAI o1 и GPT-4o на OOD V* Bench. Код доступен по адресу https://github.com/EvolvingLMMs-Lab/MGPO.

PRING: Переосмысление предсказания взаимодействий белков от пар к графам
PRING: Rethinking Protein-Protein Interaction Prediction from Pairs to Graphs

Jul 7, 2025

Xinzhe Zheng, Hao Du, Fanding Xu, Jinzhe Li, Zhiyuan Liu, Wenkang Wang, Tao Chen, Wanli Ouyang, Stan Z. Li, Yan Lu, Nanqing Dong, Yang Zhang

111

Вычислительные методы на основе глубокого обучения достигли значительных успехов в предсказании белково-белковых взаимодействий (ББВ). Однако существующие эталонные тесты в основном сосредоточены на изолированных попарных оценках, упуская из виду способность модели восстанавливать биологически значимые сети ББВ, что крайне важно для биологических исследований. Чтобы устранить этот пробел, мы представляем PRING — первый всеобъемлющий эталонный тест, который оценивает предсказание белково-белковых взаимодействий с точки зрения графов. PRING предлагает высококачественный набор данных о сетях ББВ, охватывающих несколько видов, включающий 21 484 белка и 186 818 взаимодействий, с тщательно разработанными стратегиями для устранения избыточности и утечки данных. На основе этого эталонного набора данных мы устанавливаем две взаимодополняющие парадигмы оценки: (1) задачи, ориентированные на топологию, которые оценивают построение сетей ББВ внутри и между видами, и (2) задачи, ориентированные на функции, включая предсказание путей белковых комплексов, анализ модулей GO и обоснование значимости белков. Эти оценки не только отражают способность модели понимать топологию сети, но также способствуют аннотированию функций белков, обнаружению биологических модулей и даже анализу механизмов заболеваний. Обширные эксперименты с четырьмя репрезентативными категориями моделей, включающими подходы на основе сходства последовательностей, простых последовательностей, языковых моделей белков и структур, демонстрируют, что текущие модели ББВ имеют потенциальные ограничения в восстановлении как структурных, так и функциональных свойств сетей ББВ, подчеркивая разрыв в поддержке реальных биологических приложений. Мы считаем, что PRING предоставляет надежную платформу для разработки более эффективных моделей предсказания ББВ для научного сообщества. Набор данных и исходный код PRING доступны по адресу https://github.com/SophieSarceau/PRING.

Технический отчет по MedGemma
MedGemma Technical Report

Jul 7, 2025

Andrew Sellergren, Sahar Kazemzadeh, Tiam Jaroensri, Atilla Kiraly, Madeleine Traverse, Timo Kohlberger, Shawn Xu, Fayaz Jamil, Cían Hughes, Charles Lau, Justin Chen, Fereshteh Mahvar, Liron Yatziv, Tiffany Chen, Bram Sterling, Stefanie Anna Baby, Susanna Maria Baby, Jeremy Lai, Samuel Schmidgall, Lu Yang, Kejia Chen, Per Bjornsson, Shashir Reddy, Ryan Brush, Kenneth Philbrick, Howard Hu, Howard Yang, Richa Tiwari, Sunny Jansen, Preeti Singh, Yun Liu, Shekoofeh Azizi, Aishwarya Kamath, Johan Ferret, Shreya Pathak, Nino Vieillard, Ramona Merhej, Sarah Perrin, Tatiana Matejovicova, Alexandre Ramé, Morgane Riviere, Louis Rouillard, Thomas Mesnard, Geoffrey Cideron, Jean-bastien Grill, Sabela Ramos, Edouard Yvinec, Michelle Casbon, Elena Buchatskaya, Jean-Baptiste Alayrac, Dmitry, Lepikhin, Vlad Feinberg, Sebastian Borgeaud, Alek Andreev, Cassidy Hardin, Robert Dadashi, Léonard Hussenot, Armand Joulin, Olivier Bachem, Yossi Matias, Katherine Chou, Avinatan Hassidim, Kavi Goel, Clement Farabet, Joelle Barral, Tris Warkentin, Jonathon Shlens, David Fleet, Victor Cotruta, Omar Sanseviero, Gus Martins, Phoebe Kirk, Anand Rao, Shravya Shetty, David F. Steiner, Can Kirmizibayrak, Rory Pilgrim, Daniel Golden, Lin Yang

101

Искусственный интеллект (ИИ) обладает значительным потенциалом в медицинских приложениях, однако его обучение и внедрение сталкиваются с трудностями из-за разнообразия медицинских данных, сложности задач и необходимости сохранения конфиденциальности. Фундаментальные модели, которые хорошо справляются с медицинскими задачами и требуют меньше данных для настройки под конкретные задачи, имеют решающее значение для ускорения разработки медицинских приложений на основе ИИ. Мы представляем MedGemma — набор медицинских мультимодальных фундаментальных моделей, основанных на Gemma 3 4B и 27B. MedGemma демонстрирует продвинутое понимание и анализ медицинских изображений и текста, значительно превосходя производительность генеративных моделей аналогичного размера и приближаясь к результатам специализированных моделей, сохраняя при этом общие возможности базовых моделей Gemma 3. Для задач, выходящих за пределы распределения, MedGemma показывает улучшение на 2,6–10% в медицинском мультимодальном ответах на вопросы, на 15,5–18,1% в классификации результатов рентгенографии грудной клетки и на 10,8% в агентских оценках по сравнению с базовыми моделями. Дополнительная настройка MedGemma улучшает производительность в поддоменах, сокращая ошибки в извлечении информации из электронных медицинских записей на 50% и достигая сопоставимых результатов с существующими специализированными передовыми методами для классификации пневмоторакса и классификации гистопатологических срезов. Мы также представляем MedSigLIP — медицински адаптированный визуальный кодировщик, созданный на основе SigLIP. MedSigLIP обеспечивает возможности визуального понимания MedGemma и как кодировщик демонстрирует сопоставимую или лучшую производительность по сравнению со специализированными медицинскими кодировщиками изображений. В совокупности набор MedGemma предоставляет мощную основу для работы с медицинскими изображениями и текстом, что может значительно ускорить медицинские исследования и разработку прикладных решений. Набор MedGemma, включая руководства и веса моделей, доступен по адресу https://goo.gle/medgemma.

SAMed-2: Селективная модель сегментации медицинских изображений с расширенной памятью
SAMed-2: Selective Memory Enhanced Medical Segment Anything Model

Jul 4, 2025

Zhiling Yan, Sifan Song, Dingjie Song, Yiwei Li, Rong Zhou, Weixiang Sun, Zhennong Chen, Sekeun Kim, Hui Ren, Tianming Liu, Quanzheng Li, Xiang Li, Lifang He, Lichao Sun

101

Недавние разработки в области "сегментации чего угодно" демонстрируют перспективы благодаря обучению на крупномасштабных данных, однако прямое применение таких моделей к медицинским изображениям остается сложной задачей из-за сложности медицинских данных, зашумленных аннотаций и требований к непрерывному обучению на разнообразных модальностях и анатомических структурах. В данной работе мы представляем SAMed-2 — новую базовую модель для сегментации медицинских изображений, построенную на архитектуре SAM-2. В частности, мы вводим временной адаптер в кодировщик изображений для учета корреляций между изображениями и механизм памяти, управляемый уверенностью, для хранения высокоточных признаков с последующим их извлечением. Эта стратегия, основанная на памяти, противостоит повсеместному шуму в крупномасштабных медицинских наборах данных и смягчает проблему катастрофического забывания при столкновении с новыми задачами или модальностями. Для обучения и оценки SAMed-2 мы создали MedBank-100k — всеобъемлющий набор данных, охватывающий семь методов визуализации и 21 задачу медицинской сегментации. Наши эксперименты как на внутренних бенчмарках, так и на 10 внешних наборах данных демонстрируют превосходную производительность по сравнению с современными базовыми методами в многозадачных сценариях. Код доступен по адресу: https://github.com/ZhilingYan/Medical-SAM-Bench.

Tora2: Трансформер диффузии с настройкой движения и внешнего вида для генерации видео с несколькими объектами
Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation

Jul 8, 2025

Zhenghao Zhang, Junchao Liao, Xiangyu Meng, Long Qin, Weizhi Wang

Последние достижения в области моделей диффузионных трансформеров для генерации видео с управлением движением, такие как Tora, продемонстрировали значительный прогресс. В данной статье мы представляем Tora2, усовершенствованную версию Tora, которая включает несколько улучшений в дизайне для расширения возможностей кастомизации как внешнего вида, так и движения. В частности, мы вводим декомпозированный экстрактор персонализации, который генерирует всеобъемлющие эмбеддинги персонализации для множества объектов из открытого набора, лучше сохраняя мелкие визуальные детали по сравнению с предыдущими методами. На основе этого мы разрабатываем механизм управляемого самовнимания для интеграции траектории, текстового описания и визуальной информации для каждого объекта. Это нововведение значительно снижает рассогласование в мультимодальных условиях во время обучения. Кроме того, мы вводим контрастную функцию потерь, которая совместно оптимизирует динамику траектории и согласованность объектов через явное отображение между эмбеддингами движения и персонализации. Tora2, насколько нам известно, является первым методом, который позволяет одновременно кастомизировать внешний вид и движение нескольких объектов для генерации видео. Экспериментальные результаты показывают, что Tora2 демонстрирует конкурентоспособную производительность по сравнению с современными методами кастомизации, предоставляя при этом расширенные возможности управления движением, что знаменует собой важный шаг вперед в генерации видео с множественными условиями. Страница проекта: https://github.com/alibaba/Tora.

LOOM-Scope: всеобъемлющая и эффективная система оценки моделей с длинным контекстом
LOOM-Scope: a comprehensive and efficient LOng-cOntext Model evaluation framework

Jul 7, 2025

Zecheng Tang, Haitian Wang, Quantong Qiu, Baibei Ji, Ruoxi Sun, Keyan Zhou, Juntao Li, Min Zhang

Обработка длинных контекстов стала фундаментальной способностью для крупных языковых моделей (LLM). Для оценки производительности моделей на длинных контекстах было предложено множество бенчмарков. Однако различия в настройках оценки между этими бенчмарками приводят к неоднозначным результатам, что затрудняет проведение надежных сравнений. Кроме того, высокая вычислительная стоимость оценки длинных контекстов создает значительные препятствия для сообщества в проведении всестороннего анализа таких моделей. В данной статье мы представляем LOOM-Scope — комплексную и эффективную платформу для оценки длинных контекстов. LOOM-Scope стандартизирует настройки оценки для различных бенчмарков, поддерживает внедрение методов ускорения вывода для длинных контекстов и предлагает универсальный, но легковесный набор бенчмарков для всесторонней оценки моделей. Домашняя страница: https://loomscope.github.io

any4: Изученное 4-битное числовое представление для крупных языковых моделей
any4: Learned 4-bit Numeric Representation for LLMs

Jul 7, 2025

Mostafa Elhoushi, Jeff Johnson

Мы представляем any4 — решение для 4-битного квантования весов больших языковых моделей (LLM), основанное на обучении и поддерживающее произвольные числовые представления без необходимости предварительной обработки весов или активаций. any4 демонстрирует более высокую точность по сравнению с другими связанными 4-битными числовыми представлениями: int4, fp4 и nf4, что подтверждено оценкой на моделях различных размеров, поколений и семейств (Llama 2, Llama 3, Mistral и Mixtral). Хотя any4 не требует предварительной обработки весов или активаций, он также конкурентоспособен с ортогональными методами, которые такую обработку требуют (например, AWQ и GPTQ). Мы также экспериментируем с any3 и any2 и показываем их конкурентоспособность при меньшем количестве бит. Кроме того, мы демонстрируем возможность калибровки с использованием одного тщательно отобранного разнообразного образца вместо сотен образцов из набора данных, как это делается в большинстве подходов к квантованию. Мы также открываем исходный код tinygemm — библиотеки для оптимизированного по задержкам матричного умножения на GPU для LLM, которая реализует any4 с использованием эффективной для GPU стратегии таблиц поиска, а также других распространенных методов квантования. Наш код доступен по адресу https://github.com/facebookresearch/any4.

Ландшафт запоминания в больших языковых моделях: механизмы, измерение и методы смягчения
The Landscape of Memorization in LLMs: Mechanisms, Measurement, and Mitigation

Jul 8, 2025

Alexander Xiong, Xuandong Zhao, Aneesh Pappu, Dawn Song

Крупные языковые модели (LLM) продемонстрировали впечатляющие способности в решении широкого спектра задач, однако они также проявляют склонность к запоминанию своих обучающих данных. Это явление поднимает важные вопросы о поведении моделей, рисках для конфиденциальности и границе между обучением и запоминанием. В данной статье, рассматривая эти проблемы, обобщаются последние исследования и исследуется ландшафт запоминания, факторы, влияющие на него, а также методы его обнаружения и смягчения. Мы изучаем ключевые факторы, включая дублирование обучающих данных, динамику обучения и процедуры тонкой настройки, которые влияют на запоминание данных. Кроме того, мы рассматриваем методологии, такие как извлечение на основе префиксов, вывод членства и адверсарные запросы, оценивая их эффективность в обнаружении и измерении запомненного содержимого. Помимо технического анализа, мы также исследуем более широкие последствия запоминания, включая юридические и этические аспекты. Наконец, мы обсуждаем стратегии смягчения, такие как очистка данных, дифференциальная приватность и посттренировочное "забывание", подчеркивая открытые вызовы в балансировании минимизации вредного запоминания с полезностью. Данная статья предоставляет всесторонний обзор текущего состояния исследований по запоминанию в LLM, охватывая технические, конфиденциальные и производительностные аспекты, и определяет ключевые направления для будущих исследований.

Feed-Forward SceneDINO для неконтролируемого семантического завершения сцен
Feed-Forward SceneDINO for Unsupervised Semantic Scene Completion

Jul 8, 2025

Aleksandar Jevtić, Christoph Reich, Felix Wimbauer, Oliver Hahn, Christian Rupprecht, Stefan Roth, Daniel Cremers

Семантическое завершение сцены (SSC) направлено на восстановление как трехмерной геометрии, так и семантики сцены на основе одиночных изображений. В отличие от предыдущих работ по SSC, которые в значительной степени опираются на дорогостоящие аннотации с точными данными, мы рассматриваем SSC в условиях отсутствия обучения с учителем. Наш новый метод, SceneDINO, адаптирует подходы из самообучаемого представления и двумерного неконтролируемого понимания сцены для задачи SSC. Наше обучение исключительно использует самоконтроль на основе многовидовой согласованности без каких-либо семантических или геометрических точных данных. При наличии одного входного изображения SceneDINO восстанавливает трехмерную геометрию и выразительные трехмерные признаки DINO в прямом проходе. Благодаря новому подходу к дистилляции трехмерных признаков мы получаем неконтролируемую трехмерную семантику. В задачах как трехмерного, так и двумерного неконтролируемого понимания сцены SceneDINO достигает наивысшей точности сегментации. Линейное зондирование наших трехмерных признаков соответствует точности сегментации современных контролируемых подходов SSC. Кроме того, мы демонстрируем обобщение на различные домены и многовидовую согласованность SceneDINO, делая первые шаги к созданию надежной основы для понимания трехмерной сцены по одиночному изображению.

Приводит ли масштабирование данных к визуальной композиционной обобщаемости?
Does Data Scaling Lead to Visual Compositional Generalization?

Jul 9, 2025

Arnas Uselis, Andrea Dittadi, Seong Joon Oh

Понимание композиции имеет решающее значение для человеческого интеллекта, однако до сих пор неясно, обладают ли этим свойством современные модели компьютерного зрения. Доминирующая парадигма машинного обучения основана на предпосылке, что увеличение масштаба данных и размеров моделей улучшит их производительность на данных, выходящих за пределы обучающего распределения, включая композиционную обобщаемость. Мы проверяем эту гипотезу с помощью контролируемых экспериментов, в которых систематически варьируются масштаб данных, разнообразие концепций и охват комбинаций. Мы обнаруживаем, что композиционная обобщаемость определяется разнообразием данных, а не просто их объемом. Увеличение охвата комбинаций заставляет модели обнаруживать линейно факторизованную структуру представлений, в которой концепции разлагаются на аддитивные компоненты. Мы доказываем, что такая структура является ключом к эффективности, позволяя достичь идеального обобщения на основе небольшого числа наблюдаемых комбинаций. Оценивая предобученные модели (DINO, CLIP), мы наблюдаем производительность выше случайной, но не идеальную, что указывает на частичное наличие этой структуры. Наша работа подчеркивает важность создания разнообразных наборов данных для композиционной обобщаемости и учета значимости структуры представлений, которая обеспечивает эффективное композиционное обучение. Код доступен по адресу https://github.com/oshapio/visual-compositional-generalization.

NeoBabel: Многоязычная открытая башня для визуальной генерации
NeoBabel: A Multilingual Open Tower for Visual Generation

Jul 8, 2025

Mohammad Mahdi Derakhshani, Dheeraj Varghese, Marzieh Fadaee, Cees G. M. Snoek

Достижения в области генерации изображений по тексту были преимущественно ориентированы на английский язык, создавая барьеры для носителей других языков и усугубляя цифровое неравенство. Хотя существующие системы полагаются на цепочки перевода, это приводит к семантическим искажениям, вычислительным издержкам и культурным несоответствиям. Мы представляем NeoBabel — новую многоязычную платформу для генерации изображений, которая устанавливает новый парето-оптимум в производительности, эффективности и инклюзивности, поддерживая шесть языков: английский, китайский, голландский, французский, хинди и персидский. Модель обучается с использованием комбинации крупномасштабного многоязычного предобучения и тонкой настройки на высококачественных инструкциях. Для оценки её возможностей мы расширяем два англоязычных бенчмарка до их многоязычных аналогов: m-GenEval и m-DPG. NeoBabel достигает передовых результатов в многоязычных задачах, сохраняя при этом высокую производительность на английском языке, с показателями 0.75 на m-GenEval и 0.68 на m-DPG. Примечательно, что она работает на уровне ведущих моделей в англоязычных задачах, превосходя их на +0.11 и +0.09 в многоязычных бенчмарках, даже несмотря на то, что эти модели основаны на многоязычных базовых LLM. Это демонстрирует эффективность нашего целевого обучения для сохранения и расширения кросс-лингвистической обобщаемости. Мы также вводим две новые метрики для строгой оценки многоязычного соответствия и устойчивости к смешанным запросам. NeoBabel соответствует или превосходит англоязычные модели, будучи при этом в 2-4 раза компактнее. Мы публикуем открытый инструментарий, включающий весь код, контрольные точки модели, курированный набор данных из 124 миллионов многоязычных текстово-изобразительных пар и стандартизированные протоколы многоязычной оценки, чтобы способствовать развитию инклюзивных исследований в области ИИ. Наша работа демонстрирует, что многоязычная поддержка не является компромиссом, а служит катализатором для повышения устойчивости, эффективности и культурной точности в генеративном ИИ.

AXLearn: Модульное обучение больших моделей на гетерогенной инфраструктуре
AXLearn: Modular Large Model Training on Heterogeneous Infrastructure

Jul 7, 2025

Mark Lee, Tom Gunter, Chang Lan, John Peebles, Hanzhi Zhou, Kelvin Zou, Sneha Bangalore, Chung-Cheng Chiu, Nan Du, Xianzhi Du, Philipp Dufter, Ruixuan Hou, Haoshuo Huang, Dongseong Hwang, Xiang Kong, Jinhao Lei, Tao Lei, Meng Li, Li Li, Jiarui Lu, Zhiyun Lu, Yiping Ma, David Qiu, Vivek Rathod, Senyu Tong, Zhucheng Tu, Jianyu Wang, Yongqiang Wang, Zirui Wang, Floris Weers, Sam Wiseman, Guoli Yin, Bowen Zhang, Xiyou Zhou, Danyang Zhuo, Cheng Leong, Ruoming Pang

Мы разработали и реализовали AXLearn — производственную систему глубокого обучения, которая обеспечивает масштабируемое и высокопроизводительное обучение крупных моделей глубокого обучения. В отличие от других современных систем глубокого обучения, AXLearn уделяет особое внимание модульности и поддержке гетерогенной аппаратной инфраструктуры. Внутренние интерфейсы между программными компонентами AXLearn строго инкапсулированы, что позволяет гибко комбинировать различные компоненты для ускоренной разработки моделей и экспериментов на гетерогенных вычислительных инфраструктурах. Мы представляем новый метод количественной оценки модульности с использованием сложности, измеряемой в строках кода (LoC), который демонстрирует, как наша система сохраняет постоянную сложность при масштабировании компонентов, в отличие от линейной или квадратичной сложности в других системах. Это позволяет интегрировать такие функции, как Rotary Position Embeddings (RoPE), в AXLearn через сотни модулей всего с 10 строками кода, тогда как в других системах для этого требуются сотни строк. При этом AXLearn сохраняет производительность на уровне современных систем обучения. Наконец, мы делимся опытом разработки и эксплуатации AXLearn.

FAROS: Генерация справедливых графов с использованием механизмов переключения атрибутов
FAROS: Fair Graph Generation via Attribute Switching Mechanisms

Jul 4, 2025

Abdennacer Badaoui, Oussama Kharouiche, Hatim Mrabet, Daniele Malitesta, Fragkiskos D. Malliaros

Последние достижения в области моделей диффузии графов (GDMs) позволили синтезировать реалистичные сетевые структуры, однако обеспечение справедливости в генерируемых данных остается важной задачей. Существующие решения пытаются снизить предвзятость путем повторного обучения GDMs с использованием ad-hoc ограничений на справедливость. В данной работе мы предлагаем FAROS — новый фреймворк для FAir генерации графов, который использует механизмы переключения атрибутов и работает непосредственно в процессе генерации предварительно обученной GDM. Технически наш подход заключается в изменении чувствительных атрибутов узлов во время генерации. Для этого FAROS вычисляет оптимальную долю узлов для переключения и выбирает шаг диффузии для выполнения переключения, устанавливая адаптированные многокритериальные ограничения для сохранения профиля топологии узлов из исходного распределения (прокси для точности) и обеспечения независимости ребер от чувствительных атрибутов в сгенерированном графе (прокси для справедливости). Наши эксперименты на эталонных наборах данных для предсказания связей демонстрируют, что предложенный подход эффективно снижает различия в справедливости, сохраняя сопоставимую (или даже более высокую) точность по сравнению с другими аналогичными базовыми методами. Примечательно, что FAROS также способен достичь лучшего компромисса между точностью и справедливостью, чем другие конкуренты, в некоторых тестируемых условиях в рамках концепции Парето-оптимальности, что подтверждает эффективность наложенных многокритериальных ограничений.