HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

23 papers found

DoPE: Денойзинг ротационного позиционного кодирования
DoPE: Denoising Rotary Position Embedding

Nov 12

ByJing Xiong, Liyang Fan, Hui Shen, Zunhai Su, Min Yang, Lingpeng Kong, Ngai Wong

Встраивание вращательных позиций (Rotary Position Embedding, RoPE) в моделях Transformer имеет внутренние ограничения, которые ослабляют экстраполяцию на длинных последовательностях. Мы переосмысливаем карту внимания с позиционным кодированием как зашумленную карту признаков и предлагаем метод Denoising Positional Encoding (DoPE), не требующий обучения и основанный на усеченной энтропии матрицы для обнаружения выбросов в частотных диапазонах карты признаков. Используя шумовые характеристики карты признаков, мы дополнительно перепараметризуем её с помощью параметрического гауссовского распределения для достижения устойчивой экстраполяции. Наш метод теоретически раскрывает основную причину явления "поглощения внимания" (attention sink) и его связь с усеченной энтропией матрицы. Эксперименты на задачах "иголка в стоге сена" и многошагового обучения в контексте демонстрируют, что DoPE значительно улучшает точность извлечения и стабильность рассуждений на расширенных контекстах (до 64K токенов). Результаты показывают, что стратегия устранения шума для позиционных встраиваний эффективно смягчает поглощение внимания и восстанавливает сбалансированные паттерны внимания, предоставляя простое, но мощное решение для улучшения обобщения на длинных последовательностях. Наша страница проекта доступна по адресу: https://The-physical-picture-of-LLMs.github.io.

WEAVE: Раскрытие и тестирование контекстного чередующегося понимания и генерации
WEAVE: Unleashing and Benchmarking the In-context Interleaved Comprehension and Generation

Nov 14

ByWei Chow, Jiachun Pan, Yongyuan Liang, Mingze Zhou, Xue Song, Liyu Jia, Saining Zhang, Siliang Tang, Juncheng Li, Fengda Zhang, Weijia Wu, Hanwang Zhang, Tat-Seng Chua

Последние достижения в области унифицированных мультимодальных моделей (UMM) позволили добиться значительного прогресса в визуальном понимании и генерации. Однако существующие наборы данных и бенчмарки в основном сосредоточены на одношаговых взаимодействиях, не отражая многошаговый, контекстно-зависимый характер реального процесса создания и редактирования изображений. Для устранения этого пробела мы представляем WEAVE — первый комплексный инструментарий для контекстно-зависимого чередующегося межмодального понимания и генерации. Наш инструментарий состоит из двух взаимодополняющих частей. WEAVE-100k представляет собой масштабный набор данных, содержащий 100 тыс. чередующихся примеров, охватывающих более 370 тыс. диалоговых шагов и 500 тыс. изображений, и включающий задачи на понимание, редактирование и генерацию, требующие анализа исторического контекста. WEAVEBench — это бенчмарк с человеческой разметкой, содержащий 100 задач на основе 480 изображений и использующий гибридную оценочную систему на основе VLM-судей, которая оценивает способности моделей в многошаговой генерации, визуальной памяти и рассуждениях на основе знаний о мире в различных областях, используя как эталонное изображение, так и комбинацию исходного изображения с инструкциями по редактированию. Эксперименты показывают, что обучение на WEAVE-100k развивает способности к визуальному пониманию, редактированию изображений и совместной работе понимания и генерации. Более того, оно способствует формированию у UMM возникающей способности к визуальной памяти, в то время как масштабные оценки на WEAVEBench выявляют устойчивые ограничения и проблемы современных подходов в области многошаговой, контекстно-осознанной генерации и редактирования изображений. Мы считаем, что WEAVE предоставляет перспективу и основу для изучения контекстно-зависимого чередующегося понимания и генерации для мультимодального сообщества.

Виртуальные сети ширины
Virtual Width Networks

Nov 14

BySeed, Baisheng Li, Banggu Wu, Bole Ma, Bowen Xiao, Chaoyi Zhang, Cheng Li, Chengyi Wang, Chenyin Xu, Chi Zhang, Chong Hu, Daoguang Zan, Defa Zhu, Dongyu Xu, Du Li, Faming Wu, Fan Xia, Ge Zhang, Guang Shi, Haobin Chen, Hongyu Zhu, Hongzhi Huang, Huan Zhou, Huanzhang Dou, Jianhui Duan, Jianqiao Lu, Jianyu Jiang, Jiayi Xu, Jiecao Chen, Jin Chen, Jin Ma, Jing Su, Jingji Chen, Jun Wang, Jun Yuan, Juncai Liu, Jundong Zhou, Kai Hua, Kai Shen, Kai Xiang, Kaiyuan Chen, Kang Liu, Ke Shen, Liang Xiang, Lin Yan, Lishu Luo, Mengyao Zhang, Ming Ding, Mofan Zhang, Nianning Liang, Peng Li, Penghao Huang, Pengpeng Mu, Qi Huang, Qianli Ma, Qiyang Min, Qiying Yu, Renming Pang, Ru Zhang, Shen Yan, Shen Yan, Shixiong Zhao, Shuaishuai Cao, Shuang Wu, Siyan Chen, Siyu Li, Siyuan Qiao, Tao Sun, Tian Xin, Tiantian Fan, Ting Huang, Ting-Han Fan, Wei Jia, Wenqiang Zhang, Wenxuan Liu, Xiangzhong Wu, Xiaochen Zuo, Xiaoying Jia, Ximing Yang, Xin Liu, Xin Yu, Xingyan Bin, Xintong Hao, Xiongcai Luo, Xujing Li, Xun Zhou, Yanghua Peng, Yangrui Chen, Yi Lin, Yichong Leng, Yinghao Li, Yingshuan Song, Yiyuan Ma, Yong Shan, Yongan Xiang, Yonghui Wu, Yongtao Zhang, Yongzhen Yao, Yu Bao, Yuehang Yang, Yufeng Yuan, Yunshui Li, Yuqiao Xian, Yutao Zeng, Yuxuan Wang, Zehua Hong, Zehua Wang, Zengzhi Wang, Zeyu Yang, Zhengqiang Yin, Zhenyi Lu, Zhexi Zhang, Zhi Chen, Zhi Zhang, Zhiqi Lin, Zihao Huang, Zilin Xu, Ziyun Wei, Zuo Wang

Мы представляем Virtual Width Networks (VWN) — фреймворк, который обеспечивает преимущества широких репрезентаций без квадратичных затрат на увеличение размера скрытого слоя. VWN разделяет репрезентационную ширину и ширину базовой архитектуры, расширяя пространство эмбеддингов при почти неизменных вычислительных затратах в бэкбоне. В нашем масштабном эксперименте 8-кратное расширение ускорило оптимизацию более чем в 2 раза для предсказания следующего токена и в 3 раза для предсказания следующих двух токенов. Преимущество усиливается в процессе обучения по мере роста разрыва в функции потерь и увеличения коэффициента ускорения сходимости, что демонстрирует не только токен-эффективность VWN, но и его растущую эффективность с увеличением масштаба. Более того, мы выявили приблизительно логарифмически-линейную зависимость масштабирования между виртуальной шириной и снижением потерь, что дает первоначальную эмпирическую основу и мотивацию для исследования масштабирования виртуальной ширины как нового измерения эффективности больших моделей.

GGBench: Бенчмарк геометрического генеративного мышления для унифицированных мультимодальных моделей
GGBench: A Geometric Generative Reasoning Benchmark for Unified Multimodal Models

Nov 14

ByJingxuan Wei, Caijun Jia, Xi Bai, Xinglong Xu, Siyuan Li, Linzhuang Sun, Bihui Yu, Conghui He, Lijun Wu, Cheng Tan

Появление унифицированных мутимодальных моделей (UMM) знаменует смену парадигмы в искусственном интеллекте — переход от пассивного восприятия к активному кросс-модальному генеративному процессу. Несмотря на их беспрецедентную способность синтезировать информацию, в области оценки сохраняется критический пробел: существующие бенчмарки в основном оценивают дискриминативное понимание или неограниченную генерацию изображений по отдельности, не измеряя интегрированный когнитивный процесс генеративного рассуждения. Чтобы заполнить этот пробел, мы предполагаем, что геометрическое построение предоставляет идеальный полигон для испытаний, поскольку оно по своей сути требует слияния языкового понимания и точного визуального конструирования. Мы представляем GGBench — бенчмарк, специально разработанный для оценки геометрического генеративного мышления. Он предоставляет всеобъемлющую основу для систематической диагностики способности модели не только понимать и рассуждать, но и активно конструировать решение, устанавливая таким образом более строгий стандарт для следующего поколения интеллектуальных систем. Страница проекта: https://opendatalab-raiser.github.io/GGBench/.

UI2Code^N: Визуальная языковая модель для масштабируемой генерации кода из интерактивного пользовательского интерфейса во время тестирования
UI2Code^N: A Visual Language Model for Test-Time Scalable Interactive UI-to-Code Generation

Nov 11

ByZhen Yang, Wenyi Hong, Mingde Xu, Xinyue Fan, Weihan Wang, Jiele Cheng, Xiaotao Gu, Jie Tang

Программирование пользовательского интерфейса (UI) является ключевым, но крайне сложным аспектом современной разработки программного обеспечения. Недавние достижения в области визуальных языковых моделей (VLM) подчеркивают потенциал автоматического генерации кода для UI, однако современные подходы сталкиваются с двумя основными ограничениями: мультимодальные возможности генерации кода остаются недостаточно развитыми, а одношаговые парадигмы слабо используют итеративную визуальную обратную связь. Мы решаем эти проблемы с помощью интерактивной парадигмы UI-to-code, которая лучше отражает реальные рабочие процессы и повышает верхний предел достижимой производительности. В рамках этой парадигмы мы представляем UI2Code^N — визуальную языковую модель, обученную с помощью поэтапного предварительного обучения, тонкой настройки и обучения с подкреплением для достижения фундаментального улучшения в мультимодальной генерации кода. Модель объединяет три ключевые возможности: генерацию кода из UI, редактирование UI и полировку UI. Мы также исследуем масштабирование во время тестирования для интерактивной генерации, позволяя систематически использовать многошаговую обратную связь. Эксперименты на бенчмарках по генерации кода из UI и полировке UI показывают, что UI2Code^N устанавливает новый state-of-the-art среди моделей с открытым исходным кодом и демонстрирует производительность, сопоставимую с ведущими проприетарными моделями, такими как Claude-4-Sonnet и GPT-5. Наш код и модели доступны по адресу https://github.com/zai-org/UI2Code_N.

Моделирование визуального мира с помощью искусственного интеллекта: дорожная карта
Simulating the Visual World with Artificial Intelligence: A Roadmap

Nov 11

ByJingtong Yue, Ziqi Huang, Zhaoxi Chen, Xintao Wang, Pengfei Wan, Ziwei Liu

Ландшафт генерации видео претерпевает изменения: акцент смещается с создания визуально привлекательных роликов на построение виртуальных сред, поддерживающих взаимодействие и сохраняющих физическую правдоподобность. Эти тенденции указывают на появление фоновых моделей видео, которые функционируют не только как визуальные генераторы, но и как неявные мировые модели — системы, симулирующие физическую динамику, взаимодействие агентов со средой и планирование задач, присущие реальным или воображаемым мирам. Данный обзор предлагает систематический взгляд на эту эволюцию, концептуализируя современные фоновые модели видео как комбинацию двух ключевых компонентов: неявной мировой модели и видеорендерера. Мировая модель кодирует структурированные знания о мире, включая физические законы, динамику взаимодействий и поведение агентов. Она служит латентным движком симуляции, обеспечивающим согласованное визуальное рассуждение, долгосрочную временную согласованность и целеориентированное планирование. Видеорендерер преобразует эту латентную симуляцию в реалистичные визуальные наблюдения, фактически создавая видео как «окно» в смоделированный мир. Мы прослеживаем прогресс генерации видео через четыре поколения, в которых ключевые возможности последовательно развиваются, достигая кульминации в мировой модели, построенной на основе модели генерации видео и воплощающей внутреннюю физическую правдоподобность, интерактивность в реальном времени и возможности планирования на множественных пространственно-временных масштабах. Для каждого поколения мы определяем его основные характеристики, выделяем репрезентативные работы и анализируем их области применения, такие как робототехника, автономное вождение и интерактивные игры. В заключение обсуждаются открытые challenges и принципы проектирования моделей следующего поколения, включая роль агентного интеллекта в формировании и оценке таких систем. Актуальный список связанных работ поддерживается по данной ссылке.

LiteAttention: Временная разреженная внимание для диффузионных трансформаторов
LiteAttention: A Temporal Sparse Attention for Diffusion Transformers

Nov 14

ByDor Shmilovich, Tony Wu, Aviad Dahan, Yuval Domb

Диффузионные трансформаторы, особенно для генерации видео, достигают выдающегося качества, но страдают от квадратичной сложности механизма внимания, что приводит к неприемлемой задержке. Существующие методы ускорения сталкиваются с фундаментальным компромиссом: динамическое вычисление разреженных паттернов внимания на каждом шаге денойзинга влечет высокие вычислительные затраты и ошибки оценки, в то время как статические паттерны разреженности остаются фиксированными и часто оказываются неоптимальными на протяжении всего процесса денойзинга. Мы выявляем ключевое структурное свойство внимания в диффузионных моделях, а именно — сильную временную согласованность его паттернов разреженности между шагами денойзинга. Тайлы, признанные несущественными на шаге t, обычно остаются таковыми и на шаге t+δ. Используя это наблюдение, мы представляем LiteAttention — метод, который использует временную согласованность для пропуска эволюционных вычислений вдоль последовательности денойзинга. Помечая несущественные тайлы на ранних этапах и распространяя решения о пропуске вперед, LiteAttention устраняет избыточные вычисления внимания без повторных затрат на профилирование, сочетая адаптивность динамических методов с эффективностью статических. Мы реализуем высокооптимизированное ядро LiteAttention поверх FlashAttention и демонстрируем значительное ускорение в промышленных моделях видео-диффузии без ухудшения качества. Код и детали реализации будут опубликованы в открытом доступе.

AIonopedia: агент на основе больших языковых моделей для оркестровки мультимодального обучения при открытии ионных жидкостей
AIonopedia: an LLM agent orchestrating multimodal learning for ionic liquid discovery

Nov 14

ByYuqi Yin, Yibo Fu, Siyuan Wang, Peng Sun, Hongyu Wang, Xiaohui Wang, Lei Zheng, Zhiyong Li, Zhirong Liu, Jianji Wang, Zhaoxi Sun

Открытие новых ионных жидкостей (ИЖ) сдерживается серьезными проблемами в прогнозировании свойств, включая ограниченность данных, низкую точность моделей и фрагментированные рабочие процессы. Используя возможности больших языковых моделей (LLM), мы представляем AIonopedia — насколько нам известно, первого LLM-агента для открытия ИЖ. Основанный на мультимодальной доменно-специфичной фундаментальной модели для ИЖ, усиленной LLM, AIonopedia обеспечивает точное прогнозирование свойств и включает иерархическую архитектуру поиска для молекулярного скрининга и дизайна. Наша модель, обученная и протестированная на вновь созданном всеобъемлющем наборе данных по ИЖ, демонстрирует превосходную производительность. Дополняя эти результаты, оценки на системах, описанных в литературе, указывают на способность агента эффективно выполнять модификацию ИЖ. Выходя за рамки офлайн-тестов, практическая эффективность была дополнительно подтверждена реальной лабораторной валидацией, в ходе которой агент продемонстрировал исключительные способности к обобщению на сложных задачах за пределами распределения обучающих данных, подчеркивая его потенциал для ускорения реального процесса открытия ИЖ.

SpatialThinker: Усиление 3D-рассуждений в мультимодальных LLM с помощью пространственных вознаграждений
SpatialThinker: Reinforcing 3D Reasoning in Multimodal LLMs via Spatial Rewards

Nov 10

ByHunar Batra, Haoqin Tu, Hardy Chen, Yuanze Lin, Cihang Xie, Ronald Clark

Мультимодальные большие языковые модели (MLLM) достигли значительного прогресса в задачах, связанных с обработкой визуальной и языковой информации, однако они по-прежнему испытывают трудности с пространственным пониманием. Существующие пространственные MLLM часто полагаются на явные трехмерные входные данные или модификации архитектуры и остаются ограниченными необходимостью использования крупномасштабных наборов данных или разреженной разметки. Для преодоления этих ограничений мы представляем SpatialThinker — 3D-осознанную MLLM, обученную с подкреплением (RL) для интеграции структурированного пространственного обоснования с многошаговыми рассуждениями. Модель имитирует человеческое пространственное восприятие, строя граф сцены из релевантных задаче объектов и пространственных отношений и приближаясь к ответу через плотные пространственные вознаграждения. SpatialThinker включает два ключевых компонента: (1) конвейер синтеза данных, который генерирует STVQA-7K — высококачественный набор данных для пространственного визуального вопроса-ответа (VQA), и (2) онлайн-обучение с подкреплением с многоцелевым плотным пространственным вознаграждением, обеспечивающим пространственное обоснование. SpatialThinker-7B превосходит методы тонкой настройки с учителем и базовый подход с разреженным RL по показателям пространственного понимания и реальным бенчмаркам VQA, почти удваивая прирост базовой модели по сравнению с разреженным RL и опережая GPT-4o. Эти результаты демонстрируют эффективность сочетания пространственного контроля с выровненными по вознаграждению рассуждениями для обеспечения надежного 3D-пространственного понимания при ограниченных данных и продвижения MLLM к уровню человеческого визуального мышления.

MarsRL: Развитие системы коллективного принятия решений с помощью обучения с подкреплением и конвейерного параллелизма на уровне агентов
MarsRL: Advancing Multi-Agent Reasoning System via Reinforcement Learning with Agentic Pipeline Parallelism

Nov 14

ByShulin Liu, Dong Du, Tao Yang, Yang Li, Boyu Qiu

Последние достижения в области больших языковых моделей (LLM) были обусловлены использованием обучения с подкреплением на основе верифицируемых вознаграждений (RLVR) и масштабированием на этапе тестирования. Однако ограниченная длина выходных данных LLM сдерживает глубину рассуждений, достижимую в рамках единого процесса вывода. Многоагентные системы рассуждений предлагают перспективную альтернативу, используя множество агентов, включая Решателя, Верификатора и Корректора, для итеративного улучшения решений. Несмотря на эффективность в закрытых моделях, таких как Gemini 2.5 Pro, эти системы плохо обобщаются на открытые модели из-за недостаточных критических и корректирующих способностей. Для решения этой проблемы мы предлагаем MarsRL — новую структуру обучения с подкреплением с параллелизмом агентного конвейера, предназначенную для совместной оптимизации всех агентов в системе. MarsRL вводит механизмы вознаграждения, специфичные для агентов, чтобы снизить шум вознаграждений, и использует обучение по принципу конвейера для повышения эффективности обработки длинных траекторий. Примененный к модели Qwen3-30B-A3B-Thinking-2507, MarsRL повысил точность на AIME2025 с 86,5% до 93,3% и на BeyondAIME с 64,9% до 73,8%, превзойдя даже показатели Qwen3-235B-A22B-Thinking-2507. Эти результаты демонстрируют потенциал MarsRL для развития многоагентных систем рассуждений и расширения их применимости к разнообразным задачам логического вывода.

RF-DETR: Поиск нейронных архитектур для трансформеров детектирования в реальном времени
RF-DETR: Neural Architecture Search for Real-Time Detection Transformers

Nov 12

ByIsaac Robinson, Peter Robicheaux, Matvei Popov, Deva Ramanan, Neehar Peri

Детекторы с открытым словарем демонстрируют впечатляющие результаты на COCO, но часто не способны к обобщению на реальные наборы данных с классами, выходящими за пределы распределения (out-of-distribution), которые обычно отсутствуют в их предварительном обучении. Вместо простого дообучения тяжелой визуально-языковой модели (VLM) для новых доменов мы представляем RF-DETR — легковесный специализированный детектор-трансформер, который строит кривые Парето "точность-задержка" для любого целевого набора данных с помощью поиска нейронной архитектуры (NAS) с разделением весов. Наш подход дообучает предварительно обученную базовую сеть на целевом наборе данных и оценивает тысячи конфигураций сетей с различными компромиссами между точностью и задержкой без их переобучения. Кроме того, мы пересматриваем "регулируемые параметры" для NAS, чтобы улучшить переносимость DETR в разнообразные целевые домены. Примечательно, что RF-DETR значительно превосходит предыдущие передовые методы реального времени на COCO и Roboflow100-VL. RF-DETR (nano) достигает 48.0 AP на COCO, опережая D-FINE (nano) на 5.3 AP при схожей задержке, а RF-DETR (2x-large) превосходит GroundingDINO (tiny) на 1.2 AP на Roboflow100-VL, работая при этом в 20 раз быстрее. Насколько нам известно, RF-DETR (2x-large) является первым детектором реального времени, преодолевшим рубеж в 60 AP на COCO. Наш код доступен по адресу https://github.com/roboflow/rf-detr.

HI-TransPA: Персональный ассистент для перевода с учётом нарушений слуха
HI-TransPA: Hearing Impairments Translation Personal Assistant

Nov 13

ByZhiming Ma, Shiyu Gan, Junhao Zhao, Xianming Li, Qingyun Pan, Peidong Wang, Mingjun Pan, Yuhao Mo, Jiajie Cheng, Chengxin Chen, Zhonglun Cao, Chonghan Liu, Shi Cheng

Для обеспечения унифицированного и гибкого решения для повседневного общения слабослышащих людей мы внедряем парадигму Omni-Model в ассистивные технологии и представляем HI-TransPA — управляемый инструкциями аудиовизуальный персональный ассистент. Модель объединяет неразборчивую речь с высокочастотной динамикой губ, обеспечивая как перевод, так и диалог в рамках единой мультимодальной системы. Для решения проблем зашумленных и гетерогенных исходных данных, а также ограниченной адаптивности существующих Omni-Models к речи слабослышащих, мы разработали комплексный конвейер предобработки и курации, который детектирует лицевые landmarks, изолирует и стабилизирует область губ, а также количественно оценивает качество мультимодальных образцов. Эти оценки качества направляют стратегию curriculum learning, при которой обучение начинается с чистых, высококачественных образцов с постепенным включением более сложных случаев для повышения устойчивости модели. Мы также используем кодировщик SigLIP в сочетании с Unified 3D-Resampler для эффективного кодирования высокочастотных движений губ. Эксперименты на специально созданном наборе данных HI-Dialogue демонстрируют, что HI-TransPA достигает передовых результатов как по буквальной точности, так и по семантической достоверности. Данная работа закладывает основу для применения Omni-Models в ассистивных коммуникационных технологиях, предоставляя сквозную модель framework и необходимые инструменты обработки для будущих исследований.

Не растрачивайте потенциал: направляющие рекомендации с помощью структурированных априорных знаний через многоголовое декодирование
Don't Waste It: Guiding Generative Recommenders with Structured Human Priors via Multi-head Decoding

Nov 13

ByYunkai Zhang, Qiang Zhang, Feng, Lin, Ruizhong Qiu, Hanchao Yu, Jason Liu, Yinglong Xia, Zhuoran Yu, Zeyu Zheng, Diji Yang

Оптимизация систем рекомендаций для достижения целей, выходящих за рамки точности, таких как разнообразие, новизна и персонализация, крайне важна для долгосрочного удовлетворения пользователей. С этой целью специалисты в индустрии накопили огромный объем структурированных доменных знаний, которые мы называем априорными знаниями человека (например, таксономии элементов, временные паттерны). Эти знания обычно применяются посредством пост-обработки на этапе ранжирования или после него. Однако такой подход остается оторванным от основного процесса обучения модели, что особенно нежелательно в условиях перехода индустрии к сквозным генеративным фундаментальным моделям рекомендаций. С другой стороны, многие методы, нацеленные на эти дополнительные метрики, часто требуют модификаций, специфичных для архитектуры, и отбрасывают ценные априорные знания человека, обучаясь понимать интересы пользователя полностью неконтролируемым образом. Вместо того чтобы отказываться от априорных знаний, накопленных за годы практики, мы представляем универсальный фреймворк, который бесшовно интегрирует эти знания непосредственно в сквозное обучение генеративных рекомендательных систем. С помощью легковесных адаптеров, управляемых априорными знаниями и вдохновленных эффективными стратегиями декодирования больших языковых моделей, наш подход направляет модель на разделение интересов пользователя по понятным человеку осям (например, типы взаимодействий, долгосрочные и краткосрочные интересы). Мы также представляем стратегию иерархической композиции для моделирования сложных взаимодействий между различными типами априорных знаний. Масштабные эксперименты на трех больших наборах данных демонстрируют, что наш метод значительно улучшает как показатели точности, так и дополнительные целевые метрики. Мы также показываем, что априорные знания позволяют базовой модели эффективнее использовать более длинные контексты и большие размеры моделей.

DiscoX: Оценка качества перевода на уровне дискурса в экспертных областях
DiscoX: Benchmarking Discourse-Level Translation task in Expert Domains

Nov 14

ByXiying Zhao, Zhoufutu Wen, Zhixuan Chen, Jingzhe Ding, Jianpeng Jiao, Shuai Li, Xi Li, Danni Liang, Shengda Long, Qianqian Liu, Xianbo Wu, Hongwan Gao, Xiang Gao, Liang Hu, Jiashuo Liu, Mengyun Liu, Weiran Shi, Chenghao Yang, Qianyu Yang, Xuanliang Zhang, Ge Zhang, Wenhao Huang

Оценка перевода на уровне дискурса в экспертных областях остаётся недостаточной, несмотря на её ключевую роль в распространении знаний и межъязыковой научной коммуникации. Хотя такие переводы требуют связности на уровне дискурса и строгой терминологической точности, современные методы оценки в основном сосредоточены на точности и беглости на уровне сегментов. Для устранения этого ограничения мы представляем DiscoX — новый эталонный набор для перевода между китайским и английским языками на уровне дискурса и экспертного содержания. Он включает 200 профессионально отобранных текстов из 7 областей со средней длиной свыше 1700 токенов. Для оценки производительности на DiscoX мы также разработали Metric-S — беспереферентную систему, обеспечивающую детализированную автоматическую оценку по параметрам точности, беглости и уместности. Metric-S демонстрирует высокую согласованность с экспертными оценками, значительно превосходя существующие метрики. Наши эксперименты выявляют значительный разрыв в качестве: даже самые передовые большие языковые модели существенно уступают экспертам-переводчикам в этих задачах. Этот результат подтверждает сложность DiscoX и подчеркивает сохраняющиеся challenges в достижении профессионального уровня машинного перевода. Предлагаемый эталонный набор и система оценки создают надежную основу для более строгой оценки, способствуя дальнейшему прогрессу в области перевода на основе больших языковых моделей.

Опытно-ориентированная адаптация стратегий логического вывода в процессе вывода
Experience-Guided Adaptation of Inference-Time Reasoning Strategies

Nov 14

ByAdam Stein, Matthew Trager, Benjamin Bowman, Michael Kleinman, Aditya Chattopadhyay, Wei Xia, Stefano Soatto

Обеспечение адаптации агентных систем ИИ к изменению подходов к решению задач на основе взаимодействий после обучения остается фундаментальной проблемой. Хотя были предложены системы, которые обновляют и поддерживают память во время вывода, существующие архитектуры управляют системой лишь путем модификации текстового ввода для языковой модели или агента, что не позволяет изменять параметры сэмплирования, удалять инструменты, модифицировать системные промпты или переключаться между агентными и workflow-парадигмами. С другой стороны, системы с более гибкой адаптацией требуют офлайн-оптимизации и остаются статичными после развертывания. Мы представляем Experience-Guided Reasoner (EGuR) — систему, которая динамически генерирует специализированные стратегии (полные вычислительные процедуры, включающие вызовы LLM, инструменты, параметры сэмплирования и логику управления) во время вывода на основе накопленного опыта. Это достигается за счет метастратегии на основе LLM — стратегии, порождающей другие стратегии, — что позволяет адаптировать все компоненты стратегии (промпты, параметры сэмплирования, конфигурации инструментов и логику управления). EGuR функционирует через два компонента: Guide генерирует множество кандидатных стратегий с учетом текущей задачи и структурированной памяти прошлого опыта, а Consolidator интегрирует обратную связь от выполнения для улучшения будущей генерации стратегий. Это создает полные, готовые к выполнению стратегии, оптимизированные для каждой задачи, которые можно кэшировать, извлекать и выполнять по мере необходимости без растраты ресурсов. На пяти сложных тестах (AIME 2025, 3-ВЫП, и три задачи из Big Bench Extra Hard) EGuR демонстрирует до 14% улучшения точности по сравнению с сильнейшими базовыми методами при одновременном снижении вычислительных затрат до 111 раз, причем оба показателя улучшаются по мере накопления системой опыта.

EmoVid: Мультимодальный видео-датасет эмоций для анализа и генерации видео с фокусом на эмоциях
EmoVid: A Multimodal Emotion Video Dataset for Emotion-Centric Video Understanding and Generation

Nov 14

ByZongyang Qiu, Bingyuan Wang, Xingbei Chen, Yingqing He, Zeyu Wang

Эмоции играют ключевую роль в видеоэкспрессии, однако существующие системы генерации видео в основном сосредоточены на низкоуровневых визуальных метриках, пренебрегая аффективными измерениями. Несмотря на прогресс в анализе эмоций в визуальной области, видеосообщество испытывает нехватку специализированных ресурсов, связывающих понимание эмоций с генеративными задачами, особенно в стилизованных и нереалистичных контекстах. Для устранения этого пробела мы представляем EmoVid — первый мультимодальный видео-датасет с эмоциональными аннотациями, специально созданный для творческого контента, включающий анимационные мультфильмы, кинофрагменты и анимированные стикеры. Каждое видео аннотировано эмоциональными метками, визуальными атрибутами (яркость, цветность, оттенок) и текстовыми описаниями. Посредством системного анализа мы выявляем пространственно-временные закономерности, связывающие визуальные характеристики с эмоциональным восприятием в разнообразных формах видео. На основе этих инсайтов мы разрабатываем технику генерации видео с условием по эмоциям путем дообучения модели Wan2.1. Результаты демонстрируют значительное улучшение как количественных метрик, так и визуального качества генерируемых видео для задач text-to-video и image-to-video. EmoVid устанавливает новый стандарт для аффективной видеообработки. Наша работа не только предоставляет ценные insights для визуального анализа эмоций в художественно стилизованных видео, но и предлагает практические методы усиления эмоциональной выразительности в генерации видео.

От доказательства к программе: характеристика галлюцинаций рассуждений, вызванных инструментами, в больших языковых моделях
From Proof to Program: Characterizing Tool-Induced Reasoning Hallucinations in Large Language Models

Nov 14

ByFarima Fatahi Bayat, Pouya Pezeshkpour, Estevam Hruschka

Языковые модели с инструментальным расширением (TaLMs) способны вызывать внешние инструменты для решения задач, выходящих за пределы их параметрических возможностей. Однако остается неясным, отражают ли эти преимущества, обеспечиваемые инструментами, достоверные рассуждения. Сосредоточившись на инструменте Code Interpreter, мы показываем, что даже при корректном выборе и выполнении инструментов TaLMs рассматривают их выводы как замену рассуждениям, производя решения, которые кажутся правильными, но лишены последовательного обоснования. Мы называем этот тип сбоя **инструментальной миопией (Tool-Induced Myopia, TIM)** и исследуем его с помощью PYMATH — набора из 1679 математических задач уровня соревнований, для которых код на Python полезен, но недостаточен. Мы также разрабатываем многомерную систему оценки для количественного измерения деградации рассуждений в TaLMs по сравнению с их аналогами без инструментов. Наши результаты показывают, что хотя TaLMs демонстрируют прирост точности итогового ответа до 19.3 процентных пунктов, качество их рассуждений последовательно ухудшается (например, в парных сравнениях процесса рассуждения LLMs без инструментов побеждают до 41.5% чаще). Эта деградация усиливается с использованием инструментов: чем чаще модель вызывает инструменты, тем менее связными становятся ее рассуждения. Более того, использование инструментов смещает ошибки с арифметических погрешностей в сторону глобальных сбоев рассуждений (логика, предположения, креативность); TIM наблюдается примерно в ~55% случаев с высоким риском. Наконец, мы предлагаем основанную на оптимизации предпочтений структуру, которая переориентирует TaLMs на использование инструментов в качестве вспомогательных доказательств, улучшая как точность итогового ответа, так и глубину рассуждений при работе с инструментами. Код и данные доступны по адресу: https://github.com/megagonlabs/TIM.

Крупные языковые модели для генерации научных идей: обзор с акцентом на креативность
Large Language Models for Scientific Idea Generation: A Creativity-Centered Survey

Nov 5

ByFatemeh Shahhosseini, Arash Marioriyad, Ali Momen, Mahdieh Soleymani Baghshah, Mohammad Hossein Rohban, Shaghayegh Haghjooy Javanmard

Генерация научных идей лежит в основе научных открытий и движет прогрессом человечества — как через решение нерешённых проблем, так и через выдвижение новых гипотез для объяснения неизвестных явлений. В отличие от стандартных научных рассуждений или общей креативной генерации, генерация идей в науке представляет собой многокритериальную и открытую задачу, где новизна вклада не менее важна, чем его эмпирическая обоснованность. Крупные языковые модели (КЯМ) недавно проявили себя как перспективные генераторы научных идей, способные производить связные и фактологически точные результаты с удивительной интуицией и приемлемой аргументацией, однако их творческий потенциал остаётся нестабильным и слабо изученным. Данный обзор предлагает структурированный синтез методов научного генерирования идей на основе КЯМ, исследуя, как разные подходы балансируют между креативностью и научной строгостью. Мы классифицируем существующие методы в пять взаимодополняющих семейств: расширение внешними знаниями, управление распределением через промпты, масштабирование на этапе вывода, многoагентная коллаборация и адаптация на уровне параметров. Для интерпретации их вклада мы используем две взаимодополняющие концепции: таксономию креативности Боден (комбинаторная, исследовательская и трансформационная) для характеристики уровня идей, ожидаемых от каждого семейства, и модель 4P Роудса (Личность, Процесс, Среда, Продукт) для определения аспекта или источника креативности, на который делает акцент каждый метод. Сопоставляя методологические достижения с концепциями креативности, этот обзор проясняет состояние области и намечает ключевые направления для достижения надёжных, систематических и трансформационных применений КЯМ в научных открытиях.

miniF2F-Lean Revisited: Анализ ограничений и определение путей развития
miniF2F-Lean Revisited: Reviewing Limitations and Charting a Path Forward

Nov 5

ByAzim Ospanov, Farzan Farnia, Roozbeh Yousefzadeh

Мы проводим тщательный анализ формальных и неформальных утверждений в бенчмарке miniF2F с точки зрения системы искусственного интеллекта, задача которой — участвовать в математической олимпиаде, состоящей из задач miniF2F. В такой постановке модель должна прочитать и понять условия задач на естественном языке, формализовать их на языке Lean, затем перейти к доказательству задач и получать баллы за каждую задачу, если формальное доказательство соответствует исходному неформальному утверждению, представленному модели. Наши результаты оценки показывают, что наилучшая точность такого конвейера может составлять около 36% при использовании современных моделей (SoTA) из литературы, что значительно ниже индивидуальных показателей точности SoTA — 97% и 69%, заявленных в литературе по автоформализации и автоматическому доказательству теорем. Анализируя типы ошибок, мы обнаруживаем, что значительная часть этого снижения связана с расхождениями между формальными и неформальными утверждениями более чем для половины задач в miniF2F. Мы исправляем все ошибки, несоответствия и упрощения в формальных и неформальных утверждениях и представляем miniF2F-v2 с полностью верифицированными формальными и неформальными утверждениями и доказательствами. Оценка полного конвейера доказательства теорем на miniF2F-v2 показывает наилучшую точность в 70%, что является значительным улучшением по сравнению с 40% на исходном miniF2F, но указывает на существенное несоответствие между моделями автоформализации и доказателями теорем. Наш глубокий анализ позволяет предположить, что более качественный бенчмарк может помочь сообществу лучше оценивать прогресс в области формальных рассуждений, а также точнее диагностировать причины неудач и успехов моделей автоформализации и доказательства теорем. Наш набор данных доступен по адресу https://github.com/roozbeh-yz/miniF2F_v2.

Планировщики рабочей нагрузки: генезис, алгоритмы и различия
Workload Schedulers -- Genesis, Algorithms and Differences

Nov 13

ByLeszek Sliwko, Vladimir Getov

В данной статье представлен новый подход к классификации современных планировщиков рабочих нагрузок. Мы приводим описание трех классов планировщиков: планировщики процессов операционных систем, планировщики заданий кластерных систем и планировщики больших данных. Прослеживается их эволюция от ранних реализаций до современных версий с учетом как применения, так и особенностей алгоритмов. В заключении обсуждаются различия между всеми представленными классами планировщиков и их хронологическое развитие. В итоге подчеркиваются общие принципы проектирования стратегий планирования, применимые как к локальным, так и к распределенным системам.

Создание веб-среды для агентов: декларативная структура для взаимодействия агентов с вебом
Building the Web for Agents: A Declarative Framework for Agent-Web Interaction

Nov 14

BySven Schultze, Meike Verena Kietzmann, Nils-Lucas Schönfeld, Ruth Stock-Homburg

Распространение автономных ИИ-агентов в интернете сталкивается с фундаментальной проблемой рассогласованности: агенты вынуждены выводить аффордансы из пользовательских интерфейсов, предназначенных для людей, что приводит к нестабильным, неэффективным и небезопасным взаимодействиям. Для решения этой проблемы мы представляем VOIX — веб-ориентированный фреймворк, который позволяет веб-сайтам предоставлять ИИ-агентам надежные, проверяемые и сохраняющие конфиденциальность возможности с помощью простых декларативных HTML-элементов. VOIX вводит теги `<tool>` и `<context>`, позволяя разработчикам явно определять доступные действия и релевантное состояние, создавая тем самым четкий машиночитаемый контракт для поведения агента. Этот подход передает контроль разработчику веб-сайта, сохраняя при этом конфиденциальность пользователей за счет отделения диалоговых взаимодействий от веб-сайта. Мы оценили практичность, удобство освоения и выразительность фреймворка в ходе трехдневного хакатона с участием 16 разработчиков. Результаты показывают, что участники, независимо от предыдущего опыта, смогли быстро создавать разнообразные и функциональные веб-приложения с поддержкой агентов. В конечном счете, данная работа предоставляет базовый механизм для реализации Агентской Паутины (Agentic Web), открывая путь к будущему с бесшовным и безопасным взаимодействием человека и ИИ в интернете.

Метаэвристический балансировщик нагрузки для облачных вычислительных систем
A Meta-Heuristic Load Balancer for Cloud Computing Systems

Nov 13

ByLeszek Sliwko, Vladimir Getov

В данной статье представлена стратегия распределения сервисов в облачной системе без перегрузки узлов и поддержания стабильности системы при минимальных затратах. Мы определяем абстрактную модель использования облачных ресурсов, включающую несколько типов ресурсов, а также учет затрат на миграцию сервисов. Демонстрируется прототип метаэвристического балансировщика нагрузки, приводятся и обсуждаются экспериментальные результаты. Также предлагается новый генетический алгоритм, в котором популяция инициализируется результатами других метаэвристических алгоритмов.

CATS-V2V: Набор данных для кооперативного восприятия между транспортными средствами в реальных условиях со сложными неблагоприятными дорожными сценариями
CATS-V2V: A Real-World Vehicle-to-Vehicle Cooperative Perception Dataset with Complex Adverse Traffic Scenarios

Nov 14

ByHangyu Li, Bofeng Cao, Zhaohui Liang, Wuzhen Li, Juyoung Oh, Yuxuan Chen, Shixiao Liang, Hang Zhou, Chengyuan Ma, Jiaxi Liu, Zheng Li, Peng Zhang, KeKe Long, Maolin Liu, Jackson Jiang, Chunlei Yu, Shengxiang Liu, Hongkai Yu, Xiaopeng Li

Кооперативное восприятие по схеме «транспорт-транспорт» (V2V) обладает значительным потенциалом для повышения эффективности автономного вождения за счет преодоления ограничений систем восприятия в сложных неблагоприятных дорожных сценариях (Complex Adverse Traffic Scenarios, CATS). В то же время данные служат фундаментальной инфраструктурой для современных систем искусственного интеллекта автономных транспортных средств. Однако из-за строгих требований к сбору данных существующие наборы данных в основном сосредоточены на обычных дорожных сценариях, что ограничивает преимущества кооперативного восприятия. Для решения этой проблемы мы представляем CATS-V2V — первую в своем роде базу данных, собранную в реальных условиях, для кооперативного восприятия V2V в сложных неблагоприятных дорожных сценариях. Набор данных был собран двумя аппаратно синхронизированными по времени транспортными средствами и охватывает 10 погодных и световых условий в 10 различных локациях. Набор данных из 100 клипов включает 60 тысяч кадров лидарных облаков точек с частотой 10 Гц и 1,26 миллиона многовидовых изображений с камер с частотой 30 Гц, а также 750 тысяч анонимизированных, но высокоточных записей GNSS с фиксацией RTK и данных IMU. Соответственно, мы предоставляем временно-согласованные аннотации 3D ограничивающих рамок для объектов, а также статических сцен для построения 4D BEV-представления. На этой основе мы предлагаем целевой метод временного выравнивания, обеспечивающий точную синхронизацию всех объектов across всеми сенсорными модальностями. Мы надеемся, что CATS-V2V — крупнейший, наиболее комплексный и качественный на сегодняшний день набор данных своего рода — послужит на пользу сообществу разработчиков автономного вождения в решении связанных задач.