HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

27 papers found

MemOS: Операционная система памяти для ИИ-систем
MemOS: A Memory OS for AI System

Jul 4

ByZhiyu Li, Shichao Song, Chenyang Xi, Hanyu Wang, Chen Tang, Simin Niu, Ding Chen, Jiawei Yang, Chunyu Li, Qingchen Yu, Jihao Zhao, Yezhaohui Wang, Peng Liu, Zehao Lin, Pengyuan Wang, Jiahao Huo, Tianyi Chen, Kai Chen, Kehang Li, Zhen Tao, Junpeng Ren, Huayi Lai, Hao Wu, Bo Tang, Zhenren Wang, Zhaoxin Fan, Ningyu Zhang, Linfeng Zhang, Junchi Yan, Mingchuan Yang, Tong Xu, Wei Xu, Huajun Chen, Haofeng Wang, Hongkang Yang, Wentao Zhang, Zhi-Qin John Xu, Siheng Chen, Feiyu Xiong

153

Крупные языковые модели (LLM) стали важной инфраструктурой для искусственного общего интеллекта (AGI), однако отсутствие у них четко определенных систем управления памятью препятствует развитию долгосрочного контекстного рассуждения, непрерывной персонализации и согласованности знаний. Существующие модели в основном опираются на статические параметры и кратковременные контекстные состояния, что ограничивает их способность отслеживать предпочтения пользователей или обновлять знания в течение длительных периодов. Хотя подход Retrieval-Augmented Generation (RAG) вводит внешние знания в виде простого текста, он остается бессостоятельным решением без контроля жизненного цикла или интеграции с устойчивыми представлениями. Недавние исследования смоделировали затраты на обучение и вывод LLM с точки зрения иерархии памяти, показав, что введение явного слоя памяти между параметрической памятью и внешним поиском может существенно снизить эти затраты за счет экстернализации конкретных знаний. Помимо вычислительной эффективности, LLM сталкиваются с более широкими проблемами, связанными с распределением информации во времени и контексте, что требует систем, способных управлять гетерогенными знаниями, охватывающими различные временные масштабы и источники. Для решения этой задачи мы предлагаем MemOS, операционную систему памяти, которая рассматривает память как управляемый системный ресурс. Она объединяет представление, планирование и эволюцию текстовой, активационной и параметрической памяти, обеспечивая экономичное хранение и извлечение. В качестве базовой единицы MemCube инкапсулирует как содержимое памяти, так и метаданные, такие как происхождение и версионность. MemCube могут комбинироваться, мигрировать и объединяться со временем, обеспечивая гибкие переходы между типами памяти и связывая поиск с параметрическим обучением. MemOS устанавливает системную архитектуру, ориентированную на память, которая привносит управляемость, пластичность и эволюционность в LLM, закладывая основу для непрерывного обучения и персонализированного моделирования.

Стоит ли по-прежнему предобучать энкодеры с помощью маскированного языкового моделирования?
Should We Still Pretrain Encoders with Masked Language Modeling?

Jul 1

ByHippolyte Gisserot-Boukhlef, Nicolas Boizard, Manuel Faysse, Duarte M. Alves, Emmanuel Malherbe, André F. T. Martins, Céline Hudelot, Pierre Colombo

Обучение высококачественных текстовых представлений является основополагающим для широкого спектра задач обработки естественного языка (NLP). Хотя предварительное обучение энкодеров традиционно основывалось на маскированном языковом моделировании (MLM), недавние исследования показывают, что декодеры, предварительно обученные с использованием каузального языкового моделирования (CLM), могут быть эффективно перепрофилированы в энкодеры, часто превосходя традиционные энкодеры на бенчмарках текстовых представлений. Однако остается неясным, отражают ли эти улучшения внутреннее преимущество цели CLM или возникают из-за смешивающих факторов, таких как масштаб модели и данных. В данной работе мы исследуем этот вопрос с помощью серии крупномасштабных, тщательно контролируемых экспериментов по предварительному обучению, обучив в общей сложности 30 моделей с количеством параметров от 210 миллионов до 1 миллиарда и проведя более 15 000 экспериментов по тонкой настройке и оценке. Мы обнаружили, что, хотя обучение с использованием MLM в целом обеспечивает лучшую производительность в задачах текстового представления, модели, обученные с CLM, более эффективны в использовании данных и демонстрируют улучшенную стабильность при тонкой настройке. На основе этих результатов мы экспериментально показываем, что двухфазная стратегия обучения, которая последовательно применяет CLM, а затем MLM, достигает оптимальной производительности при фиксированном вычислительном бюджете обучения. Более того, мы демонстрируем, что эта стратегия становится еще более привлекательной при инициализации из доступных предварительно обученных моделей CLM (из существующей экосистемы LLM), снижая вычислительную нагрузку, необходимую для обучения лучших в своем классе моделей энкодеров. Мы публикуем все материалы проекта по адресу https://hf.co/MLMvsCLM для содействия дальнейшим исследованиям.

Агент KB: Использование междисциплинарного опыта для агентного решения задач
Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

Jul 8

ByXiangru Tang, Tianrui Qin, Tianhao Peng, Ziyang Zhou, Daniel Shao, Tingting Du, Xinming Wei, Peng Xia, Fang Wu, He Zhu, Ge Zhang, Jiaheng Liu, Xingyao Wang, Sirui Hong, Chenglin Wu, Hao Cheng, Chi Wang, Wangchunshu Zhou

По мере того как языковые агенты берутся за всё более сложные задачи, они сталкиваются с трудностями в эффективном исправлении ошибок и повторном использовании опыта в различных областях. Мы представляем Agent KB — иерархическую структуру опыта, которая позволяет решать сложные задачи с помощью нового конвейера Reason-Retrieve-Refine (Рассуждение-Извлечение-Уточнение). Agent KB устраняет ключевое ограничение: традиционно агенты не могут учиться на опыте друг друга. Фиксируя как высокоуровневые стратегии, так и детальные журналы выполнения, Agent KB создаёт общую базу знаний, которая обеспечивает передачу знаний между агентами. Оценка на бенчмарке GAIA показала, что Agent KB повышает успешность выполнения задач до 16,28 процентных пунктов. На наиболее сложных задачах Claude-3 улучшил свои результаты с 38,46% до 57,69%, а GPT-4 — с 53,49% до 73,26% на задачах средней сложности. На исправлении кода в SWE-bench Agent KB позволил Claude-3 улучшить результат с 41,33% до 53,33%. Наши результаты показывают, что Agent KB предоставляет модульную, независимую от фреймворка инфраструктуру, которая позволяет агентам учиться на прошлом опыте и обобщать успешные стратегии для новых задач.

Easy Dataset: Унифицированный и расширяемый фреймворк для синтеза данных для тонкой настройки LLM из неструктурированных документов
Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents

Jul 5

ByZiyang Miao, Qiyu Sun, Jingyuan Wang, Yuchen Gong, Yaowei Zheng, Shiqi Li, Richong Zhang

Крупные языковые модели (LLMs) демонстрируют впечатляющие результаты в решении задач общего назначения, однако их адаптация к конкретным предметным областям остается сложной задачей из-за недостатка высококачественных данных в этих областях. Существующие инструменты синтеза данных часто не могут эффективно извлекать надежные данные для тонкой настройки из гетерогенных документов. Для решения этой проблемы мы предлагаем Easy Dataset — унифицированную платформу для синтеза данных для тонкой настройки из неструктурированных документов с помощью интуитивно понятного графического интерфейса пользователя (GUI). В частности, Easy Dataset позволяет пользователям легко настраивать модели извлечения текста и стратегии разбиения на фрагменты для преобразования исходных документов в связные текстовые блоки. Затем платформа использует подход, основанный на персонализированных запросах, для генерации разнообразных пар вопрос-ответ с использованием общедоступных LLMs. На протяжении всего процесса визуальный интерфейс с участием человека облегчает проверку и уточнение промежуточных результатов для обеспечения качества данных. Эксперименты на задаче ответов на вопросы в финансовой области показывают, что тонкая настройка LLMs на синтезированном наборе данных значительно улучшает производительность в предметной области, сохраняя при этом общие знания. Исходный код и устанавливаемый пакет доступны по адресу https://github.com/ConardLi/easy-dataset и получили более 9 000 звезд на GitHub.

DreamVLA: Vision-Language-Action модель, созданная с учетом всеобъемлющих знаний о мире
DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge

Jul 6

ByWenyao Zhang, Hongsi Liu, Zekun Qi, Yunnan Wang, XinQiang Yu, Jiazhao Zhang, Runpei Dong, Jiawei He, He Wang, Zhizheng Zhang, Li Yi, Wenjun Zeng, Xin Jin

Последние достижения в моделях "зрение-язык-действие" (VLA) показали перспективность интеграции генерации изображений с предсказанием действий для улучшения обобщения и рассуждений в задачах манипуляции роботов. Однако существующие методы ограничиваются сложным прогнозированием на основе изображений, которое страдает от избыточной информации и не учитывает всесторонние и важные знания о мире, включая динамическую, пространственную и семантическую информацию. Чтобы устранить эти ограничения, мы предлагаем DreamVLA — новую VLA-модель, которая интегрирует всестороннее прогнозирование знаний о мире для моделирования обратной динамики, тем самым создавая цикл "восприятие-прогнозирование-действие" для задач манипуляции. В частности, DreamVLA вводит прогнозирование знаний о мире, управляемое динамическими областями, интегрированное с пространственными и семантическими подсказками, что обеспечивает компактные, но всесторонние представления для планирования действий. Этот подход соответствует тому, как люди взаимодействуют с миром, сначала формируя абстрактные мультимодальные цепочки рассуждений, прежде чем действовать. Чтобы минимизировать взаимное влияние динамической, пространственной и семантической информации во время обучения, мы используем блочно-структурированный механизм внимания, который маскирует их взаимное внимание, предотвращая утечку информации и сохраняя каждое представление чистым и разделенным. Кроме того, для моделирования условного распределения будущих действий мы применяем трансформер на основе диффузии, который разделяет представления действий от общих скрытых признаков. Эксперименты в реальных и симулированных средах демонстрируют, что DreamVLA достигает 76,7% успешности в задачах реального робота и 4,44 среднего показателя длины на бенчмарках CALVIN ABC-D.

4DSloMo: 4D-реконструкция высокоскоростных сцен с асинхронной съемкой
4DSloMo: 4D Reconstruction for High Speed Scene with Asynchronous Capture

Jul 7

ByYutian Chen, Shi Guo, Tianshuo Yang, Lihe Ding, Xiuyuan Yu, Jinwei Gu, Tianfan Xue

Реконструкция быстроизменяющихся сцен из многовидеоизображений имеет ключевое значение для анализа высокоскоростных движений и реалистичного 4D-восстановления. Однако большинство систем 4D-захвата ограничены частотой кадров ниже 30 FPS (кадров в секунду), и прямое 4D-восстановление высокоскоростных движений из низкочастотных входных данных может привести к нежелательным результатам. В данной работе мы предлагаем систему высокоскоростного 4D-захвата, использующую только камеры с низкой частотой кадров, благодаря новым модулям захвата и обработки. Со стороны захвата мы предлагаем асинхронную схему, которая увеличивает эффективную частоту кадров за счет смещения времени начала работы камер. Группируя камеры и используя базовую частоту кадров 25 FPS, наш метод достигает эквивалентной частоты 100–200 FPS без необходимости использования специализированных высокоскоростных камер. Со стороны обработки мы также предлагаем новую генеративную модель для устранения артефактов, вызванных 4D-реконструкцией с разреженными видами, поскольку асинхронность уменьшает количество точек зрения на каждом временном шаге. В частности, мы предлагаем обучить модель исправления артефактов на основе видео-диффузии для разреженной 4D-реконструкции, которая уточняет недостающие детали, сохраняет временную согласованность и улучшает общее качество восстановления. Экспериментальные результаты демонстрируют, что наш метод значительно улучшает высокоскоростное 4D-восстановление по сравнению с синхронным захватом.

Предварительно обученные дискриминаторы политик являются универсальными моделями вознаграждения.
Pre-Trained Policy Discriminators are General Reward Models

Jul 7

ByShihan Dou, Shichun Liu, Yuming Yang, Yicheng Zou, Yunhua Zhou, Shuhao Xing, Chenhao Huang, Qiming Ge, Demin Song, Haijun Lv, Songyang Gao, Chengqi Lv, Enyu Zhou, Honglin Guo, Zhiheng Xi, Wenwei Zhang, Qipeng Guo, Qi Zhang, Xipeng Qiu, Xuanjing Huang, Tao Gui, Kai Chen

Мы предлагаем новый взгляд на моделирование вознаграждений, формулируя его как дискриминатор политик, который количественно оценивает разницу между двумя политиками для генерации сигнала вознаграждения, направляющего обучаемую политику к целевой политике с желаемым поведением. Основываясь на этой концептуальной идее, мы предлагаем масштабируемый метод предварительного обучения под названием Policy Discriminative Learning (POLAR), который обучает модель вознаграждения (RM) распознавать идентичные политики и различать различные. В отличие от традиционных методов моделирования вознаграждений, основанных на абсолютных предпочтениях, POLAR фиксирует относительную разницу между одной политикой и произвольной целевой политикой, что представляет собой масштабируемую, высокоуровневую цель оптимизации, подходящую для моделирования общих ранжирующих отношений. Используя парадигму предварительного обучения POLAR, мы представляем серию моделей вознаграждения с масштабами параметров от 1,8 млрд до 7 млрд. Эмпирические результаты показывают, что POLAR значительно превосходит традиционные методы без предварительного обучения, существенно улучшая производительность RM. Например, POLAR-7B может повысить точность предпочтений с 54,8% до 81,0% на задачах STEM и с 57,9% до 85,5% на задачах творческого письма по сравнению с современными базовыми методами. POLAR также демонстрирует устойчивые обобщающие способности в RLHF с использованием Reinforcement Fine-tuning (RFT), предоставляя надежные сигналы вознаграждения и заметно улучшая производительность политик — повышая средний показатель LLaMa3.1-8B с 47,36% до 56,33% и Qwen2.5-32B с 64,49% до 70,47% на 20 тестовых наборах. Более того, эксперименты по масштабированию выявляют четкую степенную зависимость между вычислительными ресурсами и производительностью, подтверждаемую коэффициентами линейной корреляции, приближающимися к 0,99. Впечатляющая производительность, сильные обобщающие способности и свойства масштабирования позволяют предположить, что POLAR является перспективным направлением для разработки общих и мощных моделей вознаграждений.

Технический отчет RoboBrain 2.0
RoboBrain 2.0 Technical Report

Jul 2

ByBAAI RoboBrain Team, Mingyu Cao, Huajie Tan, Yuheng Ji, Minglan Lin, Zhiyu Li, Zhou Cao, Pengwei Wang, Enshen Zhou, Yi Han, Yingbo Tang, Xiangqi Xu, Wei Guo, Yaoxu Lyu, Yijie Xu, Jiayu Shi, Cheng Chi, Mengdi Zhao, Xiaoshuai Hao, Shanyu Rong, Zhengliang Cai, Bolun Zhang, Shuyi Zhang, Huaihai Lyu, Mengfei Du, Lingfeng Zhang, Xi Feng, Xiaodan Liu, Yance Jiao, Chenrui He, Mengsi Lyu, Zhuo Chen, Yulong Ao, Xue Sun, Zheqi He, Jingshu Zheng, Xi Yang, Donghai Shi, Kunchang Xie, Bochao Zhang, Shaokai Nie, Chunlei Men, Yonghua Lin, Zhongyuan Wang, Tiejun Huang, Shanghang Zhang

Мы представляем RoboBrain 2.0 — новое поколение воплощенных мультимодальных моделей, объединяющих восприятие, рассуждение и планирование для выполнения сложных задач в физических средах. Модель представлена в двух вариантах: облегченная версия на 7 миллиардов параметров и полномасштабная версия на 32 миллиарда параметров, использующая гетерогенную архитектуру с визуальным кодировщиком и языковой моделью. Несмотря на компактные размеры, RoboBrain 2.0 демонстрирует высокую производительность в широком спектре задач, связанных с воплощенным рассуждением. На пространственных и временных тестах 32-миллиардная версия достигает лидирующих результатов, превосходя предыдущие открытые и проприетарные модели. В частности, она поддерживает ключевые возможности воплощенного ИИ, включая пространственное понимание (например, предсказание аффордансов, пространственные ссылки, прогнозирование траекторий) и временное принятие решений (например, замкнутое взаимодействие, долгосрочное планирование в мультиагентных системах и обновление графов сцен). В данном отчете подробно описаны архитектура модели, процесс создания данных, многоэтапные стратегии обучения, инфраструктура и практические применения. Мы надеемся, что RoboBrain 2.0 продвинет исследования в области воплощенного ИИ и станет практическим шагом на пути к созданию универсальных воплощенных агентов. Код, контрольные точки и тестовые наборы доступны по адресу https://superrobobrain.github.io.

StreamDiT: Генерация видео из текста в реальном времени с потоковой передачей
StreamDiT: Real-Time Streaming Text-to-Video Generation

Jul 4

ByAkio Kodaira, Tingbo Hou, Ji Hou, Masayoshi Tomizuka, Yue Zhao

В последнее время был достигнут значительный прогресс в генерации видео из текста (Text-to-Video, T2V) благодаря масштабированию трансформерных диффузионных моделей до миллиардов параметров, что позволяет создавать высококачественные видео. Однако существующие модели обычно генерируют только короткие ролики в оффлайн-режиме, что ограничивает их применение в интерактивных и реального времени приложениях. В данной статье мы предлагаем StreamDiT — модель для потоковой генерации видео, которая решает эти проблемы. Обучение StreamDiT основано на методе согласования потоков с добавлением движущегося буфера. Мы разработали смешанное обучение с различными схемами разделения буферизированных кадров для улучшения как согласованности содержания, так и визуального качества. Моделирование StreamDiT основано на adaLN DiT с изменяющимся временным встраиванием и оконным вниманием. Для практической реализации предложенного метода мы обучили модель StreamDiT с 4 миллиардами параметров. Кроме того, мы предлагаем метод многошаговой дистилляции, адаптированный для StreamDiT. Дистилляция выборки выполняется в каждом сегменте выбранной схемы разделения. После дистилляции общее количество вычислений функций (NFEs) сокращается до количества фрагментов в буфере. В итоге наша дистиллированная модель достигает производительности в реальном времени на уровне 16 кадров в секунду на одном GPU, что позволяет генерировать видеопотоки с разрешением 512p. Мы оцениваем наш метод с помощью как количественных метрик, так и экспертной оценки. Наша модель открывает возможности для приложений реального времени, таких как потоковая генерация, интерактивная генерация и видео-к-видео. Мы предоставляем видеорезультаты и дополнительные примеры на нашем проекте: <a href="https://cumulo-autumn.github.io/StreamDiT/">эта ссылка</a>.

BMMR: Масштабный двуязычный мультимодальный мультидисциплинарный набор данных для рассуждений
BMMR: A Large-Scale Bilingual Multimodal Multi-Discipline Reasoning Dataset

Jul 4

ByZhiheng Xi, Guanyu Li, Yutao Fan, Honglin Guo, Yufang Liu, Xiaoran Fan, Jiaqi Liu, Jingchao Ding, Wangmeng Zuo, Zhenfei Yin, Lei Bai, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

В данной статье мы представляем BMMR — крупномасштабный двуязычный, мультимодальный и междисциплинарный набор данных для рассуждений, предназначенный для разработки и оценки крупных мультимодальных моделей (LMMs). BMMR включает 110 тысяч вопросов уровня колледжа, охватывающих 300 предметов, определенных ЮНЕСКО, и представленных в различных форматах — множественный выбор, заполнение пропусков и открытые вопросы. Данные собраны из печатных и цифровых источников, таких как книги, экзамены и викторины. Все данные отобраны и отфильтрованы с использованием масштабируемой системы с участием человека, и каждый пример сопровождается высококачественным путем рассуждений. Набор данных разделен на две части: BMMR-Eval, содержащий 20 458 высококачественных примеров для всесторонней оценки знаний и способности к рассуждению LMMs на китайском и английском языках в различных дисциплинах, и BMMR-Train, включающий 88 991 пример для поддержки дальнейших исследований и разработок, расширяя текущий фокус на математические рассуждения до разнообразных дисциплин и областей. Кроме того, мы предлагаем процессно-ориентированный междисциплинарный верификатор (BMMR-Verifier) для точной и детальной оценки путей рассуждений. Эксперименты на 24 моделях показывают, что (i) даже современные модели (например, o3 и Gemini-2.5-Pro) оставляют значительный потенциал для улучшения на BMMR-Eval; (ii) модели рассуждений демонстрируют дисциплинарную предвзятость и превосходят LMMs только в определенных предметах; (iii) открытые модели по-прежнему отстают от проприетарных аналогов; и (iv) дообучение на BMMR-Train сокращает этот разрыв. Дополнительно мы проводим анализ цепочек рассуждений с использованием BMMR-Verifier и другие углубленные исследования, выявляя текущие вызовы, с которыми сталкиваются LMMs в междисциплинарных рассуждениях. Мы опубликуем данные и надеемся, что наша работа внесет вклад и предоставит ценные инсайты для сообщества.

RefineX: Обучение масштабируемой очистке данных предварительного обучения с использованием программ, управляемых экспертами
RefineX: Learning to Refine Pre-training Data at Scale from Expert-Guided Programs

Jul 4

ByBaolong Bi, Shenghua Liu, Xingzhang Ren, Dayiheng Liu, Junyang Lin, Yiwei Wang, Lingrui Mei, Junfeng Fang, Jiafeng Guo, Xueqi Cheng

Фундаментальные возможности больших языковых моделей (LLM) в значительной степени зависят от качества их предварительно обучаемых корпусов. Однако повышение качества данных в масштабе остается серьезной проблемой, главным образом из-за компромисса между эффективностью улучшения и производительностью обработки. Хотя фильтрация на основе правил остается доминирующей парадигмой, она обычно работает на уровне документов и не обладает достаточной детализацией для улучшения конкретного содержимого внутри документов. Вдохновленные новыми работами, такими как ProX, мы предлагаем RefineX — новый фреймворк для крупномасштабного, точечного улучшения предварительно обучаемых данных с помощью программных задач редактирования. RefineX обеспечивает эффективное и детализированное улучшение данных, надежно сохраняя разнообразие и естественность исходного текста. Основная сила RefineX заключается в преобразовании высококачественных, экспертно-направленных результатов сквозного улучшения в минимальные программы удаления на основе редактирования. Этот высокоточный процесс преобразования используется для обучения эффективной и надежной модели улучшения, которая может систематически улучшать каждый экземпляр в корпусе в масштабе. Мы оцениваем RefineX в ходе предварительного обучения с нуля на моделях различных масштабов и обнаруживаем, что он стабильно превосходит модели, обученные на сырых, отфильтрованных или альтернативно улучшенных данных, в разнообразных последующих задачах. На модели с 750 миллионами параметров RefineX обеспечивает средний прирост на 2,6%-7,2% в задачах lighteval и достигает сопоставимой производительности, используя значительно меньше токенов для обучения. Дополнительный анализ показывает, что RefineX надежно повышает качество текста с высокой эффективностью и точностью, превосходя предыдущие подходы, такие как сквозная генерация и Prox-C. Эти результаты позиционируют RefineX как масштабируемое, эффективное и надежное решение для оптимизации предварительно обучаемых данных в современных конвейерах LLM.

VLM2Vec-V2: Развитие мультимодальных эмбеддингов для видео, изображений и визуальных документов
VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

Jul 7

ByRui Meng, Ziyan Jiang, Ye Liu, Mingyi Su, Xinyi Yang, Yuepeng Fu, Can Qin, Zeyuan Chen, Ran Xu, Caiming Xiong, Yingbo Zhou, Wenhu Chen, Semih Yavuz

Мультимодальные модели эмбеддингов сыграли ключевую роль в решении различных задач, таких как семантическое сходство, информационный поиск и кластеризация для разных модальностей. Однако существующие мультимодальные эмбеддинги, такие как VLM2Vec, E5-V и GME, в основном ориентированы на обработку естественных изображений, с ограниченной поддержкой других визуальных форм, таких как видео и визуальные документы. Это ограничивает их применимость в реальных сценариях, включая ИИ-агентов, мультимодальный поиск и рекомендации, а также генерацию, усиленную поиском (RAG). Чтобы устранить этот пробел, мы предлагаем VLM2Vec-V2 — унифицированную платформу для обучения эмбеддингов для разнообразных визуальных форм. Сначала мы представляем MMEB-V2, расширенный бенчмарк, который дополняет MMEB пятью новыми типами задач: поиск визуальных документов, поиск видео, временная локализация, классификация видео и ответы на вопросы по видео — охватывая текстовые, графические, видео и визуальные документы. Затем мы обучаем VLM2Vec-V2 — универсальную модель эмбеддингов, поддерживающую текстовые, графические, видео и визуальные документы. Многочисленные эксперименты показывают, что VLM2Vec-V2 демонстрирует высокую производительность не только на новых задачах поиска видео и документов, но и превосходит предыдущие базовые модели на оригинальных бенчмарках для изображений. Благодаря всесторонней оценке, наше исследование предоставляет инсайты об обобщаемости различных мультимодальных моделей эмбеддингов и выделяет эффективные стратегии для унифицированного обучения эмбеддингов, закладывая основу для более масштабируемого и адаптируемого обучения представлений как в исследованиях, так и в реальных условиях.

OmniDraft: Кросс-словарный, адаптивный онлайн-драфтер для спекулятивного декодирования на устройстве
OmniDraft: A Cross-vocabulary, Online Adaptive Drafter for On-device Speculative Decoding

Jul 3

ByRamchalam Kinattinkara Ramakrishnan, Zhaocong Yuan, Shaojie Zhuo, Chen Feng, Yicheng Lin, Chenzheng Su, Xiaopeng Zhang

Спекулятивное декодирование, как правило, предполагает использование небольшой и эффективной черновой модели, которая либо предварительно обучена, либо дистиллирована оффлайн для конкретной серии целевых моделей, например, моделей Llama или Qwen. Однако в условиях онлайн-развертывания возникают две основные проблемы: 1) использование целевой модели, несовместимой с черновой моделью; 2) ожидание улучшения задержек в процессе использования и со временем. В данной работе мы предлагаем OmniDraft — унифицированную структуру, которая позволяет одной черновой модели работать с любой целевой моделью и динамически адаптироваться к пользовательским данным. Мы вводим онлайн n-граммный кэш с гибридной дистилляционной тонкой настройкой для устранения несоответствий в словарях между черновой и целевой моделями; а также дополнительно улучшаем скорость декодирования за счет адаптивных техник чернового прогнозирования. OmniDraft особенно подходит для приложений LLM на устройствах, где стоимость модели, эффективность и пользовательская настройка являются основными точками разногласий. Это подчеркивает необходимость решения вышеуказанных проблем и мотивирует парадигму «один черновик для всех». Мы демонстрируем эффективность структуры OmniDraft, выполняя онлайн-обучение на задачах математического рассуждения, программирования и генерации текста. В частности, OmniDraft позволяет одной модели Llama-68M работать с различными целевыми моделями, включая Vicuna-7B, Qwen2-7B и Llama3-8B, для спекулятивного декодирования; а также обеспечивает ускорение до 1,5–2 раз.

О ранжируемости визуальных вложений
On the rankability of visual embeddings

Jul 4

ByAnkit Sonthalia, Arnas Uselis, Seong Joon Oh

Мы исследуем, захватывают ли визуальные модели встраивания непрерывные порядковые атрибуты вдоль линейных направлений, которые мы называем _ранговыми осями_. Мы определяем модель как _ранжируемую_ для атрибута, если проекция встраиваний на такую ось сохраняет порядок атрибута. На основе анализа 7 популярных кодировщиков и 9 наборов данных с атрибутами, такими как возраст, количество людей, положение головы, эстетика и актуальность, мы обнаруживаем, что многие встраивания изначально являются ранжируемыми. Удивительно, что небольшое количество образцов, или даже всего два крайних примера, часто достаточно для восстановления значимых ранговых осей без полномасштабного обучения с учителем. Эти результаты открывают новые возможности для ранжирования изображений в векторных базах данных и мотивируют дальнейшее изучение структуры и обучения ранжируемых встраиваний. Наш код доступен по адресу https://github.com/aktsonthalia/rankable-vision-embeddings.

Возрождение культурного наследия: инновационный подход к комплексной реставрации исторических документов
Reviving Cultural Heritage: A Novel Approach for Comprehensive Historical Document Restoration

Jul 7

ByYuyi Zhang, Peirong Zhang, Zhenhua Yang, Pengyu Yan, Yongxin Shi, Pengwei Liu, Fengjun Guo, Lianwen Jin

Исторические документы представляют собой бесценное культурное наследие, однако с течением времени они подвергаются значительной деградации из-за разрывов, водной эрозии и окисления. Существующие методы восстановления исторических документов (Historical Document Restoration, HDR) в основном сосредоточены на восстановлении в рамках одной модальности или ограниченного размера, что не удовлетворяет практическим потребностям. Для устранения этого пробела мы представляем набор данных для полностраничного восстановления (FPHDR) и новое автоматизированное решение для HDR (AutoHDR). В частности, FPHDR включает 1633 реальных и 6543 синтетических изображения с указанием местоположения на уровне символов и строк, а также аннотациями символов для различных степеней повреждения. AutoHDR имитирует рабочие процессы реставрации историков через трехэтапный подход: локализация повреждений с помощью OCR, предсказание текста на основе визуально-языкового контекста и авторегрессивное восстановление внешнего вида на уровне фрагментов. Модульная архитектура AutoHDR обеспечивает беспрепятственное взаимодействие человека и машины, позволяя гибко вмешиваться и оптимизировать каждый этап восстановления. Эксперименты демонстрируют выдающуюся производительность AutoHDR в HDR. При обработке сильно поврежденных документов наш метод повышает точность OCR с 46,83% до 84,05%, а при взаимодействии человека и машины — до 94,25%. Мы считаем, что данная работа представляет собой значительный шаг вперед в автоматизированном восстановлении исторических документов и вносит существенный вклад в сохранение культурного наследия. Модель и набор данных доступны по адресу https://github.com/SCUT-DLVCLab/AutoHDR.

Оценка памяти в агентах с использованием больших языковых моделей посредством инкрементных многоходовых взаимодействий
Evaluating Memory in LLM Agents via Incremental Multi-Turn Interactions

Jul 7

ByYuanzhe Hu, Yu Wang, Julian McAuley

Недавние бенчмарки для агентов с большими языковыми моделями (LLM) в основном сосредоточены на оценке способностей к рассуждению, планированию и выполнению задач, в то время как другой критически важный компонент — память, включающий то, как агенты запоминают, обновляют и извлекают долгосрочную информацию, — остается недостаточно оцененным из-за отсутствия соответствующих бенчмарков. Мы называем агентов с механизмами памяти агентами с памятью. В данной статье мы выделяем четыре ключевые компетенции, необходимые для агентов с памятью: точное извлечение информации, обучение во время тестирования, понимание на длинных дистанциях и разрешение конфликтов. Существующие наборы данных либо ограничены по длине контекста, либо адаптированы для статических, длинных контекстов, таких как вопросы и ответы на основе книг, что не отражает интерактивный, многоходовый характер агентов с памятью, которые постепенно накапливают информацию. Более того, ни один из существующих бенчмарков не охватывает все четыре компетенции. Поэтому мы представляем MemoryAgentBench — новый бенчмарк, специально разработанный для агентов с памятью. Наш бенчмарк объединяет переработанные существующие наборы данных с новыми, охватывая указанные четыре компетенции памяти, предоставляя систематическую и сложную тестовую среду для оценки качества памяти. Мы оцениваем разнообразный набор агентов с памятью, начиная от простых систем на основе контекста и генерации, усиленной извлечением (RAG), до продвинутых агентов с внешними модулями памяти и интеграцией инструментов. Эмпирические результаты показывают, что современные методы не справляются с освоением всех четырех компетенций, что подчеркивает необходимость дальнейших исследований в области комплексных механизмов памяти для агентов LLM.

UnMix-NeRF: Спектральное разделение и нейронные поля излучения
UnMix-NeRF: Spectral Unmixing Meets Neural Radiance Fields

Jun 27

ByFabian Perez, Sara Rojas, Carlos Hinojosa, Hoover Rueda-Chacón, Bernard Ghanem

Методы сегментации на основе Neural Radiance Field (NeRF) сосредоточены на семантике объектов и полагаются исключительно на RGB-данные, не учитывая внутренние свойства материалов. Это ограничение затрудняет точное восприятие материалов, что имеет критическое значение для робототехники, дополненной реальности, симуляции и других приложений. Мы представляем UnMix-NeRF — фреймворк, который интегрирует спектральное разделение в NeRF, обеспечивая совместный синтез новых видов в гиперспектральном диапазоне и неконтролируемую сегментацию материалов. Наш метод моделирует спектральную отражательную способность через диффузные и зеркальные компоненты, где обученный словарь глобальных эндмемберов представляет чистые сигнатуры материалов, а локальные коэффициенты обилия фиксируют их распределение. Для сегментации материалов мы используем предсказания спектральных сигнатур на основе обученных эндмемберов, что позволяет проводить неконтролируемую кластеризацию материалов. Кроме того, UnMix-NeRF позволяет редактировать сцены путем модификации обученных словарей эндмемберов для гибкого управления внешним видом на основе материалов. Многочисленные эксперименты подтверждают эффективность нашего подхода, демонстрируя превосходство в спектральной реконструкции и сегментации материалов по сравнению с существующими методами. Страница проекта: https://www.factral.co/UnMix-NeRF.

PresentAgent: Мультимодальный агент для генерации презентационных видео
PresentAgent: Multimodal Agent for Presentation Video Generation

Jul 5

ByJingwei Shi, Zeyu Zhang, Biao Wu, Yanjie Liang, Meng Fang, Ling Chen, Yang Zhao

Мы представляем PresentAgent, мультимодальный агент, который преобразует длинные документы в видеопрезентации с озвучкой. В то время как существующие подходы ограничиваются генерацией статических слайдов или текстовых сводок, наш метод выходит за рамки этих ограничений, создавая полностью синхронизированные визуальные и речевые материалы, которые близко имитируют презентации в человеческом стиле. Для достижения такой интеграции PresentAgent использует модульный конвейер, который систематически сегментирует входной документ, планирует и создает визуальные кадры в стиле слайдов, генерирует контекстуальную озвучку с использованием крупных языковых моделей и моделей преобразования текста в речь, а также бесшовно компонует итоговое видео с точным аудиовизуальным соответствием. Учитывая сложность оценки таких мультимодальных результатов, мы представляем PresentEval, унифицированную систему оценки, основанную на моделях Vision-Language, которая комплексно оценивает видео по трем ключевым параметрам: точность содержания, визуальная ясность и понимание аудитории через оценку на основе промптов. Наша экспериментальная проверка на тщательно отобранном наборе данных из 30 пар документ-презентация демонстрирует, что PresentAgent приближается к качеству, создаваемому человеком, по всем метрикам оценки. Эти результаты подчеркивают значительный потенциал управляемых мультимодальных агентов в преобразовании статических текстовых материалов в динамичные, эффективные и доступные форматы презентаций. Код будет доступен по адресу https://github.com/AIGeeksGroup/PresentAgent.

ArtifactsBench: Преодоление визуально-интерактивного разрыва в оценке генерации кода с использованием крупных языковых моделей
ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation

Jul 7

ByChenchen Zhang, Yuhang Li, Can Xu, Jiaheng Liu, Ao Liu, Shihui Hu, Dengpeng Wu, Guanhua Huang, Kejiao Li, Qi Yi, Ruibin Xiong, Haotian Zhu, Yuanxing Zhang, Yuhao Jiang, Yue Zhang, Zenan Xu, Bohui Zhai, Guoxiang He, Hebin Li, Jie Zhao, Le Zhang, Lingyun Tan, Pengyu Guo, Xianshu Pang, Yang Ruan, Zhifeng Zhang, Zhonghu Wang, Ziyan Xu, Zuopu Yin, Wiggin Zhou, Chayse Zhou, Fengzong Lian

Генеративные возможности крупных языковых моделей (LLM) быстро расширяются от статического кода к динамичным, интерактивным визуальным артефактам. Этот прогресс ограничивается критическим пробелом в оценке: существующие бенчмарки сосредоточены на алгоритмической корректности и не учитывают визуальную точность и интерактивную целостность, которые определяют современные пользовательские интерфейсы. Чтобы устранить этот пробел, мы представляем ArtifactsBench — новый бенчмарк и парадигму для автоматизированной, мультимодальной оценки генерации визуального кода. Наша фреймворк программно визуализирует каждый сгенерированный артефакт и фиксирует его динамическое поведение с помощью временных скриншотов. Эти визуальные данные, наряду с исходным кодом, затем оцениваются мультимодальной LLM (MLLM)-as-Judge, которая строго руководствуется детализированным чек-листом для каждой задачи, чтобы обеспечить целостную и воспроизводимую оценку. Мы создаем новый бенчмарк из 1 825 разнообразных задач и оцениваем более 30 ведущих LLM. Наша автоматизированная оценка достигает впечатляющей 94,4% согласованности с WebDev Arena, золотым стандартом для человеческих предпочтений в веб-разработке, и более 90% попарного согласия с экспертами-людьми. Это делает ArtifactsBench первым фреймворком, который надежно автоматизирует оценку воспринимаемого человеком качества в масштабе. Наш анализ предоставляет детализированную карту текущего состояния SOTA, показывая, что универсальные модели часто превосходят специализированные. Мы открываем исходный код ArtifactsBench, включая бенчмарк, инструменты оценки и базовые результаты, на https://artifactsbenchmark.github.io/, чтобы предоставить сообществу масштабируемый и точный инструмент для ускорения разработки пользовательских генеративных моделей.

Сохранение конфиденциальности, повышение доступности и снижение затрат: модель искусственного интеллекта на устройстве для медицинской транскрипции и создания записей
Preserving Privacy, Increasing Accessibility, and Reducing Cost: An On-Device Artificial Intelligence Model for Medical Transcription and Note Generation

Jul 3

ByJohnson Thomas, Ayush Mudgal, Wendao Liu, Nisten Tahiraj, Zeeshaan Mohammed, Dhruv Diddi

**Введение:** Клиническая документация представляет собой значительную нагрузку для медицинских работников, при этом врачи тратят до 2 часов в день на выполнение административных задач. Последние достижения в области крупных языковых моделей (LLM) предлагают перспективные решения, однако проблемы конфиденциальности и вычислительные требования ограничивают их внедрение в медицинских учреждениях. **Цель:** Разработать и оценить систему медицинской транскрипции с сохранением конфиденциальности, работающую на устройстве, с использованием тонко настроенной модели Llama 3.2 1B, способной генерировать структурированные медицинские записи из медицинских транскрипций, при этом обеспечивая полный суверенитет данных непосредственно в браузере. **Методы:** Мы тонко настроили модель Llama 3.2 1B с использованием метода Parameter-Efficient Fine-Tuning (PEFT) с LoRA на 1500 синтетических парах медицинских транскрипций и структурированных записей. Модель была оценена в сравнении с базовой Llama 3.2 1B на двух наборах данных: 100 транскрипций эндокринологических случаев и 140 модифицированных случаев из бенчмарка ACI. Оценка проводилась с использованием как статистических метрик (ROUGE, BERTScore, BLEURT), так и оценок LLM-as-judge по нескольким клиническим параметрам качества. **Результаты:** Тонко настроенная модель OnDevice продемонстрировала значительные улучшения по сравнению с базовой моделью. На бенчмарке ACI показатели ROUGE-1 увеличились с 0,346 до 0,496, а BERTScore F1 улучшился с 0,832 до 0,866. Оценки клинического качества показали заметное снижение крупных ошибок (с 85 до 35 случаев) и повышение фактической точности (с 2,81 до 3,54 по 5-балльной шкале). Аналогичные улучшения были отмечены на внутреннем наборе данных, где общие оценки увеличились с 3,13 до 4,43 (+41,5%). **Выводы:** Тонкая настройка компактных LLM для медицинской транскрипции приводит к клинически значимым улучшениям, одновременно обеспечивая полное развертывание в браузере на устройстве. Этот подход решает ключевые барьеры для внедрения ИИ в здравоохранении: сохранение конфиденциальности, снижение затрат и доступность для ресурсоограниченных сред.

SeqTex: Генерация текстур сетки в видеопоследовательности
SeqTex: Generate Mesh Textures in Video Sequence

Jul 6

ByZe Yuan, Xin Yu, Yangtian Sun, Yuan-Chen Guo, Yan-Pei Cao, Ding Liang, Xiaojuan Qi

Обучение нативных генеративных моделей для создания 3D текстур остается фундаментальной, но сложной задачей, в основном из-за ограниченной доступности крупномасштабных, высококачественных наборов данных 3D текстур. Этот дефицит затрудняет обобщение на реальные сценарии. Чтобы решить эту проблему, большинство существующих методов дообучают базовые модели генерации изображений, чтобы использовать их изученные визуальные априорные знания. Однако такие подходы обычно генерируют только многовидовые изображения и полагаются на постобработку для создания UV-текстурных карт — важного представления в современных графических конвейерах. Такие двухэтапные конвейеры часто страдают от накопления ошибок и пространственных несоответствий на 3D поверхности. В данной работе мы представляем SeqTex, новый сквозной фреймворк, который использует визуальные знания, закодированные в предобученных моделях для работы с видео, чтобы напрямую генерировать полные UV-текстурные карты. В отличие от предыдущих методов, которые моделируют распределение UV текстур изолированно, SeqTex переформулирует задачу как проблему генерации последовательностей, позволяя модели изучать совместное распределение многовидовых рендеров и UV текстур. Такой подход эффективно переносит согласованные априорные знания из пространства изображений, заложенные в моделях для видео, в UV-домен. Для дальнейшего повышения производительности мы предлагаем несколько архитектурных инноваций: разделенную структуру с ветвями для многовидовых изображений и UV текстур, геометрически-информированное внимание для управления выравниванием признаков между доменами и адаптивное разрешение токенов для сохранения деталей текстур при поддержании вычислительной эффективности. Вместе эти компоненты позволяют SeqTex полностью использовать предобученные априорные знания для видео и синтезировать высококачественные UV-текстурные карты без необходимости постобработки. Многочисленные эксперименты показывают, что SeqTex достигает наилучших результатов в задачах генерации 3D текстур, как на основе изображений, так и на основе текста, с превосходной 3D-согласованностью, выравниванием текстур и геометрии, а также обобщением на реальные сценарии.

R1-RE: Извлечение междоменных отношений с использованием RLVR
R1-RE: Cross-Domain Relationship Extraction with RLVR

Jul 7

ByRunpeng Dai, Tong Zheng, Run Yang, Hongtu Zhu

Извлечение отношений (RE) является ключевой задачей в обработке естественного языка. Традиционные подходы обычно формулируют RE как задачу обучения с учителем, напрямую отображая контекст на метки — подход, который часто страдает от слабой обобщающей способности вне домена (OOD). Вдохновленные рабочим процессом аннотаторов-людей, мы переосмысливаем RE как задачу рассуждений, направляемую руководствами по аннотации, и представляем R1-RE — первую структуру обучения с подкреплением с верифицируемой наградой (RLVR) для задач RE. Наш метод активирует способности к рассуждению у небольших языковых моделей для задач аннотации, что приводит к значительному улучшению устойчивости к OOD. Мы оцениваем наш подход на публичном наборе данных Sem-2010 и частном наборе данных MDKG. Модель R1-RE-7B достигает средней точности OOD около 70%, что сопоставимо с ведущими проприетарными моделями, такими как GPT-4o. Кроме того, наш всесторонний анализ предоставляет новые инсайты в динамику обучения и возникающие поведенческие паттерны рассуждений в рамках парадигмы RLVR для RE.

VLAI: Модель на основе RoBERTa для автоматической классификации уровня серьезности уязвимостей
VLAI: A RoBERTa-Based Model for Automated Vulnerability Severity Classification

Jul 4

ByCédric Bonhomme, Alexandre Dulaunoy

В данной статье представлена модель VLAI, основанная на архитектуре трансформеров, которая предсказывает уровни серьезности уязвимостей программного обеспечения непосредственно на основе текстовых описаний. Построенная на базе RoBERTa, модель VLAI была дообучена на более чем 600 000 реальных уязвимостей и демонстрирует точность свыше 82% в предсказании категорий серьезности, что позволяет ускорить и повысить согласованность процесса классификации до ручного расчета показателей CVSS. Модель и набор данных являются открытыми и интегрированы в сервис Vulnerability-Lookup.

За пределами простых правок: X-Planner для сложного редактирования изображений на основе инструкций
Beyond Simple Edits: X-Planner for Complex Instruction-Based Image Editing

Jul 7

ByChun-Hsiao Yeh, Yilin Wang, Nanxuan Zhao, Richard Zhang, Yuheng Li, Yi Ma, Krishna Kumar Singh

Современные методы редактирования изображений на основе диффузии значительно продвинулись в выполнении задач, управляемых текстом, но часто испытывают трудности с интерпретацией сложных и косвенных инструкций. Кроме того, текущие модели нередко страдают от плохого сохранения идентичности, нежелательных изменений или сильной зависимости от ручных масок. Для решения этих проблем мы представляем X-Planner — систему планирования на основе мультимодальной крупной языковой модели (MLLM), которая эффективно связывает намерения пользователя с возможностями модели редактирования. X-Planner использует цепочку рассуждений для систематического разложения сложных инструкций на более простые и понятные подзадачи. Для каждой подзадачи X-Planner автоматически генерирует точные типы изменений и маски сегментации, исключая необходимость ручного вмешательства и обеспечивая локализованные правки с сохранением идентичности. Дополнительно мы предлагаем новый автоматизированный конвейер для генерации масштабных данных для обучения X-Planner, который демонстрирует передовые результаты как на существующих бенчмарках, так и на нашем новом сложном бенчмарке редактирования.

Тонкая настройка с акцентом на устранение неоднозначностей делает корпоративные LLM с функцией вызова инструментов более реалистичными и менее рискованными
Disambiguation-Centric Finetuning Makes Enterprise Tool-Calling LLMs More Realistic and Less Risky

Jul 4

ByAshutosh Hathidara, Julien Yu, Sebastian Schreiber

Крупные языковые модели (LLMs) всё чаще используются для вызова корпоративных API, однако они регулярно допускают ошибки, когда несколько почти идентичных инструментов конкурируют за одно и то же намерение пользователя или когда требуемые аргументы недостаточно специфицированы. Мы представляем DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation) — трёхэтапный конвейер, ориентированный на устранение неоднозначностей, который (i) синтезирует персонализированные многоходовые диалоги, в которых ассистент должен различать высоко схожие инструменты, (ii) выполняет контролируемое тонкое обучение моделей с открытым исходным кодом, включая трассировку рассуждений для моделей с параметрами от 3B до 70B, и (iii) оценивает готовность к реальным задачам с помощью динамического набора тестов, который повторно развёртывает каждую модель в активном агентском цикле и сообщает о завершении целей от начала до конца наряду с традиционными статическими метриками. На нашем динамическом бенчмарке DiaBENCH модели, обученные с использованием DiaFORGE, повышают успешность вызова инструментов на 27 процентных пунктов по сравнению с GPT-4o и на 49 процентных пунктов по сравнению с Claude-3.5-Sonnet, оба при оптимизированных подсказках. Для стимулирования дальнейших исследований мы публикуем открытый корпус из 5000 спецификаций корпоративных API производственного уровня, дополненных тщательно проверенными диалогами, ориентированными на устранение неоднозначностей, предлагая практическое руководство для создания надёжных агентов, готовых к использованию в корпоративной среде.

MOD-X: Предложение модульной открытой децентрализованной платформы обмена для гетерогенных взаимодействующих искусственных агентов
MOD-X: A Modular Open Decentralized eXchange Framework proposal for Heterogeneous Interoperable Artificial Agents

Jul 6

ByGeorgios Ioannides, Christos Constantinou, Vinija Jain, Aman Chadha, Aaron Elkins

По мере того как системы искусственного интеллекта эволюционируют от монолитных моделей к экосистемам специализированных агентов, необходимость в стандартизированных протоколах коммуникации становится всё более критичной. В данной статье представлен MOD-X (Modular Open Decentralized eXchange) — новая архитектурная концепция для обеспечения взаимодействия агентов, которая устраняет ключевые ограничения существующих протоколов. В отличие от современных подходов, MOD-X предлагает многоуровневую архитектуру, включающую универсальную шину сообщений, комплексное управление состоянием, возможности перевода и механизмы безопасности на основе блокчейна. Мы описываем архитектуру MOD-X, сравниваем её с существующими протоколами и демонстрируем её применение на примере интеграции между гетерогенными специализированными агентами (агентами с различными архитектурами, производителями, возможностями и представлениями знаний — включая системы, основанные на правилах, нейронные сети, символьные механизмы рассуждений и устаревшее программное обеспечение с обёртками агентов). Ключевые инновации MOD-X включают модель коммуникации "издатель-подписчик", семантическое обнаружение возможностей и динамическую оркестрацию рабочих процессов, предоставляя фреймворк, который объединяет теоретическую формализацию с практической реализацией. Эта архитектура отвечает растущей потребности в действительно децентрализованных, взаимодействующих экосистемах агентов, способных эффективно масштабироваться без необходимости централизованной координации.

Оценка языковых моделей на основе реальных прогнозов в сравнении с людьми-суперпрогнозистами
Evaluating LLMs on Real-World Forecasting Against Human Superforecasters

Jul 6

ByJanna Lu

Крупные языковые модели (LLMs) продемонстрировали впечатляющие способности в решении разнообразных задач, однако их способность прогнозировать будущие события остается недостаточно изученной. Год назад крупные языковые модели не могли приблизиться к точности прогнозов, сделанных человеческой толпой. Я оцениваю современные LLMs на 464 прогнозных вопросах с платформы Metaculus, сравнивая их результаты с показателями человеческих суперпрогнозистов. Передовые модели достигают оценок по шкале Бриера, которые на первый взгляд превосходят результаты человеческой толпы, но всё же значительно уступают группе суперпрогнозистов.