Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) стали важной инфраструктурой для искусственного общего интеллекта (AGI), однако отсутствие у них четко определенных систем управления памятью препятствует развитию долгосрочного контекстного рассуждения, непрерывной персонализации и согласованности знаний. Существующие модели в основном опираются на статические параметры и кратковременные контекстные состояния, что ограничивает их способность отслеживать предпочтения пользователей или обновлять знания в течение длительных периодов. Хотя подход Retrieval-Augmented Generation (RAG) вводит внешние знания в виде простого текста, он остается бессостоятельным решением без контроля жизненного цикла или интеграции с устойчивыми представлениями. Недавние исследования смоделировали затраты на обучение и вывод LLM с точки зрения иерархии памяти, показав, что введение явного слоя памяти между параметрической памятью и внешним поиском может существенно снизить эти затраты за счет экстернализации конкретных знаний. Помимо вычислительной эффективности, LLM сталкиваются с более широкими проблемами, связанными с распределением информации во времени и контексте, что требует систем, способных управлять гетерогенными знаниями, охватывающими различные временные масштабы и источники. Для решения этой задачи мы предлагаем MemOS, операционную систему памяти, которая рассматривает память как управляемый системный ресурс. Она объединяет представление, планирование и эволюцию текстовой, активационной и параметрической памяти, обеспечивая экономичное хранение и извлечение. В качестве базовой единицы MemCube инкапсулирует как содержимое памяти, так и метаданные, такие как происхождение и версионность. MemCube могут комбинироваться, мигрировать и объединяться со временем, обеспечивая гибкие переходы между типами памяти и связывая поиск с параметрическим обучением. MemOS устанавливает системную архитектуру, ориентированную на память, которая привносит управляемость, пластичность и эволюционность в LLM, закладывая основу для непрерывного обучения и персонализированного моделирования.
Обучение высококачественных текстовых представлений является основополагающим для широкого спектра задач обработки естественного языка (NLP). Хотя предварительное обучение энкодеров традиционно основывалось на маскированном языковом моделировании (MLM), недавние исследования показывают, что декодеры, предварительно обученные с использованием каузального языкового моделирования (CLM), могут быть эффективно перепрофилированы в энкодеры, часто превосходя традиционные энкодеры на бенчмарках текстовых представлений. Однако остается неясным, отражают ли эти улучшения внутреннее преимущество цели CLM или возникают из-за смешивающих факторов, таких как масштаб модели и данных. В данной работе мы исследуем этот вопрос с помощью серии крупномасштабных, тщательно контролируемых экспериментов по предварительному обучению, обучив в общей сложности 30 моделей с количеством параметров от 210 миллионов до 1 миллиарда и проведя более 15 000 экспериментов по тонкой настройке и оценке. Мы обнаружили, что, хотя обучение с использованием MLM в целом обеспечивает лучшую производительность в задачах текстового представления, модели, обученные с CLM, более эффективны в использовании данных и демонстрируют улучшенную стабильность при тонкой настройке. На основе этих результатов мы экспериментально показываем, что двухфазная стратегия обучения, которая последовательно применяет CLM, а затем MLM, достигает оптимальной производительности при фиксированном вычислительном бюджете обучения. Более того, мы демонстрируем, что эта стратегия становится еще более привлекательной при инициализации из доступных предварительно обученных моделей CLM (из существующей экосистемы LLM), снижая вычислительную нагрузку, необходимую для обучения лучших в своем классе моделей энкодеров. Мы публикуем все материалы проекта по адресу https://hf.co/MLMvsCLM для содействия дальнейшим исследованиям.
По мере того как языковые агенты берутся за всё более сложные задачи, они сталкиваются с трудностями в эффективном исправлении ошибок и повторном использовании опыта в различных областях. Мы представляем Agent KB — иерархическую структуру опыта, которая позволяет решать сложные задачи с помощью нового конвейера Reason-Retrieve-Refine (Рассуждение-Извлечение-Уточнение). Agent KB устраняет ключевое ограничение: традиционно агенты не могут учиться на опыте друг друга. Фиксируя как высокоуровневые стратегии, так и детальные журналы выполнения, Agent KB создаёт общую базу знаний, которая обеспечивает передачу знаний между агентами. Оценка на бенчмарке GAIA показала, что Agent KB повышает успешность выполнения задач до 16,28 процентных пунктов. На наиболее сложных задачах Claude-3 улучшил свои результаты с 38,46% до 57,69%, а GPT-4 — с 53,49% до 73,26% на задачах средней сложности. На исправлении кода в SWE-bench Agent KB позволил Claude-3 улучшить результат с 41,33% до 53,33%. Наши результаты показывают, что Agent KB предоставляет модульную, независимую от фреймворка инфраструктуру, которая позволяет агентам учиться на прошлом опыте и обобщать успешные стратегии для новых задач.
Крупные языковые модели (LLMs) демонстрируют впечатляющие результаты в решении задач общего назначения, однако их адаптация к конкретным предметным областям остается сложной задачей из-за недостатка высококачественных данных в этих областях. Существующие инструменты синтеза данных часто не могут эффективно извлекать надежные данные для тонкой настройки из гетерогенных документов. Для решения этой проблемы мы предлагаем Easy Dataset — унифицированную платформу для синтеза данных для тонкой настройки из неструктурированных документов с помощью интуитивно понятного графического интерфейса пользователя (GUI). В частности, Easy Dataset позволяет пользователям легко настраивать модели извлечения текста и стратегии разбиения на фрагменты для преобразования исходных документов в связные текстовые блоки. Затем платформа использует подход, основанный на персонализированных запросах, для генерации разнообразных пар вопрос-ответ с использованием общедоступных LLMs. На протяжении всего процесса визуальный интерфейс с участием человека облегчает проверку и уточнение промежуточных результатов для обеспечения качества данных. Эксперименты на задаче ответов на вопросы в финансовой области показывают, что тонкая настройка LLMs на синтезированном наборе данных значительно улучшает производительность в предметной области, сохраняя при этом общие знания. Исходный код и устанавливаемый пакет доступны по адресу https://github.com/ConardLi/easy-dataset и получили более 9 000 звезд на GitHub.
Последние достижения в моделях "зрение-язык-действие" (VLA) показали перспективность интеграции генерации изображений с предсказанием действий для улучшения обобщения и рассуждений в задачах манипуляции роботов. Однако существующие методы ограничиваются сложным прогнозированием на основе изображений, которое страдает от избыточной информации и не учитывает всесторонние и важные знания о мире, включая динамическую, пространственную и семантическую информацию. Чтобы устранить эти ограничения, мы предлагаем DreamVLA — новую VLA-модель, которая интегрирует всестороннее прогнозирование знаний о мире для моделирования обратной динамики, тем самым создавая цикл "восприятие-прогнозирование-действие" для задач манипуляции. В частности, DreamVLA вводит прогнозирование знаний о мире, управляемое динамическими областями, интегрированное с пространственными и семантическими подсказками, что обеспечивает компактные, но всесторонние представления для планирования действий. Этот подход соответствует тому, как люди взаимодействуют с миром, сначала формируя абстрактные мультимодальные цепочки рассуждений, прежде чем действовать. Чтобы минимизировать взаимное влияние динамической, пространственной и семантической информации во время обучения, мы используем блочно-структурированный механизм внимания, который маскирует их взаимное внимание, предотвращая утечку информации и сохраняя каждое представление чистым и разделенным. Кроме того, для моделирования условного распределения будущих действий мы применяем трансформер на основе диффузии, который разделяет представления действий от общих скрытых признаков. Эксперименты в реальных и симулированных средах демонстрируют, что DreamVLA достигает 76,7% успешности в задачах реального робота и 4,44 среднего показателя длины на бенчмарках CALVIN ABC-D.
Реконструкция быстроизменяющихся сцен из многовидеоизображений имеет ключевое значение для анализа высокоскоростных движений и реалистичного 4D-восстановления. Однако большинство систем 4D-захвата ограничены частотой кадров ниже 30 FPS (кадров в секунду), и прямое 4D-восстановление высокоскоростных движений из низкочастотных входных данных может привести к нежелательным результатам. В данной работе мы предлагаем систему высокоскоростного 4D-захвата, использующую только камеры с низкой частотой кадров, благодаря новым модулям захвата и обработки. Со стороны захвата мы предлагаем асинхронную схему, которая увеличивает эффективную частоту кадров за счет смещения времени начала работы камер. Группируя камеры и используя базовую частоту кадров 25 FPS, наш метод достигает эквивалентной частоты 100–200 FPS без необходимости использования специализированных высокоскоростных камер. Со стороны обработки мы также предлагаем новую генеративную модель для устранения артефактов, вызванных 4D-реконструкцией с разреженными видами, поскольку асинхронность уменьшает количество точек зрения на каждом временном шаге. В частности, мы предлагаем обучить модель исправления артефактов на основе видео-диффузии для разреженной 4D-реконструкции, которая уточняет недостающие детали, сохраняет временную согласованность и улучшает общее качество восстановления. Экспериментальные результаты демонстрируют, что наш метод значительно улучшает высокоскоростное 4D-восстановление по сравнению с синхронным захватом.
Мы предлагаем новый взгляд на моделирование вознаграждений, формулируя его как дискриминатор политик, который количественно оценивает разницу между двумя политиками для генерации сигнала вознаграждения, направляющего обучаемую политику к целевой политике с желаемым поведением. Основываясь на этой концептуальной идее, мы предлагаем масштабируемый метод предварительного обучения под названием Policy Discriminative Learning (POLAR), который обучает модель вознаграждения (RM) распознавать идентичные политики и различать различные. В отличие от традиционных методов моделирования вознаграждений, основанных на абсолютных предпочтениях, POLAR фиксирует относительную разницу между одной политикой и произвольной целевой политикой, что представляет собой масштабируемую, высокоуровневую цель оптимизации, подходящую для моделирования общих ранжирующих отношений. Используя парадигму предварительного обучения POLAR, мы представляем серию моделей вознаграждения с масштабами параметров от 1,8 млрд до 7 млрд. Эмпирические результаты показывают, что POLAR значительно превосходит традиционные методы без предварительного обучения, существенно улучшая производительность RM. Например, POLAR-7B может повысить точность предпочтений с 54,8% до 81,0% на задачах STEM и с 57,9% до 85,5% на задачах творческого письма по сравнению с современными базовыми методами. POLAR также демонстрирует устойчивые обобщающие способности в RLHF с использованием Reinforcement Fine-tuning (RFT), предоставляя надежные сигналы вознаграждения и заметно улучшая производительность политик — повышая средний показатель LLaMa3.1-8B с 47,36% до 56,33% и Qwen2.5-32B с 64,49% до 70,47% на 20 тестовых наборах. Более того, эксперименты по масштабированию выявляют четкую степенную зависимость между вычислительными ресурсами и производительностью, подтверждаемую коэффициентами линейной корреляции, приближающимися к 0,99. Впечатляющая производительность, сильные обобщающие способности и свойства масштабирования позволяют предположить, что POLAR является перспективным направлением для разработки общих и мощных моделей вознаграждений.
Мы представляем RoboBrain 2.0 — новое поколение воплощенных мультимодальных моделей, объединяющих восприятие, рассуждение и планирование для выполнения сложных задач в физических средах. Модель представлена в двух вариантах: облегченная версия на 7 миллиардов параметров и полномасштабная версия на 32 миллиарда параметров, использующая гетерогенную архитектуру с визуальным кодировщиком и языковой моделью. Несмотря на компактные размеры, RoboBrain 2.0 демонстрирует высокую производительность в широком спектре задач, связанных с воплощенным рассуждением. На пространственных и временных тестах 32-миллиардная версия достигает лидирующих результатов, превосходя предыдущие открытые и проприетарные модели. В частности, она поддерживает ключевые возможности воплощенного ИИ, включая пространственное понимание (например, предсказание аффордансов, пространственные ссылки, прогнозирование траекторий) и временное принятие решений (например, замкнутое взаимодействие, долгосрочное планирование в мультиагентных системах и обновление графов сцен). В данном отчете подробно описаны архитектура модели, процесс создания данных, многоэтапные стратегии обучения, инфраструктура и практические применения. Мы надеемся, что RoboBrain 2.0 продвинет исследования в области воплощенного ИИ и станет практическим шагом на пути к созданию универсальных воплощенных агентов. Код, контрольные точки и тестовые наборы доступны по адресу https://superrobobrain.github.io.
В последнее время был достигнут значительный прогресс в генерации видео из текста (Text-to-Video, T2V) благодаря масштабированию трансформерных диффузионных моделей до миллиардов параметров, что позволяет создавать высококачественные видео. Однако существующие модели обычно генерируют только короткие ролики в оффлайн-режиме, что ограничивает их применение в интерактивных и реального времени приложениях. В данной статье мы предлагаем StreamDiT — модель для потоковой генерации видео, которая решает эти проблемы. Обучение StreamDiT основано на методе согласования потоков с добавлением движущегося буфера. Мы разработали смешанное обучение с различными схемами разделения буферизированных кадров для улучшения как согласованности содержания, так и визуального качества. Моделирование StreamDiT основано на adaLN DiT с изменяющимся временным встраиванием и оконным вниманием. Для практической реализации предложенного метода мы обучили модель StreamDiT с 4 миллиардами параметров. Кроме того, мы предлагаем метод многошаговой дистилляции, адаптированный для StreamDiT. Дистилляция выборки выполняется в каждом сегменте выбранной схемы разделения. После дистилляции общее количество вычислений функций (NFEs) сокращается до количества фрагментов в буфере. В итоге наша дистиллированная модель достигает производительности в реальном времени на уровне 16 кадров в секунду на одном GPU, что позволяет генерировать видеопотоки с разрешением 512p. Мы оцениваем наш метод с помощью как количественных метрик, так и экспертной оценки. Наша модель открывает возможности для приложений реального времени, таких как потоковая генерация, интерактивная генерация и видео-к-видео. Мы предоставляем видеорезультаты и дополнительные примеры на нашем проекте: <a href="https://cumulo-autumn.github.io/StreamDiT/">эта ссылка</a>.
В данной статье мы представляем BMMR — крупномасштабный двуязычный, мультимодальный и междисциплинарный набор данных для рассуждений, предназначенный для разработки и оценки крупных мультимодальных моделей (LMMs). BMMR включает 110 тысяч вопросов уровня колледжа, охватывающих 300 предметов, определенных ЮНЕСКО, и представленных в различных форматах — множественный выбор, заполнение пропусков и открытые вопросы. Данные собраны из печатных и цифровых источников, таких как книги, экзамены и викторины. Все данные отобраны и отфильтрованы с использованием масштабируемой системы с участием человека, и каждый пример сопровождается высококачественным путем рассуждений. Набор данных разделен на две части: BMMR-Eval, содержащий 20 458 высококачественных примеров для всесторонней оценки знаний и способности к рассуждению LMMs на китайском и английском языках в различных дисциплинах, и BMMR-Train, включающий 88 991 пример для поддержки дальнейших исследований и разработок, расширяя текущий фокус на математические рассуждения до разнообразных дисциплин и областей. Кроме того, мы предлагаем процессно-ориентированный междисциплинарный верификатор (BMMR-Verifier) для точной и детальной оценки путей рассуждений. Эксперименты на 24 моделях показывают, что (i) даже современные модели (например, o3 и Gemini-2.5-Pro) оставляют значительный потенциал для улучшения на BMMR-Eval; (ii) модели рассуждений демонстрируют дисциплинарную предвзятость и превосходят LMMs только в определенных предметах; (iii) открытые модели по-прежнему отстают от проприетарных аналогов; и (iv) дообучение на BMMR-Train сокращает этот разрыв. Дополнительно мы проводим анализ цепочек рассуждений с использованием BMMR-Verifier и другие углубленные исследования, выявляя текущие вызовы, с которыми сталкиваются LMMs в междисциплинарных рассуждениях. Мы опубликуем данные и надеемся, что наша работа внесет вклад и предоставит ценные инсайты для сообщества.
Фундаментальные возможности больших языковых моделей (LLM) в значительной степени зависят от качества их предварительно обучаемых корпусов. Однако повышение качества данных в масштабе остается серьезной проблемой, главным образом из-за компромисса между эффективностью улучшения и производительностью обработки. Хотя фильтрация на основе правил остается доминирующей парадигмой, она обычно работает на уровне документов и не обладает достаточной детализацией для улучшения конкретного содержимого внутри документов. Вдохновленные новыми работами, такими как ProX, мы предлагаем RefineX — новый фреймворк для крупномасштабного, точечного улучшения предварительно обучаемых данных с помощью программных задач редактирования. RefineX обеспечивает эффективное и детализированное улучшение данных, надежно сохраняя разнообразие и естественность исходного текста. Основная сила RefineX заключается в преобразовании высококачественных, экспертно-направленных результатов сквозного улучшения в минимальные программы удаления на основе редактирования. Этот высокоточный процесс преобразования используется для обучения эффективной и надежной модели улучшения, которая может систематически улучшать каждый экземпляр в корпусе в масштабе. Мы оцениваем RefineX в ходе предварительного обучения с нуля на моделях различных масштабов и обнаруживаем, что он стабильно превосходит модели, обученные на сырых, отфильтрованных или альтернативно улучшенных данных, в разнообразных последующих задачах. На модели с 750 миллионами параметров RefineX обеспечивает средний прирост на 2,6%-7,2% в задачах lighteval и достигает сопоставимой производительности, используя значительно меньше токенов для обучения. Дополнительный анализ показывает, что RefineX надежно повышает качество текста с высокой эффективностью и точностью, превосходя предыдущие подходы, такие как сквозная генерация и Prox-C. Эти результаты позиционируют RefineX как масштабируемое, эффективное и надежное решение для оптимизации предварительно обучаемых данных в современных конвейерах LLM.
Мультимодальные модели эмбеддингов сыграли ключевую роль в решении различных задач, таких как семантическое сходство, информационный поиск и кластеризация для разных модальностей. Однако существующие мультимодальные эмбеддинги, такие как VLM2Vec, E5-V и GME, в основном ориентированы на обработку естественных изображений, с ограниченной поддержкой других визуальных форм, таких как видео и визуальные документы. Это ограничивает их применимость в реальных сценариях, включая ИИ-агентов, мультимодальный поиск и рекомендации, а также генерацию, усиленную поиском (RAG). Чтобы устранить этот пробел, мы предлагаем VLM2Vec-V2 — унифицированную платформу для обучения эмбеддингов для разнообразных визуальных форм. Сначала мы представляем MMEB-V2, расширенный бенчмарк, который дополняет MMEB пятью новыми типами задач: поиск визуальных документов, поиск видео, временная локализация, классификация видео и ответы на вопросы по видео — охватывая текстовые, графические, видео и визуальные документы. Затем мы обучаем VLM2Vec-V2 — универсальную модель эмбеддингов, поддерживающую текстовые, графические, видео и визуальные документы. Многочисленные эксперименты показывают, что VLM2Vec-V2 демонстрирует высокую производительность не только на новых задачах поиска видео и документов, но и превосходит предыдущие базовые модели на оригинальных бенчмарках для изображений. Благодаря всесторонней оценке, наше исследование предоставляет инсайты об обобщаемости различных мультимодальных моделей эмбеддингов и выделяет эффективные стратегии для унифицированного обучения эмбеддингов, закладывая основу для более масштабируемого и адаптируемого обучения представлений как в исследованиях, так и в реальных условиях.
Мы исследуем, захватывают ли визуальные модели встраивания непрерывные порядковые атрибуты вдоль линейных направлений, которые мы называем _ранговыми осями_. Мы определяем модель как _ранжируемую_ для атрибута, если проекция встраиваний на такую ось сохраняет порядок атрибута. На основе анализа 7 популярных кодировщиков и 9 наборов данных с атрибутами, такими как возраст, количество людей, положение головы, эстетика и актуальность, мы обнаруживаем, что многие встраивания изначально являются ранжируемыми. Удивительно, что небольшое количество образцов, или даже всего два крайних примера, часто достаточно для восстановления значимых ранговых осей без полномасштабного обучения с учителем. Эти результаты открывают новые возможности для ранжирования изображений в векторных базах данных и мотивируют дальнейшее изучение структуры и обучения ранжируемых встраиваний. Наш код доступен по адресу https://github.com/aktsonthalia/rankable-vision-embeddings.
Спекулятивное декодирование, как правило, предполагает использование небольшой и эффективной черновой модели, которая либо предварительно обучена, либо дистиллирована оффлайн для конкретной серии целевых моделей, например, моделей Llama или Qwen. Однако в условиях онлайн-развертывания возникают две основные проблемы: 1) использование целевой модели, несовместимой с черновой моделью; 2) ожидание улучшения задержек в процессе использования и со временем. В данной работе мы предлагаем OmniDraft — унифицированную структуру, которая позволяет одной черновой модели работать с любой целевой моделью и динамически адаптироваться к пользовательским данным. Мы вводим онлайн n-граммный кэш с гибридной дистилляционной тонкой настройкой для устранения несоответствий в словарях между черновой и целевой моделями; а также дополнительно улучшаем скорость декодирования за счет адаптивных техник чернового прогнозирования. OmniDraft особенно подходит для приложений LLM на устройствах, где стоимость модели, эффективность и пользовательская настройка являются основными точками разногласий. Это подчеркивает необходимость решения вышеуказанных проблем и мотивирует парадигму «один черновик для всех». Мы демонстрируем эффективность структуры OmniDraft, выполняя онлайн-обучение на задачах математического рассуждения, программирования и генерации текста. В частности, OmniDraft позволяет одной модели Llama-68M работать с различными целевыми моделями, включая Vicuna-7B, Qwen2-7B и Llama3-8B, для спекулятивного декодирования; а также обеспечивает ускорение до 1,5–2 раз.
Исторические документы представляют собой бесценное культурное наследие, однако с течением времени они подвергаются значительной деградации из-за разрывов, водной эрозии и окисления. Существующие методы восстановления исторических документов (Historical Document Restoration, HDR) в основном сосредоточены на восстановлении в рамках одной модальности или ограниченного размера, что не удовлетворяет практическим потребностям. Для устранения этого пробела мы представляем набор данных для полностраничного восстановления (FPHDR) и новое автоматизированное решение для HDR (AutoHDR). В частности, FPHDR включает 1633 реальных и 6543 синтетических изображения с указанием местоположения на уровне символов и строк, а также аннотациями символов для различных степеней повреждения. AutoHDR имитирует рабочие процессы реставрации историков через трехэтапный подход: локализация повреждений с помощью OCR, предсказание текста на основе визуально-языкового контекста и авторегрессивное восстановление внешнего вида на уровне фрагментов. Модульная архитектура AutoHDR обеспечивает беспрепятственное взаимодействие человека и машины, позволяя гибко вмешиваться и оптимизировать каждый этап восстановления. Эксперименты демонстрируют выдающуюся производительность AutoHDR в HDR. При обработке сильно поврежденных документов наш метод повышает точность OCR с 46,83% до 84,05%, а при взаимодействии человека и машины — до 94,25%. Мы считаем, что данная работа представляет собой значительный шаг вперед в автоматизированном восстановлении исторических документов и вносит существенный вклад в сохранение культурного наследия. Модель и набор данных доступны по адресу https://github.com/SCUT-DLVCLab/AutoHDR.
Недавние бенчмарки для агентов с большими языковыми моделями (LLM) в основном сосредоточены на оценке способностей к рассуждению, планированию и выполнению задач, в то время как другой критически важный компонент — память, включающий то, как агенты запоминают, обновляют и извлекают долгосрочную информацию, — остается недостаточно оцененным из-за отсутствия соответствующих бенчмарков. Мы называем агентов с механизмами памяти агентами с памятью. В данной статье мы выделяем четыре ключевые компетенции, необходимые для агентов с памятью: точное извлечение информации, обучение во время тестирования, понимание на длинных дистанциях и разрешение конфликтов. Существующие наборы данных либо ограничены по длине контекста, либо адаптированы для статических, длинных контекстов, таких как вопросы и ответы на основе книг, что не отражает интерактивный, многоходовый характер агентов с памятью, которые постепенно накапливают информацию. Более того, ни один из существующих бенчмарков не охватывает все четыре компетенции. Поэтому мы представляем MemoryAgentBench — новый бенчмарк, специально разработанный для агентов с памятью. Наш бенчмарк объединяет переработанные существующие наборы данных с новыми, охватывая указанные четыре компетенции памяти, предоставляя систематическую и сложную тестовую среду для оценки качества памяти. Мы оцениваем разнообразный набор агентов с памятью, начиная от простых систем на основе контекста и генерации, усиленной извлечением (RAG), до продвинутых агентов с внешними модулями памяти и интеграцией инструментов. Эмпирические результаты показывают, что современные методы не справляются с освоением всех четырех компетенций, что подчеркивает необходимость дальнейших исследований в области комплексных механизмов памяти для агентов LLM.
Методы сегментации на основе Neural Radiance Field (NeRF) сосредоточены на семантике объектов и полагаются исключительно на RGB-данные, не учитывая внутренние свойства материалов. Это ограничение затрудняет точное восприятие материалов, что имеет критическое значение для робототехники, дополненной реальности, симуляции и других приложений. Мы представляем UnMix-NeRF — фреймворк, который интегрирует спектральное разделение в NeRF, обеспечивая совместный синтез новых видов в гиперспектральном диапазоне и неконтролируемую сегментацию материалов. Наш метод моделирует спектральную отражательную способность через диффузные и зеркальные компоненты, где обученный словарь глобальных эндмемберов представляет чистые сигнатуры материалов, а локальные коэффициенты обилия фиксируют их распределение. Для сегментации материалов мы используем предсказания спектральных сигнатур на основе обученных эндмемберов, что позволяет проводить неконтролируемую кластеризацию материалов. Кроме того, UnMix-NeRF позволяет редактировать сцены путем модификации обученных словарей эндмемберов для гибкого управления внешним видом на основе материалов. Многочисленные эксперименты подтверждают эффективность нашего подхода, демонстрируя превосходство в спектральной реконструкции и сегментации материалов по сравнению с существующими методами. Страница проекта: https://www.factral.co/UnMix-NeRF.
Мы представляем PresentAgent, мультимодальный агент, который преобразует длинные документы в видеопрезентации с озвучкой. В то время как существующие подходы ограничиваются генерацией статических слайдов или текстовых сводок, наш метод выходит за рамки этих ограничений, создавая полностью синхронизированные визуальные и речевые материалы, которые близко имитируют презентации в человеческом стиле. Для достижения такой интеграции PresentAgent использует модульный конвейер, который систематически сегментирует входной документ, планирует и создает визуальные кадры в стиле слайдов, генерирует контекстуальную озвучку с использованием крупных языковых моделей и моделей преобразования текста в речь, а также бесшовно компонует итоговое видео с точным аудиовизуальным соответствием. Учитывая сложность оценки таких мультимодальных результатов, мы представляем PresentEval, унифицированную систему оценки, основанную на моделях Vision-Language, которая комплексно оценивает видео по трем ключевым параметрам: точность содержания, визуальная ясность и понимание аудитории через оценку на основе промптов. Наша экспериментальная проверка на тщательно отобранном наборе данных из 30 пар документ-презентация демонстрирует, что PresentAgent приближается к качеству, создаваемому человеком, по всем метрикам оценки. Эти результаты подчеркивают значительный потенциал управляемых мультимодальных агентов в преобразовании статических текстовых материалов в динамичные, эффективные и доступные форматы презентаций. Код будет доступен по адресу https://github.com/AIGeeksGroup/PresentAgent.
Генеративные возможности крупных языковых моделей (LLM) быстро расширяются от статического кода к динамичным, интерактивным визуальным артефактам. Этот прогресс ограничивается критическим пробелом в оценке: существующие бенчмарки сосредоточены на алгоритмической корректности и не учитывают визуальную точность и интерактивную целостность, которые определяют современные пользовательские интерфейсы. Чтобы устранить этот пробел, мы представляем ArtifactsBench — новый бенчмарк и парадигму для автоматизированной, мультимодальной оценки генерации визуального кода. Наша фреймворк программно визуализирует каждый сгенерированный артефакт и фиксирует его динамическое поведение с помощью временных скриншотов. Эти визуальные данные, наряду с исходным кодом, затем оцениваются мультимодальной LLM (MLLM)-as-Judge, которая строго руководствуется детализированным чек-листом для каждой задачи, чтобы обеспечить целостную и воспроизводимую оценку. Мы создаем новый бенчмарк из 1 825 разнообразных задач и оцениваем более 30 ведущих LLM. Наша автоматизированная оценка достигает впечатляющей 94,4% согласованности с WebDev Arena, золотым стандартом для человеческих предпочтений в веб-разработке, и более 90% попарного согласия с экспертами-людьми. Это делает ArtifactsBench первым фреймворком, который надежно автоматизирует оценку воспринимаемого человеком качества в масштабе. Наш анализ предоставляет детализированную карту текущего состояния SOTA, показывая, что универсальные модели часто превосходят специализированные. Мы открываем исходный код ArtifactsBench, включая бенчмарк, инструменты оценки и базовые результаты, на https://artifactsbenchmark.github.io/, чтобы предоставить сообществу масштабируемый и точный инструмент для ускорения разработки пользовательских генеративных моделей.
**Введение:** Клиническая документация представляет собой значительную нагрузку для медицинских работников, при этом врачи тратят до 2 часов в день на выполнение административных задач. Последние достижения в области крупных языковых моделей (LLM) предлагают перспективные решения, однако проблемы конфиденциальности и вычислительные требования ограничивают их внедрение в медицинских учреждениях. **Цель:** Разработать и оценить систему медицинской транскрипции с сохранением конфиденциальности, работающую на устройстве, с использованием тонко настроенной модели Llama 3.2 1B, способной генерировать структурированные медицинские записи из медицинских транскрипций, при этом обеспечивая полный суверенитет данных непосредственно в браузере. **Методы:** Мы тонко настроили модель Llama 3.2 1B с использованием метода Parameter-Efficient Fine-Tuning (PEFT) с LoRA на 1500 синтетических парах медицинских транскрипций и структурированных записей. Модель была оценена в сравнении с базовой Llama 3.2 1B на двух наборах данных: 100 транскрипций эндокринологических случаев и 140 модифицированных случаев из бенчмарка ACI. Оценка проводилась с использованием как статистических метрик (ROUGE, BERTScore, BLEURT), так и оценок LLM-as-judge по нескольким клиническим параметрам качества. **Результаты:** Тонко настроенная модель OnDevice продемонстрировала значительные улучшения по сравнению с базовой моделью. На бенчмарке ACI показатели ROUGE-1 увеличились с 0,346 до 0,496, а BERTScore F1 улучшился с 0,832 до 0,866. Оценки клинического качества показали заметное снижение крупных ошибок (с 85 до 35 случаев) и повышение фактической точности (с 2,81 до 3,54 по 5-балльной шкале). Аналогичные улучшения были отмечены на внутреннем наборе данных, где общие оценки увеличились с 3,13 до 4,43 (+41,5%). **Выводы:** Тонкая настройка компактных LLM для медицинской транскрипции приводит к клинически значимым улучшениям, одновременно обеспечивая полное развертывание в браузере на устройстве. Этот подход решает ключевые барьеры для внедрения ИИ в здравоохранении: сохранение конфиденциальности, снижение затрат и доступность для ресурсоограниченных сред.
Обучение нативных генеративных моделей для создания 3D текстур остается фундаментальной, но сложной задачей, в основном из-за ограниченной доступности крупномасштабных, высококачественных наборов данных 3D текстур. Этот дефицит затрудняет обобщение на реальные сценарии. Чтобы решить эту проблему, большинство существующих методов дообучают базовые модели генерации изображений, чтобы использовать их изученные визуальные априорные знания. Однако такие подходы обычно генерируют только многовидовые изображения и полагаются на постобработку для создания UV-текстурных карт — важного представления в современных графических конвейерах. Такие двухэтапные конвейеры часто страдают от накопления ошибок и пространственных несоответствий на 3D поверхности. В данной работе мы представляем SeqTex, новый сквозной фреймворк, который использует визуальные знания, закодированные в предобученных моделях для работы с видео, чтобы напрямую генерировать полные UV-текстурные карты. В отличие от предыдущих методов, которые моделируют распределение UV текстур изолированно, SeqTex переформулирует задачу как проблему генерации последовательностей, позволяя модели изучать совместное распределение многовидовых рендеров и UV текстур. Такой подход эффективно переносит согласованные априорные знания из пространства изображений, заложенные в моделях для видео, в UV-домен. Для дальнейшего повышения производительности мы предлагаем несколько архитектурных инноваций: разделенную структуру с ветвями для многовидовых изображений и UV текстур, геометрически-информированное внимание для управления выравниванием признаков между доменами и адаптивное разрешение токенов для сохранения деталей текстур при поддержании вычислительной эффективности. Вместе эти компоненты позволяют SeqTex полностью использовать предобученные априорные знания для видео и синтезировать высококачественные UV-текстурные карты без необходимости постобработки. Многочисленные эксперименты показывают, что SeqTex достигает наилучших результатов в задачах генерации 3D текстур, как на основе изображений, так и на основе текста, с превосходной 3D-согласованностью, выравниванием текстур и геометрии, а также обобщением на реальные сценарии.
Извлечение отношений (RE) является ключевой задачей в обработке естественного языка. Традиционные подходы обычно формулируют RE как задачу обучения с учителем, напрямую отображая контекст на метки — подход, который часто страдает от слабой обобщающей способности вне домена (OOD). Вдохновленные рабочим процессом аннотаторов-людей, мы переосмысливаем RE как задачу рассуждений, направляемую руководствами по аннотации, и представляем R1-RE — первую структуру обучения с подкреплением с верифицируемой наградой (RLVR) для задач RE. Наш метод активирует способности к рассуждению у небольших языковых моделей для задач аннотации, что приводит к значительному улучшению устойчивости к OOD. Мы оцениваем наш подход на публичном наборе данных Sem-2010 и частном наборе данных MDKG. Модель R1-RE-7B достигает средней точности OOD около 70%, что сопоставимо с ведущими проприетарными моделями, такими как GPT-4o. Кроме того, наш всесторонний анализ предоставляет новые инсайты в динамику обучения и возникающие поведенческие паттерны рассуждений в рамках парадигмы RLVR для RE.
В данной статье представлена модель VLAI, основанная на архитектуре трансформеров, которая предсказывает уровни серьезности уязвимостей программного обеспечения непосредственно на основе текстовых описаний. Построенная на базе RoBERTa, модель VLAI была дообучена на более чем 600 000 реальных уязвимостей и демонстрирует точность свыше 82% в предсказании категорий серьезности, что позволяет ускорить и повысить согласованность процесса классификации до ручного расчета показателей CVSS. Модель и набор данных являются открытыми и интегрированы в сервис Vulnerability-Lookup.
Современные методы редактирования изображений на основе диффузии значительно продвинулись в выполнении задач, управляемых текстом, но часто испытывают трудности с интерпретацией сложных и косвенных инструкций. Кроме того, текущие модели нередко страдают от плохого сохранения идентичности, нежелательных изменений или сильной зависимости от ручных масок. Для решения этих проблем мы представляем X-Planner — систему планирования на основе мультимодальной крупной языковой модели (MLLM), которая эффективно связывает намерения пользователя с возможностями модели редактирования. X-Planner использует цепочку рассуждений для систематического разложения сложных инструкций на более простые и понятные подзадачи. Для каждой подзадачи X-Planner автоматически генерирует точные типы изменений и маски сегментации, исключая необходимость ручного вмешательства и обеспечивая локализованные правки с сохранением идентичности. Дополнительно мы предлагаем новый автоматизированный конвейер для генерации масштабных данных для обучения X-Planner, который демонстрирует передовые результаты как на существующих бенчмарках, так и на нашем новом сложном бенчмарке редактирования.
Крупные языковые модели (LLMs) всё чаще используются для вызова корпоративных API, однако они регулярно допускают ошибки, когда несколько почти идентичных инструментов конкурируют за одно и то же намерение пользователя или когда требуемые аргументы недостаточно специфицированы. Мы представляем DiaFORGE (Dialogue Framework for Organic Response Generation & Evaluation) — трёхэтапный конвейер, ориентированный на устранение неоднозначностей, который (i) синтезирует персонализированные многоходовые диалоги, в которых ассистент должен различать высоко схожие инструменты, (ii) выполняет контролируемое тонкое обучение моделей с открытым исходным кодом, включая трассировку рассуждений для моделей с параметрами от 3B до 70B, и (iii) оценивает готовность к реальным задачам с помощью динамического набора тестов, который повторно развёртывает каждую модель в активном агентском цикле и сообщает о завершении целей от начала до конца наряду с традиционными статическими метриками. На нашем динамическом бенчмарке DiaBENCH модели, обученные с использованием DiaFORGE, повышают успешность вызова инструментов на 27 процентных пунктов по сравнению с GPT-4o и на 49 процентных пунктов по сравнению с Claude-3.5-Sonnet, оба при оптимизированных подсказках. Для стимулирования дальнейших исследований мы публикуем открытый корпус из 5000 спецификаций корпоративных API производственного уровня, дополненных тщательно проверенными диалогами, ориентированными на устранение неоднозначностей, предлагая практическое руководство для создания надёжных агентов, готовых к использованию в корпоративной среде.
По мере того как системы искусственного интеллекта эволюционируют от монолитных моделей к экосистемам специализированных агентов, необходимость в стандартизированных протоколах коммуникации становится всё более критичной. В данной статье представлен MOD-X (Modular Open Decentralized eXchange) — новая архитектурная концепция для обеспечения взаимодействия агентов, которая устраняет ключевые ограничения существующих протоколов. В отличие от современных подходов, MOD-X предлагает многоуровневую архитектуру, включающую универсальную шину сообщений, комплексное управление состоянием, возможности перевода и механизмы безопасности на основе блокчейна. Мы описываем архитектуру MOD-X, сравниваем её с существующими протоколами и демонстрируем её применение на примере интеграции между гетерогенными специализированными агентами (агентами с различными архитектурами, производителями, возможностями и представлениями знаний — включая системы, основанные на правилах, нейронные сети, символьные механизмы рассуждений и устаревшее программное обеспечение с обёртками агентов). Ключевые инновации MOD-X включают модель коммуникации "издатель-подписчик", семантическое обнаружение возможностей и динамическую оркестрацию рабочих процессов, предоставляя фреймворк, который объединяет теоретическую формализацию с практической реализацией. Эта архитектура отвечает растущей потребности в действительно децентрализованных, взаимодействующих экосистемах агентов, способных эффективно масштабироваться без необходимости централизованной координации.
Крупные языковые модели (LLMs) продемонстрировали впечатляющие способности в решении разнообразных задач, однако их способность прогнозировать будущие события остается недостаточно изученной. Год назад крупные языковые модели не могли приблизиться к точности прогнозов, сделанных человеческой толпой. Я оцениваю современные LLMs на 464 прогнозных вопросах с платформы Metaculus, сравнивая их результаты с показателями человеческих суперпрогнозистов. Передовые модели достигают оценок по шкале Бриера, которые на первый взгляд превосходят результаты человеческой толпы, но всё же значительно уступают группе суперпрогнозистов.