Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем 4KAgent — универсальную агентскую систему для супер-разрешения, способную масштабировать любое изображение до разрешения 4K (и даже выше при итеративном применении). Наша система способна преобразовывать изображения с крайне низким разрешением и сильными искажениями, например, сильно деградированные входные данные размером 256x256, в кристально чистые, фотореалистичные изображения 4K. 4KAgent состоит из трех ключевых компонентов: (1) Профилирование — модуль, который настраивает конвейер 4KAgent в зависимости от конкретных задач; (2) Агент восприятия, использующий модели, объединяющие зрение и язык, а также экспертов по оценке качества изображений для анализа входного изображения и создания индивидуального плана восстановления; и (3) Агент восстановления, который выполняет план, следуя рекурсивной парадигме выполнения-рефлексии, руководствуясь политикой смеси экспертов, ориентированной на качество, для выбора оптимального результата на каждом шаге. Кроме того, 4KAgent включает специализированный конвейер для восстановления лиц, значительно улучшающий детализацию в портретах и селфи. Мы тщательно оценили 4KAgent на 11 различных категориях задач, охватывающих 26 разнообразных бенчмарков, установив новые рекорды в широком спектре областей обработки изображений. Наши оценки охватывают натуральные изображения, портретные фото, контент, созданный ИИ, спутниковые снимки, флуоресцентную микроскопию и медицинские изображения, такие как фундоскопия, ультразвук и рентген, демонстрируя превосходную производительность как по перцептивным (например, NIQE, MUSIQ), так и по метрикам точности (например, PSNR). Устанавливая новую агентскую парадигму для задач низкоуровневого зрения, мы стремимся стимулировать более широкий интерес и инновации в области автономных агентов, ориентированных на зрение, в различных исследовательских сообществах. Мы опубликуем весь код, модели и результаты по адресу: https://4kagent.github.io.
Мы представляем Skywork-R1V3 — передовую модель обработки визуально-языковых данных (VLM) с открытым исходным кодом, которая предлагает новый подход к визуальному рассуждению. Её ключевая инновация заключается в эффективном переносе навыков рассуждения из текстовых крупных языковых моделей (LLM) на визуальные задачи. Высокая производительность Skywork-R1V3 в первую очередь обусловлена нашей тщательно разработанной посттренировочной RL-структурой, которая эффективно активирует и усиливает способность модели к рассуждению без необходимости дополнительного продолжения предварительного обучения. Благодаря этой структуре мы также раскрываем фундаментальную роль соединительного модуля в достижении устойчивого кросс-модального выравнивания для мультимодальных моделей рассуждения. Кроме того, мы вводим уникальный показатель способности к рассуждению — энтропию критических токенов рассуждения, который доказал свою высокую эффективность при выборе контрольных точек во время RL-обучения. Skywork-R1V3 достигает современных результатов на MMMU, значительно улучшая показатели с 64,3% до 76,0%. Эта производительность соответствует базовым человеческим возможностям. Примечательно, что наш посттренировочный подход с использованием RL позволяет даже 38B-параметрической модели конкурировать с лучшими закрытыми VLM. Реализация успешно переносит математическое рассуждение на другие задачи, связанные с предметной областью. Мы также включаем анализ стратегий обучения по учебному плану и тонкой настройки с подкреплением, а также более широкое обсуждение мультимодального рассуждения. Skywork-R1V3 представляет собой значительный скачок в области мультимодального рассуждения, демонстрируя RL как мощный инструмент для развития возможностей открытых VLM.
Хотя возможности памяти агентов искусственного интеллекта привлекают всё больше внимания, существующие решения остаются принципиально ограниченными. Большинство из них полагаются на плоские, узконаправленные компоненты памяти, что ограничивает их способность персонализировать, абстрагировать и надёжно воспроизводить пользовательскую информацию с течением времени. В связи с этим мы представляем MIRIX — модульную, многоагентную систему памяти, которая переопределяет будущее памяти ИИ, решая наиболее критическую задачу этой области: предоставление языковым моделям возможности действительно запоминать. В отличие от предыдущих подходов, MIRIX выходит за рамки текста, охватывая богатые визуальные и мультимодальные впечатления, делая память по-настоящему полезной в реальных сценариях. MIRIX состоит из шести различных, тщательно структурированных типов памяти: базовой, эпизодической, семантической, процедурной, ресурсной памяти и хранилища знаний, объединённых с многоагентной структурой, которая динамически управляет и координирует обновления и извлечение данных. Такая конструкция позволяет агентам сохранять, анализировать и точно извлекать разнообразные долгосрочные пользовательские данные в масштабе. Мы проверяем MIRIX в двух сложных условиях. Во-первых, на ScreenshotVQA — сложном мультимодальном тесте, включающем почти 20 000 высококачественных скриншотов компьютера на последовательность, требующем глубокого контекстного понимания и где ни одна из существующих систем памяти не может быть применена, MIRIX достигает на 35% большей точности, чем базовый RAG, при этом сокращая требования к хранению на 99,9%. Во-вторых, на LOCOMO — тесте длинных диалогов с одноканальным текстовым вводом, MIRIX демонстрирует передовую производительность в 85,4%, значительно превосходя существующие базовые решения. Эти результаты показывают, что MIRIX устанавливает новый стандарт производительности для агентов LLM, усиленных памятью. Чтобы пользователи могли испытать нашу систему памяти, мы предоставляем упакованное приложение, работающее на основе MIRIX. Оно отслеживает экран в реальном времени, создаёт персонализированную базу памяти и предлагает интуитивную визуализацию и безопасное локальное хранение для обеспечения конфиденциальности.
Генерация разнообразных и естественных последовательностей движений человека на основе текстовых описаний представляет собой фундаментальную и сложную область исследований в сферах компьютерного зрения, графики и робототехники. Несмотря на значительные достижения в этой области, современные методы часто сталкиваются с проблемами, связанными с возможностями обобщения в условиях нулевого сэмплинга (zero-shot), что во многом обусловлено ограниченным размером обучающих наборов данных. Кроме того, отсутствие всеобъемлющей системы оценки затрудняет прогресс в этой задаче, так как не позволяет определить направления для улучшений. В данной работе мы стремимся вывести генерацию движений из текста на новый уровень, а именно — достичь способности к обобщению в условиях нулевого сэмплинга. Для этого, во-первых, мы разрабатываем эффективный конвейер аннотирования и представляем MotionMillion — крупнейший на сегодняшний день набор данных о движениях человека, содержащий более 2000 часов и 2 миллиона высококачественных последовательностей движений. Кроме того, мы предлагаем MotionMillion-Eval — наиболее полный бенчмарк для оценки генерации движений в условиях нулевого сэмплинга. Используя масштабируемую архитектуру, мы увеличиваем размер нашей модели до 7 миллиардов параметров и проверяем её производительность на MotionMillion-Eval. Наши результаты демонстрируют сильное обобщение для движений за пределами домена и сложных композиционных движений, что знаменует собой значительный шаг на пути к генерации движений человека в условиях нулевого сэмплинга. Код доступен по адресу https://github.com/VankouF/MotionMillion-Codes.
Обучение с подкреплением с верифицируемыми наградами (RLVR) доказало свою высокую эффективность в наделении крупных языковых моделей (LLM) устойчивыми способностями к многошаговому рассуждению. Однако его дизайн и оптимизации остаются ориентированными исключительно на текстовые домены, что приводит к неоптимальной производительности при применении к задачам мультимодального рассуждения. В частности, мы наблюдаем, что основной источник ошибок в текущих мультимодальных рассуждениях заключается в восприятии визуальных входных данных. Для устранения этого узкого места мы предлагаем Perception-Aware Policy Optimization (PAPO) — простое, но эффективное расширение GRPO, которое побуждает модель учиться восприятию одновременно с обучением рассуждению, полностью на основе внутренних сигналов контроля. Примечательно, что PAPO не полагается на дополнительную подготовку данных, внешние модели наград или проприетарные модели. В частности, мы вводим Implicit Perception Loss в виде члена расхождения KL в целевую функцию GRPO, что, несмотря на свою простоту, приводит к значительному общему улучшению (4,4%) на разнообразных мультимодальных тестах. Улучшения более выражены, приближаясь к 8,0%, на задачах с высокой зависимостью от зрения. Мы также наблюдаем существенное сокращение (30,5%) ошибок восприятия, что указывает на улучшенные перцептивные способности с PAPO. Мы проводим всесторонний анализ PAPO и выявляем уникальную проблему "взлома потерь", которую тщательно анализируем и смягчаем с помощью Double Entropy Loss. В целом, наша работа представляет более глубокую интеграцию контроля, учитывающего восприятие, в цели обучения RLVR и закладывает основу для новой структуры RL, которая способствует визуально обоснованному рассуждению. Страница проекта: https://mikewangwzhl.github.io/PAPO.
Крупные языковые модели (LLM) недавно достигли значительных успехов в тестах на генерацию кода, таких как HumanEval и LiveCodeBench. Однако детальный анализ показывает, что эти наборы для оценки часто содержат лишь ограниченное количество однородных тестовых случаев, что приводит к тому, что тонкие ошибки остаются незамеченными. Это не только искусственно завышает измеряемую производительность, но и подрывает точность оценки вознаграждения в рамках обучения с подкреплением, использующего проверяемые награды (RLVR). Чтобы устранить эти критические недостатки, мы систематически исследуем задачу генерации тестовых случаев (TCG), предлагая многомерные метрики, предназначенные для строгой количественной оценки полноты тестовых наборов. Кроме того, мы представляем метод совместной работы человека и LLM (SAGA), который объединяет экспертные знания в программировании с аналитическими способностями LLM, направленный на значительное улучшение как охвата, так и качества генерируемых тестовых случаев. Дополнительно мы разрабатываем TCGBench для облегчения изучения задачи TCG. Эксперименты показывают, что SAGA достигает уровня обнаружения 90,62% и точности верификатора 32,58% на TCGBench. Точность верификатора (Verifier Acc) для набора оценки генерации кода, синтезированного с помощью SAGA, на 10,78% выше, чем у LiveCodeBench-v6. Эти результаты демонстрируют эффективность предложенного метода. Мы надеемся, что эта работа внесет вклад в создание масштабируемой основы для надежной оценки кода с использованием LLM, дальнейшего продвижения RLVR в генерации кода и прокладывания пути к автоматизированному синтезу адверсарных тестов и адаптивной интеграции тестовых наборов.
Обучение с подкреплением на основе проверяемых наград (RLVR) улучшает способности крупных языковых моделей (LLM) к рассуждению, однако сталкивается с проблемой нестабильного исследования. Мы предлагаем FR3E (First Return, Entropy-Eliciting Explore) — структурированную систему исследования, которая выявляет точки принятия решений с высокой неопределённостью в траекториях рассуждений и выполняет целенаправленные прогоны для создания семантически обоснованной промежуточной обратной связи. Наш метод обеспечивает целенаправленное руководство без необходимости в плотном контроле. Экспериментальные результаты на тестах математического рассуждения (AIME24) показывают, что FR3E способствует более стабильному обучению, генерирует более длинные и связные ответы, а также увеличивает долю полностью корректных траекторий. Эти результаты подчеркивают эффективность предложенной системы в улучшении рассуждений LLM за счёт более устойчивого и структурированного исследования.
Трансформеры сталкиваются с квадратичной сложностью и проблемами памяти при работе с длинными последовательностями, что стимулирует использование механизмов линейного внимания с фиксированным размером скрытых состояний. Однако линейные модели часто демонстрируют ограниченную производительность в задачах запоминания, что приводит к созданию гибридных архитектур, сочетающих линейные и полные слои внимания. Несмотря на обширные исследования гибридных архитектур, выбор компонента линейного внимания не был глубоко изучен. Мы систематически оцениваем различные модели линейного внимания разных поколений — от векторных рекуррентных механизмов до продвинутых механизмов гейтирования — как в автономном режиме, так и в гибридных конфигурациях. Для проведения этого всестороннего анализа мы обучили и опубликовали 72 модели: 36 с 340 миллионами параметров (20 миллиардов токенов) и 36 с 1,3 миллиардами параметров (100 миллиардов токенов), охватывающих шесть вариантов линейного внимания и пять соотношений гибридизации. Тестирование на стандартных задачах языкового моделирования и запоминания показывает, что лучшие автономные линейные модели не обязательно превосходят в гибридных конфигурациях. Хотя языковое моделирование остается стабильным при различных соотношениях линейного и полного внимания, производительность в задачах запоминания значительно улучшается с увеличением количества полных слоев внимания, особенно при соотношении ниже 3:1. Наше исследование подчеркивает важность избирательного гейтирования, иерархической рекуррентности и контролируемого забывания для эффективных гибридных моделей. Мы рекомендуем архитектуры, такие как HGRN-2 или GatedDeltaNet, с соотношением линейного к полному вниманию от 3:1 до 6:1 для достижения уровня запоминания, сопоставимого с трансформерами, при эффективном использовании ресурсов. Наши модели опубликованы по адресу https://huggingface.co/collections/m-a-p/hybrid-linear-attention-research-686c488a63d609d2f20e2b1e.
Разработка ядер в глубоком обучении требует оптимизации вычислительных блоков с учетом аппаратного обеспечения, балансировки управления памятью, параллелизма и аппаратно-специфичных оптимизаций через обширную эмпирическую настройку. Хотя предметно-ориентированные языки, такие как Triton, упрощают программирование для GPU, абстрагируя низкоуровневые детали, разработчикам всё равно приходится вручную настраивать критические параметры, такие как размеры блоков и шаблоны доступа к памяти, через итеративное экспериментирование, что создает значительные барьеры для достижения оптимальной производительности и более широкого внедрения. В данной работе мы представляем AutoTriton — первую модель, предназначенную для программирования на Triton, основанную на обучении с подкреплением (RL). AutoTriton проходит этап контролируемого тонкого настроя (SFT), чтобы быть оснащенной необходимыми знаниями в программировании на Triton с использованием высококачественного конвейера сбора данных, и выполняет RL с алгоритмом Group Relative Policy Optimization (GRPO), комбинируя правило-ориентированное вознаграждение и вознаграждение на основе выполнения для дальнейшего улучшения способностей в программировании на Triton. Эксперименты на пяти оценочных каналах TritonBench и KernelBench показывают, что наша 8B-модель AutoTriton достигает производительности, сопоставимой с основными крупными моделями, включая Claude-4-Sonnet и DeepSeek-R1-0528. Дополнительный экспериментальный анализ демонстрирует ключевую роль каждого модуля в AutoTriton, включая этап SFT, этап RL и стратегию проектирования вознаграждений. Эти результаты подчеркивают перспективность RL для автоматической генерации высокопроизводительных ядер, и поскольку высокопроизводительные ядра являются ключевыми компонентами AI-систем, этот прорыв устанавливает важную основу для создания более эффективных AI-систем. Модель и код будут доступны по адресу https://github.com/AI9Stars/AutoTriton.
Автоматизированное доказательство теорем (ATP) в формальных языках представляет собой фундаментальную задачу для ИИ. Хотя крупные языковые модели (LLM) привели к значительному прогрессу, сохраняется существенный разрыв между их мощными возможностями неформального рассуждения и слабыми результатами в формальном доказательстве. Последние исследования показывают, что точность в неформальных задачах превышает 80%, в то время как успешность в формальных задачах остается ниже 8% на тестах, таких как PutnamBench. Мы утверждаем, что этот разрыв сохраняется, потому что современные системы доказательства, тесно связывая рассуждение и доказательство, обучаются с использованием парадигм, которые непреднамеренно наказывают глубокое рассуждение в пользу поверхностных, тактически-ориентированных стратегий. Чтобы преодолеть этот фундаментальный разрыв, мы предлагаем новую структуру, которая разделяет высокоуровневое рассуждение и низкоуровневую генерацию доказательств. Наш подход использует две специализированные модели: мощную, универсальную модель для генерации разнообразных стратегических лемм-подцелей и эффективную модель для их строгой проверки. Этот модульный подход раскрывает полный потенциал рассуждения модели и избегает недостатков сквозного обучения. Мы оцениваем наш метод на сложном наборе задач Международной математической олимпиады (IMO) после 2000 года, на котором ни одна из существующих открытых систем доказательства не сообщала об успехах. Наша разделенная структура успешно решает 5 из этих задач, демонстрируя значительный шаг к автоматизированному рассуждению на исключительно сложных математических задачах. Для поддержки будущих исследований мы публикуем полный набор данных сгенерированных и проверенных лемм для широкого спектра задач IMO, доступный по адресу https://tencent-imo.github.io/.
Быстрый прогресс в области мультимодальных больших языковых моделей (MLLM) открыл путь для парадигм "Видение-Язык-Действие" (VLA), которые интегрируют визуальное восприятие, понимание естественного языка и управление в рамках единой политики. Исследователи в области автономного вождения активно адаптируют эти методы к автомобильной сфере. Такие модели обещают создание автономных транспортных средств, способных интерпретировать высокоуровневые инструкции, анализировать сложные дорожные сцены и принимать самостоятельные решения. Однако литература остается фрагментированной и быстро расширяется. Данный обзор предлагает первое всестороннее рассмотрение VLA для автономного вождения (VLA4AD). Мы (i) формализуем архитектурные блоки, общие для последних работ, (ii) прослеживаем эволюцию от ранних моделей-объяснителей до моделей, ориентированных на рассуждения, и (iii) сравниваем более 20 репрезентативных моделей в соответствии с прогрессом VLA в области автономного вождения. Мы также консолидируем существующие наборы данных и бенчмарки, выделяя протоколы, которые совместно измеряют безопасность вождения, точность и качество объяснений. Наконец, мы подробно рассматриваем открытые проблемы — устойчивость, эффективность в реальном времени и формальную верификацию — и намечаем будущие направления развития VLA4AD. Этот обзор предоставляет краткое, но полное справочное руководство для продвижения интерпретируемых и социально ориентированных автономных транспортных средств. Репозиторий на Github доступен по адресу https://github.com/JohnsonJiang1996/Awesome-VLA4AD{SicongJiang/Awesome-VLA4AD}.
Определение молекулярной структуры по спектрам является фундаментальной задачей в химии, имеющей важное значение для идентификации соединений, их синтеза и разработки лекарств. Традиционные методы в значительной степени зависят от экспертной интерпретации и не обладают масштабируемостью. Пионерские методы машинного обучения предложили стратегии, основанные на поиске, но их зависимость от ограниченных библиотек ограничивает обобщение на новые молекулы. Генеративные модели представляют собой многообещающую альтернативу, однако большинство из них используют авторегрессивные архитектуры на основе SMILES, которые игнорируют трехмерную геометрию и испытывают трудности с интеграцией различных спектральных модальностей. В данной работе мы представляем DiffSpectra, генеративную структуру, которая напрямую выводит как 2D, так и 3D молекулярные структуры из мультимодальных спектральных данных с использованием диффузионных моделей. DiffSpectra формулирует задачу определения структуры как процесс условной генерации. Ее сеть для удаления шума параметризована Diffusion Molecule Transformer, SE(3)-эквивариантной архитектурой, которая интегрирует топологическую и геометрическую информацию. Условие задается SpecFormer, трансформерным спектральным кодировщиком, который учитывает внутри- и межспектральные зависимости в мультимодальных спектрах. Обширные эксперименты демонстрируют, что DiffSpectra достигает высокой точности в определении структуры, восстанавливая точные структуры с точностью 16.01% в топ-1 и 96.86% в топ-20 при использовании сэмплирования. Модель значительно выигрывает от трехмерного геометрического моделирования, предварительного обучения SpecFormer и мультимодального условного задания. Эти результаты подчеркивают эффективность диффузионного моделирования, обусловленного спектрами, в решении задачи определения молекулярной структуры. Насколько нам известно, DiffSpectra является первой структурой, объединяющей мультимодальное спектральное рассуждение и совместное генеративное моделирование 2D/3D для определения молекулярной структуры de novo.
Последние достижения в области языкового моделирования продемонстрировали эффективность моделей пространства состояний (State Space Models, SSMs) для эффективного моделирования последовательностей. Хотя гибридные архитектуры, такие как Samba и декодер-декодерная архитектура YOCO, показали многообещающие улучшения производительности по сравнению с трансформерами, предыдущие работы не исследовали потенциал повышения эффективности за счет совместного использования представлений между слоями SSM. В данной статье мы представляем Gated Memory Unit (GMU) — простой, но эффективный механизм для совместного использования памяти между слоями. Мы применяем его для создания SambaY, декодер-гибрид-декодерной архитектуры, которая включает GMU в кросс-декодер для совместного использования состояний чтения памяти из само-декодера на основе Samba. SambaY значительно повышает эффективность декодирования, сохраняет линейную временную сложность предварительного заполнения и улучшает производительность на длинных контекстах, при этом устраняя необходимость в явном позиционном кодировании. В ходе масштабных экспериментов мы демонстрируем, что наша модель показывает значительно меньшую необратимую потерю по сравнению с сильным базовым уровнем YOCO, что указывает на превосходную масштабируемость производительности в условиях крупномасштабных вычислений. Наша крупнейшая модель, улучшенная с помощью Differential Attention, Phi4-mini-Flash-Reasoning, демонстрирует значительно лучшую производительность, чем Phi4-mini-Reasoning, на задачах логического мышления, таких как Math500, AIME24/25 и GPQA Diamond, без какого-либо обучения с подкреплением, при этом обеспечивая до 10-кратное увеличение пропускной способности декодирования на промптах длиной 2K с длиной генерации 32K в рамках фреймворка вывода vLLM. Мы публикуем наш код для обучения на открытых данных по адресу https://github.com/microsoft/ArchScale.
Мы представляем FlexOlmo — новый класс языковых моделей (LM), который поддерживает (1) распределённое обучение без обмена данными, где различные параметры модели независимо обучаются на закрытых наборах данных, и (2) гибкий вывод, при котором эти параметры вместе с их связанными данными могут гибко включаться или исключаться из выводов модели без дополнительного обучения. FlexOlmo использует архитектуру смеси экспертов (MoE), где каждый эксперт обучается независимо на закрытых наборах данных, а затем интегрируется с помощью нового маршрутизатора, учитывающего домен, без совместного обучения. FlexOlmo обучается на FlexMix — корпусе, который мы создали, включающем общедоступные наборы данных вместе с семью домен-специфичными наборами, представляющими реалистичные приближения закрытых данных. Мы оцениваем модели с числом параметров до 37 миллиардов (20 миллиардов активных) на 31 разнообразной задаче. Мы показываем, что общий эксперт, обученный на общедоступных данных, может эффективно комбинироваться с независимо обученными экспертами от других владельцев данных, что приводит к среднему относительному улучшению на 41%, при этом позволяя пользователям отказываться от определённых данных на основе лицензионных или разрешительных требований. Наш подход также превосходит предыдущие методы объединения моделей в среднем на 10,1% и превосходит стандартную MoE, обученную без ограничений на данные, при одинаковых затратах на обучение в FLOPs. В целом, это исследование предлагает решение как для владельцев данных, так и для исследователей в регулируемых отраслях с конфиденциальными или защищёнными данными. FlexOlmo позволяет извлекать выгоду из закрытых данных, уважая предпочтения владельцев данных, сохраняя их данные локально и поддерживая детализированный контроль доступа к данным во время вывода.
Несмотря на прогресс в области видео-рассуждений на основе обучения с подкреплением (RL) с использованием больших языковых моделей (LLM), сбор данных и тонкая настройка остаются значительными проблемами. Эти методы часто полагаются на крупномасштабную контролируемую тонкую настройку (SFT) с обширными видеоданными и длинными аннотациями в виде цепочек рассуждений (CoT), что делает их дорогостоящими и сложными для масштабирования. Для решения этой проблемы мы представляем Video-RTS — новый подход, который улучшает способность к видео-рассуждениям с существенно повышенной эффективностью использования данных, сочетая ресурсоэффективное RL с адаптивной стратегией масштабирования на этапе тестирования (TTS), учитывающей особенности видео. Основываясь на наблюдениях за масштабированием данных RL-выборок, мы пропускаем ресурсоемкий этап SFT и применяем эффективное обучение на чистом RL с вознаграждениями, основанными на выходных данных, что не требует дополнительных аннотаций или обширной тонкой настройки. Кроме того, для более эффективного использования вычислительных ресурсов мы вводим стратегию TTS от разреженного к плотному видео, которая улучшает вывод, итеративно добавляя кадры на основе согласованности выходных данных. Мы проверяем наш подход на нескольких бенчмарках для видео-рассуждений, показывая, что Video-RTS превосходит существующие модели видео-рассуждений в среднем на 2,4% по точности, используя только 3,6% обучающих выборок. Например, Video-RTS достигает улучшения на 4,2% на Video-Holmes, недавнем и сложном бенчмарке для видео-рассуждений, и на 2,6% на MMVU. Примечательно, что наше чистое RL-обучение и адаптивное видео-TTS дополняют друг друга, обеспечивая высокую производительность Video-RTS в задачах рассуждений.
Рассуждения в условиях длинного контекста требуют точного выявления релевантной информации в обширных и зашумленных входных данных. Предыдущие исследования показывают, что использование обучения во время тестирования для непосредственного кодирования контекста в параметры модели может эффективно обеспечить рассуждения над зашумленной информацией. Однако мета-обучающие методы, позволяющие обучение во время тестирования, требуют чрезмерно больших объемов памяти, что делает их неприменимыми для работы с длинными контекстами. В данной работе мы предлагаем PERK (Parameter Efficient Reasoning over Knowledge), масштабируемый подход для обучения кодированию длинных входных контекстов с использованием градиентных обновлений легковесного адаптера модели во время тестирования. В частности, PERK использует два вложенных цикла оптимизации на этапе мета-обучения. Внутренний цикл быстро кодирует контексты в низкоранговый адаптер (LoRA), который служит параметрически эффективным модулем памяти для базовой модели. Одновременно внешний цикл обучается использовать обновленный адаптер для точного воспроизведения и рассуждения над релевантной информацией из закодированного длинного контекста. Наши оценки на нескольких задачах рассуждения в длинных контекстах показывают, что PERK значительно превосходит стандартный базовый подход, основанный на промптах, достигая среднего абсолютного прироста производительности до 90% для меньших моделей (GPT-2) и до 27% для нашей самой крупной оцениваемой модели, Qwen-2.5-0.5B. В целом, PERK демонстрирует большую устойчивость к сложности рассуждений, экстраполяции длины и расположению релевантной информации в контекстах. Наконец, мы показываем, что, хотя PERK требует значительных объемов памяти во время обучения, он масштабируется более эффективно на этапе вывода по сравнению с выводом на основе промптов в длинных контекстах.
Автоматическое обнаружение токсичного языка имеет решающее значение для создания безопасных и инклюзивных онлайн-пространств. Однако это крайне субъективная задача, поскольку восприятие токсичного языка формируется под влиянием норм сообщества и личного опыта. Существующие модели обнаружения токсичности обычно обучаются на аннотациях, которые сводят разнообразные точки зрения аннотаторов к единой "истине", стирая важные контекстные аспекты токсичности, такие как рекламируемый язык. Чтобы решить эту проблему, мы представляем MODELCITIZENS — набор данных, включающий 6,8 тыс. постов из социальных сетей и 40 тыс. аннотаций токсичности, охватывающих различные группы идентичности. Чтобы учесть влияние контекста общения на токсичность, что характерно для постов в социальных сетях, мы дополняем посты из MODELCITIZENS сценариями диалогов, сгенерированными с помощью языковых моделей (LLM). Современные инструменты обнаружения токсичности (например, OpenAI Moderation API, GPT-o4-mini) показывают низкую эффективность на данных MODELCITIZENS, с дальнейшим ухудшением на постах, дополненных контекстом. Наконец, мы выпускаем LLAMACITIZEN-8B и GEMMACITIZEN-12B — модели на основе LLaMA и Gemma, дообученные на данных MODELCITIZENS, которые превосходят GPT-o4-mini на 5,5% в рамках внутрираспределительных оценок. Наши результаты подчеркивают важность аннотирования и моделирования, учитывающего мнение сообщества, для инклюзивной модерации контента. Данные, модели и код доступны по адресу https://github.com/asuvarna31/modelcitizens.
Nova Premier — это самая мощная мультимодальная базовая модель Amazon и инструмент для дистилляции моделей. Она обрабатывает текст, изображения и видео с контекстным окном в один миллион токенов, что позволяет анализировать крупные кодовые базы, 400-страничные документы и 90-минутные видео в рамках одного запроса. Мы представляем первое всестороннее исследование критического профиля рисков Nova Premier в рамках Системы безопасности передовых моделей (Frontier Model Safety Framework). Оценка охватывает три высокорисковые области — химические, биологические, радиологические и ядерные угрозы (CBRN), наступательные кибероперации и автоматизированные исследования и разработки в области ИИ — и сочетает автоматизированные тесты, экспертные атаки "красной команды" и исследования повышения эффективности, чтобы определить, превышает ли модель пороговые значения для выпуска. Мы излагаем нашу методологию и сообщаем ключевые результаты. На основе этой оценки мы делаем вывод, что Nova Premier безопасна для публичного выпуска в соответствии с обязательствами, принятыми на Парижском саммите по безопасности ИИ в 2025 году. Мы продолжим совершенствовать наши процессы оценки безопасности и снижения рисков по мере выявления новых угроз и возможностей, связанных с передовыми моделями.
Исследования в области автономной хирургии в основном сосредоточены на автоматизации простых задач в контролируемых условиях. Однако реальные хирургические приложения требуют ловкого манипулирования в течение длительного времени и способности адаптироваться к присущей изменчивости человеческих тканей. Эти задачи остаются сложными для решения с использованием существующих логических или традиционных подходов сквозного обучения. Для устранения этого пробела мы предлагаем иерархическую структуру для выполнения ловких, долгосрочных хирургических шагов. Наш подход использует высокоуровневую политику для планирования задач и низкоуровневую политику для генерации траекторий робота. Высокоуровневый планировщик работает в языковом пространстве, создавая инструкции на уровне задач или корректирующие команды, которые направляют робота через долгосрочные шаги и исправляют ошибки низкоуровневой политики. Мы проверяем нашу структуру с помощью экспериментов ex vivo на холецистэктомии, широко применяемой минимально инвазивной процедуре, и проводим исследования по удалению компонентов для оценки ключевых элементов системы. Наш метод достигает 100\% успешности на восьми невидимых ex vivo желчных пузырях, работая полностью автономно без вмешательства человека. Эта работа демонстрирует автономность на уровне шагов в хирургической процедуре, что является важным шагом на пути к клиническому внедрению автономных хирургических систем.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) позволили реализовать возможности ответов на вопросы на основе изображений. Однако ключевым ограничением является использование CLIP в качестве визуального кодировщика; хотя он способен улавливать общую глобальную информацию, он часто пропускает детализированные данные, которые важны для входного запроса. Для устранения этих недостатков в данной работе исследуется возможность использования предварительно обученных диффузионных моделей "текст-изображение" в качестве визуальных кодировщиков, учитывающих инструкции. Анализируя их внутренние представления, мы обнаруживаем, что признаки диффузии богаты семантикой и способны кодировать сильное соответствие между изображением и текстом. Более того, мы выясняем, что можно использовать текстовое условие для фокусировки модели на областях, релевантных входному вопросу. Затем мы исследуем, как согласовать эти признаки с большими языковыми моделями, и обнаруживаем явление утечки, при котором LLM может непреднамеренно восстанавливать информацию из исходного диффузионного запроса. Мы анализируем причины этой утечки и предлагаем стратегию для её устранения. На основе этих наблюдений мы исследуем простую стратегию слияния, которая использует как признаки CLIP, так и условные диффузионные признаки. Мы оцениваем наш подход на общих тестах VQA и специализированных бенчмарках MLLM, демонстрируя потенциал диффузионных моделей для визуального понимания, особенно в задачах, ориентированных на зрение, которые требуют пространственного и композиционного мышления. Наш проект доступен по ссылке: https://vatsalag99.github.io/mustafar/.
Крупные языковые модели (LLM) и их классификаторы безопасности часто демонстрируют низкую производительность на языках с ограниченными ресурсами из-за недостатка обучающих данных и оценочных тестов. В данной статье представлен RabakBench — новый многоязычный тест безопасности, адаптированный к уникальному языковому контексту Сингапура, охватывающий сингапурский английский (Singlish), китайский, малайский и тамильский языки. RabakBench создан с использованием масштабируемого трехэтапного процесса: (i) Генерация — создание адверсарных примеров путем дополнения реального веб-контента на сингапурском английском с использованием LLM для "красного командования"; (ii) Разметка — полуавтоматическая многометочная аннотация безопасности с использованием классификаторов LLM, согласованных с человеческими суждениями на основе большинства голосов; и (iii) Перевод — высококачественный перевод, сохраняющий языковые нюансы и токсичность между языками. Итоговый набор данных включает более 5000 примеров с метками безопасности на четырех языках и шести детализированных категориях безопасности с уровнями серьезности. Оценка 11 популярных открытых и закрытых классификаторов безопасности выявила значительное снижение производительности. RabakBench не только позволяет проводить надежную оценку безопасности в многоязычных условиях Юго-Восточной Азии, но также предлагает воспроизводимую структуру для создания локализованных наборов данных безопасности в условиях ограниченных ресурсов. Тестовый набор данных, включая проверенные человеком переводы, и код для оценки доступны публично.
Распространение мультимодальных мемов в эпоху социальных сетей требует, чтобы мультимодальные большие языковые модели (mLLMs) эффективно понимали вредоносность мемов. Существующие бенчмарки для оценки mLLMs в понимании вредоносных мемов основываются на точности и модельно-независимых оценках с использованием статических наборов данных. Эти бенчмарки ограничены в своей способности предоставлять актуальные и всесторонние оценки, поскольку онлайн-мемы динамично эволюционируют. Для решения этой проблемы мы предлагаем AdamMeme, гибкую, агент-ориентированную структуру оценки, которая адаптивно исследует способности mLLMs к анализу вредоносности мемов. Благодаря многоагентному взаимодействию AdamMeme обеспечивает комплексные оценки, итеративно обновляя данные о мемах сложными образцами, тем самым выявляя конкретные ограничения в интерпретации вредоносности mLLMs. Масштабные эксперименты показывают, что наша структура систематически раскрывает варьирующуюся производительность различных целевых mLLMs, предлагая глубокий, детализированный анализ слабых мест, специфичных для каждой модели. Наш код доступен по адресу https://github.com/Lbotirx/AdamMeme.