Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Qwen-Image, базовую модель генерации изображений из серии Qwen, которая достигает значительных успехов в сложном рендеринге текста и точном редактировании изображений. Для решения задач сложного рендеринга текста мы разработали комплексный конвейер данных, включающий масштабный сбор данных, фильтрацию, аннотирование, синтез и балансировку. Кроме того, мы применяем прогрессивную стратегию обучения, которая начинается с рендеринга без текста, переходит от простых к сложным текстовым вводам и постепенно масштабируется до описаний на уровне абзацев. Такой подход обучения по учебному плану существенно улучшает встроенные возможности модели по рендерингу текста. В результате Qwen-Image не только демонстрирует выдающиеся результаты в алфавитных языках, таких как английский, но и достигает значительного прогресса в более сложных логографических языках, таких как китайский. Для повышения согласованности редактирования изображений мы вводим улучшенную парадигму многозадачного обучения, которая включает не только традиционные задачи текст-в-изображение (T2I) и текст-изображение-в-изображение (TI2I), но и реконструкцию изображение-в-изображение (I2I), эффективно выравнивая латентные представления между Qwen2.5-VL и MMDiT. Кроме того, мы отдельно подаем исходное изображение в Qwen2.5-VL и кодировщик VAE для получения семантических и реконструктивных представлений соответственно. Этот механизм двойного кодирования позволяет модулю редактирования находить баланс между сохранением семантической согласованности и поддержанием визуальной точности. Qwen-Image демонстрирует передовые результаты, подтверждая свои сильные возможности в генерации и редактировании изображений на множестве бенчмарков.
Генерация с использованием извлечения информации (RAG) для длинных документов обычно предполагает разделение текста на более мелкие фрагменты, которые служат базовыми единицами для извлечения. Однако из-за зависимостей в исходном документе контекстная информация часто оказывается необходимой для точной интерпретации каждого фрагмента. Для решения этой проблемы в предыдущих работах исследовалось кодирование более длинных контекстных окон для создания эмбеддингов для более крупных фрагментов. Несмотря на эти усилия, улучшения в извлечении и последующих задачах остаются ограниченными. Это связано с тем, что (1) более длинные фрагменты перегружают возможности моделей эмбеддингов из-за увеличения объема информации, которую они должны кодировать, и (2) многие реальные приложения по-прежнему требуют возвращения локализованных доказательств из-за ограничений на пропускную способность модели или человека. Мы предлагаем альтернативный подход к решению этой проблемы, представляя короткие фрагменты таким образом, чтобы они учитывали более широкое контекстное окно для повышения производительности извлечения — то есть, помещая значение фрагмента в его контекст. Мы также показываем, что существующие модели эмбеддингов недостаточно хорошо справляются с эффективным кодированием такого контекста, и поэтому вводим новую парадигму обучения и разрабатываем модели контекстуализированных эмбеддингов (SitEmb). Для оценки нашего метода мы создаем набор данных для извлечения сюжетов книг, специально разработанный для оценки возможностей контекстуализированного извлечения. На этом эталонном тесте наша модель SitEmb-v1, основанная на BGE-M3, значительно превосходит современные модели эмбеддингов, включая несколько моделей с 7–8 миллиардами параметров, имея всего 1 миллиард параметров. Наша модель SitEmb-v1.5 с 8 миллиардами параметров дополнительно улучшает производительность более чем на 10% и демонстрирует сильные результаты на разных языках и в нескольких последующих приложениях.
Моделирование виртуальных клеток представляет собой новую область на стыке искусственного интеллекта и биологии, направленную на количественное предсказание таких параметров, как реакции на различные возмущения. Однако автономное построение вычислительных моделей для виртуальных клеток является сложной задачей из-за сложности биологических систем, неоднородности типов данных и необходимости междисциплинарных знаний. В данной работе мы представляем CellForge — агентную систему, которая использует многоагентный фреймворк для преобразования предоставленных биологических данных и исследовательских задач непосредственно в оптимизированные вычислительные модели виртуальных клеток. В частности, получая на вход только сырые одноклеточные мультиомные данные и описания задач, CellForge выдает как оптимизированную архитектуру модели, так и исполняемый код для обучения моделей виртуальных клеток и их применения. Фреймворк интегрирует три основных модуля: анализ задач для характеристики предоставленных данных и поиска релевантной литературы, проектирование методов, где специализированные агенты совместно разрабатывают оптимизированные стратегии моделирования, и выполнение экспериментов для автоматической генерации кода. Агенты в модуле проектирования разделены на экспертов с различными подходами и центрального модератора, которые совместно обмениваются решениями до достижения разумного консенсуса. Мы демонстрируем возможности CellForge в предсказании одноклеточных возмущений, используя шесть различных наборов данных, включающих нокауты генов, обработку лекарствами и стимуляции цитокинами в различных модальностях. CellForge стабильно превосходит специализированные современные методы. В целом, CellForge демонстрирует, как итеративное взаимодействие между агентами с различными подходами позволяет находить более эффективные решения по сравнению с прямым решением задачи моделирования. Наш код доступен по адресу https://github.com/gersteinlab/CellForge.
Модели рассуждений демонстрируют выдающиеся результаты в решении сложных задач, однако между их способностью к рассуждению и следованию инструкциям наблюдается тревожный компромисс. Существующие подходы к улучшению следования инструкциям опираются на более мощные внешние модели, что создает методологические узкие места и практические ограничения, включая увеличение затрат и ограничения доступности. Мы предлагаем самообучаемую RL-структуру, которая использует внутренние сигналы самих моделей рассуждений для улучшения их способности следовать инструкциям без внешнего контроля. Многочисленные эксперименты показывают, что наша структура значительно улучшает способность следовать инструкциям, сохраняя при этом производительность в рассуждениях, предлагая масштабируемый и экономически эффективный подход к улучшению этой способности в моделях рассуждений. Данные и код доступны публично по адресу https://github.com/Rainier-rq/verl-if.
Крупные языковые модели (LLM) продемонстрировали впечатляющие успехи во многих областях, однако их интеграция в приложения кибербезопасности остается ограниченной из-за недостатка универсальных данных по кибербезопасности, сложности представления, а также проблем безопасности и регулирования. Для устранения этого пробела мы ранее представили Foundation-Sec-8B — языковую модель, ориентированную на кибербезопасность и подходящую для тонкой настройки на последующих задачах. Однако эта модель не была предназначена для чат-взаимодействий или выполнения инструкций. В данном отчете мы представляем Foundation-Sec-8B-Instruct: модель, специально обученную для универсального диалога в области кибербезопасности. Построенная на основе Foundation-Sec-8B, она сочетает в себе предметные знания, способность следовать инструкциям, навыки ведения диалога и соответствие человеческим предпочтениям для создания высококачественных и релевантных ответов. Комплексные оценки показывают, что Foundation-Sec-8B-Instruct превосходит Llama 3.1-8B-Instruct в ряде задач по кибербезопасности, одновременно соответствуя её производительности в выполнении инструкций. Она также конкурентоспособна с GPT-4o-mini в задачах анализа киберугроз и выполнения инструкций. Мы предполагаем, что Foundation-Sec-8B-Instruct станет незаменимым помощником в повседневной работе специалистов по кибербезопасности. Модель доступна публично по адресу https://huggingface.co/fdtn-ai/Foundation-Sec-8B-Instruct.
Большинство человеческих белков остаются неиспользованными в качестве мишеней для лекарств — более 96% человеческих белков не задействованы в одобренных терапевтических средствах. Хотя виртуальный скрининг на основе структуры обещает расширить доступный для воздействия протеом, существующие методы не обладают атомарной точностью и не способны предсказывать сродство связывания, что ограничивает их практическую применимость. Мы представляем AuroBind — масштабируемую платформу для виртуального скрининга, которая дорабатывает специализированную атомарную структурную модель на основе миллионов данных хемогеномики. AuroBind объединяет оптимизацию прямых предпочтений, самообучение на основе высокодостоверных комплексов и стратегию ускорения "учитель-ученик" для совместного предсказания структур лиганд-белковых комплексов и их сродства связывания. Предложенные модели превосходят современные подходы на структурных и функциональных тестах, обеспечивая при этом 100 000-кратное ускорение скрининга в ультрабольших библиотеках соединений. В проспективном скрининге по десяти мишеням, связанным с заболеваниями, AuroBind достиг экспериментальных показателей успешности от 7 до 69%, при этом лучшие соединения демонстрировали субнаномолярную и пикомолярную активность. Для орфанных GPCR GPR151 и GPR160 AuroBind идентифицировал как агонисты, так и антагонисты с успешностью 16-30%, а функциональные тесты подтвердили модуляцию GPR160 в моделях рака печени и простаты. AuroBind предлагает универсальную платформу для изучения структуры и функции, а также высокопроизводительного молекулярного скрининга, устраняя разрыв между предсказанием структуры и открытием терапевтических средств.
Недавние достижения в области больших языковых моделей (LLM) привели к впечатляющему прогрессу в омни-модальном понимании и генерации. Однако обучение омни-модальных LLM остается значительной проблемой из-за необходимости использования гетерогенных архитектур моделей для обработки различных модальностей, что требует сложного проектирования систем для эффективного масштабного обучения. Существующие фреймворки обычно связывают определение модели с параллельной логикой, что приводит к ограниченной масштабируемости и значительным инженерным затратам для сквозного омни-модального обучения. Мы представляем \veomni, модульный и эффективный фреймворк для ускорения разработки омни-модальных LLM. \veomni предлагает модель-центрированные распределенные рецепты, которые разделяют коммуникацию и вычисления, обеспечивая эффективную 3D-параллельность для омни-модальных LLM. \veomni также включает гибкий интерфейс конфигурации, поддерживающий бесшовную интеграцию новых модальностей с минимальными изменениями кода. С использованием \veomni, омни-модальная модель смеси экспертов (MoE) с 30 миллиардами параметров может быть обучена с пропускной способностью более 2800 токенов/сек/GPU и масштабирована до контекстных длин в 160K токенов с помощью 3D-параллельности на 128 GPU, демонстрируя превосходную эффективность и масштабируемость для обучения крупных омни-модальных LLM.
Для эффективного функционирования в реальном мире роботы должны интегрировать мультимодальное рассуждение с точным генерацией действий. Однако существующие модели "зрение-язык-действие" (VLA) часто жертвуют одним ради другого, ограничивают свои возможности данными, специфичными для конкретных задач манипуляции, и страдают от катастрофического забывания предварительно обученных возможностей в области зрения и языка. Чтобы преодолеть этот разрыв, мы представляем InstructVLA, сквозную модель VLA, которая сохраняет гибкое рассуждение крупных моделей "зрение-язык" (VLM) и при этом демонстрирует ведущую производительность в манипуляции. InstructVLA вводит новую парадигму обучения — настройку инструкций "зрение-язык-действие" (VLA-IT), которая использует мультимодальное обучение с адаптацией на основе смеси экспертов для совместной оптимизации текстового рассуждения и генерации действий как на стандартных корпусах VLM, так и на специально подготовленном наборе данных VLA-IT из 650 тысяч образцов. На задачах в области SimplerEnv InstructVLA достигает улучшения на 30,5% по сравнению с SpatialVLA. Для оценки обобщения мы представляем SimplerEnv-Instruct, бенчмарк из 80 задач, требующих замкнутого управления и понимания высокоуровневых инструкций, где InstructVLA превосходит тонко настроенную OpenVLA на 92% и эксперта по действиям, поддерживаемого GPT-4o, на 29%. Кроме того, InstructVLA превосходит базовые модели VLM на мультимодальных задачах и демонстрирует масштабирование на этапе вывода, используя текстовое рассуждение для повышения производительности манипуляции как в симулированных, так и в реальных условиях. Эти результаты демонстрируют потенциал InstructVLA для объединения интуитивного и управляемого взаимодействия человека и робота с эффективным обучением политик.
Крупномасштабные наборы данных являются основой для исследований и разработок в области обработки естественного языка. Однако современные подходы сталкиваются с тремя ключевыми проблемами: (1) зависимость от источников с неоднозначными лицензиями, что ограничивает использование, распространение и создание производных работ; (2) статичные выпуски наборов данных, которые препятствуют вкладу сообщества и снижают долговечность; (3) процессы обеспечения качества, ограниченные командами публикации, вместо использования экспертизы сообщества. Для решения этих ограничений мы представляем два вклада: подход Dynaword и Danish Dynaword. Подход Dynaword — это фреймворк для создания крупномасштабных открытых наборов данных, которые могут непрерывно обновляться благодаря сотрудничеству сообщества. Danish Dynaword — это конкретная реализация, которая подтверждает эффективность этого подхода и демонстрирует его потенциал. Danish Dynaword содержит более чем в четыре раза больше токенов по сравнению с аналогичными выпусками, полностью открыто лицензирован и получил множество вкладов как от промышленности, так и от исследователей. Репозиторий включает легковесные тесты для обеспечения правильного форматирования данных, их качества и документации, создавая устойчивую основу для постоянного вклада сообщества и эволюции набора данных.
Сжатие визуальных токенов имеет решающее значение для крупных визуально-языковых моделей (LVLMs), чтобы эффективно обрабатывать входные данные с высоким разрешением. Существующие методы, которые обычно используют фиксированные коэффициенты сжатия, не могут адаптироваться к сценам различной сложности, что часто приводит к неточному удалению токенов, при котором отбрасываются информативные визуальные токены и ухудшается производительность модели. Для решения этой проблемы мы представляем динамическую структуру удаления токенов, GlimpsePrune, вдохновленную человеческим познанием. Она использует основанный на данных «взгляд» и удаляет нерелевантные визуальные токены за один прямой проход перед генерацией ответа. Этот подход удаляет 92,6% визуальных токенов, при этом в среднем полностью сохраняя базовую производительность на задачах свободного визуального вопроса-ответа (VQA). Снижение вычислительных затрат также позволяет более эффективно проводить тонкую настройку: улучшенная версия GlimpsePrune+ достигает 110% базовой производительности при сохранении столь же высокой степени удаления токенов. Наша работа открывает новый путь для создания более мощных и эффективных LVLMs.
Диффузионные большие языковые модели (dLLMs) открывают новые горизонты в области логического вывода и параллельного декодирования, однако сталкиваются с неприемлемо высокой квадратичной вычислительной сложностью и значительными затратами памяти на этапе вывода. Современные методы кэширования ускоряют декодирование за счет хранения состояний всех слоев, но требуют существенных объемов памяти, что ограничивает их применение в задачах с длинным контекстом. Наш анализ паттернов внимания в dLLMs выявил устойчивую разреженность между слоями, при которой ключевые токены остаются значимыми на протяжении шагов декодирования, а малозначимые токены сохраняют низкую релевантность, что мотивирует избирательное удаление из кэша. Мы предлагаем Sparse-dLLM — первую не требующую обучения платформу, которая интегрирует динамическое удаление из кэша с разреженным вниманием через отложенное двунаправленное разреженное кэширование. Используя устойчивость значимости токенов на протяжении шагов, она сохраняет критически важные токены и динамически удаляет малозначимые префиксные и суффиксные записи с помощью стратегии, управляемой вниманием. Масштабные эксперименты на моделях серий LLaDA и Dream демонстрируют, что Sparse-dLLM достигает до 10-кратного увеличения пропускной способности по сравнению с базовыми dLLMs при сопоставимой производительности и аналогичных пиковых затратах памяти, превосходя предыдущие методы по эффективности и результативности.
Мы представляем Voxlect, новый эталонный набор данных для моделирования диалектов и региональных языков по всему миру с использованием базовых моделей обработки речи. В частности, мы проводим всестороннюю оценку производительности на диалектах и региональных языковых вариантах английского, арабского, китайского (мандарин и кантонский), тибетского, индийских языков, тайского, испанского, французского, немецкого, бразильского португальского и итальянского. В нашем исследовании использовано более 2 миллионов обучающих высказываний из 30 общедоступных речевых корпусов, снабженных диалектной информацией. Мы оцениваем производительность нескольких широко используемых базовых моделей обработки речи в классификации речевых диалектов. Мы проверяем устойчивость диалектных моделей в условиях шума и представляем анализ ошибок, который подчеркивает результаты моделирования, соответствующие географической непрерывности. Помимо оценки классификации диалектов, мы демонстрируем несколько прикладных задач, которые становятся возможными благодаря Voxlect. В частности, мы показываем, что Voxlect может быть использован для дополнения существующих наборов данных для распознавания речи диалектной информацией, что позволяет проводить более детальный анализ производительности ASR в зависимости от диалектных вариаций. Voxlect также используется как инструмент для оценки производительности систем генерации речи. Voxlect доступен публично под лицензией семейства RAIL по адресу: https://github.com/tiantiaf0627/voxlect.
Атрибуция произведений искусства в целом и картин в частности всегда была сложной задачей в искусстве. Появление мощных моделей искусственного интеллекта, способных генерировать и анализировать изображения, создает новые вызовы для атрибуции картин. С одной стороны, модели ИИ могут создавать изображения, имитирующие стиль художника, которые могут быть ошибочно приписаны, например, другими моделями ИИ. С другой стороны, модели ИИ могут неверно определять автора реальных картин, что приводит к ошибочной атрибуции со стороны пользователей. В данной статье обе проблемы исследуются экспериментально с использованием современных моделей ИИ для генерации и анализа изображений на большом наборе данных, содержащем около 40 000 картин 128 художников. Результаты показывают, что модели обработки визуальной информации и языка (VLMs) обладают ограниченными возможностями в: 1) выполнении атрибуции картин и 2) идентификации изображений, созданных ИИ. Поскольку пользователи все чаще полагаются на запросы к моделям ИИ для получения информации, эти результаты демонстрируют необходимость улучшения возможностей VLMs для надежного выполнения атрибуции художников и обнаружения изображений, созданных ИИ, чтобы предотвратить распространение неверной информации.
Модели диффузии для генерации изображений из текста произвели революцию в создании визуального контента, однако существующие механизмы безопасности применяют универсальные стандарты, которые часто не учитывают индивидуальные предпочтения пользователей. Эти модели игнорируют разнообразные границы безопасности, формируемые такими факторами, как возраст, психическое здоровье и личные убеждения. Для решения этой проблемы мы предлагаем персонализированное согласование безопасности (Personalized Safety Alignment, PSA) — фреймворк, который позволяет пользователям контролировать поведение моделей генерации в соответствии с их индивидуальными предпочтениями. PSA интегрирует персонализированные профили пользователей в процесс диффузии, адаптируя поведение модели к индивидуальным предпочтениям безопасности, сохраняя при этом качество изображений. Мы представляем новый набор данных Sage, который фиксирует индивидуальные предпочтения пользователей в области безопасности и включает эти профили через механизм кросс-внимания. Эксперименты показывают, что PSA превосходит существующие методы в подавлении вредоносного контента и лучше согласует генерируемый контент с ограничениями пользователей, достигая более высоких показателей Win Rate и Pass Rate. Наш код, данные и модели доступны по адресу https://torpedo2648.github.io/PSAlign/.
Мы представляем RoboMemory — вдохновленную мозгом многомодульную систему памяти для непрерывного обучения в физических воплощенных системах, решающую ключевые задачи в реальных условиях: непрерывное обучение, задержки в работе многомодульной памяти, захват корреляций между задачами и предотвращение бесконечных циклов в замкнутом планировании. Основанная на когнитивной нейронауке, система интегрирует четыре основных модуля: Предобработчик информации (таламусоподобный), Система непрерывной воплощенной памяти (гиппокампоподобная), Модуль замкнутого планирования (префронтальная доля) и Низкоуровневый исполнитель (мозжечкоподобный) для обеспечения долгосрочного планирования и накопительного обучения. Система непрерывной воплощенной памяти, являющаяся центральным элементом фреймворка, устраняет проблемы скорости вывода в сложных системах памяти за счет параллелизированных обновлений и извлечения данных в пространственных, временных, эпизодических и семантических подмодулях. Она включает динамический Граф знаний (Knowledge Graph, KG) и единообразный архитектурный дизайн для повышения согласованности и масштабируемости памяти. Оценки на EmbodiedBench показывают, что RoboMemory превосходит открытый базовый уровень (Qwen2.5-VL-72B-Ins) на 25% по средней успешности и опережает закрытый State-of-the-Art (SOTA) (Claude3.5-Sonnet) на 5%, устанавливая новый SOTA. Абляционные исследования подтверждают важность ключевых компонентов (критика, пространственной памяти, долговременной памяти), а реальное развертывание подтверждает способность к непрерывному обучению с существенным улучшением успешности при повторяющихся задачах. RoboMemory решает проблемы высокой задержки с учетом масштабируемости, служа фундаментальным ориентиром для интеграции многомодальных систем памяти в физических роботах.
Крупные языковые модели (LLM) достигли значительных успехов в задачах программной инженерии при обучении с использованием исполняемых сред выполнения, особенно в решении проблем на GitHub. Однако такие среды выполнения часто недоступны в других областях, особенно в кибербезопасности, где конфигурации задач и контексты выполнения являются временными или ограниченными. Мы представляем Cyber-Zero — первую среду без среды выполнения для синтеза высококачественных траекторий агентов с целью обучения LLM в области кибербезопасности. Cyber-Zero использует публично доступные отчеты о CTF (Capture The Flag) и применяет симуляцию на основе персонажей с использованием LLM для обратного проектирования поведения среды выполнения и генерации реалистичных, долгосрочных последовательностей взаимодействий без реальных сред. Используя траектории, синтезированные Cyber-Zero, мы обучаем агентов на основе LLM, которые демонстрируют абсолютное улучшение производительности до 13,1% по сравнению с базовыми моделями на трех известных CTF-бенчмарках: InterCode-CTF, NYU CTF Bench и Cybench. Наша лучшая модель, Cyber-Zero-32B, устанавливает новый уровень производительности среди моделей с открытыми весами, сопоставимый с возможностями проприетарных систем, таких как DeepSeek-V3-0324 и Claude-3.5-Sonnet, при этом предлагая превосходную экономическую эффективность и демонстрируя, что синтез траекторий без среды выполнения может эффективно демократизировать разработку передовых агентов в области кибербезопасности.
Последние достижения в области плотного 3D-реконструирования привели к значительному прогрессу, однако достижение точного унифицированного геометрического предсказания остается серьезной проблемой. Большинство существующих методов ограничиваются предсказанием одной геометрической величины на основе входных изображений. Однако такие геометрические величины, как глубина, нормали поверхности и карты точек, по своей природе взаимосвязаны, и их изолированное оценивание часто не обеспечивает согласованности, что ограничивает как точность, так и практическую применимость. Это мотивирует нас исследовать унифицированную структуру, которая явно моделирует структурную связь между различными геометрическими свойствами для совместного регрессионного анализа. В данной статье мы представляем Dens3R — базовую модель для 3D, предназначенную для совместного плотного геометрического предсказания и адаптируемую к широкому спектру последующих задач. Dens3R использует двухэтапную структуру обучения для постепенного построения представления карты точек, которое является как обобщаемым, так и внутренне инвариантным. В частности, мы разрабатываем легковесный общий кодировщик-декодировщик и вводим позиционно-интерполированное ротационное позиционное кодирование для сохранения выразительной мощности при повышении устойчивости к высокоразрешающим входным данным. Интегрируя функции сопоставления пар изображений с моделированием внутренней инвариантности, Dens3R точно регрессирует несколько геометрических величин, таких как нормали поверхности и глубина, достигая согласованного восприятия геометрии от однокадровых до многокадровых входных данных. Кроме того, мы предлагаем постобрабатывающий конвейер, поддерживающий геометрически согласованный многокадровый вывод. Многочисленные эксперименты демонстрируют превосходную производительность Dens3R в различных задачах плотного 3D-предсказания и подчеркивают его потенциал для более широкого применения.
Обеспечение достаточного исследования является ключевой задачей при обучении мета-агентов с подкреплением (meta-RL) для решения новых сред. Традиционные подходы к дилемме исследования-эксплуатации включают явные стимулы, такие как рандомизация, бонусы за неопределенность или внутренние вознаграждения, чтобы стимулировать исследование. В данной работе мы выдвигаем гипотезу, что агент, обученный исключительно для максимизации жадного (ориентированного только на эксплуатацию) целевого показателя, тем не менее может демонстрировать возникающее исследовательское поведение при соблюдении трех условий: (1) Повторяющаяся структура среды, где среда обладает повторяемыми закономерностями, позволяющими использовать прошлый опыт для принятия будущих решений; (2) Память агента, позволяющая агенту сохранять и использовать данные о прошлых взаимодействиях; и (3) Долгосрочное распределение заслуг, где обучение распространяет вознаграждения на временной горизонт, достаточный для того, чтобы отложенные выгоды исследования влияли на текущие решения. В экспериментах со стохастическими многорукими бандитами и протяженными во времени сеточными мирами мы наблюдаем, что при наличии как структуры, так и памяти политика, обученная на строго жадном целевом показателе, демонстрирует информационно-ориентированное исследовательское поведение. Мы также показываем с помощью контролируемых абляций, что возникающее исследование исчезает, если отсутствует либо структура среды, либо память агента (Условия 1 и 2). Удивительно, что удаление долгосрочного распределения заслуг (Условие 3) не всегда предотвращает возникающее исследование — результат, который мы связываем с эффектом псевдо-Томпсоновского сэмплирования. Эти результаты свидетельствуют о том, что при соблюдении определенных предпосылок исследование и эксплуатация не обязательно должны рассматриваться как ортогональные цели, а могут возникать из единого процесса максимизации вознаграждения.
Масштабирование во время тестирования (Test-Time Scaling, TTS) повышает производительность больших языковых моделей (LLM) за счет выделения дополнительных вычислительных ресурсов на этапе вывода. Однако существующие исследования в основном сосредоточены на TTS в одноэтапных задачах, тогда как многие реальные проблемы представляют собой многоэтапные сложные задачи, состоящие из последовательности разнородных подзадач, каждая из которых требует LLM с определенными возможностями. Поэтому мы изучаем новую проблему: оптимальное распределение вычислительных ресурсов во время тестирования в многоэтапных сложных задачах, направленное на выбор подходящих моделей и распределение бюджета для каждой подзадачи с целью максимизации общей производительности. TTS в многоэтапных задачах ставит два фундаментальных вызова: (i) Комбинаторное пространство поиска для распределения моделей и бюджета, в сочетании с высокой стоимостью вывода, делает полный перебор непрактичным. (ii) Оптимальное распределение моделей и бюджета между подзадачами взаимозависимо, что увеличивает сложность поиска оптимальных вычислительных решений. Для решения этой проблемы мы провели обширные пилотные эксперименты на четырех задачах с использованием шести наборов данных, получив три эмпирических инсайта, характеризующих поведение LLM в многоэтапных сложных задачах. На основе этих инсайтов мы предлагаем AgentTTS — фреймворк на основе LLM-агентов, который автономно ищет оптимальные распределения вычислительных ресурсов через итеративное взаимодействие с исполняемой средой, основанное на обратной связи. Результаты экспериментов показывают, что AgentTTS значительно превосходит традиционные и другие LLM-ориентированные подходы по эффективности поиска, а также демонстрирует повышенную устойчивость к изменению размеров обучающих наборов и улучшенную интерпретируемость.
В крупных языковых моделях потребность в моделировании длинных контекстов постоянно растет, однако квадратичная сложность стандартного механизма самовнимания часто становится узким местом. Хотя существующие разреженные механизмы внимания повысили эффективность, они все еще могут сталкиваться с проблемами, такими как статические паттерны или потеря информации. Мы представляем обучаемый механизм разреженного внимания с динамической маской, Dynamic Mask Attention (DMA), который эффективно использует разреженность, учитывающую содержание и позицию. DMA достигает этого благодаря двум ключевым инновациям: во-первых, он динамически генерирует разреженные маски, учитывающие содержание, на основе представлений значений, что позволяет модели адаптивно выявлять и фокусироваться на критически важной информации. Во-вторых, он реализует вычисление разреженного внимания, учитывающего позицию, что эффективно пропускает ненужные области вычислений. Этот двойной подход к разреженности позволяет модели значительно снизить вычислительную сложность для важной информации, сохраняя при этом полную информацию, достигая отличного баланса между точностью информации и вычислительной эффективностью. Мы проверили производительность DMA с помощью всесторонних экспериментов. Сравнительные исследования показывают, что DMA превосходит многоголовое внимание, скользящее окно внимания, многоголовое латентное внимание и нативное разреженное внимание по показателю перплексии в условиях Chinchilla Scaling Law. Более того, в сложных задачах ассоциативного поиска с множественными запросами DMA также демонстрирует превосходную производительность и эффективность по сравнению с этими методами. Важно отметить, что в оценке модели с 1,7 миллиардами параметров DMA значительно превосходит многоголовое внимание как в стандартных тестах производительности, так и в сложной задаче "иголка в стоге сена". Эти экспериментальные результаты подчеркивают его способность эффективно балансировать между эффективностью модели и способностью к моделированию длинных контекстов.
Генерация движения из текста (Text-to-Motion, T2M) направлена на синтез реалистичных и семантически согласованных последовательностей движений человека на основе описаний на естественном языке. Однако современные подходы сталкиваются с двумя основными проблемами: генеративные модели (например, диффузионные модели) страдают от ограниченного разнообразия, накопления ошибок и физической неправдоподобности, тогда как методы генерации с использованием поиска (Retrieval-Augmented Generation, RAG) демонстрируют инерцию диффузии, частичный коллапс мод и асинхронные артефакты. Для преодоления этих ограничений мы предлагаем ReMoMask — унифицированную структуру, объединяющую три ключевых инновации: 1) Двунаправленная модель текста и движения с использованием импульса (Bidirectional Momentum Text-Motion Model) разделяет масштаб отрицательных выборок и размер пакета с помощью очередей импульса, значительно повышая точность кросс-модального поиска; 2) Механизм семантического пространственно-временного внимания (Semantic Spatio-temporal Attention) накладывает биомеханические ограничения на уровне слияния частей для устранения асинхронных артефактов; 3) Гибридный подход RAG-Classier-Free Guidance включает незначительную безусловную генерацию для улучшения обобщения. Основанный на RVQ-VAE модели MoMask, ReMoMask эффективно генерирует временно согласованные движения за минимальное количество шагов. Эксперименты на стандартных тестовых наборах демонстрируют передовые результаты ReMoMask, показывая улучшение показателей FID на 3,88% и 10,97% на наборах данных HumanML3D и KIT-ML соответственно по сравнению с предыдущим методом RAG-T2M. Код: https://github.com/AIGeeksGroup/ReMoMask. Сайт: https://aigeeksgroup.github.io/ReMoMask.
Квантовые машины опорных векторов сталкиваются с проблемами масштабируемости из-за высокоразмерных квантовых состояний и ограничений аппаратного обеспечения. Мы предлагаем квантово-классический конвейер, учитывающий встраивание, который сочетает сбалансированную по классам дистилляцию методом k-средних с предварительно обученными вложениями Vision Transformer. Наше ключевое открытие: вложения ViT уникальным образом обеспечивают квантовое преимущество, достигая улучшения точности до 8,02% по сравнению с классическими машинами опорных векторов на Fashion-MNIST и 4,42% на MNIST, в то время как признаки CNN демонстрируют снижение производительности. Используя 16-кубитное моделирование тензорных сетей через cuTensorNet, мы впервые предоставляем систематические доказательства того, что квантовое преимущество ядра критически зависит от выбора вложения, раскрывая фундаментальную синергию между механизмом внимания трансформеров и квантовыми пространствами признаков. Это открывает практический путь для масштабируемого квантового машинного обучения, использующего современные нейронные архитектуры.
Богатый лингвистический ландшафт арабского мира характеризуется значительным разрывом между современным стандартным арабским языком (MSA), используемым в формальном общении, и разнообразными региональными диалектами, применяемыми в повседневной жизни. Эта диглоссия представляет собой серьезную проблему для обработки естественного языка, особенно для машинного перевода. В данной статье представлена система SHAMI-MT, двунаправленная система машинного перевода, специально разработанная для преодоления коммуникационного разрыва между MSA и сирийским диалектом. Мы представляем две специализированные модели: одну для перевода с MSA на сирийский диалект и другую для перевода с сирийского диалекта на MSA, обе построенные на основе передовой архитектуры AraT5v2-base-1024. Модели были дообучены на обширном наборе данных Nabra и тщательно протестированы на неизвестных данных из корпуса MADAR. Наша модель MSA-to-Shami достигла выдающегося среднего балла качества 4.01 из 5.0 по оценке модели GPT-4.1 от OPENAI, демонстрируя свою способность создавать переводы, которые не только точны, но и аутентичны с точки зрения диалекта. Эта работа предоставляет важный инструмент высокой точности для ранее недостаточно охваченной языковой пары, продвигая область перевода диалектного арабского языка и предлагая значительные приложения в локализации контента, сохранении культурного наследия и межкультурной коммуникации.
Мы исследуем, оставляют ли социально-экономические показатели, такие как благосостояние домохозяйств, восстанавливаемые следы в спутниковых изображениях (отражающих физические характеристики) и текстах, полученных из интернета (отражающих исторические/экономические нарративы). Используя данные Демографических и медицинских обследований (DHS) из африканских районов, мы сопоставляем изображения Landsat с текстовыми описаниями, сгенерированными языковыми моделями (LLM), основанными на местоположении/годе, и текстами, извлеченными поисковым агентом с искусственным интеллектом из веб-источников. Мы разрабатываем мультимодальную структуру, предсказывающую благосостояние домохозяйств (Международный индекс благосостояния) через пять подходов: (i) модель компьютерного зрения на спутниковых изображениях, (ii) LLM, использующая только местоположение/год, (iii) поисковый агент, извлекающий и синтезирующий веб-тексты, (iv) совместный кодировщик изображений и текстов, (v) ансамбль всех сигналов. Наша структура вносит три вклада. Во-первых, объединение данных компьютерного зрения и текстов, полученных агентом/LLM, превосходит базовые модели, основанные только на изображениях, в предсказании благосостояния (например, R-квадрат 0,77 против 0,63 на тестовых данных), при этом внутренние знания LLM оказываются более эффективными, чем тексты, извлеченные агентом, повышая устойчивость к обобщению за пределами страны и времени. Во-вторых, мы обнаруживаем частичную конвергенцию представлений: объединенные эмбеддинги из модальностей зрения и языка умеренно коррелируют (медианное косинусное сходство 0,60 после выравнивания), что указывает на общий латентный код материального благополучия, сохраняя при этом дополнительные детали, что согласуется с Гипотезой платонического представления. Хотя тексты, сгенерированные только LLM, превосходят данные, извлеченные агентом, что ставит под сомнение нашу Гипотезу новизны, индуцированной агентом, скромные улучшения от комбинирования данных агента в некоторых случаях слабо поддерживают идею о том, что информация, собранная агентом, вносит уникальные структуры представлений, не полностью захваченные статическими знаниями LLM. В-третьих, мы публикуем крупномасштабный мультимодальный набор данных, включающий более 60 000 кластеров DHS, связанных со спутниковыми изображениями, описаниями, сгенерированными LLM, и текстами, извлеченными агентом.
Крупные языковые модели продемонстрировали впечатляющие способности в решении сложных математических задач, однако они неизбежно допускают ошибки в многошаговых решениях. Модели вознаграждения на уровне процесса (Process-level Reward Models, PRMs) показали значительный потенциал, предоставляя контроль и оценку на каждом промежуточном этапе, тем самым эффективно улучшая способности моделей к рассуждению. Однако обучение эффективных PRMs требует высококачественных данных о вознаграждении за процесс, а существующие методы создания таких данных часто являются трудоемкими или неэффективными. В данной статье мы предлагаем основанную на неопределенности структуру для автоматизированного создания данных о вознаграждении за процесс, охватывающую как генерацию данных, так и процессы аннотирования для PRMs. Кроме того, мы выявляем ограничения как метода большинства голосов, так и PRMs, и представляем два универсальных метода агрегации выходных данных с учетом неопределенности: Гибридное большинство голосов с вознаграждением и Взвешенная частота голосов с вознаграждением, которые сочетают преимущества метода большинства голосов с PRMs. Многочисленные эксперименты на ProcessBench, MATH и GSMPlus демонстрируют эффективность и производительность предложенной структуры создания данных для PRMs, а также показывают, что два метода агрегации выходных данных дополнительно улучшают способности к математическому рассуждению в различных PRMs. Код и данные будут общедоступны по адресу https://github.com/Jiuzhouh/UnPRM.