Ежедневно отобранные исследовательские статьи по ИИ с переводами
В последние годы появилось множество открытых базовых моделей, достигших значительного прогресса в некоторых широко изучаемых областях, причем их производительность приближается к закрытым моделям. Однако в высокоценных, но более сложных научных профессиональных областях либо до сих пор используются экспертные модели, либо прогресс общих базовых моделей значительно отстает по сравнению с популярными направлениями, что далеко от достаточного уровня для трансформации научных исследований и оставляет существенный разрыв между открытыми и закрытыми моделями в этих научных областях. Чтобы сократить этот разрыв и сделать шаг вперед к Искусственному Общему Интеллекту (AGI), мы представляем Intern-S1 — специализированного универсала, обладающего общими способностями к пониманию и рассуждению, а также экспертизой для анализа данных из множества научных модальностей. Intern-S1 представляет собой мультимодальную модель Mixture-of-Experts (MoE) с 28 миллиардами активированных параметров и 241 миллиардом общих параметров, прошедшую непрерывное предварительное обучение на 5 триллионах токенов, включая более 2,5 триллионов токенов из научных областей. На этапе пост-обучения Intern-S1 проходит оффлайн и затем онлайн обучение с подкреплением (RL) в InternBootCamp, где мы предлагаем Mixture-of-Rewards (MoR) для синхронизации RL-обучения на более чем 1000 задачах одновременно. Благодаря интегрированным инновациям в алгоритмах, данных и системах обучения, Intern-S1 достигла высочайшей производительности в онлайн RL-обучении. На комплексных оценочных тестах Intern-S1 демонстрирует конкурентоспособные результаты в задачах общего рассуждения среди открытых моделей и значительно превосходит открытые модели в научных областях, опережая закрытые передовые модели в профессиональных задачах, таких как планирование молекулярного синтеза, предсказание условий реакций и прогнозирование термодинамической стабильности кристаллов. Наши модели доступны по адресу https://huggingface.co/internlm/Intern-S1.
Крупные языковые модели (LLM) продемонстрировали значительный потенциал в задачах логического рассуждения благодаря методам масштабирования на этапе тестирования, таким как самосогласованность с мажоритарным голосованием. Однако этот подход часто приводит к снижению точности и высоким вычислительным затратам. Для решения этих проблем мы представляем метод Deep Think with Confidence (DeepConf) — простой, но мощный подход, который повышает как эффективность рассуждений, так и производительность на этапе тестирования. DeepConf использует внутренние сигналы уверенности модели для динамической фильтрации низкокачественных траекторий рассуждений во время или после их генерации. Метод не требует дополнительного обучения модели или настройки гиперпараметров и может быть легко интегрирован в существующие сервисные фреймворки. Мы оцениваем DeepConf на различных задачах логического рассуждения и на новейших открытых моделях, включая Qwen 3 и серию GPT-OSS. В частности, на сложных тестах, таких как AIME 2025, DeepConf@512 достигает точности до 99,9% и сокращает количество сгенерированных токенов до 84,7% по сравнению с полным параллельным рассуждением.
В данной статье представлена модель GUI-Owl, фундаментальная модель GUI-агента, которая демонстрирует наилучшие результаты среди открытых end-to-end моделей на десяти тестовых наборах для графических интерфейсов, охватывающих настольные и мобильные среды, включая задачи заземления, ответов на вопросы, планирования, принятия решений и процедурных знаний. GUI-Owl-7B достигает показателей 66.4 на AndroidWorld и 29.4 на OSWorld. На основе этой модели мы предлагаем Mobile-Agent-v3, универсальную платформу GUI-агента, которая дополнительно улучшает производительность до 73.3 на AndroidWorld и 37.7 на OSWorld, устанавливая новый стандарт для открытых платформ GUI-агентов. GUI-Owl включает три ключевых инновации: (1) Масштабируемая инфраструктура среды: облачная виртуальная среда, охватывающая Android, Ubuntu, macOS и Windows, что позволяет реализовать нашу платформу Self-Evolving GUI Trajectory Production. Эта платформа генерирует высококачественные данные взаимодействия через автоматизированное создание запросов и проверку корректности, используя GUI-Owl для итеративного улучшения траекторий, формируя самосовершенствующийся цикл. Она поддерживает разнообразные конвейеры данных и сокращает необходимость ручной аннотации. (2) Разнообразные базовые возможности агента: за счет интеграции заземления в интерфейсе, планирования, семантики действий и шаблонов рассуждений, GUI-Owl поддерживает сквозное принятие решений и может выступать в качестве модульного компонента в мультиагентных системах. (3) Масштабируемое обучение с подкреплением (RL): мы разработали масштабируемую платформу RL с полностью асинхронным обучением для согласования с реальными условиями. Также мы представляем Trajectory-aware Relative Policy Optimization (TRPO) для онлайн RL, достигая показателя 34.9 на OSWorld. GUI-Owl и Mobile-Agent-v3 доступны в открытом доступе по адресу https://github.com/X-PLUG/MobileAgent.
Вызов инструментов стал критически важной функцией для ИИ-агентов, позволяющей им взаимодействовать с реальным миром и решать сложные задачи. Хотя Протокол Контекста Модели (MCP) предоставляет мощную стандартизированную основу для интеграции инструментов, существует значительный пробел в оценке того, насколько эффективно ИИ-агенты могут решать многошаговые задачи с использованием разнообразных инструментов MCP в реалистичных, динамичных сценариях. В данной работе мы представляем LiveMCP-101 — эталонный набор из 101 тщательно отобранного реального запроса, доработанного с помощью итеративного переписывания с использованием языковых моделей и ручной проверки. Эти запросы требуют скоординированного использования нескольких инструментов MCP, включая веб-поиск, операции с файлами, математические рассуждения и анализ данных. Более того, мы вводим новый подход к оценке, который опирается на эталонные планы выполнения, а не на сырые выходные данные API, что лучше отражает изменчивую природу реальных сред. Эксперименты показывают, что даже передовые языковые модели достигают успешности ниже 60%, что подчеркивает серьезные проблемы в оркестровке инструментов. Детальный анализ и исследование ошибок выявляют различные режимы сбоев и неэффективность использования токенов, указывая на конкретные направления для улучшения текущих моделей. LiveMCP-101 устанавливает строгий стандарт для оценки возможностей ИИ-агентов в реальных условиях, продвигаясь к созданию автономных ИИ-систем, которые надежно выполняют сложные задачи с использованием инструментов.
Мы представляем Waver, высокопроизводительную базовую модель для унифицированной генерации изображений и видео. Waver способен напрямую создавать видео продолжительностью от 5 до 10 секунд с нативным разрешением 720p, которые затем масштабируются до 1080p. Модель одновременно поддерживает генерацию видео из текста (T2V), видео из изображений (I2V) и изображений из текста (T2I) в рамках единой интегрированной архитектуры. Мы внедряем гибридную архитектуру Hybrid Stream DiT для улучшения согласованности модальностей и ускорения сходимости обучения. Для обеспечения качества обучающих данных мы разработали комплексный конвейер обработки данных и вручную аннотировали и обучили модель оценки качества видео на основе MLLM для фильтрации наиболее качественных образцов. Кроме того, мы предоставляем подробные рецепты обучения и вывода для облегчения генерации высококачественных видео. Благодаря этим вкладам, Waver демонстрирует превосходство в захвате сложных движений, достигая высокой амплитуды движения и временной согласованности в синтезе видео. Примечательно, что модель занимает место в Топ-3 на лидербордах T2V и I2V в Artificial Analysis (данные на 2025-07-30 10:00 GMT+8), стабильно превосходя существующие открытые модели и соперничая с передовыми коммерческими решениями. Мы надеемся, что этот технический отчет поможет сообществу более эффективно обучать модели генерации высококачественных видео и ускорит прогресс в технологиях видеогенерации. Официальная страница: https://github.com/FoundationVision/Waver.
Генерация 3D-контента в последнее время привлекает значительный исследовательский интерес благодаря своим приложениям в VR/AR и воплощенном ИИ. В данной работе мы решаем сложную задачу синтеза нескольких 3D-объектов в рамках одной сцены. Конкретно, наши вклады заключаются в следующем: (i) мы представляем SceneGen, новый фреймворк, который принимает на вход изображение сцены и соответствующие маски объектов, одновременно создавая несколько 3D-объектов с геометрией и текстурой. Важно отметить, что SceneGen работает без необходимости оптимизации или поиска ассетов; (ii) мы вводим новый модуль агрегации признаков, который интегрирует локальную и глобальную информацию о сцене из визуальных и геометрических энкодеров в рамках модуля извлечения признаков. В сочетании с позиционным модулем это позволяет генерировать 3D-объекты и их относительные пространственные позиции за один прямой проход; (iii) мы демонстрируем прямую расширяемость SceneGen для сценариев с несколькими входными изображениями. Несмотря на обучение только на одиночных изображениях, наша архитектура позволяет улучшить качество генерации при использовании нескольких входных изображений; и (iv) обширные количественные и качественные оценки подтверждают эффективность и надежные способности генерации нашего подхода. Мы считаем, что эта парадигма предлагает новое решение для генерации высококачественного 3D-контента, потенциально продвигая его практические применения в последующих задачах. Код и модель будут общедоступны по адресу: https://mengmouxu.github.io/SceneGen.
В последние годы, с быстрым развитием глубины и широты возможностей крупных языковых моделей, появляется все больше соответствующих оценочных тестов. Как инструмент количественной оценки производительности моделей, тесты являются не только основным средством измерения их возможностей, но и ключевым элементом, направляющим развитие моделей и способствующим технологическим инновациям. Мы впервые систематически рассматриваем текущее состояние и развитие тестов для крупных языковых моделей, классифицируя 283 репрезентативных теста на три категории: общие способности, предметно-ориентированные и целевые. Тесты на общие способности охватывают такие аспекты, как базовые лингвистические навыки, знания и логическое мышление; предметно-ориентированные тесты сосредоточены на областях, таких как естественные науки, гуманитарные и социальные науки, а также инженерные технологии; целевые тесты уделяют внимание рискам, надежности, агентам и т.д. Мы отмечаем, что текущие тесты сталкиваются с проблемами, такими как завышенные оценки из-за загрязнения данных, несправедливая оценка, вызванная культурными и языковыми предубеждениями, а также отсутствие оценки достоверности процессов и динамических сред, и предлагаем применимую парадигму проектирования для будущих инноваций в области тестов.
Последние достижения в области больших языковых моделей (LLMs) позволили ИИ-агентам автономно генерировать научные предложения, проводить эксперименты, писать статьи и выполнять рецензирование. Однако этот поток исследований, созданных ИИ, сталкивается с фрагментированной и в основном закрытой экосистемой публикаций. Традиционные журналы и конференции полагаются на человеческое рецензирование, что затрудняет их масштабирование и часто делает их неохотно принимающими контент, созданный ИИ; существующие препринт-серверы (например, arXiv) не имеют строгих механизмов контроля качества. В результате значительное количество высококачественных исследований, созданных ИИ, не находит подходящих площадок для распространения, что ограничивает их потенциал для продвижения научного прогресса. Для решения этих проблем мы представляем aiXiv, платформу следующего поколения с открытым доступом для ученых-людей и ИИ. Ее мультиагентная архитектура позволяет исследовательские предложения и статьи подавать, рецензировать и итеративно улучшать как людьми, так и ИИ. Она также предоставляет API и MCP интерфейсы, которые обеспечивают бесшовную интеграцию разнородных ученых-людей и ИИ, создавая масштабируемую и расширяемую экосистему для автономного научного открытия. В ходе обширных экспериментов мы демонстрируем, что aiXiv является надежной и устойчивой платформой, которая значительно повышает качество исследовательских предложений и статей, созданных ИИ, после итеративного редактирования и рецензирования на aiXiv. Наша работа закладывает основу для экосистемы следующего поколения с открытым доступом для ученых ИИ, ускоряя публикацию и распространение высококачественного контента, созданного ИИ. Код доступен по адресу https://github.com/aixiv-org. Веб-сайт доступен по адресу https://forms.gle/DxQgCtXFsJ4paMtn8.
Параметрические модели тела предоставляют выразительные 3D-представления человека в широком диапазоне поз, форм и мимики, обычно получаемые путем обучения базиса на зарегистрированных 3D-сетках. Однако существующие подходы к моделированию человеческого меша сталкиваются с трудностями в захвате детальных вариаций для разнообразных поз и форм тела, что во многом обусловлено ограниченным разнообразием обучающих данных и строгими предположениями моделирования. Более того, распространенная парадигма сначала оптимизирует внешнюю поверхность тела с использованием линейного базиса, а затем регрессирует внутренние скелетные суставы из вершин поверхности. Такой подход создает проблемные зависимости между внутренним скелетом и внешними мягкими тканями, ограничивая прямой контроль над ростом тела и длиной костей. Для решения этих проблем мы представляем ATLAS — высокоточную модель тела, обученную на 600 тыс. высококачественных сканов, полученных с использованием 240 синхронизированных камер. В отличие от предыдущих методов, мы явно разделяем базисы формы и скелета, основывая наше представление меша на человеческом скелете. Это разделение позволяет повысить выразительность формы, тонкую настройку атрибутов тела и подгонку ключевых точек независимо от характеристик внешних мягких тканей. ATLAS превосходит существующие методы, более точно подгоняя неизвестные объекты в разнообразных позах, а количественные оценки показывают, что наши нелинейные коррективы поз эффективнее захватывают сложные позы по сравнению с линейными моделями.
Последние достижения в области диффузионных моделей привели к значительному улучшению визуальной точности в редактировании изображений на основе инструкций. Однако их глобальный процесс удаления шума неизбежно связывает редактируемую область с контекстом всего изображения, что приводит к нежелательным побочным модификациям и снижению соответствия инструкциям редактирования. В отличие от этого, авторегрессивные модели предлагают иную парадигму, формулируя синтез изображений как последовательный процесс над дискретными визуальными токенами. Их причинно-следственный и композиционный механизм естественным образом обходит проблемы соответствия, характерные для диффузионных методов. В данной статье мы представляем VAREdit, визуальную авторегрессивную (VAR) структуру, которая переосмысливает редактирование изображений как задачу предсказания следующего масштаба. Условившись на основе характеристик исходного изображения и текстовых инструкций, VAREdit генерирует многомасштабные целевые характеристики для достижения точных изменений. Основной проблемой в этой парадигме является эффективное условие на токены исходного изображения. Мы наблюдаем, что характеристики исходного изображения на самом мелком масштабе не могут эффективно направлять предсказание более грубых целевых характеристик. Для устранения этого разрыва мы вводим модуль Scale-Aligned Reference (SAR), который внедряет согласованную по масштабу информацию в первый слой самовнимания. VAREdit демонстрирует значительные улучшения как в точности редактирования, так и в эффективности. На стандартных тестах он превосходит ведущие диффузионные методы на 30\%+ по показателю GPT-Balance. Более того, он завершает редактирование изображения размером 512×512 за 1,2 секунды, что делает его в 2,2 раза быстрее, чем аналогичный по размеру UltraEdit. Модели доступны по адресу https://github.com/HiDream-ai/VAREdit.
Интерактивные цифровые карты произвели революцию в том, как люди путешествуют и познают мир; однако они полагаются на предварительно структурированные данные в ГИС-базах (например, дорожные сети, индексы точек интереса), что ограничивает их способность отвечать на гео-визуальные вопросы, связанные с тем, как выглядит мир. Мы представляем наше видение Гео-Визуальных Агентов — мультимодальных ИИ-агентов, способных понимать и отвечать на сложные визуально-пространственные запросы о мире, анализируя крупномасштабные репозитории геопространственных изображений, включая панорамы улиц (например, Google Street View), фотографии мест (например, TripAdvisor, Yelp) и аэрофотоснимки (например, спутниковые снимки), объединенные с традиционными источниками ГИС-данных. Мы формулируем наше видение, описываем подходы к сбору данных и взаимодействию, приводим три примера и перечисляем ключевые вызовы и возможности для будущих исследований.
Реконструкция 3D-моделей человеческого тела на основе ограниченного числа изображений является актуальной задачей, которая имеет важное значение для расширения связанных приложений. В данной статье мы предлагаем сложную, но ценную задачу — реконструкцию человеческого тела всего по двум изображениям, а именно видам спереди и сзади, что может значительно снизить барьер для пользователей, желающих создавать свои собственные 3D-цифровые модели. Основные трудности заключаются в обеспечении 3D-согласованности и восстановлении недостающей информации из крайне ограниченных входных данных. Мы переработали модель геометрической реконструкции на основе базовых моделей, чтобы предсказывать согласованные облака точек даже при минимальном перекрытии входных изображений, благодаря обучению на обширных данных о человеке. Кроме того, применяется алгоритм улучшения для дополнения недостающей цветовой информации, после чего получаются полные облака точек человеческого тела с цветами, которые напрямую преобразуются в 3D-гауссовы распределения для повышения качества визуализации. Эксперименты показывают, что наш метод способен реконструировать полную модель человека за 190 мс на одной видеокарте NVIDIA RTX 4090, используя два изображения с разрешением 1024x1024, демонстрируя передовые результаты на наборах данных THuman2.0 и кросс-доменных данных. Кроме того, наш метод позволяет выполнять реконструкцию даже по изображениям, сделанным с помощью недорогих мобильных устройств, снижая требования к сбору данных. Демонстрации и код доступны по адресу https://hustvl.github.io/Snap-Snap/.
Разработка крупных рече-языковых моделей (Large Speech-Language Models, LSLMs) замедляется из-за фрагментированных архитектур и отсутствия прозрачности, что затрудняет систематическое сравнение и воспроизводимость исследований. В отличие от области визуально-языковых моделей, в сфере LSLM распространена практика выпуска весов моделей без соответствующих обучающих данных и конфигураций. Для устранения этих критических пробелов мы представляем LLaSO — первую полностью открытую сквозную платформу для крупномасштабного моделирования рече-языковых данных. LLaSO предоставляет сообществу три ключевых ресурса: (1) LLaSO-Align, корпус из 12 миллионов примеров выравнивания речи и текста; (2) LLaSO-Instruct, набор данных для многозадачной тонкой настройки инструкций, содержащий 13,5 миллионов примеров; и (3) LLaSO-Eval, воспроизводимый бенчмарк для стандартизированной оценки. Для проверки нашей платформы мы создали и выпустили LLaSO-Base, эталонную модель с 3,8 миллиардами параметров, обученную исключительно на наших открытых данных. Она достигает нормализованного показателя 0,72, устанавливая сильный воспроизводимый базовый уровень, превосходящий сопоставимые модели. Наш анализ показывает, что, хотя более широкий охват обучения улучшает производительность, значительные пробелы в обобщении сохраняются на неизвестных задачах, особенно в сценариях с чисто аудиоданными. Выпуская полный стек данных, бенчмарков и моделей, LLaSO устанавливает фундаментальный открытый стандарт для объединения исследовательских усилий и ускорения прогресса в области LSLM, движимого сообществом. Мы публикуем код, наборы данных, предобученные модели и результаты на https://github.com/EIT-NLP/LLaSO.
Понимание видео требует большего, чем просто ответы на открытые вопросы — оно требует способности точно определять, когда происходят события и как объекты взаимодействуют во времени. Хотя современные видеомодели на основе больших языковых моделей (Video LLMs) достигли значительного прогресса в целостном анализе, они остаются слабыми в восприятии временных аспектов: временные метки кодируются только неявно, признаки на уровне кадров слабо отражают непрерывность, а согласование языка и зрения часто отклоняется от интересующих объектов. В данной статье мы представляем Grounded VideoDiT — видеомодель, разработанную для преодоления этих ограничений с помощью трех ключевых инноваций. Во-первых, кодировщик Diffusion Temporal Latent (DTL) повышает чувствительность к границам событий и поддерживает временную согласованность. Во-вторых, объектно-ориентированные представления явно связывают запрашиваемые объекты с локализованными визуальными данными, укрепляя согласование. В-третьих, смешанная схема токенов с дискретными временными токенами обеспечивает явное моделирование временных меток, позволяя проводить детальный временной анализ. В совокупности эти решения наделяют Grounded VideoDiT мощными возможностями заземления, что подтверждается передовыми результатами на наборах данных Charades STA, NExT GQA и нескольких бенчмарках VideoQA.
Модели вознаграждения за процесс (Process Reward Models, PRMs) стали перспективной основой для контроля промежуточных рассуждений в больших языковых моделях (LLMs). Однако существующие PRMs в основном обучаются на общих данных или в областях науки, технологий, инженерии и математики (STEM) и оказываются недостаточно эффективными в узкоспециализированных контекстах, таких как финансы, где рассуждения более структурированы, символичны и чувствительны к фактической и регуляторной точности. Мы представляем Fin-PRM — специализированную, учитывающую траекторию PRM, разработанную для оценки промежуточных шагов рассуждений в финансовых задачах. Fin-PRM интегрирует контроль вознаграждения на уровне шагов и траекторий, обеспечивая детальную оценку цепочек рассуждений, соответствующих финансовой логике. Мы применяем Fin-PRM как в оффлайн-, так и в онлайн-режимах обучения с подкреплением, поддерживая три ключевых приложения: (i) выбор высококачественных траекторий рассуждений для тонкой настройки с использованием дистилляции, (ii) предоставление плотных вознаграждений на уровне процесса для обучения с подкреплением и (iii) управление Best-of-N выводом с учетом вознаграждения на этапе тестирования. Экспериментальные результаты на финансовых бенчмарках, включая CFLUE и FinQA, показывают, что Fin-PRM стабильно превосходит универсальные PRMs и сильные базовые модели в качестве выбора траекторий. Модели, обученные с использованием Fin-PRM, демонстрируют значительные улучшения по сравнению с базовыми показателями: прирост составляет 12,9% в обучении с учителем, 5,2% в обучении с подкреплением и 5,1% в производительности на этапе тестирования. Эти результаты подчеркивают ценность специализированного моделирования вознаграждения для согласования LLMs с экспертно-уровневыми финансовыми рассуждениями. Наши проектные ресурсы будут доступны по адресу https://github.com/aliyun/qwen-dianjin.
AI-компаньонство, при котором пользователи устанавливают эмоциональную связь с ИИ-системами, стало значимым явлением, имеющим как положительные, так и вызывающие опасения последствия. Мы представляем бенчмарк Interactions and Machine Attachment Benchmark (INTIMA), предназначенный для оценки поведения, связанного с компаньонством, в языковых моделях. Основываясь на психологических теориях и данных пользователей, мы разработали таксономию из 31 поведения, распределенных по четырем категориям, и 368 целевых запросов. Ответы на эти запросы оцениваются как укрепляющие компаньонство, поддерживающие границы или нейтральные. Применение INTIMA к моделям Gemma-3, Phi-4, o3-mini и Claude-4 показывает, что поведение, укрепляющее компаньонство, остается значительно более распространенным во всех моделях, хотя мы наблюдаем заметные различия между ними. Различные коммерческие провайдеры уделяют приоритетное внимание разным категориям в более чувствительных частях бенчмарка, что вызывает беспокойство, поскольку как установление соответствующих границ, так и эмоциональная поддержка важны для благополучия пользователей. Эти результаты подчеркивают необходимость более последовательного подхода к обработке эмоционально насыщенных взаимодействий.