Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем GLM-4.5, открытую модель крупного языка с архитектурой Mixture-of-Experts (MoE), содержащую 355 млрд общих параметров и 32 млрд активируемых параметров. Модель оснащена гибридным методом рассуждений, поддерживающим как режим мышления, так и режим прямого ответа. Благодаря многоэтапному обучению на 23 трлн токенов и комплексной пост-обработке, включающей итерации экспертных моделей и обучение с подкреплением, GLM-4.5 демонстрирует высокие результаты в задачах, связанных с агентными системами, рассуждениями и программированием (ARC), достигая 70,1% на TAU-Bench, 91,0% на AIME 24 и 64,2% на SWE-bench Verified. При значительно меньшем количестве параметров по сравнению с рядом конкурентов GLM-4.5 занимает 3-е место среди всех оцененных моделей и 2-е место в агентных тестах. Мы выпускаем как полную версию GLM-4.5 (355 млрд параметров), так и компактную версию, GLM-4.5-Air (106 млрд параметров), чтобы способствовать развитию исследований в области рассуждений и агентных ИИ-систем. Код, модели и дополнительная информация доступны по адресу https://github.com/zai-org/GLM-4.5.
Виртуальная примерка ставит своей целью синтезировать реалистичное изображение человека в целевой одежде, однако точное моделирование соответствия между одеждой и телом остается сложной задачей, особенно при изменении позы и внешнего вида. В данной статье мы представляем Voost — унифицированную и масштабируемую структуру, которая совместно обучает виртуальную примерку и снятие одежды с использованием единого диффузионного трансформера. Моделируя обе задачи совместно, Voost позволяет каждой паре "одежда-человек" контролировать оба направления и поддерживает гибкое управление направлением генерации и категорией одежды, улучшая рассуждения о взаимосвязи одежды и тела без необходимости в специализированных сетях, вспомогательных функциях потерь или дополнительных метках. Кроме того, мы вводим две техники для этапа вывода: масштабирование температуры внимания для устойчивости к изменению разрешения или маски, и самокорректирующую выборку, которая использует двунаправленную согласованность между задачами. Многочисленные эксперименты демонстрируют, что Voost достигает наилучших результатов на бенчмарках как для примерки, так и для снятия одежды, стабильно превосходя сильные базовые модели по точности совмещения, визуальной достоверности и обобщаемости.
Агенты на основе больших языковых моделей (LLM) демонстрируют высокие результаты в решении разнообразных задач, однако их процедурная память остается хрупкой, поскольку она либо создается вручную, либо заложена в статических параметрах. В данной работе мы исследуем стратегии, позволяющие наделить агентов обучаемой, обновляемой и долговременной процедурной памятью. Мы предлагаем подход Memp, который преобразует прошлые траектории агентов как в детализированные пошаговые инструкции, так и в более высокоуровневые, сценарные абстракции, и изучаем влияние различных стратегий на создание, извлечение и обновление процедурной памяти. В сочетании с динамическим режимом, который непрерывно обновляет, корректирует и устаревает свои данные, этот репозиторий развивается синхронно с новым опытом. Эмпирическая оценка на задачах TravelPlanner и ALFWorld показывает, что по мере уточнения репозитория памяти агенты достигают стабильно более высоких показателей успешности и большей эффективности в решении аналогичных задач. Более того, процедурная память, созданная на основе более мощной модели, сохраняет свою ценность: перенос этой памяти на менее мощную модель приводит к значительному улучшению производительности.
Появление мультимодальных больших языковых моделей (MLLMs) стимулировало развитие автономных агентов, работающих с графическими пользовательскими интерфейсами (GUI) на основе исключительно визуального ввода. Основной проблемой является надежное закрепление инструкций на естественном языке. Это требует точного пространственного выравнивания, которое корректно определяет координаты каждого элемента, и, что более важно, правильного семантического выравнивания, которое сопоставляет инструкции с функционально подходящим элементом интерфейса. Хотя обучение с подкреплением с проверяемыми наградами (RLVR) доказало свою эффективность в улучшении пространственного выравнивания для таких MLLMs, мы обнаружили, что неэффективное исследование ограничивает семантическое выравнивание, препятствуя изучению сложных семантических связей. Для решения этой проблемы исследования мы представляем Adaptive Exploration Policy Optimization (AEPO) — новую структуру оптимизации политик. AEPO использует стратегию генерации множественных ответов для обеспечения более широкого исследования, которое затем направляется теоретически обоснованной функцией адаптивной награды за исследование (AER), выведенной из принципов эффективности η=U/C. Наши модели, обученные с использованием AEPO, InfiGUI-G1-3B и InfiGUI-G1-7B, устанавливают новые рекорды на нескольких сложных тестах закрепления в GUI, демонстрируя значительные относительные улучшения до 9,0% по сравнению с базовым подходом RLVR на тестах, предназначенных для проверки обобщения и семантического понимания. Ресурсы доступны по адресу https://github.com/InfiXAI/InfiGUI-G1.
Недавно крупные модели рассуждений (LRMs) продемонстрировали впечатляющие способности в анализе кода за счет масштабирования длины цепочки рассуждений (Chain-of-Thought, CoT). Однако чрезмерно длинные траектории рассуждений создают значительные трудности с точки зрения затрат на обучение, задержки при выводе и практической реализации. Хотя для решения этой проблемы появились различные подходы к сжатию CoT, они сталкиваются с неизбежными компромиссами: методы на уровне токенов часто нарушают синтаксическую и логическую согласованность, а методы на уровне шагов, основанные на перплексии, не могут надежно выделить логически важные этапы рассуждений. В данной статье мы предлагаем ASAP (Anchor-guided, Surprisal-based Pruning), новый двухэтапный фреймворк для сжатия CoT. ASAP сначала выполняет якорно-ориентированное сокращение, чтобы сохранить основную структуру рассуждений, что эффективно уменьшает пространство поиска для последующей обработки. Затем он обеспечивает логически осознанное сокращение, выбирая логически важные этапы рассуждений на основе новой метрики удивления первого токена. Наконец, ASAP обучает модели автономно генерировать и использовать эти сжатые CoT во время вывода, что позволяет эффективно выполнять рассуждения в задачах программирования. Эксперименты показывают, что ASAP достигает наивысшей точности на нескольких бенчмарках генерации кода, значительно снижая затраты на обучение и вывод. На сложном бенчмарке LiveCodeBench v4_v5 наш подход сокращает генерацию токенов на 23,5% и задержку вывода на 43,5% по сравнению с самым сильным базовым методом, при этом достигая конкурентоспособной точности 36,19% в метрике Pass@1. Наши результаты указывают на перспективное направление для создания мощных и эффективных LRMs.
Массивные активации — это скалярные значения в скрытых состояниях трансформеров, которые достигают значений на порядки больше, чем типичные активации, и, как было показано, критически важны для функциональности модели. Хотя предыдущие работы описывали эти явления в полностью обученных моделях, временная динамика их появления в процессе обучения остается плохо изученной. Мы представляем первый всесторонний анализ развития массивных активаций в ходе обучения трансформеров, используя семейство моделей Pythia в качестве тестовой платформы. С помощью систематического анализа моделей различных размеров на множестве контрольных точек обучения мы демонстрируем, что появление массивных активаций следует предсказуемым математическим закономерностям, которые могут быть точно смоделированы с использованием экспоненциально-модулированной логарифмической функции с пятью ключевыми параметрами. Мы разрабатываем машинно-обучаемую структуру для предсказания этих математических параметров исключительно на основе архитектурных спецификаций, достигая высокой точности для стационарного поведения и умеренной точности для времени и величины появления. Эти результаты позволяют архитекторам предсказывать и потенциально контролировать ключевые аспекты появления массивных активаций через выбор дизайна, что имеет значительные последствия для стабильности модели, длительности цикла обучения, интерпретируемости и оптимизации. Наши результаты показывают, что появление массивных активаций определяется дизайном модели и может быть предсказано, а потенциально и контролируемо, еще до начала обучения.
Нейронные поля излучения (NeRF) и гауссово размытие (Gaussian Splatting, GS) недавно произвели революцию в представлении и рендеринге 3D-сцен. NeRF достигает высококачественного синтеза новых видов, обучая объемные представления с помощью нейронных сетей, но его неявное кодирование затрудняет редактирование и физическое взаимодействие. В отличие от этого, GS представляет сцены как явные коллекции гауссовых примитивов, что позволяет выполнять рендеринг в реальном времени, ускорять обучение и обеспечивать более интуитивное управление. Эта явная структура делает GS особенно подходящим для интерактивного редактирования и интеграции с физически основанными симуляциями. В данной статье мы представляем GENIE (Gaussian Encoding for Neural Radiance Fields Interactive Editing), гибридную модель, которая сочетает фотореалистичное качество рендеринга NeRF с редактируемым и структурированным представлением GS. Вместо использования сферических гармоник для моделирования внешнего вида мы назначаем каждому гауссову примитиву обучаемое вложение признаков. Эти вложения используются для кондиционирования сети NeRF на основе k ближайших гауссовых примитивов к каждой точке запроса. Чтобы сделать это кондиционирование эффективным, мы вводим Ray-Traced Gaussian Proximity Search (RT-GPS), быстрый поиск ближайших гауссовых примитивов на основе модифицированного конвейера трассировки лучей. Мы также интегрируем многоуровневую хэш-сетку для инициализации и обновления гауссовых признаков. Вместе эти компоненты обеспечивают редактирование в реальном времени с учетом локальности: при перемещении или изменении гауссовых примитивов их интерполированное влияние сразу отражается в рендеринге. Сочетая преимущества неявных и явных представлений, GENIE поддерживает интуитивное управление сценами, динамическое взаимодействие и совместимость с физической симуляцией, устраняя разрыв между редактированием на основе геометрии и нейронным рендерингом. Код доступен по ссылке: https://github.com/MikolajZielinski/genie.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), продемонстрировали выдающиеся способности к обобщению в широком спектре задач. Однако их производительность часто остается неоптимальной при прямом применении к конкретным сценариям без адаптации под конкретную задачу. Для повышения их полезности при сохранении эффективности использования данных в последних исследованиях все больше внимания уделяется методам неконтролируемой адаптации, которые не требуют размеченных данных. Несмотря на растущий интерес к этой области, до сих пор отсутствует единый, ориентированный на задачи обзор, посвященный неконтролируемой адаптации VLMs. Чтобы восполнить этот пробел, мы представляем всесторонний и структурированный обзор данной области. Мы предлагаем таксономию, основанную на доступности и характере немаркированных визуальных данных, классифицируя существующие подходы на четыре ключевые парадигмы: передача без данных (Data-Free Transfer), неконтролируемая передача между доменами (Unsupervised Domain Transfer), адаптация на этапе тестирования с использованием пакетных данных (Episodic Test-Time Adaptation) и адаптация на этапе тестирования в режиме реального времени (Online Test-Time Adaptation). В рамках этой структуры мы анализируем основные методологии и стратегии адаптации, связанные с каждой парадигмой, стремясь установить систематическое понимание области. Кроме того, мы рассматриваем репрезентативные бенчмарки для различных приложений и выделяем открытые вызовы и перспективные направления для будущих исследований. Активно поддерживаемый репозиторий соответствующей литературы доступен по адресу https://github.com/tim-learn/Awesome-LabelFree-VLMs.
Мечта о создании искусственных интеллектуальных помощников, столь же способных и универсальных, как вымышленный J.A.R.V.I.S. из фильмов о Железном человеке, долгое время будоражила воображение. С развитием (мультимодальных) больших языковых моделей ((M)LLM) эта мечта стала ближе к реальности, поскольку агенты на основе (M)LLM, использующие вычислительные устройства (например, компьютеры и мобильные телефоны) и работающие в средах и интерфейсах (например, графический пользовательский интерфейс (GUI)), предоставляемых операционными системами (ОС) для автоматизации задач, значительно продвинулись. В данной статье представлен всесторонний обзор этих продвинутых агентов, обозначенных как ОС-агенты. Мы начинаем с разъяснения основ ОС-агентов, исследуя их ключевые компоненты, включая среду, пространство наблюдений и пространство действий, а также описываем основные возможности, такие как понимание, планирование и заземление. Затем мы рассматриваем методологии построения ОС-агентов, уделяя внимание специализированным базовым моделям и фреймворкам для агентов. Подробный обзор протоколов оценки и бенчмарков подчеркивает, как ОС-агенты оцениваются в различных задачах. Наконец, мы обсуждаем текущие вызовы и определяем перспективные направления для будущих исследований, включая безопасность и конфиденциальность, персонализацию и саморазвитие. Этот обзор направлен на консолидацию состояния исследований ОС-агентов, предоставляя инсайты для руководства как академическими изысканиями, так и промышленным развитием. Открытый репозиторий на GitHub поддерживается как динамический ресурс для стимулирования дальнейших инноваций в этой области. Мы представляем 9-страничную версию нашей работы, принятую на ACL 2025, чтобы предоставить краткий обзор данной области.
Мы представляем MeshLLM — инновационную структуру, которая использует большие языковые модели (LLM) для понимания и генерации текстово-сериализованных 3D-мешей. Наш подход решает ключевые ограничения существующих методов, включая ограниченный масштаб наборов данных при адаптации к длине токенов LLM и потерю структурной информации 3D-мешей в процессе сериализации. Мы вводим стратегию декомпозиции Primitive-Mesh, которая разделяет 3D-меши на структурно значимые подгруппы. Это позволяет создать крупномасштабный набор данных с более чем 1500 тыс. образцов, что почти в 50 раз превышает предыдущие методы и лучше соответствует принципам масштабирования LLM. Кроме того, мы предлагаем стратегии вывода связности граней из вершин и обучения локальной сборки мешей, что значительно улучшает способность LLM захватывать топологию мешей и пространственные структуры. Эксперименты показывают, что MeshLLM превосходит современную модель LLaMA-Mesh как в качестве генерации мешей, так и в понимании формы, подчеркивая его огромный потенциал в обработке текстово-сериализованных 3D-мешей.
Мультимодальные большие языковые модели (MLLM) демонстрируют выдающиеся результаты в высокоресурсных языках. Однако их эффективность значительно снижается в контексте низкоресурсных языков. Современные методы мультиязычного улучшения часто ограничиваются текстовой модальностью или полагаются исключительно на машинный перевод. Хотя такие подходы помогают моделям приобрести базовые лингвистические способности и генерировать "поверхностные описания", они упускают важность мультимодальной информативности и культурной укоренённости, которые имеют решающее значение для эффективного обслуживания пользователей низкоресурсных языков. Чтобы устранить этот пробел, в данном исследовании мы выделяем две ключевые цели для действительно эффективной MLLM в условиях низкоресурсных языков, а именно: 1) лингвистическая способность и 2) культурная укоренённость, с особым акцентом на культурную осведомлённость. Для достижения этих двойных целей мы предлагаем стратегию двойного источника, которая направляет сбор данных, адаптированных для каждой цели, используя веб-альттексты на родном языке для культуры и подписи, сгенерированные MLLM, для лингвистики. В качестве конкретной реализации мы представляем MELLA — мультимодальный, мультиязычный набор данных. Результаты экспериментов показывают, что после тонкой настройки на MELLA наблюдается общее улучшение производительности для восьми языков на различных архитектурах MLLM, при этом модели генерируют "глубокие описания". Мы подтверждаем, что улучшение производительности связано как с усилением культурных знаний, так и с улучшением лингвистических способностей. Наш набор данных доступен по адресу https://opendatalab.com/applyMultilingualCorpus.
Модели, объединяющие зрение и язык (Vision Language Models, VLMs), продемонстрировали впечатляющие способности в интеграции лингвистического и визуального мышления, но остаются фундаментально ограниченными в понимании динамических пространственно-временных взаимодействий. Люди без усилий отслеживают и анализируют движения объектов, их вращение и изменения перспективы — способности, которые критически важны для устойчивого понимания динамического реального мира, но которых заметно не хватает современным VLMs. В данной работе мы представляем VLM4D — первый бенчмарк, специально разработанный для оценки пространственно-временных способностей VLMs. Наш бенчмарк включает разнообразные реальные и синтетические видеоролики, сопровождаемые тщательно подобранными вопросами и ответами, акцентирующими внимание на поступательном и вращательном движении, осознании перспективы и непрерывности движения. В результате всесторонней оценки современных открытых и закрытых VLMs мы выявили значительные пробелы в производительности по сравнению с человеческими базовыми показателями, что подчеркивает фундаментальные недостатки существующих моделей. Подробный анализ показывает, что VLMs особенно испытывают трудности с интеграцией множественных визуальных сигналов и поддержанием временной согласованности. Мы также исследуем перспективные направления, такие как использование реконструкции 4D-полей признаков и целенаправленной пространственно-временной дообучения с учителем, демонстрируя их эффективность в улучшении пространственно-временного понимания. Наша работа направлена на стимулирование более глубокого изучения улучшения пространственной и временной привязки VLMs, прокладывая путь к более мощному и надежному визуальному интеллекту для динамических сред.
Появление мультимодальных больших языковых моделей (MLLMs) привело к значительному прогрессу в возможностях агентов для графического пользовательского интерфейса (GUI). Тем не менее, существующие методы обучения и вывода GUI-агентов по-прежнему сталкиваются с проблемами в проектировании логических рассуждений, неэффективными системами вознаграждения и визуальным шумом. Для решения этих проблем мы представляем UI-AGILE — комплексную структуру, улучшающую GUI-агенты как на этапе обучения, так и на этапе вывода. Для обучения мы предлагаем ряд улучшений процесса тонкой настройки с учителем (SFT): 1) функцию непрерывного вознаграждения для стимулирования высокой точности локализации; 2) вознаграждение "Простое мышление" для баланса между планированием, скоростью и точностью локализации; и 3) стратегию повторной выборки на основе обрезки для смягчения проблемы разреженного вознаграждения и улучшения обучения на сложных задачах. Для вывода мы представляем метод "Разложенная локализация с выбором", который значительно повышает точность локализации на дисплеях с высоким разрешением, разбивая изображение на меньшие, управляемые части. Эксперименты показывают, что UI-AGILE достигает наилучших результатов на двух тестовых наборах данных ScreenSpot-Pro и ScreenSpot-v2. Например, использование предложенных методов улучшения обучения и вывода приводит к увеличению точности локализации на 23% по сравнению с лучшим базовым методом на ScreenSpot-Pro.
Современные подходы к переосвещению в 3D демонстрируют перспективность в интеграции генеративных априорных моделей для переосвещения 2D-изображений, что позволяет изменять внешний вид 3D-представления, сохраняя при этом базовую структуру. Однако генеративные априорные модели, используемые для переосвещения 2D-изображений, которые напрямую изменяют освещение на основе входного изображения, не учитывают внутренние свойства объекта, которые могут быть выведены, или не способны масштабно обрабатывать данные с нескольких точек зрения, что приводит к неоптимальному переосвещению. В данной статье мы предлагаем LightSwitch — новую тонко настроенную диффузионную структуру для переосвещения материалов, которая эффективно изменяет освещение произвольного количества входных изображений до целевого состояния освещения, учитывая подсказки из выведенных внутренних свойств. Используя подсказки из данных с нескольких точек зрения и информации о материалах вместе с масштабируемой схемой шумоподавления, наш метод последовательно и эффективно переосвещает плотные данные с нескольких точек зрения для объектов с разнообразным составом материалов. Мы показываем, что качество предсказания переосвещения в 2D превосходит предыдущие передовые априорные модели, которые напрямую изменяют освещение на основе изображений. Кроме того, мы демонстрируем, что LightSwitch соответствует или превосходит современные методы диффузионного обратного рендеринга в переосвещении синтетических и реальных объектов всего за 2 минуты.