Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Tongyi DeepResearch — агентную большую языковую модель, специально разработанную для решения долгосрочных задач углубленного информационного поиска. Для стимулирования автономной деятельности в области глубоких исследований Tongyi DeepResearch разработана с использованием сквозной框架 обучения, сочетающей агентное промежуточное обучение и агентное пост-обучение, что обеспечивает масштабируемое логическое мышление и информационный поиск в сложных задачах. Мы создали высокомасштабируемый конвейер синтеза данных, полностью автоматизированный и не требующий дорогостоящей человеческой разметки, который поддерживает все этапы обучения. Благодаря построению специализированных сред для каждого этапа, наша система гарантирует стабильное и последовательное взаимодействие на протяжении всего процесса. Tongyi DeepResearch, обладающая общим объемом 30,5 миллиардов параметров при активации всего 3,3 миллиарда на токен, демонстрирует передовые результаты в серии бенчмарков агентного глубокого поиска, включая Humanity's Last Exam, BrowseComp, BrowseComp-ZH, WebWalkerQA, xbench-DeepSearch, FRAMES и xbench-DeepSearch-2510. Мы открываем исходный код модели,框架 и полные решения для расширения возможностей научного сообщества.
Языковые агенты продемонстрировали значительный потенциал в веб-поиске и информационном поиске. Однако эти поисковые агенты предполагают, что пользовательские запросы являются полными и однозначными — предположение, расходящееся с реальностью, где пользователи начинают с неполных запросов, требующих уточнения в процессе взаимодействия. При этом большинство агентов не имеют интерактивных механизмов в ходе поиска, а существующие бенчмарки не могут оценить эту способность. Для устранения данного пробела мы представляем InteractComp — бенчмарк, предназначенный для оценки того, могут ли поисковые агенты распознавать неоднозначность запроса и активно взаимодействовать для её устранения в процессе поиска. Следуя принципу «легко проверить, взаимодействовать для устранения неоднозначности», мы создали 210 экспертно отобранных вопросов по 9 доменам с помощью метода «цель-дистрактор», который создает genuine ambiguity, устранимую только через взаимодействие. Оценка 17 моделей выявила поразительный провал: лучшая модель достигает точности лишь 13,73% против 71,50% при полном контексте, что свидетельствует о систематической избыточной уверенности, а не о дефиците логического вывода. Принудительное взаимодействие дает резкий рост показателей, демонстрируя скрытые возможности, которые текущие стратегии не задействуют. Лонгитюдный анализ показывает стагнацию способностей к взаимодействию за 15 месяцев при семикратном улучшении поисковых показателей, выявляя критическое слепое пятно. Эта стагнация в сочетании с немедленной обратной связью, присущей поисковым задачам, делает InteractComp ценным ресурсом как для оценки, так и для обучения интерактивным способностям поисковых агентов. Код доступен по адресу https://github.com/FoundationAgents/InteractComp.
Веб-агенты на основе больших языковых моделей демонстрируют огромный потенциал в области информационного поиска, однако их эффективность при решении долгосрочных задач ограничена фундаментальным компромиссом в управлении контекстом. Преобладающие агенты на основе парадигмы ReAct страдают от насыщения контекста по мере накопления зашумленных, необработанных историй, в то время как методы, жестко суммирующие всю историю на каждом шаге, несут риск необратимой потери критически важных деталей. Для решения этих проблем мы представляем AgentFold — новую парадигму агента, основанную на проактивном управлении контекстом и вдохновленную когнитивным процессом ретроспективной консолидации у человека. AgentFold рассматривает свой контекст как динамическое когнитивное рабочее пространство, которое необходимо активно формировать, а не как пассивный журнал для заполнения. На каждом шаге агент обучается выполнению операции «свертки», которая управляет его исторической траекторией на нескольких уровнях: он может выполнять детальные сжатия для сохранения жизненно важных, мелкозернистых деталей или глубокие консолидации для абстрагирования от целых многошаговых подзадач. Результаты на известных бенчмарках впечатляют: при простом контролируемом дообучении (без непрерывного предобучения или обучения с подкреплением) наш агент AgentFold-30B-A3B достигает 36,2% на BrowseComp и 47,3% на BrowseComp-ZH. Примечательно, что эти показатели не только превосходят или соответствуют результатам открытых моделей значительно большего масштаба, таких как DeepSeek-V3.1-671B-A37B, но и опережают ведущие проприетарные агенты, например, o4-mini от OpenAI.
Последние достижения в области многомодальных больших языковых моделей (MLLM) стимулировали быстрый прогресс в моделях «Зрение-Язык-Действие» (VLA) для роботизированного манипулирования. Несмотря на эффективность во многих сценариях, современные подходы в значительной степени опираются на явные инструкции, в то время как в реальном мире люди редко отдают команды напрямую. Для эффективного сотрудничества роботы должны уметь проактивно распознавать намерения пользователя. В данной работе мы представляем кросс-модальные контекстные инструкции — новый подход, в котором намерение извлекается из устного диалога, окружающих звуков и визуальных сигналов, а не из явных команд. Для решения этой задачи мы предлагаем RoboOmni — архитектуру «Восприниматель-Мыслитель-Спикер-Исполнитель» на основе сквозных омни-модальных LLM, которая объединяет распознавание намерений, подтверждение взаимодействия и выполнение действий. RoboOmni пространственно-временно объединяет аудиальные и визуальные сигналы для надежного распознавания намерений, поддерживая при этом прямое речевое взаимодействие. Для решения проблемы отсутствия обучающих данных для проактивного распознавания намерений в роботизированном манипулировании мы создали набор данных OmniAction, содержащий 140 тыс. эпизодов, более 5 тыс. дикторов, 2,4 тыс. звуков событий, 640 фоновых сцен и шесть типов контекстных инструкций. Эксперименты в симуляции и реальных условиях демонстрируют, что RoboOmni превосходит текстовые и ASR-базлайны по проценту успешных выполнений, скорости вывода, точности распознавания намерений и качеству проактивной помощи.
Мы представляем Game-TARS — универсального игрового агента, обученного с использованием единого масштабируемого пространства действий, основанного на человеко-ориентированных нативных вводах с клавиатуры и мыши. В отличие от подходов на основе API или графического интерфейса, данная парадигма позволяет осуществлять масштабируемое непрерывное предварительное обучение в гетерогенных областях, включая операционные системы, веб-среду и симуляционные игры. Game-TARS предварительно обучен на более чем 500 миллиардах токенов, содержащих разнообразные траектории и мультимодальные данные. Ключевые методы включают затухающую непрерывную функцию потерь для снижения причинно-следственной путаницы и эффективную стратегию «Разреженного Мышления», которая балансирует глубину рассуждений и стоимость вывода. Эксперименты показывают, что Game-TARS демонстрирует примерно двукратное превышение уровня успешности по сравнению с предыдущей моделью-лидером в задачах с открытым миром Minecraft, близок к обобщающей способности новичков-людей в незнакомых 3D-веб-играх и превосходит GPT-5, Gemini-2.5-Pro и Claude-4-Sonnet в тестах для шутеров от первого лица. Результаты масштабирования на этапах обучения и тестирования подтверждают, что единое пространство действий сохраняет улучшения при масштабировании на кросс-игровые и мультимодальные данные. Наши результаты демонстрируют, что простые, масштабируемые представления действий в сочетании с крупномасштабным предварительным обучением открывают перспективный путь к созданию универсальных агентов с широкими способностями к работе с компьютером.
Генерация видео в непрерывном пространстве быстро развивалась, в то время как дискретные подходы отстают из-за накопления ошибок и несогласованности в длинных контекстах. В данной работе мы пересматриваем дискретное генеративное моделирование и представляем Uniform discRete diffuSion with metric pAth (URSA) — простую, но мощную структуру, которая сокращает разрыв с непрерывными подходами для масштабируемой генерации видео. В основе URSA лежит формулировка задачи генерации видео как итеративной глобальной доработки дискретных пространственно-временных токенов. Она интегрирует две ключевые разработки: линеаризованный метрический путь и механизм сдвига временных шагов, зависящий от разрешения. Эти решения позволяют URSA эффективно масштабироваться для синтеза изображений высокого разрешения и генерации видео длительной продолжительности, требуя при этом значительно меньше шагов вывода. Дополнительно мы представляем стратегию асинхронной временной тонкой настройки, которая объединяет разнообразные задачи в рамках единой модели, включая интерполяцию и генерацию видео из изображений. Многочисленные эксперименты на сложных наборах данных по генерации видео и изображений демонстрируют, что URSA стабильно превосходит существующие дискретные методы и достигает производительности, сопоставимой с передовыми методами диффузии в непрерывном пространстве. Код и модели доступны по адресу https://github.com/baaivision/URSA.
Публичные результаты исследований по крупномасштабному контролируемому дообучению ИИ-агентов остаются относительно редкими, поскольку сбор данных для обучения агентов сопряжен с уникальными трудностями. В данной работе мы утверждаем, что основная проблема заключается не в отсутствии исходных источников данных, а в том, что огромное разнообразие данных фрагментировано между неоднородными форматами, инструментами и интерфейсами. Для решения этой задачи мы представляем протокол данных агентов (ADP) — облегченный язык представления, который служит «интерлингвой» между наборами данных агентов в различных форматах и унифицированными конвейерами обучения агентов на последующих этапах. Дизайн ADP достаточно выразителен, чтобы охватывать широкий спектр задач, включая использование API/инструментов, веб-навигацию, программирование, разработку программного обеспечения и общие агентские workflows, оставаясь при этом простым для анализа и обучения без необходимости инженерной доработки под каждый конкретный набор данных. В экспериментах мы объединили разнородную коллекцию из 13 существующих наборов данных для обучения агентов в формат ADP и преобразовали стандартизированные данные ADP в форматы, готовые к обучению, для нескольких агентских фреймворков. Мы провели контролируемое дообучение на этих данных и продемонстрировали средний прирост производительности примерно на 20% по сравнению с соответствующими базовыми моделями, а также достигли результатов уровня state-of-the-art или близких к ним на стандартных бенчмарках для программирования, веб-навигации, использования инструментов и исследовательских задач, без какой-либо предметно-ориентированной настройки. Весь код и данные публично выпущены в надежде, что ADP поможет снизить барьер для стандартизированного, масштабируемого и воспроизводимого обучения агентов.
Существующие модели "зрение-язык-действие" (VLA) функционируют в трёхмерном реальном мире, но обычно строятся на основе двумерных энкодеров, что создаёт пробел в пространственном мышлении, ограничивающий обобщающую способность и адаптивность. Современные методы интеграции 3D в VLA либо требуют специализированных сенсоров и плохо переносятся между модальностями, либо добавляют слабые сигналы, лишённые геометрии, что ухудшает согласованность между зрением и языком. В данной работе мы представляем FALCON (From Spatial to Action) — новую парадигму, которая внедряет богатые 3D пространственные токены в голову действия. FALCON использует пространственные фундаментальные модели для получения строгих геометрических априорных данных только из RGB-изображений и включает Модель Воплощённого Пространства, которая может при необходимости объединять данные о глубине или позе для повышения точности, если они доступны, без необходимости переобучения или изменений архитектуры. Чтобы сохранить языковое мышление, пространственные токены обрабатываются Пространственно-Усиленной Головой Действия, а не конкатенируются в основу "зрение-язык". Такая конструкция позволяет FALCON преодолеть ограничения в пространственном представлении, переносимости между модальностями и согласованности. В ходе всесторонних оценок на трёх симуляционных бенчмарках и одиннадцати реальных задачах предложенный метод FALCON демонстрирует наилучшую производительность, стабильно превосходит конкурентоспособные базовые методы и сохраняет устойчивость в условиях загромождения, пространственно-условных промптов, а также вариаций масштаба и высоты объектов.
В последнее время методы редактирования изображений на основе моделей Diffusion-in-Transformer (DiT) получили быстрое развитие. Однако существующие подходы часто не обеспечивают эффективного контроля над степенью редактирования, что ограничивает возможность достижения более кастомизированных результатов. Для решения этой проблемы мы исследуем механизм MM-Attention в модели DiT и обнаруживаем, что токены Query и Key имеют общий вектор смещения, зависящий только от слоя. Мы интерпретируем это смещение как отражение inherentного поведения модели при редактировании, в то время как разность (дельта) между каждым токеном и соответствующим ему смещением кодирует содержательно-специфичные сигналы редактирования. На основе этого наблюдения мы предлагаем Group Relative Attention Guidance (GRAG) — простой, но эффективный метод, который перевзвешивает дельта-значения различных токенов, чтобы модулировать фокус модели на входном изображении относительно инструкции редактирования. Это позволяет осуществлять непрерывный и детализированный контроль интенсивности редактирования без какой-либо донастройки. Многочисленные эксперименты, проведенные в рамках существующих фреймворков редактирования изображений, демонстрируют, что GRAG может быть интегрирован с помощью всего четырех строк кода, последовательно улучшая качество редактирования. Более того, по сравнению с широко используемым Classifier-Free Guidance, GRAG обеспечивает более плавный и точный контроль над степенью редактирования. Наш код будет доступен по адресу https://github.com/little-misfit/GRAG-Image-Editing.
Спекулятивное декодирование ускоряет вывод LLM, используя небольшую черновую модель для предложения нескольких токенов, которые целевая модель проверяет параллельно. Расширение этой идеи на батчи крайне важно для промышленного обслуживания, однако оно порождает проблему рваных тензоров: последовательности в одном батче принимают разное количество черновых токенов, что нарушает правое выравнивание и искажает позиционные идентификаторы, маски внимания и состояние KV-кэша. Мы демонстрируем, что несколько существующих реализаций батчей нарушают эквивалентность вывода — фундаментальное требование, согласно которому спекулятивное декодирование должно порождать идентичные последовательности токенов стандартному авторегрессионному生成. Эти нарушения происходят именно из-за некорректного обращения с проблемой рваных тензоров. В ответ мы (1) характеризуем требования синхронизации, гарантирующие корректность, (2) представляем ориентированный на корректность батчевый метод спекулятивного декодирования EQSPEC, который выявляет, что перевыравнивание занимает 40% накладных расходов, и (3) представляем EXSPEC, который поддерживает скользящий пул последовательностей и динамически формирует группы одинаковой длины, чтобы сократить накладные расходы на перевыравнивание, сохраняя при этом спекулятивное ускорение для каждой последовательности. На наборе данных SpecBench, для пар целевая/черновая модель Vicuna-7B/68M, Qwen3-8B/0.6B и GLM-4-9B/0.6B, наш подход демонстрирует до 3-кратного увеличения пропускной способности при размере батча 8 по сравнению с размером батча 1, с эффективным масштабированием до размера батча 8, сохраняя при этом 95% эквивалентности вывода. Наш метод не требует специальных ядер и чисто интегрируется с существующими стеками вывода. Наш код доступен по адресу https://github.com/eBay/spec_dec.
Поисковые агенты на основе больших языковых моделей все чаще обучаются на синтетических данных, ориентированных на сущности, для решения сложных, насыщенных знаниями задач. Однако преобладающие методы обучения, такие как Group Relative Policy Optimization (GRPO), отбрасывают эту богатую информацию о сущностях, полагаясь вместо этого на разреженные, основанные на результате вознаграждения. Это фундаментальное ограничение не позволяет им отличать информативные «близкие к успеху» примеры — те, где присутствует в целом верная логика рассуждений, но ошибочный конечный ответ — от полных провалов, что приводит к потере ценных обучающих сигналов. Мы решаем эту проблему, используя сами сущности, отбрасываемые в процессе обучения. Наш эмпирический анализ выявляет сильную положительную корреляцию между количеством эталонных сущностей, идентифицированных в процессе рассуждений агента, и точностью конечного ответа. Основываясь на этом наблюдении, мы представляем Entity-aware Group Relative Policy Optimization (E-GRPO) — новую структуру, которая формулирует плотную функцию вознаграждения, учитывающую сущности. E-GRPO назначает частичные вознаграждения неверным примерам пропорционально их степени соответствия сущностям, позволяя модели эффективно обучаться на этих «близких к успеху» случаях. Эксперименты на различных наборах данных для вопросно-ответных систем и глубокого поиска показывают, что E-GRPO стабильно и значительно превосходит базовый метод GRPO. Более того, наш анализ показывает, что E-GRPO не только достигает более высокой точности, но и формирует более эффективные стратегии рассуждений, требующие меньшего количества вызовов инструментов, что демонстрирует более эффективный и экономный в плане данных подход к согласованию поисковых агентов.
Обучение агентов — больших языковых моделей (БЯМ) — на задачах, находящихся на границе их возможностей, является ключевым фактором для раскрытия продвинутого мышления. Мы представляем подход к синтезу данных, вдохновленный образовательной теорией Зоны Ближайшего Развития (ЗБР), которая определяет эту границу как задачи, которые БЯМ не может решить самостоятельно, но может освоить с помощью руководства. Для практической реализации этого подхода мы представляем Движок AgentFrontier — автоматизированный конвейер, который синтезирует высококачественные междисциплинарные данные, точно находящиеся в ЗБР модели. Этот движок поддерживает как продолженное предобучение на данных, насыщенных знаниями, так и целевую постобработку для сложных задач логического вывода. В рамках той же системы мы создали ZPD Exam — динамический и автоматизированный бенчмарк, предназначенный для оценки способностей агентов на этих передовых задачах. Мы обучили модель AgentFrontier-30B-A3B на наших синтезированных данных, и она показала наилучшие результаты на требовательных бенчмарках, таких как Humanity's Last Exam, даже превзойдя некоторые ведущие проприетарные агенты. Наша работа демонстрирует, что подход к синтезу данных, направляемый принципом ЗБР, предлагает масштабируемый и эффективный путь к созданию более способных агентов на основе БЯМ.
С развитием способностей к принятию решений и логическому мышлению мультимодальные агенты демонстрируют значительный потенциал в сценариях компьютерных приложений. Предыдущие оценки в основном фокусировались на навыках взаимодействия с графическим интерфейсом (GUI), в то время как способности к вызову инструментов, такие как те, что обеспечиваются Model Context Protocol (MCP), оставались в значительной степени без внимания. Сравнение агентов с интегрированным вызовом инструментов с теми, кто оценивался только по взаимодействию с GUI, по своей сути несправедливо. Мы представляем OSWorld-MCP — первый комплексный и справедливый бенчмарк для оценки способностей агентов по использованию компьютера к вызову инструментов, операциям с GUI и принятию решений в реальной среде. Мы разработали новый автоматизированный конвейер генерации кода для создания инструментов и объединили их с тщательно отобранными существующими инструментами. Строгая ручная валидация позволила получить 158 высококачественных инструментов (охватывающих 7 распространенных приложений), каждый из которых проверен на корректность функциональности, практическую применимость и универсальность. Обширные оценки передовых мультимодальных агентов на OSWorld-MCP показывают, что инструменты MCP в целом повышают процент успешного выполнения задач (например, с 8,3% до 20,4% для OpenAI o3 на 15 шагах, с 40,1% до 43,3% для Claude 4 Sonnet на 50 шагах), что подчеркивает важность оценки возможностей вызова инструментов. Однако даже у самых мощных моделей относительно низкий процент вызова инструментов — всего 36,3%, что указывает на потенциал для улучшения и подчеркивает сложность бенчмарка. Явно измеряя навыки использования инструментов MCP, OSWorld-MCP углубляет понимание мультимодальных агентов и устанавливает новый стандарт для оценки производительности в сложных средах с инструментальной поддержкой. Наш код, среда и данные общедоступны по адресу https://osworld-mcp.github.io.
Хотя мультимодальные большие языковые модели (МБЯМ) превосходно справляются с визуальным пониманием, они часто испытывают трудности в сложных сценариях, требующих визуального планирования и воображения. Вдохновившись тем, как люди используют наброски в качестве формы визуального мышления для разработки и коммуникации идей, мы представляем Latent Sketchpad — фреймворк, который оснащает МБЯМ внутренним визуальным скретчпадом. Внутренние визуальные представления МБЯМ традиционно ограничивались перцептивным пониманием. Мы перепрофилируем их для поддержки генеративного визуального мышления без ущерба для способности к рассуждению. Основываясь на передовых МБЯМ, наш подход интегрирует визуальную генерацию непосредственно в их нативный авторегрессионный процесс рассуждений. Это позволяет модели чередовать текстовые рассуждения с генерацией визуальных латентных переменных. Эти латентные переменные направляют внутренний мыслительный процесс и могут быть преобразованы в эскизы для интерпретируемости. Для реализации этого мы вводим два компонента: Контекстно-зависимый визуальный заголовок (Context-Aware Vision Head) авторегрессионно генерирует визуальные представления, а предобученный Декодер эскизов (Sketch Decoder) визуализирует их в интерпретируемые человеком изображения. Мы оцениваем фреймворк на нашем новом наборе данных MazePlanning. Эксперименты с различными МБЯМ показывают, что Latent Sketchpad демонстрирует сопоставимую или даже превосходящую производительность рассуждений по сравнению с их базовой архитектурой. Он также обобщается на различные передовые МБЯМ, включая Gemma3 и Qwen2.5-VL. Расширяя текстовые рассуждения модели до визуального мышления, наш фреймворк открывает новые возможности для более насыщенного человеко-компьютерного взаимодействия и более широкого спектра приложений. Дополнительные детали и ресурсы доступны на странице проекта: https://latent-sketchpad.github.io/.
Крупные языковые модели (LLMs) недавно позволили создать кодирующих агентов, способных генерировать, исполнять и исправлять код визуализаций. Однако существующие модели часто оказываются неэффективными в реальных рабочих процессах из-за ограниченного покрытия языков программирования, ненадежного исполнения кода и отсутствия механизмов итеративного исправления. Прогресс сдерживается узкими наборами данных и бенчмарками, которые делают акцент на одноэтапную генерацию и задачи на одном языке программирования. Для решения этих проблем мы представляем три взаимодополняющих ресурса для развития кодирующих агентов визуализации. VisCode-Multi-679K — это масштабируемый размеченный набор данных, содержащий 679 тыс. проверенных и исполняемых примеров визуализаций с многошаговыми диалогами исправления для 12 языков программирования. VisPlotBench — это бенчмарк для систематической оценки, включающий исполняемые задачи, визуализированные результаты и протоколы как для первоначальной генерации, так и для многошаговой самодиагностики. Наконец, мы представляем VisCoder2, семейство мультиязычных моделей для визуализации, обученных на VisCode-Multi-679K. Эксперименты показывают, что VisCoder2 значительно превосходит сильные модели с открытым исходным кодом и приближается к производительности проприетарных моделей, таких как GPT-4.1, с дополнительным улучшением за счет итеративной самодиагностики, достигая 82,4% общего показателя успешного исполнения кода для модели масштаба 32B, особенно для символических языков или языков, зависящих от компилятора.
Параллельное мышление расширяет широту исследования, дополняя глубокое изучение агентов поиска информации (ПИ) для дальнейшего повышения способности к решению задач. Однако традиционное параллельное мышление сталкивается в этой среде с двумя ключевыми проблемами: неэффективностью из-за многократного запуска с нуля и сложностью интеграции траекторий рассуждений длительного горизонта в процессе генерации ответа, поскольку ограниченная ёмкость контекста препятствует полному учёту процесса рассуждений. Для решения этих проблем мы предлагаем ParallelMuse — двухэтапную парадигму, разработанную для глубоких ПИ-агентов. На первом этапе, Функционально-Специфицированное Частичное Развёртывание, сгенерированные последовательности разделяются на функциональные области с выполнением повторного использования и ветвления путей под управлением неопределённости для повышения эффективности исследования. На втором этапе, Агрегация Сжатых Рассуждений, используется избыточность рассуждений для безпотерьного сжатия информации, релевантной для вывода ответа, и синтеза согласованного итогового ответа. Эксперименты на множестве открытых агентов и бенчмарков демонстрируют до 62% улучшения производительности при сокращении потребления исследовательских токенов на 10–30%.
Исследования скейлинг-законов до сих пор были сосредоточены преимущественно на английском языке, в то время как ведущие модели ИИ явно обслуживают миллиарды международных пользователей. В данной работе мы проводим крупнейшее на сегодняшний день исследование многоязычных скейлинг-законов, включающее в общей сложности 774 многоязычных обучающих эксперимента, охватывающих модели от 10 млн до 8 млрд параметров, более 400 языков обучения и 48 языков оценки. Мы представляем Адаптивный трансферный скейлинг-закон (ATLAS) для одноязычного и многоязычного предварительного обучения, который превосходит обобщающую способность существующих скейлинг-законов на новых данных, часто более чем на 0.3 R^2. Наш анализ экспериментов проливает свет на динамику многоязычного обучения, свойства трансфера между языками и «проклятие многоязычия». Во-первых, мы выводим матрицу кросс-лингвального трансфера, эмпирически измеряя показатели взаимной пользы для 38 x 38 = 1444 пар языков. Во-вторых, мы выводим языково-независимый скейлинг-закон, который раскрывает, как оптимально масштабировать размер модели и данные при добавлении языков без ущерба для производительности. В-третьих, мы определяем вычислительные точки перехода, когда целесообразно проводить предварительное обучение с нуля, а когда — дообучение на основе многоязычных контрольных точек. Мы надеемся, что эти результаты заложат научную основу для демократизации скейлинг-законов для разных языков и позволят практикам эффективно масштабировать модели, выходя за рамки ИИ, ориентированного в первую очередь на английский язык.
Обучение критикующих языковых моделей для оценки и предоставления обратной связи на выходные данные моделей является перспективным способом улучшения БМО для сложных задач логического вывода. Однако существующие подходы обычно полагаются на более сильных супервайзеров для аннотирования данных критики. Чтобы решить эту проблему, мы предлагаем Critique-RL — онлайн-подход с обучением с подкреплением для разработки критикующих языковых моделей без привлечения более сильного надзора. Наш подход работает по парадигме двух игроков: актор генерирует ответ, критик предоставляет обратную связь, и актор соответствующим образом улучшает ответ. Сначала мы показываем, что опора исключительно на косвенные сигналы вознаграждения от выходных данных актора для RL-оптимизации часто приводит к неудовлетворительным критикам: хотя их полезность (т.е. способность предоставлять конструктивную обратную связь) улучшается, дискриминирующая способность (т.е. определение того, является ли ответ качественным или нет) остается низкой, что приводит к незначительному приросту производительности. Чтобы преодолеть это, Critique-RL использует двухэтапную стратегию оптимизации. На этапе I подход усиливает дискриминирующую способность критика с помощью прямых сигналов вознаграждения на основе правил; на этапе II он вводит косвенные вознаграждения на основе доработки актора, чтобы улучшить полезность критика, одновременно поддерживая его дискриминирующую способность за счет соответствующей регуляризации. Многочисленные эксперименты на различных задачах и моделях показывают, что Critique-RL обеспечивает существенное улучшение производительности. Например, для модели Qwen2.5-7B он демонстрирует прирост в 9,02% на внутридоменных задачах и 5,70% на внедоменных задачах, что подчеркивает его потенциал.
Агенты на основе больших языковых моделей (LLM) стали прорывным подходом к решению открытых задач, при этом информационный поиск (ИП) является ключевой способностью, обеспечивающей автономные рассуждения и принятие решений. В то время как предыдущие исследования в основном были сосредоточены на повышении глубины извлечения данных, мы наблюдаем, что современные ИП-агенты часто страдают от низкой эффективности поиска, что, в свою очередь, ограничивает общую производительность. Ключевым фактором, лежащим в основе этой неэффективности, является разреженность целевых сущностей в обучающих задачах, что ограничивает возможности агентов по обучению и обобщению эффективных поисковых поведений. Для решения этих проблем мы предлагаем WebLeaper — фреймворк для построения ИП-задач с высоким охватом и генерации эффективных траекторий решений. Мы формулируем ИП как древовидную проблему рассуждений, что позволяет внедрить значительно большее множество целевых сущностей в ограниченный контекст. Используя курируемые таблицы Википедии, мы предлагаем три варианта синтеза ИП-задач — Basic, Union и Reverse-Union — для систематического повышения как эффективности, так и результативности ИП. Наконец, мы курируем обучающие траектории, оставляя только те, которые одновременно точны и эффективны, гарантируя оптимизацию модели как на корректность, так и на производительность поиска. Многочисленные эксперименты в базовых и комплексных условиях, проведенные на пяти ИП-бенчмарках — BrowserComp, GAIA, xbench-DeepSearch, WideSearch и Seal-0 — демонстрируют, что наш метод стабильно достигает улучшений как по результативности, так и по эффективности по сравнению с сильными базовыми методами.
Смесь экспертов (MoE) стала мощной парадигмой для масштабирования емкости моделей при сохранении вычислительной эффективности. Несмотря на заметный успех в больших языковых моделях (LLM), существующие попытки применения MoE к диффузионным трансформерам (DiT) принесли ограниченный выигрыш. Мы объясняем этот разрыв фундаментальными различиями между языковыми и визуальными токенами. Языковые токены семантически плотны с выраженной вариативностью между токенами, тогда как визуальные токены демонстрируют пространственную избыточность и функциональную гетерогенность, что затрудняет специализацию экспертов в визуальном MoE. В связи с этим мы представляем ProMoE — фреймворк MoE с двухэтапным маршрутизатором и явными рекомендациями по маршрутизации, которые способствуют специализации экспертов. В частности, эти рекомендации побуждают маршрутизатор разделять изображения на условные и безусловные множества посредством условной маршрутизации в соответствии с их функциональными ролями, а также уточнять назначения условных токенов изображения через прототипную маршрутизацию с обучаемыми прототипами на основе семантического содержания. Более того, распределение экспертов на основе сходства в латентном пространстве, обеспечиваемое прототипной маршрутизацией, предлагает естественный механизм для включения явной семантической guidance, и мы подтверждаем, что такая guidance критически важна для визуального MoE. На основе этого мы предлагаем контрастную потерю для маршрутизации, которая явно усиливает процесс прототипной маршрутизации, способствуя внутриэкспертной когерентности и межэкспертному разнообразию. Обширные эксперименты на benchmark ImageNet демонстрируют, что ProMoE превосходит современные методы как при использовании Rectified Flow, так и DDPM в качестве целей обучения. Код и модели будут общедоступны.
На сегодняшний день практически не существует культурно-специфичных оценочных тестов для больших языковых моделей (LLM), охватывающих большое количество языков и культур. В данной статье мы представляем Global PIQA — коллективно созданный тест на проверку здравого смысла для более чем 100 языков, разработанный вручную 335 исследователями из 65 стран мира. 116 языковых вариантов в Global PIQA охватывают пять континентов, 14 языковых семей и 23 системы письма. В непараллельной части Global PIQA более 50% примеров содержат отсылки к местной кухне, обычаям, традициям или другим культурно-специфичным элементам. Мы обнаружили, что современные LLM в целом демонстрируют хорошие результаты на Global PIQA, но их производительность ниже для языков с ограниченными ресурсами (разрыв в точности достигает 37% при вероятности случайного угадывания 50%). Открытые модели, как правило, показывают худшие результаты по сравнению с проприетарными. Global PIQA подчеркивает, что для многих языков и культур повседневные знания остаются областью для улучшения, наряду с более широко обсуждаемыми возможностями, такими как сложные рассуждения и экспертные знания. Помимо своей полезности для оценки LLM, мы надеемся, что Global PIQA позволит заглянуть в огромное разнообразие культур, в которые погружен человеческий язык.
Несмотря на быстрый прогресс в мультимодальных больших языковых моделях и больших аудио-языковых моделях, существующие аудиобенчмарки в основном проверяют семантику, которую можно восстановить из текстовых описаний, маскируя недостатки в тонком перцептивном reasoning. Мы формализуем аудио 4D-интеллект, определяемый как reasoning над динамикой звука во времени и 3D-пространстве, и представляем STAR-Bench для его измерения. STAR-Bench сочетает базовое акустическое восприятие (шесть атрибутов в абсолютном и относительном режимах) с холистическим пространственно-временным reasoning, которое включает переупорядочивание сегментов для непрерывных и дискретных процессов, а также пространственные задачи, охватывающие статическую локализацию, отношения множественных источников и динамические траектории. Наш pipeline подготовки данных использует два метода для обеспечения высококачественных образцов. Для базовых задач мы используем процедурно синтезированное и физически смоделированное аудио. Для холистических данных мы следуем четырехэтапному процессу, включающему человеческую аннотацию и финальный отбор на основе человеческой производительности. В отличие от предыдущих бенчмарков, где ответы только по описанию слегка снижают точность, STAR-Bench вызывает гораздо большее падение (-31.5% временное, -35.2% пространственное), что доказывает его фокус на лингвистически трудных для описания сигналах. Оценка 19 моделей выявляет существенные разрывы по сравнению с человеком и иерархию способностей: проприетарные модели ограничены тонким восприятием, в то время как открытые модели отстают по восприятию, знаниям и reasoning. Наш STAR-Bench предоставляет ключевые идеи и четкий путь для разработки будущих моделей с более устойчивым пониманием физического мира.
Системы самоусовершенствования требуют взаимодействия со средой для непрерывной адаптации. Мы представляем SPICE (Self-Play In Corpus Environments) — фреймворк обучения с подкреплением, в котором единая модель действует в двух ролях: как Инициатор, который извлекает документы из большого корпуса для генерации разнообразных задач на рассуждение, и как Решатель, который их выполняет. Благодаря адверсарной динамике Инициатор создает автоматизированную учебную программу на границе возможностей Решателя, в то время как привязка к корпусу обеспечивает богатый, практически неисчерпаемый внешний сигнал, необходимый для устойчивого улучшения. В отличие от существующих методов самодостаточной самоподготовки, предлагающих более ограниченные преимущества, SPICE демонстрирует стабильный прогресс на бенчмарках математических (+8.9%) и общих (+9.8%) рассуждений для нескольких семейств моделей. Наш анализ показывает, что привязка к документам является ключевым компонентом SPICE для непрерывной генерации собственных, все более сложных целей и их достижения, что обеспечивает устойчивое самоусовершенствование.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) продемонстрировало впечатляющие успехи в математических и мультимодальных рассуждениях и стало стандартной парадигмой пост-обучения для современных языковых и визуально-языковых моделей. Однако методология RLVR сопряжена со значительным риском регрессии способностей, когда модели забывают базовые навыки после продолжительного обучения без применения стратегий регуляризации. Мы эмпирически подтверждаем эту проблему, наблюдая у моделей рассуждений с открытым исходным кодом деградацию производительности в таких ключевых областях, как восприятие и достоверность. Хотя введение регуляризационных членов, таких как дивергенция Кульбака-Лейблера, может помочь предотвратить отклонение от базовой модели, эти члены рассчитываются для текущей задачи и, следовательно, не гарантируют сохранение широких знаний. В то же время широко используемое воспроизведение опыта в гетерогенных доменах затрудняет определение оптимального весового соотношения для каждого целевого показателя при обучении. Для решения этой проблемы мы предлагаем RECAP — стратегию воспроизведения с динамическим перевзвешиванием целевых функций для сохранения общих знаний. Наш механизм перевзвешивания адаптируется в онлайн-режиме на основе краткосрочных сигналов сходимости и нестабильности, смещая фокус пост-обучения с насыщенных целевых показателей на недостаточно эффективные или нестабильные. Наш метод является сквозным и легко применим к существующим конвейерам RLVR без необходимости обучения дополнительных моделей или сложной настройки. Многочисленные эксперименты на бенчмарках с моделями Qwen2.5-VL-3B и Qwen2.5-VL-7B демонстрируют эффективность нашего метода, который не только сохраняет общие способности, но и улучшает рассуждения за счет обеспечения более гибкого баланса между внутризадачными вознаграждениями.
Визуализация, как предметно-ориентированная, но широко используемая форма представления данных, является эффективным способом преобразования сложных наборов данных в интуитивно понятные выводы. Ее ценность определяется тем, насколько точно данные отображены, ясно переданы и эстетически оформлены. Однако оценивание качества визуализации представляет сложную задачу: в отличие от натуральных изображений, оно требует одновременной оценки точности кодирования данных, информационной выразительности и визуальной эстетики. Хотя мультимодальные большие языковые модели (MLLM) продемонстрировали впечатляющие результаты в эстетической оценке натуральных изображений, систематические бенчмарки для измерения их способностей в оценке визуализаций отсутствуют. Для решения этой проблемы мы представляем VisJudge-Bench — первый комплексный бенчмарк для оценки возможностей MLLM в анализе эстетики и качества визуализаций. Он содержит 3090 экспертно размеченных образцов из реальных сценариев, охватывающих одиночные визуализации, множественные визуализации и дашборды 32 типов графиков. Систематическое тестирование на этом бенчмарке показывает, что даже самые передовые MLLM (такие как GPT-5) все еще демонстрируют значительный разрыв с экспертами-людьми в суждениях, со средней абсолютной ошибкой (MAE) 0.551 и корреляцией с человеческими оценками всего 0.429. Для решения этой проблемы мы предлагаем VisJudge — модель, специально разработанную для оценки эстетики и качества визуализаций. Результаты экспериментов демонстрируют, что VisJudge существенно сокращает разрыв с человеческими оценками, снижая MAE до 0.442 (улучшение на 19.8%) и повышая согласованность с экспертами до 0.681 (улучшение на 58.7%) по сравнению с GPT-5. Бенчмарк доступен по адресу: https://github.com/HKUSTDial/VisJudgeBench.
Генерация изображений по тексту (T2I) сверхвысокого разрешения (UHR) достигла значительного прогресса. Однако остаются две ключевые проблемы: 1) отсутствие масштабного высококачественного набора данных UHR T2I и 2) игнорирование специализированных стратегий обучения для синтеза мелкозернистых деталей в сценариях UHR. Для решения первой проблемы мы представляем UltraHR-100K — высококачественный набор данных, содержащий 100 тыс. изображений UHR с подробными описаниями, который предлагает разнообразный контент и высокую визуальную достоверность. Каждое изображение имеет разрешение свыше 3K и тщательно отбирается на основе насыщенности деталями, сложности содержания и эстетического качества. Для решения второй проблемы мы предлагаем частотно-ориентированный метод пост-обучения, который улучшает генерацию мелких деталей в диффузионных моделях T2I. В частности, мы разрабатываем (i) детально-ориентированную выборку временных шагов (DOTS) для концентрации обучения на шагах денойзинга, критически важных для детализации, и (ii) мягкую частотную регуляризацию с весовыми коэффициентами (SWFR), которая использует дискретное преобразование Фурье (ДПФ) для мягкого ограничения частотных компонентов, способствуя сохранению высокочастотных деталей. Многочисленные эксперименты на наших предложенных эталонах UltraHR-eval4K демонстрируют, что наш подход существенно улучшает качество мелкозернистых деталей и общую достоверность генерации изображений UHR. Код доступен по адресу https://github.com/NJU-PCALab/UltraHR-100k.
Цепочка рассуждений (CoT) играет ключевую роль в повышении интерпретируемости и надежности больших визуально-языковых моделей (LVLM). Однако существующие алгоритмы обучения, такие как SFT, PPO и GRPO, могут плохо обобщаться на новые задачи логического вывода и сильно зависят от смещенной модели вознаграждения. Для решения этой проблемы мы переформулируем процесс рассуждения в LVLM как задачу апостериорного вывода и предлагаем масштабируемый алгоритм обучения на основе амортизационного вариационного вывода. Используя алгоритмы обучения с подкреплением, направленные на повышение разнообразия, мы вводим новую разреженную функцию вознаграждения для получения потактовых сигналов обучения, которые стимулируют разнообразные и правдоподобные латентные цепочки CoT, преодолевая ограничения детерминированного сэмплирования и избегая подгонки под функцию вознаграждения. Кроме того, мы реализуем стратегию масштабирования байесовского вывода, заменяя затратные методы Best-of-N и поиска по лучшим вариантам (Beam Search) на маргинальное правдоподобие для эффективного ранжирования оптимальных обоснований и ответов. Эмпирически мы демонстрируем, что предложенный метод улучшает современные LVLM по семи тестовым наборам для оценки логического вывода с точки зрения эффективности, способности к обобщению и интерпретируемости.
Вызов функций (FC) наделяет большие языковые модели (LLM) и автономные агенты способностью взаимодействовать с внешними инструментами, что является критически важной возможностью для решения сложных практических задач. Поскольку эта способность становится все более центральной для продвинутых систем ИИ, важность высококачественных многократных обучающих данных для ее развития и совершенствования невозможно переоценить. Существующие методы синтеза данных, такие как случайный сэмплинг окружения или ролевые игры с множеством агентов, недостаточно мощны для генерации высококачественных данных в условиях реального мира. Практические проблемы заключаются в трех аспектах: целенаправленное обучение модели, изоляция архитектуры инструментов и многократная логическая зависимость. Для устранения этих структурных недостатков мы представляем FunReason-MT — новую структуру для синтеза данных, предназначенную для многократного использования инструментов в реальных условиях. FunReason-MT преодолевает барьер сложности в данных многократного вызова функций за счет применения 1) взаимодействий на основе графа «Среда-API» для сбора разнообразных высококачественных траекторий, 2) расширенного синтеза инструментальных запросов для упрощения построения сложных запросов и 3) направленной итеративной цепочки для генерации сложных рассуждений (CoT). Оценки на Berkeley Function-Calling Leaderboard (BFCLv3) демонстрируют мощь нашего подхода: модель объемом 4B, обученная на данных, сгенерированных с помощью FunReason-MT, демонстрирует наилучшую производительность среди моделей сопоставимого размера, превосходя большинство закрытых моделей. Дальнейшее улучшение производительности на BFCLv4 подтверждает, что FunReason-MT предоставляет надежный и устойчивый источник для обучения агентов.
По мере того как крупные мультимодальные языковые модели (LVLM) все шире применяются в таких областях, как шопинг, здравоохранение и новости, они сталкиваются с повсеместным распространением убеждающего контента. Ключевой вопрос заключается в том, как эти модели функционируют в роли объектов убеждения — каким образом и почему они могут подвергаться влиянию убеждающих мультимодальных стимулов. Понимание как их восприимчивости к убеждению, так и эффективности различных убеждающих стратегий крайне важно, поскольку чрезмерно податливые модели могут усваивать вводящие в заблуждение убеждения, игнорировать предпочтения пользователей или генерировать неэтичные или небезопасные результаты при столкновении с манипулятивными сообщениями. Мы представляем MMPersuade — унифицированную структуру для систематического изучения динамики мультимодального убеждения в LVLM. Вклад MMPersuade включает: (i) комплексный мультимодальный набор данных, который объединяет изображения и видео с установленными принципами убеждения в коммерческих, субъективно-поведенческих и состязательных контекстах; и (ii) оценочную структуру, которая количественно определяет как эффективность убеждения, так и восприимчивость модели с помощью оценки согласия третьей стороны и самооценочных вероятностей токенов на истории диалогов. Наше исследование шести ведущих LVLM в качестве объектов убеждения выявило три ключевых вывода: (i) мультимодальные стимулы существенно повышают эффективность убеждения — и восприимчивость моделей — по сравнению с одним только текстом, особенно в сценариях дезинформации; (ii) заявленные предварительные предпочтения снижают восприимчивость, однако мультимодальная информация сохраняет свое убеждающее преимущество; и (iii) различные стратегии различаются по эффективности в разных контекстах: взаимность оказывается наиболее действенной в коммерческих и субъективных контекстах, а достоверность и логика преобладают в состязательных контекстах. Совместно анализируя эффективность убеждения и восприимчивость, MMPersuade закладывает принципиальную основу для разработки моделей, которые являются устойчивыми, согласованными с предпочтениями и этически выверенными при взаимодействии с убеждающим мультимодальным контентом.
Понимание объектов на уровне их составных частей является фундаментальной задачей для развития компьютерного зрения, компьютерной графики и робототехники. Хотя такие наборы данных, как PartNet, способствовали прогрессу в понимании 3D-частей, их зависимость от нетекстурированных геометрий и аннотаций, требующих участия экспертов, ограничивает масштабируемость и практическую применимость. Мы представляем PartNeXt — набор данных следующего поколения, который устраняет эти пробелы, предлагая более 23 000 высококачественных текстурированных 3D-моделей, аннотированных детальными иерархическими метками частей для 50 категорий. Мы проводим тестирование PartNeXt на двух задачах: (1) класс-независимая сегментация частей, где современные методы (например, PartField, SAMPart3D) испытывают трудности с детализированными и концевыми (leaf-level) частями, и (2) 3D-вопросно-ответная система, ориентированная на части объекта, — новый эталон для 3D-LLM, который выявляет значительные пробелы в открытом словарном заземлении частей. Кроме того, обучение Point-SAM на PartNeXt демонстрирует существенное преимущество по сравнению с PartNet, подчеркивая превосходное качество и разнообразие набора данных. Сочетая масштабируемую аннотацию, текстуро-зависимые метки и многозадачную оценку, PartNeXt открывает новые направления для исследований в области структурированного понимания 3D-объектов.
Крупные языковые модели (LLM) продемонстрировали, что масштабное предварительное обучение позволяет системам быстро адаптироваться к новым задачам с минимальным контролем в языковой области. Однако этот успех не получил столь же эффективного распространения в визуальной области, где модели, включая LLM, продолжают испытывать трудности с композиционным пониманием, эффективностью использования данных и решением задач общего назначения. Мы исследуем видео-диффузионные модели (VDM) как перспективное направление для преодоления этого разрыва. Предварительное обучение на пространственно-временных данных наделяет эти модели сильными индуктивными смещениями в отношении структуры и динамики, что, как мы предполагаем, может обеспечить широкую адаптивность к задачам. Чтобы проверить это, мы разрабатываем контролируемую оценку, в которой как предварительно обученная LLM, так и предварительно обученная VDM оснащаются легковесными адаптерами и получают задачи в их естественных модальностях. На наборах тестов, включающих ARC-AGI, ConceptARC, визуальные игры, планирование маршрутов и клеточные автоматы, VDM демонстрируют более высокую эффективность использования данных по сравнению со своими языковыми аналогами. В совокупности наши результаты указывают на то, что предварительное обучение на видео предоставляет индуктивные смещения, способствующие прогрессу в создании визуальных базовых моделей.
Генеративные модели достигли значительного прогресса в синтезе аудио с высокой точностью по коротким текстовым описаниям. Однако редактирование существующих аудиозаписей с использованием естественного языка до сих пор остаётся малоизученной областью. Современные подходы либо требуют полного описания редактируемого аудио, либо ограничены предопределёнными инструкциями, что снижает их гибкость. В данной работе мы представляем SAO-Instruct — модель на основе Stable Audio Open, способную редактировать аудиоклипы с использованием произвольных инструкций на естественном языке. Для обучения нашей модели мы создали набор данных из троек редактирования аудио (исходное аудио, инструкция по редактированию, результат) с применением Prompt-to-Prompt, DDPM-инверсии и ручного редактирования. Несмотря на частичное обучение на синтетических данных, наша модель хорошо обобщается на реальные аудиоклипы из открытых источников и ранее не встречавшиеся инструкции. Мы демонстрируем, что SAO-Instruct показывает конкурентоспособные результаты по объективным метрикам и превосходит другие подходы к редактированию аудио в субъективном прослушивании. Для содействия будущим исследованиям мы публикуем наш код и веса модели.
Передовые системы искусственного интеллекта демонстрируют растущий потенциал в качестве ассистентов для научных исследований и в перспективе могут быть полезны в рамках расширенных, открытых исследовательских процессов. Однако, чтобы использовать такие системы для проведения новых исследований, необходимо сначала оценить достоверность и корректность их работы. Для оценки ИИ-ассистентов мы представляем ReplicationBench — систему оценки, которая проверяет способность систем воспроизводить полные научные статьи из области астрофизики. Астрофизика, где исследования в значительной степени опираются на архивные данные и вычислительные методы, практически не требуя натурных экспериментов, представляет собой особенно полезный испытательный полигон для ИИ в науке. Мы разбиваем каждую статью на задачи, требующие от систем воспроизведения ключевых результатов работы, включая экспериментальную установку, выводы формул, анализ данных и код. Каждая задача разрабатывается совместно с авторами исходной статьи и нацелена на ключевой научный результат, что позволяет объективно оценивать как достоверность (следование исходным методам), так и корректность (техническую точность результатов). ReplicationBench является чрезвычайно сложной задачей для современных передовых языковых моделей: даже наиболее производительные модели набирают менее 20%. Мы анализируем траектории выполнения задач в ReplicationBench совместно с экспертами в предметной области и выявляем множество разнообразных типов сбоев, характерных для ИИ-систем в научных исследованиях. ReplicationBench устанавливает первый бенчмарк для задач астрофизических исследований в масштабе целой статьи, валидированный экспертами, раскрывает инсайты о производительности систем, применимые к другим областям data-driven науки, и предоставляет масштабируемую структуру для измерения надежности ИИ-систем в научных исследованиях.
В условиях стремительного расширения ландшафта данных извлечение знаний из неструктурированного текста становится критически важным для аналитики в реальном времени, временных выводов и динамических структур памяти. Однако традиционное построение статических графов знаний часто игнорирует динамическую и зависящую от времени природу реальных данных, ограничивая адаптивность к непрерывным изменениям. Более того, современные подходы с нулевым или малым количеством примеров, которые избегают специфичной для домена тонкой настройки или опоры на предварительно построенные онтологии, часто страдают от нестабильности при многократных запусках, а также неполного охвата ключевых фактов. Для решения этих проблем мы представляем ATOM (AdapTive and OptiMized), масштабируемый подход с малым количеством примеров, который строит и непрерывно обновляет Временные Графы Знаний из неструктурированных текстов. ATOM разбивает входные документы на минимальные, самодостаточные «атомарные» факты, повышая полноту и стабильность извлечения. Затем он строит атомарные ВГЗ из этих фактов, используя дуальную временную модель, которая различает момент наблюдения информации и период её действительности. Полученные атомарные ВГЗ затем объединяются параллельно. Эмпирические оценки показывают, что ATOM достигает примерно на 18% более высокой полноты, на 17% лучшей стабильности и снижения задержки более чем на 90% по сравнению с базовыми методами, демонстрируя высокий потенциал масштабируемости для построения динамических ВГЗ.
Крупные языковые модели (LLM) демонстрируют тревожную двойственность, будучи способными как к впечатляющему обобщению, так и к хрупкому, дословному запоминанию своих обучающих данных. Эта непредсказуемость подрывает их надежность в ответственных приложениях. В данной работе мы предлагаем единую концепцию для понимания, идентификации и управления этими различными режимами рассуждений. Во-первых, мы вводим теоретическую модель, основанную на принципе информационного бутылочного горлышка (Information Bottleneck, IB), формализующую обобщение как усвоение сжатого, релевантного для задачи представления, а запоминание — как неудачу сжатия. Опираясь на эту теорию, мы разрабатываем динамическое управление режимами (Dynamic Mode Steering, DMS) — новый алгоритм на этапе вывода, который состоит из двух компонентов: (1) легковесного линейного пробника, основанного на причинно-следственных связях, который идентифицирует мгновенную зависимость модели от запоминания, и (2) механизма динамического управления активациями, который мягко направляет вычисления модели в сторону предварительно идентифицированных цепей обобщения. Мы представляем DMS как форму адаптивного самоконтрастного декодирования. Эксперименты на задачах логического вывода и проверки достоверности показывают, что DMS значительно улучшает логическую согласованность и фактическую точность, предлагая тем самым принципиальный подход к повышению надежности LLM.
Совмещение визуально-языковых представлений наделяет современные визуально-языковые модели (VLM) мощными возможностями мультимодального вывода. Однако интерпретируемость компонента совмещения остаётся неисследованной из-за сложности отображения семантики мультимодальных представлений в унифицированный набор концептов. Для решения этой проблемы мы предлагаем VL-SAE — разреженный автоэнкодер, кодирующий визуально-языковые представления в скрытые активации. Каждый нейрон его скрытого слоя коррелирует с концептом, представленным семантически схожими изображениями и текстами, что позволяет интерпретировать эти представления с помощью единого набора концептов. Для установления нейрон-концептной корреляции мы стимулируем семантически схожие представления к согласованной активации нейронов в процессе самообучения. Во-первых, для измерения семантического сходства мультимодальных представлений мы выполняем их явное совмещение на основе косинусного сходства. Во-вторых, мы конструируем VL-SAE с дистанционным энкодером и двумя модально-специфичными декодерами для обеспечения согласованности активаций семантически схожих представлений. Эксперименты на различных VLM (например, CLIP, LLaVA) демонстрируют превосходную способность VL-SAE в интерпретации и улучшении визуально-языкового совмещения. Для интерпретации совмещение визуальных и языковых представлений может быть понято через сравнение их семантики с концептами. Для улучшения совмещение может быть усилено на концептуальном уровне, что способствует повышению производительности в downstream-задачах, включая zero-shot классификацию изображений и устранение галлюцинаций. Код доступен по адресу https://github.com/ssfgunner/VL-SAE.
В последнее время обучение с подкреплением на основе GRPO показало значительный прогресс в оптимизации моделей потокового согласования, эффективно улучшая их соответствие целевым задачам. В этих рамках обновление политики опирается на ограничение коэффициентов важности для сдерживания излишне уверенных положительных и отрицательных градиентов. Однако на практике наблюдается систематический сдвиг в распределении коэффициентов важности — их среднее значение падает ниже 1, а дисперсия существенно варьируется на разных временных шагах. Это смещенное влево и несогласованное распределение не позволяет примерам с положительным преимуществом попадать в область ограничения, в результате чего механизм не справляется с сдерживанием излишне уверенных положительных обновлений. Как следствие, модель политики неизбежно вступает в этап неявной сверхоптимизации — в то время как суррогатная награда продолжает расти, ключевые метрики, такие как качество изображения и соответствие текстовому промпту, резко ухудшаются, что в конечном итоге делает изученную политику непригодной для практического применения. Для решения этой проблемы мы представляем GRPO-Guard — простое, но эффективное улучшение существующих фреймворков GRPO. Наш метод включает нормализацию коэффициентов, которая восстанавливает сбалансированное и согласованное по шагам отношение важности, обеспечивая корректное ограничение вредоносных обновлений на всех шагах удаления шума. Дополнительно стратегия перевзвешивания градиентов выравнивает градиенты политики по условиям шума, предотвращая чрезмерные обновления из определенных временных областей. В совокупности эти решения действуют как регулируемый механизм ограничения, стабилизируя оптимизацию и существенно смягчая неявную сверхоптимизацию без reliance на тяжелую KL-регуляризацию. Многочисленные эксперименты на различных диффузионных архитектурах (например, SD3.5M, Flux.1-dev) и разнообразных суррогатных задачах демонстрируют, что GRPO-Guard значительно снижает сверхоптимизацию, сохраняя или даже улучшая качество генерации.
Топологическая оптимизация (ТО) является ключевым методом в инженерном проектировании, но остается вычислительно сложной из-за сложной физики и жестких ограничений. Существующие методы глубокого обучения ограничены фиксированными квадратными сетками, небольшим набором жестко заданных граничных условий и пост-оптимизацией, что препятствует их широкому применению. Мы представляем Optimize Any Topology (OAT) — фреймворк-фундаментальную модель, которая напрямую предсказывает минимально-жесткие конфигурации для произвольных соотношений сторон, разрешений, объемных долей, нагрузок и закреплений. OAT сочетает автоэнкодер, не зависящий от разрешения и формы, с декодером на основе неявных нейросетевых полей и условной латентно-диффузионной моделью, обученной на OpenTO — новом корпусе из 2.2 миллионов оптимизированных структур, охватывающих 2 миллиона уникальных конфигураций граничных условий. На четырех публичных бенчмарках и двух сложных тестах на неизвестных данных OAT снижает среднюю податливость до 90% по сравнению с лучшими предыдущими моделями и обеспечивает вывод менее чем за 1 секунду на одном GPU для разрешений от 64x64 до 256x256 и соотношений сторон до 10:1. Эти результаты устанавливают OAT как универсальный, быстрый и независимый от разрешения фреймворк для физически осознанной топологической оптимизации и предоставляют масштабный набор данных для стимулирования дальнейших исследований в области генеративного моделирования для обратного проектирования. Код и данные доступны по адресу https://github.com/ahnobari/OptimizeAnyTopology.
Достоверное рассуждение в медицинских визуально-языковых моделях (VLM) требует не только точных прогнозов, но и прозрачного соответствия между текстовыми обоснованиями и визуальными свидетельствами. Хотя prompting по методу цепочки мыслей (CoT) показал перспективность в медицинском визуальном вопросе-ответе (VQA), ни один крупномасштабный набор данных экспертного уровня не фиксировал пошаговые рассуждения с точной визуальной привязкой. Мы представляем S-Chain — первый крупномасштабный набор данных, содержащий 12 000 медицинских изображений с экспертными разметками (bounding boxes) и структурированными визуальными цепочками мыслей (SV-CoT), которые явно связывают визуальные области с шагами рассуждений. Набор данных дополнительно поддерживает 16 языков, в сумме предоставляя более 700 тыс. пар «вопрос-ответ» для широкой многозадачной применимости. Используя S-Chain, мы провели сравнительный анализ современных медицинских VLM (ExGra-Med, LLaVA-Med) и универсальных VLM (Qwen2.5-VL, InternVL2.5), показав, что обучение с SV-CoT существенно улучшает интерпретируемость, точность визуальной привязки и устойчивость. Помимо бенчмаркинга, мы изучили синергию метода с генерацией, усиленной поиском, раскрыв, как предметные знания и визуальная привязка взаимодействуют в процессе авторегрессивного рассуждения. Наконец, мы предлагаем новый механизм, усиливающий соответствие между визуальными свидетельствами и рассуждениями, что повышает как надежность, так и эффективность. S-Chain устанавливает новый стандарт для обоснованного медицинского рассуждения и открывает путь к созданию более надежных и объяснимых медицинских VLM.
Мы представляем всестороннюю оценку способности больших языковых моделей (LLM) обрабатывать культурно-обусловленный язык, в частности, понимать и прагматически использовать образные выражения, кодирующие локальные знания и культурные нюансы. Используя образный язык в качестве индикатора культурных нюансов и локальных знаний, мы разработали оценочные задания на контекстуальное понимание, прагматическое использование и интерпретацию коннотаций для арабского и английского языков. Мы оценили 22 открытые и проприетарные LLM на идиомах египетского арабского, многодиалектных арабских пословицах и английских пословицах. Наши результаты демонстрируют устойчивую иерархию: средняя точность для арабских пословиц на 4.29% ниже, чем для английских, а производительность на египетских идиомах на 10.28% ниже, чем на арабских пословицах. В задаче на прагматическое использование точность снижается на 14.07% по сравнению с пониманием, хотя предоставление контекстных идиоматических предложений повышает точность на 10.66%. Модели также испытывают трудности с коннотативным значением, достигая максимум 85.58% согласия с аннотаторами-людьми для идиом со 100% межаннотаторным согласием. Эти результаты демонстрируют, что образный язык служит эффективным диагностическим инструментом для оценки культурного мышления: хотя LLM часто могут интерпретировать переносное значение, они сталкиваются с трудностями в его уместном использовании. Для поддержки будущих исследований мы публикуем Kinayat — первый набор данных идиом египетского арабского языка, предназначенный для оценки как образного понимания, так и прагматического использования.
Векторные представления патентных текстов позволяют осуществлять поиск аналогов, анализ технологических ландшафтов и патентный анализ, однако существующие эталоны неадекватно отражают специфические для патентной области сложности. Мы представляем PatenTEB — комплексный эталон, включающий 15 задач по поиску, классификации, определению парафраз и кластеризации с 2,06 миллионами примеров. PatenTEB использует доменно-стратифицированные разбиения, доменно-специфичный подбор сложных негативных примеров и систематическое покрытие асимметричных сценариев сопоставления фрагментов с документами, отсутствующих в общих эталонах для векторных представлений. Мы разработали семейство моделей patembed с помощью многозадачного обучения, охватывающее архитектуры от 67 млн до 344 млн параметров с длиной контекста до 4096 токенов. Внешняя валидация демонстрирует сильную обобщающую способность: patembed-base достигает state-of-the-art на MTEB BigPatentClustering.v2 (V-мера 0,494 против предыдущего лучшего показателя 0,445), а patembed-large показывает результат 0,377 NDCG@100 на DAPFAM. Систематические абляции показывают, что многозадачное обучение улучшает внешнюю обобщающую способность, несмотря на незначительное снижение метрик на эталоне, а доменно-предобученная инициализация обеспечивает стабильные преимущества для разных семейств задач. Все ресурсы будут доступны по адресу https://github.com/iliass-y/patenteb. Ключевые слова: патентный поиск, векторные представления предложений, многозадачное обучение, асимметричный поиск, оценка эталонов, контрастивное обучение.