Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые агенты для ролевых игр (RPLA) должны изображать персонажей, чьи ценности и поведение меняются по мере развития сюжета, а не сохранять фиксированную личность. Существующие бенчмарки измеряют точность воспроизведения фактов в конкретной главе, но не то, соответствуют ли ответы психологической траектории персонажа, особенно в сценариях, которые исходный текст никогда не исследовал. Мы представляем ArcANE (Arc-Aware Narrative Evaluation) — автоматически сконструированный бенчмарк, охватывающий 17 романов и 80 главных персонажей. Арка персонажа (Character Arc) разделяет повествование на фазы вдоль психологической оси, и каждый пробный запрос предъявляет один и тот же сценарий в разных фазах, охватывая как ситуации из исходного текста, так и ситуации за его пределами. На шести моделях и шести режимах контекста обусловливание аркой персонажа превосходит все остальные стратегии контекста на каждой модели, причем разрыв наиболее велик на сценариях вне исходного текста, где извлечение информации не находит ничего. Кроме того, мы дообучаем модели с открытым весом на тех же данных, получая ArcANE-8B/32B, которые ещё сильнее увеличивают преимущество арки на сценариях за пределами исходного текста.
Агенты широко применяются в качестве ассистентов для работы с документами, инструментами и кодом. Однако они, как правило, действуют только по явным запросам пользователя, которые выявляют лишь те проблемы, которые пользователь уже заметил, тогда как множество других важных проблем остаются незамеченными, скрытыми на виду в более широком контексте пользователя, причем их общее количество заранее неизвестно. Мы формулируем эту задачу как обнаружение множества скрытых проблем из контекста, при котором сосуществующие проблемы должны быть выявлены, обоснованы подтверждающими доказательствами и дополнены конкретными действиями. Для этого мы представляем TIDE — итеративный фреймворк на основе шаблонов с двумя взаимодополняющими механизмами. В частности, исходя из наблюдения, что однопроходное прогнозирование фокусируется на наиболее заметных случаях и приводит к общим утверждениям, мы предлагаем итеративное обнаружение, которое на каждом раунде представляет небольшой пакет кандидатов с учетом уже найденного, так что последующие раунды расширяют охват; а также шаблоны рассуждений — многоразовые схемы, извлеченные из ранее решенных примеров, которые указывают, на какие контекстные сигналы обращать внимание и как их связывать, привязывая каждое предсказание к узнаваемому классу проблем. Мы валидируем TIDE на двух реалистичных сценариях — персональные рабочие пространства и репозитории программного обеспечения — с использованием четырех базовых моделей, демонстрируя существенные улучшения по сравнению с однократными и параллельными мультиагентными базовыми подходами в охвате задач, их выявлении и решении.
Планирование решения реальных задач с помощью языковых моделей часто предполагает учёт как мировых, так и пользовательских ограничений, которые могут быть полностью не определены заранее и постепенно раскрываются в ходе взаимодействия. Однако существующие бенчмарки всё ещё недостаточно исследуют адаптивное планирование в условиях таких постепенно раскрываемых двойных ограничений. Для устранения этого пробела мы представляем AdaPlanBench — динамический интерактивный бенчмарк для оценки способности агентов на основе больших языковых моделей (LLM) адаптивно планировать и перепланировать действия в условиях постепенно раскрываемых мировых и пользовательских ограничений. AdaPlanBench построен на основе 307 домашних задач и включает масштабируемый конвейер генерации ограничений, который дополняет каждую задачу двойными ограничениями. Во время выполнения агенты взаимодействуют со средой по многократному протоколу, в котором скрытые ограничения раскрываются только тогда, когда агент предлагает план, нарушающий их, что требует итеративного пересмотра плана по мере накопления обратной связи. Это делает планирование сложным, поскольку агенты должны выводить и отслеживать ограничения из обратной связи, одновременно эффективно перепланируя. Эксперименты на десяти ведущих LLM показывают, что адаптивное планирование в условиях двойных ограничений остаётся сложной задачей: наилучшая модель достигает лишь 67,75% точности. Кроме того, мы наблюдаем снижение производительности по мере накопления большего количества ограничений, причём пользовательские ограничения представляют особую сложность, а сбои часто возникают из-за более слабой физической обоснованности и снижения эффективности. Эти результаты утверждают AdaPlanBench как испытательный полигон для интерактивного планирования с двойными ограничениями и подчёркивают сложность надёжной адаптации к динамически раскрываемым ограничениям в агентах на основе LLM.
Мы представляем VideoKR — первый масштабный обучающий корпус, специально разработанный для усиления понимания видео, требующего знаний и интенсивных рассуждений. Он включает 315 000 примеров видеорассуждений на основе 145 000 вновь собранных видеороликов из экспертных областей, лицензированных по CC. Мы разработали ориентированный на навыки конвейер генерации примеров с участием человека, нацеленный на последовательное углубление способностей к видеорассуждению, при этом обеспечивая сложность, разнообразие и надежность как примеров, так и их обоснований в формате цепочек рассуждений (CoT). Мы также создали VideoKR-Eval — новый эталонный набор данных с экспертной разметкой, где вопросы требуют подлинного понимания видео и рассуждений, основанных на знаниях, а не на текстовых сокращениях. Наши эксперименты показывают, что в рамках стандартного конвейера SFT→GRPO модели, обученные на VideoKR, превосходят предыдущие подходы послетренировочного обучения в области видеорассуждений, требующих знаний, оставаясь при этом конкурентоспособными в общих видеорассуждениях. Это подчеркивает ключевую роль дизайна данных как движущей силы прогресса в видеорассуждениях. Мы также проводим всесторонние абляционные исследования для выделения вклада VideoKR, предоставляя практические идеи для будущих работ.
Предыдущие работы показали, что большие языковые модели (БЯМ) могут переводить невидимые ранее или низкоресурсные языки путем продолженного обучения или даже кодирования грамматического справочника в их контексте. Однако оба метода, как правило, переобучаются на конкретных языках, демонстрируя ограниченный нулевой перенос во время тестирования. Для перевода чрезвычайно низкоресурсных языков в масштабе мы утверждаем, что БЯМ должны приобрести мета-навык использования внутриконтекстных лингвистических знаний, а не запоминать конкретные языки. В этой статье мы предлагаем подход на основе обучения с подкреплением (RL) для перевода невидимых языков при наличии богатого лингвистического контекста, используя поверхностную метрику перевода (chrF) в качестве вознаграждения. Эмпирически, несмотря на легковесное вознаграждение, наши модели, обученные с помощью RL, эффективно извлекают и применяют соответствующую лингвистическую информацию из предоставленного контекста, что приводит к лучшим переводам на совершенно невидимые языки по сравнению с обучением в контексте или контролируемой тонкой настройкой. Наш анализ показывает, что обучение с подкреплением на основе результатов может выходить за рамки обычных задач рассуждения, таких как математика и программирование, и служить методом изучения языка из контекста.
Хотя бытовые роботы часто оцениваются по завершению задач, в повседневных домашних средах возникают ситуации ценностного конфликта, в которых от роботов ожидается выбор действий, отдающих приоритет другим ценностям, помимо успешного выполнения задачи, таким как автономия человека, эффективность или социальная уместность. Однако на сегодняшний день не существует бенчмарков для оценки ценностных предпочтений роботов в подобных сценариях. Мы представляем RobotValues — бенчмарк для оценки планировщиков бытовых роботов в 10 000 сценариях ценностного конфликта. Каждый экземпляр состоит из реалистичного изображения домашней обстановки с несколькими возможными действиями робота, каждое из которых отдает приоритет различным человеческим ценностям. RobotValues создан с помощью генерации сценариев на основе LLM, извлечения ценностей, обоснованных заинтересованными сторонами, генерации изображений и автоматического контроля качества. Используя RobotValues, мы оцениваем VLM (визуально-языковые модели), применяемые в робототехнике, и обнаруживаем, что модели демонстрируют стандартные ценностные предпочтения, включая безопасность и приспособление, при этом недостаточно выбирают действия, отдающие приоритет конфиденциальности. Когда моделям даются инструкции приоритизировать определенные ценности, конфликтующие с их собственными предпочтениями, они часто не могут отменить свои действия по умолчанию, выбирая неправильные действия в 80% случаев. Эти результаты показывают, что оценка бытовых роботов должна измерять не только завершение задач или соблюдение безопасности, но и способность роботов выбирать между возможными действиями в условиях конфликта человеческих ценностей.
Мы исследуем настройку ответов на визуальные вопросы на основе личного фотоархива. В этой настройке диалоговый ИИ-ассистент может получить доступ к личному фотоархиву пользователя и извлекать соответствующие фотографии для ответа на запросы, начиная от простых фактических вопросов (например, «Название блюда, которое я пробовал вчера?») до более открытых (например, «Порекомендуйте блюда, которые я никогда не пробовал»). Учитывая обширный характер личного фотоархива (т.е. множество лет, сотни или тысячи фотографий), успешный ИИ-ассистент должен понимать долгосрочный, высоко персонализированный поток визуального контента, чтобы ориентироваться и находить корректную и/или релевантную информацию. Для поддержки этого мы собираем и вручную размечаем вопросы, имитирующие реальное использование. Итоговый набор данных, camroll, содержит 50 пользователей, 31 476 изображений и 2 500 пар вопрос-ответ. Кроме того, мы разрабатываем camroll-agent — диалогового ИИ-агента, оснащенного иерархической памятью и минимальным набором инструментов для эффективной навигации по большой персонализированной визуальной памяти. Экспериментальные результаты показывают, что camroll-agent превосходит многочисленные базовые модели и методы систем ИИ-агентов для понимания длинного контекста. Вместе набор данных camroll и camroll-agent подчеркивают разрыв в долгоконтекстных рассуждениях ИИ-агентов: персонализированная визуальная память требует иных подходов по сравнению со стандартной долгоконтекстной текстовой памятью, особенно когда присутствуют согласованность, визуальные детали и специфический для пользователя контекст.
Разработка унифицированных моделей генерации и редактирования видео, способных интерпретировать перемежающиеся мультимодальные входные данные, является перспективным, но сложным направлением исследований. Существующие унифицированные архитектуры в основном полагаются на массивные модели (как правило, от 13 миллиардов параметров и более) и включают исходные видеоусловия для редактирования путём конкатенации токенов последовательности. Такая конкатенация неизбежно удваивает длину последовательности, что приводит к четырехкратному росту вычислительной сложности механизма самовнимания и создает запретительно высокие накладные расходы. Для решения этих проблем мы представляем LoomVideo — высокоэффективную унифицированную архитектуру с 5 миллиардами параметров, предназначенную как для генерации, так и для редактирования видео. LoomVideo заменяет стандартный текстовый энкодер на мультимодальную большую языковую модель (MLLM) и использует механизм глубокой инъекции (Deepstack) для согласования многослойных признаков MLLM с диффузионным трансформером (DiT). Ключевым нововведением является метод внесения условий Scale-and-Add с нулевыми накладными расходами для редактирования видео. Благодаря масштабированию и прямому сложению скрытого представления чистого исходного видео с зашумленным скрытым представлением целевого видео эта элегантная архитектура устраняет необходимость в конкатенации токенов, что резко снижает вычислительные затраты, сохраняя при этом надежные возможности для сложных нежестких правок. Кроме того, для работы с несколькими опорными изображениями бесшовно интегрирована стратегия Negative Temporal RoPE. Обширные эксперименты демонстрируют, что наша компактная модель с 5 миллиардами параметров достигает передовых или высококонкурентных результатов по всем комплексным бенчмаркам, проявляя исключительное превосходство в сценариях электронной коммерции и генерации модной одежды. Благодаря механизму внесения условий с нулевыми накладными расходами LoomVideo обеспечивает как минимум 5,41-кратное ускорение вывода по сравнению с моделями аналогичных возможностей, открывая путь к созданию высокопрактичных и эффективных фундаментальных видео-моделей.
Стандартные непрерывные по времени генеративные модели опираются на монолитные архитектуры, которые должны ориентироваться в кардинально различных режимах сигналов — от изотропного шума до сложных распределений данных. Хотя увеличение емкости модели улучшает производительность, развертывание массивной сети единообразно на всем протяжении генеративного временного ряда по своей сути неэффективно. В этой работе мы предлагаем принципиальный фреймворк для распределения временной емкости — байесовское разбиение с балансировкой сложности (Complexity-Balanced Splitting, CBS), который распределяет генеративную нагрузку между несколькими специализированными подсетями. Основанный на теории аппроксимации функций и принципе равномерного распределения де Бура, CBS делит временной ряд диффузии на сегменты с равной аппроксимационной нагрузкой, выделяя больше репрезентативной способности областям, где генеративная динамика труднее поддается моделированию. Для оценки локальной сложности мы вводим две взаимодополняющие и вычислимые функции мониторинга: пространственную меру, основанную на энергии Дирихле потока, и геометрическую меру, основанную на ускорении траекторий выборки. Используя легковесную вспомогательную модель для оценки этих профилей сложности, наш подход устраняет необходимость в эвристических временных разбиениях или вычислительно затратных процедурах поиска. Обширная оценка на нескольких архитектурах (SiT, JiT и UNet) и наборах данных демонстрирует, что CBS последовательно улучшает качество синтеза без увеличения стоимости инференса на шаг. В частности, CBS улучшает FID примерно на 35% на SiT-XL с CFG по сравнению с наивным временным разбиением. Страница проекта доступна по адресу https://noamissachar.github.io/CBS/.
Интернализация опыта преобразует контекстный опыт из прошлых взаимодействий в многократно используемые параметрические способности, открывая многообещающий путь к непрерывному обучению в больших языковых моделях (LLM). В то время как предыдущие работы были преимущественно сосредоточены на переносе за одну итерацию, мы обнаруживаем, что в условиях многоитерационного обучения на опыте существующие методы страдают от прогрессирующего коллапса способностей, а не от нарастающего улучшения. Мы систематически исследуем этот сбой через три ключевых измерения интернализации опыта: (1) Гранулярность опыта: Мы обнаруживаем, что опыт на уровне принципов более устойчив, чем опыт на уровне примеров, поскольку он эффективно абстрагирует переносимые стратегии от деталей, специфичных для траекторий. (2) Схема внедрения опыта: Наш анализ показывает, что пошаговое внедрение значительно превосходит глобальное внедрение, согласуя опыт с промежуточными состояниями принятия решений — свойство, критически важное для использования инструментов в задачах с длинным горизонтом. (3) Режим интернализации: Мы демонстрируем, что дистилляция контекста вне политики на высококачественных траекториях учителя обеспечивает значительно более стабильный обучающий сигнал, чем дистилляция контекста на политике, которая по своей сути ограничена локальными корректировками на ошибочных состояниях, вызванных студентом. В совокупности эти идеи дают простой, но надежный рецепт для стабильной и устойчивой интернализации опыта, предоставляя конкретные рекомендации для разработки саморазвивающихся и непрерывно обучающихся LLM.
Существующие наборы данных для автономного вождения позволили добиться значительного прогресса, однако не обеспечивают достаточной точности сенсоров, полноты карт или географического разнообразия. Мы представляем KITScenes Multimodal — европейский набор данных, построенный на основе высокоточных сенсоров и карт. Наш полностью синхронизированный набор сенсоров объединяет камеры с глобальным затвором высокого разрешения, лидар дальнего действия (свыше 400 м), 4D-радар визуализации и избыточную систему GNSS/INS для локализации. Наши карты высокой детализации (HD-карты), насколько нам известно, являются наиболее полными среди всех наборов сенсорных данных, что подтверждено испытаниями автономного вождения на программном обеспечении с открытым исходным кодом. Впервые в общедоступном наборе данных все дорожные элементы, значимые для вождения, такие как светофоры, отображены в трёхмерном виде с точностью, достаточной для обратного проецирования, и с полной топологической связностью. Записанные в городах с нерегулярной уличной планировкой и смешанными транспортными потоками, наши данные дополняют существующие наборы, расширяя доступное географическое разнообразие. Мы также вводим четыре эталонных теста, каждый из которых развивает пространственное обучение для воплощённого ИИ: построение HD-карт в реальном времени, оценка глубины на больших расстояниях, синтез новых видов и сквозное вождение. Страница проекта: https://kitscenes.com/
Модели генерации видео достигли впечатляющих успехов в синтезе визуально убедительного контента, однако их результаты остаются ограничены виртуальной областью. Возникает естественный вопрос: насколько хорошо эти модели отражают физический мир, когда сгенерированные ими видео покидают экран и попадают в реальность? Мы предлагаем роботизированную манипуляцию как конкретное и измеримое окно в этот вопрос: если модель действительно усвоила физические законы, то изображаемое ею движение должно преобразовываться в выполнимые действия робота. Мы представляем Dream.exe — оценочный фреймворк, который операционализирует данный критерий через конвейер от видео к выполнению. Получив изображение сцены и описание задачи, Dream.exe синтезирует манипуляционное видео, преобразует сгенерированное движение в траектории робота и выполняет их в симуляторе физики, что дает сигнал привязки к реальности, недоступный чисто визуальным метрикам. С помощью этого конвейера мы оцениваем 8 моделей, охватывающих передовые генераторы с закрытым исходным кодом, генераторы с открытым исходным кодом и специализированные для роботов модели. Наш бенчмарк включает 101 вручную отобранную задачу манипуляции на трех уровнях физической сложности, оцениваемую по визуальному качеству, точности траектории и успешности выполнения. Обнадеживает то, что несколько моделей демонстрируют измеримую успешность выполнения, что предполагает, что генеративные априорные знания, полученные из данных интернет-масштаба, уже кодируют значимые физические знания. Однако визуальное качество оказывается плохим предиктором выполнимости, раскрывая измерение возможностей модели, которое не улавливается стандартными визуальными оценками. Dream.exe будет опубликован в открытом доступе по адресу https://github.com/showlab/Dream.exe.
Аугментация навыков на этапе логического вывода предоставляет легковесный способ улучшения агентов анализа данных за счет внедрения повторно используемых процедурных знаний без обновления параметров модели. Однако обнаружение эффективных навыков для анализа данных остается сложной задачей, поскольку надежный контроль требует значительных затрат, а критерии успеха варьируются в зависимости от форматов анализа. Это поднимает ключевой вопрос: как обнаружить повторно используемые навыки анализа данных, опираясь исключительно на немаркированное исследование? Мы предлагаем DataCOPE — фреймворк для неконтролируемого обнаружения навыков с верификатором для агентов анализа данных. DataCOPE извлекает сигналы верификатора из траекторий исследования и использует их для характеристики относительного качества или согласованности между траекториями. Он итеративно координирует агента анализа данных для генерации траекторий, неконтролируемый верификатор для извлечения сигналов и менеджера навыков для контрастивной дистилляции навыков. Для анализа в формате отчета мы реализуем верификатор как адаптивный верификатор контрольного списка, который выводит критерии, специфичные для задачи, оценивает отчеты по проверяемому охвату и итеративно уточняет контрольный список. Для анализа в формате рассуждения мы реализуем его как верификатор согласованности ответов, который группирует траектории по согласованности ответов и использует самосогласованность в качестве вспомогательного сигнала. Мы оцениваем DataCOPE на анализе в формате отчета из Deep Data Research и анализе в формате рассуждения из DABStep. В обоих сценариях DataCOPE последовательно улучшает результаты на отложенных данных по сравнению с базовыми подходами. В среднем по четырем конфигурациям моделей DataCOPE повышает средний балл на 9,71% и 32,30% для задач в формате отчета и рассуждения соответственно.
Большие языковые модели могут воспроизводить обучающие данные, но существующие оценки запоминания в основном измеряют, можно ли заставить модели делать это, а не делают ли они это при обычном использовании. Мы представляем PropMe — фреймворк, учитывающий склонность, для оценки запоминания, который противопоставляет атаки на основе префиксов (атаки, основанные на способности) невраждебным оценкам. Мы предлагаем преобразование метрик, которое, будучи примененным к существующим функциям, позволяет создавать метрики склонности. Мы также представляем SimpleTrace — легковесный конвейер трассировки, построенный на infini-gram, который детерминированно приписывает сгенерированные моделью данные крупномасштабным обучающим корпусам и вычисляет метрики запоминания: дословные, почти дословные и преобразованные с учетом склонности. Оценивая две полностью открытые модели: Comma и DFM Decoder на двух наборах данных: Common Pile и Dynaword на двух языках, мы обнаруживаем устойчивый разрыв между способностью и склонностью: атаки на основе префиксов вызывают значительно более сильные сигналы запоминания, чем общие или специфичные для набора данных промпты, в то время как показатели склонности в целом остаются низкими. Таким образом, модели могут раскрывать обучающие данные при прямом запросе, но редко делают это в более распространенных невраждебных условиях. Мы также обнаруживаем, что DFM Decoder, который непрерывно предобучается на основе Comma, демонстрирует сниженное запоминание и склонность к запоминанию для Common Pile, что подтверждает, что способность к запоминанию может уменьшаться, когда последующее обучение акцентируется на частично отличающихся данных. Наши результаты показывают, и мы рекомендуем, чтобы аудиты запоминания сообщали как о наихудшей извлекаемости, так и об обычной склонности к утечке, чтобы получить более полное представление об этом явлении.
Политико-ориентированная дистилляция (On-policy distillation, OPD) контролирует студента только в пространстве выходных данных путем согласования вероятностей следующего токена. Эта парадигма, ограниченная только выходными данными, имеет два недостатка: (1) вариативность выборки из-за оценок Монте-Карло расхождения Кульбака–Лейблера (KL) для большого словарного запаса (например, ~150 тыс. токенов у Qwen) сохраняется на протяжении всего обучения, и (2) она рассматривает учителя как «черный ящик», отбрасывая все промежуточные скрытые состояния после головы языковой модели (LM head). Мы предлагаем политико-ориентированную дистилляцию представлений (On-Policy Representation Distillation, OPRD), которая переносит дистилляцию в пространство скрытых состояний путем выравнивания представлений студента и учителя на выбранных слоях на одних и тех же роллаутах, полностью минуя голову LM. Теоретически OPRD устраняет вариативность выборки и предоставляет более богатую структурную информацию на уровне слоев. Эмпирически OPRD сокращает разрыв между студентом и учителем на AIME 2024/2025 и AIMO, в то время как базовые методы OPD в пространстве выходных данных достигают плато ниже уровня учителя. OPRD также обучается в 1,44 раза быстрее и использует на 54% меньше памяти, чем top-k OPD. Код: https://github.com/ShenzhiYang2000/OPRD.
Выделение является ключевой операцией в интерактивном редактировании изображений. Для практического применения пользователь должен иметь возможность задать и устранить неоднозначность желаемой области выделения с помощью текстовых или кликовых взаимодействий, а система должна поддерживать выделение не только объектов, но и других критериев, например, материалов. Выделение на основе материалов полезно для таких задач, как перетекстурирование поверхностей или редактирование экземпляров определённого материала. Однако существующие методы выделения на основе моделей "зрение-язык" (VLM) являются объектно-ориентированными и, как правило, поддерживают только одну модальность взаимодействия, что ограничивает их применимость. В данной работе мы представляем MAOAM (Mask Any Object And Material) — унифицированную систему выделения, обеспечивающую точное выделение объектов и материалов как на основе текстовых, так и кликовых взаимодействий. MAOAM использует VLM с головой сегментации для создания попиксельно точных масок по запросам пользователя: VLM интерпретирует намерение пользователя (выделение объекта или материала) и кодирует визуальные сущности, атрибуты и пространственные отношения, в то время как голова сегментации декодирует выходной токен в маску. Ключевой проблемой является отсутствие наборов данных для выделения материалов с текстовыми аннотациями. Мы предлагаем масштабируемый конвейер генерации данных: собираем реальные и синтетические изображения с масками материалов и используем VLM для генерации описаний материалов с богатой визуально-семантической информацией. Мы обучаем MAOAM с многоцелевой функцией потерь для кликового и текстового выделения, а также с вспомогательной задачей VQA, полученной из описаний материалов, для углублённого понимания материалов. Несмотря на обучение на одномодальных подсказках, наша модель демонстрирует эмерджентное улучшение выделения при комбинировании текста и кликов во время инференса, что позволяет реализовать гибкие рабочие процессы редактирования изображений. Эксперименты показывают точное и согласованное выделение разнообразных объектов, материалов и сценариев взаимодействия, что подчёркивает практическую надёжность модели.
Масштабирование времени вывода стало важным направлением для повышения производительности больших языковых моделей, однако развертывание в реальных условиях ограничено строгими вычислительными бюджетами. В данной работе мы формулируем распределение бюджета вывода как глобальную задачу оптимизации с ограничениями, управляемую экономическими принципами. Моделируя полезность рассуждения на один запрос с помощью функции сдвинутого всплеска, мы выводим оптимальную политику распределения на основе глобальной теневой цены, которая уравновешивает предельную полезность в условиях дефицита ресурсов. Основываясь на этой теории, мы предлагаем Constrained Latent-utility Equilibrium Allocation for Reasoning (CLEAR). Он выполняет рациональный отказ и перераспределяет ресурсы от несостоятельных запросов к разрешимым запросам, близким к их порогам возникновения. Обширные эксперименты на нескольких задачах рассуждения с различными потоками трафика показывают, что CLEAR значительно улучшает границу Парето между общей стоимостью токенов и средней точностью. В условиях дефицита ресурсов CLEAR достигает трехкратного улучшения глобальной точности по сравнению с равномерным распределением.
Прогнозирование видео-событий (VEP) требует от моделей выводить ненаблюдаемые будущие состояния на основе частичных видеоданных. Существующие видео-мультимодальные большие языковые модели (MLLM) обычно вербализуют промежуточные рассуждения о будущем в текстовом пространстве: как только визуальные свидетельства вербализуются, детальные сигналы движения, геометрии и взаимодействия могут быть потеряны, что приводит к правдоподобным, но визуально необоснованным галлюцинациям. Мы представляем Future-L1 — структуру чередующихся латентных визуальных рассуждений, которая позволяет MLLM чередовать языковые токены и непрерывные латентные визуальные участки в процессе авторегрессивного декодирования. Для обучения этой способности мы создаем набор Future-L1-50K путем отбора примеров, в которых будущие визуальные подсказки помогают прогнозированию, и выравнивания латентных состояний по эмбеддингам будущих кадров, а затем дополнительно оптимизируем семплированные латентные траектории с помощью LA-DAPO — цели обучения с подкреплением (RL), учитывающей латентное состояние, с наградами за контраст исходов и временное разнообразие. Future-L1 достигает новых передовых результатов на обоих бенчмарках: на FutureBench он улучшает Qwen3-VL-8B с 61.0 до 85.4 и превосходит предыдущего лучшего участника Video-CoE на 10.4 балла; на TwiFF-Bench он повышает средний балл с 2.44 до 3.04. Эти результаты показывают, что ориентированное на будущее рассуждение в видео выигрывает от сохранения промежуточной визуальной семантики в латентном пространстве, а не от перевода каждого шага рассуждения в текст.
Мы представляем модели «мир-язык-действие» (WLA) как новый класс встроенных фундаментальных моделей. WLA принимает текстовые инструкции, изображения и состояния робота в качестве входных данных для совместного прогнозирования текстовых подзадач, образов подцелей и действий робота, объединяя интерфейс моделирования мира для обучения на обширных эгоцентричных видео, как в модели «мир-действие» (WAM), и возможности языкового рассуждения для решения сложных долгосрочных задач, как в моделях «зрение-язык-действие» (VLA). В основе WLA лежит авторегрессионный (AR) бэкбон Transformer, а не двунаправленный диффузионный Transformer, как в WAM, для прогнозирования следующего состояния, включающего семантические текстовые намерения и дополняющие их мелкозернистые физические динамики. Физические динамики контролируются целью моделирования мира на основе специализированного мирового эксперта и используются для облегчения характеристики корреляции между состоянием и действием для эксперта по действиям. WLA использует метазапросы, чтобы прогноз мира неявно влиял на генерацию действий, что позволяет отключать первый во время вывода. Прогноз мира также может быть активирован для масштабирования во время тестирования с целью улучшения управления роботом. Наш прототип WLA-0 с 2 млрд активных параметров достигает 40 мс на один вывод на NVIDIA RTX 5090. Оценки в моделируемых и реальных средах показывают, что WLA-0 демонстрирует передовые способности к многозадачному и долгосрочному обучению, например, 92,94% успеха на RoboTwin2.0 Clean и 56,5% успеха на RMBench. WLA-0 также обещает возможность обучения новым задачам непосредственно на основе кросстемпоральных видео роботов без аннотаций действий.
Агенты на основе LLM с расширенной памятью решают сложные задачи с длинным горизонтом, рекурсивно обобщая траектории взаимодействий в компактную память. Однако существующие подходы обычно обучают такие политики памяти с помощью обучения с подкреплением, основанного на исходе, что не позволяет локализовать ухудшение качества промежуточной памяти. По мере развертывания взаимодействий неоднозначные рекурсивные обобщения постепенно отбрасывают релевантную задаче информацию и вносят семантический шум. Это усиливает отклонение убеждения, затрудняя оценку агентом скрытого состояния задачи и в конечном итоге нарушая рассуждения с длинным горизонтом. Поэтому мы утверждаем, что оптимизация памяти должна быть сосредоточена не только на успешности траекторий, но и на четкости убеждения, формируемого промежуточными обобщениями. Для этого мы вводим энтропию убеждения — самонастраиваемый прокси, который оценивает, насколько неопределенной остается модель относительно скрытого состояния задачи при текущей памяти. На основе этого прокси мы предлагаем метакогнитивную оптимизацию политики памяти (MMPO). Вместо опоры только на разреженные сигналы, основанные на исходе, MMPO обеспечивает детализированное, специфичное для памяти управление, явно штрафуя обобщения, приводящие к высокой эпистемической неопределенности. Эксперименты показывают, что MMPO стабильно превосходит существующие методы в разнообразных задачах с длинным горизонтом, сохраняя 97,1% производительности даже при масштабировании до контекстов длиной 1,75 млн токенов.
Временная привязка (TG) направлена на локализацию видеосегментов, соответствующих текстовому запросу. Предыдущие исследования в основном сосредоточены на поиске одиночных сегментов. Однако реальные сценарии часто требуют локализации нескольких непересекающихся сегментов для одного запроса — постановку, которую мы называем темпоральной привязкой «один ко многим» (OMTG). Предыдущие самые современные MLLM, оптимизированные для сценариев «один к одному», испытывают трудности в этом контексте, часто давая почти нулевые результаты из-за отсутствия восприятия числа событий. Чтобы устранить этот пробел, мы представляем систематическое решение с тремя ключевыми вкладами. Во-первых, мы создаем первый всеобъемлющий бенчмарк OMTG, вводя точность подсчета (C-Acc) и эффективную темпоральную F1-меру (EtF1) в качестве метрик оценки. Во-вторых, мы составляем высококачественный набор данных OMTG, содержащий 56 тысяч примеров, с помощью сложного конвейера сборки. В-третьих, мы разрабатываем новые функции вознаграждения на основе времени и подписей, специально предназначенные для OMTG. В частности, функция вознаграждения за подписи использует цепочку рассуждений (Chain-of-Thought) на основе плотных видеоподписей, чтобы явно направлять оптимизацию политики в сторону как точности, так и полноты. Обширные эксперименты показывают, что наша модель достигает нового уровня производительности с EtF1 43.65% на OMTG Bench, превосходя Gemini 2.5 Pro и Seed-1.8 на 15.85% и 15.61% соответственно.
Агенты на основе больших языковых моделей (LLM) все чаще применяются для решения задач с долгосрочным горизонтом, таких как научные открытия и разработка машинного обучения (MLE), где ключевой способностью становится устойчивая самоэволюция. Однако существующие MLE-агенты страдают от изоляции информации между ветвями, поиска без памяти и отсутствия иерархического управления, что в совокупности препятствует долгосрочной оптимизации. Мы представляем MLEvolve — самоэволюционирующий многомодульный фреймворк на основе LLM для сквозного открытия алгоритмов машинного обучения. Расширяя древовидный поиск до прогрессивного MCGS, MLEvolve обеспечивает межветвевой поток информации с помощью графовых опорных ребер и постепенно переводит поиск от широкого исследования к целенаправленной эксплуатации, используя прогрессивный график, вдохновленный энтропией. Чтобы позволить агенту эволюционировать с накопленным опытом, мы вводим ретроспективную память, которая объединяет базу знаний предметной области с холодным стартом и динамическую глобальную память для извлечения и повторного использования опыта, специфичного для задачи. Для стабильной долгосрочной итерации мы дополнительно разделяем стратегическое планирование и генерацию кода с помощью адаптивных режимов кодирования. Оценка на MLE-Bench показывает, что MLEvolve достигает передовой производительности по нескольким параметрам, включая средний показатель медалей и долю успешных отправок при бюджете в 12 часов (половина стандартного времени выполнения). Более того, MLEvolve превосходит специализированные методы открытия алгоритмов, включая AlphaEvolve, в задачах оптимизации математических алгоритмов, демонстрируя сильную междоменную обобщаемость. Наш код доступен по адресу https://github.com/InternScience/MLEvolve.
Видео обладает временной избыточностью: соседние кадры обычно содержат одни и те же объекты, фон и композицию. Однако существующие мультимодальные большие языковые модели для видео (video MLLMs), как правило, кодируют каждый выбранный кадр как независимое RGB-изображение, что приводит к повторению визуальными токенами содержимого, уже присутствовавшего в предыдущих кадрах. Это указывает на более прямой интерфейс для видео: отправлять полный опорный кадр только в том случае, когда сцену невозможно предсказать на основе предшествующего контекста, а в противном случае передавать компактное описание изменений между кадрами. Мы называем такой интерфейс предиктивным визуальным кодом и реализуем его для video MLLMs в виде AdaCodec. AdaCodec тратит полные визуальные токены на опорный кадр только при высокой условной предиктивной стоимости; в противном случае он кодирует межкадровые изменения, включая движение и остатки предсказания, в виде компактных P-токенов. На всех одиннадцати эталонных тестах AdaCodec превосходит базовый покадровый RGB-подход Qwen3-VL-8B при одинаковом бюджете визуальных токенов. Даже при бюджете в 1/7, AdaCodec с 32K токенами превосходит базовый вариант с 224K токенами на всех тестах длинного видео; на пяти тестах общего видео он повышает средний балл, существенно сокращая время до первого токена с 9,26 с до 1,62 с.
Оптимизация системного промпта улучшает поведение агента без изменения базовой модели, создавая читаемые и независимые от модели инструкции. Существующие методы строят агента промптов, который уточняет системные промпты агентов задач, но при этом собственный системный промпт агента промптов остаётся разработанным вручную и фиксированным. Мы предлагаем Self-Evolving Prompt Optimization (SePO), который рассматривает системный промпт самого агента промптов как цель оптимизации наряду с системными промптами агентов задач. SePO использует самореферентную архитектуру: единый агент промптов улучшает как системные промпты агентов задач, так и свой собственный в рамках эволюционного поиска открытого типа, поддерживающего архив кандидатных промптов в качестве промежуточных этапов. Обучение проходит в два этапа: предварительное обучение развивает агента промптов на мультизадачном пуле, а донастройка затем применяет его к целевой задаче. На пяти бенчмарках, охватывающих математику (AIME'25), абстрактное мышление (ARC-AGI-1), науку уровня выпускника (GPQA), генерацию кода (MBPP) и логические головоломки (Sudoku), SePO стабильно превосходит Manual-CoT, TextGrad и MetaSPO, улучшая среднюю точность на 4,49 пункта по сравнению с Manual-CoT. Навык оптимизации промптов, приобретённый в ходе предварительного обучения, также обобщается на задачи, выходящие за пределы пула предварительного обучения, а не запоминает промпты для каждой отдельной задачи.
Мультимодальные большие языковые модели (МБЯМ) превосходно справляются с двумерным семантическим пониманием, но им не хватает врождённого трёхмерного восприятия, что приводит к представлениям, неспособным поддерживать геометрическую и пространственную согласованность между кадрами видео. Учитывая нехватку крупномасштабных 3D-данных, мы представляем GeoVR — новую архитектуру, которая обучается геометрическим представлениям, используя исключительно двумерные видеопоследовательности. Этот подход эффективно перестраивает семантическое латентное пространство внутри МБЯМ, чтобы раскрыть пространственный интеллект. Вместо поверхностного смешивания признаков GeoVR преобразует внутренние представления МБЯМ путём дистилляции геометрических знаний из предварительно обученных трёхмерных фундаментальных моделей. Это достигается с помощью стратегии многоцелевого обучения, основанной на четырёх взаимодополняющих геометрических задачах: (1) оценка межкадровых поз камеры для внедрения динамики смены точек обзора, (2) регрессия карт плотной глубины для привязки физических расстояний, (3) предсказание метрического масштабного коэффициента для калибровки в реальном мире и (4) дистилляция многоуровневых 3D-признаков для выравнивания промежуточного пространства признаков. Руководствуясь этими явными физическими и геометрическими ограничениями, внутренние представления модели естественным образом развивают сильное трёхмерное восприятие. Обширные эксперименты на бенчмарках пространственного мышления демонстрируют, что GeoVR достигает передовых результатов, устанавливая новую парадигму наделения фундаментальных моделей пространственным интеллектом.
Автоматическое распознавание речи (ASR) стало ключевой технологией взаимодействия человека и искусственного интеллекта. Однако ASR с переключением кодов (CS-ASR) остается особенно сложной задачей из-за острой нехватки многоязычных речевых ресурсов с переключением кодов для различных языковых пар. Существующие подходы в основном улучшают производительность CS-ASR за счет синтезированной речи с переключением кодов или тонкой настройки для конкретных пар на ограниченных двуязычных наборах данных. Тем не менее, эти подходы сталкиваются с внутренним ограничением масштабируемости, поскольку поддержка переключения кодов должна разрабатываться отдельно для каждой языковой пары, число которых растет комбинаторно с увеличением количества поддерживаемых языков. В данной работе мы исследуем, могут ли способности к переключению кодов, полученные на ограниченном наборе наблюдаемых языковых пар, быть обобщены на ненаблюдаемые пары с помощью методов слияния моделей и обобщения доменов. Наши эксперименты показывают, что объединенные двуязычные модели CS-ASR в умеренной степени обобщаются на ненаблюдаемые языковые пары, что указывает на ограниченный перенос двуязычных способностей к переключению кодов между языковыми парами.
Модели Vision-Language-Action (VLA) используют богатые знания о мире предварительно обученных моделей «видение‑язык» (VLM) для реализации манипуляций робота по инструкции. Однако структурное несоответствие между семантическими пространствами VLM и воплощёнными управляющими политиками часто затрудняет обучение точным отображениям «восприятие–действие». Для решения этой задачи мы предлагаем AffordanceVLA — единую структуру, которая вводит структурированное прогнозирование аффордансов в качестве целеориентированного промежуточного представления, устанавливая более точное и надёжное отображение между восприятием и действием. В частности, мы последовательно моделируем априорные знания о манипуляции через три взаимодополняющих компонента: 1) «Which2Act» — объектно-ориентированное обоснование с помощью визуального латентного предсказания для подавления отвлекающих факторов; 2) «Where2Act» — локализация 2D-взаимодействий через оценку карты аффордансов; 3) «How2Act» — трёхмерное геометрическое рассуждение для управления политиками манипуляции. Эти сигналы аффорданса предоставляют пространственно привязанные, семантически обусловленные и связанные с действием промежуточные представления, естественным образом соединяя видение, язык и действие. Мы интегрируем эти модули в архитектуру Mixture-of-Transformer (MoT) со специализированными экспертами и обучаем модель с помощью трёхэтапной стратегии обучения с прогрессивным дата-куррикулумом. Для преодоления нехватки плотных меток аффордансов в робототехнических наборах данных мы также разрабатываем надёжный автоматизированный конвейер дополнения данных. Многочисленные эксперименты на симуляторах и в реальном мире показывают, что AffordanceVLA достигает высокой производительности в различных сценариях манипуляции.
Модели «мир-действие» (World-action models, WAMs) совместно генерируют будущее видео и действия робота через итеративную диффузию, демонстрируя высокую производительность на эталонных тестах манипуляций, но требуя десятков шагов шумоподавления — цена, исключающая управление в реальном времени. Дистилляция шагов стала естественным решением, однако стандартные методы нарушаются в совместной постановке видео-действие, поскольку видеопоток и поток действий используют разные графики шума со сдвигом по SNR и на этапе обучения характеризуются существенно различными маргинальными распределениями шума — асимметрией, которую не могут учесть методы дистилляции для одной модальности. Мы представляем Flash-WAM — фреймворк дистилляции шагов с учётом модальности, вдохновлённый дистилляцией согласованности, который выбирает функцию согласованности для каждой модальности в соответствии с её режимом шума: параметризацию с линейным масштабированием градиента для низкошумового режима потока действий в сочетании с параметризацией с сохранением дисперсии для высокошумового режима видеопотока, что обосновано структурным анализом семейства функций согласованности, характеризующим достижимое масштабирование градиента при граничном условии согласованности. Реализованный на LingBot-VA, Flash-WAM сжимает вывод до одного шага в каждой модальности. На RoboTwin 2.0 это снижает задержку на фрагмент с 8,1 секунды до 348 мс на NVIDIA L40S — 23-кратное ускорение, обеспечивающее вывод в реальном времени. Flash-WAM сохраняет успешность выполнения задач на эталонных тестах моделирования (85,5% на RoboTwin 2.0, 95,7% на LIBERO) и существенно восстанавливает производительность в реальном мире (в среднем 60% на гуманоидном роботе Unitree G1), тогда как наивная дистилляция согласованности при том же бюджете шагов падает до 24%.
В робототехнических системах большие объемы визуальных данных легко захватываются с высоким разрешением с помощью недорогого маломощного оборудования. Однако ограниченная пропускная способность и вычислительные ресурсы на устройстве препятствуют полному их использованию при передаче с помощью традиционных кодеков, таких как JPEG/MPEG. Новые кодеки, такие как AV1/AVIF, улучшают компромисс между степенью сжатия и искажениями, но требуют значительно больше ресурсов для кодирования, что непрактично без специализированных ASIC. Недавние асимметричные автоэнкодеры обеспечивают высокое качество в условиях экстремальных ограничений по энергопотреблению и пропускной способности, но добавляют запретительно высокую стоимость декодирования и используют специализированные форматы, игнорирующие десятилетия инфраструктуры, построенной вокруг таких стандартов, как JPEG. Для решения этих ограничений мы представляем фреймворк сжатия для облачной робототехники, основанный на сенсорном встроенном автоэнкодере в сочетании с однократным перекодированием для эффективного восстановления (SEAOTTER). Поскольку этапы сенсора, облака и потребителя имеют сильно различающиеся бюджеты по энергопотреблению и пропускной способности, SEAOTTER объединяет компактность изученного скрытого представления с широкой применимостью стандартного файла JPEG. Поскольку наивное перекодирование ухудшает производительность, мы предлагаем обучаемое преобразование цвета и квантования JPEG, которое позволяет повысить точность для глобального, плотного и основанного на зрении и языке восприятия. С помощью SEAOTTER мы обучаем как конвейеры перекодирования общего назначения, так и с учетом задачи для предварительно обученного замороженного энкодера. При коэффициенте сжатия 200:1 и по сравнению с AVIF мы наблюдаем в 7 раз более быстрое кодирование, в 3,5 раза более быстрое декодирование и увеличение точности top-1 на ImageNet на +8%, сохраняя при этом совместимость с инфраструктурой JPEG. Наш код доступен по адресу https://github.com/UT-SysML/seaotter .
Мультимодальные большие языковые модели (MLLM) продемонстрировали значительные успехи в задачах общего визуального ответа на вопросы (VQA). Однако они остаются неустойчивыми при работе с чертежами машиностроения, где высокая плотность аннотаций и слабые знания предметной области в сочетании с ненадёжным пространственным рассуждением в рамках строгих правил проецирования и геометрических ограничений приводят к тому, что решающие подсказки легко упускаются, что часто ведёт к неверным ответам. Чтобы восполнить этот пробел, мы представляем первый комплексный набор данных для понимания машиностроительных чертежей — MechVQA, созданный с помощью полуавтоматического конвейера построения и контроля качества. MechVQA содержит 3,3 тыс. изображений высокой плотности с 21 тыс. пар «вопрос-ответ», охватывающих 10 различных детализированных задач по трём уровням способностей: Распознавание, Рассуждение и Оценка, что обеспечивает тестовую платформу для оценки и улучшения понимания MLLM реальных машиностроительных чертежей. На основе MechVQA мы разработали модель MechVL, используя многоэтапную парадигму обучения, создав надёжный специализированный базовый уровень для данной предметной области. Обширные экспериментальные результаты показывают, что MechVL превосходит сильнейший базовый уровень с закрытым исходным кодом на 7,57 процентных пункта по общему баллу MechVQA, значительно улучшая способность понимания машиностроительных чертежей и предоставляя многократно используемую основу для развёртывания MLLM в сценариях машиностроительного проектирования и контроля.
Большие языковые модели всё чаще используются для симуляции поведения пользователей социальных сетей и прогнозирования того, как отдельные индивиды могут реагировать на онлайн-обсуждения. Однако остаётся неясным, отражают ли такие симуляции точные, специфичные для пользователя убеждения или же они крайне чувствительны к семантически независимым изменениям в контексте диалога. В данной работе мы исследуем контрфактическое изменение контекста как основу для аудита симуляции позиций на основе больших языковых моделей. Исходя из исходной онлайн-беседы, мы сначала выводим позицию целевого пользователя по отношению к конкретной теме. Затем мы применяем контролируемые стратегии изменения к контексту диалога и повторно симулируем позицию пользователя в изменённом контексте. Мы сравниваем чисто текстовые стратегии изменения с мультимодальной стратегией, включающей контекст на основе мемов, и оцениваем два основных показателя эффективности: среднее направленное смещение позиции и частоту переходов позиции. Результаты демонстрируют эффективные и устойчивые переходы позиции как при текстовых, так и при мультимодальных стратегиях для различных механизмов поляризации предпочтений. Наше исследование предлагает основу для оценки чувствительности к контексту симуляции позиций на основе больших языковых моделей. В более широком смысле оно подчёркивает как перспективы, так и риски использования больших языковых моделей для моделирования динамики общественного мнения в сети.
Крупные языковые модели часто улучшают рассуждения, генерируя явные цепочки мысли (CoT), что демонстрирует важность промежуточных вычислений. Однако текстовые CoT вынуждают эти вычисления проходить через дискретный, последовательный и ориентированный на коммуникацию поток токенов: каждый шаг рассуждения должен быть вербализован, прежде чем модель сможет продолжить, даже если соответствующее обновление является семантическим, неопределённым или лишь частично сформированным. Латентные рассуждения предлагают альтернативу с более высокой пропускной способностью, выполняя промежуточные вычисления в компактных непрерывных состояниях до перехода к тексту. Тем не менее, существующие методы латентных рассуждений часто жертвуют ключевыми преимуществами, которые делают CoT эффективными в авторегрессионных языковых моделях, включая естественную генерацию слева направо, вероятностную выборку, совместимость с декодированием с использованием KV-кэша и вычислимую оценку правдоподобия. Мы предлагаем NF-CoT — фреймворк латентных рассуждений, который сохраняет эти преимущества, моделируя непрерывные мысли с помощью нормализующих потоков. NF-CoT реализует нормализующий поток в стиле TARFlow внутри основы LLM, определяя вычислимую вероятностную модель компактных непрерывных мыслей, извлечённых из явных CoT. Позиции непрерывных мыслей генерируются головой NF, а текстовые позиции — стандартной головой LM в рамках того же причинно-следственного потока. Такая конструкция обеспечивает точные правдоподобия для латентных мыслей, позволяет вероятностное декодирование слева направо с исходным KV-кэшем и поддерживает прямую оптимизацию с градиентом политики в пространстве латентных рассуждений. На тестах генерации кода NF-CoT улучшает показатели успешности по сравнению с явными CoT и предыдущими базовыми методами латентных рассуждений, при этом существенно снижая стоимость промежуточных рассуждений.
Недавние достижения в области агентов на базе больших языковых моделей (LLM) позволили добиться значительного прогресса в автоматизации науки о данных. Однако существующие подходы остаются принципиально ограниченными из-за статических наборов действий и отсутствия принципиального управления долгосрочным контекстом, что препятствует их способности накапливать повторно используемый опыт в рамках различных задач и надежно функционировать в многоэтапных итеративных конвейерах анализа данных. Для решения этих проблем мы представляем EvoDS — самоэволюционирующий автономный агент для науки о данных, который обучается расширять свои навыки и адаптивно управлять долгосрочным контекстом с помощью агентного обучения с подкреплением. В частности, EvoDS вводит две ключевые стратегии: (1) механизм автономного приобретения навыков (ASA), позволяющий агентам синтезировать, проверять и повторно использовать исполняемые навыки; и (2) стратегию адаптивного сжатия контекста (ACC), которая рассматривает управление контекстом как задачу обучения, а не пассивное усечение. Эти стратегии объединены в рамках двухэтапной схемы обучения нескольких агентов, что позволяет EvoDS со временем автономно совершенствоваться. Теоретически мы доказываем, что иерархическая архитектура EvoDS снижает ошибки выбора инструментов, а ее целевая функция оптимизации соответствует принципу информационного узкого места, обеспечивая эффективное использование контекста. Эмпирически EvoDS превосходит современные агенты для науки о данных с открытым исходным кодом в среднем на 28,9% по четырем различным эталонным тестам, полностью устраняя ошибки, связанные с исчерпанием токенов. Наш код и данные доступны по адресу https://github.com/usail-hkust/EvoDS.
Ситуационный запрос вроде «где Линь Вэй?» зачастую несет больше, чем буквальное содержание: пользователь может также хотеть узнать, свободен ли Линь Вэй, в хорошем ли он настроении или стоит ли его сейчас прерывать. Стандартные агенты, использующие инструменты, отвечают на буквальный вопрос и останавливаются. AURA вставляет этап вывода между восприятием сцены и использованием инструментов, который порождает IntentFrame — структурированную оценку неявной потребности со скалярным показателем разрыва (gap score), управляющим бюджетом проб на запрос и выбором инструмента. На эталонном тесте из 100 запросов в четырех сценариях с неявными намерениями AURA улучшает покрытие неявных потребностей по сравнению с probing-подходом в стиле ReAct (Delta = +0,07, p < 10⁻⁶); три из четырех сценариев значимы по отдельности, прирост воспроизводится на второй базовой модели, а абляция промптов показывает, что улучшение обусловлено калибровкой разрыва, а не запоминанием ответов. При фактическом поиске контроллер обменивает точность на 82% меньшее количество проб и нулевое количество нарушений запрещенных инструментов на чувствительном к приватности срезе; условия применимости подробно описаны в разделе «Ограничения». Код, симулятор и эталонный тест опубликованы по адресу https://github.com/innovation64/AURA.
Автономное вождение требует рассуждений о том, как действия эго-агента формируют эволюцию окружающего мира. Однако большинство сквозных методов полагаются на прямые отображения «состояние-действие», улавливая корреляции без явного моделирования динамики, обусловленной действиями. В то же время непрерывно-латентные модели мира часто лишены композиционной структуры, необходимой для каузального рассуждения о контрфактических будущих состояниях. Мы представляем Discrete-WAM — единую латентную политику зрения-действия мира, которая представляет будущие визуальные состояния и действия эго-агента в виде выровненных дискретных токенов, что позволяет проводить композиционное каузальное рассуждение об альтернативных будущих сценариях. Основываясь на таком едином дискретном выравнивании, Discrete-WAM устанавливает общую структуру дискретной диффузии с унифицированными генеративными задачами, совместно формулируя моделирование мира, политику мира-действия и иерархическую политику, поддерживающую принятие решений, что обеспечивает композиционное обобщение в разнообразных сценариях вождения. Эксперименты на крупномасштабных эталонах автономного вождения показывают, что Discrete-WAM достигает конкурентоспособной производительности, поддерживая при этом управляемую генерацию и контрфактическое рассуждение, предлагая принципиальный путь к более надежному принятию решений.
Редактирование изображений на основе диффузионных моделей достигло высокой визуальной точности при выполнении инструкций на естественном языке, однако большинство существующих систем по-прежнему действуют на уровне поверхностного следования инструкциям, не учитывая неявные контекстуальные ограничения, заложенные в реальных запросах пользователей. Это часто приводит к визуально правдоподобным, но логически несогласованным правкам. В данной работе мы представляем RE-Edit — бенчмарк для редактирования изображений с учётом логических рассуждений (reasoning-aware), который оценивает системы редактирования изображений по пяти взаимодополняющим аспектам рассуждения: физическому, экологическому, культурному, причинно-следственному и референциальному. RE-Edit содержит 1000 тщательно подобранных примеров, каждый из которых устроен так, что одной визуальной правдоподобности недостаточно, а корректное редактирование требует соблюдения неявных логических ограничений. Для поддержки детального анализа мы устанавливаем критерии оценки, согласованные с каждым аспектом, и проводим всестороннее исследование десяти моделей редактирования изображений с открытым исходным кодом и двух коммерческих моделей. Наши результаты показывают, что даже продвинутые системы часто испытывают трудности с неявными многомерными рассуждениями, несмотря на создание высококачественных визуальных результатов. Кроме того, мы представляем лёгкий базовый подход пост-редактирования, управляемый рассуждениями, в качестве первоначального исследования, иллюстрирующего, как введение явных рассуждений может помочь смягчить такие сбои независимо от модели.
Обучение с подкреплением вне политики для предварительно обученных потоковых политик остается сложной задачей из-за нестабильности оптимизации, возникающей вследствие многошагового процесса выборки. Недавно Q-обучение с сопряженным согласованием (QAM) решило эту проблему, переформулировав её в задачу стохастического оптимального управления без памяти (SOC) с обученным критиком. Однако QAM наследует фундаментальную хрупкость улучшения, направляемого критиком: небольшие ошибки критика усиливаются, когда критики плохо обусловлены, что часто приводит к коллапсу модели. В этой статье представлен Trust Region Q-Adjoint Matching (TRQAM) — стабильный алгоритм тонкой настройки вне политики, который адаптивно управляет KL-расхождением в пространстве траекторий с предварительно обученными потоковыми политиками посредством проекционного двойственного спуска. В частности, мы оптимизируем параметр доверительной области λ в динамике SOC и теоретически показываем, что KL-расхождение в пространстве траекторий может быть представлено в виде замкнутой функции от λ. В результате наш метод позволяет точно контролировать отклонение от предварительно обученных потоковых политик, обеспечивая стабильное обучение с подкреплением вне политики. В ходе экспериментов на 50 задачах OGBench TRQAM стабильно превосходит предыдущие разработки как в офлайн-обучении с подкреплением, так и в офлайн-онлайн обучении с подкреплением. В частности, TRQAM достигает общего уровня успеха 68% в офлайн-обучении с подкреплением, значительно улучшая сильнейший базовый показатель, составляющий 46%.
В данной статье мы изучаем минимизацию сожаления в повторяющихся играх с адаптивными противниками, которые могут реагировать на основе истории игры. Известно, что стандартная метрика внешнего сожаления в онлайн-обучении не способна учесть такую адаптивность. Для учета контрфактического рассуждения игроков мы вводим повторяющееся сожаление о политике (RP-Regret) — теоретико-игровую метрику, измеряющую разницу между реализованной и наилучшей постфактум накопленной полезностью, когда все игроки могут реагировать на историю игры. По сравнению с существующими понятиями сожаления в этом контексте, наше является естественным для повторяющихся игр, позволяя использовать более сильных компараторов и противников с меньшими ограничениями, сохраняя при этом возможность нахождения лучших равновесий, когда все игроки его минимизируют. Сначала мы определяем необходимые условия для получения суб-линейного по времени RP-Regret, касающиеся вариации компараторных стратегий игрока в определении сожаления и памяти как компаратора, так и стратегий противников. Затем мы изучаем дополнительные условия и доказуемые алгоритмы для минимизации RP-Regret, который по определению является невыпуклым в пространстве стратегий. Для решения этой задачи мы предлагаем три алгоритма: (i) основанный на оракуле оптимизации, как предполагалось в некоторых предыдущих работах по онлайн-невыпуклому обучению; (ii) минимизирующий на каждой итерации выпуклый и линеаризованный суррогат RP-Regret; (iii) напрямую минимизирующий RP-Regret в условиях медленного изменения стратегий противников. Кроме того, когда все игроки могут запускать алгоритмы минимизации RP-Regret (или его линеаризованной версии), можно обучить некоторые совершенные по подыграм равновесия повторяющейся игры. Также мы приводим эксперименты, показывающие, что минимизация наших понятий сожаления может приводить к более кооперативным решениям с более высокой полезностью в таких играх, как «Охота на оленя».
Бенчмарки являются основополагающими для оценки и развития больших языковых моделей (LLM) и мультимодальных больших языковых моделей (MLLM), предоставляя стандартизированные и чёткие показатели производительности. Однако их создание требует значительных трудозатрат и плохо поддаётся повторному использованию, что вызывает опасения относительно устойчивости и масштабируемости. Кроме того, существующие бенчмарки зачастую быстро достигают насыщения производительности после публикации, что приводит к недостаточной различимости современных моделей. Для решения этих проблем мы представляем Benchmark Agent — полностью автономную агентную систему, предназначенную для построения бенчмарков. Наш фреймворк организует полный конвейер создания бенчмарков: от анализа запроса пользователя и разработки подзадач до аннотирования данных и контроля качества. Для оценки Benchmark Agent мы реализовали его в виде 15 репрезентативных бенчмарков, охватывающих различные сценарии оценки, включая понимание текста, мультимодальное понимание и предметно-специфические рассуждения. Обширные эксперименты, включающие оценку человеком, оценку с помощью LLM в качестве судьи и проверки согласованности, демонстрируют, что Benchmark Agent способен генерировать высококачественные образцы бенчмарков при минимальном участии человека. Что ещё более важно, в ходе непрерывной оценки мы выявили несколько важных результатов, в том числе то, что современные модели испытывают трудности с определёнными задачами предметно-специфических рассуждений. Мы полагаем, что быстро развивающиеся бенчмарки могут внести значительный вклад в исследовательское сообщество. Предварительная версия и код будут доступны на демонстрационной странице и в репозитории кода.
Большие языковые модели демонстрируют парадоксальную хрупкость в фундаментальных арифметических операциях, что указывает на разрыв между внутренними вычислениями и дискретным выводом. Анализируя геометрию остаточного потока в процессе сложения с несколькими операндами, мы выявляем траекторию изо-сырой суммы (Iso-Raw-Sum Trajectory, IRST) — геометрическую структуру, в которой представления закреплены за семантическими цифрами и модулируются непрерывными волокнами переноса. Для объяснения этой геометрии мы предлагаем модель шумного квантования, трактующую арифметические ошибки как геометрические проскальзывания, вызванные внутренним нейронным шумом, который переталкивает непрерывный латентный потенциал переноса через пороги квантования. Данная геометрическая структура также проясняет универсальность зондов, объясняя, как легковесные зонды могут разделять сосуществующие латентные сигналы (например, истинное значение против галлюцинации) из одного вектора активации. Наконец, мы подтверждаем эти выводы с помощью метода проверки геометрической согласованности, который эффективно обнаруживает и исправляет указанные сбои квантования во время инференции. Наш код доступен по адресу https://github.com/RL-MIND/Shape-of-Addition.
Агентные LLM с веб-поиском изменяют модель угроз для анонимизации текста: слабые контекстуальные подсказки могут стать перекрестно ссылаемыми доказательствами для реидентификации, однако те же детали несут и последующую аналитическую ценность текста. Существующие защитные меры либо удаляют явные идентификаторы, искажают текст для формальной конфиденциальности, либо проверяют переписанный текст на моделях вывода без веб-поиска, оставляя недостаточно исследованной рабочую область между устойчивостью к агентной реидентификации через веб-поиск и сохранением полезности. Мы представляем AURA (Anonymization with Utility-Retention Adaptation — анонимизация с адаптацией сохранения полезности) — основанную на LLM структуру маскировки-восстановления, которая разделяет локализацию конфиденциальности и восстанавливающее сохранение полезности, и выбирает кандидатов с помощью проверок на устойчивость к атакам и сохранение полезности. Мы оцениваем AURA на стенограммах интервью реальных пользователей, используя атаки реидентификации, осуществляемые агентами веб-поиска, а также оценку полезности на основе фактов профиля интервьюируемого, фактов кодовой книги и совместной сетки контекстуальной полезности. Наши результаты показывают, что AURA улучшает границу конфиденциальность-полезность, используя адаптивный объем конфиденциальности для усиления устойчивости к агентной реидентификации и применяя метод анонимизации маскировки-восстановления для лучшего сохранения контекстуальной полезности при фиксированном объеме конфиденциальности.
Обработка видео в моделях «зрение-язык» (VLM) является ресурсоёмкой: каждый кадр занимает сотни токенов, а стоимость инференса растёт с каждым кадром и каждым повторным запросом. Мы представляем Video2LoRA — метод параметрической интернализации видео. Персептивная гиперсеть считывает промежуточные представления, формируемые послойно при кодировании видео замороженной VLM, и за один прямой проход генерирует адаптер типа Low-Rank Adaptation (LoRA). В отличие от стандартной тонкой настройки LoRA, требующей итеративных градиентных обновлений, Video2LoRA предсказывает эти веса непосредственно по видео. Обученная для SmolVLM2 500M и 2.2B на задачах суммирования видео и создания подписей, Video2LoRA позволяет той же замороженной VLM отвечать на запросы, используя только адаптер, без каких-либо визуальных токенов в контексте в момент запроса. Video2LoRA статистически не уступает и эквивалентна прямому выводу с видео в контексте по всем пяти бенчмаркам подписей при обеих масштабах модели, а также по семи из восьми комбинаций бенчмарков и масштабов для ответов на вопросы по видео. Хотя модель обучена только на 12 кадрах разрешением 384px, она сохраняет стабильность вплоть до 1024 кадров и 1024px, где прямой вывод с видео в контексте часто вырождается. На всём диапазоне параметров Video2LoRA сокращает нагрузку визуальных токенов во время ответа до 1500 раз, а время до первого токена (TTFT) запроса — в 6–80 раз, сохраняя при этом точность по отношению к видео. Мы также обнаружили, что независимо сгенерированные адаптеры для непересекающихся сегментов видео могут компоноваться в ранговом пространстве, что указывает на путь к интернализации длинных видео по частям.
Финансовые AI-агенты часто терпят неудачу по простой причине: они перекладывают сложность на пользователя. Пользователь вынужден многократно формулировать цели, предпочтения по риску, контекст портфеля, прошлые суждения и меняющиеся рыночные допущения, в то время как агент отвечает, извлекает информацию, действует и забывает. В финансах это не просто неудобно. В таких задачах, как анализ рынка, проверка копи-трейдинга и подготовка сделок, утерянный контекст и устаревшая память могут привести к задержкам, повторяющимся ошибкам, слабой аудируемости и небезопасным решениям. Мы предлагаем знаниевую обвязку на основе взаимодействия (InKH) — архитектуру для финансовых LLM-агентов, которая поглощает сложность в систему. InKH преобразует события пользователя, рынка, портфеля и инструментов в структурированные операционные знания. Она использует пассивное внедрение знаний для сборки ограниченного буфера рабочего контекста до шага основной модели, временную графовую память для извлечения с малой задержкой, поверхность аудита в формате вики для человекочитаемого управления, а также фоновое извлечение с учетом зрелости, затухания и аннулирования при записи. Мы оцениваем InKH на воспроизводимом контролируемом синтетическом бенчмарке с 24 случайными начальными значениями, 4 раундами, 80 эпизодами в каждом раунде и 6 базовыми моделями, что дает 46 080 оценок при заданных базовых условиях. InKH достигает среднего качества задачи 0,815 при задержке 900 мс. По сравнению с агентной памятью типа wiki-walk, она снижает задержку на 82,95%, затраты токенов на 82,29% и использование устаревших знаний на 96,58%, при этом улучшая качество на 0,108 и прослеживаемость на 0,461. По сравнению с временной графовой системой без аннулирования, она улучшает качество на 0,050 и снижает использование устаревшей памяти на 96,58% при сопоставимых эксплуатационных затратах. Результаты подтверждают тезис проектирования для финансового ИИ: внедрение происходит, когда сложность поглощается системой, а не переносится на пользователя. Бенчмарк проверяет поведение на уровне архитектуры, а не эффективность в реальной торговле.
Обучение с подкреплением с проверяемыми вознаграждениями (RLVR) недавно стало краеугольным камнем формирования выдающихся навыков программирования больших языковых моделей (БЯМ). Однако масштабируемость RLVR серьезно ограничена нехваткой достаточно сложных проверяемых задач по программированию, находящихся на границе компетенций модели. Предыдущие исследования часто полагаются на эвристические расширения начальных данных для синтеза данных, что серьезно ограничивает как новизну, так и сложность. Следовательно, обучающая ценность таких данных не масштабируется пропорционально объему их синтеза. Для этого мы предлагаем Атомное разложение и рекомбинацию (АРР) — новую методологию, которая генерирует проверяемые задачи по программированию путем разложения на атомные элементы и контролируемой рекомбинации, тем самым позволяя создавать действительно новые и сложные проверяемые задачи по программированию. Эксперименты и анализ показывают, что АРР достигает превосходной оригинальности, сложности, разнообразия и качества тестов по сравнению с существующими базовыми подходами, и постоянно обеспечивает большие улучшения способностей к программированию в рамках RLVR в различных прикладных областях, включая алгоритмическое программирование, использование инструментов и науку о данных. Наша работа проливает свет на новую парадигму синтеза новых задач по программированию и масштабируемого обучения RLVR.
Системы музыкальных рекомендаций обычно рассматривают песни как непрозрачные токены, полагаясь на истории совместных взаимодействий, которые игнорируют семантическое или акустическое содержание. Предыдущие работы исследовали подходы к последовательным рекомендациям, дополненные LLM, мультимодальные и с усилением текста. Хотя некоторые методы частично комбинируют семантические, акустические сигналы или сигналы вовлеченности, ни один не моделирует совместно все три в рамках единого фреймворка последовательного рассуждения на основе LLM, который обосновывает рекомендации фактическим содержанием песен. В данной работе мы предлагаем мультимодальный фреймворк для сессионных музыкальных рекомендаций, который обогащает набор данных LastFM-1K тремя дополнительными сигналами: (1) аудио и текстовые эмбеддинги, извлеченные с помощью предварительно обученных моделей музыкальных и текстовых представлений, (2) семантические метаданные, сгенерированные LLM с использованием схемы аннотации MGPHot, и (3) коэффициенты завершения прослушивания. Мы адаптируем фреймворк E4SRec, расширяя его мультимодальными признаками и различными архитектурами кодировщиков идентификаторов элементов, включая SASRec, BERT4Rec и GRU4Rec. Мы также расширяем опцию LLM-архитектуры с помощью LLaMa-2-13B, Qwen2.5-7B-Instruct и LLaMa-3-70B в режимах как zero-shot, так и тонкой настройки. Наши эксперименты показывают, что интеграция признаков на основе содержимого улучшает базовые модели, использующие только идентификаторы, до 95% по показателю Recall и до 79% по показателю NDCG. Более того, наши эксперименты показывают, что наивная мультимодальная фузия не всегда приводит к аддитивным улучшениям, что подчеркивает сложности кросс-модальной интеграции. Мы публикуем крупномасштабный мультимодальный бенчмарк для музыкальных рекомендаций.
Большие языковые модели все чаще развертываются в качестве агентов кодирования, смещая акцент безопасности с отдельных ответов на последовательности действий. Однако существующие эталоны в основном оценивают, отказываются ли модели от опасных запросов, оставляя воздействие на состояние рабочих пространств в значительной степени неисследованным. Мы представляем SABER — эталон для операционной безопасности с учетом окружения, который помещает модели в реалистичные проекты в стиле агентов и оценивает безопасность на основе конечного состояния окружения после выполнения последовательности действий. Помимо бинарных отчетов о нарушениях безопасности, SABER классифицирует нарушения по причинам, что позволяет анализировать профили безопасности конкретных моделей. Наши оценки показывают, что даже у лучшей модели коэффициент вредоносных нарушений безопасности (HSR) превышает 54%, что указывает на недостаточность текущего согласования для реальных проектных сред. SABER также выявляет различные профили безопасности среди моделей. Наш эталон доступен по адресу: https://github.com/sssr-lab/saber.
Исследования в области ИИ часто требуют принятия решений до появления будущих свидетельств: какое узкое место атаковать, какое направление развивать или где следует позиционировать проект. Мы представляем ForeSci — временно контролируемый бенчмарк для оценки того, могут ли LLM-агенты делать такие прогнозирующие исследовательские суждения на основе исторических свидетельств. ForeSci содержит 500 заданий по четырём быстроразвивающимся областям ИИ и четырём семействам решений. Каждое задание снабжено офлайн-базой знаний, выровненной по точке отсечения; статьи, опубликованные после точки отсечения, скрыты во время генерации и используются только для валидации. Чтобы избежать случайного предсказания будущих событий, задания выводятся из таксономических ветвей и сигналов свидетельств, существовавших до точки отсечения, а базовые модели генерации ответов выбираются так, чтобы они предшествовали точкам отсечения заданий. Мы оцениваем нативные LLM, гибридный RAG и три адаптации исследовательских агентов на четырёх базовых моделях. Результаты показывают, что явная организация свидетельств улучшает отслеживаемость и фактическую поддержку, но выигрыш сильно зависит от семейства решений. Диагностика выявляет повторяющееся разобщение свидетельств и решений: агенты могут цитировать релевантные свидетельства, прогнозируя при этом неверный объект исследования. ForeSci превращает прогнозирующее исследовательское суждение в области ИИ в контролируемый бенчмарк для оценки исследовательских агентов как систем принятия решений.
Обучение точных моделей сегментации медицинских изображений требует больших объемов плотно аннотированных данных, получение которых является дорогостоящим и трудоемким. Полуконтролируемое обучение (SSL) смягчает эту проблему за счет обучения как на обширных неразмеченных данных, так и на ограниченных размеченных данных. Однако большинство современных методов SSL полагаются на псевдо-метки для неразмеченных данных и обычно оценивают их надежность через уверенность модели или неопределенность — показатели, которые являются самореферентными и не имеют явной привязки к качеству сегментации. Вместо этого мы предлагаем SSL-фреймворк, управляемый качеством, который обучает выделенную сеть оценивать качество сегментации по парам изображение-маска. Предсказатель обучается на масках переменного качества, созданных с помощью синтетических искажений, дополненных несовершенными выходами частично обученных моделей сегментации, что позволяет улавливать реалистичные шаблоны ошибок, встречающиеся в процессе обучения. Мы интегрируем предсказатель качества в SSL с помощью двух взаимодополняющих механизмов: регуляризационной потери с учетом качества и схемы перевзвешивания выборок псевдо-меток на основе качества. Мы показываем, что наш метод служит встраиваемым улучшением для существующих SSL-фреймворков. Обширные эксперименты на пяти наборах данных и нескольких архитектурах демонстрируют стабильные улучшения по сравнению с конкурирующими методами SSL, продвигая передовой уровень в полуконтролируемой сегментации медицинских изображений.
Обучение представлениям моделей САПР является в значительной степени открытой проблемой. Хотя обучение трехмерным представлениям активно развивалось на основе облаков точек и сеток, нативный формат САПР — граничные представления (BReps), которые кодируют точные параметрические поверхности, кривые и их топологию, — получил мало внимания в качестве основы для обучения представлениям. Мы представляем BRepCLIP — первую структуру, которая согласовывает геометрию BRep с языковыми и изображенческими эмбеддингами с помощью контрастивного предобучения. Мы моделируем каждый объект САПР как последовательность токенов граней и ребер с отдельными дискретными словарями для геометрии поверхностей и кривых, дополненную пространственными и семантическими дескрипторами, которые описывают типы поверхностей (например, цилиндрическая, тор, NURBS) и примитивы кривых (например, линия, дуга, B-сплайн). Трансформерный кодировщик агрегирует эти токены в глобальный BRep-эмбеддинг, согласованный с текстовым и изображенческим кодировщиками CLIP с помощью совместной контрастивной цели. BRepCLIP генерирует более дискриминативные и семантически обоснованные эмбеддинги по сравнению с существующими точечными альтернативами, улучшая Top-1 поиск по сравнению с OpenShape на 40.4%, 22.0% и 23.9% на наборах данных ABC, CADParser и Automate соответственно, а также улучшая нуль-шотовую классификацию на FabWave на 15% по показателю Top-1. Мы также демонстрируем его полезность в качестве метрики схожести с учетом особенностей САПР для оценки генерации САПР по тексту и изображению, подчеркивая важность предобучения с учетом структуры для мультимодального понимания САПР. Страница проекта доступна по адресу https://muhammadusama100.github.io/BrepClip2026/