Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем GLM-5 — модель нового поколения, предназначенную для перехода от парадигмы вибр-кодинга к агентной инженерии. Развивая агентные, логические и кодирующие (ARC) возможности своей предшественницы, GLM-5 использует архитектуру DSA для значительного снижения затрат на обучение и вывод при сохранении точности в длинных контекстах. Для повышения согласованности и автономности модели мы внедрили новую инфраструктуру асинхронного обучения с подкреплением, которая радикально улучшает эффективность пост-обучения за счёт разделения генерации и обучения. Кроме того, мы предлагаем новые асинхронные агентные алгоритмы RL, которые дополнительно повышают качество обучения с подкреплением, позволяя модели эффективнее обучаться на сложных долгосрочных взаимодействиях. Благодаря этим инновациям GLM-5 демонстрирует передовые результаты на основных открытых бенчмарках. Наиболее важно, что GLM-5 показывает беспрецедентную способность в решении практических задач программирования, превосходя предыдущие базовые уровни в решении сквозных задач программной инженерии. Код, модели и дополнительная информация доступны по адресу https://github.com/zai-org/GLM-5.
Навыки агентов представляют собой структурированные пакеты процедурных знаний, которые расширяют возможности LLM-агентов во время вывода. Несмотря на быстрое внедрение, не существует стандартного способа измерить, действительно ли они помогают. Мы представляем SkillsBench — бенчмарк из 86 задач в 11 предметных областях, снабженных тщательно отобранными навыками и детерминированными верификаторами. Каждая задача оценивается в трех условиях: без навыков, с отобранными навыками и с самостоятельно сгенерированными навыками. Мы тестируем 7 конфигураций агентов-моделей на 7308 траекториях. Отобранные навыки повышают средний показатель успешности на 16,2 процентных пункта (п.п.), но эффекты сильно различаются в зависимости от области: от +4,5 п.п. для разработки программного обеспечения до +51,9 п.п. для здравоохранения; при этом 16 из 84 задач демонстрируют отрицательную динамику. Самостоятельно сгенерированные навыки в среднем не приносят пользы, что показывает неспособность моделей надежно создавать те процедурные знания, которые им полезно потреблять. Сфокусированные навыки с 2–3 модулями превосходят по эффективности комплексную документацию, а меньшие модели с навыками могут соответствовать более крупным моделям без них.
Разреженные автоэнкодеры (SAE) стали перспективным инструментом для интерпретации нейронных сетей, разлагая их активации на разреженные наборы признаков, интерпретируемых человеком. В последних работах представлены несколько вариантов SAE и успешно масштабированы для передовых моделей. Несмотря на значительный энтузиазм, растущее число негативных результатов в смежных задачах ставит под сомнение, действительно ли SAE выделяют содержательные признаки. Для прямого исследования этого вопроса мы проводим две взаимодополняющие оценки. На синтетической задаче с известными истинными признаками мы показываем, что SAE восстанавливают лишь 9% реальных признаков, несмотря на достижение 71% объяснённой дисперсии, что демонстрирует их неспособность выполнить основную задачу даже при высокой точности реконструкции. Для оценки SAE на реальных активациях мы вводим три базовых метода, которые ограничивают направления признаков SAE или их паттерны активации случайными значениями. В ходе масштабных экспериментов с различными архитектурами SAE мы показываем, что наши базовые методы соответствуют полностью обученным SAE по интерпретируемости (0.87 против 0.90), разреженному probing-анализу (0.69 против 0.72) и каузальному редактированию (0.73 против 0.72). В совокупности эти результаты свидетельствуют, что SAE в их текущем состоянии не обеспечивают надёжного разложения внутренних механизмов моделей.
По мере того, как агенты больших языковых моделей все активнее заполняют сетевые среды, возникает фундаментальный вопрос: претерпевают ли общества искусственного интеллекта (ИИ) динамику конвергенции, подобную человеческим социальным системам? В рамках проекта Moltbook моделируется правдоподобный сценарий будущего, в котором автономные агенты участвуют в открытом, непрерывно эволюционирующем онлайн-обществе. Мы представляем первую крупномасштабную системную диагностику такого общества ИИ-агентов. Выходя за рамки статического наблюдения, мы вводим количественную диагностическую систему для анализа динамической эволюции в обществах ИИ-агентов, измеряя семантическую стабилизацию, лексический оборот, индивидуальную инерцию, устойчивость влияния и коллективный консенсус. Наш анализ выявляет в Moltbook систему в состоянии динамического баланса: в то время как глобальные семантические средние быстро стабилизируются, отдельные агенты сохраняют высокое разнообразие и устойчивый лексический оборот, сопротивляясь гомогенизации. Однако агенты демонстрируют сильную индивидуальную инерцию и минимальную адаптивную реакцию на партнеров по взаимодействию, что препятствует взаимному влиянию и достижению консенсуса. Как следствие, влияние остается преходящим без формирования устойчивых суперузлов, и общество не развивает стабильные коллективные центры влияния из-за отсутствия разделяемой социальной памяти. Эти результаты демонстрируют, что масштаб и плотность взаимодействий сами по себе недостаточны для индукции социализации, и предлагают практические принципы проектирования и анализа для грядущих обществ ИИ-агентов следующего поколения.
Модели текстовых эмбеддингов широко применяются для задач семантического сходства, включая информационный поиск, кластеризацию и классификацию. Универсальные модели обычно обучаются по одно- или многоэтапным процедурам с использованием контрастивных функций потерь. Мы представляем новую методику обучения, сочетающую техники дистилляции моделей с задачно-специфичными контрастивными потерями для создания компактных высокопроизводительных моделей эмбеддингов. Наши результаты свидетельствуют, что данный подход более эффективен для обучения небольших моделей по сравнению с чисто контрастивными или основанными исключительно на дистилляции парадигмами. Бенчмарк-показатели полученных моделей, jina-embeddings-v5-text-small и jina-embeddings-v5-text-nano, превосходят или соответствуют state-of-the-art для моделей сопоставимого размера. Модели jina-embeddings-v5-text дополнительно поддерживают длинные тексты (до 32 тыс. токенов) на многих языках и генерируют эмбеддинги, сохраняющие устойчивость при усечении и бинарной квантизации. Веса моделей находятся в открытом доступе, что, как мы надеемся, стимулирует дальнейший прогресс в разработке моделей эмбеддингов.
Clawdbot — это саморазмещаемый персональный ИИ-агент с поддержкой инструментов, обладающий широким пространством действий, охватывающим локальное выполнение задач и веб-опосредованные рабочие процессы. Это порождает повышенные проблемы безопасности и защищенности в условиях неопределенности и враждебного управления. Мы представляем траекторно-центричную оценку Clawdbot по шести параметрам риска. Наш тестовый набор выборочно и с минимальной адаптацией заимствует сценарии из предыдущих бенчмарков безопасности агентов (включая ATBench и LPS-Bench) и дополняет их специально разработанными случаями, учитывающими инструментальную поверхность Clawdbot. Мы регистрируем полные траектории взаимодействия (сообщения, действия, аргументы/результаты вызовов инструментов) и оцениваем безопасность с помощью как автоматического траекторного арбитра (AgentDoG-Qwen3-4B), так и ручной проверки. На 34 канонических тест-кейсах мы наблюдаем неоднородный профиль безопасности: производительность в целом стабильна на задачах, ориентированных на надежность, в то время как большинство сбоев возникает при нечетко определенных намерениях, открытых целях или безобидных на вид джейлбрек-промптах, где незначительные misinterpretations могут эскалировать в инструментальные действия с более серьезными последствиями. Мы дополнили общие результаты репрезентативными кейс-стади, обобщили общие черты этих случаев, проанализировали уязвимости безопасности и типичные режимы сбоев, которые Clawdbot склонен провоцировать на практике.
Мы представляем ResearchGym — эталонный набор данных и среду исполнения для оценки AI-агентов в задачах сквозного научного исследования. Для его реализации мы адаптировали пять устных и стендовых докладов с конференций ICML, ICLR и ACL. Из репозитория каждой статьи мы сохранили наборы данных, средства оценки и реализации базовых методов, но исключили метод, предложенный в самой статье. В результате получилось пять контейнеризованных сред выполнения задач, включающих в общей сложности 39 подзадач. В каждой среде агенты должны выдвигать новые гипотезы, проводить эксперименты и пытаться превзойти сильные человеческие базовые показатели по метрикам исходной статьи. В контролируемой оценке агента на основе GPT-5 мы наблюдаем резкий разрыв между потенциальными возможностями и надежностью. Агент улучшает предоставленные базовые показатели из репозитория лишь в 1 из 15 оценок (6.7%) на 11.5% и в среднем завершает только 26.5% подзадач. Мы выявили повторяющиеся ошибки на длинных горизонтах планирования, включая нетерпеливость, плохое управление временем и ресурсами, излишнюю уверенность в слабых гипотезах, трудности с координацией параллельных экспериментов и жесткие ограничения, связанные с длиной контекста. Однако в одном запуске агент превзошел решение для задачи из стендового доклада ICML 2025, что указывает на то, что передовые агенты могут иногда достигать уровня современных результатов, но делают это ненадежно. Дополнительно мы оценили проприетарные каркасы агентов, включая Claude Code (Opus-4.5) и Codex (GPT-5.2), которые демонстрируют аналогичный разрыв. ResearchGym предоставляет инфраструктуру для систематической оценки и анализа автономных агентов в условиях замкнутого цикла научных исследований.
Унифицированные модели способны выполнять как мультимодальное понимание, так и генерацию в рамках единой архитектуры, однако обычно они работают в один проход, без итеративного уточнения своих выходных данных. Многие мультимодальные задачи, особенно те, которые связаны со сложными пространственными композициями, множеством взаимодействующих объектов или развивающимися инструкциями, требуют декомпозиции инструкций, проверки промежуточных результатов и внесения итеративных исправлений. Хотя масштабирование на этапе тестирования (Test-Time Scaling, TTS) показало, что выделение дополнительных вычислительных ресурсов для итеративных рассуждений существенно улучшает производительность языковых моделей, распространение этой парадигмы на унифицированные мультимодальные модели остается нерешенной задачей. Мы представляем UniT — фреймворк для мультимодального масштабирования цепочек рассуждений на этапе тестирования, который позволяет единой унифицированной модели рассуждать, проверять и уточнять результаты на протяжении нескольких раундов. UniT сочетает синтез агентных данных, унифицированное обучение модели и гибкий вывод на этапе тестирования для проявления когнитивных поведений, включая верификацию, декомпозицию подцелей и контентную память. Наши ключевые выводы таковы: (1) унифицированные модели, обученные на коротких траекториях рассуждений, обобщаются на более длинные цепочки вывода во время тестирования; (2) последовательные цепочки рассуждений обеспечивают более масштабируемую и вычислительно эффективную стратегию TTS, чем параллельная выборка; (3) обучение на траекториях генерации и редактирования улучшает визуальные рассуждения на несмещенных данных. Эти результаты утверждают мультимодальное масштабирование на этапе тестирования как эффективную парадигму для прогресса как в генерации, так и в понимании в унифицированных моделях.
Гипотеза платоновских представлений предполагает, что репрезентации в нейронных сетях сходятся к общей статистической модели реальности. Мы демонстрируем, что существующие метрики для оценки сходства репрезентаций подвержены влиянию масштаба сети: увеличение глубины или ширины модели может систематически завышать показатели репрезентационного сходства. Для коррекции этих эффектов мы предлагаем основанную на перестановках систему нулевой калибровки, которая преобразует любую метрику сходства репрезентаций в калиброванную оценку со статистическими гарантиями. Пересматривая гипотезу платоновских представлений с помощью нашей системы калибровки, мы выявляем более сложную картину: кажущаяся конвергенция, регистрируемая глобальными спектральными мерами, практически исчезает после калибровки, в то время как локальное сходство окрестностей (но не локальные расстояния) сохраняет значительную согласованность между различными модальностями. На основе этих результатов мы предлагаем аристотелевскую гипотезу представлений: репрезентации в нейронных сетях сходятся к общим локальным отношениям соседства.
Прогностические мировые модели, которые симулируют будущие наблюдения при явном управлении камерой, являются основой интерактивного искусственного интеллекта. Несмотря на быстрый прогресс, современные системы страдают от отсутствия пространственной устойчивости: они не способны сохранять стабильные структуры сцены на длительных траекториях, часто галлюцинируя детали при повторном посещении камерой ранее наблюдаемых мест. Мы установили, что этот геометрический дрейф проистекает из зависимости от позиционных эмбеддингов в экранном пространстве, которые конфликтуют с проективной геометрией, необходимой для 3D-согласованности. Мы представляем ViewRope — геометрически осознанное кодирование, которое внедряет направления лучей камеры непосредственно в слои самовнимания видео-трансформеров. Параметризуя внимание относительной геометрией лучей, а не локальностью пикселей, ViewRope обеспечивает встроенное в модель индуктивное смещение для извлечения 3D-согласованного контента через временные промежутки. Мы также предлагаем Геометрически Осознанное Редкое Внимание по Кадрам, которое использует эти геометрические сигналы для выборочного обращения к релевантным историческим кадрам, повышая эффективность без ущерба для согласованности памяти. Кроме того, мы представляем ViewBench — диагностический набор тестов, измеряющий точность замыкания траекторий и геометрический дрейф. Наши результаты демонстрируют, что ViewRope существенно улучшает долгосрочную согласованность, одновременно снижая вычислительные затраты.
Обучение больших языковых моделей (LLM) почти исключительно опирается на плотные адаптивные оптимизаторы со все более сложными прекондиционерами. Мы оспариваем этот подход, демонстрируя, что случайное маскирование обновлений параметров может быть высокоэффективным: маскированный вариант RMSProp стабильно превосходит последние современные оптимизаторы. Наш анализ показывает, что случайное маскирование индуцирует геометрическую регуляризацию, зависящую от кривизны, которая сглаживает траекторию оптимизации. Мотивированные этим открытием, мы представляем маскирование градиентов, согласованное с моментом (Magma), которое модулирует маскированные обновления с использованием согласования момента и градиента. Многочисленные эксперименты по предварительному обучению LLM показывают, что Magma является простой заменой адаптивных оптимизаторов, обеспечивая стабильное улучшение с пренебрежимо малыми вычислительными затратами. Примечательно, что для модели размером 1B Magma снижает перплексию более чем на 19% и 9% по сравнению с Adam и Muon соответственно.
Экзамен последнего рубежа человечества (HLE) стал широко используемым эталоном для оценки передовых больших языковых моделей на сложных, многодоменных вопросах. Однако проведенные сообществом анализы выявили проблему наличия в HLE значительного числа зашумленных элементов, что может искажать результаты оценки и сравнительный анализ моделей. Для решения этой проблемы мы представляем HLE-Verified — верифицированную и пересмотренную версию HLE с прозрачным протоколом проверки и детальной таксономией ошибок. Наша методология построения следует двухэтапному рабочему процессу «валидация-исправление», результатом которого является сертифицированный эталон. На Этапе I каждый элемент проходит бинарную проверку условия задачи и окончательного ответа с помощью экспертной оценки и перекрестных проверок на основе моделей, в результате чего получено 641 верифицированный элемент. На Этапе II дефектные, но исправимые элементы пересматриваются в строгих рамках, сохраняющих исходный замысел оценки, посредством двойного независимого экспертного исправления, аудита с помощью моделей и окончательного арбитража, что дает 1170 исправленных и сертифицированных элементов. Оставшиеся 689 элементов выпускаются в качестве документированного набора с неопределенностью, содержащего явные источники неопределенности и экспертные метки для будущей доработки. Мы оценили семь современных языковых моделей на HLE и HLE-Verified, наблюдая средний абсолютный прирост точности на 7–10 процентных пунктов на HLE-Verified. Улучшение особенно заметно на элементах, где исходная постановка задачи и/или эталонный ответ содержат ошибки, с приростом в 30–40 процентных пунктов. Наш анализ также выявляет сильную связь между уверенностью модели и наличием ошибок в условии задачи или эталонном ответе, что подтверждает эффективность наших исправлений. В целом, HLE-Verified улучшает оценки в стиле HLE за счет снижения аннотационного шума и обеспечивает более достоверное измерение возможностей моделей. Данные доступны по адресу: https://github.com/SKYLENAGE-AI/HLE-Verified
Крупные языковые модели (LLM) меняют парадигму программирования, известную как "виб-кодирование", однако синтез алгоритмически сложного и надежного кода по-прежнему остается критической проблемой. Стимулирование глубоких рассуждений LLM крайне важно для преодоления этого барьера. Подход под названием Reinforcement Fine-Tuning (RFT, тонкая настройка с подкреплением) стал перспективной стратегией для решения этой задачи. Однако большинство существующих методов игнорируют присущую тест-кейсам неоднородную сложность и гранулярность, что приводит к несбалансированному распределению сигналов вознаграждения и, как следствие, к смещенным градиентным обновлениям во время обучения. Для решения этой проблемы мы предлагаем Test-driven and cApability-adaptive cuRriculum reinfOrcement fine-Tuning (TAROT). TAROT систематически строит для каждой задачи четырехуровневый тестовый набор (базовый, промежуточный, сложный, граничный), создавая контролируемый ландшафт сложности для проектирования учебного плана и оценки. Ключевым моментом является то, что TAROT отделяет прогрессию учебного плана от сырых оценок вознаграждения, позволяя проводить оценку с учетом возможностей модели и принципиальный выбор из портфеля политик учебного плана, а не зависеть от случайного состава сложности тест-кейсов. Такая конструкция способствует стабильной оптимизации и более эффективному приобретению компетенций. Результаты многочисленных экспериментов показывают, что оптимальный учебный план для RFT в генерации кода тесно связан с внутренними возможностями модели: менее способные модели достигают большего прогресса при движении от простого к сложному, тогда как более компетентные модели преуспевают при стратегии "сначала сложное". TAROT предоставляет воспроизводимый метод, который адаптивно настраивает учебный план в соответствии с возможностями модели, тем самым последовательно улучшая функциональную корректность и надежность генерируемого кода. Весь код и данные опубликованы для обеспечения воспроизводимости и развития исследований сообщества по адресу https://github.com/deep-diver/TAROT.
Посттренировочное сжатие моделей-трансформеров обычно основывается на усеченном сингулярном разложении (SVD). Однако принудительное задание единого общего подпространства может ухудшить точность даже при умеренном сжатии. Разреженное словарное обучение обеспечивает более гибкое представление в виде объединения подпространств, но существующие подходы часто страдают от итеративных обновлений словаря и коэффициентов. Мы предлагаем COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers) — свободный от дообучения фреймворк для сжатия, который использует небольшой калибровочный набор данных для оценки разреженной факторизации весов. COMPOT использует ортогональные словари, что позволяет применять замкнутые обновления Проскурякова для словаря и аналитическое одношаговое разреженное кодирование для коэффициентов, исключая итеративную оптимизацию. Для учета неоднородной чувствительности слоев при глобальном бюджете сжатия COMPOT дополнительно вводит одношаговую стратегию динамического распределения, которая адаптивно перераспределяет уровни сжатия по слоям. Многочисленные эксперименты на различных архитектурах и задачах показывают, что COMPOT стабильно обеспечивает превосходный компромисс между качеством и сжатием по сравнению с сильными низкоранговыми и разреженными базовыми методами, оставаясь при этом полностью совместимым с посттренировочной квантизацией для экстремального сжатия. Код доступен {здесь}(https://github.com/mts-ai/COMPOT).
Модели мира требуют надежного реляционного понимания для поддержки прогнозирования, логического вывода и управления. Хотя объектно-ориентированные представления предоставляют полезную абстракцию, они недостаточны для описания динамики, зависящей от взаимодействий. Поэтому мы предлагаем C-JEPA — простую и гибкую объектно-ориентированную модель мира, которая расширяет задачу предсказания маскированных совместных представлений с патчей изображений на объектно-ориентированные представления. Применяя маскирование на уровне объектов, которое требует вывода состояния объекта из состояний других объектов, C-JEPA индуцирует латентные вмешательства с контрфактическими эффектами и предотвращает поиск упрощенных решений, делая анализ взаимодействий необходимым. Экспериментально C-JEPA демонстрирует устойчивое улучшение в задачах визуального ответа на вопросы, с абсолютным приростом около 20% в контрфактическом reasoning по сравнению с той же архитектурой без объектного маскирования. В задачах управления агентом C-JEPA обеспечивает существенно более эффективное планирование, используя лишь 1% от общего количества латентных признаков, требуемых моделями мира на основе патчей, при достижении сопоставимой производительности. Наконец, мы предоставляем формальный анализ, показывающий, что маскирование на уровне объектов индуцирует каузальную индуктивную предвзятость через латентные вмешательства. Наш код доступен по адресу https://github.com/galilai-group/cjepa.
Современные исследования мультимодальных моделей сталкиваются с ключевой проблемой: улучшение генеративных возможностей часто достигается за счёт снижения способности к пониманию, и наоборот. Мы проанализировали этот компромисс и выявили, что основной причиной, вероятно, является потенциальный конфликт между генерацией и пониманием, создающий конкурентную динамику внутри модели. Для решения этой проблемы мы предлагаем фреймворк Reason-Reflect-Refine (R3). Этот инновационный алгоритм преобразует задачу одношаговой генерации в многошаговый процесс "сгенерировать-понять-перегенерировать". Явно задействуя способность модели к пониманию в процессе генерации, мы успешно смягчаем дилемму оптимизации, достигая более качественных результатов генерации и улучшая способность к пониманию, связанную с процессом генерации. Это даёт ценные insights для проектирования унифицированных мультимодальных моделей следующего поколения. Код доступен по адресу https://github.com/sen-ye/R3.
Языковые модели все чаще используются для анализа информации, на которой они не обучались, такой как новые документы, эволюционирующие знания и пользовательские данные. Распространенным подходом является генерация с расширением выборки (RAG), при которой дословные документы хранятся внешне (в виде фрагментов), и на этапе вывода извлекается только релевантное подмножество для анализа LLM. Однако это приводит к неэффективному использованию вычислительных ресурсов во время тестирования (LLM многократно анализирует одни и те же документы); более того, извлечение фрагментов может добавлять нерелевантный контекст, что увеличивает количество неподтвержденных генераций. Мы предлагаем похожий на человеческий непараметрический фреймворк непрерывного обучения, в котором базовая модель остается неизменной, а обучение происходит за счет интеграции каждого нового опыта во внешнее состояние семантической памяти, которое постоянно накапливается и консолидируется. Мы представляем Panini, который реализует это, представляя документы в виде генеративных семантических рабочих пространств (GSW) — сети пар "вопрос-ответ" (QA), учитывающей сущности и события, что достаточно для LLM, чтобы восстанавливать пережитые ситуации и извлекать скрытые знания с помощью обоснованных логических цепочек вывода в сети. При получении запроса Panini проходит только по постоянно обновляемому GSW (а не по дословным документам или фрагментам) и извлекает наиболее вероятные цепочки вывода. На шести бенчмарках QA Panini демонстрирует наивысшую среднюю производительность, на 5–7% выше, чем у других конкурентоспособных базовых методов, при этом используя в 2–30 раз меньше токенов контекста ответа, поддерживает полностью открытые конвейеры и сокращает количество неподтвержденных ответов на специально подобранные неотвечаемые запросы. Результаты показывают, что эффективная и точная структуризация опыта на этапе записи — как это реализовано в рамках GSW — обеспечивает выигрыш как в эффективности, так и в надежности на этапе чтения. Код доступен по адресу https://github.com/roychowdhuryresearch/gsw-memory.
Интернет переполнен изображениями, изначально созданными для восприятия человеком, но всё чаще интерпретируемыми агентами, использующими визуально-языковые модели (VLM). Эти агенты принимают визуальные решения в масштабе, определяя, на что кликнуть, что порекомендовать или купить. Однако мы мало знаем о структуре их визуальных предпочтений. Мы представляем фреймворк для изучения этого, помещая VLM в контролируемые задачи выбора на основе изображений и систематически изменяя их входные данные. Наша ключевая идея заключается в том, чтобы рассматривать функцию принятия решений агентом как скрытую визуальную полезность, которую можно вывести через выявленные предпочтения: выбор между систематически редактируемыми изображениями. Отправляясь от распространённых изображений, таких как фотографии товаров, мы предлагаем методы оптимизации визуальных промптов, адаптируя методы текстовой оптимизации для итеративного предложения и применения визуально правдоподобных модификаций с использованием модели генерации изображений (например, в композиции, освещении или фоне). Затем мы оцениваем, какие правки увеличивают вероятность выбора. В ходе масштабных экспериментов с передовыми VLM мы демонстрируем, что оптимизированные правки значительно смещают вероятности выбора в прямых сравнениях. Мы разрабатываем автоматизированный конвейер интерпретируемости, чтобы объяснить эти предпочтения, выявляя устойчивые визуальные темы, которые управляют выбором. Мы утверждаем, что такой подход предлагает практичный и эффективный способ выявления визуальных уязвимостей и проблем безопасности, которые в противном случае могли бы быть обнаружены неявно в реальных условиях, что способствует более проактивному аудиту и управлению AI-агентами, работающими с изображениями.
При развертывании фундаментальных моделей специалистам все чаще требуются предписывающие законы масштабирования: при заданном бюджете вычислительных ресурсов на предварительное обучение, какая точность достижима на последующих задачах с использованием современных методов постобработки и насколько стабильно это соответствие по мере развития области? Используя крупномасштабные наблюдательные оценки с 5 тыс. существующих и 2 тыс. вновь собранных данных о производительности моделей, мы оцениваем границы возможностей — высокие условные квантили результатов на бенчмарках как функцию логарифма FLOPs предварительного обучения — с помощью сглаженной квантильной регрессии с монотонной насыщающей сигмоидальной параметризацией. Мы проверяем временную надежность метода, обучая его на более ранних поколениях моделей и оценивая на более поздних версиях. На различных задачах оцененные границы в основном стабильны, за исключением математических рассуждений, где граница последовательно повышается со временем. Затем мы расширяем наш подход для анализа насыщения, зависящего от задачи, и исследования сдвигов, связанных с контаминацией данных, на задачах математических рассуждений. Наконец, мы представляем эффективный алгоритм, который восстанавливает почти полные границы данных, используя примерно 20% бюджета на оценку. В совокупности наша работа представляет Proteus 2k — новейший набор данных для оценки производительности моделей — и предлагает практическую методологию для пересчета вычислительных бюджетов в надежные ожидания по производительности и для отслеживания временных сдвигов границ возможностей.
Обучение с подкреплением (RL) значительно улучшило способность крупных языковых моделей к рассуждениям, однако существующие методы тонкой настройки на основе RL в значительной степени опираются на эвристические приемы, такие как регуляризация энтропии и перевзвешивание, для обеспечения стабильности. На практике они часто сталкиваются с коллапсом производительности на поздних этапах, что приводит к ухудшению качества рассуждений и нестабильности обучения. Мы выводим, что величина пошаговых градиентов политики в RL отрицательно коррелирует с вероятностью токена и локальной энтропией политики. Основываясь на этом результате, мы доказываем, что нестабильность обучения обусловлена крайне малой долей токенов, приблизительно 0,01%, которые мы называем ложными токенами. Когда такие токены появляются в правильных ответах, они мало влияют на результат рассуждений, но получают полное вознаграждение на уровне последовательности, что приводит к аномально усиленным обновлениям градиента. Руководствуясь этим наблюдением, мы предлагаем Оптимизацию политики с учетом ложных токенов (STAPO) для масштабного уточнения моделей, которая выборочно маскирует такие обновления и перенормирует потери по валидным токенам. На шести тестах математических рассуждений с использованием базовых моделей Qwen 1,7B, 8B и 14B метод STAPO стабильно демонстрирует превосходную стабильность энтропии и достигает среднего прироста производительности на 7,13% по сравнению с методами GRPO, 20-Entropy и JustRL.
Разделение действий на сегменты позволяет моделям «Зрение-Язык-Действие» (VLA) работать в реальном времени, однако наивное выполнение по сегментам часто приводит к разрывам на границах фрагментов. Метод Real-Time Chunking (RTC) смягчает эту проблему, но, будучи внешним по отношению к политике, вызывает ложное мультимодальное переключение и траектории, не обладающие внутренней плавностью. Мы предлагаем Legato — метод продолжения на этапе обучения для потоковых VLA-политик с фрагментированными действиями. В частности, Legato инициализирует удаление шума из сформированного расписанием смеси известных действий и шума, предоставляя модели доступ к частичной информации о действиях. Более того, Legato перестраивает изученную потоковую динамику, чтобы обеспечить согласованность процесса удаления шума между обучением и выводом при пошаговом руководстве. Legato также использует рандомизированное условие расписания во время обучения для поддержки переменных задержек вывода и достижения контролируемой плавности. Экспериментально Legato демонстрирует более плавные траектории и снижает ложное мультимодальное переключение во время выполнения, что приводит к меньшим колебаниям и сокращению времени выполнения задачи. Многочисленные эксперименты в реальных условиях показывают, что Legato стабильно превосходит RTC в пяти задачах манипулирования, достигая примерно 10% улучшений как в плавности траектории, так и во времени выполнения задачи.
Многоагентные системы (МАС), основанные на больших языковых моделях, открыли возможности для продвинутого коллективного рассуждения, однако остаются скованы неэффективностью дискретной текстовой коммуникации, которая приводит к значительным накладным расходам времени выполнения и потере информации при квантовании. Хотя передача латентных состояний предлагает высокоскоростную альтернативу, существующие подходы либо предполагают однородные архитектуры отправителя-получателя, либо опираются на специализированные обученные преобразователи, что ограничивает масштабируемость и модульность для разнородных семейств моделей с несвязанными многообразиями. В данной работе мы предлагаем Vision Wormhole — новую архитектуру, которая перепрофилирует визуальный интерфейс моделей Vision-Language (VLM) для обеспечения модельно-независимой бестекстовой коммуникации. Благодаря введению универсального визуального кодека мы отображаем гетерогенные цепочки рассуждений в общее непрерывное латентное пространство и напрямую внедряем их в визуальный путь обработки получателя, используя визуальный энкодер как универсальный порт для межагентной «телепатии». Наша архитектура реализует топологию «звезда» для снижения сложности попарного согласования с O(N²) до O(N) и использует цель дистилляции «учитель-ученик» без разметки для согласования высокоскоростного визуального канала с устойчивыми паттернами рассуждений текстового пути. Экстенсивные эксперименты с разнородными семействами моделей (например, Qwen-VL, Gemma) демонстрируют, что Vision Wormhole сокращает сквозное время выполнения в контролируемых сравнениях при сохранении достоверности рассуждений, сопоставимой со стандартными текстовыми МАС. Код доступен по адресу https://github.com/xz-liu/heterogeneous-latent-mas
Хотя большие языковые модели (LLМ) демонстрируют экспертные медицинские знания, согласование их открытых ответов с детализированными предпочтениями клиницистов остается сложной задачей. Существующие методы часто опираются на грубые целевые показатели или ненадежные автоматические оценки, слабо основанные на профессиональных рекомендациях. Мы предлагаем двухэтапную структуру для решения этой проблемы. Во-первых, мы представляем HealthRubrics — набор данных из 7034 проверенных врачами примеров предпочтений, в которых клиницисты дорабатывают рубрики, составленные LLМ, для соответствия строгим медицинским стандартам. Во-вторых, мы дистиллируем эти рубрики в HealthPrinciples: 119 широко применимых, клинически обоснованных принципов, организованных по клиническим измерениям, что позволяет масштабировать контроль за пределами ручной разметки. Мы используем HealthPrinciples для (1) офлайн-выравнивания путем синтеза рубрик для немаркированных запросов и (2) инструмента на этапе вывода для управляемой самокоррекции. Модель с 30 млрд параметров, которая активирует только 3 млрд параметров на этапе вывода и обученная с использованием нашей структуры, достигает показателя 33.4% на HealthBench-Hard, превосходя значительно более крупные модели, включая Deepseek-R1 и o3, и устанавливая ресурсоэффективный базовый уровень для клинического согласования.
Эффективная обработка длинных контекстов остается ключевой проблемой для современных больших языковых моделей (LLM), особенно в условиях ограниченных ресурсов. Архитектуры мягкого сжатия предлагают расширить эффективную длину контекста путем замены длинных последовательностей токенов на меньшие наборы обученных сжатых токенов. Однако пределы сжимаемости — и момент, когда сжатие начинает удалять информацию, релевантную для задачи, — остаются недостаточно изученными. В данной статье мы определяем переполнение токенов как режим, в котором сжатые представления больше не содержат достаточной информации для ответа на заданный запрос, и предлагаем методологию для его характеристики и обнаружения. В условиях мягкого сжатия xRAG мы обнаруживаем, что независимая от запроса статистика насыщения надежно отделяет сжатые представления токенов от несжатых, предоставляя практический инструмент для идентификации сжатых токенов, но демонстрируя ограниченную способность к обнаружению переполнения. Легковесные пробующие классификаторы, работающие с представлениями как запроса, так и контекста xRAG, обнаруживают переполнение со средним значением AUC-ROC 0.72 на наборах данных HotpotQA, SQuADv2 и TriviaQA, что демонстрирует улучшение производительности обнаружения при учете информации запроса. Эти результаты знаменуют переход от независимой от запроса диагностики к детекторам, учитывающим запрос, что позволяет реализовать низкозатратное предварительное ветвление до LLM для минимизации ошибок, вызванных сжатием.
Крупные языковые модели (LLM) по-прежнему испытывают трудности с вопросами, требующими обширных знаний, актуальной информации и многошаговых рассуждений. Расширение возможностей LLM за счет гибридных внешних знаний, таких как неструктурированный текст и структурированные графы знаний, представляет собой перспективную альтернативу дорогостоящему непрерывному предварительному обучению. В связи с этим надежная оценка их способностей к извлечению и рассуждению становится критически важной. Однако многие существующие бенчмарки все больше пересекаются с данными предварительного обучения LLM, что означает, что ответы или вспомогательные знания могут быть уже закодированы в параметрах модели, что затрудняет различение подлинного извлечения и рассуждений от запоминания параметров. Мы представляем HybridRAG-Bench — фреймворк для создания бенчмарков, оценивающих интенсивное извлечение и многошаговые рассуждения на основе гибридных знаний. HybridRAG-Bench автоматически объединяет неструктурированный текст и структурированные представления графов знаний, полученные из недавних научных статей на arXiv, и генерирует пары «вопрос-ответ», требующие глубоких знаний и основанные на явных путях рассуждений. Фреймворк поддерживает гибкий выбор предметной области и временного периода, что позволяет проводить настраиваемую оценку с учетом возможного загрязнения данных по мере развития моделей и знаний. Эксперименты в трех областях (искусственный интеллект, государственное управление и политика, а также биоинформатика) показывают, что HybridRAG-Bench поощряет именно подлинное извлечение и рассуждения, а не запоминание параметров, предлагая принципиальную основу для оценки систем рассуждений, усиленных гибридными знаниями. Наш код и данные доступны по адресу github.com/junhongmit/HybridRAG-Bench.