Ежедневно отобранные исследовательские статьи по ИИ с переводами
В реальных сценариях видео-вопросно-ответных систем видеоролики часто предоставляют лишь локальные визуальные подсказки, тогда как проверяемые ответы распределены по открытой сети; следовательно, модели должны совместно выполнять извлечение межкадровых ключей, итеративный поиск и верификацию на основе многошаговых рассуждений. Для преодоления этого разрыва мы создали первый бенчмарк для глубокого анализа видео — VideoDR. VideoDR фокусируется на видео-обусловленных открытых видео-вопросно-ответных задачах, требующих извлечения визуальных якорей между кадрами, интерактивного веб-поиска и многошаговых рассуждений над совместными видео-веб доказательствами; благодаря тщательной человеческой разметке и контролю качества мы получили высококачественные образцы для глубокого анализа видео, охватывающие шесть семантических доменов. Мы оценили несколько проприетарных и открытых мультимодальных больших языковых моделей в рамках Workflow и Agentic парадигм, и результаты показывают, что Agentic не является последовательно превосходящей Workflow: её преимущества зависят от способности модели сохранять первоначальные видео-якоря в длинных цепочках поиска. Дальнейший анализ указывает, что дрейф целей и долгосрочная согласованность являются ключевыми узкими местами. В целом, VideoDR предоставляет систематический бенчмарк для изучения видео-агентов в условиях открытой сети и выявляет основные проблемы для агентов следующего поколения, выполняющих глубокий анализ видео.
В то время как люди развивают базовые визуальные навыки задолго до овладения языком, современные мультимодальные большие языковые модели (MLLM) по-прежнему сильно зависят от лингвистических априорных знаний, чтобы компенсировать их хрупкое визуальное понимание. Мы обнаружили ключевой факт: передовые MLLM последовательно терпят неудачу в решении базовых визуальных задач, которые люди, даже 3-летние дети, решают без усилий. Для систематического исследования этого разрыва мы представляем BabyVision — эталонный тест, предназначенный для оценки базовых визуальных способностей MLLM, независимых от лингвистических знаний. BabyVision охватывает широкий спектр задач, включая 388 пунктов, разделенных на 22 подкласса по четырем ключевым категориям. Эмпирические результаты и оценка человеком показывают, что ведущие MLLM демонстрируют результаты значительно ниже человеческих базовых уровней. Gemini3-Pro-Preview набирает 49,7 балла, отставая от 6-летних детей и значительно уступая среднему показателю взрослого человека в 94,1 балла. Эти результаты показывают, что, несмотря на превосходство в оценках, требующих обширных знаний, современные MLLM все еще не обладают фундаментальными визуальными примитивами. Прогресс в BabyVision представляет собой шаг к достижению человеческого уровня визуального восприятия и способностей к рассуждению. Мы также исследуем решение задач визуального рассуждения с помощью генеративных моделей, предлагая BabyVision-Gen и инструментарий для автоматической оценки. Наш код и данные эталонного теста опубликованы по адресу https://github.com/UniPat-AI/BabyVision для воспроизведения.
Мы представляем Parallel Coordinated Reasoning (PaCoRe) — фреймворк для обучения и вывода, предназначенный для преодоления ключевого ограничения современных языковых моделей: их неспособности значительно масштабировать вычислительные ресурсы на этапе тестирования (TTC) за пределы последовательных рассуждений в рамках фиксированного контекстного окна. PaCoRe отходит от традиционной последовательной парадигмы, обеспечивая масштабирование TTC за счёт массового параллельного исследования, координируемого через архитектуру передачи сообщений в несколько раундов. Каждый раунд запускает множество параллельных траекторий рассуждений, компактизирует их результаты в сообщения, ограниченные размером контекста, и синтезирует эти сообщения для руководства следующим раундом и, в конечном счёте, для формирования окончательного ответа. Модель, обученная сквозным образом с помощью масштабируемого обучения с подкреплением на основе результатов, осваивает навыки синтеза, необходимые для PaCoRe, и масштабируется до эффективного TTC в миллионы токенов, не превышая ограничений контекста. Данный подход демонстрирует значительное улучшение результатов в различных областях и, что особенно примечательно, выводит рассуждения за пределы возможностей передовых систем в математике: модель с 8 миллиардами параметров достигает 94.5% на HMMT 2025, превосходя результат GPT-5 (93.2%) за счёт масштабирования эффективного TTC примерно до двух миллионов токенов. Мы открываем исходный код чекпоинтов модели, данных для обучения и полного конвейера вывода для ускорения последующих исследований.
Хотя архитектура Transformer доминирует во многих областях, ее квадратичная сложность самовнимания препятствует использованию в крупномасштабных приложениях. Линейное внимание предлагает эффективную альтернативу, но его прямое применение часто приводит к снижению производительности, а существующие исправления обычно вновь вводят вычислительные затраты через дополнительные модули (например, depthwise separable convolution), что противоречит первоначальной цели. В данной работе мы выявляем ключевую проблему этих методов: коллапс глобального контекста, при котором модель теряет репрезентативное разнообразие. Для решения этой проблемы мы предлагаем Multi-Head Linear Attention (MHLA), который сохраняет это разнообразие, вычисляя внимание внутри разделенных головок по токенному измерению. Мы доказываем, что MHLA сохраняет линейную сложность, восстанавливая значительную часть выразительной способности softmax-внимания, и подтверждаем его эффективность в различных областях, демонстрируя улучшение на 3.6% в классификации ImageNet, прирост на 6.3% в NLP, улучшение на 12.6% в генерации изображений и усиление на 41% в генерации видео при той же временной сложности.
Соревновательное программирование представляет серьезные вызовы для языковых моделей программирования (Code LLMs) из-за высоких требований к логическому мышлению и сложности задач. Однако современные Code LLMs по-прежнему сильно зависят от реальных данных, что ограничивает их масштабируемость. В данной работе мы исследуем полностью синтетический подход: обучение Code LLMs на полностью сгенерированных задачах, решениях и тестовых случаях, чтобы расширить возможности моделей логического анализа кода без использования реальных данных. Для реализации этого подхода мы применяем синтез на основе признаков и предлагаем новую pipeline-систему синтеза данных под названием SynthSmith. SynthSmith демонстрирует значительный потенциал в создании разнообразных и сложных задач вместе с верифицированными решениями и тестами, поддерживая как обучение с учителем, так и обучение с подкреплением. На основе предложенных синтетических наборов данных для SFT и RL мы представляем серию моделей X-Coder, которая достигает показателя 62.9 avg@8 на LiveCodeBench v5 и 55.8 на v6, превосходя DeepCoder-14B-Preview и AReal-boba2-14B при наличии всего 7 миллиардов параметров. Глубокий анализ показывает, что законы масштабирования выполняются на наших синтетических данных, и мы исследуем, какие аспекты масштабирования наиболее эффективны. Мы также предоставляем инсайты по обучению с подкреплением, ориентированному на код, и выделяем ключевые факторы, влияющие на производительность, через детальные ablation-исследования и анализ. Наши результаты демонстрируют, что масштабирование высококачественных синтетических данных и применение поэтапного обучения могут значительно продвинуть логический анализ кода, одновременно снижая зависимость от реальных данных программирования.
Последние достижения в области рассуждающих моделей и агентских систем ИИ привели к увеличению зависимости от разнообразной внешней информации. Однако этот сдвиг влечет за собой использование входных контекстов, которые по своей природе содержат шум, — реальность, которую современные "очищенные" бенчмарки не учитывают. Мы представляем NoisyBench — комплексный бенчмарк, который систематически оценивает устойчивость моделей на 11 наборах данных в задачах RAG, логического вывода, согласования и использования инструментов против различных типов шума, включая случайные документы, нерелевантные истории чатов и сложные негативные дистракторы. Наша оценка выявляет катастрофическое падение производительности — до 80% — у современных моделей при столкновении с контекстными дистракторами. Что особенно важно, мы обнаруживаем, что агентские рабочие процессы часто усиливают эти ошибки из-за избыточного доверия к зашумленным выходным данным инструментов, а дистракторы могут провоцировать emergent-несогласованность даже без злонамеренного вмешательства. Мы выяснили, что промптинг, инженерия контекста, SFT и RL с вознаграждением только по результату не обеспечивают устойчивости; напротив, наша предлагаемая методика Rationale-Aware Reward (RARE) значительно повышает устойчивость, поощряя идентификацию полезной информации в условиях шума. Наконец, мы выявили обратную зависимость масштабирования, при которой увеличение вычислительных ресурсов на этапе тестирования приводит к ухудшению производительности в зашумленных условиях, и с помощью визуализации внимания показали, что модели непропорционально фокусируются на токенах-дистракторах, что дает важные инсайты для создания следующего поколения устойчивых агентов, способных к рассуждениям.
Крупные модели рассуждений (LRMs) демонстрируют выдающиеся результаты за счёт явного генерации многошаговых цепочек мыслей, однако эта способность сопряжена со значительной задержкой вывода и высокими вычислительными затратами. Коллаборативный вывод предлагает перспективное решение, избирательно распределяя задачи между облегчёнными и крупными моделями, но фундаментальная проблема остаётся: определить, когда шаг рассуждения требует мощности крупной модели, а когда достаточно эффективности малой модели. Существующие стратегии маршрутизации либо полагаются на локальные вероятности токенов, либо на последующую верификацию, что вносит существенные накладные расходы на вывод. В данной работе мы предлагаем новый взгляд на пошаговую коллаборацию: сложность шага рассуждения можно определить по самому первому его токену. Вдохновлённые феноменом "Момента озарения" в LRMs, мы показываем, что энтропия начального токена служит надёжным индикатором сложности шага. Основываясь на этом наблюдении, мы представляем GlimpRouter — бесплатный при обучении фреймворк для пошаговой коллаборации. GlimpRouter использует облегчённую модель для генерации только первого токена каждого шага рассуждения и направляет шаг к крупной модели только в случае, если энтропия начального токена превышает пороговое значение. Эксперименты на нескольких бенчмарках демонстрируют, что наш подход значительно сокращает задержку вывода при сохранении точности. Например, GlimpRouter достигает существенного улучшения точности на 10.7%, одновременно сокращая задержку вывода на 25.9% по сравнению с автономной крупной моделью на AIME25. Эти результаты указывают на простой, но эффективный механизм рассуждений: распределение вычислений на основе беглого взгляда на мысль, а не оценки полного шага.
Хотя модели «визуальный язык» (Vision-Language Models, VLM) значительно продвинули развитие компьютерных агентов (Computer-Using Agents, CUA), современные фреймворки сталкиваются с проблемами устойчивости в долгосрочных рабочих процессах и обобщения в новых областях. Эти ограничения проистекают из отсутствия детального контроля над курированием исторического визуального контекста и недостатка механизмов поиска обучающих материалов с учетом визуальной информации. Для преодоления этих пробелов мы представляем OS-Symphony — целостный фреймворк, который включает Оркестратор, координирующий две ключевые инновации для обеспечения надежной автоматизации: (1) Агент Рефлексии-Памяти, использующий долговременную память на основе вех для самоисправления на уровне траектории, что эффективно mitigates потерю визуального контекста в долгосрочных задачах; (2) Универсальные Инструментальные Агенты, включающие Мультимодальный Поисковик, который применяет парадигму SeeAct для навигации в браузерной песочнице с целью синтеза актуальных, визуально согласованных tutorials, тем самым решая проблемы достоверности в неизвестных сценариях. Результаты экспериментов демонстрируют, что OS-Symphony обеспечивает существенный прирост производительности для моделей различного масштаба, устанавливая новые state-of-the-art результаты на трех онлайн-бенчмарках, в частности, достигая 65.84% на OSWorld.
Диффузионные языковые модели (DLM) представляют перспективную альтернативу для языкового моделирования, обеспечивая параллельное декодирование за счёт итеративного уточнения. Однако большинство DLM полагаются на жёсткое бинарное маскирование и дискретные назначения токенов, что затрудняет пересмотр ранних решений и неэффективно использует промежуточные вероятностные представления. В данной статье мы предлагаем EvoToken-DLM — новый диффузионный подход к языковому моделированию, который заменяет жёсткие бинарные маски эволюционирующими мягкими распределениями токенов. EvoToken-DLM обеспечивает плавный переход от замаскированных состояний к дискретным выходным данным, поддерживая пересматриваемое декодирование. Для эффективной поддержки этой эволюции мы вводим непрерывный контроль по траектории, который согласует учебные цели с итеративными вероятностными обновлениями. Многочисленные эксперименты на различных тестовых наборах показывают, что EvoToken-DLM стабильно демонстрирует превосходящую производительность, опережая сильные диффузионные и маскированные DLM-базlines. Страница проекта: https://aim-uofa.github.io/EvoTokenDLM.
По мере того как агенты на основе больших языковых моделей (LLM) все чаще применяются в долгосрочных взаимодействиях, кумулятивная память становится критически важной для обеспечения персонализации и поддержания стилистической согласованности. Однако большинство существующих систем используют подход «всё или ничего» к использованию памяти: включение всей релевантной прошлой информации может привести к «якорению памяти» (Memory Anchoring), когда агент оказывается в ловушке прошлых взаимодействий, тогда как полное исключение памяти ведет к ее неполному использованию и потере важной истории взаимодействий. Мы показываем, что зависимость агента от памяти можно моделировать как явное и управляемое пользователем измерение. Сначала мы вводим поведенческую метрику зависимости от памяти для количественной оценки влияния прошлых взаимодействий на текущие результаты. Затем мы предлагаем Steerable Memory Agent (SteeM) — фреймворк, который позволяет пользователям динамически регулировать зависимость от памяти, от режима «чистого листа», способствующего инновациям, до режима высокой точности, строго следующего истории взаимодействий. Эксперименты в различных сценариях демонстрируют, что наш подход стабильно превосходит традиционные методы промптинга и жесткие стратегии маскировки памяти, обеспечивая более тонкий и эффективный контроль для персонализированного сотрудничества человека и агента.
Быстрое развитие интерактивных и автономных систем искусственного интеллекта знаменует наш вход в эпоху агентных систем. Обучение и оценка агентов на сложных агентных задачах, таких как разработка программного обеспечения и работа с компьютером, требуют не только эффективных вычислительных моделей, но и сложной инфраструктуры, способной координировать масштабные взаимодействия агента со средой. Однако существующие открытые инфраструктурные решения не могут эффективно поддерживать крупномасштабное обучение и оценку для таких сложных агентных задач. Для решения этой проблемы мы представляем MegaFlow — масштабируемую распределенную систему оркестрации, которая обеспечивает эффективное планирование, распределение ресурсов и детальное управление задачами для рабочих нагрузок «агент-среда». MegaFlow абстрагирует инфраструктуру обучения агентов в три независимых сервиса (Сервис моделей, Сервис агентов и Сервис сред), взаимодействующих через унифицированные интерфейсы, что позволяет независимое масштабирование и гибкое распределение ресурсов для различных конфигураций «агент-среда». В наших развертываниях по обучению агентов MegaFlow успешно управляет десятками тысяч параллельных агентных задач, сохраняя высокую стабильность системы и достигая эффективного использования ресурсов. Обеспечивая возможность столь масштабного обучения агентов, MegaFlow заполняет критический инфраструктурный пробел в emerging-ландшафте агентного ИИ.
Поскольку получение качественных данных становится все более сложной задачей, саморазвитие без данных (data-free self-evolution) стало перспективной парадигмой. Этот подход позволяет большим языковым моделям (LLM) автономно генерировать и решать сложные задачи, тем самым улучшая их способности к рассуждению. Однако многошаговые поисковые агенты сталкиваются с трудностями в саморазвитии без данных из-за ограниченного разнообразия генерируемых вопросов и значительных вычислительных ресурсов, требуемых для многошаговых рассуждений и использования инструментов. В данной работе мы представляем Dr. Zero — фреймворк, который позволяет поисковым агентам эффективно саморазвиваться без каких-либо обучающих данных. В частности, мы разработали петлю обратной связи саморазвития, в которой *генератор* (proposer) создает разнообразные вопросы для обучения *решателя* (solver), инициализированного на основе той же базовой модели. По мере эволюции решателя он стимулирует генератор производить все более сложные, но при этом решаемые задачи, создавая таким образом автоматизированный учебный план для совершенствования обоих агентов. Для повышения эффективности обучения мы также представляем метод оптимизации относительной политики с группировкой по шагам (hop-grouped relative policy optimization, HRPO). Этот метод группирует структурно схожие вопросы для построения групповых базовых уровней, что позволяет эффективно минимизировать вычислительные затраты на оценку индивидуальной сложности и разрешимости каждого запроса. Как следствие, HRPO значительно сокращает вычислительные требования для обучения решателя без ущерба для производительности или стабильности. Результаты многочисленных экспериментов демонстрируют, что Dr. Zero, работающий без данных, соответствует или превосходит полностью обученных с учителем поисковых агентов, доказывая, что сложные способности к рассуждениям и поиску могут возникать исключительно за счет саморазвития.
Модели генерации видео, как одна из форм моделей мира, стали одним из самых захватывающих направлений в области ИИ, обещая агентам способность предвосхищать будущее путем моделирования временной эволюции сложных сцен. В автономном вождении это видение порождает модели мира для вождения: генеративные симуляторы, которые предсказывают будущее эго-агента и других участников, обеспечивая масштабируемое моделирование, безопасное тестирование крайних случаев и генерацию богатых синтетических данных. Однако, несмотря на быстро растущую исследовательскую активность, в данной области отсутствует строгий эталон для измерения прогресса и определения приоритетов. Существующие методы оценки остаются ограниченными: общие метрики видео игнорируют критически важные для безопасности факторы визуализации; правдоподобие траекторий редко количественно оценивается; временная и агентская согласованность не учитывается; а управляемость относительно условий для эго-агента игнорируется. Более того, текущие наборы данных не охватывают всего разнообразия условий, необходимых для реального развертывания. Для устранения этих пробелов мы представляем DrivingGen — первый комплексный эталон для генеративных моделей мира вождения. DrivingGen сочетает в себе разнообразный оценочный набор данных, составленный как из датасетов по вождению, так и из интернет-видео, охватывающий различные погодные условия, время суток, географические регионы и сложные маневры, с набором новых метрик, которые совместно оценивают визуальный реализм, правдоподобие траекторий, временную согласованность и управляемость. Тестирование 14 современных моделей выявляет явные компромиссы: универсальные модели выглядят лучше, но нарушают законы физики, в то время как специализированные модели для вождения реалистично передают движение, но отстают по визуальному качеству. DrivingGen предлагает унифицированную систему оценки для развития надежных, управляемых и пригодных к развертыванию моделей мира вождения, обеспечивая масштабируемое моделирование, планирование и принятие решений на основе данных.
Латентные диффузионные модели (LDM) генерируют высококачественные изображения, работая в сжатом латентном пространстве, которое обычно получают с помощью токенизаторов изображений, таких как вариационные автоэнкодеры (VAE). В поисках VAE, удобного для генерации, последние исследования изучали использование моделей компьютерного зрения общего назначения (VFM) в качестве целей для выравнивания представлений VAE, повторяя подход, обычно применяемый для LDM. Хотя это дает определенный прирост производительности, использование одной и той же цели выравнивания как для VAE, так и для LDM игнорирует их фундаментально различные репрезентационные требования. Мы утверждаем, что в то время как LDM выигрывают от латентных переменных, сохраняющих высокоуровневые семантические концепты, VAE должны превосходно справляться с семантическим разделением признаков, позволяя кодировать информацию на уровне атрибутов структурированным образом. Для решения этой проблемы мы предлагаем VAE с семантическим разделением признаков (Send-VAE), явно оптимизированный для обучения разделенным представлениям путем выравнивания его латентного пространства с семантической иерархией предобученных VFM. Наш подход использует нелинейную mapper-сеть для преобразования латентных переменных VAE, выравнивая их с VFM, чтобы преодолеть разрыв между разделением признаков на уровне атрибутов и высокоуровневой семантикой, обеспечивая эффективное руководство для обучения VAE. Мы оцениваем семантическое разделение признаков с помощью линейного probing на задачах предсказания атрибутов, показывая сильную корреляцию с улучшенной производительностью генерации. Наконец, используя Send-VAE, мы обучаем трансформеры на основе потоков (SiT); эксперименты показывают, что Send-VAE значительно ускоряет обучение и достигает наилучшего показателя FID в 1.21 и 1.75 с использованием классификатор-фри guidance и без него на ImageNet 256x256.
Современные бенчмарки для систем "визуальный язык-текст" преимущественно содержат хорошо структурированные вопросы с четкими и явными формулировками. Однако реальные пользовательские запросы часто носят неформальный и недостаточно определенный характер. Пользователи интуитивно опускают множество деталей, полагаясь на изображения для передачи контекста. Мы представляем HAERAE-Vision — бенчмарк, состоящий из 653 реальных визуальных вопросов из корейских онлайн-сообществ (отобрано 0,76% из 86 тысяч кандидатов), каждый из которых снабжен явно переформулированной версией, что в сумме дает 1306 вариантов запросов. Оценив 39 моделей визуального языка (VLM), мы обнаружили, что даже передовые модели (GPT-5, Gemini 2.5 Pro) показывают результат ниже 50% на исходных запросах. Ключевой вывод: одно лишь уточнение формулировки запроса дает улучшение на 8–22 процентных пункта, причем наибольшую выгоду извлекают меньшие модели. Мы также демонстрируем, что даже с использованием веб-поиска неспецифицированные запросы работают хуже, чем явные запросы без поиска, что свидетельствует о неспособности современных систем поиска компенсировать информацию, которую пользователи опускают. Наши результаты показывают, что значительная часть трудностей VLM связана с естественной недостаточной специфицированностью запросов, а не с ограничениями моделей, подчеркивая серьезный разрыв между оценкой на бенчмарках и реальным применением.
Крупные языковые модели (LLM) могут расширять пределы своих параметрических знаний, применяя парадигму инструментально-интегрированного рассуждения (TIR). Однако существующие фреймворки обучения агентов на основе LLM часто сосредоточены на точности ответов, упуская из виду специфическое выравнивание поведенческих паттернов. Как следствие, агент часто демонстрирует неэффективные действия в ходе задач TIR, такие как избыточные и недостаточные вызовы инструментов. Вопрос о том, как калибровать ошибочные поведенческие паттерны при выполнении задач TIR, исследуя при этом эффективные траектории, остается открытой проблемой. В данной статье мы предлагаем ET-Agent — фреймворк обучения для калибровки поведения агента по использованию инструментов через две синергетические перспективы: Самосовершенствующийся Маховик Данных и Тренировка Калибровки Поведения. В частности, мы вводим самосовершенствующийся маховик данных для генерации улучшенных данных, используемых для тонкой настройки LLM с целью повышения её способности к исследованию. На основе этого мы реализуем двухфазный фреймворк тренировки калибровки поведения. Он предназначен для прогрессивной калибровки ошибочных поведенческих паттернов до оптимальных поведений. Дальнейшие углубленные эксперименты подтверждают превосходство ET-Agent по множеству измерений, включая корректность, эффективность, лаконичность рассуждений и точность выполнения инструментов. Наш фреймворк ET-Agent предоставляет практические идеи для исследований в области TIR. Код доступен по адресу: https://github.com/asilverlight/ET-Agent.
Планирование путешествий представляет собой сложный процесс принятия решений, требующий синтеза многогранной информации для построения маршрутов. Однако существующие подходы к планированию путешествий сталкиваются с рядом проблем: (1) необходимость отбора кандидатов точек интереса (POI) при сохранении высокой полноты охвата; (2) единственный путь рассуждений ограничивает возможности исследования пространства допустимых решений; (3) одновременная оптимизация жёстких и мягких ограничений остаётся серьёзной трудностью. Для решения этих задач мы предлагаем TourPlanner — комплексную框架, использующую многовариантные рассуждения и обучение с подкреплением с ограничивающим механизмом. В частности, мы сначала представляем персонализированный workflow оптимизации полноты и пространственной организации (PReSO) для построения пространственно-осознанного набора кандидатов POI. Затем мы предлагаем конкурентный консенсусный метод цепочки мыслей (CCoT) — парадигму многовариантных рассуждений, повышающую способность исследования пространства допустимых решений. Для дальнейшего улучшения плана мы интегрируем сигмоидный ограничивающий механизм в этап обучения с подкреплением, который динамически расставляет приоритеты удовлетворения мягких ограничений только после выполнения жёстких. Результаты экспериментов на бенчмарках планирования путешествий демонстрируют, что TourPlanner достигает наилучших показателей, значительно превосходя существующие методы как по выполнимости, так и по соответствию пользовательским предпочтениям.
В то время как метод Chain-of-Thought наделяет большие визуально-языковые модели способностью к многошаговым рассуждениям, явные текстовые обоснования страдают от узкого места информационной пропускной способности, когда непрерывные визуальные детали теряются в процессе дискретной токенизации. Новейшие методы латентных рассуждений пытаются решить эту проблему, но часто становятся жертвой преждевременного семантического коллапса из-за жестких авторегрессионных целей. В данной статье мы предлагаем Laser — новую парадигму, которая переформулирует визуальную дедукцию через обучение динамическому оконному выравниванию (Dynamic Windowed Alignment Learning, DWAL). Вместо принудительного поточечного предсказания Laser выравнивает латентное состояние с динамическим окном валидности будущей семантики. Этот механизм обеспечивает когерархию «сначала лес, потом деревья», позволяя модели сохранять вероятностную суперпозицию глобальных признаков до сужения к локальным деталям. Ключевым моментом является то, что Laser сохраняет интерпретируемость через декодируемые траектории, стабилизируя неограниченное обучение с помощью самосовершенствующейся суперпозиции (Self-Refined Superposition). Многочисленные эксперименты на 6 бенчмарках демонстрируют, что Laser достигает наилучших результатов среди методов латентных рассуждений, превосходя сильный базовый метод Monet в среднем на 5.03%. Примечательно, что эти результаты достигаются с высокой эффективностью — количество токенов при выводе сокращается более чем на 97%, при этом демонстрируется устойчивая обобщающая способность к данным вне распределения.
По мере того как большие языковые модели (LLM) эволюционируют от статических диалоговых интерфейсов к автономным агентам общего назначения, эффективная организация памяти становится крайне важной для обеспечения долгосрочной согласованности. Однако существующие бенчмарки в основном сосредоточены на повседневных беседах или целевых диалогах, не охватывая **«долгосрочные проектно-ориентированные»** взаимодействия, в которых агенты должны отслеживать эволюционирующие цели. Чтобы заполнить этот пробел, мы представляем **RealMem** — первый бенчмарк, основанный на реалистичных проектных сценариях. RealMem включает более 2000 кросс-сессионных диалогов в одиннадцати сценариях, использующих естественные пользовательские запросы для оценки. Мы предлагаем pipeline синтеза данных, который интегрирует Построение основы проекта, Генерацию диалогов с участием множества агентов, а также Управление памятью и расписанием для моделирования динамической эволюции памяти. Эксперименты показывают, что современные системы памяти сталкиваются со значительными трудностями при управлении долгосрочными состояниями проекта и динамическими контекстными зависимостями, присущими реальным проектам. Наш код и наборы данных доступны по адресу: [https://github.com/AvatarMemory/RealMemBench](https://github.com/AvatarMemory/RealMemBench).
Мы представляем OpenTinker — инфраструктуру для обучения с подкреплением (RL) агентов на основе больших языковых моделей (LLM), построенную вокруг разделения ответственности между проектированием алгоритмов, выполнением и взаимодействием агента со средой. Вместо использования монолитных сквозных RL-конвейеров OpenTinker декомпозирует системы агентного обучения на легковесные, компонируемые компоненты с четко определенными границами абстракций. Пользователи задают агентов, среды и протоколы взаимодействия, в то время как выполнение выводов и обучение делегируются управляемой среде исполнения. OpenTinker вводит централизованный планировщик для управления нагрузками обучения и вывода, включая RL на основе LoRA и с полными параметрами, контролируемое тонкое настройку и вывод, в условиях общих ресурсов. Мы также обсуждаем принципы проектирования для расширения OpenTinker до многoагентного обучения. Наконец, мы представляем набор сценариев использования RL, демонстрирующих эффективность фреймворка в практических задачах агентного обучения.
Современные подходы к организации памяти в больших языковых моделях (БЯМ) в основном опираются на статический поисково-дополняемый генеративный подход (Retrieval-Augmented Generation, RAG), который часто приводит к фрагментированному поиску и не позволяет уловить структурные зависимости, необходимые для сложных рассуждений. Для автономных агентов такие пассивные и «плоские» архитектуры лишены когнитивной организации, требуемой для моделирования динамической и ассоциативной природы долгосрочного взаимодействия. Для решения этой проблемы мы предлагаем Иерархическую Эпизодическую Память Событий (Structured Episodic Event Memory, SEEM) — фреймворк, который объединяет графовый слой памяти для реляционных фактов и динамический эпизодический слой памяти для нарративного прогресса. Основываясь на когнитивной теории фреймов, SEEM преобразует потоки взаимодействия в структурированные Эпизодические Фреймы Событий (Episodic Event Frames, EEFs), закрепленные точными указателями происхождения. Кроме того, мы вводим механизм ассоциативного слияния на уровне агента и Обратного Расширения Происхождения (Reverse Provenance Expansion, RPE) для реконструкции связных нарративных контекстов из фрагментированных свидетельств. Результаты экспериментов на бенчмарках LoCoMo и LongMemEval показывают, что SEEM значительно превосходит базовые методы, позволяя агентам поддерживать высокую нарративную связность и логическую последовательность.
Несмотря на стремительное ускорение инноваций в области ИИ, интеллектуальный процесс, лежащий в основе прорывов — то, как исследователи выявляют пробелы, синтезируют предыдущие работы и генерируют инсайты, — остаётся малоизученным. Отсутствие структурированных данных о научном мышлении затрудняет систематический анализ и разработку исследовательских агентов ИИ. Мы представляем Sci-Reasoning — первую базу данных, фиксирующую интеллектуальный синтез, стоящий за высококачественными исследованиями в области ИИ. Используя общественно-валидированные сигналы качества и ускоренный LLM, но проверенный человеком пайплайн, мы отслеживаем для устных и spotlight-докладов на конференциях NeurIPS, ICML и ICLR (2023-2025) их ключевых предшественников, формулируя конкретные причинно-следственные связи в структурированном формате. Наш анализ выявляет 15 различных моделей мышления, причём три доминирующие стратегии составляют 52,7%: Рефрейминг на основе пробелов (24,2%), Кросс-доменный синтез (18,0%) и Сдвиг репрезентации (10,5%). Наиболее эффективные рецепты инноваций комбинируют несколько паттернов: Рефрейминг на основе пробелов + Сдвиг репрезентации, Кросс-доменный синтез + Сдвиг репрезентации, а также Рефрейминг на основе пробелов + Кросс-доменный синтез. Этот набор данных позволяет проводить количественные исследования научного прогресса и предоставляет структурированные траектории рассуждений для обучения исследовательских агентов ИИ следующего поколения.
Люди познают мир в первую очередь через концепты (например, «собака») — абстрактные ментальные репрезентации, которые структурируют восприятие, мышление и обучение. Однако то, как большие языковые модели (LLM) приобретают, сохраняют и забывают такие концепты в процессе непрерывного дообучения, остается слабо изученным. В данной работе мы исследуем, как отдельные концепты усваиваются и забываются, а также как множественные концепты взаимодействуют через интерференцию и синергию. Мы связываем эти поведенческие динамики с внутренними концептуальными схемами LLM — вычислительными подграфами, ассоциированными с конкретными концептами, и используем метрики графов для характеристики структуры схем. Наш анализ показывает: (1) концептуальные схемы LLM дают нетривиальный, статистически значимый сигнал об изучении и забывании концептов; (2) концептуальные схемы демонстрируют стадийный временной паттерн в ходе непрерывного дообучения: первоначальное усиление с последующим постепенным ослаблением и стабилизацией; (3) концепты с большим приростом знаний при обучении склонны к более сильному забыванию при последующем обучении; (4) семантически близкие концепты вызывают более сильную интерференцию, чем слабо связанные; (5) концептуальные знания различаются по способности к переносу, причем некоторые из них значимо облегчают изучение других. В совокупности наши результаты предлагают взгляд на динамику изучения концептов на уровне вычислительных схем и открывают пути к созданию более интерпретируемых и устойчивых стратегий обучения LLM, учитывающих концепты.
Крупные языковые модели (LLMs) способны формировать удивительно сложные оценки собственной неопределенности. Однако остается неясным, в какой степени эта декларируемая уверенность связана с процессом рассуждений, знаниями или принятием решений моделью. Чтобы проверить это, мы представляем RiskEval — фреймворк, предназначенный для оценки того, корректируют ли модели свою политику воздержания от ответа в ответ на различные штрафы за ошибку. Наша оценка нескольких передовых моделей выявляет критический разрыв: модели не являются ни осведомленными о стоимости при формулировании своей вербальной уверенности, ни стратегически отзывчивыми при принятии решения о том, стоит ли давать ответ или воздержаться в условиях высоких штрафов. Даже когда экстремальные штрафы делают частое воздержание математически оптимальной стратегией, модели почти никогда не воздерживаются, что приводит к коллапсу полезности. Это указывает на то, что калиброванные вербальные оценки уверенности могут быть недостаточны для создания надежных и интерпретируемых систем ИИ, поскольку современные модели лишены стратегической агентности, необходимой для преобразования сигналов неопределенности в оптимальные и чувствительные к риску решения.
Современные информационные системы часто работают с различными типами объектов, такими как текстовые запросы, изображения, видеофрагменты или аудиосегменты. Это стимулирует разработку омни-модальных моделей эмбеддингов, которые проецируют гетерогенные модальности в общее пространство для прямого сравнения. Однако большинство современных омни-модальных эмбеддингов по-прежнему сильно полагаются на неявное выравнивание, унаследованное от предобученных визуально-языковых моделей (VLM). На практике это вызывает три распространённые проблемы: (i) логиты сходства имеют модально-зависимую остроту, поэтому оценки находятся в несогласованных масштабах; (ii) негативные примеры внутри батча со временем становятся менее эффективными, поскольку смешанно-модальные батчи создают несбалансированное распределение сложности; в результате многие негативы быстро становятся тривиальными и вносят малый вклад в градиент; и (iii) эмбеддинги между модальностями демонстрируют несогласованные статистики первого и второго порядка, что делает ранжирование менее устойчивым. Для решения этих проблем мы предлагаем e5-omni — облегчённый рецепт явного выравнивания, адаптирующий готовые VLM в robustные омни-модальные модели эмбеддингов. e5-omni сочетает три простых компонента: (1) модально-чувствительную калибровку температуры для согласования шкал сходства, (2) управляемую негативную учебную программу с устранением смещений для фокусировки на сложных негативах при снижении влияния ложных негативов, и (3) batch-отбеливание с регуляризацией ковариации для лучшего согласования кросс-модальной геометрии в общем пространстве эмбеддингов. Эксперименты на MMEB-V2 и AudioCaps показывают устойчивое улучшение по сравнению с сильными би-модальными и омни-модальными базовыми методами, причём тот же рецепт хорошо переносится на другие VLM-архитектуры. Мы публикуем нашу модель по адресу https://huggingface.co/Haon-Chen/e5-omni-7B.
По мере интеграции больших языковых моделей (LLM), таких как ChatGPT, Copilot, Claude и Gemini, в рабочие процессы разработки программного обеспечения, разработчики все чаще оставляют следы использования ИИ в комментариях к коду. Среди них некоторые комментарии явно подтверждают как использование генеративного ИИ, так и наличие технических недостатков. Проанализировав 6540 комментариев к коду, ссылающихся на LLM, из публичных репозиториев GitHub на Python и JavaScript (ноябрь 2022 г. – июль 2025 г.), мы выявили 81 комментарий, который также признает наличие технического долга (SATD). Разработчики чаще всего описывают отложенное тестирование, неполную адаптацию и ограниченное понимание кода, сгенерированного ИИ, что позволяет предположить, что помощь ИИ влияет на то, когда и почему возникает технический долг. Мы предлагаем термин «Само-признанный технический долг, вызванный генеративным ИИ» (GIST) в качестве концептуальной основы для описания повторяющихся случаев, когда разработчики включают код, созданный ИИ, при этом явно выражая неуверенность в его поведении или корректности.
Крупные языковые модели (LLM) могут быть адаптированы к новым задачам с помощью методов параметрически-эффективного тонкого настройки (PEFT), которые модифицируют лишь небольшое число обучаемых параметров, часто с помощью низкоранговых обновлений. В данной работе мы применяем подход, вдохновленный квантовой информатикой, чтобы понять их эффективность. С этой точки зрения, низкоранговые параметризации естественным образом соответствуют низкоразмерным представлениям матричных продуктовых состояний (MPS), которые позволяют проводить характеризацию структуры параметров на основе запутанности. Таким образом, мы вводим и измеряем понятие «искусственной запутанности», определяемой как энтропия запутанности параметров в искусственных нейронных сетях (в частности, в LLM). Мы сначала исследуем репрезентативный метод PEFT — низкоранговую адаптацию (LoRA), вместе с полной тонкой настройкой (FFT), используя модели LLaMA масштабов 1B и 8B, обученные на наборах данных Tulu3 и OpenThoughts3, и обнаруживаем: (i) Внутренняя искусственная запутанность в обновлениях матриц проекций запроса и значения в LoRA подчиняется объемному закону с центральным подавлением (названным «Долиной Запутанности»), который чувствителен к гиперпараметрам и отличается от такового в FFT; (ii) Внешняя искусственная запутанность в матрицах внимания, соответствующая корреляциям «токен-токен» в пространстве представлений, подчиняется площадному закону с логарифмическими поправками и остается устойчивой к гиперпараметрам LoRA и шагам обучения. Проводя параллель с теоремой об отсутствии волос у черной дыры в физике, мы предполагаем, что хотя LoRA и FFT порождают различные сигнатуры внутренней запутанности, такие различия не проявляются в выходных данных внимания, что указывает на свойство «отсутствия волос», которое приводит к эффективности низкоранговых обновлений. Мы также предоставляем теоретическое обоснование, основанное на теории случайных матриц, и расширяем наш анализ на метод PEFT — Адаптацию MPS, который демонстрирует качественно схожее поведение.
Предвестие и развязка являются повсеместными нарративными приемами, с помощью которых авторы вводят обязательства в начале истории и разрешают их через конкретные, наблюдаемые результаты. Однако, несмотря на прогресс в генерации историй, большие языковые модели (БЯМ) часто не справляются с установлением таких долгосрочных нарративных зависимостей, нередко оставляя «ружья Чехова» невыстрелившими даже при наличии необходимого контекста. Существующие методы оценки в значительной степени игнорируют эти структурные сбои, фокусируясь на поверхностной связности, а не на логическом выполнении нарративных завязок. В данной статье мы представляем Кодифицированную Генерацию Предвестий и Развязок (КГПР) — новую структуру, которая переосмысливает качество повествования через призму реализации развязки. Признавая, что БЯМ испытывают трудности с интуитивным пониманием «механизма запуска» предвосхищаемого события, КГПР преобразует нарративную непрерывность в набор исполняемых причинно-следственных предикатов. Путем извлечения и кодирования триад «Предвестие-Триггер-Развязка» из корпуса BookSum мы обеспечиваем структурированный контроль, гарантирующий, что предвосхищенные обязательства не только упоминаются, но и выполняются во временном и логическом отношении. Эксперименты показывают, что КГПР значительно превосходит стандартные методы промптинга по точности развязок и нарративной согласованности. Наши результаты свидетельствуют о том, что явное кодирование нарративных механизмов необходимо для перехода БЯМ от поверхностной беглости к подлинному нарративному мастерству.
Графические пользовательские интерфейсы (GUI) играют центральную роль во взаимодействии человека с компьютером, однако автоматизация сложных задач в GUI остается серьезной проблемой для автономных агентов, главным образом из-за отсутствия масштабируемых высококачественных обучающих данных. Хотя записи демонстраций пользователей представляют собой богатый источник данных, они обычно длинные, неструктурированные и не имеют аннотаций, что затрудняет их использование для обучения агентов. Для решения этой проблемы мы представляем ShowUI-Aloha — комплексный конвейер, преобразующий неструктурированные записи экранов пользователей в настольных средах в структурированные выполняемые задачи. Наша система включает четыре ключевых компонента: рекордер, который фиксирует видео экрана вместе с точными действиями пользователя, такими как клики мышью, нажатия клавиш и прокрутка; модуль интерпретации, который семантически анализирует эти сырые взаимодействия и визуальный контекст, преобразуя их в описательные текстовые аннотации; планировщик, который читает обработанные демонстрации, отслеживает состояние задачи и динамически формирует следующий план действий высокого уровня на основе контекстных рассуждений; и исполнитель, который точно выполняет эти планы действий на уровне операционной системы, производя точные клики, перетаскивания, ввод текста и операции с окнами с проверкой безопасности и обратной связью в реальном времени. Вместе эти компоненты обеспечивают масштабируемое решение для сбора и анализа реальных человеческих данных, демонстрируя жизнеспособный путь к созданию универсальных GUI-агентов, способных эффективно обучаться, просто наблюдая за действиями людей.
Беспилотные летательные аппараты (БПЛА) все чаще применяются в непосредственной близости от людей для таких задач, как доставка посылок, мониторинг дорожного движения, ликвидация последствий стихийных бедствий и инспекция инфраструктуры. Обеспечение безопасной и надежной работы в этих населенных людьми средах требует точного восприятия поз и действий человека с воздушной точки обзора. Данная перспектива создает трудности для существующих методов из-за низкого разрешения, крутых углов обзора и (само)окклюзии, особенно если приложение требует моделей с реальной производительностью. Мы обучаем и развертываем FlyPose — облегченный конвейер оценки позы человека по аэроизображениям по принципу «сверху вниз». Благодаря обучению на множестве наборов данных мы достигаем среднего улучшения на 6.8 mAP в обнаружении людей на тестовых наборах Manipal-UAV, VisDrone, HIT-UAV, а также на нашем собственном наборе данных. Для оценки 2D-позы человека мы сообщаем об улучшении на 16.3 mAP на сложном наборе данных UAV-Human. FlyPose работает с задержкой вывода около 20 миллисекунд, включая предварительную обработку, на платформе Jetson Orin AGX Developer Kit и развертывается на борту квадрокоптера во время летных экспериментов. Мы также публикуем FlyPose-104 — небольшой, но сложный набор данных для оценки позы человека с воздуха, который включает ручные разметки со сложных аэроуглов обзора: https://github.com/farooqhassaan/FlyPose.
Детерминистический вывод — это утешительный идеал в классическом программном обеспечении: одна и та же программа на одних и тех же входных данных всегда должна давать одинаковый результат. По мере того как большие языковые модели внедряются в реальные системы, этот идеал был безоговорочно перенесен в инфраструктуру вывода. Недавнее исследование лаборатории Thinking Machines представило детальный анализ недетерминизма в выводе LLM, показав, как пакетно-инвариантные ядра и детерминистическая функция внимания могут обеспечить побитово идентичные результаты, позиционируя детерминистический вывод как предпосылку воспроизводимости и надежности в корпоративной среде. В данной статье мы занимаем противоположную позицию. Мы утверждаем, что для LLM детерминистический вывод губителен. Он убивает способность моделировать неопределенность, подавляет эмерджентные способности, сводит рассуждения к единственному хрупкому пути и ослабляет безопасность, скрывая риски на "хвостах" распределений. LLM реализуют условные распределения над выходными данными, а не фиксированные функции. Сведение этих распределений к единственной канонической реализации может казаться обнадеживающим, но оно систематически скрывает свойства, центральные для искусственного познания. Вместо этого мы предлагаем подход Stochastic CHAOS, рассматривая вариабельность распределения как сигнал, который следует измерять и контролировать. Эмпирически мы показываем, что детерминистический вывод систематически вводит в заблуждение. Односэмпловая детерминистическая оценка недооценивает как возможности модели, так и ее хрупкость, маскируя вероятность сбоев при парафразах и зашумленных входных данных. Фазоподобные переходы, связанные с эмерджентными способностями, исчезают при жадном декодировании. Многовариантные рассуждения деградируют при насильственном применении детерминистических методов, снижая точность и диагностическую ценность. Наконец, детерминистическая оценка недооценивает риски безопасности, скрывая редкие, но опасные модели поведения, которые проявляются только при многосэмпловой оценке.
Системные журналы критически важны для мониторинга и диагностики современной вычислительной инфраструктуры, однако их масштаб и сложность требуют надежной и эффективной автоматизированной интерпретации. Поскольку уровни серьезности являются предопределенными метаданными в сообщениях системных журналов, модель, которая лишь классифицирует их, имеет ограниченную самостоятельную практическую ценность, мало раскрывая о ее фундаментальной способности интерпретировать системные журналы. Мы полагаем, что классификация серьезности более информативна, когда рассматривается как эталонный тест для исследования понимания журналов времени выполнения, а не как конечная задача. Используя реальные данные journalctl с рабочих серверов Linux, мы оцениваем девять малых языковых моделей (SLM) и малых языковых моделей с логическим выводом (SRLM) в условиях zero-shot, few-shot и генерации с дополнением retrieval-augmented generation (RAG). Результаты выявляют сильную стратификацию. Qwen3-4B достигает наивысшей точности в 95,64% с RAG, в то время как точность Gemma3-1B улучшается с 20,25% при few-shot до 85,28% с RAG. Примечательно, что крошечная Qwen3-0.6B достигает точности 88,12%, несмотря на слабую производительность без поиска. В отличие от них, несколько SRLM, включая Qwen3-1.7B и DeepSeek-R1-Distill-Qwen-1.5B, демонстрируют существенное ухудшение при использовании с RAG. Измерения эффективности дополнительно разделяют модели: большинство вариантов Gemma и Llama выполняют вывод менее чем за 1,2 секунды на журнал, тогда как Phi-4-Mini-Reasoning превышает 228 секунд на журнал при точности <10%. Эти находки позволяют предположить, что (1) архитектурный дизайн, (2) цели обучения и (3) способность интегрировать извлеченный контекст в условиях строгих ограничений на выходные данные совместно определяют производительность. Сосредоточившись на небольших, развертываемых моделях, данный эталонный тест соответствует требованиям реального времени систем цифровых двойников (DT) и показывает, что классификация серьезности служит линзой для оценки компетентности модели и возможности развертывания в реальном времени, с последствиями для анализа первопричин (RCA) и более широкой интеграции DT.
Создание единой нейронной сети, способной эффективно и естественно обрабатывать последовательные данные произвольной длины, является ключевой и сложной проблемой в моделировании последовательностей. Конструктивные решения в Transformer, включая квадратичную сложность и слабую экстраполяцию по длине, ограничили их способность масштабироваться на длинные последовательности. В данной работе мы предлагаем Gecko — нейронную архитектуру, которая наследует дизайн Mega и Megalodon (экспоненциальное скользящее среднее с механизмом взвешенного внимания) и дополнительно вводит несколько технических компонентов для улучшения её способности улавливать дальние зависимости, включая нормализацию с затуханием по времени, механизм внимания со скользящими чанками и адактивную рабочую память. В контролируемом сравнении предварительного обучения с Llama2 и Megalodon в масштабе 7 миллиардов параметров и 2 триллионов токенов обучения Gecko демонстрирует лучшую эффективность и масштабируемость для длинного контекста. Gecko достигает значения функции потерь при обучении 1.68, что значительно превосходит показатели Llama2-7B (1.75) и Megalodon-7B (1.70) и приближается к результату Llama2-13B (1.67). Примечательно, что без использования каких-либо техник расширения контекста Gecko проявляет врождённые способности к обработке длинного контекста и извлечению информации, стабильно работая с последовательностями длиной до 4 миллионов токенов и извлекая информацию из контекстов длиной до 4 раз превышающих её окно внимания. Код: https://github.com/XuezheMax/gecko-llm
Метод самосогласованности стал популярным подходом для повышения точности больших языковых моделей в задачах логического вывода. Его суть проста: сгенерировать несколько цепочек рассуждений и выбрать наиболее частый ответ путем мажоритарного голосования. Хотя этот метод надежно повышает точность, остается неясным, отражают ли эти улучшения подлинный рост качества рассуждений. Мы исследуем фундаментальный вопрос, который ранее не изучался: улучшает ли масштабирование вывода достоверность рассуждений? Мы провели всестороннее эмпирическое исследование на четырех передовых моделях (GPT-5.2, Claude Opus 4.5, Gemini-3-flash-preview и DeepSeek-v3.2) с использованием 100 математических задач из набора GSM8K. Наш анализ включает bootstrap-доверительные интервалы, тесты Макнемара для парных сравнений и размеры эффекта Коэна для строгой количественной оценки результатов. Полученные данные выявляют поразительные различия между моделями, которые ставят под сомнение общепринятые представления о самосогласованности. GPT-5.2 демонстрирует ожидаемую закономерность: точность повышается с 78% до 90% при N=5, в то время как достоверность остается относительно стабильной (0.540 до 0.510). Claude Opus 4.5 показывает совершенно иную картину: его точность фактически снижается с 78% до 74.3%, тогда как достоверность резко возрастает с 0.270 до 0.891 при N=5. DeepSeek-v3.2, уже имеющая точность 98%, демонстрирует эффект потолка с умеренным ростом достоверности (0.440 до 0.541). Gemini-3-flash улучшает точность с 81% до 86% при незначительном снижении достоверности (0.260 до 0.212). Анализ сложности задач показывает, что GPT-5.2 решает 82% сложных задач, допуская ошибки лишь в 13% простых. В отличие от этого, Claude ошибается в 23% простых задач, что объясняет снижение его точности. Эти результаты важны для практиков: самосогласованность не является универсально полезной, и командам следует тестировать свои конкретные модели перед внедрением. Мы публикуем наш код и даем практические рекомендации по работе с выявленными компромиссами.
Послетренировочная доработка больших языковых моделей обычно чередует контролируемую тонкую настройку (SFT) с обучением с подкреплением (RL). Эти два метода имеют разные цели: SFT минимизирует перекрестную энтропию между выходами модели и ответами экспертов, в то время как RL максимизирует сигналы вознаграждения, полученные из человеческих предпочтений или правил, основанных на верификаторах. Современные модели рассуждений широко adopted практику чередования обучения SFT и RL. Однако теоретического обоснования того, можно ли их разделить, не существует. Мы доказываем, что разделение невозможно в любом порядке: (1) Связка SFT-then-RL: RL увеличивает потери SFT при оптимальности SFT и (2) Связка RL-then-SFT: SFT снижает вознаграждение, достигнутое RL. Эксперименты на Qwen3-0.6B подтверждают прогнозируемую деградацию, доказывая, что SFT и RL нельзя разделить без потери предыдущей производительности на этапе посттренировки.
Генеративные модели устной речи, предварительно обученные на больших объемах необработанного аудио, способны продолжать речевой промпт с релевантным содержанием, сохраняя такие атрибуты, как говорящий и эмоциональная окраска, выступая в качестве базовых моделей для устного диалога. В предыдущих работах эти модели часто оценивались с помощью «глобальной перплексии токенов», которая напрямую применяет формулу перплексии текста к речевым токенам. Однако такой подход игнорирует фундаментальные различия между речевой и текстовой модальностями, что может приводить к недооценке речевых характеристик. В данной работе мы предлагаем ряд методов оценки на основе правдоподобия и генеративных подходов, которые заменяют наивную глобальную перплексию токенов. Мы демонстрируем, что предложенные методы оценки более точно отражают воспринимаемое качество генерации, что подтверждается более сильной корреляцией с субъективными оценками качества (MOS). При оценке по новым метрикам относительная картина производительности моделей устной речи меняется, выявляя значительное сокращение разрыва между лучшей моделью и человеческим уровнем. В совокупности эти результаты свидетельствуют о том, что корректная оценка критически важна для точного измерения прогресса в моделировании устной речи.
Мультимодальные большие языковые модели (MLLM) демонстрируют мощные универсальные способности, однако по-прежнему испытывают трудности с задачей тонкой визуальной классификации (FGVC) — ключевой задачей восприятия, требующей тонкого визуального различения и имеющей критически важное значение для многих практических приложений. Широко распространенной стратегией для повышения производительности на сложных задачах, таких как математика и программирование, является рассуждение по цепочке мыслей (CoT). Однако в ряде предыдущих работ сообщалось, что CoT может фактически ухудшать результаты на задачах визуального восприятия. Эти исследования, однако, рассматривают проблему под относительно узкими углами и оставляют открытым вопрос о том, почему CoT ухудшает производительность на задачах, требующих интенсивного восприятия. Мы систематически пересматриваем роль CoT в FGVC через призму zero-shot оценки и множественных парадигм обучения. В этих условиях мы обнаруживаем центральный парадокс: деградация, вызываемая CoT, в значительной степени обусловлена длиной рассуждения, причем более длинные текстовые рассуждения последовательно снижают точность классификации. Мы называем этот феномен «Ценой размышления». Опираясь на это открытие, мы делаем два ключевых вклада: (1) \alg — простой и универсальный модульный метод нормализации для многокритериальной оптимизации, который балансирует разнородные сигналы вознаграждения, и (2) ReFine-RFT — фреймворк, сочетающий ансамблевые вознаграждения с \alg для ограничения длины рассуждения при одновременном предоставлении плотной обратной связи, ориентированной на точность. Многочисленные эксперименты демонстрируют эффективность наших выводов и предложенного метода ReFine-RFT, который достигает наилучших результатов на эталонных тестах FGVC. Код и модели доступны по адресу https://github.com/jiezhu23/ReFine-RFT{Project Link}.
Хотя мультимодальные большие языковые модели (МБЯМ) достигли значительного прогресса в области визуального понимания, они часто испытывают трудности при столкновении с неструктурированной и неоднозначной природой созданных человеком эскизов. Это ограничение особенно заметно в малоизученной задаче визуального оценивания, где модели должны не только решить задачу, но и диагностировать ошибки в рукописных диаграммах. Такие диагностические возможности зависят от сложного структурного, семантического и метакогнитивного мышления. Чтобы устранить этот пробел, мы представляем SketchJudge — новый эталонный набор, предназначенный для оценки МБЯМ в качестве оценщиков рукописных STEM-диаграмм. SketchJudge включает 1015 рукописных ответов студентов по четырем областям: геометрия, физика, схемы и блок-схемы, с разнообразными стилистическими вариациями и distinct типами ошибок. Оценки на SketchJudge показывают, что даже передовые МБЯМ значительно отстают от человека, что подтверждает эффективность эталона в выявлении уязвимости современного согласования визуальных и языковых моделей в символических и зашумленных контекстах. Все данные, код и скрипты для оценки находятся в открытом доступе по адресу https://github.com/yuhangsu82/SketchJudge.
Оценка языковых моделей (ЯМ) в специализированных, критически важных областях, таких как финансы, остается серьезной проблемой из-за нехватки открытых, качественных и предметно-ориентированных наборов данных. Существующие общецелевые бенчмарки обеспечивают широкий охват, но им не хватает глубины и предметной достоверности, необходимых для оценки способностей ЯМ к решению реальных финансовых задач, которые требуют как концептуального понимания, так и количественной строгости. Чтобы восполнить этот пробел, мы представляем FinForge — масштабируемый, полусинтетический конвейер для создания предметно-ориентированных оценочных бенчмарков в области финансов путем сочетания экспертного курирования данных и контролируемого синтеза на основе ЯМ. FinForge объединяет ручное и программное построение корпуса из авторитетных финансовых источников со структурированной генерацией вопросов и их валидацией с использованием модели Gemini 2.5 Flash. Чтобы продемонстрировать эффективность конвейера, мы создали FinForge-5k — снимок бенчмарка, содержащий более 5000 верифицированных человеком вопросно-ответных пар по 11 финансовым поддоменам, полученных на основе курированного корпуса из 100 000 проверенных документов общим объемом 143 млн токенов. Оценка современных моделей с открытым и закрытым исходным кодом на FinForge-5k выявила значительные различия в финансовых рассуждениях, при этом лучшие модели достигают уровня точности около 80%. Эти результаты подчеркивают полезность фреймворка для диагностики текущих ограничений моделей и направления будущих улучшений в области финансовой компетентности. Весь код и данные доступны по адресу https://github.com/gtfintechlab/FinForge.
Пространственный интеллект — это способность воспринимать, анализировать и описывать объекты и их взаимосвязи в трёхмерных средах, что формирует основу для воплощённого восприятия и понимания сцен. Задача трёхмерного описания (3D-каптионинга) заключается в генерации описаний 3D-сцен на естественном языке; однако она остаётся сложной из-за разреженности и нерегулярности облаков точек и, что более важно, из-за слабой заземлённости и ограниченной обобщающей способности (OOD) существующих моделей для описания в кардинально разных средах, включая внутренние и внешние 3D-сцены. Для решения этой проблемы мы предлагаем 3D CoCa v2 — обобщающую архитектуру для 3D-описания, которая объединяет контрастивное обучение «визуальный язык» с генерацией описаний 3D-сцен и дополнительно повышает устойчивость с помощью поиска в момент тестирования (TTS) без обновления параметров модели описания. 3D CoCa v2 построена на замороженной семантической априорной модели на основе CLIP, пространственно-осознающем 3D-энкодере сцены для геометрии и мультимодальном декодере, совместно оптимизированном с контрастивными и описательными целями, без использования внешних детекторов или ручных предложений. На этапе вывода TTS генерирует разнообразные варианты описаний и выполняет отбор с направляющей наградой, используя компактное резюме сцены. Эксперименты показывают улучшение по сравнению с 3D CoCa на +1,50 CIDEr@0,5IoU на ScanRefer и +1,61 CIDEr@0,5IoU на Nr3D, а также на +3,8 CIDEr@0,25 при zero-shot OOD-оценке на TOD3Cap. Код будет доступен по адресу https://github.com/AIGeeksGroup/3DCoCav2.
Прямая оптимизация предпочтений (Direct Preference Optimization, DPO) представляет собой принципиальную и масштабируемую альтернативу RLHF для согласования больших языковых моделей на основе парных предпочтений, однако её внутренний геометрический след остаётся недостаточно изученным, что ограничивает возможности аудита, сравнения контрольных точек и прогнозирования сбоев. Мы представляем SPINAL (Scaling-law and Preference Integration in Neural Alignment Layers) — диагностический метод, который измеряет, как согласование преобразует репрезентации по глубине сети, отслеживая локализованные структурные изменения слой за слоем. В различных семействах моделей DPO производит послойный калибровочный эффект, сконцентрированный в последних декодерных блоках (часто слои 21–30), где градиенты предпочтений наиболее непосредственно влияют на распределение следующего токена. SPINAL кодирует каждую контрольную точку как траекторию по глубине, заданную тройкой (индекс слоя, показатель сжатия, показатель переноса). Показатель сжатия суммирует скорость затухания хвоста спектра слоя (как быстро исчезают малые моды); более высокие значения указывают на сильное сжатие в меньшее количество эффективных направлений. Показатель переноса суммирует величину смещения распределения токенов между соседними слоями с использованием меры ограниченного перекрытия; более низкие значения указывают на более короткие и плавные шаги в пространстве репрезентаций. Согласованные контрольные точки демонстрируют рост сжатия в поздних слоях и плавное снижение переноса, что согласуется с уплотнённой и стабилизированной массой политики, тогда как несогласованные модели следуют по траекториям большей кривизны, более энтропийным и геометрически несогласованным. В целом, согласование геометрически локализовано: финальные слои кодируют доминирующие поправки, индуцированные предпочтениями. SPINAL превращает эту локализацию в практический сигнал для аудита, количественно определяя, где концентрируется согласование, насколько сильно оно проявляется и когда начинает дестабилизироваться в процессе обучения.
Некомпозиционные выражения (например, идиомы, пословицы и метафоры) создают значительные трудности для систем нейронного машинного перевода, поскольку их значение не может быть выведено из отдельных слов. Эти выражения кодируют богатое культурное значение и обладают как переносным, так и буквальным смыслом, что затрудняет точный перевод. Поскольку модели достаточно хорошо справляются с переводом композиционного текста, мы исследуем тонкую настройку в стиле GRPO с использованием моделей оценки качества машинного перевода (MTQE) в качестве функций вознаграждения для обучения моделей лучшему переводу идиом. Используя наборы данных китайских и хинди идиом, мы обнаружили, что способности к переводу идиом улучшаются примерно на 14 пунктов, общие неидиоматические переводы неявно улучшаются на ~8 пунктов, а кросс-лингвистические способности перевода (обучение на одном языке, оценка на другом) улучшаются на ~6 пунктов. В целом, наша работа количественно оценивает разрыв в переводе некопмозиционных выражений и предлагает insights для разработки больших языковых моделей с более глубоким межкультурным и образным пониманием языка.