Ежедневно отобранные исследовательские статьи по ИИ с переводами
Агенты ИИ-кодирования все чаще используются в научной работе, но их способность к полностью автономным исследованиям остается трудно проверяемой. Мы представляем ResearchClawBench — эталон для оценки автономных научных исследований, охватывающий 40 задач из 10 научных областей. Каждая задача основана на реальной опубликованной статье, включает связанную литературу и исходные данные, а целевая статья скрывается во время оценки. Экспертно составленные мультимодальные рубрики разбивают целевые научные артефакты на взвешенные критерии, позволяя оценивать повторное открытие на уровне целевой статьи, оставляя пространство для новых открытий. Мы оцениваем семь агентов автономных исследований (auto-research) по единому протоколу и семнадцать нативных LLM с помощью легковесного ResearchHarness. Текущие системы далеки от надежного повторного открытия: сильнейший автономный агент Claude Code набирает в среднем 21,5, сильнейшая LLM в ResearchHarness — Claude-Opus-4.7 — в среднем 20,7, а среднее значение для передовых LLM составляет лишь 26,5. Анализ ошибок показывает, что неудачи сосредоточены в несоответствии экспериментального протокола, несоответствии доказательств и отсутствии научной основы. ResearchClawBench обеспечивает воспроизводимый оценочный рубеж для измерения прогресса на пути к автономным научным исследованиям.
Визуально-языковые модели (VLM) превосходно справляются со множеством задач, однако всё ещё испытывают трудности с пространственными рассуждениями, когда критически важная информация не является непосредственно наблюдаемой. Многие подобные проблемы требуют образного восприятия: вывода о том, что было бы видно с ненаблюдаемой точки зрения, прослеживания путей через скрытые пространства или интеграции частичных наблюдений в целостное пространственное представление. Мы вводим токены образного восприятия (Imaginative Perception Tokens, IPT) — промежуточные перцептивные представления, которые экстернализуют то, что VLM воспринимала бы при альтернативных пространственных конфигурациях, оставаясь при этом согласованными с наблюдаемыми входными данными. Для изучения этой способности мы формулируем три задачи: принятие перспективы (Perspective Taking, PET), трассировку путей (Path Tracing, PT) и мультивидовой подсчёт (Multiview Counting, MVC), а также создаём наборы данных объёмом примерно 20 000 примеров с эталонными воображаемыми представлениями, ответами и оценочными тестами. Используя унифицированную VLM BAGEL в качестве базовой архитектуры, контроль с помощью IPT последовательно улучшает пространственные рассуждения и часто превосходит обучение на текстовых цепочках рассуждений, даже без генерации изображений на этапе вывода. На задаче MVC IPT повышает точность на 3,4% и достигает конкурентоспособной производительности с сильными закрытыми моделями на PT. Кроме того, мы обнаруживаем, что комбинация IPT и контроля только по меткам даёт дополнительный выигрыш, тогда как текстовая цепочка рассуждений может существенно снижать производительность, что указывает на несоответствие модальностей, когда пространственные вычисления проводятся через язык. В целом, IPT предоставляет принципиальный сигнал контроля для рассуждений о ненаблюдаемой пространственной структуре, улучшая обобщение и формируя интерпретируемые промежуточные представления.
Большие языковые модели демонстрируют впечатляющие способности к обучению без примеров (zero-shot) в широком спектре последующих задач. Однако им трудно функционировать в качестве готовых моделей эмбеддингов, что приводит к неоптимальной производительности на крупномасштабных тестах текстовых эмбеддингов. В данной работе мы выявляем потенциальную причину этого недостатка. Наша мотивация проистекает из неожиданного наблюдения: при проецировании на пространство словаря текстовые эмбеддинги имеют тенденцию выравниваться по частотным, но неинформативным токенам. Мы утверждаем, что такое чрезмерное выражение высокочастотных токенов подавляет способность модели улавливать тонкую семантику. Для решения этой проблемы мы представляем EmbedFilter — простое линейное преобразование, предназначенное для непосредственного уточнения текстовых эмбеддингов, полученных от LLM. В частности, мы обнаружили, что матрица разэмбеддинга (unembedding matrix) в LLM кодирует скрытое пространство, которое активно записывает эти частотные токены в пространство эмбеддингов. Фильтруя это подпространство, EmbedFilter подавляет влияние высокочастотных токенов, тем самым улучшая семантические представления. В качестве важного побочного эффекта это позволяет осуществить внутреннее снижение размерности, уменьшая объем хранилища индексов и ускоряя поиск при полном сохранении качества уточненных эмбеддингов. Наши эксперименты на нескольких базовых LLM показывают, что LLM, оснащенные EmbedFilter, достигают превосходной производительности в последующих задачах в режиме zero-shot даже при значительно уменьшенной размерности эмбеддингов. Мы надеемся, что наши результаты дадут более глубокое понимание механизмов представлений на основе LLM и вдохновят на создание более обоснованных методов для улучшения обучения текстовых эмбеддингов. Наш код доступен по адресу https://github.com/CentreChen/EmbFilter.
Оценка LLM-посредников остаётся сложной задачей, поскольку медиация разворачивается в реальном времени как траектория, формируемая меняющимися эмоциями, намерениями и контекстом участников спора. Существующие тестовые среды опираются на несколько предметных областей, созданных экспертами, варьируют в основном стратегическую позицию и оценивают каждый шаг по каждой теме, что вносит шум, не связанный с темой. Мы представляем SoCRATES — бенчмарк для оценки проактивных LLM-посредников в реалистичных многодисциплинарных тестовых средах. Он конструирует сценарии на основе реальных конфликтов с помощью агентного конвейера по восьми предметным областям, исследует пять осей социокогнитивной адаптации (стратегическая позиция, состав сторон, длина истории, эмоциональная реактивность и культурная идентичность) и оценивает каждую тему только по тем шагам, которые её продвигают, используя локализованный по темам оценщик. Этот оценщик достигает согласованности с экспертами на уровне 0.82, более чем вдвое превосходя пошаговый базовый показатель. В ходе бенчмаркинга восьми передовых LLM мы обнаружили, что даже самый сильный посредник закрывает лишь около трети разрыва в консенсусе без посредничества в разнообразных и реалистичных тестовых средах, причём производительность резко различается по социокогнитивным осям, что подчёркивает: прогресс лежит в социальной адаптации к разнообразным условиям.
Прогресс в области фундаментальных геномных моделей трудно оценить из-за фрагментированных бенчмарков, несовместимых протоколов оценки и специфической для задач отчетности. В результате утверждения о превосходстве или общности моделей часто не являются напрямую сопоставимыми. Мы представляем GENEB — крупномасштабный диагностический бенчмарк, который оценивает замороженные представления 40 фундаментальных геномных моделей по 100 задачам, охватывающим 13 функциональных категорий, в рамках унифицированного протокола на основе зондирования, включая режимы с малым количеством примеров. GENEB позволяет проводить контролируемое сравнение по масштабу модели, архитектуре, токенизации и данным предварительного обучения, одновременно явно выявляя компромиссы на уровне задач. Наш анализ показывает, что агрегированные таблицы лидеров нестабильны: ранжирование моделей резко варьируется в зависимости от категорий задач, масштаб дает лишь скромные и непостоянные улучшения, а согласованность архитектуры и предварительного обучения часто перевешивает количество параметров. Эти результаты подчеркивают ограничения текущих практик оценки и позиционируют GENEB как эталонную платформу для принципиального сравнения и выбора моделей с учетом категорий в геномном машинном обучении.
Мы представляем MMAE — Massive Multitask Audio Editing Benchmark, первый комплексный оценочный полигон, разработанный для универсального редактирования аудио по инструкциям. Под влиянием перехода к интеллектуальному творчеству интерактивное редактирование быстро распространилось из визуальной сферы (благодаря таким моделям, как Nano-banana 2 для изображений и Gemini-Omni для видео) на аудио. Однако современная инфраструктура оценки значительно отстаёт, оставаясь сильно фрагментированной и ограниченной конкретными поддоменами или базовыми операциями. В отличие от существующих бенчмарков с узкой областью применения, MMAE охватывает широкий спектр реальных сценариев, включая 7 различных аудиомодальностей: звук, речь, музыку и их смеси. Кроме того, мы устанавливаем всеобъемлющую таксономию, охватывающую 6 уровней сложности задач (от простых модификаций до многошаговых рассуждений и многораундового редактирования), 2 уровня детализации и 8 типов операций. Тщательно собранный с помощью человеко-агентного взаимодействия, MMAE включает 2 000 высококачественных образцов, дополненных новаторской критериальной системой оценки. Разлагая свободные задачи на 17 741 верифицируемый критерий, эта надёжная критериальная парадигма обеспечивает точную многомерную оценку как следования инструкциям, так и контекстной согласованности. Наш обширный анализ ведущих моделей показывает, что текущие системы всё ещё далеки от надёжного редактирования. Поразительно, но уровень точного совпадения (EMR) стабильно ниже 5% и падает до абсолютного 0% в сложных смешанных модальностях, обнажая критические узкие места в точном исполнении и структурной устойчивости. Мы надеемся, что MMAE станет катализатором будущих достижений в сообществе интеллектуального творчества, предоставляя чёткую диагностическую карту и устанавливая стандартизированную долгосрочную парадигму оценки для систем редактирования аудио следующего поколения.
Несмотря на то, что интерактивное моделирование мира является ключевым рубежом, оно остается недостаточно изученным с точки зрения разносторонней управляемости, необходимой для практических сценариев. Для преодоления этого разрыва мы представляем AnchorWorld — фреймворк, который развивает эгоцентрическую симуляцию за счет повышенной целостности взаимодействия и гибкого механизма настройки мира. Во-первых, мы использует трехмерное движение человека в качестве основного способа взаимодействия. Для дополнения частей тела, находящихся вне поля зрения или кадрированных в эгоцентрических видах, мы вводим вспомогательное обучение с учителем, которое включает внешние точки обзора, не привязанные к сенсорному восприятию агента от первого лица. Это позволяет модели наблюдать полное положение тела агента относительно окружающей среды, способствуя более надежной пространственной привязке взаимодействий человека с миром. Кроме того, мы предлагаем простой, но эффективный механизм настройки саморазвивающихся миров. Это достигается путем определения якорных видов в единой мировой системе координат в сочетании с текстовыми описаниями, задающими динамическую эволюцию локальных сцен. Экспериментальные результаты показывают, что AnchorWorld значительно превосходит передовые базовые модели, а абляционные исследования подтверждают эффективность наших ключевых решений. Примечательно, что наша схема настройки демонстрирует многообещающую пространственно-временную геометрическую согласованность и строго следует заданной динамике эволюции.
Обобщённый роботизированный интеллект часто рассматривается как проблема масштабирования политик: собирать больше демонстраций роботов, обучать более крупные модели «Vision-Language-Action» (VLA) и ожидать более широкого обобщения. В этой позиционной статье мы утверждаем, что такая постановка неполна. Основное узкое место заключается не только в обучении политикам, но и в отсутствии механизмов, преобразующих изобилие неструктурированных поведенческих данных из реального мира в обоснованное роботизированное обучение с учителем. Движения человека, видео из интернета, прогоны симуляции и интерактивные демонстрации содержат богатую информацию о задачах, целях, контактах, отказах и физических ограничениях, однако большая часть этой информации не может быть напрямую использована политиками роботов из-за отсутствия специфических для воплощения меток действий, семантики задач и структуры вознаграждения. Мы выделяем четыре недостающих компонента для робототехники следующего поколения: интерфейсы данных для автоматической разметки неструктурированного поведения, интерфейсы воплощения для перенацеливания движений человека на действия робота, интерфейсы мировых моделей для обоснованного физикой 3D-рассуждения и интерфейсы вознаграждения для вывода о ходе и успешности задачи на основе видео и языка. Мы рассматриваем недавние достижения в области фундаментальных моделей роботов, кроссивоплощённых наборов данных, обучения по видео, мировых моделей и моделирования вознаграждений, а также предлагаем исследовательскую программу для построения робототехнических систем, способных обучаться не только на демонстрациях роботов, но и на основе более широкого физического мира.
Внедрение объектов направлено на бесшовное композитирование эталонного объекта в заданную область фонового изображения. Современные методы, основанные на диффузионных моделях, достигают высокого визуального качества, но формулируют внедрение как простую задачу 2D-инпейнтинга, не обеспечивая явного контроля над 3D-позой объекта, что ограничивает их практическую применимость. Мы предлагаем DIRECT (Decomposed Injection for Reference Composition and Target-integration) — новую структуру, которая объединяет интерактивное манипулирование позой с высококачественным 2D-синтезом изображений, обеспечивая контролируемое по позе внедрение объекта. Наш метод разлагает условия внедрения на три взаимодополняющих компонента: направляющая внешнего вида, захватывающая визуальные детали эталонного объекта; направляющая геометрии, полученная из скорректированного пользователем 3D-прокси; и направляющая контекста из целевого фона. Внедряя их через отдельные пути, DIRECT избегает переплетения признаков и одновременно сохраняет внешний вид эталонного объекта, следует заданной пользователем позе и адаптирует объект к целевой сцене. Мы также вводим автоматизированный конвейер создания данных для улучшения разнообразия и качества обучающих данных. Эксперименты показывают, что DIRECT превосходит предыдущие методы как в геометрической управляемости, так и в визуальном качестве.
Саморазвивающиеся агенты требуют адаптации после развертывания, однако существующие подходы предполагают наличие работоспособного цикла обучения, такого как подобранные навыки, успешные траектории или сигналы верификатора. В реальных развертываниях в открытом мире может не быть ничего из этого, а только промпт задачи. В данной работе мы исследуем саморазвитие в открытом мире, когда агент должен с нуля формировать как свои навыки, так и собственные сигналы верификации, используя ресурсы открытого мира, но без какого-либо контроля целевой задачи. Мы предлагаем OpenSkill — фреймворк, который запускает этот цикл: он извлекает обоснованные знания и якоря верификации из документации, репозиториев и веба, синтезирует их в переносимые навыки и совершенствует эти навыки на самостоятельно созданных виртуальных задачах, основанных на якорях, а не на целевых ответах. Таким образом, открытый мир предоставляет как знания для изучения, так и независимую от контроля среду для практики, при этом контроль целевой задачи зарезервирован для итоговой оценки. На трех бенчмарках и с двумя целевыми агентами OpenSkill достигает наилучшего автоматизированного показателя прохождения, соблюдая ограничение на отсутствие контроля. Анализ показывает, что его навыки переносятся между моделями без специфической для модели адаптации, а самостоятельно созданный верификатор согласуется с фактическими результатами, хотя никогда к ним не обращается.
Существующие эталоны оценивают интегрированное с инструментами рассуждение (Tool-Integrated Reasoning, TIR) в больших языковых моделях (БЯМ) на идеализированных «сценариях успеха», в значительной степени игнорируя реальные сбои инструментов. Мы представляем ToolMaze — эталон для динамического обнаружения путей и восстановления после ошибок в TIR-агентах. Чтобы отделить систематическое перепланирование от слепого метода проб и ошибок, ToolMaze использует двумерную структуру: топологическую сложность на основе DAG и таксономию возмущений инструментов размером 2×2 (явные/неявные, транзиторные/перманентные). Оценки показывают, что возмущения снижают производительность практически всех моделей, причем наиболее резкое падение наблюдается при неявных семантических сбоях. Вследствие системного чрезмерного доверия к искаженным результатам коэффициент восстановления после возмущений (Perturbation Recovery Rate, PRR) в таких сценариях падает примерно на 37%, в то время как сложные топологии заставляют агентов застревать в бесполезных циклах проб и ошибок. Критически важно, что агентная отказоустойчивость улучшается с ростом масштаба модели в 3,66 раза медленнее, чем базовое выполнение задач, что подчеркивает динамическое перепланирование как отдельное узкое место, не устраняемое ни масштабированием модели, ни подсказками. Данные и код доступны по адресу https://github.com/Zhudongsheng75/ToolMaze.
Понимание видео стремительно трансформируется под влиянием мультимодальных больших языковых моделей (МБЯМ), поскольку исследования переходят от коротких клипов к длинным, мультимодальным и насыщенным знаниями видеосценариям. Такие сценарии требуют от моделей обработки разреженных свидетельств, долгосрочных зависимостей, мультимодального согласования и надежного вывода в условиях ограниченных вычислительных ресурсов. В данной работе предлагается перспектива человеческого взгляда на понимание видео на основе языковых моделей, организованная вокруг трех функциональных способностей: наблюдения, запоминания и рассуждения. Вместо рассмотрения видеозадач как изолированных эталонов, этот взгляд обеспечивает единую структуру для анализа того, как видеоМБЯМ получают свидетельства, сохраняют контекст и формируют обоснованные выходные данные. Мы вводим формализацию, которая характеризует системы понимания видео через их перцептивные представления, состояния памяти, трассы рассуждений и итоговые предсказания. На основе этой формализации мы определяем проблемы в пространственно-временном восприятии, эффективной обработке длинных видео, моделировании памяти, потоковом понимании и достоверном рассуждении. Репрезентативные методы организованы по их ролям в системах видеоМБЯМ. Наблюдение охватывает детализированное, всестороннее, аудиовизуальное и эффективное восприятие. Запоминание включает автономную и потоковую память, в то время как рассуждение охватывает рассуждение только по тексту и мышление с видео. Мы дополнительно рассматриваем прикладные области, такие как эгоцентрические, спортивные, обучающие, медицинские и повествовательные видео, а также охватываем обучающие наборы данных и оценочные эталоны по типам задач, форматам разметки, модальностям и аспектам возможностей. Наконец, мы обозначаем открытые проблемы и будущие направления для масштабируемого, осознающего память и основанного на свидетельствах интеллекта видео. Связанные работы будут непрерывно отслеживаться по адресу https://github.com/marinero4972/Awesome-HumanView-VideoUnderstanding.
Постоянно действующие ИИ-ассистенты, такие как OpenClaw, накапливают обширные коллекции связанных воспоминаний в ходе долгосрочных взаимодействий. По мере роста этих воспоминаний они могут усиливать друг друга, расходиться в зависимости от контекста или вступать в прямое противоречие, в результате чего корректная помощь оказывается зависимой от отношений между воспоминаниями, а не от их изолированного извлечения. Существующие тесты для долговременной памяти редко проверяют, как агенты сохраняют и используют такие отношения при выполнении последующих задач. Для заполнения этого пробела мы представляем SubtleMemory — тестовый набор для тонкой дискриминации реляционной памяти в долгоживущих ИИ-агентах. SubtleMemory создает контролируемые по реляционным связям латентные семантические артефакты, варианты которых реализуют взаимодополняющие, нюансированные или противоречивые отношения, и встраивает их в реалистичные истории взаимодействия пользователя с агентом, требуя от агента восстановления распределенных реляционных структур при последующих запросах и инструкциях. Тестовый набор содержит 1 522 оценочных примера, распределенных по 10 длинным историям, основанным на 1 090 контролируемых по реляционным связям наборах вариантов воспоминаний, и охватывает запросы, связанные и не связанные с пользователем. Оценивая шесть автономных систем памяти, два агента кланового типа с встроенными модулями памяти и три агента кланового типа с подключаемыми модулями памяти, мы обнаруживаем, что современные системы остаются слабыми в области тонкой дискриминации реляционной памяти. Мы также вводим диагностические протоколы, выявляющие различные профили способностей на этапах сохранения памяти, извлечения и последующих рассуждений.
Мы представляем UnpredictaBench — тест, оценивающий способность больших языковых моделей (БЯМ) улавливать истинные лежащие в основе распределения. По мере того как БЯМ всё чаще используются в качестве заменителей других сущностей (например, людей в экономических симуляциях), тенденция многих моделей схлопываться к единственному правдоподобному ответу означает неспособность отразить непредсказуемость реальных систем. Недавние работы по улучшению разнообразия выходных данных недостаточны для этого сценария: симуляция требует выборок, откалиброванных под целевое распределение, а не просто вариативных ответов. UnpredictaBench выделяет упрощённую, но фундаментальную версию этой задачи: извлечение результатов из индивидуальных целевых распределений, включая канонические статистические распределения, распределения, порождённые стохастическими программами, и сценарии на естественном языке, описывающие случайные процессы. Мы вводим 448 таких задач вместе с KS@N — универсальной метрикой оценки, которая количественно определяет, насколько хорошо модель производит аппроксимацию «чёрного ящика» целевых распределений с помощью статистического критерия Колмогорова–Смирнова. Это частота, с которой мы не можем отвергнуть гипотезу о том, что модельные выборки размера N взяты из того же распределения, что и эталонные (истинные) выборки; при этом большее N указывает на большую сложность. Протестировав открытые и проприетарные модели, мы обнаружили значительный разброс в способностях работы с распределениями. Например, когда модели генерируют выборки объёма 100 (KS@100 — наш стандартный показатель), оценки варьируются от почти 0% до более 20%. Ни одна модель не достигает более 40% по KS@100, что свидетельствует о значительном потенциале улучшения в способности к выборке из распределений. Хотя добавление рассуждений может несколько повысить баллы, мы не находим немедленного решения этой проблемы. UnpredictaBench показывает, что даже простая симуляция из распределений остаётся сложной задачей, что делает её необходимым первым шагом на пути к использованию БЯМ в качестве заменителей для сложных систем.
Причинно-следственные графы предоставляют высокоуровневый язык для обеспечения прозрачности механизмов. В недавних работах большие языковые модели (БЯМ) используются для восстановления причинно-следственных графов процессов внешнего мира. В данной статье, напротив, мы применяем причинно-следственные графы для моделирования самого процесса вывода БЯМ, предоставляя заинтересованным сторонам прозрачное представление о том, как модель воспринимает и организует высокоуровневые концепции для формирования прогноза. Мы предлагаем четырехфазный метод построения таких графов. Для заданной целевой БЯМ и набора текстовых примеров наш метод обнаруживает класс-дискриминативные, интерпретируемые человеком концепции и сопоставляет каждому входному примеру состояния концепций, воспринимаемые БЯМ. Затем мы вводим процедуру аугментации контрфактуалов, вдохновленную методом MCMC, которая расширяет разреженные наблюдательные данные с помощью цепочек контрфактуалов. Это обеспечивает стабильное выявление причинно-следственных связей с помощью σ-CG, позволяя получать информативные, интерпретируемые графы. Мы применяем наш метод к трем БЯМ в задачах диагностики заболеваний, анализа тональности и классификации с использованием БЯМ в роли судьи. Мы оцениваем полученные графы по предсказательной точности и структурной устойчивости, а MCMC-вдохновленную аугментацию — по сходимости и полезности для последующих задач. Наши результаты показывают, что обнаруженные причинно-следственные графы отражают осмысленные зависимости, согласующиеся с рассуждениями БЯМ. Таким образом, данная статья закладывает основу для объяснимости БЯМ на уровне концепций.
Хотя модели зрения и языка (VLM) демонстрируют мощные способности к визуальным рассуждениям, их возможности пространственного мышления в значительной степени ограничены наблюдаемыми изображениями и текстоориентированными цепочками рассуждений. Они часто испытывают трудности при выводе ненаблюдаемых компоновок, поддержании согласованности между видами и рассуждениях с альтернативных точек зрения, когда доступны только ограниченные эгоцентрические наблюдения. В данной работе мы изучаем эту проблему как мышление с воображением, в котором VLM активно получает воображаемые визуальные свидетельства, взаимодействуя с симулятором мира в процессе рассуждения. Мы предлагаем Astra — агентную структуру пространственного мышления, которая наделяет VLM обусловленным действиями визуальным воображением. В частности, Astra объединяет Astra-VL, политику VLM, обученную с помощью подкрепления (RL), с Astra-WM, симулятором мира на основе Bagel, который генерирует наблюдения с новых точек зрения из контекстных изображений и движений камеры на естественном языке. Чтобы обеспечить надежные воображаемые свидетельства, Astra-WM обучается с настройкой согласованности видов для улучшения согласованности позы и содержимого между различными видами. На этапе RL мы предлагаем двухфазную учебную программу RL с симулятором мира в цикле для стабилизации исследования использования инструментов и повышения способности модели вызывать симулятор только тогда, когда воображаемые наблюдения улучшают результаты по сравнению с прямым ответом. Эксперименты показывают, что необходимы как симулятор мира, так и агентная политика: Astra-WM улучшает показатели Gemini-3-Flash, дополненного симулятором, на MMSI-Bench с 45,1 до 49,5, в то время как Astra-VL улучшает базовую модель Qwen3-VL с 29,8 до 38,8 на MMSI-Bench и с 36,8 до 42,7 на MindCube. Эти результаты демонстрируют, что воображаемые наблюдения могут предоставлять полезные пространственные свидетельства, но эффективные рассуждения с дополнением моделей мира требуют изучения того, когда, где и как воображать.
В данной работе мы сосредоточились на расширении популярного метода фотореалистичного синтеза видов SHARP для универсального монокулярного рендеринга в континууме камерных систем — от обычных перспективных камер до широкоугольных, «рыбий глаз» и всесторонних панорамных настроек. Чтобы преодолеть предположения SHARP, специфичные для камеры-обскуры, наша ключевая идея заключается в выравнивании различных изображений в едином всестороннем латентном пространстве. Таким образом, мы предлагаем UniSHARP, который выполняет неявное выравнивание как в пространстве признаков, так и в пространстве гауссовых примитивов. В частности, гауссовы примитивы располагаются вдоль лучей и радиальных расстояний в универсальном представлении на основе лучей, в то время как 2D семантические и 3D пространственные признаки, извлеченные кодерами, вдохновленными UniK3D, совместно декодируются для генерации полного гауссова облака. Для всесторонней оценки нашего метода мы создали бенчмарк, охватывающий различные системы визуализации в разнообразных сценах. Бенчмарк дополнительно стратифицирован по полю зрения (FoV), что позволяет провести детальную оценку задачи универсального монокулярного рендеринга. Многочисленные эксперименты на предложенном бенчмарке демонстрируют эффективность UniSHARP, превосходящего альтернативные методы с большим отрывом. Страница проекта доступна по ссылке: https://insta360-research-team.github.io/Unisharp-website/
Мы утверждаем, что высококачественные данные о движении способны направлять алгоритмы отслеживания к более эффективным оптимизационным траекториям уже на ранних этапах обучения. В данной работе мы представляем LIMMT (Less Is More for Motion Tracking — «Меньше — значит больше для отслеживания движения»). Насколько нам известно, это первое исследование, ориентированное на данные, посвящённое отслеживанию движения человекоподобных объектов на основе физики. Мы выходим за рамки простого удаления низкокачественных и ошибочных фрагментов и определяем качество данных о движении через три измерения: физическую осуществимость, разнообразие и сложность. Мы показываем, что обучение даже на менее чем 3% данных из AMASS даёт лучшие показатели отслеживания, чем обучение на полном наборе данных. Дополнительно мы проводим очистку оценённых данных захвата движения из интернет-источников. Обширные эксперименты и анализ подтверждают эффективность нашего подхода.
Мы представляем dots.tts — фундаментальную модель преобразования текста в речь (TTS) с непрерывным авторегрессионным моделированием, содержащую 2 миллиарда параметров и работающую в непрерывном латентном пространстве. По сравнению с существующими непрерывными авторегрессионными моделями наши ключевые нововведения тройственны. Во-первых, мы обучили AudioVAE с несколькими целевыми функциями для построения семантически структурированного и удобного для предсказания непрерывного речевого пространства. Во-вторых, мы используем кондиционирование полной истории в блоке согласования потоков (flow-matching head) для сохранения долгосрочной согласованности и уменьшения дрейфа во время генерации. В-третьих, мы применяем этап посттренировки самокоррекции без вознаграждения (reward-free self-corrective post-training) к блоку согласования потоков для дальнейшего улучшения устойчивости и акустического качества. После обучения на крупномасштабном многоязычном корпусе dots.tts достигает наилучшей средней производительности на бенчмарке Seed-TTS-Eval с показателями WER 0,94%/1,30%/6,60% и оценками SIM 81,0/77,1/79,5 на тестовых наборах zh/en/zh-hard соответственно. На других бенчмарках dots.tts также последовательно демонстрирует передовые результаты среди моделей с открытым исходным кодом, проявляя высокую стабильность генерации, способность к клонированию голоса и эмоциональную выразительность. Для эффективного инференса мы дополнительно применили MeanFlow-дистилляцию с учётом CFG, что позволяет генерировать речь с низкой задержкой: 85/54 мс для первого пакета в режимах потокового вывода и двойного потокового вывода соответственно. Для обеспечения воспроизводимости исследований и практического развертывания мы публикуем код обучения и инференса вместе с предобученными, посттренированными и дистиллированными с помощью MeanFlow чекпойнтами под лицензией Apache 2.0.
Диффузионные модели преобразования изображений в видео используют входные изображения для создания визуально впечатляющего контента, однако часто генерируют движение, нарушающее физические законы. Мы обнаружили удивительный факт: генерация за 2 шага часто демонстрирует лучшую физическую согласованность, чем результат за 50 шагов из той же модели. С помощью спектрального анализа мы связываем это с эрозией фазы в процессе шумоподавления; фаза значительно ухудшается (снижаясь примерно на 18% от шага 2 к шагу 50), в то время как амплитуда остается относительно стабильной. Основываясь на этом наблюдении, мы предлагаем PhaseLock — фреймворк без обучения, который сохраняет корректные априорные представления о движении, полученные на основе малошагового вывода, на протяжении всей траектории шумоподавления. Вместо того чтобы полагаться на полный шаговый вывод для физической согласованности, PhaseLock извлекает априорное представление о движении всего за 2 шага и навязывает его генерации высокого качества с помощью Latent Delta Guidance. Наш подход эффективно смягчает ухудшение фазы, повышая физическую согласованность в среднем на 6,2 балла для различных моделей, при этом в значительной степени сохраняя визуальное качество, с незначительными накладными расходами (в 1,06 раза по времени, в 1,02 раза по памяти) и снижая зависимость от дорогостоящих внешних методов управления (примерно в 5 раз по времени).
Люди являются узким местом в создании и совершенствовании ИИ. Как модели, так и агенты, их оборачивающие, пишутся, настраиваются и корректируются людьми. Долгосрочная цель создания ИИ, способного самостоятельно улучшать себя, остаётся нерешённой. Два во многом разрозненных направления исследований пытаются устранить это узкое место. Школа «обновление обвязки» использует мета-агента, который переписывает каркас (scaffold) целевого агента (его инструменты, промпты, логику повторных попыток и процедуру поиска), при этом веса модели остаются фиксированными. Школа «обучение в момент тестирования» применяет написанные вручную конвейеры обучения с подкреплением для обновления собственных весов модели на основе обратной связи от задачи, в то время как обвязка остаётся фиксированной. Эти два направления работают изолированно. Мы предлагаем SIA — цикл самоулучшения, в котором агент на основе языковой модели (Feedback-Agent) обновляет как обвязку, так и веса целевого агента. Мы проводим оценку в трёх контрастных областях: классификация статей китайского уголовного права, низкоуровневая оптимизация ядер GPU и очистка одноклеточной РНК. Сочетание обоих рычагов превосходит итерацию одного только каркаса на всех трёх наборах данных. Улучшения составляют: 56.6% на LawBench, сокращение времени выполнения на 91.9% для ядер GPU и 502% по очистке данных по сравнению с исходным базовым уровнем. Обновления обвязки делают агента активным, формируя то, как он ищет и действует, в то время как обновления весов создают интуитивное понимание предметной области, которое не может привить ни один промпт или каркас.
Рекомендация научных статей обычно оценивается как статическое ранжирование по фиксированному набору кандидатов, однако реальное научное чтение представляет собой ежедневный долгосрочный процесс, в котором интересы меняются, а обратная связь накапливается. Мы представляем PaperFlow — фреймворк, который организует этот процесс в три взаимосвязанных этапа: профилирование, которое строит и поддерживает структурированный, проверяемый научный профиль на основе разнородных данных «холодного старта»; рекомендация, которая ранжирует каждый датированный поток статей с помощью агрегации множества сигналов при фиксированном бюджете отображения; и адаптация, которая обновляет состояние пользователя на основе семантически различных сигналов обратной связи и моделирует дрейф интересов по дням. Мы также определяем долгосрочный бенчмарк «пользователь-день», который фиксирует пользователей, даты, пулы кандидатов, видимые входные данные и скрытые смоделированные метки релевантности в рамках общей временной информационной границы. Бенчмарк содержит 24 смоделированных исследовательских пользователя, 50 ежедневных потоков статей, 1 200 эпизодов «пользователь-день», 20 727 уникальных статей и 497 448 записей «эпизод-статья». Дополнительно мы описываем протокол слепой человеческой оценки для проверки согласованности автоматических метрик и экспертных суждений. Эксперименты с пятью базовыми подходами к рекомендации научных статей показывают, что PaperFlow достигает наиболее сильного ранжирования на основе oracle, наивысшей поведенческой согласованности с симулированными выборами чтения и лучшего показателя слепой человеческой оценки.
Агенты разработки ПО на основе больших языковых моделей (LLM) стали центральным испытательным стендом для оценки возможностей языковых моделей в реальных условиях, однако их обучение по-прежнему ограничено доступностью качественных задач SWE. Существующие методы синтетических данных обычно создают задачи с помощью фиксированных процедур мутации или внесения ошибок, что делает результирующие распределения в значительной степени независимыми от собственных слабых мест агента и хода обучения. Мы представляем Socratic-SWE — замкнутую самоэволюционирующую структуру, которая повторно использует исторические трассы решения агента как источник обучающего сигнала. Вместо того чтобы рассматривать трассы только как доказательства для вычисления вознаграждения, Socratic-SWE извлекает из них структурированные навыки агента, которые обобщают повторяющиеся неудачи и эффективные шаблоны исправлений. Затем эти навыки направляют генерацию целевых задач по исправлению в реальных репозиториях. Кандидатные задачи проверяются с помощью валидации на основе выполнения и оцениваются с помощью вознаграждения за согласование с градиентом решателя, так что отобранные задачи являются как верифицируемыми, так и полезными для улучшения решателя (Solver). Обновленный решатель порождает новые трассы, что позволяет учебной программе задач адаптироваться на последовательных итерациях. На наборах SWE-bench Verified, SWE-bench Lite, SWE-bench Pro и Terminal-Bench 2.0 Socratic-SWE последовательно превосходит самоэволюционирующие базовые линии при том же вычислительном бюджете, достигая 50,40% на SWE-bench Verified после трех итераций. Эти результаты позволяют предположить, что трассы решения могут служить масштабируемой основой для самоэволюционирующих SWE-агентов.
Агенты на основе больших языковых моделей (LLM) всё чаще сталкиваются с необходимостью работы в гетерогенных режимах задач, требующих различных парадигм выполнения. Это ставит под сомнение фиксированные агентные системы и стимулирует системную мета-адаптацию, выходящую за рамки изолированных обновлений компонентов. Хотя существующие работы адаптируют внешнюю обвязку (harness) или обучают лежащие в основе политики рассуждений, полносистемная адаптация остаётся недостаточно охарактеризованной. Пространство адаптации между структурой и выполнением редко делается явным, а совместимость между внешней обвязкой и внутренним механизмом рассуждений не оптимизируется совместно. Мы предлагаем HarnessForge — мета-адаптивный фреймворк для эволюции агентных систем на основе LLM. HarnessForge формулирует агентную систему как пару «обвязка–политика», определяя стабильное пространство адаптации, разделяющее структуру выполнения на уровне обвязки и поведение рассуждений на уровне политики. Затем он выполняет совместную эволюцию обвязки и политики посредством настройки обвязки под управлением ошибок и согласования политики с учётом обвязки. Эксперименты на пяти эталонных наборах данных из различных областей показывают, что HarnessForge последовательно улучшает как базовые модели Qwen3-4B, так и Qwen3-8B, превосходя базовые линии, использующие только обвязку или только политику, с приростом до 12,0% по сравнению с сильнейшей базовой линией, а также достигает выгодного компромисса между производительностью и эффективностью развёртывания. Это демонстрирует, что совместная эволюция обвязки и политики эффективна, и что исполнительная совместимость между обвязкой и политикой рассуждений необходима для адаптации агентной системы. Код доступен по адресу https://github.com/mingju-c/HarnessForge.
Несмотря на стремительный прогресс визуально-языковых моделей (VLM), в этой области по-прежнему не хватает бенчмарков, позволяющих строго диагностировать их истинные способности к рассуждению и отслеживать значимый прогресс на пути к человекоподобному мультимодальному интеллекту. Большинство существующих оценок фокусируются на разрозненных или слабо связанных задачах, что скрывает критические когнитивные недостатки и даёт мало ориентиров для целенаправленного улучшения. Для восполнения этого пробела мы представляем BloomBench, часть серии бенчмарков Almieyar, — первый когнитивно обоснованный на человеческом познании двуязычный (английский-арабский) мультимодальный бенчмарк для VLM. Опираясь на таксономию Блума, BloomBench систематически оценивает шесть уровней познания (запоминание, понимание, применение, анализ, оценка, создание) с помощью тщательно разработанных заданий типа «изображение — вопрос — ответ». Созданный с использованием полуавтоматизированного конвейера и валидированный посредством стратифицированного гибридного протокола обеспечения качества, он обеспечивает масштабируемость, культурную инклюзивность и лингвистическую точность. Используя эту структуру, мы проводим всестороннее исследование современных VLM для диагностики их когнитивных профилей. Наш анализ выявляет резкую когнитивную асимметрию: хотя передовые модели демонстрируют высокие потолки производительности в области семантического понимания, они существенно затрудняются с фактическим воспроизведением (запоминанием) и творческим синтезом. Это показывает, что текущая общая мультимодальная компетентность маскирует более глубокие ограничения в отдельных когнитивных слоях. Кроме того, наше исследование подчеркивает критический разрыв в производительности между арабским и английским языками, обнажая ограничения современного кросс-лингвистического мультимодального рассуждения. Эти результаты закладывают основу для разработки более когнитивно согласованных и инклюзивных VLM. Структура бенчмарка и набор данных доступны по адресу: https://github.com/qcri/Almieyar-Oryx-BloomBench.
Визуально-языковые модели (VLM) все чаще развертываются в воплощенных средах, где им необходимо генерировать числовые выходные данные, такие как величины действий и пространственные координаты. Хотя эти числа кажутся осмысленными, остается неясным, действительно ли эти числовые выходные данные обусловлены пространственным восприятием. Поэтому в данной работе мы заново исследуем пространственное числовое понимание с помощью SpaceNum — единой рамки, охватывающей две взаимодополняющие постановки: числа как динамические переходы во время пространственного исследования и числа как статические компоновки в пространственном рассуждении. Мы формулируем две двунаправленные задачи, Num2Space и Space2Num, чтобы оценить, насколько хорошо VLM отображают взаимосвязь между пространственной структурой со стороны зрения и числовыми представлениями со стороны языка. Мы систематически изучаем, действительно ли современные VLM понимают числовые значения в пространственных контекстах. В рамках динамических переходов и статических компоновок мы обнаруживаем, что модели в значительной степени не могут привязать числа к пространственному смыслу и часто выполняют задачи на уровне случайного угадывания. С помощью анализа ошибок, анализа цепочек рассуждений и контролируемых вмешательств мы показываем, что современные VLM сильно полагаются на поверхностные пространственные подсказки, с трудом строят стабильные представления, учитывающие координаты, и не способны абстрагировать структурированные пространственные компоновки из визуальных наблюдений. Мы также показываем, что явное рассуждение дает лишь незначительные улучшения, в то время как тонкая настройка может частично улучшить пространственное числовое понимание и переноситься на внешние бенчмарки пространственного рассуждения.
Несмотря на прогресс в понимании 3D-сцен, существующие большие мультимодальные 3D-модели работают в офлайн-режиме, требуя полных наблюдений сцены или заранее заданных видеоклипов. В данной работе мы представляем онлайн 3D-модель «язык-зрение», которая обеспечивает пространственное понимание в реальном времени из потокового видео. Наш подход использует авторегрессионное моделирование управления потоком на основе задачи предсказания следующего токена LLM для обучения моментам ответа, а также применяет легковесный модуль интеграции визуально-пространственных признаков (VSFI) для инкрементального внедрения временно согласованных геометрических априорных знаний в визуальный поток. Для снижения вычислительных затрат при декодировании длинных контекстов мы предлагаем подключаемый модуль геометрически-адаптивного сжатия вокселов (GAVC) для эффективного сжатия визуальных токенов. Для решения проблемы нехватки потоковых 3D-языковых данных мы дополнительно разрабатываем масштабируемый конвейер генерации данных, который собирает более 1 млн онлайн пространственно-временных 3D QA-пар и создает комплексный бенчмарк, охватывающий 29 задач. Обширные эксперименты показывают, что наш подход значительно превосходит как проприетарные модели, так и модели с открытым исходным кодом в задачах онлайн и офлайн пространственного понимания, рассуждения и привязки 3D. Страница проекта доступна по адресу https://stream3d-vlm.github.io/.
Трехмерное зрение стремительно развивается благодаря все более разнообразным представлениям данных, парадигмам обучения и стратегиям моделирования. Однако эта область остается фрагментированной с точки зрения представлений и эталонных тестов, что затрудняет выработку единых взглядов на эффективность, точность и масштабируемость. Данная работа предлагает таксономию трехмерного зрения, ориентированную на данные, которая связывает геометрические представления, наборы данных, обучающие фреймворки и приложения в рамках единой концептуальной карты. Мы начинаем с анализа основных структурных представлений 3D-данных — облаков точек, сеток, вокселей и 3D-гауссиан, — а также конвейеров их получения. Затем мы рассматриваем, как проектирование наборов данных, построение эталонных тестов и режимы обучения с учителем определяют последние достижения, включая 3D-обучение под надзором 2D-данных, неявные нейронные представления и 4D-моделирование мира. С помощью этого интегративного подхода мы проясняем взаимосвязи между представлениями, парадигмами обучения и прикладными задачами в реконструкции, генерации и моделировании видео, предлагая консолидированный взгляд на emerging trends в направлении баланса между эффективностью и точностью, а также мультимодального геометрического обоснования.
Поисковые агенты по-прежнему наследуют методологию неагентного информационного поиска: ретривер ранжирует корпус, а агент считывает небольшой набор возвращённых документов. Недавние работы по прямому взаимодействию с корпусом (Direct Corpus Interaction, DCI) показывают, что агенты могут взаимодействовать с исходным корпусом с помощью оболочечных инструментов, таких как grep и чтение файлов. Однако неограниченное взаимодействие не масштабируется: любая широкая команда оболочки означает сканирование всего корпуса, а задержка резко возрастает при его увеличении. Мы утверждаем, что роль поиска для агентного поиска заключается не только в отборе документов, помещающихся в контекстное окно LLM, но и в построении пространства взаимодействия: ограниченного подмножества корпуса, которое агент может исследовать с помощью соответствующих инструментов. Отсюда вытекают два конструктивных следствия. Пространство нуждается в границе, обеспечиваемой поиском, а объекты внутри него должны быть обработаны для взаимодействия. В качестве подтверждения концепции мы предлагаем RISE (Retrieving Interaction SpacE — извлечение пространства взаимодействия): мы используем BM25 для построения пространства взаимодействия; при этом его документы обрабатываются во время индексации для навигации в стиле командной оболочки. На BrowseComp-Plus RISE достигает точности 78% с gpt-5.4-mini при использовании чистого DCI-базиса, затрачивая примерно четверть стоимости на запрос. При 1 миллионе документов RISE-BM25 достигает 81% на gpt-5.4-mini, тогда как DCI на gpt-5.4-nano снижается до 60% при 33 отказах из 100 по реальному времени.
Обычно избегают использования взвешивания потерь на основе уверенности в генеративных моделях, поскольку оно ускоряет накопление ошибок, когда модель уверенно ошибается, однако эта интуиция нарушается в случае контролируемого обучения диффузионных моделей. Мы предлагаем логарифмический барьер Эйсбаха — параметрически свободный вес, выведенный из энтропии пространственного энергетического распределения выхода DiT: высокая энтропия ослабляет градиент, а низкая — сохраняет его. Применение этого подхода к тонкой настройке Stable Audio 3 Medium с помощью LoRA на MusicCaps неожиданно приводит к более сильному тематическому развитию, более чёткой акустической дифференциации и более высокому текстурному разнообразию по сравнению с обучением без взвешивания — противоположность коллапсу моды. Это работает потому, что в контролируемой диффузии направление градиента привязано к истинному значению, поэтому уверенность лишь масштабирует размер шага, а также потому, что временна́я энтропия снижает вес плоских образцов, сохраняя при этом высококонтрастные. В результате возникает онлайн-самореферентный учебный набор данных, который формируется исключительно за счёт прямого прохода, с проанализированной динамикой уровней шума и проверяемыми предсказаниями.
Языковые модели могут использовать верифицируемые вознаграждения для улучшения в широком спектре задач, требующих рассуждений. Однако как параметрические (например, RLVR), так и непараметрические (например, оптимизация промптов) подходы к этому обычно требуют сотен обучающих примеров и тысяч прогонов модели, что делает их дорогостоящими в лучшем случае и нереализуемыми в худшем. Для решения этой задачи мы представляем Contrastive Reflection (CORE) — непараметрический обучающий алгоритм, который сравнивает прошлые следы рассуждений для генерации инсайтов: кратких описаний на естественном языке стратегий и ограничений рассуждений, отражающих различия между успешными и неуспешными попытками решения задач. На четырех задачах, требующих рассуждений, мы демонстрируем, что CORE обеспечивает более быстрое улучшение, чем как параметрические (GRPO), так и непараметрические (GEPA, эпизодический RAG и MemRL) методы, при этом используя меньше прогонов. При фиксированных бюджетах прогонов и всего пяти обучающих примерах мы затем показываем, что CORE также достигает сравнимого или большего прироста производительности по сравнению с каждым из базовых методов. Наконец, мы подчеркиваем, что CORE существенно более контекстно-эффективен, чем непараметрические базовые методы, требуя меньше токенов в промпте при сохранении изученных знаний в виде компактных интерпретируемых инсайтов на естественном языке. Таким образом, наши результаты свидетельствуют о том, что дистилляция контрастов между успешными и неуспешными следами рассуждений в абстрактные и полезные инсайты может обеспечить более эффективный и интерпретируемый путь к самоулучшению модели, чем обновление весов, оптимизация промптов или прямое повторное использование сохраненных следов рассуждений.
Настройка LLM-судьи под конкретную задачу или предметную область часто требует одновременной оптимизации его промпта по нескольким критериям оценки. Методы текстовых градиентов автоматизируют этот процесс для одного критерия, однако они выдают критические замечания на естественном языке, а не числовые векторы. Таким образом, инструментарий разрешения конфликтов из многозадачного обучения (PCGrad, MGDA) неприменим в условиях многоцелевых текстовых градиентов. Мы тестируем пять режимов декомпозиции оптимизаторов текстовых градиентов, варьируя объём перекрёстной информации, которой обмениваются LLM потерь, градиента и оптимизатора. В 6 из 10 конфигураций мы наблюдаем, что оптимизация никогда не улучшает исходный промпт. Специфичность градиента падает на 59% (с 9,0 до 3,7), когда LLM градиента обрабатывает несколько критериев совместно. Отдельно мы отмечаем, что простое объединение пошаговых инструкций в единый промпт снижает коэффициент Спирмена (rho) на -5,3%. Эти результаты выявляют два разделимых режима сбоя: разбавление градиента на этапе оптимизации и интерференцию инструкций на этапе инференса, которые вместе ограничивают пространство проектирования для многоцелевой настройки судей с использованием текстовой обратной связи.
Модели рассуждений быстро развиваются, но доминирующая парадигма обучения с подкреплением на основе проверяемых вознаграждений (RLVR) остается удивительно узкой: генерируется множество ответов, и каждый из них вознаграждается одним битом, указывающим, правилен ли окончательный ответ. Однако многие сценарии предоставляют богатую обратную связь, включая трассировки выполнения, выводы инструментов, исправления экспертов и самооценки модели. Мы изучаем, как использовать такую обратную связь с помощью дистрибутивного варианта классического алгоритма имитационного обучения DAgger, где обучающийся имеет локальный доступ к распределению эксперта по состояниям, посещаемым текущей политикой. Это дает простую целевую функцию прямой кросс-энтропии, которая допускает эксперта в виде "черного ящика" и чей градиент на уровне последовательности осуществляет детальное распределение кредита путем распространения будущего несоответствия между экспертом и учеником на более ранние решения. Мы показываем, что предыдущие методы RL с целями самодистилляции на основе обратной KL-дивергенции или дивергенции Дженсена-Шеннона не гарантируют монотонное улучшение политики: даже если у эксперта более высокое вознаграждение, их обновления могут увеличивать вероятность худших действий. В отличие от этого, мы показываем, что прямая кросс-энтропия допускает монотонное улучшение политики и имеет гарантии на сожаление. Кроме того, мы показываем, что наша целевая функция оптимизирует нижнюю границу взвешенной учителем вероятности успеха, что приводит к улучшению показателя Pass@N. Эмпирически наш подход DistIL превосходит RLVR и RL с базовыми методами самодистилляции в различных областях: научные рассуждения, программирование и решение сложных математических задач.
Модели рассуждений генерируют длинные цепочки рассуждений (chain-of-thought), которые дороги в дистилляции и способствуют многословным выходным данным студентов. Мы исследуем пост-хок компрессию таких следов перед дистилляцией знаний. Два учителя, Qwen3.5-397B-A17B и gpt-oss-120B, генерируют примерно по 283 тыс. корректных следов; две модели, дообученные на инструкциях, сжимают их до 8,6–21,0% от исходной длины в символах. В рамках основной сетки из 48 запусков и семи абляций по усечению учителя Qwen сжатые следы сокращают количество токенов для обучения до 12–30% от исходного, ускоряют обучение в 2,0–7,6 раза и уменьшают длину выходных данных при инференсе в 3–19 раз, при этом reductions менее выражены для более короткого учителя gpt-oss. Однако необработанные следы сохраняют наивысшую точность на downstream-задачах при любом масштабе и для обоих учителей. Абляция с усечением необработанных следов, сопоставимых по длине, показывает, что сжатие не сводится лишь к меньшему токенному бюджету: модели-компрессоры обычно превосходят или сравнимы с наивным усечением, особенно для меньших студентов, при этом сохраняя более короткие выходные данные при инференсе. В целом, сжатие следов рассуждений представляет собой компромисс между точностью и эффективностью, а не бесплатное улучшение: студенты сохраняют до 96% точности необработанных следов, одновременно достигая до 18-кратного повышения эффективности на токен; при масштабе 0,8B с LoRA сжатые следы сокращают разрыв между необработанными и сжатыми, но не превосходят необработанные.
Агентные системы языковых моделей чередуют два структурно различных типа шагов: структурированные вызовы инструментов (короткие, детерминированные, с низкой перплексией) и открытые шаги планирования/рассуждения (длинные, сложные, с высокой перплексией). Несмотря на такую гетерогенность, современные системы инференса применяют одинаковые вычислительные затраты к каждому шагу. Мы представляем LayerRoute — легковесный адаптер, который обучается выборочно пропускать блоки трансформера для каждого входного образца. LayerRoute дополняет каждый из 24 блоков трансформера в Qwen2.5-0.5B-Instruct: (1) маршрутизатором на уровне слоя (~897 параметров, Linear(896,1)), который выдает жесткий бинарный шлюз через прямой оценщик, и (2) LoRA-адаптерами (ранг 8, ~1,08M параметров) на проекциях внимания Q/K/V/O. Веса основной модели остаются замороженными. Один сквозной проход обучения на агентных данных (Hermes, Glaive, GSM8K, Turing) с членом регуляризации шлюзов заставляет систему обнаруживать, какие блоки являются пропускаемыми для каждого типа входных данных. После 3000 шагов (6,4 минуты на A100 40GB) LayerRoute достигает дифференциала пропусков в 12,91%: вызовы инструментов пропускают 15,25% FLOPs, тогда как шаги планирования — лишь 2,34%, используя всего 1,10M обучаемых параметров (0,22% от 494M параметров основной модели). Качество улучшается по сравнению с базовой моделью за счет LoRA-адаптации, с дельтой перплексии -1,29 для вызовов инструментов и -1,30 для планирования.
Большие языковые модели (БЯМ) недавно начали использоваться в качестве синтетических агентов для моделирования общественного мнения, предлагая многообещающую альтернативу дорогостоящим и медленным опросам людей. Несмотря на свою масштабируемость, современные методы моделирования на основе БЯМ не способны отразить социальное разнообразие, демонстрируя сглаженные межгрупповые различия и излишне однородные ответы среди демографических групп. Мы идентифицируем это ограничение как явление коллапса разнообразия (Diversity Collapse) в скрытых представлениях БЯМ, при котором различные социальные идентичности становятся всё менее различимыми по мере прохождения слоёв. Основываясь на этом наблюдении, мы предлагаем параметрическое внедрение социальной идентичности (PSII) — общую структуру, которая напрямую вводит явные параметрические представления демографических атрибутов и ценностных ориентаций в промежуточные скрытые состояния БЯМ. В отличие от кондиционирования личности на основе промптов, PSII обеспечивает тонко настраиваемую и управляемую модуляцию идентичности на уровне представлений. Обширные эксперименты на данных World Values Survey с использованием нескольких открытых БЯМ показывают, что PSII значительно улучшает распределительную точность и разнообразие, снижая расхождение Кульбака-Лейблера (KL-расхождение) с реальными данными опросов и одновременно повышая общее разнообразие. Данная работа даёт новое понимание контроля на уровне представлений для агентов на основе БЯМ и продвигает масштабируемое, учитывающее разнообразие моделирование общественного мнения.
Автоматическое распознавание речи (АРР) является ключевым компонентом человеко-компьютерного взаимодействия и всё более важным интерфейсом для ассистентов и агентов на основе больших языковых моделей. Однако большинство современных систем АРР по-прежнему следуют однопроходной парадигме, которая плохо согласуется с человеческой коммуникацией, где недопонимания разрешаются путём итеративного уточнения и доработки. Это несоответствие затрудняет исправление ошибок, критически важных для смысла, после их возникновения. Кроме того, потоковые метрики, такие как WER или CER, не в полной мере отражают данную проблему. Для преодоления этих ограничений мы формулируем интерактивное АРР как задачу многократного уточнения и предлагаем Agentic ASR — замкнутую структуру, объединяющую однопроходный фронтенд АРР с семантической коррекцией, маршрутизацией намерений и редактированием на основе рассуждений. Мы также вводим метрику семантической частоты ошибок на уровне предложений (S²ER) — метрику семантической оценки на основе LLM, а также интерактивную систему моделирования для масштабируемого и воспроизводимого бенчмаркинга. Эксперименты на многоязычных тестах, интенсивных по именованным сущностям, и тестах с переключением кодов показывают, что итеративное взаимодействие последовательно снижает семантические ошибки, причём выигрыш по S²ER значительно больше, чем по традиционным потоковым метрикам. Исследования согласования человека и ИИ, а также абляционные исследования дополнительно подтверждают надёжность семантического судьи и устойчивость предложенной структуры. Код доступен по адресу: https://interactiveasr.github.io/, а живая демонстрация — по адресу: https://i-asr.sjtuxlance.com/.
Атаки дистилляции создают компромисс при развертывании для поставщиков моделей: одни и те же выходные данные, которые делают модель более полезной, также могут облегчить её имитацию. Мы изучаем этот компромисс через минимаксную игру между учителем с ограничением полезности и адаптивным студентом. Предложенная нами схема даёт разрешимые односторонние правила реагирования: адаптивное правило оценки, в котором студент перевзвешивает высокоценные примеры, и шаблон защиты со стороны учителя, подавляющий выходные данные, наиболее полезные для дистилляции. На основе дешёвого прокси ценности примеров мы выводим произведение экспертов (Product-of-Experts, PoE) — простую защиту, требующую только прямого прохода, которая во время генерации комбинирует учителя с прокси-студентом. Эмпирически адаптивная оценка выявляет значительный разрыв между пассивным и адаптивным подходами: на современных методах защиты адаптивные студенты восстанавливают гораздо больше способностей, чем предполагает пассивная оценка на наборах данных GSM8K и MATH. В условиях такой более строгой оценки кажущийся разрыв в устойчивости между дорогими методами защиты и PoE существенно сокращается, при этом PoE остаётся значительно дешевле и сохраняет более качественные цепочки рассуждений. В целом наши результаты показывают, что сильную дистилляцию трудно остановить, и прогресс в противодействии дистилляции следует оценивать на основе адаптивных студентов, а не пассивных. Наш код доступен по адресу: https://github.com/ysfalh/distillation-game.
Мы представляем StreamForce — фреймворк для потоковой генерации видео, обеспечивающий физически обоснованное управление через непрерывные силовые воздействия. В отличие от предыдущих видеомоделей, которые обучали отдельные модели для разных типов сил, предполагали фиксированные силы или полагались на некаузальную обработку, StreamForce представляет собой каузальную и унифицированную модель, мгновенно и согласованно реагирующую как на локальные, так и на глобальные, изменяющиеся во времени силы. Для этого мы разработали унифицированное представление сил в качестве управляющего сигнала и создали конвейер дистилляции для генерации видео, управляемой силами. Наша модель сочетает эффективность авторегрессии с откликом на силы, обеспечивая стабильный фотометрический и динамический реализм. StreamForce работает со скоростью до 16,6 кадров в секунду на одном GPU, достигая передовых показателей как по соблюдению силовых воздействий, так и по реалистичности движений. Веб-сайт проекта: https://neu-vi.github.io/StreamForce/
Выбор источников жестких негативных примеров для плотного поиска обычно определяется только после тонкой настройки и последующей оценки. Мы предлагаем ECI_{sem} — вариант семантического остатка эффективной контрастивной информации (ECI), который ранжирует кандидатов-источников негативных примеров с использованием замороженных эмбеддингов целевого кодировщика. ECI_{sem} не требует обучения, но требует разметки: каждый оцениваемый пример включает запрос, размеченный положительный пример и явный кандидат-негатив. ECI_{sem} строит взвешенную матрицу остаточной информации на основе целевой согласованности, семантической локальности, лексической остаточности и целевой функции разнообразия с лог-детерминантом. На источниках негативных примеров MS MARCO внутрисемейный ECI_{sem} ранжирует негативные примеры от LLM как наилучшие среди негибридных источников, а Dense+LLM — как наилучшие среди гибридных, что совпадает с сильнейшими совокупными результатами переноса на BEIR для DistilBERT, E5-base и Contriever. Контролируемые абляции показывают, что это соответствие зависит от использования семейства целевых кодировщиков, а дополнительные абляции демонстрируют устойчивость к возмущениям размера выборки, температуры, токенизатора и IDF-корпуса. Теория дает локальную линеаризованную связь со снижением потерь, в то время как эмпирическое исследование рассматривает последующую оценку как финальный тест.
Разработчики все чаще используют ИИ-инструменты, такие как ChatGPT, Copilot и Claude, в повседневных программных рабочих процессах, однако предыдущие исследования зачастую оценивают результаты работы LLM изолированно, не изучая, как разработчики адаптируют их в реальных проектах. Мы анализируем 35 361 комментарий к коду на GitHub, прямо упоминающий использование ИИ, и соответствующие блоки кода. Сначала мы вручную кодируем 500 уникальных комментариев и блоков кода для построения таксономии видов деятельности при разработке с помощью ИИ, затем аннотируем полный набор данных с помощью двух классификаторов на основе LLM и агрегируем прогнозы с помощью метода максимизации ожидания Давида-Скена. Также мы анализируем 12 996 последующих сообщений коммитов, чтобы изучить, как код, созданный с помощью ИИ, эволюционирует после внедрения, и исследуем временные тенденции с декабря 2022 года по март 2026 года. Наши результаты показывают, что разработчики в основном используют LLM для реализации кода, за чем следуют улучшение кода, отладка, документирование и тестирование. Последующие коммиты часто включают рефакторинг и очистку, интеграцию и расширение функциональности, а также исправление ошибок, что указывает на постоянный человеческий контроль при адаптации кода, созданного с помощью ИИ. Со временем комментарии, ссылающиеся на ИИ, смещаются от прямой генерации кода в сторону поддержки знаний и концепций, а также улучшения кода. Эти результаты позволяют предположить, что инструменты ИИ внедряются не только как средства генерации кода, но и как механизмы совместной поддержки, результаты которых разработчики со временем дорабатывают, расширяют и исправляют.
Устойчивость глубоких нейронных сетей имеет решающее значение для их применения в критически важных с точки зрения безопасности областях, однако существующие методы оценки часто зависят от конкретных атак и лишены интерпретируемости. Мы предлагаем обоснованный показатель устойчивости, не зависящий от атак, основанный на спектральной норме информационной матрицы Фишера (Fisher Information Matrix, FIM), который количественно оценивает наихудшую чувствительность распределения выходных данных модели к возмущениям входных данных. Теоретически мы устанавливаем, что FIM равна дисперсии якобиана по входным данным, и выводим замкнутые формы спектральных границ для распространенных архитектур, включая VGG, ResNet, DenseNet и Transformer, что дает первое теоретическое ранжирование устойчивости. Для обеспечения масштабируемой оценки мы разрабатываем эффективные алгоритмы, включающие степенной метод (power iteration) и оценку на основе метода Хатчинсона, которые поддерживают как настройки с белым ящиком (white-box), так и с черным ящиком (black-box). Обширные эксперименты на нескольких наборах данных, включая CIFAR, ImageNet и медицинские изображения, а также на нескольких архитектурах, показывают сильную корреляцию между нашим показателем и уязвимостью к состязательным атакам. Наш фреймворк служит интерпретируемым диагностическим инструментом, дополняющим оценки на основе атак, предоставляя понимание чувствительности архитектуры и направляя проектирование более устойчивых моделей. Код доступен по адресу: https://github.com/franz-chang/SRP/.
Мы исследуем преобразование авторегрессионных языковых моделей (ARLM) в диффузионные языковые модели (DLM). В отличие от обучения с нуля, в предыдущих работах каузальное внимание в ARLM заменяется двунаправленным, после чего полученная модель обучается с использованием DLM-целевой функции. Однако такие подходы вызывают два распределённых сдвига. Во-первых, переход от цели предсказания следующего токена к DLM-цели может привести к потере знаний, приобретённых ARLM в процессе обучения. Во-вторых, стандартные DLM страдают от несоответствия между обучением и инференсом, поскольку функция потерь на этапе обучения определяется на случайно замаскированных последовательностях, а не на траекториях, порождаемых на инференсе при декодировании на основе уверенности. Для решения обеих проблем мы предлагаем диффузионную языковую модель на политике (OPDLM), в которой для преобразования ARLM в DLM применяется дистилляция на политике (OPD). В частности, OPDLM обучается с помощью самодистилляции на политике, где ученик (ARLM с двунаправленным вниманием) генерирует собственные траектории, а учитель (исходная замороженная ARLM) передаёт свои знания, предоставляя целевые логиты для этих траекторий. Благодаря прямому обучению в стиле on-policy, OPDLM устраняет несоответствие между обучением и инференсом в DLM, а дистилляция от исходной модели повышает сохранение знаний, полученных от ARLM. Эмпирические результаты показывают, что OPDLM требует в 15–7000 раз меньше обучающих токенов, демонстрируя высокую производительность на широком спектре задач. OPDLM позволяет избежать непомерно высоких затрат на предварительное обучение DLM и позиционирует преобразование DLM как форму постобучения ARLM.
Дискретные модели «зрение-язык-действие» (VLA) обычно формулируют генерацию действий как предсказание следующего токена в дискретизированных пространствах действий, обусловливая каждый токен авторегрессивно на основе предыдущего контекста. Будучи эффективной, эта парадигма приводит к высокой задержке вывода и в значительной степени игнорирует временную структуру, присущую траекториям действий. Недавние попытки вводят параллельное декодирование для повышения эффективности, обеспечивая более быстрый вывод, но не имеют явных механизмов для моделирования зависимостей токенов. Мы представляем TBD-VLA — фреймворк VLA на основе дискретных токенов, который включает блочную диффузию для обеспечения генерации временных действий. Мы разбиваем последовательности действий на временные блоки и выполняем маскированную дискретную диффузию в каждом блоке, сохраняя при этом авторегрессивную генерацию между блоками. Этот дизайн объединяет временную авторегрессию и параллельное декодирование действий, достигая как сильной временной согласованности, так и повышенной скорости вывода. Кроме того, явное временное моделирование позволяет асинхронно выполнять фрагменты действий (например, Real-Time Chunking) с помощью временного инпейнтинга. TBD-VLA значительно превосходит предыдущие подходы VLA как в симуляции, так и в реальных задачах манипуляции, предлагая масштабируемый путь к быстрым, темпорально осведомленным дискретным моделям VLA. Веб-страница проекта: https://tbd-vla.github.io/
В реальных приложениях модели должны надежно работать в разнообразных условиях. Тем не менее, многие существующие мультимодальные бенчмарки расширяют типы задач, не охватывая визуальное разнообразие, необходимое для работы с открытыми визуальными входами. Мы представляем WorldBench — сложный и визуально разнообразный бенчмарк для рассуждений, предназначенный для оценки мультимодальных больших языковых моделей (MLLMs). Мы строим таксономию тысяч визуальных концепций в нескольких областях (например, живые существа). Руководствуясь этой таксономией, мы подбираем широкий набор изображений из поисковых систем и существующих наборов данных, чтобы всесторонне представить визуальный мир. Путем структурированных проб и ошибок мы вручную разрабатываем сложные вопросы, на которые передовые MLLMs не могут ответить. По результатам количественных и человеческих оценок WorldBench демонстрирует более высокое визуальное разнообразие, чем любой существующий разнообразный бенчмарк. Оценка 15 MLLMs на WorldBench выявляет слабые места в визуальном понимании: даже самая сильная модель достигает лишь 64,0% точности, в то время как некоторые модели работают лишь немного выше уровня случайности. Мы надеемся, что наша работа подчеркивает важность визуального разнообразия при создании мультимодальных бенчмарков.
Агентные поисковые системы итеративно взаимодействуют с моделями извлечения информации для ответа на сложные запросы. Несмотря на значительный прогресс, оптимизация ретриверов для агентного поиска остается сложной задачей, часто требующей интенсивного совместного обучения или эталонных аннотаций, что ограничивает применимость в реальных условиях. Мы предлагаем Critic-R — фреймворк, который явно замыкает обратную связь между агентом рассуждений и моделью извлечения как на этапе инференса, так и на этапе обучения. Critic-R вводит модель-критик, которая оценивает интроспективный след рассуждений агента после потребления извлеченных свидетельств, чтобы определить, достаточно ли извлеченный контекст поддерживает следующий шаг рассуждений. Critic-R включает два взаимодополняющих механизма: Critic-R-Zero — цикл уточнения запроса на этапе инференса, который итеративно переписывает запросы и инструкции по извлечению, и Critic-Embed — подход к оптимизации моделей извлечения, использующий успешные и неудачные траектории уточнения в качестве автоматического контроля без необходимости ручной аннотации релевантности. Мы оцениваем Critic-R на наборах данных HotpotQA, 2WikiMultihopQA, MuSiQue и Bamboogle. Результаты показывают, что Critic-R значительно улучшает как качество извлечения информации, так и точность итогового ответа.
Эффективный инференс имеет решающее значение для языковых моделей с длинным контекстом, где доминирующую роль в вычислительных затратах играют вычисление внимания и доступ к KV-кэшу. Недавняя работа RAT+ предлагает рекуррентно-усиленный каркас внимания, который обеспечивает гибкое дилатированное внимание на этапе инференса. В данной статье мы исследуем, может ли эта экспоненциально затухающая память также улучшить существующие методы разреженного инференса с учетом запроса. Используя репрезентативные методы, включая Quest, MoBA и SnapKV, мы показываем, что RAT+ последовательно повышает точность по сравнению со стандартным вниманием в условиях ограниченного бюджета разреженности на восьми задачах поиска иголки в стоге сена. Мы подтверждаем эти улучшения как на опубликованных контрольных точках из статьи RAT+, так и на модели OLMo2-7B, для которой мы продолжили предварительное обучение с добавленным модулем памяти на 10B токенов. Наконец, мы предлагаем две гипотезы, объясняющие, почему данный модуль памяти способствует разреженному инференсу с учетом запроса, и разрабатываем целенаправленные эксперименты для их подтверждения.
Гармония — это компактный символический уровень, где пересекаются математические высотные соотношения, акустический консонанс и музыкальные условности. В настоящем отчёте последовательности аккордовых символов рассматриваются не как полное представление музыки, а как интерпретируемый и управляемый временной ряд для жанрово-локального гармонического моделирования. Отталкиваясь от замороженной контрольной точки музыкального трансформера поп-джаза, я оцениваю, насколько далеко небольшие интерфейсы адаптации могут расширить модель на одиннадцать целевых жанров: блюз, босса-нова, хоралы Баха, кантри, электроника, фолк, фанк, госпел, хип-хоп, R&B/соул и рок. Основное сравнение включает LoRA, IA3, BitFit, префиксную настройку и полную донастройку по 11 жанрам и 3 начальным состояниям, образуя полную сетку из 165 ячеек. Все пять методов улучшают замороженную базу по показателям прогнозирования аккордов на отложенных данных, с макроприростом от +2,89 до +3,61 балла; LoRA и IA3 показывают наивысшие результаты, но тесты Уилкоксона с поправками Холма и Бенджамини-Хохберга не подтверждают явного победителя. Контроль с выравниванием объёма данных уточняет этот результат: при субдискретизации жанров до общего корпусного размера IA3 сохраняет лидерство, но преимущество LoRA при полном объёме данных исчезает, и она опускается на последнее место, что указывает на частичную зависимость малых разрывов от данных. Базовый контроль с токеном-заполнителем также показывает высокие результаты, а адаптеры с неверным жанром часто превосходят замороженную базу, предполагая, что большая часть эффекта обусловлена легковесным обусловливанием на основе многократно используемой гармонической базы, а не конкретным семейством адаптеров. Дополнительные диагностические проверки (обход рангов, ротация неверных жанров, абляция базовой контрольной точки, классификация жанров только по аккордам, статистика сгенерированного вывода, оценка на реальных песнях и анализ дубликатов) подтверждают ограниченный вывод: адаптация аккордовых символов надёжно улучшает жанрово-локальное гармоническое прогнозирование, но одни лишь аккордовые символы не несут полной жанровой идентичности. Таким образом, отчёт избегает утверждений о воспринимаемой жанровой аутентичности или полном музыкальном качестве, для оценки которых требуются контролируемые эксперименты со слушателями или музыкантами.