Ежедневно отобранные исследовательские статьи по ИИ с переводами
Зрительно-языковые модели (VLM) обычно формулируют визуальное привязывание и обнаружение как задачу генерации координатных токенов, сериализуя каждый 2D-бокс в несколько 1D-токенов, которые обучаются и декодируются в значительной степени независимо. Это поканальное декодирование не соответствует связанной структуре геометрии бокса и создает практическое узкое место при выводе из-за строго последовательной генерации. Мы представляем LocateAnything — унифицированный фреймворк генеративного привязывания и обнаружения, основанный на параллельном декодировании боксов (PBD). Декодируя геометрические элементы, такие как ограничивающие рамки и точки, в виде атомарных единиц за один шаг, LocateAnything сохраняет внутриблочную геометрическую согласованность и обеспечивает существенный параллелизм. Мы показываем, что PBD улучшает как пропускную способность декодирования, так и точность локализации. Мы также разрабатываем масштабируемый движок данных и создаем набор данных LocateAnything-Data, содержащий более 138 миллионов обучающих образцов, что значительно увеличивает разнообразие данных для высокоточной локализации. Обширные оценки показывают, что LocateAnything продвигает границу скорости и точности, достигая значительно более высокой пропускной способности декодирования при одновременном улучшении качества локализации с высоким IoU в различных бенчмарках. Результаты подчеркивают взаимодополняющие преимущества параллельного декодирования боксов и крупномасштабных обучающих данных для обеспечения эффективного и точного унифицированного визуального привязывания и обнаружения.
Стремительная эволюция генеративных фундаментальных моделей видео вывела эту область к созданию кинематографического синтеза профессионального уровня. Для достижения такого высокого качества сообщество переходит к обучению с подкреплением (RL) и агентным рабочим процессам. Однако ключевым узким местом стала надежная оценка. Существующие бенчмарки преимущественно оценивают «правильно ли это» (базовое следование подсказке), но принципиально игнорируют «хорошо ли это» (кинематографическое качество, актерскую игру и эстетику). Кроме того, современные автоматизированные метрики лишены необходимой предметной строгости для предоставления надежных сигналов, что создает серьезный разрыв в доверии между человеческим эстетическим восприятием и машинной оценкой. Чтобы преодолеть этот разрыв, мы представляем EvalVerse — комплексную, учитывающую конвейер и откалиброванную экспертами оценочную среду. Мы рассматриваем оценку генерации видео не просто как инженерную задачу, а как фундаментальную научную проблему: систематическую оцифровку субъективного кинематографического опыта. Во-первых, мы организуем предметные знания в таксономию оценки, согласованную с профессиональным кинопроизводственным процессом (препродакшн, продакшн и постпродакшн). Во-вторых, мы сводим экспертные суждения в курируемый набор данных с крупномасштабной человеческой разметкой. В-третьих, мы внедряем эти знания в визуально-языковые модели (VLM) с помощью откалиброванной экспертами стратегии тонкой настройки, позволяя VLM выполнять явное рассуждение по цепочке мыслей (Chain-of-Thought). По сравнению с предыдущими работами, EvalVerse не только сохраняет совместимость с фундаментальными метриками «правильности», но и существенно расширяет критерии до «качества», а также охват задач до сложных многосценовых последовательностей и аудиовизуальной интеграции. Следовательно, предоставляя детальные диагностические сигналы, EvalVerse выходит за рамки статической таблицы лидеров и создает фундаментальную инфраструктуру для будущих работ, таких как модели вознаграждения и оценочные агенты.
Хотя пространственные фундаментальные модели продемонстрировали впечатляющую производительность на стандартных наборах данных, остается критический вопрос: действительно ли они являются универсальными моделями, способными надежно обобщать результаты на разнообразные нижестоящие задачи, произвольные точки обзора, меняющиеся предметные домены, варьирующуюся плотность входных данных и конкретные аппаратные ограничения? Ответ на этот всеобъемлющий вопрос требует целостной оценки, однако современные модели в основном оцениваются на тех конкретных доменах, для которых они были специально разработаны или обучены. Подобные оценки внутренне ограничены узким охватом парадигм, ограниченным набором предметных доменов и произвольной выборкой кадров, что принципиально затрудняет оценку их истинных способностей к обобщению. Для устранения этого пробела мы представляем SpatialBench — кросспарадигмальный, разнообразный по доменам бенчмарк для пространственных фундаментальных моделей с детерминированной выборкой. SpatialBench отличается беспрецедентным масштабом и строгим детерминированным дизайном, включая 19 наборов данных и 546 сцен из 5 различных пространственных доменов. Он всесторонне оценивает 41 модель из 6 парадигм по 5 наборам задач при 4 различных настройках плотности входных данных. Наш обширный анализ показывает, что современные модели пока не являются универсальными, и выявляет ключевые идеи для будущего развития. В частности, мы демонстрируем, что внимание с полным контекстом максимизирует точность, в то время как стратегии с ограниченной памятью открывают масштабируемость для длинных последовательностей. Кроме того, наши эмпирические оценки в сложных воплощённых и эгоцентричных задачах показывают, что строгое выравнивание доменов и высокое качество данных гораздо важнее для производительности, чем простое масштабирование наборов данных. Наконец, для устранения самого крупного пробела в данных, выявленного в нашем анализе, мы выходим за рамки оценки, представляя крупномасштабный набор данных DA-Next-5M и сильную базовую модель DA-Next, расширяющие границы пространственного обучения представлениям.
Мы представляем MobileGym — размещенный в браузере, легковесный и полностью управляемый среду для повседневного использования на мобильных устройствах, нацеленную на точность взаимодействия без повторения проприетарных внутренних компонентов. Она обеспечивает две ранее недоступные для повседневных приложений возможности: верифицируемые выходные сигналы благодаря детерминированной проверке на основе состояния по структурированному JSON-состоянию и масштабируемое онлайн-обучение с подкреплением за счет недорогих параллельных прогонов. Полное состояние среды захватывается, настраивается, разветвляется и сравнивается как структурированный JSON, а один сервер может обслуживать сотни параллельных экземпляров, затрачивая около 400 МБ памяти на экземпляр и около 3 секунд на холодный запуск. Многоуровневая модель состояния и декларативный фреймворк определения задач обеспечивают практическую программируемость состояния и создание задач в масштабе, а единый программный механизм проверки выдает как детерминированные оценочные вердикты, так и плотные награды для обучения с подкреплением. Прилагаемый бенчмарк MobileGym-Bench содержит 416 параметризованных шаблонов задач, включая 256 тестовых и 160 обучающих шаблонов, для 28 приложений, с детерминированными проверяющими модулями и структурированным протоколом AnswerSheet, исключающим ошибки сопоставления свободного текста. В исследовании случая «из симуляции в реальность» GRPO на Qwen3-VL-4B-Instruct дает прирост в +12,8 процентных пункта на тестовом наборе из 256 задач, а на подмножестве сигналов с реального устройства из 59 задач выполнение на реальном устройстве сохраняет 95,1% прироста от обучения в симуляции. Страница проекта: https://mobilegym.github.io.
Многовьюная 3D-реконструкция достигла значительного прогресса с появлением прямых моделей 3D-реконструкции (feed-forward). Однако такие модели обычно обучаются и оцениваются в идеальных условиях без деградации изображений, тогда как реальные наблюдения часто содержат искажения, существенно отличающиеся от этих условий. Таким образом, повышение устойчивости многовьюной 3D-реконструкции в условиях деградации остается важной задачей. Мы представляем Geometry-Aware Representation Denoising (GARD) — новую структуру, выполняющую диффузионное восстановление многовидовых данных непосредственно в пространстве признаков прямой модели 3D-реконструкции. Данный подход использует геометрически осознанные представления признаков реконструктора для эффективного восстановления точной геометрии сцены. Кроме того, с помощью дополнительного декодера RGB-изображений уточненные представления могут также применяться для восстановления высококачественных RGB-изображений, что позволяет одновременно восстанавливать 3D-геометрию сцены и изображения высокого качества. Комплексные эксперименты на эталоне Depth Anything 3 (DA3) демонстрируют эффективность предложенной структуры GARD.
Аудиовизуальная генерация стремительно развивается от коротких клипов до минутного контента, в то время как существующие протоколы оценки в основном ограничены короткими форматами. Существующие бенчмарки в первую очередь сосредоточены на генерации длительностью 5–10 секунд на основе текста и редко поддерживают унифицированную оценку для модальностей на основе текста, изображения и видео. Кроме того, они дают ограниченное понимание того, как согласованность идентичности, связность повествования и аудиовизуальное соответствие ухудшаются на протяжении длительных временных горизонтов. Чтобы восполнить этот пробел, мы представляем LongAV-Compass — систематический бенчмарк для минутной аудиовизуальной генерации. LongAV-Compass содержит 284 тщательно отобранных тестовых случая, охватывающих генерацию текст-аудио-видео (T2AV), изображение-аудио-видео (I2AV) и видео-аудио-видео (V2AV), организованных по сценариям применения и сложности генерации. Бенчмарк сочетает построение на основе таксономии с единой оценочной структурой, которая интегрирует оценку с помощью MLLM с дополнительными перцептивными и мультимодальными метриками, включая DINO-v2, ArcFace, CLIP и ImageBind. Эта структура оценивает более 20 детализированных аспектов, охватывающих качество внутри сегмента, согласованность между сегментами, глобальную связность повествования, семантическое соответствие и аудиовизуальную синхронизацию. Посредством экспериментов на 11 репрезентативных моделях вместе с валидацией по соответствию человеческим оценкам LongAV-Compass предоставляет диагностическую среду для анализа ограничений текущих систем в поддержании когерентной, семантически согласованной и временно́й непрерывной минутной аудиовизуальной генерации для различных входных модальностей.
Несмотря на появление диффузионных больших языковых моделей (D-LLM) в качестве альтернативы авторегрессионным большим языковым моделям (AR-LLM), мониторинг безопасности D-LLM остается в значительной степени неизученным. В отличие от AR-LLM, D-LLM генерируют текст с помощью многошагового процесса шумоподавления, раскрывая промежуточные скрытые представления, которые могут содержать информацию, связанную с безопасностью, недоступную в стандартных одношаговых конфигурациях мониторинга. Руководствуясь пригодностью легковесных пробников для постоянного мониторинга, мы анализируем, какие сигналы на уровне траектории лучше всего указывают на то, когда такие пробники могут испытывать затруднения. Мы обнаружили, что наиболее информативным сигналом является безопасностное колебание: промежуточные скрытые состояния неоднократно попадают в малый запас от границы принятия решения пробника. Количество таких шагов колебания в траектории D-LLM эффективно предсказывает отказ пробника, предоставляя прокси сложности примера. Основываясь на этом анализе, мы предлагаем D²-Monitor — двухуровневый монитор безопасности для D-LLM. D²-Monitor использует легковесный пробник в качестве постоянно действующего монитора для совместной оценки колебания и выполнения базовой классификации. Когда уровень колебания превышает порог, активируется более выразительный, но вычислительно более затратный пробник. Этот механизм динамической маршрутизации эффективно распределяет ресурсы мониторинга во время тестирования. Оцененный на 3 наборах данных (WildguardMix, ToxicChat, OpenAI-Moderation) для 4 D-LLM, D²-Monitor достигает современных результатов с компактным числом параметров (не более 0,85 млн) и демонстрирует наилучший компромисс между результативностью и эффективностью по сравнению с 8 базовыми моделями.
Мы представляем серию MiniMax-M2 — семейство языковых моделей на основе смеси экспертов (MoE), построенное на принципе, что мини-активации могут высвободить максимум реального интеллекта. Флагманская модель M2 содержит 229,9 млрд. параметров, из которых активируется лишь 9,8 млрд. на токен. Спроектированная как сквозное решение для агентного развертывания, серия M2 основывается на трех компонентах: (i) агентно-управляемые конвейеры данных, генерирующие крупномасштабные, верифицируемые траектории в областях агентного программирования и агентной совместной работы, каждая из которых основана на исполняемом рабочем пространстве и вознаграждении, согласованном с артефактами; (ii) Forge — масштабируемая агентно-ориентированная система обучения с подкреплением (RL), адаптирующаяся к долгосрочным агентным траекториям, в сочетании с оконным планированием FIFO, слиянием префиксных деревьев, оптимизацией инференса и четким разделением обучения, инференса и агента, поддерживающим как полностью прозрачные (white-box), так и непрозрачные (black-box) агенты; (iii) последняя контрольная точка M2.7 делает первый шаг к самоэволюции — автономно отлаживает циклы обучения и модифицирует собственный каркас. На всем диапазоне от M2 до M2.7 данное сочетание превращает малую активационную площадь в производительность передового уровня на бенчмарках агентного программирования, глубокого поиска, офисных задач и рассуждений.
Мы изучаем киноремейкинг на уровне сериалов — задачу генерации видео-в-видео на длительных горизонтах, которая локализует целые эпизоды или фильмы с помощью стилизации или замены актера, строго сохраняя повествовательную структуру, хореографию движений и идентичность персонажей на протяжении сотен кадров. Существующие пайплайны генерации и редактирования видео часто дают сбой в этом режиме из-за усугубляющегося дрейфа идентичности, мутации фона и семантической эрозии при больших движениях камеры и изменениях ракурса. Мы предлагаем Soap2Soap — мультиагентную структуру, которая обеспечивает долгосрочную языково-визуальную согласованность с помощью механизма двойной мостовой согласованности (Dual-Bridge Consistency): осведомленного о сцене JSON-сценария, служащего постоянной семантической основой, и динамически выделяемых визуальных референсных якорей на уровне сцены и кадра. Для подавления дрейфа перед синтезом видео мы вводим пакетную согласованность ключевых кадров, совместно генерируя несколько ключевых кадров в общем латентном контексте с помощью сеточной формулировки. Агент замкнутой верификации дополнительно проверяет идентичность, стабильность и соответствие, чтобы инициировать выборочную регенерацию. Эксперименты на SoapBench демонстрируют значительные улучшения по сравнению с коммерческими API генерации видео в долгосрочной согласованности и верности повествованию.
Масштабирование во время тестирования (Test-Time Scaling, TTS) расширяет возможности рассуждения больших языковых моделей, выделяя дополнительные вычислительные ресурсы для вывода с целью исследования пространства решений. Однако существующие параллельные методы TTS обычно сохраняют изоляцию ветвей в процессе поиска: промежуточные открытия остаются частными для каждой ветви и не могут своевременно направлять другие ветви. Такая информационная изоляция приводит к значительному избыточному исследованию, поскольку ветви многократно заново обнаруживают информацию, уже найденную в других местах, и требуют большего количества шагов поиска для сбора полной информации, необходимой для принятия правильных решений. Для устранения этого пробела мы предлагаем Совместное параллельное мышление (Collaborative Parallel Thinking, CPT) — безучебную структуру вывода, обеспечивающую обмен информацией между параллельными ветвями во время поиска. CPT извлекает компактную промежуточную информацию из текущих ветвей, поддерживает дедуплицированный пул информации на уровне запроса и транслирует записи пула через входной контекст, позволяя каждой ветви на последующих шагах поиска повторно использовать открытия, сделанные другими ветвями, вместо того чтобы заново открывать ту же информацию. Эмпирически эксперименты на тестах HMMT и AIME показывают, что CPT устанавливает более сильную границу Парето по точности и задержке, чем сильные базовые модели, при различных бюджетах развертывания и масштабах моделей, подчеркивая сотрудничество во время поиска как эффективное направление для эффективного параллельного TTS.
Мы представляем LLaVA-OneVision-2 (LLaVA-OV-2) — самую мощную модель «видение-язык» в серии LLaVA-OneVision на сегодняшний день, которая демонстрирует превосходную производительность в широком спектре мультимодальных бенчмарков. Модель основана на родном кодировщике OneVision-Encoder и включает оконное внимание (Windowed Attention) для эффективных локальных вычислений при сохранении нативного разрешения. Ключевым нововведением является токенизация кодек-потока (codec-stream tokenization): сжатое видео рассматривается как непрерывный поток с битовой стоимостью, где динамика битовой стоимости определяет адаптивные временные группы, а сигналы остатка движения (motion-residual cues) отбирают значимые пространственные свидетельства в компактные визуальные холсты. Такое распределение концентрирует ограниченный бюджет токенов на содержащем события контенте, обеспечивая более стабильную компрессию токенов в длинных видео по сравнению с фиксированными группами кадров. Общая 3D RoPE дополнительно помещает кодек-холсты, выборочные кадры и изображения в единую пространственно-временную систему координат. Кроме того, мы построили основу данных и обучения LLaVA-OV-2 вокруг крупномасштабного открытого супервизирования: около 8 млн переподписанных видеосэмплов для предобучения и пространственный корпус из 4 млн сэмплов для тонкой настройки. Мы также представляем JumpScore — эталон временной локализации, нацеленный на тонкую привязку в высокочастотных, плотно повторяющихся движениях — режиме, недостаточно представленном в существующих видео-оценках. Выдающаяся способность LLaVA-OV-2 заключается в едином восприятии, охватывающем понимание видео, временную привязку, пространственную привязку и логический вывод по следам манипуляций. На JumpScore модель LLaVA-OneVision-2-8B достигает 74,9 mAP, превосходя Qwen3-VL-8B (30,1) на 44,8 балла; при сопоставимых бюджетах визуальных токенов на том же эталоне входные данные кодек-потока улучшают временную привязку по сравнению с семплированием кадров на 9,7 балла. В стандартных бенчмарках LLaVA-OneVision-2-8B также превосходит Qwen3-VL-8B в среднем на 4,3 балла в видео-задачах, на 5,3 — в пространственных задачах и на 15,6 в среднем J&F в задачах отслеживания.
Нормализационные слои в современных больших языковых моделях (LLM) состоят из детерминированной операции нормализации и обучаемого вектора масштаба. В то время как операция нормализации была широко изучена, вектор масштаба остается плохо понятым, несмотря на его повсеместное использование. В данной работе мы представляем систематическое исследование векторов масштаба в LLM с точки зрения выразительности, оптимизации и архитектурной структуры. Во-первых, мы эмпирически показываем, что хотя векторы масштаба составляют лишь ничтожную долю параметров модели, их удаление существенно ухудшает предварительное обучение LLM. Наша теория также показывает, что в архитектурах Pre-Norm векторы масштаба не увеличивают выразительность; вместо этого они улучшают оптимизацию за счет самоусиливающегося эффекта предобусловливания для последующих линейных отображений. Во-вторых, мы исследуем роль затухания весов для векторов масштаба. Различая слои Input-Norm и Output-Norm, мы теоретически показываем, что затухание весов полезно для первых, но вредно для вторых, из-за их различных ролей в оптимизации и выразительности. В-третьих, руководствуясь этим пониманием, мы предлагаем три легковесных и взаимодополняющих улучшения для векторов масштаба: гетерогенность, специфичную для ветвей, улучшенное размещение вокруг линейных отображений и репараметризацию величины и направления. Как теория, так и эксперименты показывают, что каждое улучшение дает стабильный прирост. Наконец, мы объединяем эти улучшения в единую стратегию векторов масштаба и оцениваем ее с помощью обширных экспериментов по предварительному обучению LLM на плотных моделях и моделях смеси экспертов с числом параметров от 0,12B до 2B, используя несколько оптимизаторов и графиков скорости обучения, в рамках бюджетов токенов промышленного масштаба. Единая стратегия последовательно достигает более низких конечных потерь, чем хорошо настроенные базовые модели, и демонстрирует более благоприятное поведение при масштабировании, добавляя при этом незначительные накладные расходы по параметрам и вычислениям.
Модели «видение-язык-действие» (VLA) широко используют предобученные модели «видение-язык» (VLM) в качестве магистральной политики, однако до сих пор остаётся неясным, какое представление предобученной VLM является полезным для инициализации VLA. В данной работе мы исследуем инициализацию VLA как задачу контролируемого проектирования представлений по трём осям: контроль на основе воплощённого VQA на уровне способностей, стратегия обновления параметров и предобучение на данных роботов. Наши эксперименты показывают, что исходное представление предобученной VLM является ключевым источником эффективности действий. Однако адаптация к воплощённому VQA не даёт равномерного прироста: её преимущество зависит от узких мест на этапе downstream, а приросты от разных областей способностей не являются просто аддитивными. Что касается стратегии обновления, LoRA обеспечивает более надёжную инициализацию, чем полная донастройка, что указывает на то, что чрезмерное изменение предобученного представления может ослабить инициализацию VLA. Предобучение на данных роботов дополнительно улучшает инициализацию VLA, причём наиболее сильный вариант достигается поэтапным обучением на основе LoRA. В совокупности эти результаты позволяют предположить, что эффективная адаптация VLM→VLA должна вносить сигналы, связанные с действиями, от воплощённого взаимодействия и роботизированных траекторий, сохраняя при этом предобученное представление VLM, которое остаётся полезным для обучения действиям.
Согласование потоков с прогнозированием чистых данных показало, что регрессия на чистую точку может более эффективно использовать низкоразмерную структуру, чем предсказание зашумленной величины в исходном пространстве. Мы задаемся вопросом, остается ли этот принцип полезным после отображения изображений в обученное латентное пространство, где сжатие уже устранило значительную часть вариативности сырых пикселей. Мы представляем JLT — латентный диффузионный Трансформер на 130M параметров поверх замороженных кодов FLUX.2 VAE — и сравниваем предсказание чистого латентного представления с согласованным DiT, предсказывающим скорость, при одинаковых представлении, архитектуре и условиях обучения. Хотя три переменные x, epsilon и v линейно преобразуемы для фиксированного времени зашумления, локальный гауссов анализ показывает, что регрессия скорости наследует изотропный нижний предел ковариации цели и усиливает латентные направления с низкой дисперсией, тогда как чистое предсказание их подавляет. На ImageNet 256×256 JLT-B/1 достигает FID-50K 2.50 с бесклассовым управлением, демонстрируя значительный разрыв в пользу согласованной цели по сравнению с предсказанием скорости. Эти результаты позволяют предположить, что цели прогнозирования в латентной диффузии являются зависящими от представления геометрическими выборами, а не взаимозаменяемыми алгебраическими параметризациями.
Агентное обучение с подкреплением (RL) доказало свою эффективность для обучения агентов на основе больших языковых моделей (LLM) навыкам использования внешних инструментов. Однако мы выявили, что обучение агентному RL приводит к увеличению избыточных вызовов инструментов и размывает внутреннюю границу знаний модели: модель перестает различать случаи, когда инструменты действительно необходимы, и ситуации, в которых достаточно параметрических знаний. Существующие решения, основанные на формировании вознаграждения (reward shaping), создают огрубленные цели оптимизации, которые, как правило, стимулируют неизбирательное подавление вызовов инструментов, что ведет к манипуляции вознаграждением (reward hacking). В данной работе мы предлагаем AKBE (Agentic Knowledge Boundary Enhancement — улучшение агентной границы знаний) — метод on-policy, который динамически определяет внутреннюю границу знаний модели с помощью двухпутевых прогонов (с инструментом и без инструмента) в процессе обучения. Мы определяем границу знаний как поинстансное решение о том, требуется ли использование инструментов, и о минимальном количестве необходимых вызовов инструментов. Сравнивая правильность по двум путям, AKBE классифицирует траектории и формирует целевые контролирующие сигналы, направляющие эффективные паттерны использования инструментов для каждого вопроса. Эти сигналы бесшовно интегрируются в цикл обучения агентному RL. Эксперименты на семи бенчмарках вопросно-ответных задач показывают, что AKBE повышает точность выполнения задач в среднем на +1,85 и сокращает количество вызовов инструментов на 18% по сравнению со стандартным агентным RL, что дает на 25% более высокую продуктивность инструментов без какого-либо компромисса между точностью и эффективностью. Дополнительный анализ подтверждает совместимость метода по принципу «включи и работай» с различными алгоритмами RL, а также механизм работы каждой категории сигналов. Наш код доступен по адресу https://github.com/CuSO4-Chen/AKBE.
Агенты на основе больших языковых моделей (LLM) полагаются на переиспользуемые навыки для решения сложных задач. Однако существующие подходы к созданию навыков рассматривают их как изолированные и статические артефакты, что ограничивает их переиспользуемость, надежность и долгосрочное улучшение. Мы предлагаем MUSE-Autoskill Agent (агент с эволюцией навыков, использующий память) — ориентированную на навыки агентную структуру, которая позволяет агентам непрерывно улучшать свою способность решать задачи путем создания, повторного использования и уточнения навыков в рамках единого жизненного цикла (создание, память, управление, оценка и уточнение). Наша структура позволяет агентам создавать навыки по требованию, сохранять и переиспользовать их в различных задачах, эффективно организовывать и выбирать их, а также оценивать их с помощью модульных тестов и обратной связи во время выполнения для непрерывного уточнения. Мы дополнительно вводим память на уровне навыков, которая накапливает опыт для каждого навыка в разных задачах, что обеспечивает более эффективное переиспользование и адаптацию с течением времени. Эксперименты на SkillsBench дают первоначальные доказательства того, что навыки, управляемые в рамках жизненного цикла, могут улучшить успешность, эффективность, переиспользование и меж-агентный перенос задач, подчеркивая важность рассмотрения навыков как долгоживущих, обогащенных опытом и тестируемых активов.
Социально-дедуктивные игры стали популярной экспериментальной площадкой для исследования рассуждений, обмана, координации и моделирования убеждений в агентах на основе больших языковых моделей (LLM). Однако большинство сред оцениваются только по игровым исходам, таким как процент побед, и в основном ограничиваются текстовым взаимодействием, что затрудняет определение того, действительно ли язык агента основан на том, что он воспринял и сделал, или выявление сценариев сбоев, лежащих в основе его поведения. Для устранения этого пробела мы представляем QUACK — среду с открытым исходным кодом и платформу оценки для аудита обоснованности языковых высказываний агентов в мультимодальном социальном рассуждении. QUACK оценивает агентов на трех уровнях: игровые исходы, поведенческие траектории и согласованность на уровне высказываний. Его основная цепочка верификации утверждений реконструирует истинную траекторию каждого агента из журналов движка и проверяет каждое утверждение в обсуждении на соответствие ей, автоматически выявляя пространственные галлюцинации, необоснованные обвинения, коллапс обмана и несоответствие между языком и действиями. Оценивая три передовые VLM как в однородных, так и в кросомодельных состязательных сценариях, мы обнаружили, что даже сильнейший агент галлюцинирует 15,1% своих проверяемых пространственных утверждений и выдвигает более половины своих обвинений без обоснованных доказательств. Полный движок, платформа оценки, инструментарий и журналы доступны по адресу https://github.com/AAAAA-Academia-Attractions/QUACK.
Визуальное рассуждение с помощью обучения с подкреплением на основе проверяемых наград (RLVR) достигло значительных успехов. Однако при работе с мульти-источными данными существующие подходы, как правило, рассматривают их как простое накопление информации, не имея явных механизмов для различения того, приносит ли добавление дополнительных источников прирост информации или вносит помехи. В результате им сложно эффективно моделировать динамическое взаимодействие при интеграции нескольких источников, особенно когда они существенно различаются по физическим свойствам и семантике, например, инфракрасный и глубинный каналы, что приводит к худшей производительности по сравнению с одно-источным рассуждением, когда доминирующий сигнал содержится в определённом источнике. Для решения этой проблемы мы предлагаем MARS — новую одно-якорную платформу для рассуждения с несколькими источниками, которая моделирует каждую визуальную модальность как независимый источник информации. В частности, рассматривая одно-источные награды как динамические якоря, наш метод явно включает прирост информации, полученный от слияния нескольких источников, в нормализацию преимущества и адаптивно подчёркивает взаимное усиление источников, одновременно подавляя потенциальный шум или конфликты в процессе RLVR. Теоретический анализ показывает, что наш метод эффективно количественно оценивает прирост информации, вносимый интеграцией нескольких источников в оценку градиента, что обеспечивает согласованную регуляцию модальностей. Эмпирические результаты также демонстрируют впечатляющий прирост производительности на 3,2% и 4,9% для методов GRPO и DAPO на различных наборах данных, подтверждая эффективность нашего подхода.
Большие языковые модели (LLM) эволюционировали в интерактивных агентов, которые сотрудничают с пользователями в реальных задачах. Эффективное сотрудничество в таких условиях всё больше зависит от понимания пользователя за пределами явно выраженного, поскольку намерения пользователя часто отражаются в разрозненных повседневных взаимодействиях и требуют как персонализированного моделирования, так и проактивного взаимодействия. Однако существующие бенчмарки агентов в первую очередь оценивают рассуждение и использование инструментов, в значительной степени игнорируя задачи вывода и использования предпочтений пользователей в реалистичных сценариях. Чтобы восполнить этот пробел, мы представляем VitaBench 2.0 — бенчмарк для оценки персонализированного и проактивного поведения агентов в долгосрочных взаимодействиях с пользователями. В VitaBench 2.0 задачи организованы как упорядоченные во времени последовательности для отдельных пользователей, где предпочтения встроены в разрозненные и гетерогенные взаимодействия. Успешное выполнение задач требует от агента непрерывного извлечения, использования и обновления предпочтений пользователей из этих взаимодействий. Мы также оцениваем проактивность с помощью задач, требующих от агентов распознавать недостающую информацию и активно получать её от пользователей или из окружающей среды перед принятием решений. Для поддержки систематического анализа мы предоставляем расширяемый интерфейс памяти, который позволяет проводить контролируемое сравнение различных архитектур памяти. Мы проводим бенчмаркинг разнообразного набора передовых проприетарных и открытых LLM. Результаты показывают, что персонализация в реальных условиях остаётся крайне сложной задачей даже для самых современных моделей, выявляя значительный разрыв между текущими возможностями и практическими требованиями. Дальнейший обширный анализ выявляет режимы сбоев и узкие места в возможностях современных агентов в процессе принятия персонализированных решений в реальных условиях, что даёт представление для будущих улучшений моделей.
Активационные оракулы направлены на то, чтобы сделать активации других моделей понятными для человека, и демонстрируют многообещающие результаты по сравнению с методами интерпретируемости «белого ящика». Однако оценка неопределенности (UQ) для выходных данных на естественном языке таких активационных оракулов до сих пор мало изучена. В данной работе мы исследуем 6 различных методов оценки уверенности активационных оракулов и оцениваем, насколько хорошо откалиброваны их показатели уверенности. Наши эксперименты на 6 000 образцов для каждого оракула (с варьированием вербализатора и контекстных подсказок) показывают, что частота бутстрап-моды является наилучшим откалиброванным методом среди протестированных (ECE 5,7% против 25,5% для лог-вероятности слова-ответа на Qwen3-8B; 10,3% против 13,1% на Qwen3.6-27B), и что базовый уровень лог-вероятности может служить быстрым сигналом сортировки при доле затрат. Код и модифицированный тренер доступны по адресу https://github.com/federicotorrielli/probabilistic_activation_oracles.
Большие языковые модели (LLM) все чаще развертываются в качестве автономных агентов, которые рассуждают, используют инструменты и действуют на протяжении нескольких шагов. Однако большинство эталонов для оценки галлюцинаций по-прежнему анализируют только конечный вывод, упуская сбои, берущие начало на промежуточных шагах «Мысль-Действие-Наблюдение». Мы представляем Trajel — набор данных и оценочную структуру для аудита галлюцинаций на уровне траекторий в многоагентных промышленных рабочих процессах. Trajel вводит таксономию галлюцинаций из пяти типов (фактологическая, референциальная, логическая, процедурная и основанная на области действия), построенную на размеченных экспертами трассах агентов из AssetOpsBench. Мы проводим эталонное тестирование моделей контролируемого обнаружения на уровнях подзадач, траекторий и длинного контекста. Наши результаты показывают, что наиболее распространенные режимы отказов упускаются существующими эталонами, что почти половина галлюцинирующих траекторий включает сразу несколько типов, и что автоматические детекторы с высокой бинарной точностью по-прежнему неправильно классифицируют самые тонкие типы. Обнаружение с учетом траектории значительно превосходит стандартную пост-хок верификацию, что делает необходимой оценку на основе таксономии для более безопасного агентного развертывания.
Мультиагентные системы на основе больших языковых моделей (LLM) улучшают рассуждения за счет объединения выходных данных нескольких агентов, однако методы с интенсивным взаимодействием могут приводить к распространению ошибок и высоким накладным расходам на коммуникацию. Когда агенты обмениваются необработанными ответами или трассами рассуждений, неверные промежуточные умозаключения могут быть приняты и усилены, что приводит к уверенному, но ошибочному консенсусу; многораундовая коммуникация также увеличивает потребление токенов, задержку и стоимость инференса. В данной статье мы предлагаем фреймворк координации с контролируемой коммуникацией под названием DarkForest. DarkForest сначала сохраняет независимость агентов, так что каждый агент формирует ответ, не видя результатов других. Затем он разбирает необработанные ответы в структурированные записи кандидатов, группирует семантически эквивалентные кандидаты в кластеры и оценивает калиброванное распределение убеждений по этим кластерам, используя надежность агентов, уверенность, качество разбора, надежность паттернов поддержки и коррекции независимости. Координатор получает только разрешенные политикой свидетельства из этого состояния убеждений с контролируемой коммуникацией. Эксперименты на шести бенчмарках рассуждений показывают, что DarkForest достигает ведущего общего качества, улучшает сильнейший базовый метод до 30,7% по метрикам бенчмарка и сокращает потребление токенов до 6,5 раз по сравнению с базовыми методами с интенсивной коммуникацией.
Смесь экспертов (MoE) стала фактической архитектурой для языковых моделей с сотнями миллиардов параметров, однако её преимущества для масштабов менее миллиарда параметров при развёртывании на устройствах остаются в значительной степени неизученными. Для устранения этого пробела мы представляем MobileMoE — семейство MoE-языковых моделей для мобильных устройств с активными параметрами менее миллиарда (0,3–0,9 млрд активных и 1,3–5,3 млрд общих), устанавливающее новую границу Парето для LLM на устройствах. Сначала мы формулируем закон масштабирования MoE для мобильных устройств, который совместно оптимизирует архитектуру MoE с учётом ограничений памяти и вычислений на мобильных устройствах, выявляя оптимальную точку — умеренную разреженность с мелкозернистыми и общими экспертами, одновременно оптимальную по памяти и вычислениям. На основе полученных архитектур мы обучаем MobileMoE с четырёхэтапным рецептом, охватывающим предварительное обучение, промежуточное обучение, дообучение по инструкциям и обучение с учётом квантования, причём все этапы выполняются на наборах данных с открытым исходным кодом. На 14 тестовых наборах MobileMoE сравнивается или превосходит ведущие плотные LLM для мобильных устройств при 2–4-кратном сокращении FLOPs при инференсе, а также сравнивается или превосходит современную MoE-модель OLMoE-1B-7B при сокращении числа параметров до 60 %. Для завершающего этапа внедрения на мобильные устройства мы предоставляем первый эффективный инференс MoE на серийных смартфонах с всесторонним профилированием на устройстве. При сопоставимом объёме весов в формате INT4 MobileMoE-S демонстрирует ускорение префилла в 1,8–3,8 раза и декодирования в 2,2–3,4 раза по сравнению с плотным базовым решением MobileLLM-Pro.
Генерация изображений, управляемая заданным субъектом, направлена на синтез новых изображений, сохраняющих идентичность указанного субъекта при выполнении текстовых инструкций. Существующие подходы часто кодируют текст и эталонные изображения раздельно, что ограничивает способности к кросс-модальному рассуждению и приводит к артефактам копирования-вставки. Недавние фреймворки, связывающие мультимодальные модели и диффузионные модели, улучшают следование инструкциям, но в значительной степени игнорируют сохранение идентичности. Для преодоления этих ограничений мы обуславливаем диффузионные модели мультимодальными большими языковыми моделями (MLLM), которые совместно кодируют текст и эталонные изображения, и дополняем их VAE-основанным обусловливанием идентичности. Разработан новый модуль двухуровневой агрегации (DLA) для агрегации многоуровневых признаков MLLM с целью оптимального обусловливания, а также применяется многоэтапная стратегия шумоподавления для постепенного балансирования семантической информации от MLLM и тонкодетальной идентичности от VAE в процессе инференса. Обширные эксперименты демонстрируют, что наш подход гармонизирует мультимодальное понимание с сохранением идентичности, смягчает проблемы копирования-вставки и достигает превосходных результатов с точки зрения человеческих предпочтений в генерации изображений, управляемой заданным субъектом. Наш веб-сайт проекта доступен по адресу https://zsh2000.github.io/squeeze-mllm-subject-gen/.
Мы представляем Gemini Embedding 2 — нативную мультимодальную модель встраивания, которая позволяет объединять видео-, аудио-, изображенческие и текстовые модальности в едином пространстве представлений. Используя мультимодальные возможности Gemini, мы получаем встраивания для произвольных комбинаций перемежающихся входных данных по всем этим модальностям, которые хорошо обобщаются на широкий круг задач. Применяя контрастивное обучение в большом масштабе в рамках многоступенчатой тренировочной схемы с несколькими задачами, мы достигаем передовых результатов на ключевых эталонах встраивания, включая одномодальный, межмодальный и мультимодальный поиск, охватывающие разнообразные задачи. Мы показываем, что наша модель встраивания демонстрирует высокую производительность (с результатом 62,9 R@1 на MSCOCO, 68,8 NDCG@10 на Vatex, 69,9 на MTEB multilingual и 84,0 на MTEB Code) по широкому спектру задач, превосходя производительность специализированных моделей. Эти унифицированные возможности делают Gemini Embedding 2 перспективным кандидатом для downstream-применений, таких как RAG, рекомендации и поиск. Кроме того, его устойчивая производительность в режиме нулевого обучения в различных областях — от астрономии и биологических наук до изобразительного и кулинарного искусства — делает его высоконадежным представлением, готовым к использованию даже в специализированных доменах.
Последние достижения в области больших языковых моделей (БЯМ) способствовали широкому внедрению БЯМ в качестве интерактивных агентов, способных к рассуждению, планированию и использованию инструментов. Несмотря на высокую производительность на существующих эталонах, такие агенты часто демонстрируют заметное ухудшение при развертывании в реальных условиях, где среда по своей природе стохастична и несовершенна. Мы утверждаем, что это расхождение обусловлено фундаментальным несоответствием между идеализированными условиями обучения и динамикой реального взаимодействия, поскольку текущие парадигмы опираются на тщательно подобранные инструкции задач и стабильные, хорошо контролируемые среды. Для устранения этого разрыва мы предлагаем NoisyAgent — фреймворк для обучения агентов, который явным образом включает несовершенства среды в процесс обучения агента. Мы выделяем два основных источника интерактивного шума в реальных сценариях: пользовательский шум, отражающий неоднозначность и изменчивость взаимодействия с пользователем, и инструментальный шум, отражающий сбои и аномалии в выполнении инструментов. Мы вводим такие возмущения в обучающий конвейер путем изменения паттернов взаимодействия с пользователем и имитации результатов выполнения инструментов в учебной среде. Для стабилизации обучения при одновременном стимулировании агентов справляться с все более сложными несовершенствами шум применяется только к подмножеству траекторий и постепенно усложняется по мере адаптации модели к текущему уровню шума. Обширные эксперименты демонстрируют, что наш подход последовательно повышает устойчивость агентов в зашумленных и динамичных средах. Наш анализ показывает, что обучение в условиях шума также приводит к повышению производительности на идеализированных эталонах, что позволяет предположить, что контролируемое воздействие шума среды способствует более обобщаемым моделям рассуждения и принятия решений. Наши выводы подчеркивают важность моделирования несовершенств взаимодействия для преодоления разрыва между обучением агентов и их реальным развертыванием.
Агенты на основе LLM для генерации GPU-ядер быстро развиваются, однако их прогресс принципиально ограничивается бенчмарками, под которые они оптимизируются. Существующие бенчмарки плохо согласованы с производственными фреймворками инференса: они оценивают ядра на одном GPU с синтетическими входными данными, игнорируют окружающий стек компиляции и поощряют воспроизведение известных оптимизаций, а не поиск новых. Получаемые сигналы вознаграждения вводят в заблуждение: агенты учатся генерировать ядра, которые хорошо показывают себя в песочницах, но при интеграции в реальные системы вызывают несовместимость интерфейсов, конфликты в стеке компиляции и скрытое ухудшение корректности. Мы представляем FastKernels — бенчмарк для ядер, построенный на минимальном наборе из 46 репрезентативных архитектур, охватывающих 8 категорий, чьи ядра в совокупности покрывают ядра 96,2% (409/425) архитектур HuggingFace Transformers. FastKernels также выступает в качестве минималистичного производственного фреймворка инференса, который работает наравне с закаленными системами, такими как vLLM и SGLang, при обслуживании основных LLM и существенно превосходит эталонные реализации для недостаточно обслуживаемых архитектур; интерфейс каждой задачи повторяет соответствующий модуль из современной библиотеки для своего семейства архитектур, что позволяет напрямую развертывать оптимизированные ядра в производственных кодовых базах. Оценивая современные агенты для ядер на FastKernels, мы обнаружили, что даже самый сильный агент достигает лишь 0,94-кратного общего ускорения относительно производственных базовых показателей, а более слабые агенты — 0,78-кратного и 0,53-кратного, что подтверждает, что несоответствие между бенчмарками и производством является критическим узким местом в данной области. Мы публикуем FastKernels как ступеньку на пути к агентам для ядер, чьи бенчмарковые достижения напрямую преобразуются в улучшение производственной пропускной способности. Код доступен по адресу https://github.com/Snowflake-AI-Research/fastkernels
Крупные языковые модели неизбежно сохраняют конфиденциальную информацию, определяемую как входные данные, которые могут вызывать вредоносные генерации, из-за обучения на огромных веб-корпусах, что вызывает обеспокоенность по поводу конфиденциальности и безопасности. Существующие методы машинного забывания в основном полагаются на переобучение или агрессивную тонкую настройку, которые либо требуют значительных вычислительных затрат, либо склонны ухудшать связанные знания и общую полезность модели. В этой работе мы переформулируем машинное забывание как задачу точного переназначения знаний с помощью редактирования модели. Мы предлагаем ZeroUnlearn — фреймворк для забывания на основе нескольких примеров. Он перезаписывает конфиденциальные входные данные, отображая их в нейтральное целевое состояние и удаляя их исходные представления. ZeroUnlearn обеспечивает ортогональность представлений с помощью мультипликативного обновления параметров с решением в замкнутой форме, что позволяет осуществлять эффективное и целенаправленное забывание. Мы также расширяем ZeroUnlearn до варианта на основе градиента для забывания множественных образцов. Эксперименты показывают, что наш подход превосходит существующие базовые методы, сохраняя при этом общую полезность модели. Наш код доступен на GitHub: https://github.com/XMUDeepLIT/ZeroUnlearn.
Долгосрочное агентное рассуждение требует от больших языковых моделей работы с длинными историями взаимодействий, содержащими мысли, вызовы инструментов, наблюдения и частичные выводы. Проблема не только в том, что эти истории становятся длинными, но и в том, что информация, необходимая для текущего решения, может быть разбросана по удалённым шагам и становиться актуальной лишь впоследствии. Существующие подходы пытаются решить эту трудность путём усечения истории взаимодействия, сжатия её в более короткие суррогаты или извлечения отдельных частей для повторного использования, однако они не моделируют явным образом то, как доступ к прошлым взаимодействиям должен адаптироваться к изменяющемуся состоянию агента. Вместо этого мы рассматриваем долгосрочное рассуждение как проблему адаптивной к состоянию памяти. С этой целью мы предлагаем State-Adaptive Memory (SAM) — автономную структуру, которая консолидирует текущее взаимодействие в компактные сигналы памяти, сохраняя при этом страницы необработанных траекторий для извлечения на основе намерений. Эти сигналы не рассматриваются как замена истории; скорее, они служат лёгковесными дескрипторами, позволяющими агенту реконструировать информацию, отдалённую во времени, в соответствии с текущими потребностями, без необходимости переобучения базовой основы. Мы дополнительно оптимизируем модуль памяти с помощью экспертного руководства и обучения с подкреплением, согласовывая его с полезностью на уровне траектории. На наборах данных BrowseComp, BrowseComp-ZH, WideSearch и HLE SAM последовательно превосходит сильные базовые модели при различных агентных основах. Наши результаты показывают, что явное моделирование памяти представляет собой простую и эффективную основу для долгосрочного агентного рассуждения.
Многослойная генерация и редактирование изображений — это фундаментальная возможность, обеспечивающая послойное повторное использование, редактирование и композицию сгенерированного визуального контента, по аналогии с редактированием на уровне слов в естественном языке. Несмотря на свою важность, эта область остается малоизученной в крупномасштабном контексте. Для решения этой проблемы мы представляем MRT — диффузионную модель с маскировкой областей на 20 миллиардов параметров, предназначенную для многослойной генерации и редактирования прозрачных изображений. Модель обучена на более чем 10 миллионах многоязычных дизайнерских образцов, охватывающих различные соотношения сторон и текстовые подсказки. Чтобы полностью использовать этот масштаб, мы делаем два ключевых технических вклада. Во-первых, мы объединяем три взаимодополняющие задачи: «текст в слои», «изображение в слои» и «слои в слои» — в рамках единой диффузионной схемы с маскировкой областей, где выборочное маскирование токенов обеспечивает гибкую послойную генерацию и редактирование. Во-вторых, для генерации слоев, выходящих за границы, мы вводим осведомленный о переполнении слой-холст, который обрабатывает граничные несоответствия и поддерживает синтез полупрозрачного фона, обеспечивая создание полностью редактируемых слоев, выходящих за видимые границы холста. Кроме того, мы применяем диффузионную дистилляцию для достижения 8-шаговой многослойной генерации в реальном времени с минимальной потерей качества. Обширные эксперименты показывают, что наша структура значительно превосходит предыдущие современные подходы, включая различные коммерческие системы, по всем трем задачам, устанавливая новый эталон для многослойной генерации прозрачных изображений. Примечательно, что наша модель значительно превосходит параллельно разработанную модель Qwen-Image-Layered по качеству преобразования изображения в слои, согласно результатам пользовательских исследований, обеспечивая при этом в 10–100 раз более быстрый вывод и снижая потребление активационной памяти GPU на 50–90% во время вывода задачи «изображение в слои».
Диффузионные трансформеры (Diffusion Transformers, DiT) демонстрируют высокую производительность в задачах генерации изображений, однако сопряжены со значительными вычислительными затратами при инференсе. Предшествующие работы снижали эти затраты с помощью квантования и дистилляции, но полуструктурированная разреженность, способная почти вдвое сократить количество FLOPs, остаётся малоизученной. Ключевая причина этого заключается в том, что большинство существующих подходов сосредоточены на разреживании весов, а прореживание 50% весов может привести к потере критической ёмкости модели и ухудшению качества генерации. Однако наше исследование показывает, что активации DiT по своей природе разрежены и значительно более устойчивы к N:M полуструктурированному разреживанию, чем веса. Основываясь на этом наблюдении, мы предлагаем сдвиг парадигмы от разреживания весов к разреживанию активаций. Мы представляем RT-Lynx, который применяет N:M разреживание к активациям и включает методы компенсации ошибок для уменьшения потери точности. Кроме того, мы реализуем высокооптимизированные ядра CUDA, адаптированные для данного сценария, что позволяет достичь в среднем ускорения до 1,55x в линейных слоях. Обширные эксперименты на нескольких диффузионных моделях демонстрируют, что наш метод сохраняет качество генерации исходных моделей, одновременно существенно ускоряя инференс.
Агентные системы становятся все более способными: агенты определяют стратегии, выполняют действия и взаимодействуют с различными средами. Такая автономность создает серьезные проблемы для контроля и оценки поведения агентов. Большинство существующих инструментов ограничены: они либо сосредоточены на наблюдаемости с базовыми возможностями оценки, либо навязывают статические, вручную составленные таксономии ошибок, не адаптируемые к новым областям. Для устранения этого пробела мы представляем Agentic CLEAR — автоматическую, динамическую и простую в использовании систему оценки. Она генерирует текстовые инсайты о поведении агента на трех уровнях детализации: система, трасса и узел. Agentic CLEAR работает поверх уровня наблюдаемости, обеспечивая бесшовную интеграцию, и обладает интуитивно понятным пользовательским интерфейсом, делающим оценку агентов высокодоступной. В наших экспериментах на четырех бенчмарках, семи агентных конфигурациях и десятках тысяч вызовов LLM мы показываем, что Agentic CLEAR предоставляет качественную, основанную на данных и содержательную обратную связь. Наш анализ демонстрирует сильное соответствие с размеченными человеком ошибками и способность прогнозировать показатель успешности выполнения задач.
Большие языковые модели (LLM) обычно обучаются на перемешанных корпусах, что приводит к фиксации знаний на момент обучения, а их временная привязка остаётся плохо изученной. В данной работе мы исследуем влияние динамики предобучения на приобретение чувствительных ко времени фактических знаний, уделяя особое внимание порядку данных. Наш вклад состоит из двух частей. Во-первых, мы представляем всесторонний бенчмарк, включающий более 7 000 вопросов с временной привязкой, и протокол оценки, позволяющий анализировать, правильно ли модели соотносят факты с соответствующими временными периодами. Во-вторых, мы проводим предобучение моделей с 6 миллиардами параметров на упорядоченных по времени срезах Common Crawl и сравниваем их со стандартным перемешанным предобучением. Наши результаты показывают, что последовательно обученные модели соответствуют перемешанным базовым моделям по общему пониманию языка и общим знаниям, при этом демонстрируя более актуальные и точные с точки зрения времени знания. Упорядоченное по времени предобучение обеспечивает улучшенную фактическую актуальность, в то время как перемешанное предобучение достигает пика на более старых данных, возможно, из-за повышенного повторения фактов. Эти результаты, а также публикация нашего кода по адресу https://github.com/kyutai-labs/kairos , контрольных точек и наборов данных по адресу https://huggingface.co/collections/kyutai/kairos , создают основу для будущих исследований в области непрерывного обучения для LLM.
Могут ли большие языковые модели обнаруживать и сообщать о своих собственных внутренних состояниях? Ряд исследований утверждает, что ответ на этот вопрос положителен. Мы утверждаем, основываясь на уроках из исследований метапознания у людей, что этот вывод может быть преждевременным: чтобы убедиться в нем, необходимо отличать подлинную интроспекцию от распознавания образов на основе поверхностных признаков. Более того, мы утверждаем, что только поведенческие данные по своей сути недостаточны для установления сильных интроспективных утверждений. Мы заново рассматриваем две недавно предложенные парадигмы оценки с учетом этого соображения. В первой парадигме ожидается, что модели обнаруживают, были ли изменены их внутренние состояния. Мы обнаруживаем, что модели не могут надежно отличить такие вмешательства в их внутренние состояния от манипуляций с входными данными, что позволяет предположить, что их успех в исходных исследованиях отражает их способность обнаруживать аномалии в целом, а не вмешательства в их внутренние состояния в частности. Во второй парадигме, которую мы рассматриваем, модели ставят задачу предсказания меток, полученных из их собственных скрытых состояний. Здесь мы обнаруживаем, что классификаторы, имеющие доступ только к входным данным, достигают производительности, эквивалентной собственным контекстным предсказаниям модели, что указывает на то, что исходные результаты не демонстрируют окончательно, что модель имеет привилегированный доступ к своим внутренним представлениям. Мы дополнительно вводим контрольную установку с перемаркировкой, где модели не могут полагаться на семантику задачи для ее решения, а вместо этого должны полагаться на внутреннее представление; в этой более контролируемой версии задачи модели работают ближе к уровню случайности. В совокупности эти результаты указывают на то, что текущих доказательств недостаточно для установления того, что большие языковые модели демонстрируют метакогнитивный мониторинг.
Мы представляем NSF-SciFy — комплексный набор данных научных утверждений и предложений по исследованиям, извлечённых из аннотаций грантов Национального научного фонда (NSF). Тогда как предыдущие наборы данных для верификации научных утверждений были ограничены по размеру и охвату, NSF-SciFy представляет собой значительный шаг вперёд, включая 2,8 миллиона утверждений из 400 000 аннотаций, охватывающих все научные и математические дисциплины. Мы предлагаем два специализированных подмножества: NSF-SciFy-MatSci, содержащий 114 000 утверждений из грантов по материаловедению, и NSF-SciFy-20K, включающий 135 000 утверждений из пяти директоратов NSF. Используя нулевое обучение, мы разработали масштабируемый подход для совместного извлечения научных утверждений и предложений по исследованиям. Мы демонстрируем полезность набора данных на трёх последующих задачах: генерация нетехнических аннотаций, извлечение утверждений и извлечение предложений по исследованиям. Дообучение языковых моделей на нашем наборе данных приводит к существенным улучшениям, причём относительный прирост часто превышает 100%, особенно для задач извлечения утверждений и предложений. Анализ ошибок показывает, что извлечённые утверждения обладают высокой точностью, но низкой полнотой, что указывает на возможности дальнейшего методологического совершенствования. NSF-SciFy открывает новые направления исследований в области крупномасштабной верификации утверждений, отслеживания научных открытий и метанаучного анализа. Код и данные доступны по адресу https://github.com/darpa-scify/NSFSciFy.
Предыдущие работы показывают, что контролируемая контрастность между самостоятельно сгенерированными ответами больших языковых моделей, задаваемая с помощью оценок вознаграждения, улучшает последующую настройку предпочтений на английском языке. Мы расширяем этот метод на несколько языков и оцениваем две модели в общей сложности на 14 высоко- и низкоресурсных языках на разнообразном наборе задач. Наш основной вывод заключается в том, что кросс-языковая контрастная настройка предпочтений на самогенерируемых ответах (CroCo) переносится без аннотации предпочтений для конкретного языка. Модель вознаграждения, обученная на английских предпочтениях (на основе мультиязычной базы), выдает полезные внутриязыковые рейтинги для большинства языков, а объединение в одно- или многоязычном режиме улучшает каждую модель в большинстве сценариев, предотвращая катастрофическое забывание контролируемой тонкой настройки. Мы наблюдаем, что для выигрыша требуются данные, соответствующие политике (on-policy). Ответы, не соответствующие политике (off-policy), снижают выгоду, а онлайн-оптимизация предпочтений не превосходит офлайн-вариант. В частности, на структурированных задачах наш метод соответствует или превосходит базовый для 6/7 языков по EuroLLM-9B и 4/7 сценариев по Aya-3B. В открытой генерации обе настроенные модели выигрывают у своих базовых моделей на 11 оцененных языках. В целом, мы демонстрируем перспективные направления для мультиязычной настройки предпочтений.
Современные роботизированные политики всё чаще полагаются на чанкинг действий для выполнения сложных задач в физическом мире. Хотя чанкинг действий улучшает временную согласованность при умеренных частотах действий, он становится недостаточным при дальнейшем увеличении частоты действий (например, до 60 Гц). На таких высоких частотах политики часто не могут генерировать действия, которые были бы одновременно временно плавными и пространственно согласованными. Мы решаем эту задачу, перенося обучение высокочастотным действиям из пространства действий в скрытое пространство с помощью вариационного автоэнкодера (VAE). Такая формулировка значительно улучшает как временную, так и пространственную согласованность высокочастотного управления. Для обеспечения плавного выполнения в реальном времени мы дополнительно вводим Reuse-then-Refine — стратегию уточнения на уровне чанков, которая улучшает непрерывность между соседними чанками действий при асинхронном выводе. В результате роботы, управляемые нашей политикой, могут выполнять сложные задачи, связанные с контактом, непрерывно, с меньшим количеством пауз и дерганых движений. Эксперименты на трёх реальных контактно-насыщенных роботизированных задачах показывают, что наш подход последовательно выполняет задачи с плавными движениями. Наш код и данные доступны по адресу https://github.com/tars-robotics/RTR.
Мы представляем EverAnimate — эффективный метод пост-обучения для генерации анимационных видео с длинным горизонтом, сохраняющий визуальное качество и идентичность персонажа. Длинная анимация остаётся сложной задачей, поскольку высокодинамичные движения человека должны синтезироваться на фоне относительно статичного окружения, что делает чанковую генерацию подверженной накопительному дрейфу: (i) дрейф низкоуровневого качества, например, прогрессирующая деградация статических фонов, и (ii) высокоуровневый семантический дрейф, такой как несогласованная идентичность персонажа и зависимые от ракурса атрибуты. Для решения этой проблемы EverAnimate восстанавливает дрейфующие траектории потока, привязывая генерацию к постоянной контекстной памяти в латентном пространстве, состоящей из двух взаимодополняющих механизмов. (i) Постоянное латентное распространение поддерживает контекстную память между чанками для распространения идентичности и движения в латентном пространстве, одновременно смягчая временное забывание. (ii) Восстановительное согласование потоков вводит неявную цель восстановления во время сэмплирования через регулировку скорости, улучшая точность внутри чанка. Только с помощью лёгкой настройки LoRA EverAnimate превосходит современные методы длинной анимации как в коротких, так и в длинных горизонтах: при 10 секундах он улучшает PSNR/SSIM на 8%/7% и снижает LPIPS/FID на 22%/11%; при 90 секундах прирост увеличивается до 15%/15% и 32%/27% соответственно.
Крупные языковые модели для вертикальных доменов ограничены нехваткой сложных, предметно-ориентированных диалогов по выполнению задач. Существующие конвейеры получения данных сталкиваются с устойчивой трилеммой: экспертная разметка дорогостояща, реальные сервисные разговоры ограничены требованиями конфиденциальности и коммерческими ограничениями, а статические корпуса быстро устаревают. Мы предлагаем Stream — ориентированную на данные структуру, которая использует общедоступные потоковые медиа (прямые эфиры и короткие видео) для синтеза высокоценных сервисных диалогов в масштабе. Stream извлекает аутентичные сигналы взаимодействия из зашумленных потоков и синтезирует разговоры путем интеграции ролевого конструирования персоны с построением разговорного плана (Conversational Blueprint); дополнительно применяется генерация с дополнением по поиску (RAG) для поддержки ответов, учитывающих знания. На основе Stream мы выпускаем StreamDial — крупномасштабный многодоменный набор данных, охватывающий автомобильную сферу, рестораны и гостиницы. StreamDial содержит 87 498 диалоговых сессий и в общей сложности 1 497 320 реплик, в среднем 17,11 реплик на сессию, со сравнимым объемом по доменам. Каждая сессия организована в виде структурированного квадруплета ⟨P_u, P_a, B, H⟩, который объединяет историю диалога с явными персонами пользователя/агента и разговорным планом, фиксируя реалистичное сервисное поведение, такое как сбор требований, конфликты ограничений, переговоры и восстановление. Оценки с помощью автоматических критериев и по нисходящим задачам показывают, что StreamDial улучшает внутреннее качество диалога по сравнению с сильными базовыми линиями, а модели, обученные на StreamDial, улучшают отслеживание состояния диалога (Dialogue State Tracking) для различных базовых архитектур; мы также сообщаем о завершенном наборе результатов человеческой оценки и обнадеживающем многоязычном переносе на Qwen3-8B при контролируемом бюджете обучения. Данные опубликованы по адресу https://github.com/hitxueliang/DialogDataSetBySTREAM.