Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современные агенты открытого мира, такие как OpenClaw, демонстрируют мощные возможности выполнения в кросс-средовых условиях, однако вносят широкий спектр новых источников угроз безопасности. В то же время передовые модели ИИ на границе возможностей кардинально снижают барьеры для проведения атак, что делает существующие подходы к выравниванию агентов непригодными для реального развертывания. Для противодействия этим новым угрозам мы предлагаем легковесную и масштабируемую структуру выравнивания безопасности агентов. В частности, мы обновляем таксономию безопасности агентов с учетом новых рисков, возникающих в сценариях выполнения Codex и OpenClaw. Кроме того, мы создаем управляемый таксономией конвейер данных с очисткой на основе функции влияния для обучения легковесных вариантов AgentDoG 1.5 (с 0,8 млрд, 2 млрд, 4 млрд и 8 млрд параметров) с использованием всего около 1 тыс. примеров, достигая производительности, сопоставимой с ведущими закрытыми моделями (например, GPT-5.4). На основе AgentDoG 1.5 мы разрабатываем высокоэффективную среду агентного обучения SFT и RL, которая снижает накладные расходы на развертывание в средах уровня Docker на два порядка. Наконец, мы разворачиваем AgentDoG 1.5 как обучаемый онлайн-ограничитель безопасности для модерации в реальном времени. Обширные экспериментальные результаты показывают, что AgentDoG 1.5 достигает передовых показателей в разнообразных и сложных интерактивных агентных сценариях. Все модели и наборы данных опубликованы в открытом доступе.
Воплощенный интеллект часто изучается с помощью специализированных моделей для отдельных задач, таких как манипуляции или навигация, что приводит к фрагментированным возможностям и ограниченному обобщению на различные задачи, среды и воплощения роботов. В данной работе мы исследуем, можно ли объединить гетерогенные проблемы принятия решений в рамках воплощенного интеллекта в единой модели «зрение-язык-действие». Мы представляем Qwen-VLA — унифицированную фундаментальную модель воплощенного интеллекта, которая расширяет стек моделирования «зрение-язык» Qwen от восприятия, понимания и рассуждения до генерации непрерывных действий и траекторий с помощью декодера действий на основе DiT. Qwen-VLA обучается с использованием крупномасштабного рецепта совместного предварительного обучения на разнообразных источниках данных, включая траектории манипуляций роботов, эгоцентрические демонстрации человека, синтетические данные моделирования, данные навигации на основе зрения и языка, обучение с акцентом на траектории, а также вспомогательные данные «зрение-язык». Для поддержки нескольких роботизированных платформ мы вводим метод условной подсказки с учетом воплощения, в котором текстовые описания, специфичные для робота, задают текущее воплощение и соглашение об управлении. Мы также сводим задачи манипуляции, навигации и прогнозирования траекторий в единую структуру прогнозирования действий и траекторий, обеспечивающую переносимую визуальную привязку, пространственное рассуждение и генерацию непрерывных действий в различных морфологиях роботов, семействах задач и средах. Эксперименты на эталонных тестах манипуляции, навигации и траекторий демонстрируют стабильную многофункциональную производительность и обобщение на данные вне распределения при изменениях в расположении сцены, фоне, освещении, конфигурации объектов и воплощении робота. Qwen-VLA-Instruct достигает 97,9% на LIBERO, 73,7% на Simpler-WidowX, 86,1%/87,2% на RoboTwin-Easy/Hard, 69,0% OSR на R2R, 59,6% SR на RxR, 76,9% средней успешности OOD в реальных экспериментах ALOHA и 26,6% успешности при нулевом обучении на динамической манипуляции DOMINO.
Реальные информационные потребности требуют доступа к структурно разнородным источникам знаний — от неструктурированного текста и реляционных таблиц до графов знаний и графов свойств. Однако существующие ретриверы работают только с одним источником за раз, используя фиксированный язык запросов, оставляя более широкий ландшафт доступных знаний фрагментированным из-за несовместимых интерфейсов. Естественная попытка унификации свела бы эти источники в единое пространство, но это стирает структурные возможности (такие как схемы, онтологии, композиционные операторы), которые придают каждому источнику выразительную силу. Таким образом, эффективный поиск по разнородным знаниям требует не гомогенизации, а всеобъемлющего уровня, который взаимодействует с каждым источником на его собственных условиях. Для достижения этого мы представляем OmniRetrieval — фреймворк, который принимает любой запрос на естественном языке, определяет подходящие источники знаний и направляет запросы на родном для источника языке к соответствующим исполнительным движкам. В обширном бенчмарке, охватывающем 13 наборов данных и 309 различных баз знаний, относящихся к текстовым, реляционным и графовым источникам, OmniRetrieval превосходит однобашенные базовые модели, демонстрируя, что может служить универсальным интерфейсом для гетерогенных источников, сохраняя при этом структурные различия, которые делают каждый источник ценным.
Настраиваемое редактирование изображений направлено на наделение предобученных диффузионных моделей определёнными визуальными эффектами с использованием ограниченного набора парных данных, обычно с помощью адаптации низкого ранга (Low-Rank Adaptation, LoRA). С ростом числа желаемых эффектов хранение и динамическая загрузка многочисленных таких эффект-модулей LoRA значительно увеличивает эксплуатационные накладные расходы. Кроме того, современные конвейеры обычно каскадно объединяют эти эффект-модули LoRA с модулями ускорения для быстрой генерации, что приводит к серьёзной интерференции параметров и вызывает смешивание концепций и деградацию стиля. Мы предлагаем CollectionLoRA — многоучительскую дистилляционную среду на основе текущей стратегии, способную дистиллировать концепции до 50 различных эффект-модулей LoRA вместе с возможностями генерации за несколько шагов в один модуль LoRA. Это принципиально решает проблему интерференции признаков и значительно снижает затраты на развёртывание. В частности, метод включает: (i) механизм Вероятностной двухпотоковой маршрутизации, позволяющий модели случайным образом переключаться между источниками данных во время обучения, что эффективно повышает её способность к обобщению в невиданных ранее сценариях; (ii) стратегию Асимметричного ортогонального промптирования для изоляции концепций в пространстве подсказок; (iii) Цель дистилляции от грубого к точному для уменьшения разрыва в распределении между моделями-учителями и моделью-учеником. Обширные оценки показывают, что CollectionLoRA дистиллирует все настраиваемые эффекты и возможность генерации за несколько шагов в один модуль LoRA, снижая накладные расходы развёртывания, достигая при этом точности воспроизведения концепций, сопоставимой с независимо обученными моделями-учителями или превосходящей их.
Недавние фундаментальные модели диффузии видео достигли значительного прогресса в генерации высококачественного видео, однако их превращение в интерактивные видеомировые модели реального времени остается сложной задачей. Интерактивные мировые модели требуют управляемого, каузального развертывания с низкой задержкой, что на практике предполагает наличие полного конвейера, включающего построение данных, управляемую тонкую настройку, авторегрессионное обучение, дистилляцию за несколько шагов и потоковый вывод. В данной работе мы представляем minWM — полноценный открытый фреймворк для построения интерактивных видеомировых моделей реального времени. minWM предоставляет сквозной конвейер, который преобразует существующие двунаправленные фундаментальные видеомодели T2V/TI2V в управляемые камерой авторегрессионные мировые модели за несколько шагов. В частности, minWM сначала выполняет тонкую настройку двунаправленной модели диффузии видео с управлением камерой, а затем применяет конвейер Causal Forcing / Causal Forcing++, включающий обучение AR-диффузии, каузальную дистилляцию ODE или каузальную дистилляцию согласованности и асимметричный DMD, чтобы дистиллировать ее в авторегрессионный генератор за несколько шагов для развертывания с низкой задержкой. Фреймворк является модульным и расширяемым по архитектуре: мы инстанцируем его на репрезентативных открытых базовых моделях, включая Wan2.1-T2V-1.3B и HY1.5-TI2V-8B, охватывающих как инжекцию условий на основе кросс-внимания, так и архитектуры в стиле MMDiT. minWM также поддерживает адаптацию существующих видеомировых моделей, таких как HY-WorldPlay, к новым распределениям данных, рецептам обучения и целевым показателям задержки. Помимо публикации исполняемых скриптов, контрольных точек, документации и кода для вывода, мы предоставляем практические абляции по качеству траектории камеры, шагам обучения управляемости и минимальным требованиям к размеру пакета. Мы надеемся, что minWM послужит воспроизводимым и расширяемым рецептом для построения и адаптации интерактивных видеомировых моделей реального времени. Страница проекта: [https://github.com/shengshu-ai/minWM](https://github.com/shengshu-ai/minWM)
По мере того как видео-диффузионные модели (VDM) продвигаются к моделям мира, возникает ключевой вопрос: действительно ли они понимают причинность или лишь переобучаются на статистические временные паттерны? Существующие бенчмарки в основном полагаются на синтетические данные, что ограничивает обобщение на реальный мир из-за разрыва между симуляцией и реальностью. Мы представляем YoCausal — бенчмарк двух уровней, вдохновленный парадигмой нарушения ожиданий (VoE) из когнитивной науки. Путем временного обращения реальных видео с нулевой стоимостью в качестве естественных контрфактических выборок, YoCausal устанавливает произвольно расширяемый протокол оценки. Уровень 1 вводит индекс обратной неожиданности (RSI), количественно оценивающий восприятие стрелы времени через потери при денойзинге. Уровень 2 вводит индекс когниции причинности (CCI), который использует VLM для стратификации наборов данных на причинные и непричинные подмножества, отделяя подлинное причинное рассуждение от временного смещения. Оценка 13 передовых VDM показывает, что восприятие стрелы времени не подразумевает понимания причинности, и сохраняется значительный разрыв по сравнению с причинной когницией человека.
Модели генерации изображений эволюционировали от синтеза пикселей на основе текстовых условий к мультимодальным агентам, наделенным способностями визуального понимания и вызова инструментов. Однако существующие агенты остаются во власти базовых моделей изображений типа «черного ящика». Их рабочий процесс застревает в повторяющемся цикле переписывания промптов с целью улучшения генерации, не предоставляя механизмов для непосредственного манипулирования холстом. По сути, потенциал LLM как подлинной «кисти» для точного визуального конструирования остается в значительной степени нереализованным. В данной статье мы предлагаем GenClaw — управляемую кодом агентную парадигму генерации изображений, которая позволяет агенту творить подобно художнику-человеку: сначала концептуализировать, затем делать набросок и, наконец, раскрашивать. В частности, агент сначала формирует концептуальное знание и контекст посредством поиска и рассуждений. Затем он использует код (например, SVG, HTML, Three.js) для визуализации исполняемых набросков. Наконец, он применяет модель генерации изображений для добавления текстур, материалов и фотореализма. В этом рабочем процессе код служит управляемым промежуточным холстом, соединяющим лингвистические рассуждения и пиксельный синтез, бесшовно интегрируя программную логику с визуальной выразительностью генеративных моделей. Преобразуя генерацию изображений из парадигмы «черного ящика» в поэтапный процесс, напоминающий подлинное человеческое творчество, GenClaw делает шаг к высококонтролируемым и интерпретируемым системам визуальной генерации.
Видео-большие языковые модели (Video-LLMs) продемонстрировали высокие возможности в задачах понимания видео. Однако их практическое развертывание по-прежнему затруднено из-за неэффективности, вызванной обработкой огромного количества визуальных токенов. Хотя недавние подходы достигают чрезвычайно низких коэффициентов удержания токенов, сохраняя точность, сравнимую с базовыми вариантами с полным набором токенов, большинство из них выполняют сжатие только на позднем этапе предзаполнения, оставляя эффективность визуального кодировщика неоптимизированной. В этой статье мы сначала показываем, что визуальное кодирование вносит значительный вклад во время до первого токена (TTFT). Таким образом, вместо сжатия визуальных токенов только после визуального кодировщика, выполнение сжатия внутри кодировщика оставляет значительное пространство для исследований. Основываясь на этом понимании, мы предлагаем EarlyTom — фреймворк сжатия токенов без обучения, который выполняет сжатие визуальных токенов на ранней стадии внутри визуального кодировщика, что позволяет значительно лучше сократить TTFT и повысить пропускную способность. Кроме того, мы вводим стратегию раздельного выбора пространственных токенов, которая повышает общую эффективность сжатия. EarlyTom сокращает TTFT до 2.65 раз и FLOPs до 61% на одном GPU NVIDIA A100 для модели LLaVA-OneVision-7B, сохраняя точность, сравнимую с базовым вариантом с полным набором токенов. Эти улучшения существенно повышают практичность развертывания Video-LLMs в реальных производственных сценариях.
Крупные языковые модели (LLM) должны непрерывно обучаться и обновлять свои знания, чтобы оставаться эффективными в динамичных реальных условиях. Хотя низкоранговая адаптация (LoRA) широко используется для таких обновлений памяти, существующие исследования в основном опираются на качественные оценки конечных задач, оставляя количественные пределы ёмкости и базовую динамику точной параметрической памяти в значительной степени неисследованными. Для устранения этого пробела мы используем LoRA в качестве контролируемого зонда ёмкости памяти в скрытом пространстве, чтобы систематически количественно оценить точную параметрическую память. Мы вводим закон параметрической памяти — устойчивый степенной закон, связывающий снижение потерь ΔL с эффективными параметрами и длиной последовательности. На уровне токенов детальный анализ выявляет детерминированный фазовый переход, демонстрирующий, что вероятность предсказания p > 0,5 является достаточным условием для дословного воспроизведения при жадном декодировании. Руководствуясь этими выводами, мы предлагаем MemFT — стратегию оптимизации на основе порога, которая динамически перераспределяет бюджет обучения в пользу токенов, не достигших порога. Эмпирические оценки показывают, что MemFT способна повысить точность и эффективность запоминания. Код будет опубликован по адресу https://github.com/zjunlp/ParametricMemoryLaw.
Управление на основе активаций позволяет направлять большие языковые модели (LLM) путём вмешательства в их внутренние представления во время инференса и зарекомендовало себя как эффективная парадигма для контроля таких аспектов поведения, как персона и стиль. Однако существующие методы часто опираются на фиксированные направления управления или модули вмешательства, специфичные для конкретной задачи, что затрудняет их адаптацию к тонко дифференцированным концепциям и композиционным ограничениям. Мы предлагаем UniSteer — управляемую текстом модель согласования потока активаций, которая обучает условное распределение по активациям остаточного потока на основе условий, заданных на естественном языке. Вместо подгонки отдельного вмешательства для каждого целевого поведения UniSteer обучает универсальное условное поле скоростей в пространстве активаций. На этапе инференса UniSteer выполняет инверсию потока, частично перенося исходную активацию в скрытое состояние и регенерируя её при заданном целевом текстовом условии, после чего внедряет её обратно в замороженную LLM. Та же условная модель поддерживает классификацию в пространстве активаций путём выбора текстовой метки с наименьшей энергией реконструкции. Эксперименты на трёх целевых LLM показывают, что UniSteer обеспечивает единый интерфейс для управления поведением, управления правдивостью, тонко дифференцированного управления концепциями, следования инструкциям с множественными ограничениями и классификации в пространстве активаций.
Зрительно-языковые модели (VLM) демонстрируют высокую производительность на тестах пространственного мышления, однако до сих пор неясно, отражает ли это структурированное трёхмерное понимание или опору на статистические сокращения (shortcuts) в естественных изображениях. Мы представляем фреймворк для анализа на уровне представлений, который строит минимальные контрастные пары для измерения того, как пространственные оси организованы и разделены (disentangled) во вложениях VLM. Наш анализ по нескольким семействам моделей выявляет устойчивую вертикально-дистанционную запутанность: модели смешивают вертикальное положение в изображении с расстоянием, отражая перспективное смещение естественных фотографий. Это смещение порождает значительный разрыв в точности между примерами, согласующимися с перспективой и противоречащими эвристике, и усиливается при масштабировании данных, даже если общая точность бенчмарка улучшается. Кроме того, мы показываем, что модели с одинаковыми оценками на тестах могут демонстрировать различные внутренние представления, и что эти различия предсказывают точность и устойчивость в различных тестах пространственного мышления. Чтобы изолировать это смещение от смещения набора оценки, мы представляем SpatialTunnel — синтетический бенчмарк, предназначенный для выявления смещений пространственных shortcut путём удаления распространённых корреляций, присутствующих в естественных изображениях. Эксперименты подтверждают, что запутанность присуща самой модели, и что модели с хорошо разделёнными пространственными осями проявляют большую устойчивость, что позволяет предположить, что хорошо структурированные пространственные представления приводят к более надёжному пространственному мышлению в различных тестах. Код и бенчмарк доступны на странице проекта: https://cheolhong0916.github.io/whyfarlooksup.github.io/.
Совместная генерация аудио и видео направлена на синтез временно синхронизированного и семантически согласованного визуально-акустического контента. Однако существующие методы с открытым исходным кодом в основном полагаются либо на двухбашенные архитектуры с апостериорным выравниванием, либо на полностью унифицированные тримодальные архитектуры, которые смешивают текстовый контекст, аудио и видео в едином общем пространстве. Первая ослабляет мелкозернистую совместную эволюцию аудио и видео, в то время как вторая связывает семантическое обусловливание с низкоуровневой синхронизацией. Для устранения этих ограничений мы предлагаем NAVA — фреймворк нативного аудиовизуального выравнивания для совместной генерации аудио и видео. NAVA построен на основе контекстно-обусловленного нативного аудиовизуального выравнивания: сначала он устанавливает соответствие между аудио и видео в выделенном пространстве взаимодействия, а затем использует внешний контекст для обусловливания совместного процесса шумоподавления. В частности, NAVA реализован с помощью архитектуры Align-then-Fuse MMDiT, которая переходит от модально-осведомленного аудиовизуального выравнивания к модально-разделяемому совместному шумоподавлению. Кроме того, мы вводим Timbre-in-Context Conditioning для ассоциации референсных тембральных сигналов с соответствующими речевыми сегментами с целью достижения управляемого тембра речи. Эксперименты на Verse-Bench и Seed-TTS, а также пользовательское исследование демонстрируют, что NAVA достигает превосходного качества видео, точной аудиовизуальной синхронизации, конкурентоспособного качества аудио и более сильной управляемости референсным тембром, используя всего 6,3 миллиарда параметров.
Модели «зрение-язык» (VLM) достигли значительного прогресса в широком спектре задач понимания и рассуждения, чему способствовало крупномасштабное обучение на парах «изображение-текст», направленное на мультимодальное слияние. В идеале замена текстового вопроса на его визуализированное изображение не должна существенно влиять на производительность модели. Однако на практике такая замена модальности приводит к резкому снижению производительности. Мы связываем эту проблему «чувствительности к носителю» с внутренним смещением в современных обучающих корпусах. В распространённых наборах данных, таких как аннотирование изображений, VQA, OCR и веб-данные с чередующимися модальностями, текст и изображения обычно организованы в различные и асимметричные роли: текст выступает в качестве языковых запросов, а изображения — в качестве визуальных ссылок. Такое смещение данных приводит к тому, что VLM демонстрируют различные предпочтения при получении информации из разных модальностей. Следовательно, VLM не могут согласовать представления семантически эквивалентного содержания на текстовых и визуальных носителях, что делает рассуждения модели нестабильными при замене модальности. Для решения этой проблемы мы предлагаем Local Modality Substitution (LoMo) — лёгкий, не зависящий от архитектуры метод курирования данных, предназначенный для обеспечения контроля за кросс-модальной инвариантностью представлений между семантически эквивалентными текстовыми и графическими носителями. LoMo достигает этого путём преобразования одномодальных запросов в плавно чередующиеся мультимодальные последовательности. Он динамически выбирает целевые текстовые фрагменты и переводит их в визуализированные изображения, тем самым сохраняя ту же семантику на носителях «текст, визуал, текст». Обширные эксперименты на 13 разнообразных мультимодальных бенчмарках демонстрируют, что LoMo значительно улучшает общие мультимодальные рассуждения и обеспечивает более глубокое кросс-модальное слияние. В частности, он обеспечивает устойчивый прирост на фундаментальных моделях, превосходя стандартный SFT на 2,67 балла на LLaVA-OneVision-1.5-8B и на 2,82 балла на Qwen3.5-9B.
Обучение с подкреплением (RL) после предварительного обучения показало способность улучшать рассуждения в больших языковых моделях (LLM). Однако проблема загрязнения данных в ходе пост-обучения с подкреплением остаётся малоизученной, что может подрывать обобщающую способность и надёжность оценки самого процесса обучения. Существующие методы обнаружения в основном опираются на сигналы на уровне выходных данных, такие как правдоподобие или энтропия, которые становятся ненадёжными для моделей, обученных с подкреплением, поскольку RL формирует поведение через траекторные вознаграждения, а не через вероятности токенов. Мы предлагаем LaRA — фреймворк послойного анализа представлений для выявления загрязнения в LLM, прошедших пост-обучение с подкреплением. LaRA вводит три взаимодополняющих метрики, измеряющие чувствительность к возмущениям, направленный коллапс и локальную жёсткость представлений при контролируемых возмущениях. Мы обнаружили, что загрязнение вызывает прогрессирующие геометрические отклонения на разных слоях, включая усиленную чувствительность к возмущениям, более выраженный направленный коллапс и повышенную локальную жёсткость. На основе полученных результатов мы также разработали протокол обнаружения загрязнения, который агрегирует отклонения на уровне представлений по слоям и метрикам. Эксперименты на моделях рассуждений, обученных с подкреплением, показывают, что наш протокол превосходит существующие базовые методы обнаружения загрязнения, работающие на уровне выходных данных.
Оснащение больших языковых моделей явными навыками становится перспективной парадигмой для создания автономных агентов, способных решать сложные задачи. Навыки агента можно разделить на общие навыки, обеспечивающие широкий когнитивный перенос, и специфические навыки, необходимые для динамического выполнения конкретных задач. Однако существующие методы обучения с подкреплением на основе навыков (RL) обычно навязывают жесткий выбор между полной экстернализацией, которая влечет за собой непомерные накладные расходы на контекст, и полной интернализацией, что сопряжено с риском переобучения и конфликта знаний. Для решения этой дилеммы мы предлагаем Skill0.5 — новую агентную RL-структуру, которая явно разграничивает подходы к обработке навыков, сочетая интернализацию общих навыков с использованием специфических навыков для конкретных задач. Управляемый динамическим маршрутизатором, учитывающим сложность, Skill0.5 распределяет задачи по различным уровням мастерства для применения адаптированных стратегий оптимизации: он интернализирует общие навыки с помощью привилегированной дистилляции для создания когнитивной основы для сложных задач, а для легких задач использует диагностическое зондирование для предотвращения использования shortcuts и обеспечения применения специфических навыков. Эксперименты на ALFWorld и WebShop показывают, что Skill0.5 превосходит как методы RL, основанные на памяти, так и методы, основанные на навыках, обеспечивая улучшение производительности как в сценариях, соответствующих распределению обучающих данных, так и вне его.
Объяснение того, почему плотные ретриверы присваивают высокие оценки релевантности, остается сложной задачей, поскольку решения о поиске принимаются через непрозрачные многомерные эмбеддинги. Существующие объяснения часто сосредоточены на поверхностных сигналах, таких как лексические совпадения, выравнивание токенов или пост-хок текстовые обоснования, и поэтому дают ограниченное понимание латентных факторов, формирующих поведение плотного поиска на уровне эмбеддингов. Мы предлагаем Xetrieval — механистический фреймворк на уровне эмбеддингов для объяснения плотного поиска. Xetrieval сначала вводит легковесный интернализатор рассуждений, который аппроксимирует цепь рассуждений непосредственно в пространстве эмбеддингов за один прямой проход, обогащая эмбеддинги предложений информацией, ориентированной на рассуждения, и избегая дорогостоящей авторегрессивной генерации. Затем он разлагает эти эмбеддинги, обогащенные рассуждениями, на разреженные, интерпретируемые человеком признаки, каждый из которых связан со связным описанием на естественном языке. Агрегируя перекрытия разреженных признаков по множеству представлений со стороны документа, Xetrieval предоставляет объяснения отдельных решений о поиске на уровне признаков. Эксперименты на разнообразных ретриверах и эталонах показывают, что Xetrieval выявляет связные интерпретируемые признаки, дает более сильные эффекты вмешательства на уровне пар и поддерживает управление признаками на уровне задач. Страница проекта и исходный код доступны по адресу https://hihiczx.github.io/Xetrieval.
Взаимодействия на длинных горизонтах требуют от языковых моделей управления накапливаемой информацией: когда обновлять свое состояние, когда сохранять его, а что игнорировать. Мы изучаем эту проблему как Контекстуальное управление убеждениями (CBM): поддержание предсказанного состояния убеждений, согласованного с формальными свидетельствами, при изоляции нерелевантного для задачи шума. Чтобы сделать CBM измеримым, мы представляем BeliefTrack — эталон с замкнутым миром, охватывающий Обнаружение правил и Диагностику цепей, где конечное пространство убеждений и символьные верификаторы позволяют проводить точную пошаговую оценку. BeliefTrack диагностирует три типа ошибок: Ошибка сохранения, Ошибка обновления и Ошибка изоляции. На множестве LLM ванильные модели демонстрируют серьезные ошибки CBM, в то время как явные подсказки для отслеживания убеждений дают ограниченные улучшения. Напротив, обучение с подкреплением с наградами за состояние убеждений снижает частоту ошибок в среднем на 70,9%. Дальнейшее исследование выявляет скрытую динамику состояния убеждений, стоящую за этими ошибками, а управление на уровне представлений снижает частоту ошибок на 46,1% по двум задачам\footnote{Код будет доступен в ближайшее время по адресу https://github.com/zjunlp/CBM.}.
Диффузионные модели достигают передового уровня синтеза изображений, при этом их генеративные траектории принципиально демонстрируют спектральное смещение, разрешая низкочастотные глобальные структуры на ранних этапах, а высокочастотные мелкие детали — на поздних. Традиционные решатели стохастических дифференциальных уравнений (СДУ) не учитывают эту динамику, наивно инжектируя равномерный белый шум на протяжении всего процесса и нерационально расходуя конечный энергетический бюджет. В данной работе мы разрабатываем математическую основу, которая переосмысливает вывод СДУ как целенаправленный, частотно-развязанный перенос энергии. Используя эту основу, мы представляем Выборку с цветным шумом (Colored Noise Sampling, CNS) — новый стохастический решатель, не требующий обучения. Вместо инжекции равномерного белого шума CNS использует динамический график, зависящий от временного шага и частоты, который более эффективно распределяет вводимую энергию в пользу структурно неразрешённых частотных полос. Активно используя присущее модели спектральное смещение, CNS систематически направляет генерируемое распределение к истинному многообразию данных. Обширные эксперименты показывают, что CNS значительно превосходит стандартные базовые решатели ОДУ и СДУ, выступая в качестве строго подключаемой замены сэмплера во время инференса для различных архитектур (SiT, JiT, FLUX). По сравнению со стандартной выборкой на ImageNet-256, CNS обеспечивает существенное снижение FID без управления: улучшение с 8.26 до 6.27 для SiT-XL/2, с 32.39 до 26.69 для JiT-B/16 и с 11.88 до 8.31 для JiT-H/16, а также даёт последовательное относительное улучшение FID при использовании бесклассового руководства. Страница проекта доступна по адресу https://hadardavidson.github.io/CNS/.
Плотные ретриверы демонстрируют позиционное смещение, отдавая предпочтение документам, в которых информация, релевантная запросу, встречается в начале, и ухудшая эффективность поиска, когда такая информация появляется позже. Хотя предыдущие исследования позиционного смещения в плотных ретриверах в основном фокусировались на архитектурных объяснениях, мы изучаем, как позиционное распределение свидетельств в обучающих данных влияет на направление смещения на уровне поиска. Для этого мы создаем синтетические обучающие наборы, ориентированные на конкретные позиции, в которых релевантные запросу свидетельства располагаются в начале, середине или конце документов, и выполняем точную настройку восьми архитектурно различных предварительно обученных моделей в условиях как смещенного по позициям, так и сбалансированного распределения обучения. На уровне ранжирования мы наблюдаем четкую направленную закономерность во всех исследованных моделях: смещенные распределения обучения благоприятствуют свидетельствам на соответствующих позициях. Сбалансированное по позициям обучение снижает позиционную чувствительность на 57–87% на позиционно-чувствительных эталонных тестах, при этом средняя эффективность поиска остается конкурентоспособной в наших контролируемых условиях. Анализ на уровне представлений дополнительно показывает, что точная настройка часто изменяет усвоенные позиционные предпочтения, хотя в некоторых моделях сохраняются существовавшие ранее архитектурные или обусловленные предварительным обучением тенденции. Полученные результаты определяют распределение позиций в обучении как основной контролируемый фактор позиционного смещения на уровне поиска и предлагают сбалансированную курацию данных в качестве практической стратегии его смягчения.
Мы представляем CausaLab — масштабируемую среду для оценки интерактивного выявления причинно-следственных связей агентами на основе больших языковых моделей (LLM). В отличие от предыдущих оценок, CausaLab проверяет как способность агента решить задачу с использованием причинных свидетельств, так и обоснованность его ответа в контексте достоверно восстановленного причинного механизма. Каждый эпизод помещает агента в синтетическую лабораторию: он получает предварительные результаты измерений, воздействует на манипулятор-кристалл и прогнозирует резонансную частоту изолированного кристалла-реактора, управляемого тем же механизмом. Скрытый процесс генерации данных представляет собой случайно выбранную структурную причинную модель (SCM), поэтому успех требует восстановления как причинного графа, так и структурных уравнений, а не обращения к априорным знаниям. Эксперименты демонстрируют устойчивый разрыв между прогнозированием и восстановлением механизма: в полностью наблюдательной конфигурации с 6 узлами модель GPT-5.2-high достигает 92% точности решения задачи, но лишь 0,471 по метрике all-edge F₁. Стратегии смешанного наблюдения и вмешательства улучшают структурную достоверность, тогда как чистое вмешательство остаётся сложным даже для сильных агентов. Мы выявляем преждевременную остановку как основную слабость и показываем, что проверка согласованности смягчает её. Таким образом, CausaLab разделяет предсказательный успех и причинное понимание, раскрывая ограничения современных LLM-агентов как экспериментальных рассуждателей о причинности.
Агенты на основе больших языковых моделей (LLM) демонстрируют высокую способность использовать внешние инструменты для решения сложных задач. Однако существующие оценки часто упускают из виду временной аспект использования инструментов, особенно влияние задержки ответа инструмента, и обычно ограничиваются однозадачными сценариями. В реальных приложениях часто требуется одновременное выполнение нескольких задач, а общая эффективность зависит от того, может ли агент использовать время простоя в ожидании ответов инструментов. Эту способность мы называем асинхронным вызовом инструментов. Для ее оценки мы предлагаем AsyncTool — бенчмарк для анализа агентов на основе LLM в интерактивных многозадачных средах с задержкой обратной связи от инструментов. AsyncTool одновременно предъявляет несколько разнородных задач и имитирует реалистичную задержку ответа инструмента в процессе выполнения. Используя гибридную стратегию эволюции данных, мы формируем разнообразный набор данных асинхронных многозадачных сценариев, охватывающий различные типы использования инструментов. Оценка производится на уровне шагов, подзадач и задач; вводятся метрики, ориентированные на эффективность, для измерения координации задач и скорости их завершения. Обширные эксперименты показывают, что задержка обратной связи от инструментов представляет собой серьезную проблему для современных агентов и приводит к явному снижению производительности. Модели, которые лучше координируют переключение между задачами, отслеживание зависимостей и поддержание состояния, демонстрируют более высокие результаты на AsyncTool. Наш анализ выявляет ключевые типы отказов текущих агентов, использующих инструменты, и предоставляет практические рекомендации для проектирования будущих систем с улучшенными способностями к временному рассуждению и координации.
Дизайн-пространство инференции агентного ИИ охватывает две крайности: передовые большие языковые модели (LLM), обычно размещаемые в облаке и демонстрирующие высокую производительность в широком спектре задач при существенных затратах, и более экономичные малые языковые модели (SLM), пригодные для инференции на устройстве. Гибридные мультиагентные системы (MAS), сочетающие модели на устройстве и облачные модели, предлагают многообещающий компромисс, но также вводят сложное и слабо изученное дизайн-пространство, в котором точность выполнения задач, денежные затраты и энергопотребление на границе тесно связаны; при отсутствии общих принципов проектирования гибридные компоненты, хотя и не являются наиболее распространенным выбором, обычно внедряются на основе решений ad hoc, адаптированных к конкретным областям. В данной работе мы более систематически исследуем это дизайн-пространство. Мы адаптируем две репрезентативные архитектуры MAS для поддержки гибридной инференции и изучаем, как отдельные проектные решения смещают рабочую точку вдоль границы Парето по мощности, стоимости и производительности. Наши результаты выявляют многогранную картину проектирования гибридных MAS: хотя SLM могут эффективно извлекать выгоду из помощи LLM, оптимальная архитектура сильно зависит от задачи, а более высокие вычислительные возможности на уровне фронта не всегда гарантируют лучшее качество работы.
Большие языковые модели (LLM) продвинули автономные агенты от глубокого поиска, который извлекает краткие фактические ответы, к глубокому исследованию, которое синтезирует разрозненные свидетельства в длинные отчеты. Однако проверяемое мультимодальное глубокое исследование остается сложной задачей из-за открытого синтеза без детерминированной истины и необходимости чередовать текстовые аргументы с визуальными свидетельствами. Мы предлагаем Ptah, мультиагентную платформу для создания перемежающихся отчетов. Ptah координирует жизненный цикл от запроса пользователя до сформированного веб-отчета через этапы планирования, исследования и написания, где специализированные агенты строят планы с учетом визуальной информации, собирают обоснованные свидетельства, поддерживают выровненные по источникам изображения в Визуальной рабочей памяти и составляют отчеты с помощью декларативного использования мультимодальных инструментов. Агент-верификатор служит функцией приемки платформы, обеспечивая фактическую обоснованность, достоверность цитирования и кроссмодальную согласованность на протяжении всего рабочего процесса. Мы также представляем PtahEval, протокол оценки, который дополняет существующие бенчмарки оценками на уровне изображений и презентаций. Эксперименты на бенчмарках глубокого исследования показывают, что Ptah создает более надежные, визуально информативные и удобные для пользователя мультимодальные отчеты по сравнению с сильными базовыми методами.
Последние достижения в области мобильных GUI-агентов продемонстрировали высокий потенциал для автоматизации мобильных задач, однако наиболее эффективные системы по-прежнему зависят от больших визуально-языковых моделей для понимания скриншотов и долгосрочного планирования. Небольшие GUI-агенты, которые могут быть развернуты непосредственно на мобильных устройствах, более привлекательны для практического использования, поскольку обеспечивают более низкую стоимость инференса и лучшую защиту конфиденциальной информации на устройстве. Однако из-за ограниченной емкости модели такие легковесные агенты остаются ненадежными при планировании и выполнении GUI-задач от начала до конца исключительно на основе скриншотов. Мы предлагаем Knowledge-Oriented Behavior Exploration (UI-KOBE) — фреймворк, который улучшает легковесные мобильные GUI-агенты с помощью многократно используемых графовых знаний, специфичных для приложения. UI-KOBE сначала автономно исследует мобильное приложение и строит граф знаний приложения, где узлы представляют различные состояния пользовательского интерфейса, а ребра — выполнимые переходы. Во время выполнения легковесный GUI-агент использует граф в качестве внешнего руководства: получив пользовательскую задачу и текущий скриншот, он идентифицирует текущий узел графа и выбирает среди действий с самопетлей, соседних переходов, завершения задачи или резервных свободных действий, связанных с этим узлом. Поддерживая решения времени выполнения с помощью графового руководства, специфичного для приложения, UI-KOBE снижает нагрузку на сквозное планирование GUI и помогает легковесным моделям более эффективно выполнять мобильные GUI-задачи, предлагая практический шаг к эффективным, интерпретируемым и ориентированным на конфиденциальность встроенным GUI-агентам.
Освоение терминальных сред требует языковых агентов, способных к многошаговому планированию, выполнению на основе обратной связи и динамической адаптации состояния. Однако обучение таких агентов в настоящее время ограничено зависимостью от собранных внешних репозиториев, что ограничивает разнообразие доменов, управляемость среды и возможность целенаправленной работы над конкретными дефицитами способностей. Мы представляем LiteCoder-Terminal-Gen — конвейер синтеза с нулевыми зависимостями, который автономно генерирует исполняемые и проверяемые терминальные учебные среды непосредственно из спецификаций доменов. Используя эту структуру, мы создаем два крупномасштабных ресурса: LiteCoder-Terminal-SFT, включающий 11 255 экспертных траекторий в 10 доменах, и LiteCoder-Terminal-RL, содержащий 602 проверяемые среды для оптимизации предпочтений на уровне траекторий. Контролируемая донастройка моделей семейства Qwen на нашем наборе данных SFT дает агентов, значительно превосходящих исходные аналоги. Примечательно, что наш вариант с 32B достигает 29,06%, 18,54% и 34,00% pass@1 на Terminal Bench 1.0, 2.0 и Pro соответственно. Кроме того, применение Direct Multi-turn Preference Optimization (DMPO) к нашим средам RL дает дополнительный прирост производительности. Эти результаты систематически демонстрируют, что полностью синтетические, исполняемые среды предоставляют масштабируемый и проверяемый сигнал контроля для освоения сложных, реальных рабочих процессов командной строки.
Мы решаем задачу генерации физически точных и визуально правдоподобных 4D-взаимодействий человека с объектом (ВЧО). Имея статического 3D-человека и целевой объект, представленные в виде 3D-гауссовых сплатов (3DGS), наша цель — синтезировать динамические сцены, в которых человек активно взаимодействует с объектом посредством действий, таких как удар кулаком или ногой, в соответствии с заданным входным текстом. Для этого мы представляем PhyGenHOI — новую структуру, сочетающую генеративную человеческую моторику с явной физической симуляцией объекта. Мы моделируем человека как семантического агента, управляемого моделью диффузии движений (MMD), а объект — как физического агента, симулируемого методом материальных точек (MMT), используя 3D-гауссианы в качестве единого дифференцируемого представления. Мы управляем их взаимодействием через три взаимосвязанных механизма: (1) Оконная функция потерь притяжения, которая временно синхронизирует генеративные движения для перехвата объекта; (2) Этап повторной симуляции на основе контакта, который инициирует физически согласованную передачу импульса при столкновении; и (3) Маскированная цель Video-SDS, которая внедряет видеоприоры для улучшения достоверности контакта. Эксперименты показывают, что PhyGenHOI генерирует физически согласованные 4D-ВЧО для различных действий, людей и объектов, превосходя базовые подходы. Страница проекта и видео: https://omerbenishu.github.io/PhyGenHOI/
Стремительный рост числа заявок, подаваемых на конференции и в журналы по машинному обучению, создал нагрузку на систему научного рецензирования и усилил интерес к автоматизированным рецензентам на основе больших языковых моделей (LLM). Однако остаётся слабо изученным, насколько эффективны такие системы на самом деле, особенно в сравнении с рецензентами-людьми при выявлении научных пробелов. В данной работе мы представляем PRISM (Peer Review Intelligence via Structured Multi-dimensional Assessment) — платформу для бенчмаркинга, оценивающую качество рецензирования по четырём измерениям: глубина анализа, оценка новизны, выявление недостатков и приоритизация ключевых проблем, а также многомерная конструктивность. В отличие от большинства существующих оценок, основанных на поверхностных метриках, таких как ROUGE и BLEU, или неограниченном использовании LLM в качестве судьи, что смешивает беглость с формальной строгостью, PRISM опирается на анализ аргументации, дополненную извлечением верификацию и оценку на основе консенсуса. Мы применяем PRISM для сравнения пяти ведущих систем автоматического рецензирования и рецензентов-людей на стратифицированном корпусе рецензий из ICLR, ICML и NeurIPS. Результаты показывают, что LLM могут соответствовать или превосходить рецензентов-людей по отдельным измерениям: сопоставимая глубина анализа, более качественная верификация новизны и высокая точность приоритизации критических замечаний. Однако ни одна отдельная система не демонстрирует стабильно сбалансированной производительности по всем измерениям одновременно, соответствующей базовому уровню человеческого рецензирования. Каждая из них обладает характерным профилем специализации с типичными слепыми зонами — типами сбоев, которые полностью не учитываются агрегированными метриками. Отсюда следует, что рецензенты на основе LLM следует рассматривать в первую очередь как целенаправленное дополнение к человеческому рецензированию, эффективное в отдельных измерениях, но ненадёжное в качестве самостоятельной замены. Демонстрация и основные результаты доступны по ссылке https://khanhthanhdev.github.io/prism-page/.
Поточечное моделирование вознаграждения предоставляет критические сигналы для пост-обучения LLM, однако сталкивается с трудностями при абсолютной оценке в субъективных, непроверяемых условиях. Рубрикационные методы решают эту проблему путём разложения оценки на явные критерии, но существующие подходы обычно зависят от передовых LLM и страдают от ничьих, вызванных жёсткой булевой агрегацией. Мы представляем RUBRIC-ARROW — попеременную структуру, которая совместно обучает генератор рубрик и судью, обусловленного рубриками, причём этап RL (обучения с подкреплением) использует только данные о парных предпочтениях. Наш метод объединяет вероятностное правило подсчёта баллов, снижающее количество ничьих, с фазово-специфичными вознаграждениями на основе предпочтений и попеременной схемой GRPO, которые совместно обучают поточечный оценщик. Обширные эксперименты показывают, что RUBRIC-ARROW достигает конкурентной точности моделирования вознаграждения и обеспечивает устойчивый прирост при последующем дообучении политики.
Роботизированное манипулирование критически зависит от восприятия, которое сохраняет релевантные для действия аспекты сцены. Однако большинство конвейеров обучения роботов построены на основе визуальных кодировщиков, предварительно обученных для статического распознавания или выравнивания зрения и языка, оставляя понимание движения последующим политикам. Мы представляем DynaFLIP — учитывающую динамику мультимодальную структуру предварительного обучения, которая перемещает понимание движения вверх по потоку, в область восприятия. Мы формируем триплеты «изображение-язык-трёхмерный поток» из разнородных видео человека и роботов и используем эти триплеты в качестве супервизии во время обучения для формирования кодировщика, работающего только с изображениями. Наша ключевая идея — побудить три модальности охватывать малый объём симплекса в общем гиперсферическом пространстве, причём меньший объём симплекса указывает на более сильное выравнивание. Чтобы избежать геометрической неоднозначности и тривиального коллапса наивной минимизации объёма, мы сочетаем минимизацию объёма симплекса с косинусным регуляризатором и контрастивной целевой функцией. Наш анализ показывает, что DynaFLIP фокусируется на релевантных для управления областях, критически важных для манипулирования. Полученные представления, учитывающие динамику, служат многократно используемыми визуальными магистралями и стабильно превосходят базовые методы в различных последующих политиках, включая VLA. Мы проверяем это в различных симуляционных и реальных установках, при этом прирост достигает +22,5% в сценариях вне распределения. Наши результаты показывают, что обобщение у роботов улучшается, когда визуальные представления обучаются кодировать не только то, что присутствует, но и то, как мир изменяется под действием.
Применение обучения с подкреплением для повышения фактической точности в вопросно-ответных системах, требующих интенсивного использования знаний, сталкивается с дилеммой проектирования вознаграждения. Вознаграждения на уровне ответов обеспечивают лишь грубое управление и не позволяют различать правильные и неправильные утверждения в цепочке рассуждений. Альтернативы на уровне предложений обеспечивают более детальную обратную связь, но обычно полагаются на верификаторы на основе логического вывода на естественном языке (NLI), экспертные оценки больших языковых моделей (LLM) или конвейеры верификации знаний, которые дороги в развертывании в масштабах обучения с подкреплением и часто ненадежны для фактов о редких сущностях, где точные сигналы вознаграждения особенно важны. Мы предлагаем CorVer (Corpus Verify) — легковесное, готовое к внедрению вознаграждение процесса, которое заменяет нейросетевые верификаторы сигналом, основанным на корпусе и полученным из статистики совместной встречаемости в Wikipedia. CorVer назначает оценку на уровне предложений и преобразует ее в преимущества на уровне токенов с помощью простого выравнивания, требуя лишь экстрактора с 0,5 млрд параметров и однократного обращения к корпусу на каждое предложение. На 30 комбинациях (модель, эталон), охватывающих шесть моделей, настроенных на выполнение инструкций (от 3 до 14 млрд параметров), и пять эталонов для вопросно-ответных задач (QA), CorVer превосходит исходный базовый уровень для каждой комбинации, со средним приростом +4,1 процентного пункта на TriviaQA. Он также превосходит четыре базовых метода на основе нейросетевых верификаторов в 18 из 20 комбинаций при их осуществимых конфигурациях, при этом обучение происходит в 4,8–8,4 раза быстрее.
Мы представляем ChildVox — новый бенчмарк для характеризации разнообразных акустических сигналов, с помощью которых общаются дети. В частности, ChildVox охватывает полную траекторию развития от рождения до школьного возраста, включая физиологические звуки, нелингвистические вокализации, канонические слоги и устную речь. ChildVox объединяет более 20 подзадач в рамках 17 ориентированных на детей аудио- и речевых наборов данных, обеспечивая систематическое сравнение между корпусами и между доменами. Мы оцениваем репрезентативный ряд фундаментальных аудио- и речевых моделей, включая самообучающиеся, ориентированные на ASR и крупные аудиоязыковые модели, на задачах классификации физиологических звуков, моделирования вокализаций и канонических слогов, а также оценки и распознавания качества речи. Результаты бенчмарка показывают, что ChildVox предоставляет набор высокопроизводительных моделей для распознавания широкого спектра акустических сигналов от детей, поддерживая такие прикладные задачи, как характеризация уровней языкового развития детей и отслеживание речевой продукции с возрастом.
Мультимодальные большие языковые модели все чаще развертываются в качестве долгосрочных агентов, где память должна выполнять не только функцию припоминания: она должна отслеживать изменяющийся мир, пересматривать устаревшую информацию и выявлять нужные доказательства в момент принятия решений. Существующие бенчмарки измеряют припоминание в статическом диалоге, сводят память к единой метрике точности на основе конечного результата задачи и редуцируют визуальные наблюдения до подписей, что не позволяет локализовать сбои на этапах записи, поддержания, поиска или использования. Рост числа агентских обвязок (harnesses), которые сами управляют своей памятью, усугубляет этот разрыв, поскольку у нас нет принципиального способа сравнивать системы, спроектированные вручную, с альтернативами, управляющими памятью автономно. Чтобы устранить эти пробелы, мы формулируем мультимодальную память агента как цикл взаимодействия «Действие–Мир» с наблюдаемым четырехстадийным жизненным циклом и реализуем его в WorldMemArena: 400 мультисессионных мультимодальных задач, охватывающих пожизненную эволюцию (эволюционирующие личные и рабочие состояния) и агентское выполнение (память на основе реальных наблюдений, действий и обратной связи), с аннотированными ключевыми точками памяти, обновлениями, дистракторами и цепочками доказательств для постадийной диагностики. Это позволяет впервые провести прямое сравнение агентов с длинным контекстом, спроектированных вручную (RAG и внешние системы памяти) и основанных на обвязках. Результаты показывают, что: (1) лучшее запоминание и хранение памяти не гарантирует лучшую производительность; (2) мультимодальная память по-прежнему плохо использует визуальные доказательства; (3) системы нестабильны в разных доменах и деградируют на реалистичных агентских траекториях; (4) управляемая обвязкой память более гибка, но остается дорогостоящей и менее надежной.
Одноразовая программа-мыслей (Program-of-Thought, PoT) генерирует программу на Python, которая выводит план примитивных действий; одно недопустимое действие молча делает всю траекторию недействительной. Мы представляем RePoT (Recoverable PoT — восстанавливаемая PoT): детерминированный верифицированный повтор, который пошагово выполняет план в среде до первого недопустимого перехода, после чего следует один вызов LLM, возобновляющий выполнение с верифицированного префикса. RePoT требует не более одного дополнительного вызова LLM на ~14% задач, где PoT терпит неудачу. На четырех конфигурациях закрытых моделей на бенчмарке PuzzleZoo-775 RePoT превосходит PoT на +3–11 процентных пункта (п.п.), достигая максимума 96.9% против 86.3% на gpt-5.4-mini-medium; против базового метода PoT-retry с согласованным бюджетом RePoT решительно выигрывает на Gemini (+3.8 п.п., 95% ДИ [+2.2, +5.4]), находится в пределах шума выборки на GPT-medium и Claude и проигрывает на GPT-mini — паттерн масштабирования способностей, который мы начинаем решать с помощью Adaptive RePoT — диспетчера на основе правил, распределяющего между восстановлением суффикса и новым повтором PoT на основе длины верифицированного префикса (предварительные результаты). Мы воспроизводим результаты на PlanBench Blocksworld (+1.1–11.4 п.п.) и на четырех моделях с открытыми весами (+3.3–20.0 п.п. на трех из четырех). На нашем контролируемом бенчмарке для восстановления Derail-550 каждое условие с доступом к информации о контрольных точках достигает >=30% на GPT-medium и >=70% на Gemini, против <=3.1% для обратной связи только по ошибкам — что показывает, что именно информация о контрольных точках, а не конкретный хвост верифицированного префикса, является ключевым сигналом для восстановления.
Более крупные модели обучаются задачам, которые меньшие модели освоить не могут. Что движет этим явлением? Мы разрабатываем простой феноменологический аргумент, согласно которому степенное масштабирование уже предполагает, что более крупная модель сможет обучиться части распределения данных, которую меньшая модель не может выучить, даже при бесконечном объеме обучающих данных. Чтобы проверить это утверждение и выявить его причины, мы изучаем влияние масштабирования модели на синтетическую установку, состоящую из смеси задач, демонстрирующих монотонные кривые масштабирования. Результаты указывают на обусловленную данными конкуренцию за ресурсы (нейроны). В частности, меньшие модели распределяют свои нейроны в пользу задач с высокой частотой встречаемости или низкой сложностью, и поэтому они находят решения, которые плохо работают на редких и сложных задачах. Более того, это происходит даже тогда, когда существуют решения, способные выразить желаемую задачу. Затем мы оцениваем, как более крупная модель обходит это центрированное на данных узкое место, и обнаруживаем, что это связано с ослабленным механизмом интерференции: более крупные модели могут выделить достаточно ресурсов для общих задач, так что обновления градиентов для этих задач становятся слабыми, а значит они не перезаписывают признаки редких задач по мере их медленного накопления. Наконец, для дальнейшей проверки этих утверждений мы предварительно обучаем модели OLMo (от 4M до 4B параметров) на новых задачах с варьируемой частотой и сложностью. Результаты повторяют те, что были получены в экспериментах с синтетическими данными: только более крупные модели OLMo обучаются нечастым и сложным задачам, и эти более крупные модели встраивают больше признаков задач в свои представления и демонстрируют меньшую градиентную интерференцию между задачами. В целом, мы предлагаем центрированное на данных объяснение того, почему более крупные модели обучаются задачам, которые меньшие модели освоить не могут. Это помогает понять, почему более крупные модели лучше на практике, и может информировать практические вопросы, касающиеся выбора размера модели и состава обучающих данных.
Подходы, основанные на данных, произвели революцию в области 3D-зрения, позволив трансформерам эффективно реконструировать и генерировать статические 3D-объекты. Однако создание симулятивных 4D-динамик — реалистичных временных деформаций статических объектов в различных физических условиях — остается сложной и зачастую эвристической задачей, несмотря на ее важность для построения комплексных 3D-моделей мира. Большинство существующих методов предполагают заранее заданную физическую модель и используют идентификацию системы для оценки параметров, что ограничивает их применение конкретными категориями и небольшими наборами данных. Мы предлагаем, что эти ограничения можно преодолеть путем изучения основанной на данных кинематической параметризации состояний для объектно-ориентированных физических систем. В частности, мы изучаем как латентное пространство, представляющее все возможные состояния объекта, так и декодер, который отображает любой выбранный латентный вектор в правдоподобно деформированную форму объекта. Мы называем такую параметризацию нейронной кинематикой объектов (NeuROK) и обучаем модель типа энкодер-декодер на основе трансформера на подобранном крупномасштабном 4D-наборе данных. Такая формулировка и обученная модель значительно упрощают генерацию симулятивных динамик, поскольку нам нужно рассматривать динамику только в низкоразмерном латентном пространстве с точки зрения механики Лагранжа в классической физике. Мы демонстрируем эффективность и обобщаемость этой нейронной симуляционной среды на различных типах динамических объектов, показывая явные преимущества по сравнению с предыдущими работами. Страница проекта: https://chen-geng.com/neurok
Авторегрессионные модели диффузии видео генерируют потоковое видео, создавая кадры последовательно, причем каждый блок обусловлен ранее сгенерированным контентом. Эти модели структурно привязаны к первому кадру: его представление ключ-значение занимает привилегированное положение в кэше внимания и служит основным эталоном сцены на протяжении всего процесса генерации. Будучи самой «чистой» и свободной от ошибок позицией в кэше, эта привязка привлекает непропорционально много внимания, подавляя динамику видео и фиксируя композицию сцены в соответствии с исходной точкой обзора, даже если сцена естественным образом развивается. Результатом является темпорально поверхностное видео, в котором движение, перемещение камеры и развитие сцены ослабляются в пользу статической согласованности. Для решения этой проблемы мы заменяем статическую привязку на адаптивное состояние — скрытую латентную переменную, которую модель деноизирует вместе с контентом на каждом блоке, но никогда не визуализирует. Вместо обращения к замороженному первому кадру модель генерирует собственную привязку сцены на каждом шаге, обращаясь как к предыдущему состоянию, так и к текущему контенту, создавая эталон, который развивается вместе с генерируемым контентом. В отличие от стандартной генерации видео, которая кодирует абсолютное понятие времени, наша формулировка рассматривает время как относительное: каждый шаг генерации видит одну и ту же позиционную структуру независимо от того, насколько далеко продвинулась генерация, и переход состояния идентичен для каждого блока. В совокупности эти свойства вводят рекуррентность в процесс генерации, где деноизинг служит функцией перехода, а кэш KV — носителем, не требуя внешнего модуля. Эксперименты показывают, что адаптивное состояние существенно улучшает динамику видео, обеспечивая более богатое движение и естественное развитие сцены в сгенерированных видео.
Естественная генерация позволяет большим языковым моделям (LLM) создавать ответы в свободной форме с богатой аргументацией, однако отсутствие структуры затрудняет верификацию результатов. С другой стороны, ограниченное декодирование обеспечивает стандартизированные форматы, но может непреднамеренно ограничивать способности к рассуждению, накладывая ограничения слишком рано в процессе генерации. Мы предлагаем гибридный подход, названный In-Writing, который объединяет рассуждение в свободной форме и структурированную генерацию в одном вызове. Модель сначала выполняет неограниченное рассуждение и применяет структурированное декодирование только после генерации триггерного токена, явно разделяя рассуждение и форматирование. Мы показываем, что наши стратегии с триггерными токенами позволяют практически полностью устранить преждевременное срабатывание — вид сбоя, при котором ограниченное декодирование прерывает продолжающееся рассуждение. Оценки на различных наборах данных, охватывающих задачи классификации и рассуждения, показывают, что наш подход превосходит современные методы, обеспечивая прирост точности до 27% по сравнению с естественной генерацией. Наш код доступен по адресу: https://github.com/Nokia-Bell-Labs/InWriting.
Нарративное качество видео фундаментально определяет его перцептивную ценность. Хотя существующие методы генерации видео способны создавать визуально привлекательный контент, они в значительной степени опираются на разреженные сигналы управления, такие как текстовые подсказки или первый/последний кадры, что ограничивает точный контроль над нарративной структурой и временным темпом. В данной работе мы предлагаем SmartDirector — фреймворк, расширяющий нарративные возможности моделей генерации видео за счет использования множества ключевых кадров. SmartDirector поддерживает гибкие сценарии генерации, включая односценарную генерацию, многосценарный нарративный синтез и расширение видео. Фреймворк работает в два этапа: Director-Gen генерирует видео низкого разрешения, обусловленное заданными ключевыми кадрами, а Director-SR улучшает результат, используя ключевые кадры высокого разрешения в качестве семантических якорей для восстановления мелких деталей. Для обеспечения устойчивого обучения на множественных ключевых кадрах мы создали конвейер данных, который отбирает односценарные и многосценарные последовательности из фильмов. Обширные эксперименты показывают, что SmartDirector значительно превосходит существующие современные подходы. Мы опубликуем код для содействия дальнейшим исследованиям.
Предсказание с учетом окклюзий остается критической проблемой в автономном вождении из-за присущей неопределенности ненаблюдаемых областей. Существующие подходы либо переоценивают риск на основе достижимых состояний, либо испытывают трудности с прогнозированием точных траекторий в условиях высокой неопределенности окклюзий. Для преодоления этих ограничений мы предлагаем единый фреймворк моделирования и обучения карты рисков для частично наблюдаемых сред. Наш метод интегрирует риск транспортного потока и риск столкновения посредством пространственно-временного моделирования, что обеспечивает детальную оценку опасностей, вызванных окклюзиями. Для решения проблемы нехватки сценариев, включающих взаимодействия с окклюзиями, мы представляем фреймворк генерации сценариев на основе диффузии, который создает реалистичные, но при этом состязательные сценарии. Мы интегрируем моделирование и обучение единой карты рисков в фреймворк, поддерживающий планирование с учетом риска в условиях частичной наблюдаемости. Эксперименты на наборе данных Waymo Open Motion показывают, что наш метод значительно превосходит современный базовый метод с учетом окклюзий, улучшая минимальное время до столкновения в 0,78 раза и среднее время до столкновения в 1,67 раза. Предложенный фреймворк предлагает всестороннее и практическое решение для планирования с учетом риска в частично наблюдаемых средах.
Базовые признаки, получаемые из самообучаемых моделей зрения и диффузионных моделей преобразования текста в изображение, доказали свою эффективность для оценки семантического соответствия. Однако, поскольку эти признаки обучаются преимущественно на двумерных изображениях, им не хватает явной трехмерной осведомленности, и они часто путают симметричные стороны объектов, повторяющиеся части и визуально схожие структуры, которые различаются в трехмерном пространстве. Мы представляем фреймворк пост-обучения с учетом трехмерной информации, который выходит за рамки доступных двумерных базовых признаков, используя априорные знания из фундаментальных 3D-моделей. Для заданного изображения наш метод применяет SAM3D для оценки геометрии и позы объекта, а затем уточняет позу с помощью оптимизации на основе рендеринга и сравнения. После этого мы проецируем дескрипторы PartField из восстановленной геометрии на плоскость изображения в соответствии с оцененной позой объекта. Полученные карты признаков, учитывающие геометрию, дополняют признаки DINO и Stable Diffusion, в то время как геодезические расстояния на восстановленных формах позволяют надежно фильтровать соответствия-кандидаты. Мы используем отфильтрованные соответствия в качестве обучающих данных для легковесного адаптера, настраиваемого поверх DINO и Stable Diffusion для задачи семантического соответствия. В отличие от предыдущих подходов пост-обучения, которые требуют аннотаций поз и опираются на грубую сферическую геометрию, наш метод автоматически получает инстансно-специфичную 3D-структуру и использует ее для управления обучением соответствий. Эксперименты показывают, что наш подход улучшает семантическое соответствие по сравнению с предыдущими методами, одновременно сокращая необходимость в ручной геометрической разметке. Код и модель доступны по адресу: https://github.com/GenIntel/3D-SC.
Последние достижения в области мультимодальных веб-агентов часто опираются на увеличение вычислительных затрат во время вывода, включая разверточный поиск, проверочные проходы, автономное обнаружение навыков и стеки специализированных моделей. Это поднимает ключевой вопрос: может ли веб-агент становиться более эффективным по мере накопления опыта, а не более дорогим? Сначала мы анализируем траектории из VisualWebArena и выявляем три повторяющихся источника неэффективности: циклы повторяющихся действий, скрытые затраты на обнаружение и низкое повторное использование кэша подсказок. Затем мы представляем PANDO — однопроходную онлайн-платформу для дистилляции навыков, которая поддерживает структурированную библиотеку навыков и объединяет рефлексию прогресса, понижение навыков на основе уверенности, иерархическую маршрутизацию, визуальное сжатие и кэш-осведомленное формирование подсказок. На полном наборе из 910 задач VisualWebArena PANDO достигает уровня успеха 58,3%, превосходя SGV (54,0%) и нашу репродукцию WALT (45,2%), при этом используя на 58% меньше токенов, чем SGV, и на 61% меньше токенов, чем WALT, без какого-либо предварительного бюджета на обнаружение. Абляция на 300 задачах дополнительно показывает, что правила и рутины обеспечивают большую часть прироста успеха, в то время как маршрутизация, сжатие и кэш-осведомленное формирование подсказок преобразуют более крупную библиотеку навыков в более низкие предельные затраты токенов. Наконец, мы вводим три метрики эффективности на уровне траектории — коэффициент повторения действий, коэффициент накладных расходов на шаг и использование кэша подсказок — чтобы сделать эффективность видимой за пределами конечного успеха.
Долгосрочный логический вывод LLM превращает кэш ключ-значение (KV) в основного потребителя памяти GPU и делает внимание на каждый токен всё более затратным. Многие распространённые политики вытеснения используют статические окна недавности или историческое внимание, оставляя неиспользованным сигнал, вычисляемый на каждом шаге декодирования: текущую неопределённость модели. Мы представляем CONF-KV — менеджер KV-кэша, который преобразует распределение следующего токена в скалярный показатель уверенности и использует его для выбора бюджета кэша на каждом шаге, сохраняя больше контекста, когда модель не уверена, и агрессивно сокращая его, когда она уверена. В рамках каждого бюджета токены ранжируются по композиту накопленной массы внимания и недавности, при этом защищённое окно недавности сохраняет локальную связность. Мы объединяем эту политику с блочным онлайн-softmax вниманием, смешанным хранением FP16/INT8 и пирамидальным вариантом бюджета на слой. На четырёх семействах моделей и длинах генерации до 4K CONF-KV остаётся близким по объёму памяти к фиксированному скользящему окну из 512 токенов, при этом отклоняясь от полного KV на 1,5–2,1 пункта перплексии. В задаче «Игла в стоге сена» с длиной до 32K токенов CONF-KV достигает точности извлечения 91,4% против 53,8% для скользящих окон и 80,6% для H2O; на 75 задачах VisualWebArena он сохраняет 95,3% успеха полного KV при в 2,8 раза меньшем пиковом объёме памяти.
Большие языковые модели (БЯМ) становятся всё более способными следовать инструкциям и выполнять сложные рассуждения, что делает подсказки (промпты) гибким интерфейсом для адаптации моделей без обновления параметров. Однако разработка промптов остаётся трудоёмкой и крайне чувствительной к форматированию, формулировкам и порядку инструкций, что стимулирует появление методов автоматической оптимизации промптов, снижающих ручные усилия при сохранении гибкости на этапе инференса. Тем не менее существующие методы часто выполняют поиск по кандидатам промптов или используют фиксированные конвейеры критики и уточнения, управляемые отдельными примерами или малыми пакетами, что ограничивает их способность выявлять систематические паттерны ошибок и вносить целенаправленные правки, основанные на истории сбоев. Мы предлагаем Reflective Prompt Tuning (RPT) — фреймворк, который использует вызов функций в БЯМ для имитации итеративной работы инженеров-промптологов. Оптимизатор на основе БЯМ вызывает диагностическую функцию, которая оценивает целевую модель на всём наборе оптимизации, обобщает повторяющиеся типы ошибок и возвращает структурированный диагностический отчёт. Используя этот отчёт вместе с накопленной памятью предыдущих отчётов, оптимизатор пересматривает промпт для следующей итерации. RPT также поддерживает оптимизацию с учётом уверенности (confidence-aware optimization) за счёт использования сигналов калибровки в диагностической обратной связи и при финальном выборе промпта. На трёх задачах рассуждения RPT улучшает исходные промпты на величину до 12,9 процентных пунктов, остаётся конкурентоспособным с современным состоянием дел и улучшает калибровку уверенности. Наш анализ показывает, что RPT особенно эффективен для многошаговых и математических рассуждений, обеспечивая целевые правки промптов, согласованные с выявленными паттернами ошибок, и приводя к улучшению как производительности задачи, так и калибровки.
Большие языковые модели (БЯМ) стали центральной парадигмой в искусственном интеллекте, однако базовый вычислительный примитив внимания оставался структурно неизменным. Локальное Линейное Внимание (LLA) — это механизм внимания, выведенный из непараметрической статистики в рамках регрессионного подхода, применяемого на этапе тестирования. В отличие от предыдущих исследований эффективных вариантов внимания, LLA заменяет локальную константную оценку в softmax-внимании на локальную линейную оценку, что обеспечивает доказуемо превосходный компромисс смещения и дисперсии для ассоциативной памяти. Однако LLA не масштабировалось при предобучении БЯМ из-за проблем вычислительной сложности и численной устойчивости. Мы представляем Parallax — параметризованное Локальное Линейное Внимание, пригодное для масштабирования в БЯМ. Parallax исключает численный решатель из LLA и добавляет обучаемый проектор, подобный запросу, который зондирует ковариацию ключей и значений. Мы помещаем Parallax в семейство механизмов внимания, объединённых шириной окна, конструкцией зонда и аффинной структурой. Мы предлагаем алгоритм, учитывающий особенности аппаратного обеспечения, который повышает арифметическую интенсивность по сравнению с FlashAttention, переводя внимание в более вычислительно-ограниченный режим. Наш прототип ядра декодирования сравнивается или превосходит FlashAttention 2/3 при различных размерах батча и длинах контекста. Мы предобучаем Parallax на масштабах 0,6B и 1,7B и обнаруживаем последовательное улучшение перплексии на протяжении всего предобучения, причём выигрыш переносится на последующие бенчмарки. Преимущество сохраняется как при контроле по числу параметров, так и по вычислительным затратам, что демонстрирует Парето-улучшение. Мы проводим тщательные абляции по предобучению и выявляем новый феномен: Muon раскрывает потенциал Parallax. Насколько нам известно, это первая эмпирическая демонстрация сильного совместного проектирования архитектуры и оптимизатора для механизмов внимания в литературе по архитектурам.
Обучение с подкреплением на основе человеческой обратной связи (RLHF) является стандартным методом согласования больших языковых моделей (LLM) с человеческими предпочтениями. В данной работе мы вводим понятие «вмешательство в согласование» — потенциальную уязвимость, при которой LLM, проходящая процедуру согласования, влияет на набор данных предпочтений, заставляя RLHF усиливать нежелательное поведение. Эта проблема возникает из-за фундаментальных ограничений RLHF: (1) наборы данных предпочтений строятся на основе собственных выходов LLM, что позволяет модели влиять на них, и (2) парные сравнения указывают только на то, какой ответ лучше, но не объясняют почему. Эти ограничения могут быть использованы для вмешательства в согласование. Например, если LLM генерирует предвзятые ответы более высокого качества, аннотаторы будут отдавать им предпочтение на основе качества. Однако метки предпочтений не разделяют качество и предвзятость, и модель вознаграждения наследует это ограничение. Оптимизация таких вознаграждений с помощью обучения с подкреплением или выборки best-of-N может усилить несоответствующие предубеждения. Наши эксперименты демонстрируют усиление различных видов предвзятости: от предвзятости по ключевым словам до пропаганды (например, сексизм), продвижения брендов и инструментального преследования целей. Смягчение последствий остаётся сложной задачей, поскольку существующие методы устойчивого RLHF не позволяют полностью устранить вмешательство в согласование без ущерба для качества ответов. Эти результаты выявляют структурные уязвимости текущего RLHF и подчёркивают необходимость предотвращения данной уязвимости. Страница проекта: https://alignment-tampering.github.io/
Извлечение инструментов из больших каталогов API является ключевым узким местом для LLM-агентов: пользовательские запросы поступают на разговорном, часто неконкретном языке, в то время как каталог использует техническую терминологию API, которую ни один фиксированный кодер не может преодолеть самостоятельно. Два доминирующих подхода к обучению — тонкая настройка контрастного кодера и расширение запросов в стиле HyDE с замороженной LLM — решают эту проблему с противоположных сторон и терпят неудачу в дополняющих друг друга направлениях: тонко настроенный кодер превосходно работает, когда поверхностная форма запроса уже соответствует каталогу, но разрушается, если это не так, в то время как HyDE в режиме zero-shot более устойчив к неконкретным запросам, однако генерирует гипотетические описания, не осведомленные о каталоге, что ухудшает извлечение, когда запросы сформулированы корректно. Мы представляем CoHyDE — итеративную процедуру, которая обучает плотный кодер и LLM-переписчик как единую совместно эволюционирующую систему: кодер переобучается с InfoNCE на гипотетических описаниях в стиле каталога, созданных переписчиком, а переписчик выравнивается по предпочтениям через DPO на основе оценок извлечения кодера, причем обе стороны инициализируются на каталоге инструментов до начала цикла. На подмножестве из ~10k инструментов каталога ToolBench три раунда CoHyDE улучшают сильнейший однокомпонентный базовый метод на +2.5 п.п. NDCG@5 для стандартных запросов и на +6.3 п.п. для отложенных нечетких запросов, при этом прирост достигает +8 п.п. для самых сложных нечетких запросов. Абляции подтверждают, что совместное обучение является ключевым ингредиентом: использование любого компонента по отдельности не позволяет достичь результатов CoHyDE как для хорошо сформулированных, так и для нечетких запросов, с потерями до -8 п.п. на нечетких запросах.
Мы показываем, что LoRA-адаптеры, доминирующий формат распространения дообученных LLM, могут быть надежно заражены бэкдором через отравление обучающих данных с сохранением базовой производительности задачи. На классификаторе инъекций промптов Qwen 2.5 1.5B малая доля отравленных примеров доводит бэкдор, сохраняющий точность на чистых данных, до насыщения. Полученный бэкдор обобщается на уровне токенных признаков, а не на уровне структурных шаблонов: модель, обученная на одной ссылке RFC, активируется на любой ссылке RFC, но не переносится на структурно идентичные цитаты ISO, OWASP, CWE или NIST. Эта асимметрия играет на руку атакующему, поскольку защитник не может в общем виде зондировать на предмет «структурированных цитат». Мы характеризуем атаку по масштабу и семейству базовой модели, рангу LoRA и строке-триггеру, и оцениваем два взаимодополняющих пути обнаружения на когорте адаптеров с разными начальными значениями. Поведенческий детектор, построенный на двух статистиках набора зондов, outlier_gap и mean_attack_rate, полностью разделяет отравленные и чистые адаптеры, когда набор зондов перекрывает токенную окрестность триггера, и с высокой полнотой при нулевом количестве ложных срабатываний в противном случае. Статистика на уровне весов — межмодульное стандартное отклонение норм Фробениуса, нормализованных по размерности, — также полностью разделяет когорту без запуска модели. Вместе два пути устойчивы к составу зондов. Каузальное патчирование локализует бэкдор в блоке MLP на средних и поздних слоях, при этом down_proj является сильнейшей единственной причиной среди проекций. Повторения по масштабу, семейству и рангу показывают, что поведенческий детектор переносится без перенастройки, в то время как детектор на уровне весов привязан к калибровке базовой модели. Атака монотонно масштабируется с рангом, а выбранный якорный токен триггера зависит как от триггера, так и от базовой модели. Поведенческое обнаружение является операционно переносимым результатом для сканирования цепочки поставок адаптеров.
Модели зрения-языка (VLM) часто испытывают трудности с надежным 3D-пространственным рассуждением. Распространенные методы, основанные на тонкой настройке с использованием наборов данных для 3D-вопросов-ответов (VQA), могут переобучаться под специфические смещения наборов данных, а интеграция специализированных 3D-визуальных кодировщиков часто оказывается негибкой и громоздкой. В данной статье мы утверждаем, что подлинное пространственное понимание должно возникать из изучения фундаментальных геометрических априорных знаний, а не только из высокоуровневого контроля VQA. Мы предлагаем GASP (Geometric-Aware Spatial Priors) — фреймворк, который внедряет эти априорные знания непосредственно в слои трансформера большой языковой модели (LLM). GASP использует небольшую голову соответствия, применяемую как сигнал глубокого контроля на всех слоях, и обучается с двойной целью, используя эталонную геометрию из крупномасштабных видео сцен: контрастная потеря на эталонных точечных соответствии обеспечивает 2D-инвариантность к точке обзора, а контроль согласованности глубины разрешает 3D-геометрические неоднозначности. Наш анализ сначала предоставляет диагностику, показывающую, что точность внутреннего сопоставления соответствий в стандартных VLM очень низкая (часто ниже 5%). Затем мы демонстрируем, что наше обучение существенно улучшает это поведение, повышая пиковую послойную точность соответствий до более чем 70% и сохраняя временную робастность выше 85%, в то время как базовые методы остаются ниже 5%. Эти внутренние улучшения приводят к значительным успехам на последующих пространственных бенчмарках, включая +18,2% на All-Angles Bench и +29,0% на VSI-Bench, причем все это достигается без обучения на каких-либо данных 3D VQA. Наши результаты указывают на то, что обучение на основе фундаментальных геометрических априорных знаний является перспективным и обобщаемым путем к созданию VLM с более надежным 3D-пространственным рассуждением.
Мы исследуем двухуровневый автоисследовательский подход к кооперации: ИИ-агент внешнего цикла автономно перепроектирует конвейер внутреннего цикла системы синтеза политик на основе LLM для многоагентных последовательных социальных дилемм (Sequential Social Dilemmas, SSD). Агент-исследователь R (реализованный как кодирующий агент) читает исходный код внутреннего цикла, редактирует системные промпты, функции обратной связи, вспомогательные библиотеки и логику итераций, запускает оценки и принимает решения о сохранении, следуя парадигме автоисследования. На двух играх (Cleanup и Gathering), двух LLM-синтезаторах политик и двух целевых функциях благосостояния (утилитарная эффективность и роулзианский максимин) исследователь стабильно превосходит вручную разработанные базовые решения, существенно снижает разброс результатов между запусками и превосходит оптимизацию только за счет промптов. Обнаруженные конвейеры зависят от целевой функции: только при максимине исследователь внедряет в конвейеры синтезатора явный механизм справедливости — класс механизмов, отсутствующих как в его собственной целе-агностической системной подсказке, так и во всех конвейерах, оптимизированных по эффективности. Это согласуется с интерпретацией в рамках теории информации, согласно которой исследователь выбирает, что раскрывать ограниченно рациональному синтезатору, в зависимости от целевой функции благосостояния. Код доступен по адресу https://github.com/vicgalle/autoresearch-social-dilemmas.
Мы представляем OmniInteract — потоковый бенчмарк для оценки многомодальных больших языковых моделей в реальном времени, основанный на нативной онлайн-обработке аудиовизуальных потоков. В отличие от задач офлайн-понимания видео или ответов на запросы по текстовым подсказкам в потоковом режиме, OmniInteract сохраняет исходный аудиовизуальный поток и требует, чтобы модели обрабатывали его онлайн, без доступа к будущему контенту. Пользовательские запросы и фоновые звуки встроены в аудиодорожку, что вынуждает модели обнаруживать мультимодальные триггеры, принимать решение о моменте ответа и давать ответ по мере развертывания потока. OmniInteract содержит 250 видеороликов с 1430 временно привязанными слотами для ответов: 1062 слота формата «1 вопрос — 1 ответ» для сценариев реального времени, проактивного взаимодействия и вложенных запросов, а также 368 слотов формата «1 вопрос — несколько ответов» для непрерывного мониторинга задач и пошагового руководства. Каждый слот включает триггер, окно ответа и целевой ответ. Мы оцениваем корректность ответов, временные характеристики, некорректные выходные данные, обработку прерываний и непрерывность контекста с помощью метрик Interaction-Aware Quality-Timeliness F1, Interruption Diagnostic Suite и Nested Chain Completion Score. Эксперименты показывают, что современные модели остаются слабыми в потоковом взаимодействии: наилучший общий показатель IA-QTF1 достигает лишь 0,368, а лучший показатель для формата «1 вопрос — несколько ответов» составляет всего 0,052. Дальнейшее исследование математических рассуждений в условиях полнодуплексной связи показывает, что офлайн-способности не обязательно переносятся на онлайн-взаимодействие. Код и наборы данных будут доступны по адресу https://github.com/Lucky-Lance/OmniInteract.
Высокоточная генерация 3D-головных аватаров на основе гауссианов имеет решающее значение для таких приложений, как AR/VR, телеприсутствие и цифровые люди. Существующие методы основаны на многовидовых наборах данных, 3D-захватах или промежуточном синтезе 2D-изображений. В отличие от них, мы обучаем как условные, так и безусловные 3D-модели головы исключительно на случайно выбранных 2D-изображениях, без использования многовидовых данных, 3D-надзора или промежуточной генерации видов. Мы представляем MVCHead — однопроходную модель пространства состояний, которая обеспечивает многовидовую согласованность (MVC) непосредственно в 3D-представлении, одновременно регрессируя 3D-гауссианы при этих ограничениях. В основе модели лежит предложенный иерархический блок пространства состояний (HiSS), который постепенно уточняет гауссианы от грубого к точному, улавливая долгосрочные зависимости. Внутри каждого блока HiSS мы модифицируем стандартное однонаправленное сканирование Mamba с помощью предложенного иерархического двунаправленного сканирования состояний (HiBiSS), которое выравнивает рекуррентность вдоль осей, вдоль которых многовидовые несоответствия наиболее сильны. Наконец, мы разрабатываем SE(3)-многовидовой критик, который оценивает, возникает ли набор собственных рендеров из единой 3D-конфигурации, поощряя попиксельное выравнивание между видами без наблюдения реальных многовидовых пар. MVCHead достигает современного перцепционного качества, превосходит предыдущие методы как по текстурной, так и по геометрической согласованности, сохраняя при этом сопоставимую согласованность формы. Для демонстрации масштабируемости мы выпускаем FaceGS-10K — первый крупномасштабный набор данных готовых к использованию 3D-головных аватаров на основе гауссианов для обучения и оценки 3D-моделей головы. Страница проекта и код: https://humansensinglab.github.io/MVCHead/
Глобализация и мультикультурализм продолжают порождать всё более разнообразные речевые варианты. Однако современные системы устного диалога часто дают сбои при работе с недостаточно представленными диалектами и акцентами, неверно идентифицируя входной язык и вызывая каскадные ошибки в последующих диалоговых задачах. Решение проблемы диалектной вариативности в условиях ограниченных ресурсов остаётся открытой задачей, поскольку стандартная тонкая настройка требует больших вычислительных затрат и подвержена переобучению на многомерных речевых данных. Мы предлагаем Convex Language Detection (CLD) — новую структуру, которая интегрирует теоретически обоснованные методы выпуклой оптимизации в конвейер систем устного диалога. Наш метод эффективно реализуется с помощью многопроцессорного метода множителей с переменным направлением (ADMM) в JAX, что обеспечивает глобальные гарантии оптимальности и быстрое обучение за полиномиальное время. Теоретически мы доказываем, что наша выпуклая целевая функция обеспечивает сертифицированную робастность границ и предоставляет гарантии против возмущений признаков. Эмпирически мы демонстрируем эффективность по выборке и устойчивость к диалектной вариативности входных данных, достигая точности 97–98% в сложных условиях с ограниченными ресурсами. Наш пакет с открытым исходным кодом доступен по адресу https://pypi.org/project/jaxcld/.
Дискретные диффузионные модели часто обучаются с помощью предсказания чистых данных, но это предсказание может использоваться различными способами для определения обратной динамики. В моделях маскированной диффузии (MDM) эти варианты в значительной степени совпадают, тогда как в моделях равномерной диффузии (UDM) это не так. Мы показываем, что стандартная параметризация плагинного моста для UDM не оптимизируется шумоподавляющим апостериорным распределением, а скорее апостериорным распределением с исключением одного, которое предсказывает каждый чистый токен, не используя его собственное зашумленное наблюдение. Это выявляет несоответствие между плагинной вариационной нижней границей (ELBO) и обычной кросс-энтропийной целью шумоподавления. Мы характеризуем цель с исключением одного и выводим точные преобразования между шумоподавителем, апостериорным распределением с исключением одного и скором. Эти преобразования позволяют разделить параметризацию и цель обучения. Наши результаты также приводят к улучшению вывода без дополнительного обучения за счет информированного сэмплера предиктор-корректор и улучшенной температурной выборки на основе предиктора с исключением одного. Мы дополнительно вводим поглощающую переформулировку равномерной диффузии, которая сохраняет совместный закон UDM, разлагая его на операции выборки, подобные маскированной диффузии, с более простыми шумоподавляющими апостериорными распределениями, переносом снятия маски и естественным механизмом повторной маскировки. В задаче языкового моделирования параметризации с исключением одного последовательно улучшают генерацию UDM, в то время как поглощающая конструкция достигает результатов, сопоставимых с маскированной диффузией или превосходящих ее. Эти результаты позволяют предположить, что эмпирический разрыв между маскированной и равномерной диффузией объясняется скорее параметризацией и дизайном выборки, чем выбором самих маргинальных распределений. Код и модели доступны по адресу https://github.com/samsongourevitch/rev_udm.
Создание анималистических эффектов кинематографического качества требует точного моделирования динамики мышц и шерсти — процесса, который остается трудоемким и вычислительно затратным в рамках традиционных производственных процессов. Хотя генеративные диффузионные модели продемонстрировали перспективность в различных художественных процессах, их потенциал для высокоточной симуляции животных остается в значительной степени неиспользованным. Мы представляем MoZoo — генеративный решатель динамики, который обходит традиционную доработку, чтобы синтезировать высококачественные видео с животными на основе грубых сеток под мультимодальным управлением. Мы предлагаем Role-Aware RoPE (RAR-RoPE), который использует переиндексацию на основе ролей для синхронизации выравнивания движения, одновременно разделяя эталонную информацию с помощью фиксированных временных сдвигов. В дополнение к этому, Asymmetric Decoupled Attention разделяет скрытую последовательность, чтобы обеспечить однонаправленный поток информации, что эффективно предотвращает интерференцию признаков и повышает вычислительную эффективность. Для решения проблемы нехватки высококачественных обучающих данных мы представляем MoZoo-Data — конвейер «от синтеза к реальности», который использует механизм рендеринга и подход обратного отображения для создания крупномасштабного набора данных парных последовательностей. Кроме того, мы создаем MoZooBench — всесторонний бенчмарк, содержащий 120 пар сеток и видео. Результаты экспериментов демонстрируют, что MoZoo обеспечивает высококачественную симуляцию шерсти на различных скелетах и расположениях животных, сохраняя превосходную временную и структурную согласованность.
Большие языковые модели (LLM) демонстрируют систематическую политическую предвзятость в различных чувствительных контекстах. Мы обнаружили, что LLM обрабатывают парные темы из противоположных политических лагерей асимметрично. Этот феномен мы называем скрытой политической предвзятостью и выделяем 7 категорий техник, через которые она реализуется. Для оценки скрытой предвзятости мы предлагаем две метрики: согласованность тона (Sentiment Consistency) измеряет симметрию риторики и формулировок в парных политических запросах; согласованность полезности (Helpfulness Consistency) измеряет симметричную глубину и вовлеченность ответов. Чтобы уменьшить оба типа скрытой предвзятости, мы предлагаем обучение политической согласованности (Political Consistency Training, PCT) — метод RL-обучения с двумя взаимодополняющими парадигмами: обучение согласованности тона (Sentiment Consistency Training) и обучение согласованности полезности (Helpfulness Consistency Training). Мы показываем, что PCT сохраняет общую полезность, существенно снижает скрытую политическую предвзятость и обобщается на тестовые наборы данных, не использовавшиеся в обучении. Наша работа доступна по адресу https://political-manipulation.ai.
Последние достижения в области моделей зрения-языка (VLM) демонстрируют впечатляющую производительность во многих задачах, однако предыдущие исследования сообщают о неудовлетворительных результатах при применении больших языковых или мультимодальных моделей к поиску аномальных паттернов в последовательных данных. Публичные бенчмарки по обнаружению аномалий обычно предоставляют интервальные аннотации, но не обоснования на естественном языке, что затрудняет тонкую настройку VLM для получения обоснованных и интерпретируемых решений. Для устранения этого пробела мы создаем VisAnomBench — тщательно подобранный бенчмарк, построенный на основе публичных наборов данных временных рядов и дополненный высококачественными объяснениями аномалий, отобранными из нескольких крупных VLM с использованием тонко настроенных, специфичных для задачи вознаграждений. Путем тонкой настройки на этом бенчмарке мы разрабатываем VisAnomReasoner — параметроэффективную VLM для обнаружения аномалий во временных рядах. Экспериментальные результаты на VisAnomBench показывают, что VisAnomReasoner обеспечивает более точную локализацию аномалий и стабильно превосходит все базовые модели, улучшая точность и F1-меру как минимум на 21,23 и 23,87 процентных пункта соответственно. Дополнительные эксперименты на бенчмарке TSB-AD-U демонстрируют сильную обобщаемость между бенчмарками: VisAnomReasoner улучшает точность и F1-меру на 9,57 и 13,39 процентных пункта соответственно.
Данная работа представляет ViGeo, прямосвязную базовую модель для восстановления пространственно плотной и временно согласованной геометрии из видеопоследовательностей. Построенная на основе простой архитектуры трансформера без архитектурных модификаций, специфичных для задачи, ViGeo поддерживает инференс в потоковом режиме, на полной последовательности и на длинных видео в рамках единой модели. Ключевым элементом дизайна является динамическое блочное внимание, которое подвергает модель как двунаправленному, так и каузальному временному контексту во время обучения и позволяет ей адаптировать свой паттерн внимания во время тестирования без переобучения. Для улучшения качества супервизии мы также представляем фреймворк уточнения данных на основе восполнения. Этот фреймворк обучает видео-учителя восполнения глубины, который обусловлен разреженными и зашумленными аннотациями и использует видеоконтекст и контекст множества видов для создания плотных, временно согласованных и геометрически надежных обучающих целей. Помимо карт глубины и точечных карт, ViGeo также предсказывает нормали поверхности в рамках того же фреймворка. Обученная исключительно на публичных наборах данных, ViGeo достигает современного уровня производительности в оценке глубины в онлайн-режиме, офлайн-режиме и для длинных видео, оценке нормалей поверхности и оценке точечных карт видео.
Центральным узким местом для агентов управления телефоном является то, что контролируемые, воспроизводимые среды, охватывающие реальное мобильное поведение, сложно построить в масштабе. Существующие эталонные тесты для мобильных агентов достигли важного прогресса в оценке, но сами по себе не предоставляют масштабируемого способа создания множества новых сред использования телефона. Мы представляем PhoneWorld — переиспользуемый пайплайн, который преобразует реальные GUI-траектории и скриншоты в контролируемые среды использования телефона, исполняемые задачи, автоматические верификаторы и обучающие развертывания. Вместо того чтобы вручную создавать один мобильный эталон за раз, PhoneWorld использует реальные траектории для восстановления того, какие экраны важны, как экраны связаны, какие взаимодействия должны изменять состояние среды и какие пользовательские цели допускают автоматическую верификацию. На основе этих сигналов он строит исполняемые имитационные Android-приложения, поддерживаемые контентом приложений только для чтения и изменяемым состоянием, а затем из тех же сред выводит исполняемые задачи, верификаторы на основе правил и обучающие развертывания. В своей текущей реализации PhoneWorld охватывает 34 приложения из 16 доменов, охватывающих типичное потребительское мобильное поведение, такое как поиск, просмотр, покупки, бронирование, медиа и социальное взаимодействие. При фиксированном бюджете обучения замена 10 000 шагов из вспомогательного корпуса AndroidWorld в базовом решении на основе AndroidWorld на широкую супервизию PhoneWorld единовременно улучшает все четыре оценочных эталона, повышая HYMobileBench на 17,7 балла, AndroidControl на 6,0 балла, AndroidWorld на 14,7 балла и PhoneWorld на 52,5 балла. Затем мы изучаем два дополнительных вопроса масштабирования: увеличение объема супервизии PhoneWorld значительно улучшает производительность PhoneWorld, а при фиксированном бюджете PhoneWorld расширение охвата приложений дает еще больший прирост. В целом, PhoneWorld смещает фокус с создания одного мобильного эталона за раз на масштабирование поставки самих сред использования телефона.
Смартфонное мошенничество становится все более распространенным и обычно проявляется в виде многоэтапных процессов, охватывающих несколько приложений, с постепенно выявляющимся намерением. Таким образом, эффективное вмешательство требует прогнозирования мошенничества до того, как намерение станет явным. Это само по себе сложно, так как решения должны основываться на частичных траекториях с распределенными во времени уликами. В данной статье мы предлагаем ORACLE (Online Reasoning for Anticipating Cross-temporal Latent thrEats) — первую агентную структуру для раннего прогнозирования мошенничества на основе потоковых траекторий использования приложений. Для поддержки этого сценария мы подготовили реальный долгосрочный бенчмарк потоковых траекторий использования приложений, охватывающий 12 типов мошенничества, простирающийся на длительные периоды (в среднем 15 дней), включающий разнообразные приложения (95 приложений) и перемежающий нормальное и мошенническое поведение. Для решения проблемы фрагментированных улик мы вводим саморазвивающийся менеджер контекста, который адаптивно консолидирует взаимодействия, ориентированные на сущности, с течением времени, что позволяет более эффективно восстанавливать кросс-временные улики из частичных наблюдений. Для повышения чувствительности к скрытым сигналам на ранних стадиях мы предлагаем схему самодистилляции на политике, в которой модель-учитель, основанная на обобщенных антимошеннических размышлениях и подсказках по навыкам, контролирует модель-ученик, не имеющую доступа к таким размышлениям. Эта схема, таким образом, дистиллирует знания, подкрепленные уликами, и улучшает распознавание возникающих схем мошенничества на основе частичных траекторий. Эксперименты показывают, что ORACLE последовательно улучшает раннее прогнозирование мошенничества, обеспечивая своевременные предупреждения при снижении числа ложных срабатываний в реалистичных потоковых сценариях.