Ежедневно отобранные исследовательские статьи по ИИ с переводами
По мере роста возможностей языковых моделей пользователи ожидают от них не только точных ответов, но и поведения, согласованного с разнообразными человеческими предпочтениями в различных сценариях. Для достижения этой цели в конвейеры обучения с подкреплением (Reinforcement Learning, RL) начали включать множественные вознаграждения, каждое из которых отражает отдельное предпочтение, чтобы направлять модели к желаемому поведению. Однако в последних работах по умолчанию применяется Оптимизация политики с групповой относительной оценкой (Group Relative Policy Optimization, GRPO) в условиях множественных вознаграждений без проверки её целесообразности. В данной статье мы показываем, что прямое применение GRPO для нормализации различных комбинаций вознаграждений сэмплов приводит к их коллапсу в идентичные значения преимущества (advantage), что снижает разрешающую способность обучающего сигнала и ведет к субоптимальной сходимости, а в некоторых случаях — к преждевременному сбою обучения. Затем мы представляем GDPO (Group reward-Decoupled Normalization Policy Optimization) — новый метод оптимизации политики, который решает эти проблемы путем раздельной нормализации индивидуальных вознаграждений, более точно сохраняя их относительные различия и обеспечивая более точную оптимизацию по множественным вознаграждениям наряду со значительным повышением стабильности обучения. Мы сравниваем GDPO с GRPO в трех задачах: вызове инструментов, математических рассуждениях и программных рассуждениях, оценивая как метрики корректности (точность, доля ошибок), так и метрики соблюдения ограничений (формат, длина). Во всех экспериментах GDPO последовательно превосходит GRPO, демонстрируя свою эффективность и универсальность для оптимизации обучения с подкреплением с множественными вознаграждениями.
Применение затухания весов (weight decay, WD) к матричным слоям является стандартной практикой при предварительном обучении больших языковых моделей. Предыдущие исследования показывают, что шум стохастического градиента вызывает броуновское расширение матриц весов W, рост которого подавляется WD, что приводит к равновесию между WD и шумом с определенной нормой весов ||W||. В данной работе мы рассматриваем равновесную норму как вредный артефакт процедуры обучения и устраняем его путем введения обучаемых множителей для изучения оптимального масштаба. Сначала мы присоединяем к W обучаемый скалярный множитель и подтверждаем, что равновесная норма WD-шума является субоптимальной: изучаемый масштаб адаптируется к данным и улучшает производительность. Затем мы утверждаем, что нормы отдельных строк и столбцов аналогично ограничены, и освобождаем их масштаб, вводя обучаемые множители для каждой строки и каждого столбца. Наш метод можно рассматривать как обобщение множителей muP с обучаемостью и большей выразительностью. Он превосходит хорошо настроенный muP-базис, сокращает вычислительные затраты на настройку множителей и поднимает практические вопросы, такие как симметрии прямого прохода и масштабирование изучаемых множителей по ширине сети. Наконец, мы проверяем обучаемые множители с оптимизаторами Adam и Muon, где они демонстрируют улучшение в последующих оценках, сопоставимое с улучшением от перехода с Adam на Muon.
Коррекция цветопередачи в ночное время остается сложной задачей в вычислительной фотографии из-за шумов при низкой освещенности и сложных условий освещения. Мы представляем RL-AWB, новую архитектуру, сочетающую статистические методы с глубоким обучением с подкреплением для баланса белого в ночных сценах. Наш метод начинается со статистического алгоритма, адаптированного для ночных сцен, который интегрирует обнаружение значимых серых пикселей с новым подходом к оценке освещения. На этой основе мы разрабатываем первый метод коррекции цветопередачи на основе глубокого обучения с подкреплением, использующий статистический алгоритм в качестве ядра и имитирующий работу экспертов по настройке AWB за счет динамической оптимизации параметров для каждого изображения. Для обеспечения кросс-сенсорной оценки мы представляем первый мультисенсорный набор данных ночных сцен. Результаты экспериментов демонстрируют, что наш метод обеспечивает превосходную способность к обобщению как для слабоосвещенных, так и для хорошо освещенных изображений. Страница проекта: https://ntuneillee.github.io/research/rl-awb/
Крупные языковые модели (LLМ) демонстрируют высокую эффективность в различных областях. Однако достижение высокой производительности во всех этих областях с помощью единой модели общего назначения обычно требует масштабирования до размеров, обучение и развертывание которых непомерно дорого. С другой стороны, хотя небольшие специализированные модели гораздо более эффективны, они плохо обобщаются за пределы своих обучающих распределений. Для решения этой дилеммы мы предлагаем FusionRoute — надежную и эффективную фреймворк коллаборации нескольких LLМ на уровне токенов, в которой легковесный маршрутизатор одновременно (i) выбирает наиболее подходящего эксперта на каждом шаге декодирования и (ii) вносит комплементарный логит, который уточняет или корректирует распределение следующего токена выбранного эксперта посредством сложения логитов. В отличие от существующих методов коллаборации на уровне токенов, которые полагаются исключительно на фиксированные выходы экспертов, мы предоставляем теоретический анализ, показывающий, что чистая маршрутизация только между экспертами принципиально ограничена: если не выполняются строгие предположения о глобальном покрытии, она, вообще говоря, не может реализовать оптимальную политику декодирования. Дополняя выбор эксперта обучаемым комплементарным генератором, FusionRoute расширяет класс эффективных политик и позволяет восстановить оптимальные функции ценности при мягких условиях. Экспериментально, на семействах моделей Llama-3 и Gemma-2 и различных бенчмарках, охватывающих математические рассуждения, генерацию кода и следование инструкциям, FusionRoute превосходит как коллаборацию на уровне последовательностей и токенов, так и слияние моделей, и прямое тонкое настройку, оставаясь при этом конкурентоспособным с узкоспециализированными экспертами в их respective tasks.
Разнообразие, объем и качество данных о манипуляциях критически важны для обучения эффективных стратегий управления роботами. Однако из-за ограничений аппаратного обеспечения и физических условий сбора данных масштабирование сбора крупномасштабных данных о манипуляциях в реальном мире в разнообразных средах остается сложной задачей. В последних работах используются диффузионные модели изображений, кондиционированные текстовыми промптами, для аугментации данных манипуляций путем изменения фона и объектов на поверхности в визуальных наблюдениях. Однако эти подходы часто упускают из виду практическую потребность в многовидовых и временно согласованных наблюдениях, необходимых для передовых моделей стратегий. Кроме того, одних лишь текстовых промптов недостаточно для надежного определения сцены. Чтобы предоставить диффузионной модели явное визуальное руководство, мы вводим визуальные промпты идентичности, которые предоставляют эталонные изображения в качестве входных условий для управления генерацией желаемой сцены. Для этого мы также создаем масштабируемый конвейер для курации пула визуальных идентичностей из крупных наборов данных по робототехнике. Использование наших аугментированных данных о манипуляциях для обучения последующих моделей стратегий «визуальный язык-действие» и визомоторных стратегий приводит к стабильному повышению производительности как в симуляции, так и в условиях работы с реальным роботом.
Использование больших языковых моделей (LLM) для сложных логических рассуждений часто ограничивается высокими вычислительными затратами и задержками, в то время как ресурсоэффективные малые языковые модели (SLM), как правило, не обладают необходимой способностью к рассуждениям. Существующие кооперативные подходы, такие как каскадирование или маршрутизация, работают на грубом уровне гранулярности, передавая выполнение целых запросов LLM, что приводит к значительным вычислительным потерям, когда SLM способна обработать большинство шагов рассуждений. Для решения этой проблемы мы предлагаем RelayLLM — новую архитектуру для эффективных рассуждений посредством коллаборативного декодирования на уровне токенов. В отличие от маршрутизаторов, RelayLLM позволяет SLM выступать в роли активного контроллера, который динамически задействует LLM только для критических токенов с помощью специальной команды, эффективно «передавая эстафету» процессу генерации. Мы представляем двухэтапную框架 обучения, включающую подготовительный этап и оптимизацию групповой относительной политики (GRPO), чтобы научить модель балансировать между самостоятельностью и стратегическим запросом помощи. Экспериментальные результаты на шести тестовых наборах показывают, что RelayLLM достигает средней точности 49,52%, эффективно сокращая разрыв в производительности между двумя типами моделей. Примечательно, что это достигается за счет обращения к LLM всего для 1,07% от общего количества сгенерированных токенов, что обеспечивает снижение затрат на 98,2% по сравнению со случайными маршрутизаторами с сопоставимой производительностью.
LLM-агенты стали мощными системами для решения многоходовых задач за счет чередования внутренних рассуждений и внешних взаимодействий с инструментами. Агентное обучение с подкреплением (Agentic Reinforcement Learning) недавно привлекло значительное внимание исследователей как ключевая парадигма пост-обучения для дальнейшего совершенствования этих возможностей. В данной статье мы представляем AT^2PO (Agentic Turn-based Policy Optimization via Tree Search) — унифицированную структуру для многоходового агентного обучения с подкреплением, которая решает три ключевые проблемы: ограниченное разнообразие исследования, разреженное распределение заслуг и несовершенная оптимизация политики. AT^2PO вводит походовую древовидную структуру, которая совместно обеспечивает Расширение Дерева с Управлением Энтропией для стратегического исследования и Походовое Распределение Заслуг для точного распространения вознаграждений от разреженных исходов. Дополняя это, мы предлагаем Агентную Походовую Оптимизацию Политики — целевую функцию обучения на уровне хода, которая согласовывает обновления политики с естественной гранулярностью решений в агентных взаимодействиях. ATPO ортогональна поиску по дереву и может быть легко интегрирована в любой конвейер многоходового обучения с подкреплением. Эксперименты на семи бенчмарках демонстрируют стабильное улучшение по сравнению с современным базовым методом вплоть до 1.84 процентных пункта в среднем, а результаты абляционных исследований подтверждают эффективность каждого компонента. Наш код доступен по адресу https://github.com/zzfoutofspace/ATPO.
Цепочка рассуждений (CoT) стала мощным инструментом для мультимодальных больших языковых моделей в задачах понимания видео. Однако её необходимость и преимущества перед прямым ответом остаются недостаточно изученными. В данной статье мы сначала показываем, что для моделей, обученных с подкреплением, прямой ответ часто соответствует или даже превосходит по эффективности CoT, несмотря на то, что CoT производит пошаговый анализ с более высокими вычислительными затратами. Руководствуясь этим, мы предлагаем VideoAuto-R1 — фреймворк для понимания видео, который использует стратегию рассуждений по необходимости. В процессе обучения наш подход следует парадигме «Подумать один раз, ответить дважды»: модель сначала генерирует первоначальный ответ, затем проводит рассуждения и, наконец, выдает проверенный ответ. Оба ответа контролируются с помощью верифицируемых вознаграждений. На этапе вывода модель использует оценку уверенности в первоначальном ответе, чтобы определить, нужно ли проводить рассуждения. На бенчмарках для вопросно-ответных задач и локализации в видео VideoAuto-R1 достигает наивысшей точности при значительном повышении эффективности, сокращая среднюю длину ответа примерно в 3,3 раза (например, с 149 до всего 44 токенов). Более того, мы наблюдаем низкую частоту активации режима рассуждений на задачах, ориентированных на восприятие, но более высокую — на задачах, требующих интенсивных рассуждений. Это позволяет предположить, что явные языковые рассуждения в целом полезны, но не всегда необходимы.
Модели «визуальный вход-текстовый выход» (VLM) демонстрируют выдающиеся результаты, но остаются уязвимыми для атак со стороны противника. Энтропия, являющаяся мерой неопределённости модели, сильно коррелирует с надёжностью VLM. Предыдущие атаки на основе энтропии максимизируют неопределённость на всех шагах декодирования, неявно предполагая, что каждый токен в равной степени способствует нестабильности генерации. Мы же показываем, что небольшая доля (около 20%) токенов с высокой энтропией, то есть критических точек принятия решений в авторегрессионной генерации, непропорционально сильно определяет траектории выходных данных. Сосредоточив адверсарные возмущения на этих позициях, мы достигаем семантической деградации, сопоставимой с глобальными методами, при использовании существенно меньшего бюджета. Что более важно, на множестве репрезентативных VLM такие избирательные атаки преобразуют 35–49% доброкачественных выводов во вредоносные, выявляя более серьёзный риск для безопасности. Примечательно, что эти уязвимые точки ветвления с высокой энтропией повторяются в архитектурно разнообразных VLM, что обеспечивает осуществимость переносимости (17–26% вредоносных результатов на неизвестных целевых моделях). Руководствуясь этими выводами, мы предлагаем метод атак со стороны противника с управлением по энтропийному банку (EGA), который достигает конкурентоспособных показателей успешности атак (93–95%) наряду с высоким процентом вредоносных преобразований, тем самым выявляя новые слабости в современных механизмах безопасности VLM.
Видеомодели мира призваны симулировать динамичные реальные среды, однако существующие методы не обеспечивают единообразного и точного управления движением камеры и множества объектов, поскольку видео по своей природе оперирует динамикой в проецируемой 2D-плоскости изображения. Для преодоления этого разрыва мы представляем VerseCrafter — 4D-ориентированную видеомодель мира, которая обеспечивает явное и согласованное управление как динамикой камеры, так и объектов в рамках единого 4D-геометрического состояния мира. Наш подход основан на новом представлении 4D Geometric Control, которое кодирует состояние мира через статичное облако точек фона и 3D-траектории Гаусса для каждого объекта. Это представление фиксирует не только путь объекта, но и его вероятностную 3D-занятость во времени, предлагая гибкую, категорийно-независимую альтернативу жёстким ограничивающим рамкам или параметрическим моделям. Данные 4D-элементы управления преобразуются в conditioning-сигналы для предобученной модели видеодиффузии, позволяя генерировать высокодетализированные, видово-согласованные видео, точно следующие заданной динамике. К сожалению, другая серьёзная проблема заключается в нехватке масштабных данных для обучения с явными 4D-аннотациями. Мы решаем это путём разработки автоматизированной системы обработки данных, которая извлекает необходимые 4D-элементы управления из произвольных видео, что позволяет обучать нашу модель на огромном и разнообразном наборе данных.
Модели типа «смесь экспертов» широко принято считать достигшими предметной специализации за счет разреженного маршрутизирования. В данной работе мы ставим это предположение под сомнение, вводя COMMITTEEAUDIT — постфактумный фреймворк, который анализирует поведение маршрутизации на уровне групп экспертов, а не отдельных экземпляров. На примере трех репрезентативных моделей и бенчмарка MMLU мы выявляем доменно-инвариантный Постоянный комитет. Это компактная коалиция маршрутизируемых экспертов, которая стабильно аккумулирует большую часть маршрутизируемой массы across доменами, слоями и бюджетами маршрутизации, даже в архитектурах, уже включающих общих экспертов. Качественный анализ дополнительно показывает, что Постоянные комитеты закрепляют структуру и синтаксис рассуждений, тогда как периферийные эксперты обрабатывают предметно-специфичные знания. Эти находки выявляют сильную структурную склонность к централизованным вычислениям, что позволяет предположить, что специализация в моделях «смеси экспертов» гораздо менее распространена, чем принято считать. Эта врожденная склонность также указывает на то, что современные целевые функции обучения, такие как потери балансировки нагрузки, обеспечивающие равномерное использование экспертов, могут работать против естественного пути оптимизации модели, тем самым ограничивая эффективность обучения и производительность.
Парадигма "LLM-как-оценщик" произвела революцию в оценке ИИ, используя большие языковые модели для масштабируемых оценок. Однако по мере того, как оцениваемые системы становятся все более сложными, специализированными и многоэтапными, надежность данного подхода оказалась ограничена присущими ему предубеждениями, поверхностным одношаговым рассуждением и неспособностью проверять оценки на основе наблюдений за реальным миром. Это стимулировало переход к парадигме "Агент-как-оценщик", в которой агенты-оценщики используют планирование, проверку с помощью инструментов, многопользовательское взаимодействие и постоянную память для обеспечения более надежных, проверяемых и детальных оценок. Несмотря на быстрое распространение агентских систем оценки, в данной области отсутствует единая система координат для навигации в этом меняющемся ландшафте. Чтобы заполнить этот пробел, мы представляем первое всестороннее исследование, прослеживающее эту эволюцию. В частности, мы определяем ключевые параметры, характеризующие этот сдвиг парадигмы, и устанавливаем таксономию развития. Мы систематизируем основные методологии и рассматриваем приложения в общих и профессиональных областях. Кроме того, мы анализируем ключевые проблемы и определяем перспективные направления исследований, предлагая, в конечном счете, четкий план для создания следующего поколения агентской оценки.
Методы генеративного перерендеринга видео с управлением камерой, такие как ReCamMaster, достигли значительного прогресса. Однако, несмотря на успехи в условиях одного ракурса, эти подходы часто испытывают трудности с поддержанием согласованности в многовидовых сценариях. Обеспечение пространственно-временной согласованности в сгенерированных областях остается сложной задачей из-за присущей генеративным моделям стохастичности. Для решения этой проблемы мы представляем PlenopticDreamer — фреймворк, который синхронизирует генеративные галлюцинации для поддержания пространственно-временной памяти. Ключевая идея заключается в авторегрессионном обучении модели «многие-входы-один-выход» с видео-условием, чему способствует стратегия поиска видео с управлением камерой, адаптивно выбирающая значимые видео из предыдущих генераций в качестве условных входов. Кроме того, наше обучение включает прогрессивное масштабирование контекста для улучшения сходимости, самокондиционирование для повышения устойчивости к долгосрочной визуальной деградации, вызванной накоплением ошибок, и механизм кондиционирования на длинные видео для поддержки расширенной генерации видео. Многочисленные эксперименты на базовых бенчмарках и Agibot демонстрируют, что PlenopticDreamer достигает передовых результатов в перерендеринге видео, обеспечивая превосходную синхронизацию ракурсов, визуализацию высокой четкости, точное управление камерой и разнообразные преобразования видов (например, от третьего лица к третьему лицу и от вида от первого лица к виду захвата в роботизированных манипуляциях). Страница проекта: https://research.nvidia.com/labs/dir/plenopticdreamer/
Ответы на вопросы в трехмерных средах с физическим взаимодействием (EQA) часто требуют сбора контекста, распределенного между множественными точками обзора и частично перекрытого. Однако большинство современных моделей "зрение-язык" (VLM) ограничены фиксированным и конечным набором входных видов, что ограничивает их способность получать релевантный вопросу контекст во время вывода и затрудняет сложное пространственное рассуждение. Мы предлагаем метод Chain-of-View (CoV) — не требующий обучения фреймворк для рассуждений во время тестирования, который превращает VLM в активный анализатор точек обзора через процесс исследования от грубого к точному. CoV сначала использует агент выбора обзора для фильтрации избыточных кадров и идентификации якорных видов, согласованных с вопросом. Затем выполняется точная настройка обзора путем чередования итеративных рассуждений с дискретными действиями камеры, получая новые наблюдения из базового представления 3D-сцены до тех пор, пока не будет собран достаточный контекст или не будет достигнут лимит шагов. Мы оцениваем CoV на OpenEQA с использованием четырех основных VLM и получаем среднее улучшение +11,56% по метрике LLM-Match, с максимальным приростом +13,62% на Qwen3-VL-Flash. CoV также демонстрирует масштабируемость во время тестирования: увеличение минимального бюджета действий дает дополнительное среднее улучшение +2,51%, достигая пика в +3,73% на Gemini-2.5-Flash. На ScanQA и SQA3D CoV показывает высокую производительность (например, 116 CIDEr / 31,9 EM@1 на ScanQA и 51,1 EM@1 на SQA3D). В целом, эти результаты свидетельствуют о том, что выбор обзора, согласованный с вопросом, в сочетании с поиском в открытом пространстве видов является эффективной, модельно-независимой стратегией для улучшения пространственного мышления в 3D EQA без дополнительного обучения.
Метод рассуждений «цепочка мыслей» (CoT) улучшает решение многошаговых математических задач в больших языковых моделях, но остаётся уязвимым к смещению распределения и накоплению ошибок, поскольку ранние ошибки необратимо распространяются в процессе авторегрессионного декодирования. В данной работе мы предлагаем DiffCoT — фреймворк CoT в стиле диффузии, который переформулирует CoT-рассуждения как итеративный процесс шумоподавления. DiffCoT интегрирует принципы диффузии на уровне шагов рассуждения с помощью скользящего окна, позволяя объединить генерацию и ретроспективную коррекцию промежуточных шагов при сохранении авторегрессии на уровне токенов. Для обеспечения причинной согласованности мы дополнительно вводим причинный график зашумления, учитывающий временную структуру цепочек рассуждений. Многочисленные эксперименты на трёх бенчмарках многошаговых CoT-рассуждений с различными модельными архитектурами демонстрируют, что DiffCoT стабильно превосходит существующие методы оптимизации предпочтений для CoT, обеспечивая повышенную устойчивость и способность к коррекции ошибок в CoT-рассуждениях.
Документное вопросно-ответное взаимодействие (DocQA) ориентировано на ответы на вопросы, основанные на заданных документах, однако существующие агенты DocQA не обладают эффективным использованием инструментов и в значительной степени полагаются на закрытые модели. В данной работе мы представляем DocDancer — обучаемого сквозным образом агента с открытым исходным кодом для работы с документами. Мы формулируем DocQA как проблему поиска информации и предлагаем инструментально-ориентированную архитектуру агента, которая явно моделирует исследование и понимание документов. Для обеспечения сквозного обучения таких агентов мы внедряем конвейер синтеза данных «Исследование-затем-Синтез», решающий проблему нехватки высококачественных обучающих данных для DocQA. Обучение на синтезированных данных демонстрирует эффективность подготовленных моделей на двух тестах для понимания длинных документов: MMLongBench-Doc и DocBench. Дополнительный анализ предоставляет ценные инсайты для проектирования агентских инструментов и синтетических данных.
Генерация и редактирование изображений в контексте (ICGE) позволяет пользователям задавать визуальные концепции с помощью чередующихся изображений и текстовых промптов, что требует точного понимания и достоверного выполнения пользовательского замысла. Хотя современные унифицированные мультимодальные модели демонстрируют перспективные способности к пониманию, эти преимущества часто не переносятся эффективно на генерацию изображений. Мы представляем Re-Align — унифицированную архитектуру, преодолевающую разрыв между пониманием и генерацией через структурированное согласование на основе рассуждений. Её ядром является In-Context Chain-of-Thought (IC-CoT) — структурированная парадигма рассуждений, разделяющая семантическое руководство и референсные ассоциации, что обеспечивает чёткую текстовую цель и снижает путаницу между референсными изображениями. Кроме того, Re-Align внедряет эффективную схему RL-обучения, использующую суррогатную функцию вознаграждения для измерения согласованности между структурированным текстом рассуждений и сгенерированным изображением, тем самым повышая общую производительность модели на задачах ICGE. Многочисленные эксперименты подтверждают, что Re-Align превосходит конкурирующие методы сопоставимого масштаба модели и вычислительных ресурсов как в задачах генерации, так и редактирования изображений в контексте.
Генеративные модели все чаще применяются в 3D-компьютерном зрении для синтеза новых форм, однако до сих пор неясно, основан ли их механизм генерации на запоминании обучающих форм. Понимание механизмов запоминания может помочь предотвратить утечку обучающих данных и повысить разнообразие генерируемых результатов. В данной работе мы разрабатываем оценочную методологию для количественного измерения запоминания в 3D-генеративных моделях и исследуем влияние различных параметров данных и архитектурных решений на степень запоминания. Мы применяем нашу методологию для количественной оценки запоминания в существующих методах. Затем в контролируемых экспериментах с диффузионной моделью на латентных векторных наборах (Vecset) мы обнаруживаем, что со стороны данных запоминание зависит от модальности данных и возрастает с увеличением их разнообразия и более детального условного описания; со стороны архитектуры моделей оно достигает пика при умеренных значениях коэффициента направляющего воздействия (guidance scale) и может быть снижено за счет использования более длинных Vecset и простой аугментации вращением. Наша методология и анализ обеспечивают эмпирическое понимание феномена запоминания в 3D-генеративных моделях и предлагают простые, но эффективные стратегии для его уменьшения без ухудшения качества генерации. Наш код доступен по адресу https://github.com/zlab-princeton/3d_mem.
Мягкие границы, подобные тонким волосам, часто встречаются в естественных и компьютерных изображениях, но остаются сложной задачей для 3D-зрения из-за неоднозначного смешения признаков переднего и заднего планов. В данной статье представлена система HairGuard, предназначенная для восстановления детализированных мягких границ в задачах 3D-зрения. В частности, мы сначала предлагаем новый конвейер подготовки данных, использующий наборы данных матирования изображений для обучения, и разрабатываем сеть-корректор глубины для автоматического выявления областей мягких границ. Благодаря модулю остаточных связей с затвором, корректор глубины точно уточняет глубину вблизи мягких границ, сохраняя при этом глобальное качество глубины, что позволяет осуществлять plug-and-play интеграцию с современными моделями оценки глубины. Для синтеза видов мы выполняем прямое преобразование на основе глубины для сохранения высокоточных текстур, после чего генеративная сеть дорисовки сцены заполняет дисокклюзированные области и устраняет артефакты фона внутри мягких границ. Наконец, модуль слияния цветов адаптивно комбинирует результаты преобразования и дорисовки для генерации новых видов с геометрически согласованной структурой и детализированными элементами. Многочисленные эксперименты демонстрируют, что HairGuard достигает передовых результатов в задачах монокулярной оценки глубины, преобразования стереоизображений/видео и синтеза новых видов, с существенным улучшением качества в областях мягких границ.
Способность к рассуждениям у больших языковых моделей (LLM) может быть раскрыта с помощью обучения с подкреплением (RL) (OpenAI, 2024; DeepSeek-AI и др., 2025a; Zeng и др., 2025). Успех существующих попыток применения RL в LLM обычно зависит от высококачественных выборок объемом в тысячи примеров и более. В данной статье мы ставим под сомнение фундаментальные предположения о требованиях к данным в RL для LLM, демонстрируя впечатляющую эффективность обучения с одного примера. В частности, мы представляем polymath learning — подход к проектированию одного обучающего примера, который порождает междисциплинарный эффект. Мы представляем три ключевых результата: (1) Единственный, стратегически отобранный пример математического рассуждения может привести к значительному улучшению производительности в различных областях, включая физику, химию и биологию, при использовании RL; (2) Математические навыки, важные для рассуждений, указывают на характеристики оптимального полиматематического примера; и (3) Сконструированный синтетический пример, интегрирующий элементы из разных дисциплин, превосходит по эффективности обучение на отдельных естественно возникающих примерах. Наш подход демонстрирует превосходную производительность по сравнению с обучением на более крупных наборах данных в различных тестах на рассуждение, показывая, что качество и проектирование примера, а не его количество, могут быть ключом к раскрытию расширенных возможностей рассуждения в языковых моделях. Наши результаты указывают на сдвиг, названный инженерией примеров (sample engineering), в сторону точного проектирования обучающих примеров вместо простого увеличения объема данных.
Мы представляем ProFuse — эффективный контекстно-ориентированный фреймворк для открытого 3D-понимания сцен на основе 3D гауссовых сплайнов (3DGS). Пайплайн повышает кросс-видовую согласованность и внутримасочную связность в рамках прямой регистрации, добавляя минимальные накладные расходы и не требуя тонкой настройки с контролем рендеринга. Вместо использования предобученной 3DGS-сцены мы вводим фазу предварительной регистрации с управлением плотными соответствиями, которая инициализирует гауссовы функции точной геометрией, одновременно формируя 3D контекстные предложения посредством кросc-видовой кластеризации. Каждое предложение содержит глобальный признак, полученный взвешенной агрегацией вложений участников, и этот признак сливается с гауссовыми функциями в процессе прямой регистрации для обеспечения языковой согласованности на примитив across видов. Благодаря заранее установленным ассоциациям семантическое слияние не требует дополнительной оптимизации помимо стандартной реконструкции, а модель сохраняет геометрическое уточнение без уплотнения. ProFuse демонстрирует высокое качество открытого 3DGS-понимания, завершая семантическое присоединение примерно за пять минут на сцену, что в два раза быстрее современных state-of-the-art методов.
Авторегрессионные (AR) модели достигли выдающихся успехов в синтезе изображений, однако их последовательная природа накладывает существенные ограничения на задержку. Спекулятивное декодирование предлагает перспективный путь для ускорения, но существующие подходы ограничены неоднозначностью на уровне токенов и отсутствием пространственной осведомленности. В данной работе мы представляем Multi-Scale Local Speculative Decoding (MuLo-SD) — новую архитектуру, которая сочетает многоразрешающее черновое прогнозирование с пространственно-ориентированной верификацией для ускорения AR-генерации изображений. Наш метод использует низкоразрешающий драфтер в паре с обученными апсемплерами для предложения кандидатных токенов изображения, которые затем параллельно проверяются высокоразрешающей целевой моделью. Ключевым элементом является механизм локального отклонения и повторного сэмплирования, позволяющий эффективно исправлять ошибки черновика за счет фокусировки на пространственных окрестностях, а не на повторном сэмплировании по растровому сканированию после первого отклонения. Мы демонстрируем, что MuLo-SD обеспечивает значительное ускорение — до 1.7 раза — превосходя сильные базовые методы спекулятивного декодирования, такие как EAGLE-2 и LANTERN, по показателям ускорения, при сохранении сопоставимого семантического соответствия и перцептивного качества. Эти результаты подтверждены с использованием GenEval, DPG-Bench и FID/HPSv2 на валидационной выборке MS-COCO из 5 тыс. изображений. Обширные ablation-исследования подчеркивают влияние дизайна апсемплинга, пулинга вероятностей, а также локального отклонения и повторного сэмплирования с расширением окрестности. Наш подход устанавливает новое state-of-the-art значение в спекулятивном декодировании для синтеза изображений, сокращая разрыв между эффективностью и точностью.
Последние достижения в области агентов на основе больших языковых моделей (LLM) в значительной степени были сосредоточены на внедрении механизмов самоулучшения внутрь агента или на поиске среди множества параллельных вариантов. Хотя эти подходы могут повысить совокупные показатели, они часто приводят к нестабильным и сложным для аудита траекториям улучшения, что затрудняет гарантирование отсутствия регрессий или анализ сбоев между версиями. Мы переосмысливаем улучшение агента как релз-инжиниринг: агенты рассматриваются как готовые к поставке артефакты, а улучшение выносится во внешний, регрессионно-ориентированный конвейер выпуска версий. Мы представляем AgentDevel — конвейер релз-инжиниринга, который итеративно запускает текущего агента, генерирует независимые от реализации сигналы качества на уровне симптомов из трасс выполнения, синтезирует единого кандидата на выпуск (RC) с помощью исполняемой диагностики и продвигает его через процедуру контроля, ориентированную на изменения статуса тестов. AgentDevel включает три ключевых принципа: (i) LLM-критик, не зависящий от реализации, который характеризует проявления сбоев без доступа к внутренней структуре агента, (ii) исполняемая диагностика на основе скриптов, которая агрегирует преобладающие шаблоны симптомов и создает проверяемые технические спецификации, и (iii) контроль, ориентированный на изменения статуса тестов, который рассматривает регрессии (прохождение -> сбой) и исправления (сбой -> прохождение) как первостепенные свидетельства. В отличие от популяционного поиска или самоусовершенствования внутри агента, AgentDevel поддерживает единую каноническую линию версий и подчеркивает отсутствие регрессий как основную цель. Эксперименты на задачах, требующих интенсивного выполнения, демонстрируют, что AgentDevel обеспечивает стабильные улучшения со значительно меньшим количеством регрессий, одновременно создавая воспроизводимые и проверяемые артефакты. В целом, AgentDevel предлагает практическую дисциплину разработки для создания, отладки и выпуска LLM-агентов как программного обеспечения.
Клонирование поведения переживает возрождение популярности, поскольку масштабирование как моделей, так и объемов данных доказывает свою эффективность в качестве мощной отправной точки для решения множества интересующих задач. В данной работе мы представляем открытый рецепт обучения базовой модели для игры в видеоигры, предназначенной для выполнения выводов в реальном времени на потребительском графическом процессоре. Мы публикуем все данные (свыше 8300 часов качественного геймплея человека), код для обучения и вывода, а также предобученные контрольные точки под открытой лицензией. Мы показываем, что наша лучшая модель способна играть в различные 3D-видеоигры на уровне, сопоставимом с человеческим. Мы используем этот рецепт для систематического изучения законов масштабирования клонирования поведения, чтобы понять, как производительность и каузальные рассуждения модели меняются в зависимости от масштаба модели и данных. Сначала мы демонстрируем на простой игрушечной проблеме, что для некоторых типов каузальных рассуждений увеличение как объема обучающих данных, так и глубины сети приводит к тому, что модель изучает более причинно-обоснованную политику. Затем мы систематически исследуем, как причинность варьируется в зависимости от количества параметров (и глубины) и шагов обучения в масштабированных моделях размером до 1,2 миллиарда параметров, и мы обнаруживаем аналогичные результаты масштабирования тем, что наблюдали в игрушечной проблеме.
Последние достижения в области видео-диффузионных моделей связаны с переходом на трансформерные архитектуры, которые обеспечивают генерацию видео высочайшего качества, однако ценой квадратичной сложности механизма внимания, что серьезно ограничивает масштабируемость для длинных последовательностей. Мы представляем ReHyAt — рекуррентный гибридный механизм внимания, сочетающий точность softmax-внимания с эффективностью линейного внимания, что позволяет реализовать поблочную рекуррентную реформулировку и постоянное использование памяти. В отличие от конкурирующей модели SANA Video, использующей исключительно линейное внимание, гибридная архитектура ReHyAt обеспечивает эффективное дистиллирование существующих моделей на основе softmax, сокращая стоимость обучения на два порядка (до ~160 GPU-часов) при сохранении конкурентоспособного качества. Наш легковесный конвейер дистиллирования и дообучения предлагает методологию, применимую к будущим передовым двунаправленным моделям на основе softmax. Эксперименты на VBench и VBench-2.0, а также исследование пользовательских предпочтений демонстрируют, что ReHyAt достигает высочайшего качества видео, снижая стоимость механизма внимания с квадратичной до линейной, что открывает практическую возможность масштабирования для генерации длительных видео и работы на устройствах. Страница проекта доступна по адресу https://qualcomm-ai-research.github.io/rehyat.
В данной работе исследуется интеграция парадигмы обучения с использованием привилегированной информации (LUPI) в задачу обнаружения объектов с целью использования детальной, описательной информации, доступной на этапе обучения, но отсутствующей на этапе вывода. Мы предлагаем общую, модельно-независимую методологию для внедрения привилегированной информации, такой как маски ограничивающих рамок, карты значимости и данные о глубине, в глубокие нейросетевые детекторы объектов с помощью архитектуры "учитель-ученик". Эксперименты проводятся на пяти современных моделях обнаружения объектов и нескольких публичных наборах данных, включая наборы для обнаружения мусора с БПЛА и Pascal VOC 2012, для оценки влияния на точность, способность к обобщению и вычислительную эффективность. Наши результаты показывают, что модели-ученики, обученные по методологии LUPI, последовательно превосходят базовые версии, демонстрируя значительный прирост точности обнаружения без увеличения сложности вывода или размера модели. Улучшения производительности особенно выражены для средних и крупных объектов, а ablation-исследования показывают, что промежуточное взвешивание руководства учителя оптимально балансирует обучение на основе привилегированной и стандартной входной информации. Полученные результаты подтверждают, что framework LUPI предоставляет эффективную и практичную стратегию для совершенствования систем обнаружения объектов как в условиях ограниченных ресурсов, так и в реальных сценариях.
Послеобученческое согласование диффузионных моделей опирается на упрощенные сигналы, такие как скалярные вознаграждения или бинарные предпочтения. Это ограничивает согласование со сложной человеческой экспертизой, которая является иерархической и детализированной. Чтобы решить эту проблему, мы сначала разрабатываем вместе с экспертами предметной области иерархические, детализированные критерии оценки, которые разбивают качество изображения на множество позитивных и негативных атрибутов, организованных в древовидную структуру. На основе этого мы предлагаем двухэтапную framework согласования. Сначала мы внедряем доменные знания во вспомогательную диффузионную модель с помощью контролируемого тонкого настройки. Во-вторых, мы представляем Оптимизацию по Сложным Предпочтениям (Complex Preference Optimization, CPO), которая расширяет DPO для согласования целевой диффузионной модели с нашими небинарными, иерархическими критериями. А именно, мы переформулируем задачу согласования как одновременную максимизацию вероятности позитивных атрибутов и минимизацию вероятности негативных атрибутов относительно вспомогательной диффузионной модели. Мы применяем наш подход в области генерации картин и проводим обучение по методу CPO на размеченном наборе данных картин с детализированными атрибутами, основанном на наших критериях. Многочисленные эксперименты демонстрируют, что CPO значительно повышает качество генерации и степень согласованности с экспертной оценкой, открывая новые пути для согласования по детализированным критериям.
Недавно предложенные пирамидальные модели декомпозируют стандартные процессы прямого и обратного диффузии на несколько стадий, работающих с различными разрешениями. Эти модели обрабатывают входные данные с более высокими уровнями шума на низких разрешениях, тогда как менее зашумленные входные данные обрабатываются на высоких разрешениях. Такой иерархический подход существенно снижает вычислительные затраты при выводе в многошаговых деноизирующих моделях. Однако существующие открытые пирамидальные видео-модели обучались с нуля и, как правило, уступают передовым системам по визуальной правдоподобности. В данной работе мы представляем конвейер, преобразующий предварительно обученную диффузионную модель в пирамидальную посредством недорогого дообучения, достигая этого преобразования без ухудшения качества выходных видео. Кроме того, мы исследуем и сравниваем различные стратегии дистилляции шагов в рамках пирамидальных моделей с целью дальнейшего повышения эффективности вывода. Наши результаты доступны по адресу https://qualcomm-ai-research.github.io/PyramidalWan.
Мы представляем IMDD-1M — первую крупномасштабную промышленную мультимодальную базу данных дефектов, содержащую 1 000 000 согласованных пар "изображение-текст", созданную для развития мультимодального обучения в сфере производства и контроля качества. IMDD-1M включает высококачественные изображения реальных дефектов, охватывающих более 60 категорий материалов и свыше 400 типов дефектов, каждый из которых сопровождается экспертно проверенными аннотациями и детализированными текстовыми описаниями, фиксирующими локализацию дефектов, степень серьезности и контекстуальные атрибуты. Данный набор данных открывает возможности для широкого спектра приложений, включая классификацию, сегментацию, поиск, генерацию описаний и создание генеративных моделей. На основе IMDD-1M мы обучаем с нуля диффузионную визуально-языковую базовую модель, специально адаптированную для промышленных сценариев. Модель служит универсальным базовым решением, которое может быть эффективно доработано для узкоспециализированных областей с помощью легковесной тонкой настройки. Используя менее 5% данных, необходимых для специализированных экспертных моделей, наша модель демонстрирует сопоставимую производительность, что подчеркивает потенциал ресурсоэффективной адаптации базовых моделей для промышленного контроля и генерации, открывая путь к масштабируемому, доменно-адаптивному и основанному на знаниях производственному интеллекту.
Данная работа представляет методологию VERSE для анализа и улучшения Vision-Language Models, применяемых в задачах понимания визуально-насыщенных документов, путем исследования их визуального пространства эмбеддингов. VERSE позволяет визуализировать латентные представления, что поддерживает оценку осуществимости модели. Метод также облегчает выявление проблемных областей и направляет генерацию синтетических данных для улучшения производительности в соответствующих кластерах. Мы проверяем методологию, обучая модели на синтетическом наборе данных MERIT и оценивая их на реальном наборе MERIT Secret. Результаты показывают, что VERSE помогает выявить визуальные признаки, связанные с ошибкоопасными кластерами, и что дообучение на выборках, содержащих эти признаки, существенно повышает F1-меру без ухудшения обобщающей способности. Кроме того, мы демонстрируем, что локальные модели, такие как Donut и Idefics2, оптимизированные с помощью VERSE, достигают или даже превосходят производительность SaaS-решений, подобных GPT-4 и Pixtral.
По мере накопления опыта взаимодействия с пользователями адаптация к их предпочтениям становится ключевым фактором для построения долгосрочных отношений и повышения качества коллаборации. Мы представляем MultiSessionCollab — бенчмарк, который оценивает способность агентов изучать предпочтения пользователей и эффективно использовать их для улучшения совместной работы в ходе множества сессий. Для создания успешных агентов в этой среде мы предлагаем долгосрочные коллаборативные агенты, оснащённые памятью, которая сохраняет и уточняет пользовательские предпочтения по мере накопления опыта взаимодействия. Кроме того, мы показываем, что из поведения пользовательского симулятора в MultiSessionCollab можно извлекать обучающие сигналы для тренировки агентов с целью генерации более содержательных рефлексий и более эффективного обновления памяти. Масштабные эксперименты демонстрируют, что оснащение агентов памятью улучшает долгосрочное сотрудничество, повышая процент успешного выполнения задач, сокращая количество взаимодействий и уменьшая усилия пользователя. Наконец, мы проводим исследование с участием реальных пользователей, которое подтверждает, что память способствует улучшению пользовательского опыта в реальных условиях.
Тонкая настройка больших языковых моделей (LLM), выровненных по безопасности, может существенно нарушить их защитные свойства. Предыдущие подходы требовали множества безопасных образцов или калибровочных наборов, что не только влечет значительные вычислительные затраты при повторном выравнивании, но и приводит к заметной деградации полезности модели. Вопреки этому убеждению, мы показываем, что безопасность можно полностью восстановить всего с одним безопасным примером, без ущерба для полезности и с минимальными затратами. Примечательно, что это восстановление эффективно независимо от количества вредоносных примеров, использованных при тонкой настройке, или размера базовой модели, а сходимость достигается всего за несколько эпох. Более того, мы обнаруживаем низкоранговую структуру градиента безопасности, что объясняет возможность такой эффективной коррекции. Мы проверяем наши выводы на пяти LLM, выровненных по безопасности, и нескольких наборах данных, демонстрируя универсальность нашего подхода.
Мы представляем LEMAS-Dataset — на сегодняшний день, насколько нам известно, крупнейший открытый многоязычный речевой корпус с пословными временны́ми метками. Охватывая свыше 150 000 часов аудиоданных на 10 основных языках, LEMAS-Dataset создан с помощью эффективного конвейера обработки данных, обеспечивающего высокое качество самих данных и их разметки. Для проверки эффективности набора данных в различных генеративных парадигмах мы обучили на этом корпусе две эталонные модели с различными архитектурами и специализацией задач. LEMAS-TTS, построенная на неавторегрессионной схеме flow matching, использует масштаб и лингвистическое разнообразие набора данных для достижения устойчивого многоязычного синтеза в режиме zero-shot. Предложенные нами акцент-адверсариальное обучение и CTC-функция потерь смягчают кросс-лингвистические проблемы акцента, повышая стабильность синтеза. В свою очередь, LEMAS-Edit использует авторегрессионную архитектуру только с декодером, которая формулирует редактирование речи как задачу заполнения замаскированных токенов. Благодаря использованию точных пословных выравниваний для построения обучающих масок и адаптивных стратегий декодирования, модель достигает бесшовного редактирования речи с гладкими границами и естественными переходами. Результаты экспериментов показывают, что модели, обученные на LEMAS-Dataset, демонстрируют высокое качество синтеза и редактирования, что подтверждает качество набора данных. Мы полагаем, что этот богато аннотированный временны́ми метками, детализированный многоязычный корпус будет способствовать будущим достижениям в системах генерации речи по промптам.