Ежедневно отобранные исследовательские статьи по ИИ с переводами
Многоагентные системы (MAS) расширяют возможности больших языковых моделей (LLM), преобразуя независимое рассуждение одиночной модели в координированный интеллект на системном уровне. В то время как существующие агенты на основе LLM полагаются на текстовое посредничество для рассуждений и коммуникации, мы делаем шаг вперед, позволяя моделям взаимодействовать напрямую в непрерывном латентном пространстве. Мы представляем LatentMAS — бестренировочный фреймворк «end-to-end», который обеспечивает чисто латентное сотрудничество между агентами LLM. В LatentMAS каждый агент сначала выполняет авторегрессионную генерацию латентных мыслей через скрытые эмбеддинги последнего слоя. Затем общая латентная рабочая память сохраняет и передает внутренние представления каждого агента, обеспечивая обмен информацией без потерь. Мы предоставляем теоретический анализ, показывающий, что LatentMAS достигает большей выразительности и сохранения информации без потерь при существенно более низкой сложности по сравнению с классическими текстовыми MAS. Кроме того, эмпирические оценки на 9 комплексных бенчмарках, охватывающих математические и научные рассуждения, понимание здравого смысла и генерацию кода, показывают, что LatentMAS стабильно превосходит сильные базовые линии одиночных моделей и текстовых MAS, демонстрируя до 14.6% более высокую точность, сокращение использования выходных токенов на 70.8%-83.7% и обеспечивая ускорение сквозного вывода в 4-4.3 раза. Эти результаты демонстрируют, что наш новый фреймворк латентного сотрудничества повышает качество системных рассуждений, одновременно обеспечивая существенный выигрыш в эффективности без какого-либо дополнительного обучения. Код и данные полностью открыты по адресу https://github.com/Gen-Verse/LatentMAS.
Мультимодальные большие языковые модели (МБЯМ) в настоящее время находятся в центре внимания исследователей, демонстрируя быстрый прогресс в масштабах и возможностях, однако их интеллект, ограничения и риски остаются недостаточно изученными. Для решения этих проблем, особенно в контексте русского языка, для которого в настоящее время не существует мультимодальных бенчмарков, мы представляем Mera Multi — открытую фреймворк-систему для оценки русскоязычных архитектур. Бенчмарк является инструктивным и охватывает стандартные модальности: текст, изображение, аудио и видео, включая 18 вновь созданных оценочных заданий как для моделей общего назначения, так и для архитектур, специфичных для определенных модальностей (изображение-в-текст, видео-в-текст и аудио-в-текст). Наш вклад включает: (i) универсальную таксономию мультимодальных способностей; (ii) 18 полностью созданных с нуля наборов данных с учетом российской культурной и языковой специфики, унифицированных промптов и метрик; (iii) базовые результаты для моделей с закрытым и открытым исходным кодом; (iv) методологию предотвращения утечки данных бенчмарка, включая водяные знаки и лицензии для приватных наборов. Хотя наше текущее внимание сосредоточено на русском языке, предлагаемый бенчмарк предоставляет воспроизводимую методологию для построения мультимодальных бенчмарков для типологически разнообразных языков, в частности, внутри славянской языковой семьи.
Мир-модели служат основными симуляторами для таких областей, как агентный ИИ, воплощенный ИИ и игровая индустрия, способными генерировать длинные, физически реалистичные и интерактивные видео высокого качества. Более того, масштабирование этих моделей может раскрыть эмерджентные способности в области визуального восприятия, понимания и логического вывода, прокладывая путь к новой парадигме, выходящей за рамки современных визуальных базовых моделей, сфокусированных на больших языковых моделях (LLM). Ключевым прорывом, обеспечивающим их работу, является полуавторегрессивная парадигма декодирования (block-diffusion), которая объединяет преимущества диффузионных и авторегрессивных методов, генерируя видео-токены блоками с применением диффузии внутри каждого блока при условии зависимости от предыдущих блоков, что приводит к более согласованным и стабильным видео-последовательностям. Важно, что этот подход преодолевает ограничения стандартной видео-диффузии за счет повторного внедрения управления кэшем ключей-значений (KV Cache) в стиле LLM, что обеспечивает эффективную, вариабельную по длине и качественную генерацию. Следовательно, Inferix был специально разработан как двигатель вывода следующего поколения для обеспечения иммерсивного синтеза миров через оптимизированные полуавторегрессивные процессы декодирования. Эта узкая специализация на симуляции мира четко отличает его от систем, созданных для сценариев с высокой параллельной нагрузкой (таких как vLLM или SGLang), и от классических моделей видео-диффузии (таких как xDiTs). Inferix дополнительно расширяет свои возможности за счет интерактивной потоковой передачи видео и профилирования, позволяя осуществлять взаимодействие в реальном времени и реалистичное моделирование для точного описания динамики мира. Кроме того, система поддерживает эффективное тестирование производительности благодаря бесшовной интеграции с LV-Bench — новым детализированным бенчмарком для оценки, созданным specifically для сценариев генерации минутных видео. Мы надеемся, что сообщество объединит усилия для развития Inferix и стимулирования исследований в области мир-моделей.
Синтез синхронизированного аудиовизуального контента представляет собой ключевую проблему в генеративном ИИ, причем модели с открытым исходным кодом сталкиваются с трудностями в обеспечении надежного аудиовизуального соответствия. Наш анализ показывает, что эта проблема коренится в трех фундаментальных вызовах совместного диффузионного процесса: (1) *Расхождение соответствия* (Correspondence Drift), когда параллельно эволюционирующие зашумленные латентные переменные препятствуют стабильному обучению выравниванию; (2) неэффективные механизмы глобального внимания, которые не способны улавливать детальные временные паттерны; и (3) *внутримодальная смещенность* (intra-modal bias) традиционного управления без классификатора (Classifier-Free Guidance, CFG), которое улучшает условность, но не межмодальную синхронизацию. Для преодоления этих проблем мы представляем Harmony — новую архитектуру, которая механически обеспечивает аудиовизуальную синхронизацию. Сначала мы предлагаем парадигму обучения *Перекрестной синергии задач* (Cross-Task Synergy), чтобы уменьшить расхождение за счет использования сильных сигналов обучения от задач генерации видео на основе аудио и аудио на основе видео. Затем мы разрабатываем *Модуль разъединенного глобально-локального взаимодействия* (Global-Local Decoupled Interaction Module) для эффективного и точного временного и стилевого выравнивания. Наконец, мы представляем новое *Синхронизационно-усиленное CFG* (Synchronization-Enhanced CFG, SyncCFG), которое явно изолирует и усиливает сигнал синхронизации на этапе вывода. Многочисленные эксперименты демонстрируют, что Harmony устанавливает новый state-of-the-art, значительно превосходя существующие методы как по точности генерации, так и, что критически важно, по достижению детальной аудиовизуальной синхронизации.
Мы представляем Nemotron-Parse-1.1 — облегченную модель для парсинга документов и оптического распознавания символов (OCR), которая расширяет возможности своей предшественницы, Nemoretriever-Parse-1.0. Nemotron-Parse-1.1 демонстрирует улучшенные способности в области общего OCR, форматирования Markdown, парсинга структурированных таблиц и извлечения текста из изображений, графиков и диаграмм. Модель также поддерживает увеличенную длину выходной последовательности для визуально насыщенных документов. Как и её предшественница, она извлекает ограничивающие рамки текстовых сегментов, а также соответствующие им семантические классы. Nemotron-Parse-1.1 построена по архитектуре «кодировщик-декодировщик» и содержит 885 миллионов параметров, включая компактный языковой декодировщик на 256 миллионов параметров. Модель демонстрирует конкурентоспособную точность на публичных бенчмарках, что делает её мощным облегченным решением для OCR. Мы публикуем веса модели в открытом доступе на Huggingface, а также оптимизированный контейнер NIM и часть обучающих данных в составе более крупного набора данных Nemotron-VLM-v2. Дополнительно мы выпускаем версию Nemotron-Parse-1.1-TC, которая работает с уменьшенной длиной визуальных токенов, что обеспечивает 20%-ное ускорение работы при минимальной потере качества.
Унифицированные мультимодальные модели (UMM) демонстрируют впечатляющие результаты как в понимании, так и в генерации с использованием единой архитектуры. Однако UMM по-прежнему демонстрируют фундаментальную несогласованность: понимание требует компактных эмбеддингов, тогда как генерация выигрывает от реконструкционно-богатых представлений. Этот структурный компромисс порождает невыровненные границы решений, сниженную кросс-модальную согласованность и повышенную уязвимость при распределительных и адверсарных сдвигах. В данной статье мы представляем UniGame, само-адверсарную фреймворк пост-обучения, которая напрямую нацелена на эти несогласованности. Применяя легковесный пертурбатор на уровне общего токенного интерфейса, UniGame позволяет ветви генерации активно выявлять и оспаривать хрупкое понимание, превращая саму модель в её собственного противника. Эксперименты показывают, что UniGame значительно улучшает согласованность (+4.6%). Более того, она также достигает существенного улучшения в понимании (+3.6%), генерации (+0.02), а также в устойчивости к данным вне распределения и адверсарным атакам (+4.8% и +6.2% на NaturalBench и AdVQA). Фреймворк является архитектурно-независимым, вводит менее 1% дополнительных параметров и дополняет существующие методы пост-обучения. Эти результаты позиционируют адверсарную самоигру в качестве общего и эффективного принципа для повышения согласованности, стабильности и унифицированной компетентности будущих мультимодальных базовых моделей. Официальный код доступен по адресу: https://github.com/AIFrontierLab/UniGame
Мы исследуем, насколько хорошо большие языковые модели (LLM) обобщают знания для задач разной сложности, что является ключевым вопросом для эффективного курирования данных и их оценки. Существующие исследования дают противоречивые результаты относительно того, приводит ли обучение на более простых или более сложных данных к лучшим результатам и проявляются ли эти улучшения на простых или сложных тестовых данных. Мы решаем этот вопрос, проводя систематическую оценку способности LLM к обобщению на различных моделях, наборах данных и детализированных группах примеров, сгруппированных по сложности. Мы ранжируем примеры в шести наборах данных, используя выходные данные тысяч различных LLM и Теорию учебных тестов (Item Response Theory, IRT) — устоявшуюся метрику сложности в образовательном тестировании. В отличие от предыдущих работ, наши оценки сложности определяются исключительно на основе способностей множества различных LLM, исключая человеческие представления о сложности. Проведя более объективный, масштабный и детализированный анализ, мы показываем, что кросс-сложностное обобщение часто ограничено; обучение как на простых, так и на сложных данных не позволяет достичь стабильного улучшения результатов на всем диапазоне сложностей. Эти результаты демонстрируют важность наличия в обучающих и оценочных данных для LLM примеров разного уровня сложности, а также то, что поиск упрощенных решений в отношении сложности сопряжен с рисками.
"Мышление с помощью изображений" стало эффективной парадигмой для развития визуального мышления, выходя за рамки текстовых цепочек рассуждений за счет включения визуальных свидетельств в промежуточные шаги. Однако существующие методы не достигают человеческого уровня абстрактного визуального мышления, поскольку их гибкость фундаментально ограничена внешними инструментами. В данной работе мы представляем Monet — фреймворк для обучения, который позволяет мультимодальным большим языковым моделям (MLLM) рассуждать непосредственно в латентном визуальном пространстве, генерируя непрерывные эмбеддинги, выполняющие роль промежуточных визуальных мыслей. Мы выявили две ключевые проблемы при обучении MLLM латентному визуальному рассуждению: высокие вычислительные затраты на согласование с латентным зрением и недостаточный контроль за латентными эмбеддингами, и решаем их с помощью трехэтапного конвейера supervised fine-tuning (SFT) на основе дистилляции. Мы также обнаружили ограничение применения GRPO к латентному рассуждению: оно в основном улучшает текстовое, а не латентное рассуждение. Чтобы преодолеть это, мы предлагаем VLPO (Visual-latent Policy Optimization) — метод обучения с подкреплением, который явно включает латентные эмбеддинги в обновления политик через градиенты. Для поддержки SFT мы создали Monet-SFT-125K — высококачественный чередующийся текст-изображение датасет CoT, содержащий 125K CoT из реальных мировых данных, графиков, OCR и геометрии. Наша модель Monet-7B демонстрирует стабильный прогресс в бенчмарках восприятия и рассуждений реального мира и проявляет сильную обобщающую способность на сложных задачах абстрактного визуального мышления вне распределения. Мы также эмпирически анализируем роль каждого компонента обучения и обсуждаем наши ранние неудачные попытки, предоставляя insights для будущего развития визуального латентного рассуждения. Наша модель, данные и код доступны по адресу https://github.com/NOVAglow646/Monet.
Мы предлагаем метод согласования терминальной скорости (Terminal Velocity Matching, TVM), который обобщает метод согласования потоков и позволяет осуществлять генеративное моделирование высокой точности за один или несколько шагов. TVM моделирует переход между любыми двумя временными шагами диффузии и регулирует поведение модели в конечный момент времени, а не в начальный. Мы доказываем, что TVM обеспечивает верхнюю границу для 2-Вассерштейнова расстояния между распределениями данных и модели, когда модель является липшицевой. Однако, поскольку диффузионные трансформеры не обладают этим свойством, мы вводим минимальные архитектурные изменения, позволяющие достичь стабильного одноэтапного обучения. Для обеспечения практической эффективности TVM мы разрабатываем объединенное ядро внимания, которое поддерживает обратные проходы для вычисления произведений Якобиана на вектор, хорошо масштабирующиеся с архитектурами трансформеров. На ImageNet-256x256 TVM достигает показателя FID 3.29 при одной оценке функции (NFE) и 1.99 FID при 4 NFE. Аналогично, на ImageNet-512x512 метод достигает 4.32 FID при 1 NFE и 2.94 FID при 4 NFE, что представляет собой состояние искусства для одно- и малошаговых моделей, обученных с нуля.
Модели «зрение-язык» (VLMs) по-прежнему демонстрируют недостаточную устойчивость в области пространственного интеллекта, показывая низкую производительность в задачах пространственного понимания и рассуждений. Мы связываем этот пробел с отсутствием процесса обучения визуальной геометрии, способного восстанавливать 3D-пространство из 2D-изображений. Мы представляем G²VLM — геометрически обоснованную модель «зрение-язык», которая объединяет два фундаментальных аспекта пространственного интеллекта: пространственную 3D-реконструкцию и пространственное понимание. G²VLM изначально использует изученные особенности 3D-визуальной геометрии для прямого предсказания 3D-атрибутов и улучшения задач пространственного рассуждения посредством контекстного обучения и чередующихся рассуждений. Наша унифицированная архитектура обладает высокой масштабируемостью для пространственного понимания: она обучается на обширных данных мульти-видовых изображений и видео, одновременно используя преимущества 3D-визуальных априорных знаний, которые обычно извлекаются только из труднодоступных аннотаций. Экспериментальные результаты демонстрируют, что G²VLM эффективна в обеих задачах, достигая сопоставимых с передовыми feed-forward моделями 3D-реконструкции результатов и показывая лучшие или конкурентоспособные результаты в различных задачах пространственного понимания и рассуждений. Объединяя семантически сильную VLM с низкоуровневыми задачами 3D-зрения, мы надеемся, что G²VLM послужит надежным базовым уровнем для научного сообщества и откроет возможности для новых приложений, таких как редактирование 3D-сцен.
Генерация видео с блочно-каузальной архитектурой сталкивается с резким компромиссом между скоростью и качеством: компактные модели на 1.3B параметров обеспечивают лишь 16 кадров/с, тогда как крупные 14B-модели работают на скорости 4.5 кадров/с, вынуждая пользователей выбирать между отзывчивостью и качеством. Метод каскадных блоков (Block Cascading) существенно смягчает этот компромисс за счёт беспобученного распараллеливания. Ключевая идея: для начала генерации последующих блоков видео не требуется полного удаления шума из текущих блоков. Запуская генерацию блоков на основе частично очищенных от шума данных из предыдущих блоков, мы преобразуем последовательные конвейеры в параллельные каскады, где несколько блоков обрабатываются одновременно. При использовании 5 GPU для временного распараллеливания достигается ускорение примерно в 2 раза для моделей любого масштаба: модели 1.3B ускоряются с 16 до 30 кадров/с, а модели 14B — с 4.5 до 12.5 кадров/с. Помимо скорости вывода, метод каскадных блоков устраняет накладные расходы (~200 мс) на перекэширование ключей-значений (KV-caching) при переключении контекста в интерактивной генерации. Масштабные оценки, проведённые для множества блочно-каузальных конвейеров, подтверждают отсутствие значительной потери качества генерации при переходе от блочно-каузальных конвейеров к конвейерам с каскадными блоками во время вывода. Страница проекта: https://hmrishavbandy.github.io/block_cascading_page/
Преобразование инструкций на естественном языке в непрерывное управление для четвероногих роботов остается фундаментальной проблемой в области "видение-язык-действие". Существующие методы испытывают трудности с объединением семантических рассуждений высокого уровня и низкоуровневой актуации, что приводит к нестабильному заземлению и слабой обобщающей способности в реальных условиях. Для решения этих проблем мы представляем MobileVLA-R1 — унифицированную систему "видение-язык-действие", которая обеспечивает явное логическое рассуждение и непрерывное управление для четвероногих роботов. Мы создали MobileVLA-CoT, масштабный набор данных с цепочкой мыслей (Chain-of-Thought, CoT) различной гранулярности для воплощенных траекторий, который предоставляет структурированный надзор для выравнивания. На этой основе мы вводим двухэтапную парадигму обучения, сочетающую контролируемое выравнивание по CoT с обучением с подкреплением методом GRPO для повышения согласованности рассуждений, стабильности управления и выполнения долгосрочных задач. Обширные оценки на задачах VLN и VLA демонстрируют превосходную производительность по сравнению с сильными базовыми методами, с улучшением примерно на 5%. Развертывание в реальном мире на четвероногом роботе подтверждает надежную работу в сложных условиях. Код: https://github.com/AIGeeksGroup/MobileVLA-R1. Сайт: https://aigeeksgroup.github.io/MobileVLA-R1.
Дистилляция временных шагов является эффективным подходом для повышения эффективности генерации диффузионных моделей. Модель согласованности (Consistency Model, CM) как траекторно-ориентированная framework демонстрирует значительный потенциал благодаря своей прочной теоретической основе и высококачественной генерации за малое количество шагов. Тем не менее, современные методы дистилляции согласованности в непрерывном времени по-прежнему сильно зависят от обучающих данных и вычислительных ресурсов, что затрудняет их развертывание в условиях ограниченных ресурсов и ограничивает их масштабируемость для различных областей. Для решения этой проблемы мы предлагаем Траекторно-обратную модель согласованности (Trajectory-Backward Consistency Model, TBCM), которая устраняет зависимость от внешних обучающих данных путем извлечения латентных представлений непосредственно из траектории генерации учительской модели. В отличие от традиционных методов, требующих VAE-кодирования и крупномасштабных наборов данных, наша самодостаточная парадигма дистилляции значительно повышает как эффективность, так и простоту. Более того, извлеченные из траектории выборки естественным образом устраняют разрыв распределений между обучением и выводом, тем самым обеспечивая более эффективный перенос знаний. Экспериментально TBCM достигает показателей 6.52 FID и 28.08 CLIP на наборе MJHQ-30k при одношаговой генерации, одновременно сокращая время обучения примерно на 40% по сравнению с Sana-Sprint и экономя значительный объем GPU-памяти, что демонстрирует превосходную эффективность без ущерба для качества. Мы также выявляем расхождение диффузионно-генерационного пространства при дистилляции согласованности в непрерывном времени и анализируем, как стратегии сэмплирования влияют на производительность дистилляции, предлагая insights для будущих исследований в области дистилляции. Ссылка на GitHub: https://github.com/hustvl/TBCM.
Политики Vision-Language-Action (VLA) эффективно согласуют язык, восприятие и управление роботом. Однако большинство VLA обучаются исключительно путем имитации, что приводит к переобучению на демонстрационных данных и хрупкости при сдвиге распределения. Обучение с подкреплением (RL) напрямую оптимизирует вознаграждение за задачу, тем самым устраняя это рассогласование, но взаимодействие с реальным роботом является дорогостоящим, а создание и перенос традиционных симуляторов сложны. Мы решаем проблемы как эффективности использования данных, так и устойчивости оптимизации при дообучении VLA с помощью изученной модели мира и процедуры RL, адаптированной для потоковых (flow-based) голов действий. В частности, мы представляем Prophet — унифицированную модель приведения робота в действие от действия к видео, предварительно обученную на крупномасштабных гетерогенных данных роботов для изучения переиспользуемой динамики «действие-результат». Она способна к few-shot адаптации к новым роботам, объектам и средам, создавая готовый к использованию симулятор. На основе Prophet мы усиливаем политики действий с помощью FA-GRPO (Flow-action-GRPO), который адаптирует Flow-GRPO для работы с действиями VLA, и FlowScale — пошагового перевзвешивания, которое перенормирует пошаговые градиенты в потоковой голове. Вместе Prophet, FA-GRPO и FlowScale составляют ProphRL — практичный, эффективный по данным и вычислениям путь дообучения VLA. Эксперименты показывают увеличение успешности на 5–17% на публичных бенчмарках и на 24–30% на реальных роботах для различных вариантов VLA.
Модели-основы компьютерного зрения (Vision Foundation Models, VFM) извлекают пространственно уменьшенные представления, что создает трудности для задач на уровне пикселей. Существующие подходы к увеличению разрешения сталкиваются с фундаментальным компромиссом: классические фильтры быстры и универсально применимы, но основаны на фиксированных формах, тогда как современные апсэмплеры достигают превосходной точности за счет обучаемых, специфичных для VFM форм, ценой необходимости переобучения для каждой модели. Мы представляем Neighborhood Attention Filtering (NAF) — метод, который устраняет этот разрыв, обучая адаптивные пространственно-содержательные веса с помощью Cross-Scale Neighborhood Attention и Rotary Position Embeddings (RoPE), используя в качестве ориентира только входное изображение высокого разрешения. NAF работает в режиме zero-shot: он увеличивает разрешение признаков из любой VFM без переобучения, что делает его первой архитектурой, не зависящей от конкретной VFM, которая превосходит специализированные апсэмплеры и достигает наилучших результатов в различных downstream-задачах. Метод сохраняет высокую эффективность, масштабируясь до карт признаков разрешением 2K и восстанавливая карты промежуточного разрешения со скоростью 18 кадров в секунду. Помимо увеличения разрешения признаков, NAF демонстрирует высокую производительность в задачах восстановления изображений, что подчеркивает его универсальность. Код и чекпоинты доступны по адресу https://github.com/valeoai/NAF.
Мы представляем Sphinx — синтетическую среду для визуального восприятия и логического вывода, ориентированную на базовые когнитивные примитивы. Sphinx процедурно генерирует головоломки с использованием мотивов, плиток, диаграмм, иконок и геометрических примитивов, каждая из которых снабжена верифицируемыми эталонными решениями, что позволяет проводить точную оценку и создавать масштабные наборы данных. Бенчмарк охватывает 25 типов задач, включая обнаружение симметрии, геометрические преобразования, пространственные рассуждения, интерпретацию диаграмм и прогнозирование последовательностей. Оценка современных больших визуально-языковых моделей (LVLM) показывает, что даже передовая модель GPT-5 достигает точности лишь 51,1%, что значительно ниже человеческих показателей. Наконец, мы демонстрируем, что обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) существенно повышает точность моделей на этих задачах и обеспечивает улучшение результатов на внешних бенчмарках визуального мышления, подчеркивая его потенциал для развития мультимодальных рассуждений.
Обучение с подкреплением на основе человеческих откликов (RLHF) широко используется для согласования больших языковых моделей, однако на практике сохраняется сложная проблема: повышение безопасности часто снижает справедливость, масштабирование на разнородные популяции становится вычислительно неразрешимым, а повышение устойчивости систем часто усиливает смещения в пользу большинства. Мы формализуем это противоречие как Трилемму Согласования: не существует системы RLHF, способной одновременно достичь (i) ε-репрезентативности для разнообразных человеческих ценностей, (ii) полиномиальной разрешимости по объему выборки и вычислительной сложности и (iii) δ-устойчивости к adversarial-возмущениям и сдвигам распределения. Посредством теоретико-сложностного анализа, интегрирующего теорию статистического обучения и робастную оптимизацию, мы доказываем, что достижение как репрезентативности (ε ≤ 0.01), так и устойчивости (δ ≤ 0.001) для популяций глобального масштаба требует Ω(2^{d_контекста}) операций, что является суперполиномиальной сложностью относительно размерности контекста. Мы показываем, что современные реализации RLHF разрешают эту трилемму, жертвуя репрезентативностью: они собирают лишь 10³–10⁴ примеров от однородных пулов аннотаторов, тогда как для истинного глобального представительства необходимо 10⁷–10⁸ образцов. Наша framework-модель дает единое объяснение задокументированным патологиям RLHF, включая коллапс предпочтений, сикофантство и систематическое усиление смещений. В заключение мы предлагаем конкретные направления для навигации по этим фундаментальным компромиссам посредством стратегического ослабления требований согласования.
Генерация городских 3D-моделей в масштабе целого города имеет ключевое значение для развития воплощенного интеллекта и моделей мира. Однако существующие методы сталкиваются со значительными трудностями в обеспечении качества, точности и масштабируемости при создании 3D-мира. В связи с этим мы предлагаем RAISECity — механизм интеллектуального синтеза, согласованный с реальностью, который создает детализированные 3D-миры городского масштаба. Мы представляем агентный фреймворк, использующий разнообразные мультимодальные базовые инструменты для получения знаний о реальном мире, поддержания надежных промежуточных представлений и построения сложных 3D-сцен. Данная агентная архитектура, характеризующаяся динамической обработкой данных, итеративной саморефлексией и улучшением, а также вызовом продвинутых мультимодальных инструментов, минимизирует накопление ошибок и повышает общую производительность. Многочисленные количественные эксперименты и качественный анализ подтверждают превосходство RAISECity по согласованности с реальностью, точности форм, достоверности текстур и эстетическому уровню, демонстрируя более чем 90% показатель выигрыша по сравнению с существующими базовыми методами по общей воспринимаемой качеству. Сочетание качества 3D-графики, соответствия реальности, масштабируемости и бесшовной совместимости с графическими конвейерами делает RAISECity перспективной основой для приложений в области иммерсивных медиа, воплощенного интеллекта и моделей мира.
Точное прогнозирование остаточного ресурса (RUL) критически зависит от качества индикаторов состояния (HI), однако существующие методы часто не способны разделить сложные механизмы деградации в мультисенсорных системах или количественно оценить неопределенность надежности HI. В данной статье представлена новая концепция построения индикаторов состояния с тремя ключевыми вкладами. Во-первых, мы впервые адаптируем метод Reconstruction along Projected Pathways (RaPP) в качестве индикатора состояния для прогнозирования RUL, демонстрируя его превосходство над традиционными метриками ошибки реконструкции. Во-вторых, мы показываем, что дополнение HI, полученных на основе RaPP, количественной оценкой алеаторной и эпистемической неопределенности (UQ) с помощью метода Монте-Карло с dropout и вероятностных латентных пространств, значительно повышает устойчивость прогнозирования RUL. В-третьих, и это наиболее важно, мы предлагаем парадигму групп индикаторов, которая изолирует подмножества датчиков для моделирования специфических для системы видов деградации, что приводит к созданию нашего нового метода I-GLIDE, обеспечивающего интерпретируемую диагностику для конкретных механизмов. Проведенная оценка на данных аэрокосмических и производственных систем показывает значительное улучшение точности и обобщающей способности по сравнению с современными методами HI, одновременно предоставляя практическую информацию о путях отказов системы. Данная работа преодолевает разрыв между обнаружением аномалий и прогнозированием, предлагая принципиальную концепцию для моделирования деградации с учетом неопределенности в сложных системах.
Несмотря на то, что метод рассеяния 3D-гауссоидов (3DGS) превосходно работает в большинстве конфигураций, он не обладает способностью к обобщению для новых ракурсов в условиях сцен с малым числом снимков из-за переобучения на разреженных наблюдениях. Мы пересматриваем оптимизацию 3DGS с точки зрения машинного обучения, рассматривая синтез новых видов как проблему обобщения на непредставленные ракурсы — малоизученное направление. Мы предлагаем частотно-адаптивную регуляризацию остроты (FASR), которая переформулирует целевую функцию обучения 3DGS, направляя метод к сходимости в решение с лучшей обобщающей способностью. Хотя метод минимизации, учитывающий остроту (SAM), аналогичным образом снижает остроту ландшафта потерь для улучшения обобщения классификационных моделей, его прямое применение к 3DGS неоптимально из-за различия между задачами. В частности, он препятствует восстановлению высокочастотных деталей из-за чрезмерной регуляризации, тогда как снижение её силы приводит к недостаточному подавлению остроты. Для решения этой проблемы мы учитываем локальную частоту изображений для установки веса регуляризации и радиуса окрестности при оценке локальной остроты. Это предотвращает появление артефактов типа "плавающих частиц" на новых ракурсах и восстанавливает мелкие детали, которые SAM склонен чрезмерно сглаживать. На наборах данных с различными конфигурациями наш метод стабильно улучшает широкий спектр базовых методов. Код будет доступен по адресу https://bbangsik13.github.io/FASR.