Ежедневно отобранные исследовательские статьи по ИИ с переводами
Модели Vision-Language-Action (VLA) обычно устраняют разрыв между перцептивным и пространством действий путем предварительного обучения крупномасштабной Vision-Language Model (VLM) на роботизированных данных. Хотя такой подход значительно повышает производительность, он также влечет за собой существенные затраты на обучение. В данной статье мы исследуем, как эффективно связать представления vision-language (VL) с действиями (A). Мы представляем VLA-Adapter — новую парадигму, разработанную для снижения зависимости моделей VLA от крупномасштабных VLM и длительного предварительного обучения. Для этого мы сначала систематически анализируем эффективность различных условий VL и представляем ключевые выводы о том, какие условия необходимы для связи перцептивного пространства и пространства действий. На основе этих инсайтов мы предлагаем легковесный модуль Policy с Bridge Attention, который автономно внедряет оптимальное условие в пространство действий. Таким образом, наш метод достигает высокой производительности, используя только основу с 0,5 миллиардами параметров, без какого-либо предварительного обучения на роботизированных данных. Многочисленные эксперименты на симуляционных и реальных роботизированных тестах демонстрируют, что VLA-Adapter не только достигает уровня производительности, соответствующего современным стандартам, но и обеспечивает самую высокую скорость вывода на сегодняшний день. Более того, благодаря предложенной передовой парадигме связывания, VLA-Adapter позволяет обучить мощную модель VLA всего за 8 часов на одном потребительском GPU, значительно снижая барьер для развертывания модели VLA. Страница проекта: https://vla-adapter.github.io/.
Методы генерации видео с фокусом на человеке (Human-Centric Video Generation, HCVG) направлены на синтез видео с участием людей на основе мультимодальных входных данных, включая текст, изображения и аудио. Существующие подходы сталкиваются с трудностями в эффективной координации этих разнородных модальностей из-за двух основных проблем: недостатка обучающих данных с парными тройными условиями и сложности согласования подзадач сохранения объекта и синхронизации аудио и видео при работе с мультимодальными входами. В данной работе мы представляем HuMo — унифицированную структуру HCVG для совместного мультимодального управления. Для решения первой проблемы мы создали высококачественный набор данных с разнообразными и парными текстами, эталонными изображениями и аудио. Для второй проблемы мы предлагаем двухэтапную прогрессивную парадигму обучения с мультимодальными данными, включающую стратегии, специфичные для каждой задачи. Для задачи сохранения объекта, чтобы сохранить способность базовой модели следовать подсказкам и генерировать визуальные данные, мы применяем минимально инвазивную стратегию внедрения изображений. Для задачи синхронизации аудио и видео, помимо широко используемого слоя кросс-внимания для аудио, мы предлагаем стратегию "фокусировка через предсказание", которая неявно направляет модель на ассоциацию аудио с лицевыми областями. Для совместного обучения управляемости на основе мультимодальных входов, опираясь на ранее приобретенные способности, мы постепенно включаем задачу синхронизации аудио и видео. На этапе вывода для гибкого и детализированного мультимодального управления мы разработали временно-адаптивную стратегию Classifier-Free Guidance, которая динамически регулирует веса управления на разных этапах удаления шума. Результаты многочисленных экспериментов показывают, что HuMo превосходит специализированные современные методы в подзадачах, устанавливая унифицированную структуру для совместной генерации видео с условиями на основе мультимодальных данных. Страница проекта: https://phantom-video.github.io/HuMo.
Модели Vision-Language-Action (VLA) недавно стали мощной парадигмой для роботизированного манипулирования. Несмотря на значительный прогресс, достигнутый благодаря крупномасштабному предварительному обучению и тонкой настройке с учителем (SFT), эти модели сталкиваются с двумя фундаментальными проблемами: (i) дефицит и высокая стоимость крупномасштабных траекторий, управляемых человеком, необходимых для масштабирования SFT, и (ii) ограниченная обобщаемость на задачи, связанные со сдвигом распределения. Недавние прорывы в области Large Reasoning Models (LRMs) демонстрируют, что обучение с подкреплением (RL) может значительно улучшить пошаговые рассуждения, что поднимает естественный вопрос: Может ли RL аналогичным образом улучшить долгосрочное пошаговое планирование действий в VLA? В данной работе мы представляем SimpleVLA-RL, эффективный фреймворк RL, адаптированный для моделей VLA. Основываясь на veRL, мы вводим специфичный для VLA отбор траекторий, масштабируемую параллелизацию, рендеринг в нескольких средах и оптимизированное вычисление потерь. Примененный к OpenVLA-OFT, SimpleVLA-RL достигает наилучших результатов на LIBERO и даже превосходит pi_0 на RoboTwin 1.0\&2.0 благодаря стратегиям, усиливающим исследование, которые мы предлагаем. SimpleVLA-RL не только снижает зависимость от крупномасштабных данных и обеспечивает устойчивую обобщаемость, но и значительно превосходит SFT в реальных задачах. Более того, мы обнаруживаем новое явление «pushcut» в процессе обучения RL, при котором политика обнаруживает ранее невидимые паттерны, выходящие за рамки тех, что наблюдались в предыдущем процессе обучения. Github: https://github.com/PRIME-RL/SimpleVLA-RL
Модели обработки речи на основе больших языковых моделей (SLLMs) привлекают всё больше внимания. Будучи производными от текстовых больших языковых моделей (LLMs), SLLMs часто демонстрируют снижение способностей к обработке знаний и логическому рассуждению. Мы предполагаем, что это ограничение возникает из-за того, что текущие парадигмы обучения SLLMs не способны преодолеть акустико-семантический разрыв в пространстве представления признаков. Для решения этой проблемы мы предлагаем EchoX, который использует семантические представления и динамически генерирует целевые данные для обучения речи. Этот подход интегрирует как акустическое, так и семантическое обучение, что позволяет EchoX сохранять сильные способности к рассуждению в качестве речевой LLM. Экспериментальные результаты показывают, что EchoX, обученный на примерно шести тысячах часов данных, достигает высоких показателей на нескольких тестах, основанных на вопросах, требующих знаний. Проект доступен по адресу https://github.com/FreedomIntelligence/EchoX.
Последние достижения в генерации видео аватаров, управляемых аудио, значительно повысили аудиовизуальный реализм. Однако существующие методы рассматривают управление инструкциями лишь как низкоуровневое отслеживание, основанное на акустических или визуальных сигналах, без моделирования коммуникативной цели, передаваемой инструкциями. Это ограничение снижает их нарративную согласованность и выразительность персонажей. Чтобы устранить этот пробел, мы представляем Kling-Avatar — новый каскадный фреймворк, объединяющий мультимодальное понимание инструкций с фотореалистичной генерацией портретов. Наш подход использует двухэтапный процесс. На первом этапе мы разрабатываем мультимодальную большую языковую модель (MLLM) в роли режиссера, которая создает черновое видео, управляемое разнообразными инструкциями, тем самым контролируя высокоуровневую семантику, такую как движение персонажей и эмоции. На втором этапе, руководствуясь ключевыми кадрами чернового видео, мы генерируем несколько субклипов параллельно, используя стратегию "первый-последний кадр". Этот глобально-локальный фреймворк сохраняет детализированные элементы, точно кодируя высокоуровневый замысел, стоящий за мультимодальными инструкциями. Наша параллельная архитектура также обеспечивает быструю и стабильную генерацию длительных видео, что делает её пригодной для реальных приложений, таких как трансляции цифровых людей и видеоблогинг. Для всесторонней оценки нашего метода мы создали бенчмарк из 375 тщательно отобранных образцов, охватывающих разнообразные инструкции и сложные сценарии. Многочисленные эксперименты демонстрируют, что Kling-Avatar способен генерировать яркие, плавные и длительные видео с разрешением до 1080p и частотой 48 кадров в секунду, достигая превосходных результатов в точности синхронизации губ, выразительности эмоций и динамики, управляемости инструкциями, сохранении идентичности и кросс-доменной обобщаемости. Эти результаты устанавливают Kling-Avatar как новый эталон для семантически обоснованного, высококачественного синтеза аватаров, управляемых аудио.
В задачах с длительным горизонтом современные агенты, основанные на больших языковых моделях (LLM), сталкиваются с существенной проблемой: разреженные, основанные на результате вознаграждения затрудняют распределение заслуг за промежуточные шаги. Предыдущие методы в основном сосредоточены на создании плотных сигналов вознаграждения для направления обучения, либо с использованием традиционных методов обучения с подкреплением, таких как обратное обучение с подкреплением, либо с применением моделей пошагового вознаграждения (Process Reward Models) для обратной связи на каждом шаге. В данной работе мы выявляем фундаментальную проблему в динамике обучения LLM: величина градиентов политики изначально связана с энтропией, что приводит к неэффективно малым обновлениям для уверенно правильных действий и потенциально дестабилизирует крупные обновления для неопределенных действий. Для решения этой проблемы мы предлагаем Entropy-Modulated Policy Gradients (EMPG) — фреймворк, который перекалибрует сигнал обучения на основе пошаговой неопределенности и конечного результата задачи. EMPG усиливает обновления для уверенно правильных действий, наказывает за уверенные ошибки и ослабляет обновления от неопределенных шагов для стабилизации исследования. Мы также вводим дополнительный бонус за будущую ясность, который побуждает агентов находить более предсказуемые пути решения. В ходе всесторонних экспериментов на трех сложных задачах для агентов — WebShop, ALFWorld и Deep Search — мы демонстрируем, что EMPG достигает значительного улучшения производительности и существенно превосходит сильные базовые методы градиентов политики. Страница проекта доступна по адресу https://empgseed-seed.github.io/.
Развитие открытых моделей преобразования текста в изображение (Text-to-Image, T2I) сдерживалось отсутствием крупномасштабных наборов данных, ориентированных на логическое рассуждение, и всеобъемлющих эталонов оценки, что привело к отставанию в производительности по сравнению с ведущими закрытыми системами. Для решения этой проблемы мы представляем FLUX-Reason-6M и PRISM-Bench (Precise and Robust Image Synthesis Measurement Benchmark). FLUX-Reason-6M — это масштабный набор данных, состоящий из 6 миллионов высококачественных изображений, сгенерированных с помощью FLUX, и 20 миллионов двуязычных (английских и китайских) описаний, специально разработанных для обучения сложным логическим рассуждениям. Изображения организованы в соответствии с шестью ключевыми характеристиками: Воображение, Сущность, Визуализация текста, Стиль, Эмоциональность и Композиция, а также включают явные цепочки рассуждений для генерации (Generation Chain-of-Thought, GCoT), которые предоставляют детальное описание шагов создания изображений. Процесс подготовки данных занял 15 000 дней работы на GPU A100, предоставив сообществу ресурс, ранее недоступный за пределами крупных промышленных лабораторий. PRISM-Bench предлагает новый стандарт оценки с семью различными направлениями, включая сложное задание на работу с длинными текстами с использованием GCoT. С помощью тщательно разработанных запросов он использует передовые модели обработки изображений и текста для детальной оценки соответствия запроса и изображения, а также эстетики изображения, согласованной с человеческим восприятием. Наше всестороннее тестирование 19 ведущих моделей на PRISM-Bench выявило критические пробелы в производительности и определило конкретные области, требующие улучшения. Наш набор данных, эталон и код оценки опубликованы для стимулирования следующего этапа развития генерации изображений, ориентированной на логическое рассуждение. Страница проекта: https://flux-reason-6m.github.io/.
В данной статье мы представляем новую концепцию через призму автоэнкодера: понимание как кодировщик (I2T), который сжимает изображения в текст, и генерация как декодировщик (T2I), который восстанавливает изображения из этого текста. Используя точность реконструкции как единую цель обучения, мы обеспечиваем согласованный двунаправленный поток информации между процессами понимания и генерации, что приводит к взаимному улучшению. Для реализации этого мы предлагаем UAE — новый фреймворк для унифицированного мультимодального обучения. Мы начинаем с предварительного обучения декодировщика на больших наборах данных с длинными контекстными описаниями изображений, чтобы захватить детализированные семантические и сложные пространственные отношения. Затем мы предлагаем Unified-GRPO с использованием обучения с подкреплением (RL), которое включает три этапа: (1) Фаза "холодного старта" для мягкой инициализации как кодировщика, так и декодировщика с использованием семантической потери реконструкции; (2) "Генерация для понимания", где кодировщик обучается генерировать информативные описания, которые максимизируют качество реконструкции декодировщика, улучшая его визуальное понимание; (3) "Понимание для генерации", где декодировщик дорабатывается для реконструкции из этих описаний, что заставляет его использовать каждую деталь и улучшает его способность следовать длинным контекстным инструкциям и точность генерации. Для оценки мы вводим Unified-Bench — первый бенчмарк, разработанный для оценки степени унификации UMMs. В области мультимодального обучения возникает удивительный "момент озарения": по мере прогресса RL кодировщик автономно создает более детализированные описания, в то время как декодировщик одновременно демонстрирует глубокую способность понимать эти сложные описания, что приводит к реконструкциям поразительной точности.
Крупные языковые модели (LLM) обладают обширными знаниями о мире и мощными способностями к общему рассуждению, однако они испытывают трудности с обучением на основе множества контекстных примеров в стандартных задачах машинного обучения (ML), то есть с использованием многошаговых демонстраций исключительно через контекстное обучение (ICL) без градиентного спуска. Мы представляем MachineLearningLM — портативную структуру для продолжения предварительного обучения, которая наделяет универсальную LLM устойчивой способностью к контекстному ML, сохраняя при этом её общие знания и навыки рассуждения для более широких задач чат-взаимодействий. Наша процедура предварительного обучения синтезирует задачи ML из миллионов структурных причинных моделей (SCM), охватывая количество примеров до 1,024. Мы начинаем с учителя на основе случайного леса, дистиллируя стратегии принятия решений на основе деревьев в LLM для повышения устойчивости в численном моделировании. Все задачи сериализуются с использованием эффективного по токенам промпта, что позволяет включать в контекстное окно в 3–6 раз больше примеров и обеспечивает до 50-кратного увеличения пропускной способности благодаря пакетному выводу. Несмотря на скромную настройку (Qwen-2.5-7B-Instruct с LoRA рангом 8), MachineLearningLM превосходит сильные базовые LLM (например, GPT-5-mini) в среднем на 15% в задачах классификации табличных данных вне распределения в областях финансов, физики, биологии и здравоохранения. Модель демонстрирует впечатляющий закон масштабирования для многошаговых примеров: точность монотонно возрастает по мере увеличения контекстных демонстраций с 8 до 1,024. Без какого-либо специфического обучения для конкретных задач она достигает точности, сравнимой с моделью случайного леса, на сотнях примеров. Общие чат-возможности, включая знания и рассуждения, сохраняются: модель достигает 75,4% на MMLU.
Обучение с подкреплением с верифицируемыми наградами (RLVR) представляет собой мощный подход для повышения способности к рассуждению у крупных языковых моделей (LLM). Однако современные методы RLVR часто демонстрируют слабую исследовательскую активность, что приводит к преждевременной сходимости и коллапсу энтропии. Для решения этой проблемы мы представляем Curiosity-Driven Exploration (CDE) — фреймворк, который использует внутреннее чувство любопытства модели для управления исследованием. Мы формализуем любопытство с помощью сигналов как от актора, так и от критика: для актора мы используем перплексию над сгенерированным ответом, а для критика — дисперсию оценок значений из архитектуры с несколькими головами. Оба сигнала служат бонусом для исследования в рамках RLVR, направляя модель. Наш теоретический анализ показывает, что бонус для актора по своей природе штрафует излишне уверенные ошибки и способствует разнообразию среди правильных ответов; более того, мы связываем бонус для критика с хорошо известным бонусом для исследования на основе подсчета в обучении с подкреплением. Эмпирически наш метод демонстрирует улучшение примерно на +3 балла по сравнению со стандартным RLVR с использованием GRPO/PPO на бенчмарках AIME. Дополнительный анализ выявляет механизм коллапса калибровки в RLVR, проливая свет на типичные режимы сбоя LLM.
Крупные аудио-языковые модели (LALMs) быстро развиваются, но их оценка остается сложной задачей из-за неэффективных инструментариев, которые ограничивают справедливое сравнение и систематическую оценку. Современные фреймворки страдают от трех ключевых проблем: медленная обработка, которая становится узким местом для крупномасштабных исследований, неоднородные подходы к формулированию запросов, которые снижают воспроизводимость, и узкий охват задач, который упускает важные возможности аудио-рассуждений. Мы представляем AU-Harness — эффективный и всеобъемлющий фреймворк для оценки LALMs. Наша система достигает ускорения до 127% по сравнению с существующими инструментариями благодаря оптимизированной пакетной обработке и параллельному выполнению, что делает возможными крупномасштабные оценки, ранее недоступные. Мы предлагаем стандартизированные протоколы формулирования запросов и гибкие конфигурации для справедливого сравнения моделей в различных сценариях. Кроме того, мы вводим две новые категории оценки: LLM-Adaptive Diarization для временного понимания аудио и Spoken Language Reasoning для сложных когнитивных задач на основе аудио. В ходе оценки более 380 задач мы выявили значительные пробелы в современных LALMs, особенно в области временного понимания и сложных задач аудио-рассуждений. Наши результаты также подчеркивают отсутствие стандартизации в модальности инструкций в существующих аудио-бенчмарках, что может приводить к различиям в производительности до 9,5 абсолютных пунктов в сложных задачах следования инструкциям. AU-Harness предоставляет как практические инструменты для оценки, так и инсайты о ограничениях моделей, способствуя систематическому развитию LALMs.
Значительный прогресс был достигнут в области пространственного интеллекта, охватывающей как пространственную реконструкцию, так и исследование окружающего мира. Однако масштабируемость и реалистичность текущих моделей остаются серьезно ограниченными из-за недостатка крупномасштабных, высококачественных данных для обучения. Хотя несколько наборов данных предоставляют информацию о положении камеры, они, как правило, ограничены по масштабу, разнообразию и богатству аннотаций, особенно для реальных динамических сцен с точными данными о движении камеры. В связи с этим мы собрали SpatialVID — набор данных, состоящий из большого корпуса видеороликов, снятых в естественных условиях, с разнообразными сценами, движениями камеры и плотными 3D-аннотациями, такими как положение камеры для каждого кадра, глубина и инструкции по движению. В частности, мы собрали более 21 000 часов исходного видео и обработали их в 2,7 миллиона клипов с помощью иерархического фильтрующего конвейера, что в сумме составляет 7 089 часов динамического контента. Последующий конвейер аннотаций обогащает эти клипы детальной пространственной и семантической информацией, включая положение камеры, карты глубины, динамические маски, структурированные описания и последовательные инструкции по движению. Анализ статистики данных SpatialVID демонстрирует их богатство и разнообразие, что напрямую способствует улучшению обобщения и производительности моделей, делая этот набор данных ключевым ресурсом для сообщества исследователей в области видео и 3D-зрения.
Понимание графиков представляет собой важный тест для способностей к рассуждению у моделей, объединяющих зрение и язык (Vision-Language Models, VLMs). Существующие подходы имеют существенные ограничения: некоторые полагаются на внешние инструменты, что делает их ненадежными и ограниченными предопределенным набором инструментов, в то время как другие используют специализированные модели, которые часто применяют единственную стратегию рассуждений, например, текстовую цепочку мыслей (chain-of-thought, CoT). Промежуточные этапы текстовых рассуждений сложно проверить, что затрудняет использование сигналов обучения с подкреплением, направленных на вознаграждение за фактическую точность. Чтобы решить эту проблему, мы предлагаем подход "Код как Мысль" (Code-as-Thought, CaT), который представляет визуальную информацию графика в проверяемом, символическом формате. Наше ключевое наблюдение заключается в том, что эта стратегия должна быть адаптивной: фиксированная реализация, основанная исключительно на коде, неизменно терпит неудачу на сложных графиках, где символическое представление неприменимо. Это открытие привело нас к введению понятия "Визуальная Программируемость" — обучаемого свойства, которое определяет, лучше ли решать задачу с помощью кода или прямого визуального анализа. Мы реализуем эту концепцию в адаптивной структуре, где VLM учится выбирать между путем CaT и путем прямого визуального рассуждения. Политика выбора модели обучается с использованием обучения с подкреплением на основе новой системы двойного вознаграждения. Эта система сочетает вознаграждение за точность данных, чтобы закрепить модель в фактах и предотвратить числовые галлюцинации, с вознаграждением за принятие решений, которое учит модель, когда использовать каждую стратегию, предотвращая ее склонность к единственному режиму рассуждений. Эксперименты демонстрируют высокую и устойчивую производительность на различных тестах по пониманию графиков. Наша работа показывает, что VLMs можно научить не только рассуждать, но и тому, как рассуждать, динамически выбирая оптимальный путь рассуждений для каждой задачи.
Модели языков, основанные исключительно на энкодерах, часто используются для решения различных стандартных задач машинного обучения, включая классификацию и поиск. Однако в последнее время исследования в области моделей-энкодеров, особенно в контексте многоязычных моделей, были ограничены. Мы представляем mmBERT — модель языка, основанную исключительно на энкодере, предобученную на 3 триллионах токенов многоязычного текста, охватывающего более 1800 языков. Для создания mmBERT мы вводим несколько новых элементов, включая график обратного соотношения масок и обратное соотношение температурной выборки. Мы добавляем более 1700 языков с ограниченными ресурсами в обучающие данные только на этапе затухания, демонстрируя, что это значительно повышает производительность и максимизирует выгоду от относительно небольшого объема обучающих данных. Несмотря на включение этих языков с ограниченными ресурсами только на коротком этапе затухания, мы достигаем аналогичной производительности в задачах классификации по сравнению с такими моделями, как OpenAI o3 и Google Gemini 2.5 Pro. В целом, мы показываем, что mmBERT значительно превосходит предыдущее поколение моделей в задачах классификации и поиска — как для языков с большими, так и с ограниченными ресурсами.
Понимание трехмерных пространственных отношений остается серьезным ограничением современных моделей "Видение-Язык" (Vision-Language Models, VLMs). Предыдущие работы решали эту проблему путем создания наборов данных для вопросов и ответов (QA) на основе одиночных изображений или видео в помещении. Однако реальные воплощенные ИИ-агенты, такие как роботы и беспилотные автомобили, обычно полагаются на эгоцентричные, многовидовые наблюдения. В связи с этим мы представляем Ego3D-Bench — новый эталонный набор данных, предназначенный для оценки способностей VLMs к пространственному мышлению с использованием эгоцентричных, многовидовых данных на открытом воздухе. Ego3D-Bench включает более 8600 пар вопросов и ответов, созданных при активном участии аннотаторов для обеспечения качества и разнообразия. Мы тестируем 16 современных VLMs, включая GPT-4o, Gemini1.5-Pro, InternVL3 и Qwen2.5-VL. Наши результаты выявляют значительный разрыв между уровнем человеческих показателей и производительностью VLMs, подчеркивая, что текущие VLMs все еще отстают от человеческого уровня понимания пространства. Чтобы сократить этот разрыв, мы предлагаем Ego3D-VLM — посттренировочный фреймворк, который улучшает трехмерное пространственное мышление VLMs. Ego3D-VLM генерирует когнитивную карту на основе оцененных глобальных 3D-координат, что приводит к среднему улучшению на 12% в задачах с множественным выбором и на 56% в оценке абсолютного расстояния. Ego3D-VLM является модульным и может быть интегрирован с любой существующей VLM. Вместе Ego3D-Bench и Ego3D-VLM предлагают ценные инструменты для продвижения к человеческому уровню понимания пространства в реальных многовидовых средах.
Хотя контрастивное предобучение на языково-визуальных данных (CLIP) демонстрирует высокую производительность в различных задачах компьютерного зрения, его применение для обучения представлений о людях сталкивается с двумя ключевыми проблемами: (i) недостаток крупномасштабных аннотированных данных, сочетающих изображения и текст, сфокусированных на изображениях людей, и (ii) присущие ограничения глобального контрастивного обучения, которое с трудом сохраняет дискриминативные локальные признаки, важные для точного сопоставления, и при этом остается уязвимым к шумовым текстовым токенам. В данной работе мы улучшаем CLIP для обучения представлений о людях за счет синергетических усовершенствований в подготовке данных и архитектуре модели. Во-первых, мы разрабатываем устойчивый к шуму процесс создания данных, который использует возможности обучения в контексте многоязыковых языковых моделей (MLLMs) для автоматической фильтрации и аннотирования изображений, полученных из интернета. Это позволяет создать WebPerson — крупномасштабный набор данных, содержащий 5 миллионов высококачественных пар изображение-текст, сфокусированных на людях. Во-вторых, мы представляем фреймворк GA-DMS (Gradient-Attention Guided Dual-Masking Synergetic), который улучшает кросс-модальное выравнивание за счет адаптивного маскирования шумовых текстовых токенов на основе оценки сходства градиентов и внимания. Кроме того, мы включаем задачи предсказания замаскированных токенов, которые заставляют модель предсказывать информативные текстовые токены, улучшая обучение тонкой семантической репрезентации. Многочисленные эксперименты показывают, что GA-DMS достигает наилучших результатов на нескольких бенчмарках.
Гауссово размытие (Gaussian Splatting, GS), недавно разработанная методика преобразования дискретных точек в непрерывные пространственные представления, продемонстрировала перспективные результаты в моделировании 3D-сцен и суперразрешении 2D-изображений. В данной работе мы исследуем её нераскрытый потенциал для задачи восстановления изображений (inpainting), которая требует как локально согласованного синтеза пикселей, так и глобально согласованного семантического восстановления. Мы предлагаем первую структуру для восстановления изображений, основанную на 2D-гауссовом размытии, которая кодирует неполные изображения в непрерывное поле коэффициентов 2D-гауссовых размытий и восстанавливает итоговое изображение с помощью дифференцируемого процесса растеризации. Непрерывная парадигма рендеринга GS естественным образом способствует пиксельной согласованности в восстановленных результатах. Для повышения эффективности и масштабируемости мы вводим стратегию пошаговой растеризации, которая снижает затраты памяти и ускоряет вывод. Для обеспечения глобальной семантической согласованности мы интегрируем признаки из предобученной модели DINO. Мы отмечаем, что глобальные признаки DINO естественным образом устойчивы к небольшим пропущенным областям и могут эффективно адаптироваться для управления семантическим выравниванием в сценариях с большими масками, гарантируя, что восстановленное содержание остаётся контекстуально согласованным с окружающей сценой. Многочисленные эксперименты на стандартных тестовых наборах данных показывают, что наш метод достигает конкурентоспособных результатов как по количественным метрикам, так и по воспринимаемому качеству, открывая новое направление для применения гауссова размытия в обработке 2D-изображений.
Последние достижения в области мультимодальных больших языковых моделей (MLLM) открыли новые возможности для воплощённого интеллекта, обеспечивая мультимодальное понимание, рассуждение и взаимодействие, а также непрерывное пространственное принятие решений. Тем не менее, современные системы на основе MLLM сталкиваются с двумя критическими ограничениями. Во-первых, **Пробел в геометрической адаптивности**: модели, обученные исключительно на 2D-данных или с жёстко заданной инъекцией 3D-геометрии, страдают либо от недостатка пространственной информации, либо от ограниченной 2D-обобщаемости, что приводит к плохой адаптивности в задачах с различными пространственными требованиями. Во-вторых, **Пробел в ограничениях воплощения**: предыдущие работы часто игнорируют физические ограничения и возможности реальных роботов, что приводит к планам задач, которые теоретически корректны, но практически невыполнимы. Для устранения этих пробелов мы представляем **OmniEVA** — универсальный планировщик для воплощённого интеллекта, который обеспечивает продвинутое воплощённое рассуждение и планирование задач благодаря двум ключевым инновациям: (1) **Механизм адаптивного 3D-заземления задач**, который вводит управляемый маршрутизатор для явного выборочного регулирования 3D-слияния на основе контекстных требований, обеспечивая контекстно-зависимое 3D-заземление для различных воплощённых задач. (2) **Фреймворк рассуждений с учётом воплощения**, который совместно учитывает цели задач и ограничения воплощения в цикле рассуждений, что приводит к планированию решений, которые одновременно направлены на достижение цели и выполнимы. Результаты обширных экспериментов демонстрируют, что OmniEVA не только достигает передовых показателей в общем воплощённом рассуждении, но и проявляет высокую способность в широком спектре сценариев. Оценка набора предложенных тестов для воплощённого интеллекта, включая как простые, так и составные задачи, подтверждает её устойчивые и универсальные возможности планирования. Страница проекта: https://omnieva.github.io
Последние достижения в области крупных моделей обработки зрения и языка (LVLMs) продемонстрировали высокую производительность в решении общих медицинских задач. Однако их эффективность в специализированных областях, таких как стоматология, остается недостаточно изученной. В частности, панорамные рентгеновские снимки, широко используемые в оральной радиологии, представляют сложности для интерпретации из-за плотных анатомических структур и тонких патологических признаков, которые не охватываются существующими медицинскими бенчмарками или наборами инструкций. В связи с этим мы представляем MMOral — первый крупномасштабный мультимодальный набор данных с инструкциями и бенчмарк, разработанный специально для интерпретации панорамных рентгеновских снимков. MMOral включает 20 563 аннотированных изображения, сопряженных с 1,3 миллионами примеров выполнения инструкций, охватывающих различные типы задач, такие как извлечение атрибутов, генерация отчетов, визуальный вопросно-ответный диалог и диалог, основанный на изображениях. Кроме того, мы представляем MMOral-Bench — комплексный набор для оценки, охватывающий пять ключевых диагностических аспектов в стоматологии. Мы протестировали 64 модели LVLM на MMOral-Bench и обнаружили, что даже лучшая модель, GPT-4o, достигает точности всего 41,45%, что свидетельствует о значительных ограничениях современных моделей в этой области. Для стимулирования прогресса в данной области мы также предлагаем OralGPT, который проходит контролируемую тонкую настройку (SFT) на основе Qwen2.5-VL-7B с использованием тщательно отобранного набора данных MMOral. Примечательно, что всего одна эпоха SFT приводит к существенному улучшению производительности LVLM, например, OralGPT демонстрирует улучшение на 24,73%. Как MMOral, так и OralGPT обладают значительным потенциалом в качестве важной основы для интеллектуальной стоматологии и способствуют созданию более клинически значимых мультимодальных систем ИИ в стоматологической области. Набор данных, модель, бенчмарк и набор для оценки доступны по адресу https://github.com/isbrycee/OralGPT.
Появление языковых моделей с длинным контекстом, способных обрабатывать миллионы токенов, открыло новые возможности для сложного анализа кода и оценки разработки программного обеспечения. Мы представляем LoCoBench — всеобъемлющий бенчмарк, специально разработанный для оценки языковых моделей с длинным контекстом в реалистичных и сложных сценариях разработки программного обеспечения. В отличие от существующих бенчмарков для оценки кода, которые сосредоточены на завершении отдельных функций или задачах с коротким контекстом, LoCoBench устраняет критический пробел в оценке способностей, требующих понимания целых кодовых баз, рассуждений на основе нескольких файлов и поддержания архитектурной согласованности в крупномасштабных программных системах. Наш бенчмарк включает 8 000 сценариев оценки, систематически сгенерированных для 10 языков программирования, с длиной контекста от 10K до 1M токенов, что обеспечивает 100-кратное варьирование и позволяет точно оценить снижение производительности при работе с длинным контекстом в реалистичных условиях разработки. LoCoBench вводит 8 категорий задач, охватывающих ключевые способности работы с длинным контекстом: понимание архитектуры, рефакторинг между файлами, разработка в несколько сессий, исследование ошибок, реализация функций, понимание кода, интеграционное тестирование и анализ безопасности. С помощью 5-этапного конвейера мы создаем разнообразные и качественные сценарии, которые ставят перед языковыми моделями задачи рассуждения о сложных кодовых базах в беспрецедентных масштабах. Мы представляем всеобъемлющую систему оценки с 17 метриками, охватывающими 4 измерения, включая 8 новых метрик, объединенных в LoCoBench Score (LCBS). Наша оценка современных моделей с длинным контекстом выявила значительные пробелы в производительности, демонстрируя, что понимание длинного контекста в сложной разработке программного обеспечения остается серьезной нерешенной задачей, требующей большего внимания. LoCoBench доступен по адресу: https://github.com/SalesforceAIResearch/LoCoBench.
Навигация с использованием только одной камеры и топологической карты в последнее время стала привлекательной альтернативой методам, требующим дополнительных сенсоров и 3D-карт. Обычно это достигается с помощью "относительно-изображенческого" подхода к оценке управления на основе пары текущего наблюдения и целевого изображения. Однако представления мира на уровне изображений имеют ограничения, поскольку изображения строго привязаны к позе и воплощению агента. В отличие от этого, объекты, являющиеся свойством карты, предлагают представление мира, инвариантное к воплощению и траектории. В данной работе мы представляем новую парадигму обучения "относительно-объектного" управления, которая демонстрирует несколько желательных характеристик: а) новые маршруты могут быть пройдены без строгой необходимости имитировать предыдущий опыт, б) задача прогнозирования управления может быть отделена от решения задачи сопоставления изображений, и в) может быть достигнута высокая инвариантность при кросс-воплощенческом развертывании для вариаций как в настройках обучения-тестирования, так и в настройках картографирования-исполнения. Мы предлагаем топометрическое представление карты в виде "относительного" 3D сценарного графа, который используется для получения более информативных затрат на глобальное планирование пути на уровне объектов. Мы обучаем локальный контроллер, названный "ObjectReact", непосредственно на основе высокоуровневого представления "WayObject Costmap", что устраняет необходимость в явном RGB-входе. Мы демонстрируем преимущества обучения относительно-объектного управления по сравнению с его относительно-изображенческим аналогом в условиях вариаций высоты сенсора и множественных задач навигации, которые проверяют базовую способность пространственного понимания, например, навигации по траектории карты в обратном направлении. Мы также показываем, что наша политика, обученная только на симуляции, способна хорошо обобщаться на реальные внутренние среды. Код и дополнительные материалы доступны на странице проекта: https://object-react.github.io/
Центральный парадокс при тонкой настройке больших языковых моделей (LLM) с использованием обучения с подкреплением с верифицируемой наградой (RLVR) заключается в частом ухудшении производительности при многократных попытках (Pass@k), несмотря на улучшение точности при однократной попытке (Pass@1). Это часто сопровождается катастрофическим забыванием, когда модели теряют ранее приобретенные навыки. Хотя было предложено множество методов, выбор и функция члена расхождения остаются удивительно малоизученными как активное решение. Мы утверждаем, что стандартные цели RLVR — как те, которые используют модо-ориентированную обратную KL-дивергенцию, так и те, которые полностью отказываются от члена расхождения — лишены важного механизма для сохранения знаний. Обратная KL-дивергенция активно ускоряет этот процесс, сужая политику, а ее отсутствие не обеспечивает защиты от отклонения модели от своей разнообразной базы знаний. Мы предлагаем фундаментальный сдвиг в подходе: использование самого члена расхождения в качестве решения. Наша структура, Diversity-Preserving Hybrid RL (DPH-RL), использует массо-покрывающие f-дивергенции (такие как прямая KL-дивергенция и JS-дивергенция) в качестве механизма повторения. Постоянно ссылаясь на начальную политику, этот подход заставляет модель поддерживать широкий охват решений. Многочисленные эксперименты на задачах генерации математических выражений и SQL-запросов демонстрируют, что DPH-RL не только устраняет ухудшение Pass@k, но и улучшает как Pass@1, так и Pass@k как внутри, так и за пределами домена. Кроме того, DPH-RL более эффективен в обучении, поскольку вычисляет f-дивергенцию с использованием функций генератора, требуя только выборки из начальной политики и не нуждаясь в онлайн-референсной модели. Наша работа подчеркивает важный, но упускаемый из виду аспект улучшения RLVR, демонстрируя, что правильный выбор меры расхождения является мощным инструментом для создания более общих и разнообразных моделей рассуждений.
Предложенные в академических исследованиях решения для обнаружения уязвимостей на основе глубокого обучения не всегда доступны разработчикам, и их применимость в промышленных условиях редко рассматривается. Перенос таких технологий из академической среды в промышленность сопряжен с проблемами, связанными с доверием, устаревшими системами, ограниченной цифровой грамотностью и разрывом между академическими и промышленными знаниями. В случае глубокого обучения дополнительными проблемами являются производительность и интеграция в существующие рабочие процессы. В данной работе мы сначала оцениваем производительность модели CodeBERT для обнаружения уязвимых функций в промышленном и открытом программном обеспечении. Мы анализируем её способность к обобщению между доменами при дообучении на данных из открытых источников и тестировании на промышленных данных, и наоборот, а также исследуем стратегии для работы с дисбалансом классов. На основе этих результатов мы разрабатываем AI-DO (Automating vulnerability detection Integration for Developers' Operations) — систему рекомендаций, интегрированную в процесс Continuous Integration-Continuous Deployment (CI/CD), которая использует дообученный CodeBERT для обнаружения и локализации уязвимостей во время проверки кода без нарушения рабочих процессов. Наконец, мы оцениваем воспринимаемую полезность инструмента с помощью опроса среди ИТ-специалистов компании. Наши результаты показывают, что модели, обученные на промышленных данных, точно обнаруживают уязвимости в пределах того же домена, но теряют производительность на открытом коде, в то время как модель глубокого обучения, дообученная на открытых данных с использованием подходящих методов уменьшения выборки, улучшает обнаружение уязвимостей.
Мультимодальные системы рекомендаций становятся все более фундаментальными технологиями для электронной коммерции и контент-платформ, обеспечивая персонализированные услуги за счет совместного моделирования исторического поведения пользователей и мультимодальных характеристик товаров (например, визуальных и текстовых). Однако большинство существующих методов полагаются либо на статические стратегии слияния, либо на моделирование локальных взаимодействий на основе графов, сталкиваясь с двумя критическими ограничениями: (1) недостаточная способность моделировать тонкие межмодальные ассоциации, что приводит к неоптимальному качеству слияния; и (2) отсутствие глобальной согласованности на уровне распределения, вызывающее смещение в представлениях. Для решения этих проблем мы предлагаем MambaRec, новую структуру, которая интегрирует локальное выравнивание признаков и глобальную регуляризацию распределения с помощью обучения, управляемого вниманием. В ее основе лежит модуль Dilated Refinement Attention Module (DREAM), который использует многомасштабные дилатированные свертки с канальным и пространственным вниманием для выравнивания тонких семантических паттернов между визуальными и текстовыми модальностями. Этот модуль захватывает иерархические отношения и контекстно-зависимые ассоциации, улучшая межмодальное семантическое моделирование. Дополнительно мы применяем функции потерь Maximum Mean Discrepancy (MMD) и контрастивные функции потерь для ограничения глобального выравнивания модальностей, повышая семантическую согласованность. Эта двойная регуляризация уменьшает отклонения, специфичные для модальностей, и повышает устойчивость. Для улучшения масштабируемости MambaRec использует стратегию снижения размерности, чтобы уменьшить вычислительную стоимость высокоразмерных мультимодальных признаков. Экстенсивные эксперименты на реальных наборах данных электронной коммерции показывают, что MambaRec превосходит существующие методы по качеству слияния, обобщаемости и эффективности. Наш код доступен публично по адресу https://github.com/rkl71/MambaRec.
Наша команда, All You Need Is A Fuzzing Brain, стала одним из семи финалистов в конкурсе DARPA Artificial Intelligence Cyber Challenge (AIxCC), заняв четвертое место в финальном раунде. В ходе соревнования мы разработали Систему Киберрассуждений (Cyber Reasoning System, CRS), которая автономно обнаружила 28 уязвимостей безопасности, включая шесть ранее неизвестных уязвимостей нулевого дня, в реальных проектах с открытым исходным кодом на языках C и Java, а также успешно исправила 14 из них. Полная версия CRS доступна в открытом доступе по адресу https://github.com/o2lab/afc-crs-all-you-need-is-a-fuzzing-brain. В данной статье представлено подробное техническое описание нашей CRS с акцентом на компоненты и стратегии, основанные на использовании крупных языковых моделей (LLM). На основе опыта, полученного в AIxCC, мы также представляем публичный рейтинг для оценки современных LLM в задачах обнаружения и исправления уязвимостей, созданный на основе данных AIxCC. Рейтинг доступен по адресу https://o2lab.github.io/FuzzingBrain-Leaderboard/.
Ранние исследования атак с отравлением данных на крупные языковые модели (LLM) продемонстрировали, насколько легко можно внедрить бэкдоры. Более современные LLM добавляют пошаговое рассуждение, расширяя поверхность атаки, включая промежуточную цепочку мыслей (CoT) и её присущую способность разбивать задачи на подзадачи. Используя эти векторы для более скрытного отравления, мы представляем «отравление через декомпозированное рассуждение», при котором злоумышленник изменяет только путь рассуждения, оставляя промпты и конечные ответы неизменными, и распределяет триггер по нескольким, по отдельности безвредным компонентам. Интересно, что хотя внедрение таких декомпозированных отравлений остаётся возможным, надёжная активация их для изменения конечных ответов (а не только CoT) оказывается удивительно сложной. Эта сложность возникает из-за того, что модели часто могут восстанавливаться после активации бэкдоров в процессе их рассуждений. В конечном итоге, кажется, что форма устойчивости к бэкдорам возникает благодаря способностям к рассуждению у этих продвинутых LLM, а также из-за архитектурного разделения между процессом рассуждения и генерацией конечного ответа.