Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Kling-Omni — универсальную генеративную систему, предназначенную для синтеза видео высокого качества непосредственно из мультимодальных визуально-языковых входных данных. Принимая сквозной подход, Kling-Omni устраняет функциональный разрыв между разнородными задачами генерации, редактирования и интеллектуального анализа видео, интегрируя их в целостную систему. В отличие от разрозненных конвейерных подходов, Kling-Omni поддерживает широкий спектр пользовательских входных данных, включая текстовые инструкции, эталонные изображения и видеоконтексты, преобразуя их в унифицированное мультимодальное представление для создания кинематографичного и высокоинтеллектуального видеоконтента. Для обеспечения этих возможностей мы создали комплексную систему данных, которая служит основой для мультимодального создания видео. Эффективность системы дополнительно повышена за счёт стратегий масштабного предварительного обучения и оптимизации инфраструктуры для вывода. Всесторонние оценки показывают, что Kling-Omni демонстрирует исключительные способности в контекстно-зависимой генерации, редактировании на основе логического вывода и выполнении мультимодальных инструкций. Выходя за рамки инструмента для создания контента, мы считаем, что Kling-Omni является ключевым шагом на пути к созданию мультимодальных симуляторов мира, способных воспринимать, анализировать, генерировать и взаимодействовать с динамичными и сложными мирами.
Современные агентные системы искусственного интеллекта строятся на базе фундаментальных моделей, которые можно адаптировать для планирования, рассуждений и взаимодействия с внешними инструментами с целью выполнения все более сложных и специализированных задач. По мере роста возможностей и масштаба таких систем адаптация становится ключевым механизмом повышения их производительности, надежности и способности к обобщению. В данной статье мы объединяем быстро расширяющийся ландшафт исследований в систематическую структуру, охватывающую как адаптацию агентов, так и адаптацию инструментов. Мы дополнительно разлагаем их на сигнализируемые выполнением инструментов и сигнализируемые выходом агента формы адаптации агентов, а также на агентно-независимые и контролируемые агентом формы адаптации инструментов. Мы показываем, что данная структура помогает прояснить пространство проектирования стратегий адаптации в агентном ИИ, делает их компромиссы явными и предоставляет практические рекомендации по выбору или переключению между стратегиями в процессе проектирования системы. Затем мы рассматриваем репрезентативные подходы в каждой категории, анализируем их сильные и слабые стороны и выделяем ключевые нерешенные проблемы и перспективные направления. В целом, данная статья призвана предложить концептуальную основу и практический план действий для исследователей и практиков, стремящихся создавать более способные, эффективные и надежные агентные системы ИИ.
В данной статье представлена LLaDA2.0 — пара дискретных диффузионных больших языковых моделей (dLLM), масштабируемых до 100 млрд общих параметров за счет систематического преобразования авторегрессионных (AR) моделей, что устанавливает новую парадигму для развертывания на передовом уровне. Вместо дорогостоящего обучения с нуля LLaDA2.0 следует принципам наследования знаний, прогрессивной адаптации и эффективности, обеспечивая бесшовное преобразование предобученной AR-модели в dLLM с помощью новой 3-фазной схемы обучения на основе блочного WSD: прогрессивное увеличение размера блока в блочной диффузии (разогрев), крупномасштабная диффузия на полных последовательностях (стабильная фаза) и возврат к компактной блочной диффузии (затухание). Совместно с посттренировочной адаптацией методами SFT и DPO мы получаем LLaDA2.0-mini (16B) и LLaDA2.0-flash (100B) — две инструктивно-настроенные варианты моделей типа Mixture-of-Experts (MoE), оптимизированные для практического развертывания. Сохраняя преимущества параллельного декодирования, эти модели демонстрируют превосходную производительность и эффективность на передовом уровне. Обе модели были открыты для общего доступа.
Вдохновленные успехом генеративного предварительного обучения в обработке естественного языка, мы задаемся вопросом, могут ли те же принципы дать сильные самообучающиеся модели для компьютерного зрения. Вместо обучения моделей генерировать признаки для последующего использования мы обучаем их генерировать эмбеддинги для непосредственного выполнения прогностических задач. Данная работа исследует такой переход от обучения представлений к обучению моделей. В частности, модели учатся предсказывать эмбеддинги будущих патчей на основе прошлых, используя каузальное маскирование и остановку градиента, что мы называем Авторегрессионным Предсказанием Следующего Эмбеддинга (NEPA). Мы демонстрируем, что простая архитектура Transformer, предварительно обученная на ImageNet-1k с предсказанием следующего эмбеддинга в качестве единственной задачи, эффективна — без реконструкции пикселей, дискретных токенов, контрастных функций потерь или специализированных голов для конкретных задач. Данная формулировка сохраняет архитектурную простоту и масштабируемость, не требуя дополнительной сложности проектирования. NEPA показывает высокие результаты в различных задачах, достигая точности 83.8% и 85.3% Top-1 на ImageNet-1K с бэкбонами ViT-B и ViT-L после дообучения, а также эффективно переносится на задачу семантической сегментации на ADE20K. Мы полагаем, что генеративное предварительное обучение на эмбеддингах предоставляет простую, масштабируемую и потенциально модально-независимую альтернативу для самообучения в компьютерном зрении.
Быстрое развитие стереоскопических дисплеев, включая VR-шлемы и 3D-кинотеатры, привело к растущему спросу на высококачественный стереоскопический видеоконтент. Однако создание 3D-видео остается дорогостоящим и сложным процессом, в то время как автоматическое монокулярно-стереоскопическое преобразование ограничено недостатками многокаскадного конвейера «Глубина-Трансформация-Заполнение» (Depth-Warp-Inpaint, DWI). Данная парадигма страдает от распространения ошибок, неоднозначности определения глубины и несовместимости форматов между параллельной и сходящейся стереоконфигурациями. Для решения этих проблем мы представляем UniStereo — первую крупномасштабную унифицированную базу данных для стереоскопического преобразования видео, охватывающую оба стереоформата для обеспечения объективного сравнительного анализа и надежного обучения моделей. На основе этого набора данных мы предлагаем StereoPilot — эффективную прямую модель, которая напрямую синтезирует целевой вид, не полагаясь на явные карты глубины или итеративную диффузионную выборку. Оснащенная обучаемым переключателем доменов и функцией потерь на основе цикловой согласованности, модель StereoPilot легко адаптируется к различным стереоформатам и обеспечивает повышенную согласованность. Многочисленные эксперименты демонстрируют, что StereoPilot существенно превосходит современные методы как по визуальному качеству, так и по вычислительной эффективности. Страница проекта: https://hit-perfect.github.io/StereoPilot/.
Последние достижения в области генерации видео открыли путь к созданию единых аудиовизуальных моделей. В данной работе представлена Seedance 1.5 pro — фундаментальная модель, разработанная специально для нативной совместной генерации аудио и видео. Используя архитектуру Diffusion Transformer с двумя ветвями, модель интегрирует кросс-модальный совместный модуль со специализированным многоэтапным конвейером данных, достигая исключительной аудиовизуальной синхронизации и превосходного качества генерации. Для обеспечения практической полезности реализованы тщательные посттренировочные оптимизации, включая контролируемое тонкое обучение (SFT) на высококачественных наборах данных и обучение с подкреплением на основе человеческих оценок (RLHF) с многомерными моделями вознаграждения. Кроме того, представлена система ускорения, повышающая скорость вывода более чем в 10 раз. Seedance 1.5 pro выделяется точной синхронизацией губ для многоязычных и диалектных речевых данных, динамическим кинематографическим управлением камерой и улучшенной нарративной связностью, что позиционирует её как мощный инструмент для создания контента профессионального уровня. Модель Seedance 1.5 pro теперь доступна в Volcano Engine по адресу: https://console.volcengine.com/ark/region:ark+cn-beijing/experience/vision?type=GenVideo.
В данной работе мы представляем панорамную фоновую модель метрической глубины, которая обобщается для различных дистанций съемки. Мы исследуем парадигму "данные в цикле" с точки зрения как построения данных, так и проектирования архитектуры. Мы собрали масштабный набор данных, объединив публичные датасеты, высококачественные синтетические данные из нашего симулятора UE5 и моделей "текст-в-изображение", а также реальные панорамные изображения из интернета. Для сокращения междоменного разрыва между данными для помещений/улиц и синтетическими/реальными данными мы внедряем трехэтапный конвейер курации псевдо-разметки для генерации достоверной эталонной истины для немаркированных изображений. Для модели мы используем DINOv3-Large в качестве основы благодаря ее сильной предобученной обобщающей способности и вводим подключаемую голову диапазонной маски, оптимизацию с фокусом на резкости и оптимизацию с фокусом на геометрии для повышения устойчивости к varying distances и обеспечения геометрической согласованности между видами. Эксперименты на нескольких бенчмарках (например, Stanford2D3D, Matterport3D и Deep360) демонстрируют высокую производительность и обобщение "с нуля", с особенно robust и стабильными метрическими предсказаниями в разнообразных реальных сценах. Страница проекта доступна по адресу: https://insta360-research-team.github.io/DAP_website/.
Управление глубиной резкости является важной задачей в фотографии, но достижение идеальной фокусировки часто требует множества попыток или специального оборудования. Рефокусировка на основе одного изображения остается сложной проблемой. Она включает восстановление резкого содержимого и создание реалистичного боке. Существующие методы имеют существенные недостатки: они требуют полностью сфокусированных входных данных, зависят от синтетических данных из симуляторов и обладают ограниченным контролем над апертурой. Мы представляем Generative Refocusing — двухэтапный процесс, использующий DeblurNet для восстановления полностью сфокусированных изображений из различных исходных данных и BokehNet для создания управляемого боке. Нашим ключевым нововведением является полуконтролируемое обучение. Этот метод сочетает синтетические парные данные с непарными реальными изображениями с боке, используя EXIF-метаданные для захвата реальных оптических характеристик, недоступных в симуляторах. Наши эксперименты демонстрируют превосходные результаты в тестах по удалению размытия, синтезу боке и рефокусировке. Кроме того, наш метод позволяет осуществлять текстовые корректировки и использовать пользовательские формы апертуры.
Модели диффузии в контексте позволяют пользователям с невероятной легкостью и реалистичностью редактировать изображения. Однако та же самая мощь порождает серьезные проблемы конфиденциальности: личные фотографии можно легко изменять для подмены личности, распространения дезинформации или иного злонамеренного использования, причем все это — без согласия владельца. В то время как предыдущие работы исследовали вносимые на входе возмущения для защиты от неправомерного использования в персонализированной генерации изображений по тексту, устойчивость современных крупномасштабных контекстных моделей на основе DiT (Diffusion Transformer) остается в значительной степени неисследованной. В данной статье мы предлагаем DeContext — новый метод защиты исходных изображений от несанкционированного контекстного редактирования. Наше ключевое наблюдение заключается в том, что контекстная информация из исходного изображения передается на выход преимущественно через мультимодальные слои внимания. Внося небольшие целенаправленные возмущения, которые ослабляют эти перекрестные связи внимания, DeContext разрывает этот поток, эффективно разделяя связь между входом и выходом. Эта простая защита является одновременно эффективной и надежной. Мы также показываем, что ранние этапы шумоподавления и определенные трансформаторные блоки доминируют в распространении контекста, что позволяет нам сосредоточить возмущения там, где они наиболее важны. Эксперименты на Flux Kontext и Step1X-Edit демонстрируют, что DeContext последовательно блокирует нежелательное редактирование изображений, сохраняя визуальное качество. Эти результаты подчеркивают эффективность возмущений на основе механизма внимания как мощной защиты от манипуляций с изображениями.
Последние достижения в области генеративных моделей «текст-изображение» (Text-to-Image, T2I), таких как Imagen, Stable Diffusion и FLUX, привели к значительному улучшению визуального качества. Однако их производительность фундаментально ограничена качеством обучающих данных. Веб-скрапленные и синтетические наборы данных изображений часто содержат низкокачественные или избыточные примеры, что приводит к снижению визуальной достоверности, нестабильности обучения и неэффективным вычислениям. Следовательно, эффективный отбор данных крайне важен для повышения эффективности их использования. Существующие подходы полагаются на дорогостоящую ручную курацию или эвристическую оценку на основе одномерных признаков при фильтрации данных для T2I. Хотя методы на основе мета-обучения исследовались для больших языковых моделей (LLM), их адаптация для модальности изображений отсутствует. Для решения этой проблемы мы предлагаем **Alchemist** — фреймворк на основе мета-градиентов для отбора подходящего подмножества из крупномасштабных пар «текст-изображение». Наш подход автоматически обучается оценивать влияние каждого образца путем итеративной оптимизации модели с центрированной на данных точки зрения. Alchemist состоит из двух ключевых этапов: оценка данных и прореживание данных. Мы обучаем легковесный модуль оценки, чтобы предсказывать влияние каждого примера на основе градиентной информации, усиленной многомасштабным восприятием. Затем мы используем стратегию Shift-Gsampling для отбора информативных подмножеств с целью эффективного обучения модели. Alchemist является первой автоматической, масштабируемой системой отбора данных на основе мета-градиентов для обучения T2I-моделей. Эксперименты на синтетических и веб-скрапленных наборах данных демонстрируют, что Alchemist стабильно улучшает визуальное качество и результаты на последующих задачах. Обучение на 50% данных, отобранных с помощью Alchemist, может превзойти обучение на полном наборе данных.
Мы представляем WorldCanvas — фреймворк для управления событиями виртуального мира, который обеспечивает насыщенное моделирование под контролем пользователя за счет комбинации текста, траекторий и референсных изображений. В отличие от чисто текстовых подходов и существующих методов генерации видео по изображениям с контролем траекторий, наш мультимодальный метод объединяет траектории — кодирующие движение, время и видимость — с естественным языком для передачи семантического замысла и референсными изображениями для визуального закрепления идентичности объектов. Это позволяет генерировать согласованные и управляемые события, включающие взаимодействия множества агентов, появление/исчезновение объектов, внешний вид на основе референсов и контринтуитивные сценарии. Получаемые видео демонстрируют не только временную согласованность, но и эмерджентную целостность, сохраняя идентичность объектов и сцены несмотря на временные исчезновения. Благодаря поддержке генерации выразительных событий мира, WorldCanvas продвигает мировые модели от пассивных предсказателей к интерактивным симуляторам, формируемым пользователем. Страница проекта доступна по адресу: https://worldcanvas.github.io/.
Латентные диффузионные модели (LDM) достигают передовых результатов в синтезе изображений, однако их реконструкционная цель по удалению шума обеспечивает лишь косвенную семантическую супервизию: высокоуровневая семантика возникает медленно, что требует более длительного обучения и ограничивает качество образцов. В последних работах семантика внедряется из Vision Foundation Models (VFM) либо внешне через выравнивание представлений, либо внутренне путем совместного моделирования лишь узкого среза признаков VFM внутри процесса диффузии, что не полностью использует доступную богатую, нелинейную, многоуровневую пространственную семантику. Мы представляем REGLUE (Representation Entanglement with Global-Local Unified Encoding) — унифицированную латентную диффузионную структуру, которая совместно моделирует (i) латентные представления изображений VAE, (ii) компактную локальную (на уровне патчей) семантику VFM и (iii) глобальный (на уровне изображения) токен [CLS] в рамках единого SiT-бэкбона. Легковесный сверточный семантический компрессор нелинейно агрегирует многоуровневые признаки VFM в низкоразмерное пространственно структурированное представление, которое переплетается с латентными переменными VAE в процессе диффузии. Внешняя функция потерь на выравнивание дополнительно регуляризует внутренние представления в сторону замороженных целевых показателей VFM. На данных ImageNet 256x256 REGLUE последовательно улучшает FID и ускоряет сходимость по сравнению с базовыми моделями SiT-B/2 и SiT-XL/2, а также методами REPA, ReDi и REG. Многочисленные эксперименты показывают, что (a) пространственная семантика VFM имеет критическое значение, (b) нелинейное сжатие является ключом к раскрытию их полного потенциала и (c) глобальные токены и внешнее выравнивание выступают в качестве дополнительных, легковесных улучшений в рамках нашей структуры совместного моделирования «глобальное-локальное-латентное». Код доступен по адресу https://github.com/giorgospets/reglue.
Хотя современные мультимодальные модели способны отвечать на вопросы на основе двумерных изображений, они лишены внутреннего восприятия трехмерных объектов, что ограничивает их способность понимать пространственные отношения и глубину в 3D-сценах. В данной работе мы предлагаем N3D-VLM — новую унифицированную архитектуру, которая органично объединяет нативное восприятие 3D-объектов с трехмерным визуальным мышлением, обеспечивая как точную 3D-привязку, так и интерпретируемое пространственное понимание. В отличие от традиционных end-to-end моделей, напрямую предсказывающих ответы по RGB/RGB-D данным, наш подход наделяет модель врожденными способностями к восприятию трехмерных объектов, позволяя ей напрямую локализовывать объекты в 3D-пространстве на основе текстовых описаний. На основе точной 3D-локализации модель далее выполняет явные рассуждения в трехмерном пространстве, достигая более интерпретируемого и структурированного пространственного понимания. Для обеспечения надежного обучения этим способностям мы разработали масштабируемый конвейер построения данных, который использует оценку глубины для преобразования крупномасштабных 2D-аннотаций в 3D-пространство, значительно увеличивая разнообразие и охват данных для трехмерной привязки объектов — полученный набор данных более чем в шесть раз превосходит крупнейший существующий датасет 3D-детекции на одиночных изображениях. Кроме того, конвейер генерирует наборы данных с пространственными вопросами и ответами, ориентированные на цепочку рассуждений (Chain-of-Thought, CoT) в 3D, что способствует совместному обучению как 3D-локализации объектов, так и пространственному мышлению. Экспериментальные результаты демонстрируют, что наша унифицированная архитектура не только достигает state-of-the-art результатов в задачах 3D-привязки, но и последовательно превосходит существующие методы в области трехмерного пространственного мышления в моделях компьютерного зрения и естественного языка.
Последние достижения в области обучения с подкреплением для больших языковых моделей демонстрируют тенденцию к усложнению: многоэтапные конвейеры обучения, динамические графики изменения гиперпараметров и стратегии обучения по учебному плану. Это поднимает фундаментальный вопрос: необходима ли такая сложность? Мы представляем JustRL — минималистичный подход, использующий одноэтапное обучение с фиксированными гиперпараметрами, который достигает уровня передовых результатов на двух 1,5-миллиардных моделях для решения задач (54,9% и 64,3% средней точности по девяти математическим тестам), потребляя при этом в 2 раза меньше вычислительных ресурсов, чем сложные методы. Одни и те же гиперпараметры переносятся между обеими моделями без дополнительной настройки, а обучение демонстрирует плавное, монотонное улучшение на протяжении более 4000 шагов без сбоев или плато, которые обычно требуют вмешательства. Критически важно, что ablation-исследования показывают, что добавление «стандартных приёмов», таких как явные штрафы за длину и устойчивые верификаторы, может ухудшить производительность, разрушая процесс исследования. Эти результаты позволяют предположить, что область исследований добавляет сложность для решения проблем, которые исчезают при наличии стабильного, масштабированного базового уровня. Мы публикуем наши модели и код, чтобы создать простой, проверенный базовый уровень для научного сообщества.
Последние исследования показали, что мультимодальные большие языковые модели (MLLM) выигрывают от использования межмодальных цепочек рассуждений (CoT) с интерактивными визуальными инструментами. Однако существующие модели с открытым исходным кодом часто демонстрируют слепой паттерн использования инструментов, активируя визуальные инструменты даже когда в этом нет необходимости, что значительно увеличивает вычислительные затраты и снижает производительность модели. Для решения этой проблемы мы предлагаем AdaTooler-V — MLLM, которая адаптивно использует инструменты, определяя, действительно ли визуальная задача требует их применения. Во-первых, мы представляем AT-GRPO — алгоритм обучения с подкреплением, который адаптивно корректирует шкалу вознаграждений на основе показателя полезности инструментов для каждого образца, поощряя модель задействовать инструменты только когда они обеспечивают реальное улучшение. Кроме того, мы создали два набора данных для обучения: AdaTooler-V-CoT-100k для холодного старта SFT и AdaTooler-V-300k для RL с верифицируемыми вознаграждениями, охватывающие данные с одним изображением, несколькими изображениями и видео. Эксперименты на двенадцати тестовых наборах демонстрируют высокие способности AdaTooler-V к рассуждениям, превосходящие существующие методы в разнообразных задачах визуального мышления. Примечательно, что AdaTooler-V-7B достигает точности 89.8% на бенчмарке высокого разрешения V*, опережая коммерческие проприетарные модели GPT-4o и Gemini 1.5 Pro. Весь код, модели и данные опубликованы.
Хотя редактирование изображений быстро развивалось, редактирование видео остаётся менее изученной областью, сталкиваясь с проблемами согласованности, управления и обобщения. Мы исследуем пространство проектирования данных, архитектуры и управления и представляем EasyV2V — простую и эффективную систему для редактирования видео на основе инструкций. В части данных мы комбинируем существующие экспертные методы с быстрыми инверсиями для создания разнообразных видеопар, преобразуем пары редактирования изображений в видео с помощью одно-кадрового контроля и псевдопар с общим аффинным движением, извлекаем клипы с плотными описаниями для формирования видеопар и добавляем контроль переходов для обучения тому, как разворачиваются правки. В части модели мы наблюдаем, что предобученные модели для генерации видео из текста обладают способностью к редактированию, что мотивирует упрощённый дизайн. Простой метод конкатенации последовательностей для conditioning с лёгкой тонкой настройкой LoRA достаточен для обучения мощной модели. Для управления мы унифицируем пространственно-временной контроль с помощью единого механизма масок и поддерживаем опциональные эталонные изображения. В целом, EasyV2V работает с гибкими входными данными, например, видео+текст, видео+маска+текст, видео+маска+эталон+текст, и достигает передовых результатов в редактировании видео, превосходя конкурирующие и коммерческие системы. Страница проекта: https://snap-research.github.io/easyv2v/
Современные методы ускорения диффузионных моделей для анимирования длинных портретов сталкиваются с проблемой сохранения идентичности (ID). В данной статье представлен FlashPortrait — эндо-энд видео-диффузионный трансформер, способный синтезировать видео неограниченной длины с сохранением идентичности, обеспечивая до 6-кратного ускорения инференса. В частности, FlashPortrait начинает с вычисления агностичных к идентичности признаков мимики с помощью готового экстрактора. Затем вводится блок нормализованных мимических признаков, который выравнивает лицевые особенности с латентными переменными диффузии путем их нормализации по средним значениям и дисперсиям, что повышает стабильность идентичности при моделировании лица. На этапе инференса FlashPortrait использует динамическую схему скользящего окна со взвешенным смешиванием в областях перекрытия, обеспечивая плавные переходы и консистентность ID в длинных анимациях. В каждом контекстном окне, на основе скорости изменения латентных переменных на определенных временных шагах и соотношения величин производных между слоями диффузии, модель использует производные высших порядков на текущем шаге для прямого предсказания латентных состояний на будущих шагах, пропуская несколько шагов шумоподавления и достигая 6-кратного ускорения. Эксперименты на бенчмарках демонстрируют эффективность FlashPortrait как качественно, так и количественно.
Модели вознаграждения (Reward Models, RMs) играют ключевую роль в обучении больших языковых моделей (LLMs), однако их применение к омни-моделям, обрабатывающим чередующиеся последовательности изображений и текста, остается малоизученным. Мы представляем Multimodal RewardBench 2 (MMRB2) — первый комплексный бенчмарк для оценки моделей вознаграждения на задачах мультимодального понимания и (чередующейся) генерации. MMRB2 охватывает четыре типа задач: текст-в-изображение, редактирование изображений, чередующаяся генерация и мультимодальные рассуждения («мышление с изображениями»), предоставляя по 1000 экспертно размеченных пар предпочтений для каждой задачи, собранных из 23 моделей и агентов на основе 21 исходной задачи. MMRB2 разработан с учетом: (1) практичных, но сложных промптов; (2) ответов от современных моделей и агентов; и (3) пар предпочтений с высоким консенсусом среди экспертов-людей, отобранных с помощью стратегии ансамблевой фильтрации. Используя MMRB2, мы исследуем существующие системы оценки для каждой подзадачи, включая подход «мультимодальная LLM как судья» и модели, обученные на человеческих предпочтениях. Новейшая модель Gemini 3 Pro достигает точности 75–80%. GPT-5 и Gemini 2.5 Pro демонстрируют точность 66–75% по сравнению с >90% у людей, но превосходят широко используемую GPT-4o (59%). Лучшая открытая модель Qwen3-VL-32B показывает схожую точность с Gemini 2.5 Flash (64%). Мы также демонстрируем, что производительность на MMRB2 сильно коррелирует с успехом на downstream-задачах при использовании Best-of-N сэмплирования, и проводим углубленный анализ, который выявляет ключевые направления для улучшения моделей вознаграждения в будущем.
В данной работе исследуется компромисс между исследованием и эксплуатацией в обучении с подкреплением с верифицируемыми вознаграждениями (RLVR) — подходе, направленном на улучшение способности к рассуждению у больших языковых моделей (LLM). Недавние исследования показывают, что RLVR может стимулировать развитие сильных математических навыков рассуждения в LLM за счет двух, казалось бы, парадоксальных механизмов: ложных вознаграждений, которые подавляют эксплуатацию, поощряя результаты, не связанные с истинным ответом, и минимизации энтропии, которая подавляет исследование, подталкивая модель к более уверенным и детерминированным выходам. Это выявляет загадочную динамику: как подавление эксплуатации, так и подавление исследования улучшают результаты рассуждений, однако базовые принципы, объясняющие эти эффекты, остаются малоизученными. Мы сосредотачиваемся на двух фундаментальных вопросах: (i) как энтропия политики связана с производительностью и (ii) приводят ли ложные вознаграждения к улучшениям, возможно, за счет взаимодействия смещения ограничения (clipping bias) и контаминации модели. Наши результаты показывают, что смещение ограничения при ложных вознаграждениях снижает энтропию политики, что приводит к более уверенным и детерминированным выходам, в то время как одна лишь минимизация энтропии недостаточна для улучшения. Мы также предлагаем модель рассогласования вознаграждений, объясняющую, почему ложные вознаграждения могут повышать производительность и за пределами условий контаминации. Наши выводы проясняют механизмы, лежащие в основе преимуществ ложных вознаграждений, и предлагают принципы для более эффективного обучения по методу RLVR.
Редактирование изображений на основе инструкций позволяет управлять визуальными изменениями с помощью естественного языка, однако существующие модели не справляются со Сложностью Инструкций и Визуала (IV-Complexity), когда сложные инструкции сталкиваются с загроможденными или неоднозначными сценами. Мы представляем RePlan (Планирование с привязкой к регионам) — фреймворк «спланируй-и-выполни», который объединяет визуально-языковой планировщик с диффузионным редактором. Планировщик декомпозирует инструкции посредством пошагового рассуждения и явно привязывает их к целевым регионам; редактор затем применяет изменения с помощью свободного от обучения механизма инъекции внимания в регионы, обеспечивая точное параллельное редактирование нескольких регионов без итеративного инпейнтинга. Для улучшения планирования мы применяем обучение с подкреплением на основе GRPO, используя всего 1К примеров с инструкциями, что дает значительный прирост в достоверности рассуждений и надежности формата. Мы также представляем IV-Edit — бенчмарк, сфокусированный на тонкой привязке и редактировании, требующем знаний. В условиях IV-Complexity RePlan стабильно превосходит сильные базовые модели, обученные на значительно больших наборах данных, улучшая региональную точность и общую достоверность. Страница проекта: https://replan-iv-edit.github.io
Мы представляем ModelTables — эталонный набор таблиц в "озерах моделей", который фиксирует структурированную семантику таблиц производительности и конфигурации, часто упускаемую при текстовом поиске. Корпус построен на основе карт моделей Hugging Face, файлов README из GitHub и ссылочных научных статей, связывая каждую таблицу с контекстом соответствующей модели и публикации. По сравнению с таблицами открытых озер данных, таблицы моделей меньше по размеру, но демонстрируют более плотные междтабличные связи, отражающие тесную взаимосвязь эволюции моделей и бенчмарков. Текущий выпуск охватывает более 60 тыс. моделей и 90 тыс. таблиц. Для оценки связанности моделей и таблиц мы формируем эталонную истину из нескольких источников, используя три взаимодополняющих сигнала: (1) ссылки цитирования статей, (2) явные ссылки в картах моделей и наследование, (3) общие наборы обучающих данных. Мы демонстрируем расширенный практический пример использования набора — поиск таблиц. Сравниваем канонические операторы поиска в озерах данных (объединяемые, соединяемые, ключевые слова) и базовые методы информационного поиска (плотный, разреженный, гибридный поиск) на данном наборе. Семантический поиск таблиц на основе объединения достигает 54,8% P@1 в целом (54,6% по цитированию, 31,3% по наследованию, 30,6% по общим наборам данных); плотный поиск на основе таблиц показывает 66,5% P@1, а гибридный поиск по метаданным — 54,1%. Данная оценка указывает на значительный потенциал для разработки более совершенных методов поиска таблиц. Публикуя ModelTables и протокол его создания, мы представляем первый крупномасштабный эталонный набор структурированных данных, описывающих ИИ-модели. Наш пример использования — обнаружение таблиц в озерах моделей — предоставляет интуитивное понимание и доказательную базу для разработки более точного семантического поиска, структурированного сравнения и принципиальной организации структурированных знаний о моделях. Исходный код, данные и другие артефакты доступны по адресу https://github.com/RJMillerLab/ModelTables.
Граундинг графического интерфейса пользователя (GUI) является ключевым компонентом при создании эффективных GUI-агентов. Однако существующие бенчмарки для граундинга имеют существенные ограничения: они либо предлагают недостаточный объем данных и узкий охват предметных областей, либо чрезмерно фокусируются на одной платформе и требуют узкоспециальных знаний. В данной работе мы представляем VenusBench-GD — комплексный двуязычный бенчмарк для граундинга GUI, охватывающий несколько платформ и позволяющий проводить иерархическую оценку для реальных приложений. Вклад VenusBench-GD заключается в следующем: (i) мы представляем крупномасштабный кроссплатформенный бенчмарк с широким охватом приложений, разнообразными элементами интерфейса и богатыми размеченными данными; (ii) мы создаем высококачественный конвейер построения данных для задач граундинга, достигая более высокой точности разметки по сравнению с существующими бенчмарками; (iii) мы расширяем область граундинга элементов, предлагая иерархическую таксономию задач, которая делит граундинг на базовые и продвинутые категории, включающие шесть различных подзадач, предназначенных для оценки моделей с взаимодополняющих позиций. Результаты наших экспериментов выявляют важные закономерности: универсальные мультимодальные модели теперь не уступают или даже превосходят специализированные GUI-модели в базовых задачах граундинга. В то же время, в продвинутых задачах по-прежнему лидируют специализированные GUI-модели, хотя они демонстрируют значительное переобучение и низкую устойчивость. Эти результаты подчеркивают необходимость комплексных многоуровневых систем оценки.
По мере того как большие языковые модели (LLM) выходят за рамки текста, интеграция речи в качестве собственной модальности привела к появлению SpeechLLM — моделей, предназначенных для прямого перевода устной речи, минуя традиционные конвейеры на основе транскрипции. Однако вопрос о том, улучшает ли такая интеграция качество перевода речь-текст по сравнению с устоявшимися каскадными архитектурами, остается открытым. Мы представляем Hearing to Translate — первый комплексный набор тестов, в котором проводится строгое сравнение 5 современных моделей SpeechLLM с 16 мощными прямыми и каскадными системами, объединяющими передовые фундаментальные модели речи (Speech Foundation Models, SFM) с многоязычными LLM. Наш анализ охватывает 16 тестовых наборов, 13 языковых пар и 9 сложных условий, включая речь с запинками, зашумленную речь и длинные высказывания. В ходе этого масштабного оценивания мы обнаружили, что каскадные системы в целом остаются наиболее надежными, тогда как современные SpeechLLM превосходят каскады лишь в отдельных сценариях, а модели SFM отстают от обоих подходов. Это подчеркивает, что интеграция LLM — как внутри модели, так и в составе конвейера — является ключевым условием для высококачественного перевода речи.
Традиционные методы оценки мультимодальных больших языковых моделей (MLLM) страдают от недостаточной интерпретируемости и часто не позволяют полностью выявить значительные различия в возможностях между моделями. Для решения этой проблемы мы представляем AuditDM — автоматизированную систему, которая активно выявляет и исправляет режимы сбоев MLLM путем аудита их расхождений. AuditFM дообучает MLLM в роли аудитора с помощью обучения с подкреплением, чтобы генерировать сложные вопросы и контрафактные изображения, максимизирующие расхождения между целевыми моделями. После обучения аудитор обнаруживает разнообразные, интерпретируемые примеры, которые раскрывают слабые места моделей и служат данными для исправления без необходимости разметки. Применение AuditDM к современным моделям, таким как Gemma-3 и PaliGemma-2, выявило более 20 различных типов сбоев. Дообучение на этих выявленных примерах стабильно улучшает все модели по 16 тестовым наборам и позволяет модели объемом 3B превзойти свою 28B версию. Наши результаты показывают, что по мере исчерпания потенциала масштабирования данных целенаправленный аудит моделей предлагает эффективный путь для диагностики и улучшения моделей.
Временные ряды играют ключевую роль во многих научных и промышленных областях, включая экологический анализ, сельское хозяйство, транспорт и финансы. Однако извлечение инсайтов из таких данных традиционно требует глубоких предметных знаний — процесса, который является одновременно трудоемким и затратным по времени. В данной статье мы представляем Insight Miner — крупномасштабную мультимодальную модель (LMM), предназначенную для генерации качественных и всесторонних описаний временных рядов, обогащенных предметной экспертизой. Для решения этой задачи мы представляем TS-Insights (доступен по ссылке: \href{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}{https://huggingface.co/datasets/zhykoties/time-series-language-alignment}), первую общедоменную базу данных для согласования временных рядов и естественного языка. TS-Insights содержит 100 тыс. временных окон, выбранных из 20 наборов данных для прогнозирования. Мы создали этот набор данных с помощью нового агентного workflow, в котором используем статистические инструменты для извлечения признаков из исходных временных рядов, а затем синтезируем их в связные описания трендов с помощью GPT-4. После инструктивного тонкого настроя на TS-Insights модель Insight Miner превосходит современные мультимодальные модели, такие как LLaVA (liu2023llava) и GPT-4, в генерации описаний и инсайтов по временным рядам. Наши результаты указывают на перспективное направление использования LMM в анализе временных рядов и служат основой для того, чтобы большие языковые модели могли интерпретировать временные ряды как естественный тип входных данных.
Диффузионные трансформаторы (DiT) задают современный уровень в области визуальной генерации, однако их квадратичная вычислительная сложность, обусловленная механизмом самовнимания, фундаментально ограничивает масштабирование на длинные последовательности токенов. Недавние подходы с разреженным вниманием Top-K сокращают вычисления в DiT путем сжатия токенов в блочные представления и выбора небольшого набора релевантных ключевых блоков, но все еще страдают от (i) квадратичной стоимости выбора на сжатых токенах и (ii) необходимости увеличивать K для сохранения качества модели по мере роста последовательностей. Мы выявили, что их неэффективность связана с одноуровневым дизайном, поскольку единственный грубый уровень недостаточен для представления глобальной структуры. В данной статье мы представляем Log-linear Sparse Attention (LLSA) — обучаемый механизм разреженного внимания для чрезвычайно длинных последовательностей токенов, который сокращает как стоимость выбора, так и стоимость внимания с квадратичной до логарифмически-линейной сложности за счет использования иерархической структуры. LLSA выполняет иерархический выбор Top-K, постепенно применяя разреженный выбор Top-K с индексами, найденными на предыдущем уровне, и вводит механизм Hierarchical KV Enrichment, который сохраняет глобальный контекст, используя меньшее количество токенов разной гранулярности при вычислении внимания. Для обеспечения эффективного обучения мы разработали высокопроизводительную реализацию для GPU, которая использует только разреженные индексы как для прямого, так и для обратного прохода, устраняя необходимость в плотных масках внимания. Мы оцениваем LLSA на задаче генерации изображений в высоком разрешении в пиксельном пространстве без использования патчификации и кодирования VAE. LLSA ускоряет вывод внимания в 28.27 раз и обучение DiT в 6.09 раз на последовательностях токенов размером 256x256 пикселей, сохраняя при этом качество генерации. Результаты демонстрируют, что LLSA предлагает перспективное направление для эффективного обучения DiT на длинных последовательностях. Код доступен по адресу: https://github.com/SingleZombie/LLSA
Нейронный рендеринг для интерактивных приложений требует преобразования геометрических и материальных свойств (G-буфера) в фотореалистичные изображения с реалистичным освещением на покадровой основе. Хотя современные диффузионные методы демонстрируют перспективность в синтезе изображений на основе G-буфера, они сталкиваются с критическими ограничениями: однокадровые модели, такие как RGBX, генерируют кадры независимо без временной согласованности, в то время как видео-модели, подобные DiffusionRenderer, слишком ресурсоемки для большинства игровых систем и требуют полных последовательностей заранее, что делает их непригодными для интерактивных приложений, где будущие кадры зависят от пользовательского ввода. Мы представляем FrameDiffuser — авторегрессионную архитектуру нейронного рендеринга, которая генерирует временно согласованные фотореалистичные кадры, используя данные G-буфера и предыдущие выходы модели. После начального кадра FrameDiffuser работает исключительно на входящих данных G-буфера, включающих геометрию, материалы и свойства поверхностей, используя при этом ранее сгенерированный кадр для временного руководства, обеспечивая стабильную генерацию с временной согласованностью на протяжении сотен и тысяч кадров. Наша двухуровневая архитектура условий сочетает ControlNet для структурного руководства с ControlLoRA для временной когерентности. Трехэтапная стратегия обучения позволяет достичь стабильной авторегрессионной генерации. Мы специализируем нашу модель под отдельные среды, отдавая приоритет согласованности и скорости вывода над широкой обобщающей способностью, демонстрируя, что специализированное обучение для конкретной среды обеспечивает превосходное фотореалистичное качество с точным освещением, тенями и отражениями по сравнению с обобщенными подходами.
Нормализующие потоки (NF) утвердились как принципиальная основа для генеративного моделирования. Стандартные NF состоят из прямого и обратного процессов: прямой процесс преобразует данные в шум, тогда как обратный процесс генерирует выборки путём его обращения. Типичные прямые преобразования в NF ограничены требованием явной обратимости, что гарантирует, что обратный процесс может служить их точным аналитическим обращением. Последние разработки TARFlow и его вариантов возродили интерес к методам NF, объединив трансформеры и авторегрессионные потоки, но также выявили причинное декодирование как ключевое узкое место. В данной работе мы представляем двунаправленный нормализующий поток (BiFlow) — подход, который устраняет необходимость в точном аналитическом обращении. BiFlow обучает обратную модель, аппроксимирующую базовое обратное отображение "шум-данные", что позволяет использовать более гибкие функции потерь и архитектуры. Эксперименты на ImageNet демонстрируют, что BiFlow по сравнению с методами, использующими причинное декодирование, улучшает качество генерации, одновременно ускоряя семплирование до двух порядков величины. BiFlow показывает наилучшие результаты среди методов на основе NF и конкурентоспособную производительность среди методов с однократной оценкой ("1-NFE"). Вслед за недавним обнадёживающим прогрессом в области NF, мы надеемся, что наша работа привлечёт дальнейшее внимание к этой классической парадигме.
Хотя обучение с подкреплением достигло значительного прогресса в области логического вывода языковых моделей, оно ограничено требованием верифицируемых вознаграждений. Недавние методы RL без верификатора устраняют это ограничение, используя внутренние вероятности генерации эталонных ответов большими языковыми моделями в качестве сигналов вознаграждения. Однако эти подходы обычно сэмплируют траектории рассуждений, обусловленные только вопросом. Такая конструкция отделяет сэмплирование траекторий рассуждений от информации об ответе, что приводит к неэффективному исследованию и несогласованности между траекториями и конечными ответами. В данной статье мы предлагаем **Связанное Вариационное Обучение с Подкреплением** (CoVRL), которое объединяет вариационный вывод и обучение с подкреплением путем связывания априорного и апостериорного распределений с помощью гибридной стратегии сэмплирования. Путем построения и оптимизации композитного распределения, интегрирующего эти два распределения, CoVRL обеспечивает эффективное исследование, сохраняя при этом сильную согласованность между ходом мыслей и ответом. Многочисленные эксперименты на эталонах математических и общих рассуждений показывают, что CoVRL улучшает производительность на 12.4% по сравнению с базовой моделью и достигает дополнительного улучшения на 2.3% по сравнению с сильными современными базовыми методами RL без верификатора, предоставляя принципиальную основу для расширения общих логических возможностей языковых моделей.
Позирование 3D-персонажей является фундаментальной задачей в компьютерной графике и компьютерном зрении. Однако существующие методы, такие как автоматический риггинг и генерация с условием позы, часто сталкиваются с проблемами неточного предсказания весов скиннинга, топологических несовершенств и слабого соответствия позе, что ограничивает их надежность и способность к обобщению. Для преодоления этих ограничений мы представляем Make-It-Poseable — новую прямую (feed-forward) архитектуру, которая переформулирует задачу позирования персонажа как проблему преобразования в латентном пространстве. В отличие от традиционных подходов, деформирующих вершины сетки, наш метод реконструирует персонажа в новых позах путем непосредственного манипулирования его латентным представлением. Основой нашего метода является трансформер латентного позирования, который управляет токенами формы на основе скелетной анимации. Этот процесс обеспечивается плотным (dense) представлением позы для точного контроля. Для гарантии высококачественной геометрии и учета топологических изменений мы также вводим стратегию латентного контроля (supervision) и адаптивный модуль дополнения (completion). Наш метод демонстрирует превосходное качество позирования. Он также естественным образом расширяется для применения в задачах 3D-редактирования, таких как замена и доработка частей.
Мобильные манипуляторы в домашних условиях должны одновременно перемещаться и выполнять манипуляции. Это требует компактного, семантически насыщенного представления сцены, которое фиксирует местоположение объектов, их функциональное назначение и то, какие части являются интерактивными. Сценарные графы представляются естественным выбором, однако предыдущие работы часто разделяют пространственные и функциональные отношения, рассматривают сцены как статичные снимки без учета состояний объектов или временных обновлений и упускают информацию, наиболее релевантную для выполнения текущей задачи. Для преодоления этих ограничений мы представляем MomaGraph — унифицированное представление сцены для воплощенных агентов, которое интегрирует пространственно-функциональные отношения и интерактивные элементы на уровне деталей. Однако развитие такого представления требует как подходящих данных, так и строгой оценки, которые до сих пор в значительной степени отсутствовали. Таким образом, мы представляем MomaGraph-Scenes — первый масштабный набор данных с богато аннотированными целеориентированными сценарными графами в домашних условиях, а также MomaGraph-Bench — системный набор для оценки, охватывающий шесть способностей к рассуждению: от высокоуровневого планирования до детального понимания сцены. На основе этого фундамента мы также разработали MomaGraph-R1, 7-миллиардную визуально-языковую модель, обученную с подкреплением на данных MomaGraph-Scenes. MomaGraph-R1 предсказывает целеориентированные сценарные графы и функционирует как планировщик задач с нулевым разгоном в рамках парадигмы «Сначала граф, затем план». Многочисленные эксперименты демонстрируют, что наша модель достигает передовых результатов среди открытых моделей, показывая точность 71.6% на бенчмарке (+11.4% по сравнению с лучшим базовым методом), одновременно обобщаясь на публичные бенчмарки и эффективно переносясь на эксперименты с реальными роботами.
Последние достижения в области мультимодальных больших языковых моделей (MLLM) значительно улучшили межмодальное понимание и логические рассуждения за счёт внедрения цепочек мыслей (CoT) в семантическом пространстве. Основываясь на этом, современные исследования расширяют механизм CoT на визуальную модальность, позволяя моделям интегрировать зрительную информацию в процессе рассуждений с помощью внешних инструментов или явного генерирования изображений. Однако эти методы остаются зависимыми от явного пошагового рассуждения, нестабильного взаимодействия восприятия и логики и значительных вычислительных затрат. Вдохновляясь человеческим познанием, мы предполагаем, что мышление разворачивается не линейно, а через динамическое чередование рассуждений и восприятия в сознании. Руководствуясь этой перспективой, мы предлагаем DMLR — динамическую мультимодальную систему латентных рассуждений в режиме тестирования, которая использует оптимизацию латентного градиента политики с управлением по уверенности для уточнения латентных токенов мышления с целью углублённого анализа. Кроме того, представлена стратегия динамической визуальной инжекции, которая извлекает наиболее релевантные визуальные признаки на каждом латентном токене мышления и обновляет набор наилучших визуальных патчей. Обновлённые патчи затем внедряются в латентный токен мышления для достижения динамического чередования визуальной и текстовой информации. Эксперименты на семи мультимодальных бенчмарках для оценки логических рассуждений и с использованием различных архитектур моделей демонстрируют, что DMLR значительно улучшает показатели логического анализа и восприятия при сохранении высокой эффективности вывода.
Создание новых визуальных концепций часто требует соединения различных идей через их наиболее релевантные общие атрибуты — их "вибрацию" (vibe). Мы представляем Vibe Blending — новую задачу генерации согласованных и осмысленных гибридов, раскрывающих эти общие атрибуты между изображениями. Достижение таких смесей является сложной задачей для современных методов, которые не способны эффективно идентифицировать и перемещаться по нелинейным путям, связывающим удалённые концепции в латентном пространстве. Мы предлагаем Vibe Space — иерархическое многообразие в виде графа, которое изучает низкоразмерные геодезические в таких пространствах признаков, как CLIP, обеспечивая плавные и семантически согласованные переходы между концепциями. Для оценки творческого качества мы разрабатываем когнитивно-вдохновлённую систему, сочетающую человеческие оценки, рассуждения больших языковых моделей (LLM) и геометрическую оценку сложности на основе пути. Мы обнаружили, что Vibe Space создаёт смеси, которые люди последовательно оценивают как более креативные и согласованные по сравнению с существующими методами.
Оценка качества таблиц, генерируемых большими языковыми моделями (БЯМ), остается открытой проблемой: существующие метрики либо преобразуют таблицы в плоский текст, игнорируя структуру, либо опираются на фиксированные эталоны, что ограничивает их обобщающую способность. Мы представляем TabReX — беэталонную, свойственно-ориентированную систему для оценки табличной генерации на основе графовых рассуждений. TabReX преобразует исходный текст и генерируемые таблицы в канонические графы знаний, выравнивает их с помощью процесса сопоставления, управляемого БЯМ, и вычисляет интерпретируемые оценки, учитывающие критерии рубрики, которые количественно определяют структурную и фактическую достоверность. Результирующая метрика обеспечивает контролируемый баланс между чувствительностью и специфичностью, давая согласованные с человеческими суждения оценки и трассировку ошибок на уровне ячеек. Для систематической оценки устойчивости метрики мы представляем TabReX-Bench — масштабный эталонный набор данных, охватывающий шесть предметных областей и двенадцать типов возмущений, управляемых планировщиком, по трем уровням сложности. Эмпирические результаты показывают, что TabReX достигает наивысшей корреляции с экспертными ранжированиями, остается стабильной при более сложных возмущениях и позволяет проводить детальный анализ «модель против промпта», устанавливая новую парадигму для достоверной и объяснимой оценки систем структурированной генерации.
Разделение параметров в рекуррентных трансформерах сокращает размер модели, но снижает выразительность на уровне слоев. Мы предлагаем смесь адаптаций LoRA (MoL) — механизм условных вычислений с низкими затратами, который интегрирует экспертов на основе низкоранговой адаптации (LoRA) в общую прямую сеть (FFN). MoL обеспечивает токен-условную модуляцию весового пространства общей FFN без разделения параметров базовой архитектуры, в отличие от предыдущих подходов, добавляющих фиксированные или внешние адаптеры. Мы проводим предварительное обучение модернизированной рекуррентной архитектуры ModernALBERT, объединяющей ротационные эмбеддинги, GeGLU, FlashAttention и инициализацию на основе дистилляции. На наборах данных GLUE, SQuAD-v2 и BEIR модель ModernALBERT (50–120 млн параметров) демонстрирует наилучшие результаты среди компактных моделей и превосходит более крупные полностью параметризованные базовые линии. Мы также предлагаем процедуру объединения экспертов, которая сжимает MoL в единый адаптер на этапе вывода с сохранением точности, обеспечивая эффективное развертывание. Наши результаты показывают, что условная модуляция весового пространства эффективно восстанавливает выразительность, утраченную при агрессивном разделении параметров в рекуррентных трансформерах.
Визуальное распознавание эмоций (VEC) ставит целью вывод сентиментальных полярностей или категорий эмоций на основе аффективных сигналов, заложенных в изображениях. В последние годы мультимодальные большие языковые модели (MLLM) создали популярную парадигму в VEC, используя свою обобщающую способность для унификации задач VEC, определенных в рамках различных эмоциональных таксономий. Хотя данная парадигма демонстрирует значительный успех, она обычно формулирует VEC как детерминистическую задачу, требуя от модели вывода единственного, определенного ярлыка эмоции для каждого изображения. Такая формулировка недостаточно учитывает присущую субъективность восприятия эмоций, упуская альтернативные интерпретации, которые могут быть в равной степени правдоподобны для разных наблюдателей. Чтобы устранить этот недостаток, мы предлагаем оснастить MLLM способностью вербализировать свою уверенность в эмоциональных прогнозах. Этот дополнительный сигнал предоставляет пользователям оценку как правдоподобности альтернативных интерпретаций, так и самооценки компетентности MLLM, тем самым повышая надежность на практике. Основываясь на этом insight, мы представляем трехэтапную framework обучения, которая последовательно наделяет модель структурированными рассуждениями, учит вербализировать уверенность и калибрует выражение уверенности, culminая в создании EmoCaliber — confidence-aware MLLM для VEC. В ходе объективных и всесторонних оценок на унифицированном benchmark VECBench, EmoCaliber продемонстрировала общее превосходство над существующими методами как в прогнозировании эмоций, так и в оценке уверенности. Эти результаты подтверждают эффективность нашего подхода и обозначают осуществимый шаг к созданию более надежных систем VEC. Страница проекта: https://github.com/wdqqdw/EmoCaliber.
Для обеспечения высококачественного контроля математических рассуждений требуются разнообразные стили рассуждений, развернутые последовательности решений и эффективная интеграция инструментов — возможности, которые существующие наборы данных предоставляют лишь в ограниченной форме. Используя многомодальную способность генерации модели gpt-oss-120b, мы представляем Nemotron-Math — крупномасштабный набор данных для математических рассуждений, содержащий 7,5 миллиона траекторий решений с высоким, средним и низким уровнями сложности рассуждений, каждый из которых доступен как с использованием Python-инструментов (TIR), так и без них. Набор данных интегрирует 85 тысяч тщательно отобранных задач из AoPS с 262 тысячами задач, собранных сообществом на StackExchange-Math, сочетая структурированные олимпиадные задания с разнообразными математическими запросами из реального мира. Мы проводим контролируемые оценки для проверки качества набора данных. Nemotron-Math стабильно превосходит исходный OpenMathReasoning на сопоставимых задачах из AoPS. Включение данных StackExchange-Math существенно повышает устойчивость и способность к обобщению, особенно на наборе HLE-Math, при этом сохраняя точность на математических олимпиадных тестах. Для поддержки эффективного обучения с длинным контекстом мы разработали стратегию последовательного бакетирования, которая ускоряет тонкую настройку с длиной контекста 128K токенов в 2–3 раза без значительной потери точности. В целом, Nemotron-Math обеспечивает передовые результаты, включая 100% точность maj@16 на AIME 2024 и 2025 с использованием Python TIR.
Появление больших языковых моделей (LLM) ознаменовало рождение нового типа программирования: программирования на естественном языке. Составляя промпты, которые направляют LLM на выполнение обработки естественного языка, генерации кода, логических рассуждений и т.д., пользователи, по сути, пишут код на естественном языке — код на естественном языке — для исполнения LLM. Возникающая область исследований обеспечивает интероперабельность между кодом на естественном языке и формальными языками, такими как Python. Мы представляем новую программную абстракцию — общее состояние программы, — которая устраняет необходимость ручной работы для обеспечения взаимодействия между кодом на естественном языке и состоянием программы. С общим состоянием программы программисты могут писать естественный код, который напрямую записывает значения программных переменных, выполняет вычисления с программными объектами и реализует управляющие конструкции в программе. Мы представляем схему для спецификации интерфейсов естественных функций, которая расширяет программные системы для поддержки естественного кода, и используем эту схему для определения общего состояния программы как интерфейса естественной функции. Мы реализовали общее состояние программы в программной системе Nightjar. Nightjar позволяет программистам писать программы на Python, которые содержат естественный код, имеющий доступ к общему состоянию Python-программы. Мы демонстрируем, что программы, написанные на Nightjar, достигают сопоставимой или более высокой точности выполнения задач, чем реализации, написанные вручную (+4–19%), при этом сокращая количество строк кода в среднем на 39,6%. Компромиссом при использовании Nightjar является возможное увеличение времени выполнения (в 0,4–4,3 раза по сравнению с ручными реализациями).