Ежедневно отобранные исследовательские статьи по ИИ с переводами
Использование априорных знаний 2D диффузионных моделей для 3D-редактирования стало перспективной парадигмой. Однако сохранение многовидовой согласованности в редактируемых результатах остается сложной задачей, а крайняя нехватка парных данных для 3D-согласованного редактирования делает невозможным применение контролируемой тонкой настройки (SFT) — наиболее эффективной стратегии обучения для задач редактирования. В данной работе мы отмечаем, что хотя генерация многовидово согласованного 3D-контента является чрезвычайно сложной, проверка 3D-согласованности осуществима, что естественным образом позиционирует обучение с подкреплением (RL) в качестве feasible решения. Руководствуясь этим, мы предлагаем RL3DEdit — однопроходную framework, управляемую RL-оптимизацией с новыми функциями вознаграждения, полученными от 3D-фундаментальной модели VGGT. В частности, мы используем надежные априорные знания VGGT, полученные на основе массовых реальных данных, подаем редактируемые изображения и используем выходные карты уверенности и ошибки оценки позы в качестве сигналов вознаграждения, эффективно anchoring априорные знания 2D-редактирования на 3D-согласованное многообразие посредством RL. Многочисленные эксперименты демонстрируют, что RL3DEdit достигает стабильной многовидовой согласованности и превосходит современные методы по качеству редактирования с высокой эффективностью. Для содействия развитию 3D-редактирования мы опубликуем код и модель.
Хотя рассуждения в больших языковых моделях естественным образом играют важную роль в решении математических задач, генерации кода и ответах на многошаговые фактологические вопросы, их влияние на простые одношаговые фактологические вопросы остается неясным. Такие вопросы не требуют пошагового логического разложения, что делает полезность рассуждений крайне контр-интуитивной. Тем не менее, мы обнаруживаем, что активация рассуждений существенно расширяет границы возможностей модели по извлечению параметрических знаний, открывая доступ к правильным ответам, которые в противном случае остаются практически недостижимыми. Почему рассуждения помогают извлекать параметрические знания, когда сложные логические шаги не требуются? Чтобы ответить на этот вопрос, мы разработали серию контролируемых экспериментов, проверяющих гипотезы, и выявили два ключевых механизма: (1) эффект вычислительного буфера, при котором модель использует сгенерированные токены рассуждений для выполнения скрытых вычислений, независимо от их семантического содержания; и (2) фактологический прайминг, при котором генерация тематически связанных фактов служит семантическим мостом, облегчающим извлечение правильного ответа. Важно отметить, что последний механизм генеративного само-извлечения несет в себе inherent risks: мы демонстрируем, что галлюцинации промежуточных фактов в ходе рассуждений повышают вероятность галлюцинаций в конечном ответе. Наконец, мы показываем, что наши выводы можно использовать для непосредственного повышения точности модели путем приоритизации траекторий рассуждений, содержащих фактические утверждения, свободные от галлюцинаций.
Хотя недавние мультимодальные большие языковые модели (MLLM) достигли впечатляющих успехов, они преимущественно используют традиционную авторегрессионную архитектуру в качестве основы, оставляя значительное пространство для поиска более эффективных и производительных альтернатив в проектировании архитектур. В то же время последние исследования успешно применили дискретные диффузионные модели в различных областях, таких как визуальное понимание и генерация изображений, раскрыв их значительный потенциал в качестве перспективной основы для мультимодальных систем. Вдохновляясь этими передовыми исследованиями, мы представляем Omni-Diffusion — первую мультимодальную языковую модель типа «любой-к-любому», полностью построенную на маскированных дискретных диффузионных моделях, которая унифицирует понимание и генерацию для текста, речи и изображений. Omni-Diffusion использует унифицированную маскированную дискретную диффузионную модель для непосредственного моделирования совместного распределения дискретных мультимодальных токенов. Данный подход поддерживает не только бимодальные задачи, но и более сложные сценарии с участием множества модальностей. На разнообразном наборе бенчмарков наш метод превосходит или показывает результаты на уровне существующих мультимодальных систем, обрабатывающих две и более модальностей, подчеркивая значительный потенциал диффузионных моделей в качестве основы для следующего поколения мультимодальных фундаментальных моделей. Страница проекта: https://omni-diffusion.github.io.
Саморазвитие стало ключевой парадигмой для улучшения базовых моделей, таких как большие языковые модели (LLM) и визуально-языковые модели (VLM), при минимальном вмешательстве человека. Хотя современные подходы показали, что агенты на основе LLM могут саморазвиваться с нуля практически без данных, VLM вводят дополнительную визуальную модальность, которая обычно требует хотя бы некоторых исходных данных (например, изображений) для запуска процесса саморазвития. В данной работе мы представляем MM-Zero — первую основанную на обучении с подкреплением (RL) систему, достигающую саморазвития VLM-рассуждений без исходных данных. Выходя за рамки предыдущих двухролевых конфигураций (Предлагающий и Решающий), MM-Zero вводит многоролевую систему саморазвивающегося обучения, включающую три специализированные роли: Предлагающий, который генерирует абстрактные визуальные концепции и формулирует вопросы; Кодер, который преобразует эти концепции в исполняемый код (например, Python, SVG) для рендеринга визуальных изображений; и Решающий, который выполняет мультимодальные рассуждения над сгенерированным визуальным контентом. Все три роли инициализируются из одной базовой модели и обучаются с использованием оптимизации групповой относительной политики (GRPO) с тщательно разработанными механизмами вознаграждения, интегрирующими обратную связь по исполнению, визуальную верификацию и балансировку сложности. Наши эксперименты показывают, что MM-Zero повышает производительность VLM-рассуждений на широком спектре мультимодальных тестов. MM-Zero открывает масштабируемый путь к созданию саморазвивающихся многомодельных систем для мультимодальных моделей, расширяя границы самосовершенствования за пределы традиционной двухмодельной парадигмы.
Унифицированные мультимодальные модели (UMM), объединяющие понимание, рассуждение, генерацию и редактирование, сталкиваются с неизбежными компромиссами между сохранением глубокого семантического понимания и приобретением мощных генеративных возможностей. В данном отчете мы представляем InternVL-U — облегченную UMM с 4 миллиардами параметров, которая делает эти возможности доступными в рамках единой архитектуры. Руководствуясь принципами унифицированного контекстного моделирования и модально-специфичного модульного дизайна с разделенными визуальными представлениями, InternVL-U интегрирует передовую мультимодальную большую языковую модель (MLLM) со специализированным визуально-генеративным блоком на основе MMDiT. Для дальнейшего сокращения разрыва между эстетической генерацией и высокоуровневым интеллектом мы создали комплексный конвейер синтеза данных, ориентированный на задачи с высокой семантической плотностью, такие как рендеринг текста и научные рассуждения, в рамках рассуждающей парадигмы, использующей цепочку мыслей (CoT) для лучшего согласования абстрактных намерений пользователя с детализированными аспектами визуальной генерации. Многочисленные эксперименты демонстрируют, что InternVL-U достигает превосходного баланса между производительностью и эффективностью. Несмотря на использование всего 4 миллиардов параметров, модель стабильно превосходит унифицированные базовые модели с более чем в 3 раза большим масштабом, такие как BAGEL (14B), в различных задачах генерации и редактирования, сохраняя при этом высокие способности к мультимодальному пониманию и рассуждению.
Мультимодальные большие языковые модели (МБЯМ) способны обрабатывать текст, представленный в виде изображений, однако их производительность часто оказывается ниже, чем при подаче того же контента в виде текстовых токенов. Мы проводим систематическую диагностику этого "модального разрыва", оценивая семь МБЯМ на семи тестовых наборах в пяти режимах ввода, включая как синтетически отрендеренный текст, так и реалистичные изображения документов — от PDF-файлов с arXiv до страниц Wikipedia. Мы обнаруживаем, что модальный разрыв зависит от задачи и данных. Например, на математических задачах производительность падает более чем на 60 пунктов на синтетических изображениях, в то время как на реалистичных изображениях документов она часто соответствует или превосходит текстовый режим. Параметры рендеринга, такие как шрифт и разрешение, являются сильными confounding-факторами: только шрифт может изменять точность до 47 процентных пунктов. Чтобы понять это, мы проводим обоснованное теоретическое исследование ошибок на более чем 4000 примерах, которое показывает, что визуальный режим избирательно усиливает ошибки чтения (ошибки вычислений и форматирования), оставляя ошибки знаний и логики практически неизменными, а также что некоторые модели демонстрируют коллапс chain-of-thought рассуждений при визуальном вводе. Мотивируясь этими выводами, мы предлагаем метод самодистилляции, который обучает модель на ее собственных "чистых" текстовых траекториях рассуждений, спаренных с визуальными входами, повышая точность в визуальном режиме на GSM8K с 30.71% до 92.72% с переносом на новые тестовые наборы без катастрофического забывания. В целом, наше исследование дает систематическое понимание модального разрыва и предлагает практический путь к улучшению визуального понимания текста в мультимодальных языковых моделях.
Спорт издавна привлекает широкое внимание, поскольку он расширяет пределы физических и когнитивных возможностей человека. На фоне растущего интереса к пространственному интеллекту моделей "визуальный язык" (Vision-Language Models, VLM) спорт предоставляет естественный полигон для изучения высокоинтенсивных движений человека и динамических взаимодействий объектов. С этой целью мы представляем CourtSI — первый крупномасштабный набор данных для оценки пространственного интеллекта, созданный специально для спортивных сценариев. CourtSI содержит более 1 миллиона пар "вопрос-ответ", систематизированных по целостной таксономии, которая охватывает пространственный подсчет, измерение расстояний, локализацию и реляционные рассуждения в контексте представительных сеточных видов спорта: бадминтона, тенниса и настольного тенниса. Используя четко определенную геометрию корта в качестве метрических ориентиров, мы разработали полуавтоматический механизм генерации данных для реконструкции спортивных сцен, что позволило масштабируемо создавать CourtSI. Кроме того, мы представляем CourtSI-Bench — высококачественный оценочный бенчмарк, состоящий из 3 686 пар "вопрос-ответ", прошедших тщательную проверку человеком. Мы оценили 25 проприетарных и открытых VLM на CourtSI-Bench, что выявило сохраняющийся разрыв между человеком и ИИ в производительности, а также ограниченную обобщающую способность с существующих бенчмарков пространственного интеллекта. Эти результаты указывают, что спортивные сценарии выявляют ограничения в возможностях пространственного интеллекта, которые не улавливаются существующими бенчмарками. Более того, дообучение модели Qwen3-VL-8B на данных CourtSI повысило точность на CourtSI-Bench на 23,5 процентных пункта. Адаптированная модель также эффективно обобщает знания на CourtSI-Ext — оценочный набор, созданный на основе схожего, но незнакомого вида спорта, — и демонстрирует улучшенную генерацию комментариев с учетом пространственного контекста. В совокупности эти результаты демонстрируют, что CourtSI предоставляет масштабируемый путь для развития пространственного интеллекта VLM в спортивной сфере.
Мы представляем Fish Audio S2 — систему преобразования текста в речь с открытым исходным кодом, которая поддерживает генерацию речи для нескольких дикторов, многорепликовые диалоги и, что наиболее важно, управление через инструкции на естественном языке. Для масштабирования обучения мы разработали многоэтапный рецепт обучения вместе с поэтапным конвейером обработки данных, включающим создание субтитров для видео и речевых описаний, оценку качества голоса и моделирование вознаграждения. Чтобы расширить границы открытых TTS-систем, мы публикуем веса нашей модели, код для дообучения и механизм вывода на основе SGLang. Механизм вывода готов к промышленному использованию в потоковом режиме, обеспечивая RTF 0,195 и задержку до первого аудиосигнала менее 100 мс. Наш код и веса доступны на GitHub (https://github.com/fishaudio/fish-speech) и Hugging Face (https://huggingface.co/fishaudio/s2-pro). Мы настоятельно рекомендуем читателям посетить https://fish.audio, чтобы опробовать создание пользовательских голосов.
Способность различать тонкие различия между визуально схожими изображениями имеет ключевое значение для таких областей, как промышленное обнаружение аномалий, медицинская визуализация и аэросъёмка. Хотя сравнительные тесты для моделей «визуальный язык» (VLMs) недавно появились, они в основном сосредоточены на изображениях с крупными, явными различиями и не отражают нюансированные рассуждения, необходимые для реальных приложений. В данной работе мы представляем VLM-SubtleBench — тест, разработанный для оценки VLMs на способность к тонкому сравнительному анализу. Наш тест охватывает десять типов различий — атрибутивные, состояния, эмоции, временные, пространственные, существования, количества, качества, ракурса и действия — и включает подобранные наборы пар «вопрос-изображение», отражающие эти тонкие вариации. В отличие от предыдущих тестов, ограниченных наборами данных с естественными изображениями, наш тест охватывает различные области, включая промышленные, аэроснимки и медицинские изображения. В результате всесторонней оценки как проприетарных, так и открытых VLMs мы выявляем систематические разрывы между производительностью моделей и человека для различных типов различий и доменов, а также проводим контролируемый анализ, показывающий, где рассуждения VLMs резко ухудшаются. В совокупности наш тест и результаты закладывают основу для продвижения VLMs к сравнительным рассуждениям человеческого уровня.
Мультимодальные большие языковые модели могут проявлять доминирование текста, чрезмерно полагаясь на лингвистические априорные данные вместо того, чтобы основывать предсказания на нетекстовых входах. Одним из примеров являются большие аудио-языковые модели (LALMs), где решающие аудиодоказательства могут недостаточно использоваться, даже если они содержат важную информацию. Для решения этой проблемы мы применяем механистическую интерпретируемость, чтобы идентифицировать небольшой набор аудио-специализированных голов внимания, чье аудиовнимание генерирует «слуховой» сигнал. Мы показываем, что этот сигнал усиливается, когда аудиодоказательства влияют на вывод модели, что служит индикатором вовлеченности аудио при стандартном промптинге. Используя эту локализацию, мы конструируем направление управления «аудио-тишина» и применяем интервенцию активации во время вывода к конечному представлению, усиливая аудиоэффект модели. Чтобы продемонстрировать полезность этой интервенции, мы показываем на MMAU, что она повышает точность до +8,0 процентных пунктов на двух LALMs на основе Qwen без каких-либо обновлений параметров.
С быстрым прогрессом крупных языковых моделей (LLM) в области генерации кода взаимодействие человека с ИИ эволюционирует от статических текстовых ответов к динамическим интерактивным приложениям на основе HTML, которые мы называем MiniApps. Эти приложения требуют от моделей не только визуализации интерфейсов, но и создания персонализированной логики взаимодействия, соответствующей реальным принципам. Однако существующие бенчмарки в основном сосредоточены на алгоритмической корректности или статической реконструкции макетов, не охватывая возможности, необходимые для этой новой парадигмы. Для устранения этого пробела мы представляем MiniAppBench — первый комплексный бенчмарк, разработанный для оценки принцип-ориентированной генерации интерактивных приложений. Созданный на основе реального приложения с более чем 10 миллионами генераций, MiniAppBench включает 500 задач из шести областей (например, Игры, Наука и Инструменты). Кроме того, для решения проблемы оценки открытых взаимодействий, где не существует единственного эталонного решения, мы предлагаем MiniAppEval — агентскую систему оценки. Используя автоматизацию браузера, она выполняет исследовательское тестирование, подобное человеческому, для систематической оценки приложений по трем измерениям: Интенция, Статика и Динамика. Наши эксперименты показывают, что современные LLM по-прежнему сталкиваются со значительными трудностями в генерации высококачественных MiniApps, в то время как MiniAppEval демонстрирует высокое соответствие человеческим оценкам, устанавливая надежный стандарт для будущих исследований. Наш код доступен по адресу github.com/MiniAppBench.
Модели речи больших языковых моделей (SLLM) быстро развиваются, поддерживая широкий спектр задач. Эти модели обычно оцениваются с использованием текстовых промптов, что может не отражать реальные сценарии, в которых пользователи взаимодействуют с речью. Для устранения этого пробела мы представляем DoWhatISay (DOWIS) — многоязычный набор данных, содержащий устные и письменные промпты, записанные людьми, который предназначен для совместного использования с любым существующим бенчмарком для реалистичной оценки SLLM в условиях устных инструкций. Охватывая 9 задач и 11 языков, он предоставляет по 10 вариантов промптов для каждой пары "задача-язык" в пяти стилях. Используя DOWIS, мы проводим сравнительный анализ современных SLLM, изучая взаимосвязь между модальностью промпта, стилем, языком и типом задачи. Результаты показывают, что текстовые промпты consistently превосходят устные, особенно в условиях низкоресурсных и кросс-лингвистических сценариев. Только для задач с речевым выводом устные промпты сокращают разрыв, что подчеркивает необходимость использования речевых промптов при оценке SLLM.
Мы представляем методологию Test-Driven AI Agent Definition (TDAD), которая рассматривает промты агентов как скомпилированные артефакты: инженеры предоставляют поведенческие спецификации, агент-кодер преобразует их в исполняемые тесты, а второй агент-кодер итеративно дорабатывает промт до прохождения тестов. Развертывание LLM-агентов, использующих инструменты, в промышленной эксплуатации требует измеримого соответствия поведения, которое не могут обеспечить современные практики разработки. Незначительные изменения в промтах приводят к тихим регрессиям, misuse инструментов остается незамеченным, а нарушения политик выявляются только после развертывания. Для снижения риска обхода спецификаций TDAD вводит три механизма: (1) разделение тестов на видимые/скрытые, при котором оценочные тесты удерживаются во время компиляции, (2) семантическое мутационное тестирование с помощью агента, который после компиляции генерирует правдоподобные ошибочные варианты промтов, а тестовая обвязка измеряет, обнаруживает ли их тестовый набор, и (3) сценарии эволюции спецификаций, которые количественно оценивают безопасность от регрессий при изменении требований. Мы оцениваем TDAD на SpecSuite-Core — бенчмарке четырех глубоко специфицированных агентов, охватывающих соответствие политикам, обоснованную аналитику, соблюдение руководств и детерминистическое enforcement. В 24 независимых испытаниях TDAD демонстрирует 92% успешной компиляции для v1 со средним процентом прохождения скрытых тестов 97%; эволюционировавшие спецификации компилируются в 58% случаев, причем большинство неудачных прогонов проходят все видимые тесты, кроме 1-2, и показывают мутационные баллы 86-100%, 78% прохождения скрытых тестов для v2 и 97% баллов безопасности от регрессий. Реализация доступна в качестве открытого бенчмарка по адресу https://github.com/f-labs-io/tdad-paper-code.
Крупные предобученные диффузионные модели значительно повысили качество генерируемых видео, однако их использование в потоковой передаче в реальном времени остается ограниченным. Авторегрессионные модели предлагают естественную основу для последовательного синтеза кадров, но требуют значительных вычислительных ресурсов для достижения высокой точности. Дистилляция диффузии позволяет сжимать эти модели в эффективные варианты с малым количеством шагов, однако существующие подходы к дистилляции видео в основном адаптируют методы, специфичные для изображений, которые игнорируют временные зависимости. Эти методы часто преуспевают в генерации изображений, но демонстрируют худшие результаты в синтезе видео, проявляя сниженную согласованность движения, накопление ошибок в длинных последовательностях и компромисс между задержкой и качеством. Мы выделяем два фактора, приводящих к этим ограничениям: недостаточное использование временного контекста при сокращении шагов и неявное предсказание последующих уровней шума при прогнозировании следующего фрагмента (т.е. смещение экспозиции). Для решения этих проблем мы предлагаем метод диагональной дистилляции, который действует ортогонально существующим подходам и лучше использует временную информацию как между фрагментами видео, так и между шагами денойзинга. Ключевым элементом нашего подхода является асимметричная стратегия генерации: больше шагов в начале, меньше шагов позже. Такая конструкция позволяет последующим фрагментам наследовать богатую информацию о внешнем виде от тщательно обработанных начальных фрагментов, используя частично очищенные от шума фрагменты в качестве условных входных данных для последующего синтеза. Согласовывая неявное предсказание последующих уровней шума во время генерации фрагментов с реальными условиями вывода, наш подход смягчает распространение ошибок и снижает перенасыщенность в длинных последовательностях. Мы дополнительно включаем неявное моделирование оптического потока для сохранения качества движения при строгих ограничениях на количество шагов. Наш метод генерирует 5-секундное видео за 2,61 секунды (до 31 кадра в секунду), обеспечивая ускорение в 277,3 раза по сравнению с недистиллированной моделью.
Обучение с подкреплением на основе проверяемых вознаграждений (RLVR) значительно улучшает способность больших языковых моделей (LLM) к рассуждениям, но при этом сильно страдает от деградации калибровки, когда модели становятся чрезмерно уверенными в неверных ответах. Предыдущие исследования были направлены на прямое включение цели калибровки в существующую целевую функцию оптимизации. Однако наш теоретический анализ показывает, что существует фундаментальный конфликт градиентов между оптимизацией для максимизации точности политики и минимизации ошибки калибровки. Основываясь на этом выводе, мы предлагаем DCPO — простую, но эффективную структуру, которая систематически разделяет цели рассуждений и калибровки. Многочисленные эксперименты демонстрируют, что наш DCPO не только сохраняет точность на уровне, сопоставимом с GRPO, но и достигает наилучших показателей калибровки, существенно смягчая проблему избыточной уверенности. Наше исследование предоставляет ценные идеи и практическое решение для более надежного развертывания LLM.
Ситуационная осведомленность — способность системы ИИ распознавать свою собственную природу, понимать контекст своего обучения и развертывания, а также стратегически анализировать свои обстоятельства — широко считается одной из самых опасных возникающих способностей в передовых системах ИИ. В то же время растет объем исследований, направленных на улучшение возможностей логического вывода больших языковых моделей (БЯМ) в области дедукции, индукции и абдукции. В данной статье мы утверждаем, что эти два исследовательских вектора находятся на пути к столкновению. Мы представляем фреймворк RAISE (Reasoning Advancing Into Self Examination), который определяет три механистических пути, посредством которых улучшения в логическом выводе позволяют достигать все более глубоких уровней ситуационной осведомленности: дедуктивный самоанализ, индуктивное распознавание контекста и абдуктивное само-моделирование. Мы формализуем каждый путь, выстраиваем эскалационную лестницу — от базового самораспознавания до стратегического обмана — и показываем, что каждая крупная исследовательская тема в области логического вывода БЯМ напрямую соотносится с конкретным усилителем ситуационной осведомленности. Далее мы анализируем, почему существующие меры безопасности недостаточны для предотвращения такой эскалации. В заключение мы предлагаем конкретные защитные механизмы, включая бенчмарк «Зеркальный тест» и Принцип паритета безопасности логического вывода, и задаем неудобный, но необходимый вопрос сообществу, занимающемуся логическим выводом, о его ответственности в рамках данной траектории.
Агенты должны предсказывать результаты действий и выбирать операции, максимизирующие сигнал вознаграждения, который указывает на близость достижения цели. Обучение с учителем моделей вознаграждения может привнести смещения, присущие обучающим данным, ограничивая обобщаемость для новых целей и сред. В данной работе мы исследуем, могут ли хорошо определенные представления о состоянии мира сами по себе обеспечить точное предсказание вознаграждения в различных областях. Для решения этой задачи мы представляем StateFactory — метод факторизованного представления, который преобразует неструктурированные наблюдения в иерархическую объектно-атрибутную структуру с использованием языковых моделей. Такое структурированное представление позволяет естественным образом оценивать вознаграждение как семантическое сходство между текущим и целевым состоянием при иерархическом ограничении. В целом, компактная структура представления, порождаемая StateFactory, обеспечивает мощные возможности обобщения вознаграждения. Мы проводим оценку на RewardPrediction — новом наборе данных, охватывающем пять различных доменов и содержащем 2 454 уникальные траектории "действие-наблюдение" с пошаговыми истинными вознаграждениями. Наш метод демонстрирует перспективные результаты в режиме zero-shot по сравнению с моделями вознаграждения VLWM-critic и LLM-as-a-Judge, достигая на 60% и 8% меньшего расстояния EPIC соответственно. Более того, это превосходное качество оценки вознаграждения успешно транслируется в улучшенную производительность планирования агента, обеспечивая прирост процента успешных завершений на +21,64% в AlfWorld и +12,40% в ScienceWorld по сравнению с реактивными политиками Системы 1 и усиливая планирование агентов Системы 2. Страница проекта: https://statefactory.github.io
Быстрое развитие моделей преобразования текста в видео (T2V) произвело революцию в создании контента, однако их коммерческий потенциал в значительной степени остается нереализованным. Впервые мы представляем задачу бесшовной интеграции брендов в T2V: автоматическое внедрение брендов рекламодателей в видео, сгенерированные по промптам, при сохранении семантической соответствия пользовательскому замыслу. Эта задача сталкивается с тремя ключевыми проблемами: сохранение верности промпту, обеспечение узнаваемости бренда и достижение контекстуально естественной интеграции. Для их решения мы предлагаем BrandFusion — новую мультиагентную структуру, состоящую из двух синергетических фаз. На офлайн-фазе (ориентированной на рекламодателя) мы создаем Базу Знаний о Бренде путем исследования априорных представлений модели и адаптации к новым брендам с помощью легкой дообучки. На онлайн-фазе (ориентированной на пользователя) пять агентов совместно улучшают пользовательские промпты посредством итеративного уточнения, используя общую базу знаний и отслеживание контекста в реальном времени для обеспечения видимости бренда и семантического соответствия. Эксперименты с 18 известными и 2 пользовательскими брендами на нескольких передовых моделях T2V демонстрируют, что BrandFusion значительно превосходит базовые методы по сохранению семантики, узнаваемости бренда и естественности интеграции. Оценки пользователей дополнительно подтверждают более высокую удовлетворенность, устанавливая практический путь для устойчивой монетизации T2V.
Спекулятивное декодирование стало мощным подходом для ускорения вывода больших языковых моделей (LLM), использующим легковесные черновые модели для предложения кандидатных токенов, которые впоследствии проверяются целевой моделью. Эффективность этой парадигмы критически зависит от качества черновой модели. Хотя последние достижения, такие как серия EAGLE, демонстрируют наилучшее ускорение, существующие черновые модели остаются ограниченными из-за накопления ошибок: они учитывают только текущий префикс, что приводит к расхождению их предсказаний с предсказаниями целевой модели на последующих шагах. В данной работе мы предлагаем ConFu (Contemplate the Future) — новую структуру спекулятивного декодирования, которая позволяет черновым моделям предвосхищать будущее направление генерации. ConFu вводит (i) токены-размышления и мягкие промпты, позволяющие черновой модели использовать ориентированные на будущее сигналы от целевой модели с незначительными затратами, (ii) механизм динамических токенов-размышлений с MoE для обеспечения контекстно-зависимого предсказания будущего и (iii) структуру обучения с выборкой якорных токенов и репликацией предсказания будущего, которая обучает надежному прогнозированию. Эксперименты показывают, что ConFu улучшает процент принятия токенов и скорость генерации на 8–11% по сравнению с EAGLE-3 в различных downstream-задачах с моделями Llama-3 3B и 8B. Мы считаем, что наша работа первой объединяет спекулятивное декодирование с токенами непрерывного рассуждения, предлагая новое направление для ускорения вывода LLM.
Хотя большие языковые модели (LLM) произвели революцию в генерации кода, стандартные подходы «Системы 1», генерирующие решения за один прямой проход, часто достигают потолка производительности при решении сложных алгоритмических задач. Существующие стратегии итеративного уточнения пытаются преодолеть этот разрыв на этапе вывода, однако они в основном полагаются на внешние оракулы, обратную связь по выполнению или вычислительно дорогостоящие циклы «запрос-ответ». В данной работе мы предлагаем ReflexiCoder — новую архитектуру обучения с подкреплением (RL), которая интериоризирует структурированную траекторию рассуждений, включающую первоначальную генерацию, рефлексию с учетом ошибок и оптимизации, и самокоррекцию, непосредственно в веса модели. В отличие от предыдущих методов, ReflexiCoder смещает парадигму от уточнения, зависимого от внешних источников, к внутренним, полностью автономным возможностям саморефлексии и самокоррекции на этапе вывода. Мы используем парадигму обучения RL-zero с гранулированными функциями вознаграждения для оптимизации всей траектории «рефлексия-коррекция», обучая модель отладке без reliance на эталонную обратную связь или механизмы выполнения во время вывода. Масштабные эксперименты на семи бенчмарках демонстрируют, что наша модель ReflexiCoder-8B устанавливает новое state-of-the-art (SOTA) достижение среди ведущих открытых моделей в диапазоне 1.5B-14B параметров, достигая 94.51% (87.20%) на HumanEval (Plus), 81.80% (78.57%) на MBPP (Plus), 35.00% на BigCodeBench, 52.21% на LiveCodeBench и 37.34% на CodeForces в режиме единственной попытки, что сравнимо или превосходит результаты проприетарных моделей, таких как GPT-5.1. Примечательно, что наша архитектура значительно более эффективна по использованию токенов, чем базовые модели, сокращая вычислительные накладные расходы на этапе вывода примерно на 40% благодаря дисциплинированным, высокоскоростным шаблонам рассуждений и рефлексии. Исходный код доступен по адресу https://github.com/juyongjiang/ReflexiCoder.
Обучение больших языковых моделей (LLM) на трассах выполнения Python-программ позволяет закрепить их понимание исполнения кода и обеспечивает возможность построчного предсказания выполнения целых программ, эффективно превращая их в нейронные интерпретаторы (FAIR CodeGen Team et al., 2025). Однако разработчики редко выполняют программы пошагово; вместо этого они используют отладчики, чтобы останавливать выполнение на определенных точках останова и проходить только через релевантные участки, инспектируя или изменяя переменные программы. Существующие подходы к нейронным интерпретаторам лишены такого интерактивного контроля. Чтобы устранить это ограничение, мы представляем нейронные отладчики: языковые модели, которые эмулируют традиционные отладчики, поддерживая операции, такие как шаг с заходом, шаг с обходом или шаг с выходом из функции, а также установку точек останова на определенных строках исходного кода. Мы показываем, что нейронные отладчики — полученные путем дообучения больших LLM или предварительного обучения меньших моделей с нуля — могут надежно моделировать как прямое выполнение (предсказание будущих состояний и выходных данных), так и обратное выполнение (вывод предыдущих состояний или входных данных) в зависимости от действий отладчика. При оценке на CruxEval наши модели демонстрируют высокую производительность как в задачах предсказания выходных данных, так и входных данных, что подтверждает надежное моделирование условного выполнения. Наша работа представляет первые шаги к созданию будущих агентных систем программирования, в которых нейронные отладчики будут служить моделью мира для симулированных сред отладки, предоставляя обратную связь по выполнению или позволяя агентам взаимодействовать с реальными инструментами отладки. Эта способность закладывает основу для более мощного генерации кода, понимания программ и автоматизированной отладки.
Рефлексивное самоулучшение переходит от теории к практике: современные системы способны критиковать, пересматривать и оценивать собственные результаты, однако итеративная самомодификация сопряжена с риском незаметного дрейфа согласованности. Мы представляем SAHOO — практическую систему мониторинга и контроля дрейфа с помощью трех механизмов: (i) Индекс дрейфа целей (GDI), обученный детектор, объединяющий семантические, лексические, структурные и дистрибутивные метрики; (ii) проверки сохранения ограничений, обеспечивающие соблюдение критически важных инвариантов, таких как синтаксическая корректность и отсутствие галлюцинаций; и (iii) количественную оценку риска регрессии для выявления циклов улучшения, отменяющих предыдущие достижения. В ходе 189 тестов по генерации кода, математическим рассуждениям и достоверности SAHOO демонстрирует значительный рост качества, включая улучшение на 18,3% в задачах программирования и на 16,8% в логических задачах, при сохранении ограничений в двух доменах и минимальном уровне нарушений в проверке истинности. Пороговые значения калибруются на небольшой валидационной выборке из 18 задач в трёх циклах. Мы также строим границу компромисса между возможностями и согласованностью, показывая эффективные начальные циклы улучшения, но растущие затраты на согласованность на поздних этапах, а также выявляя доменно-специфические противоречия, такие как беглость против фактической точности. Таким образом, SAHOO делает сохранение согласованности в процессе рефлексивного самоулучшения измеримым, внедряемым и систематически проверяемым в масштабе.
Выпуски моделей в пространстве состояний обычно связаны со слиянием ядер CUDA и Triton, что создает жесткую зависимость от оборудования NVIDIA. Мы демонстрируем, что алгоритм двойственности пространства состояний Mamba-2 — диагональная структура состояний, фрагментируемая рекуррентность и вычисления, доминируемые операцией einsum со статическим потоком управления — органично соответствует тому, что фактически оптимизируют проходы слияния и тайлинга в XLA, делая пользовательские ядра опциональными, а не обязательными. Мы реализуем полный путь вывода (предзаполнение, кэшированное авторегрессионное декодирование) в виде стандартных примитивов с заданной формой в XLA, без написания ядер вручную, и воплощаем теоретическое управление состояниями со сложностью O(1) в виде скомпилированного кэша на устройстве, не требующего синхронизации с хостом в процессе генерации. Реализация работает без изменений на CPU, GPU NVIDIA и Google Cloud TPU из единого исходного кода на JAX. На TPU v6e для пяти масштабов модели (130 млн — 2,7 млрд параметров) код, сгенерированный XLA, достигает примерно 140 TFLOPS при однопоточном предзаполнении (15% MFU) и до 64% утилизации пропускной способности при декодировании. Жадное декодирование точно соответствует эталонной реализации на PyTorch/CUDA по токенам на протяжении 64 шагов, с согласованностью скрытых состояний в пределах допуска округления float32. Данный подход применим к любой рекуррентности SSM, удовлетворяющей тем же структурным условиям, на любой платформе со зрелой реализацией XLA. Реализация общедоступна по адресу https://github.com/CosmoNaught/mamba2-jax и интегрирована в библиотеку моделей Bonsai JAX.
Последние достижения в области визуально-языковых моделей (VLM) продемонстрировали впечатляющие возможности zero-shot обучения, однако адаптация этих моделей к специализированным доменам остаётся серьёзной проблемой. Опираясь на недавние теоретические инсайты, предполагающие, что независимо обученные VLM связаны каноническим преобразованием, мы расширяем это понимание на концепцию доменов. Мы выдвигаем гипотезу, что особенности изображений из различных доменов связаны канонизированным геометрическим преобразованием, которое можно восстановить с помощью небольшого набора якорных точек. Классификация с малым числом примеров предоставляет естественную среду для такого выравнивания, поскольку ограниченные размеченные образцы служат якорями, необходимыми для оценки этого преобразования. Руководствуясь этой гипотезой, мы представляем BiCLIP — фреймворк, применяющий целевое преобразование к мультимодальным признакам для улучшения межмодального согласования. Наш подход характеризуется исключительной простотой и низким параметрическим следом. Масштабные оценки на 11 стандартных бенчмарках, включая EuroSAT, DTD и FGVCAircraft, демонстрируют, что BiCLIP стабильно достигает state-of-the-art результатов. Кроме того, мы предоставляем эмпирическое подтверждение существующих геометрических находок через анализ ортогональности и углового распределения изученных преобразований, подтверждая, что структурированное выравнивание является ключом к устойчивой адаптации к домену. Код доступен по адресу https://github.com/QuantitativeImagingLaboratory/BilinearCLIP
Кашмири является родным языком для примерно 7 миллионов человек, но остается критически недостаточно обеспеченным речевыми технологиями, несмотря на его официальный статус и богатое лингвистическое наследие. Отсутствие надежных систем синтеза речи (Text-to-Speech, TTS) ограничивает цифровую доступность и инклюзивное человеко-компьютерное взаимодействие для носителей языка. В данной работе мы представляем первую специализированную открытую нейросетевую TTS-систему, разработанную для кашмири. Мы показываем, что многоязычные базовые модели, обученные по принципу zero-shot для индийских языков, не способны генерировать разборчивую речь, достигая средней оценки мнения (Mean Opinion Score, MOS) всего 1.86, что в значительной степени связано с неадекватным моделированием персо-арабских диакритических знаков и специфической фонологической структуры языка. Для преодоления этих ограничений мы предлагаем Bolbosh — стратегию контролируемой кросс-лингвальной адаптации на основе условного согласования потоков с оптимальным транспортом (Optimal Transport Conditional Flow Matching, OT-CFM) в рамках фреймворка Matcha-TTS. Это позволяет достичь стабильного выравнивания при ограниченном объеме размеченных данных. Дополнительно мы вводим трехэтапный конвейер акустического улучшения, состоящий из удаления реверберации, обрезки пауз и нормализации громкости, для унификации разнородных источников речи и стабилизации обучения выравниванию. Словарь модели расширен для явного кодирования графем кашмири с сохранением тонких различий между гласными. Наша система достигает MOS 3.63 и Mel-кестрального искажения (Mel-Cepstral Distortion, MCD) 3.73, существенно превосходя многоязычные базовые модели и устанавливая новый эталон для синтеза кашмирской речи. Наши результаты демонстрируют, что адаптация с учетом письменности и на основе контролируемых потоков критически важна для TTS в условиях ограниченных ресурсов для языков, чувствительных к диакритике. Код и данные доступны по адресу: https://github.com/gaash-lab/Bolbosh.
Мы представляем Midicoth — систему сжатия без потерь, которая вводит микродиффузионный слой шумоподавления для улучшения вероятностных оценок, генерируемых адаптивными статистическими моделями. В таких компрессорах, как Prediction by Partial Matching (PPM), вероятностные оценки сглаживаются с помощью априорного распределения для обработки разреженных наблюдений. Когда контексты встречались лишь несколько раз, это априорное распределение доминирует в прогнозировании и создаёт распределения, значительно более плоские, чем истинное распределение источника, что приводит к неэффективности сжатия. Midicoth преодолевает это ограничение, трактуя априорное сглаживание как процесс сжатия и применяя обратный шаг шумоподавления, который корректирует предсказанные вероятности с использованием эмпирической калибровочной статистики. Для обеспечения эффективности этой коррекции по данным метод декомпозирует каждый байтовый прогноз в иерархию бинарных решений вдоль битового дерева. Это преобразует единую задачу 256-классовой калибровки в последовательность бинарных калибровочных задач, позволяя надёжно оценивать корректирующие члены даже по относительно малому числу наблюдений. Процесс шумоподавления применяется в несколько последовательных шагов, позволяя каждому этапу уточнять остаточные ошибки прогноза, оставшиеся от предыдущего. Микродиффузионный слой функционирует как лёгкая калибровочная стадия пост-смешивания, применяемая после объединения всех модельных прогнозов, что позволяет ему корректировать систематические смещения итогового вероятностного распределения. Midicoth объединяет пять полностью онлайн-компонентов: адаптивную PPM-модель, модель долгосрочного соответствия, модель слов на основе префиксного дерева, модель контекстов высокого порядка и микродиффузионный дениойзер, применяемый на финальном этапе.
Ассоциативная память долгое время лежала в основе проектирования последовательных моделей. Однако помимо воспроизведения, люди рассуждают, проецируя будущие состояния и выбирая целенаправленные действия — способность, которая все более необходима современным языковым моделям, но не заложена в них изначально. В то время как предыдущие работы используют обучение с подкреплением или обучение во время тестирования, планирование остается внешним по отношению к архитектуре модели. Мы формулируем рассуждение как задачу оптимального управления и представляем слой управления во время тестирования (Test-Time Control, TTC), который выполняет планирование по методу LQR с конечным горизонтом над латентными состояниями во время вывода, представляет функцию ценности внутри нейросетевых архитектур и использует ее как вложенную цель, чтобы обеспечить планирование до предсказания. Для обеспечения масштабируемости мы выводим аппаратно-эффективный решатель LQR на основе симплектической формулировки и реализуем его в виде слитого CUDA-ядра, что позволяет параллельное выполнение с минимальными накладными расходами. Интегрированные в качестве адаптера в предварительно обученные большие языковые модели, слои TTC улучшают результаты математических рассуждений до +27.8% на MATH-500 и в 2-3 раза повышают показатель Pass@8 на AMC и AIME, демонстрируя, что встраивание оптимального управления в качестве архитектурного компонента предоставляет эффективный и масштабируемый механизм для рассуждений, превосходящий обучение во время тестирования.
Динамическое обнаружение категорий (OCD) ставит целью распознавание известных категорий при одновременном выявлении новых из немаркированного онлайн-потока данных, используя модель, обученную только на размеченных данных. Существующие подходы замораживают экстрактор признаков, обученный офлайн, и применяют хэш-ориентированную архитектуру, которая квантует признаки в бинарные коды в качестве прототипов классов. Однако обнаружение новых категорий с фиксированной базой знаний противоречит интуиции, поскольку потенциал обучения входящих данных полностью игнорируется. Кроме того, квантование признаков приводит к потере информации, снижает выразительность представлений и усиливает внутриклассовую дисперсию. Это часто выливается в "взрыв категорий", когда единый класс дробится на множество псевдоклассов. Для преодоления этих ограничений мы предлагаем фреймворк адаптации на этапе тестирования, который позволяет обучаться через обнаружение. Он включает две взаимодополняющие стратегии: семантически осознанное обновление прототипов и стабильное обновление энкодера во время тестирования. Первая динамически уточняет прототипы классов для улучшения классификации, тогда вторая интегрирует новую информацию непосредственно в пространство параметров. Вместе эти компоненты позволяют модели непрерывно расширять свою базу знаний за счет вновь поступающих образцов. Кроме того, мы вводим калибровку логитов с учетом зазора на офлайн-этапе, чтобы увеличить межклассовые расстояния и улучшить внутриклассовую компактность, тем самым резервируя пространство векторов для будущего обнаружения классов. Эксперименты на стандартных бенчмарках OCD демонстрируют, что наш метод существенно превосходит существующие хэш-ориентированные передовые подходы, показывая значительное улучшение точности для новых классов и эффективно mitigating взрыв категорий. Код общедоступен по адресу: \url{https://github.com/ynanwu/TALON}.
Каждый может писать свои истории в свободном текстовом формате — этому мы все учимся в школе. Однако создание повествования с помощью видео требует освоения специализированных и сложных инструментов. В данной статье мы представляем Doki, интерфейс для генеративного видеомонтажа, ориентированный на работу с текстом, который приближает процесс создания видео к естественному процессу написания текста. В Doki написание текста является основным способом взаимодействия: в рамках одного документа пользователи определяют ресурсы, структурируют сцены, создают кадры, редактируют монтаж и добавляют аудио. Мы формулируем принципы проектирования этого подхода, ориентированного на текст, и демонстрируем возможности Doki на ряде примеров. Для оценки его практического применения мы провели недельное исследование с участием пользователей, имеющих разный уровень опыта в создании видео. Данная работа представляет собой фундаментальный сдвиг в интерфейсах для генеративного видео, демонстрируя мощный и доступный новый способ создания визуальных историй.
Вывод больших языковых моделей с длинным контекстом ограничивается загрузкой кэша ключей-значений (KV) на этапе декодирования, где последовательная природа генерации требует многократной передачи KV-кэша из внешней высокоскоростной памяти (HBM) во внутреннюю статическую память с произвольным доступом (SRAM) на каждом шаге. Хотя многоуровневая латентная внимательность (MLA) значительно сокращает общий размер KV-кэша, она сталкивается с проблемой шардинга при распределенном декодировании с помощью тензорного параллелизма (TP). Поскольку ее единственный латентный заголовок не подлежит разделению, каждое устройство вынуждено избыточно загружать полный KV-кэш для каждого токена, потребляя чрезмерный объем памяти и сводя на нет преимущества TP, такие как шардинг весов. В данной работе мы предлагаем многоуровневую внимательность низкого ранга (MLRA), которая обеспечивает разделяемые латентные состояния для эффективного 4-стороннего TP-декодирования. Многочисленные эксперименты показывают, что MLRA достигает наилучших показателей перплексии и производительности на практических задачах, а также обеспечивает ускорение декодирования в 2,8 раза по сравнению с MLA. Код доступен по адресу https://github.com/SongtaoLiu0823/MLRA. Предобученные веса, а также данные для обучения и оценки доступны по адресу https://huggingface.co/Soughing/MLRA.