Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели (LLM) кардинально преобразовали автоматизированную разработку программного обеспечения, обеспечив прямую трансляцию описаний на естественном языке в функциональный код, что стимулировало коммерческое внедрение таких инструментов, как GitHub Copilot (Microsoft), Cursor (Anysphere), Trae (ByteDance) и Claude Code (Anthropic). Хотя область претерпела драматическую эволюцию — от систем на основе правил до архитектур на базе трансформеров, — что позволило добиться роста производительности с единиц до более 95% успеха на бенчмарках типа HumanEval. В данной работе мы представляем всесторонний обзор и практическое руководство (серию аналитических и зондирующих экспериментов) по кодогенерирующим LLM, систематически исследуя полный жизненный цикл модели: от курации данных до пост-обучения, включая передовые парадигмы промптинга, претренинг кода, контролируемое тонкое настройка, обучение с подкреплением и автономные кодогенерирующие агенты. Мы анализируем способности к генерации кода у универсальных LLM (GPT-4, Claude, LLaMA) и специализированных кодогенерирующих LLM (StarCoder, Code LLaMA, DeepSeek-Coder, QwenCoder), критически оценивая методы, проектные решения и компромиссы. Кроме того, мы формулируем разрыв между исследованиями и практикой, разделяющий академические изыскания (например, бенчмарки и задачи) и реальное развертывание (например, задачи, связанные с программным кодом), включая корректность и безопасность кода, контекстную осведомленность в рамках больших кодовых баз и интеграцию в рабочие процессы разработки, и сопоставляем перспективные направления исследований с практическими потребностями. Наконец, мы проводим серию экспериментов для всестороннего анализа претренинга кода, контролируемого тонкого настройка и обучения с подкреплением, охватывающую законы масштабирования, выбор фреймворков, чувствительность к гиперпараметрам, архитектуры моделей и сравнение наборов данных.
Крупные мультимодальные модели (LMM) продемонстрировали значительный потенциал в области видео-рассуждений с использованием текстовых цепочек мыслей (Chain-of-Thought). Однако они остаются подвержены галлюцинациям, особенно при обработке длинных видео, где визуальные свидетельства разрежены и распределены во времени. Вдохновляясь тем, как человек воспринимает длинные видео — сначала бегло просматривая их глобально, а затем детально изучая релевантные фрагменты — мы представляем LongVT, сквозной агентский фреймворк, который обеспечивает «Мышление с длинными видео» посредством чередующейся Мультимодальной Цепочки Инструмент-Мысль. В частности, мы используем присущую LMM способность к временному позиционированию как нативный инструмент обрезки видео для увеличения конкретного видеофрагмента и повторной выборки кадров с более высокой детализацией. Этот цикл рассуждений от глобального к локальному продолжается до тех пор, пока ответы не будут обоснованы извлеченными визуальными свидетельствами. Учитывая недостаток детализированных данных «вопрос-ответ» (QA) для задачи рассуждений по длинным видео, мы подготовили и выпустим набор данных VideoSIAH для облегчения как обучения, так и оценки. Конкретно, наш обучающий набор состоит из 247.9 тыс. примеров для контролируемой тонкой настройки «с холодного старта» с интегрированными инструментами, 1.6 тыс. примеров для агентского обучения с подкреплением и 15.4 тыс. примеров для агентской тонкой настройки с подкреплением соответственно. Наш оценочный бенчмарк состоит из 1280 пар «вопрос-ответ», тщательно отобранных с помощью полуавтоматического конвейера данных с валидацией при участии человека. Благодаря тщательно продуманной трехэтапной стратегии обучения и обширной эмпирической проверке, LongVT стабильно превосходит существующие сильные базовые модели по четырем сложным бенчмаркам понимания и рассуждений на длинных видео. Наши код, данные и контрольные точки моделей общедоступны по адресу https://github.com/EvolvingLMMs-Lab/LongVT.
Современные мультимодальные модели стремятся преодолеть ограничения одномодальных представлений через унификацию понимания и генерации, часто используя задачи "текст-изображение" (T2I) для калибровки семантической согласованности. Однако их зависимость от статической генерации одиночных изображений на этапах обучения и оценки приводит к переобучению на статическое паттернное сопоставление и семантическое слияние, что фундаментально ограничивает их способность моделировать динамические процессы, разворачивающиеся во времени. Для преодоления этих ограничений мы предлагаем Envision — бенчмарк каузальной прогрессии событий для цепочечной генерации "текст-много изображений". Основанный на знаниях о мире и структурированный по принципу пространственно-временной причинности, он реорганизует существующие оценочные измерения и включает 1000 четырёхэтапных промптов, охватывающих шесть научных и гуманитарных областей. Для перехода от оценки одиночных изображений к последовательным кадрам и анализа того, действительно ли модели усваивают знания о мире с соблюдением каузально-временных ограничений, мы вводим Envision-Score — комплексную метрику, интегрирующую многомерную согласованность, физическую достоверность и эстетику. Всесторонняя оценка 15 моделей (10 специализированных T2I-моделей, 5 унифицированных моделей) выявила: специализированные T2I-модели демонстрируют мастерство в эстетическом рендеринге, но испытывают недостаток внутренних знаний о мире. Унифицированные мультимодальные модели устраняют этот разрыв, стабильно превосходя специализированные аналоги по каузальной нарративной связности. Однако даже эти унифицированные архитектуры остаются слабее закрытых моделей и не способны преодолеть ключевую проблему пространственно-временной согласованности. Это доказывает, что фокус на каузально-изолированных одиночных изображениях препятствует многофреймовому мышлению и генерации, поощряя статическое паттернное сопоставление в ущерб моделированию динамического мира — что в конечном счёте ограничивает усвоение и генерацию знаний о мире.
В данной статье предлагается новая формулировка обучения с подкреплением (RL) для больших языковых моделей, объясняющая, почему и при каких условиях истинное вознаграждение на уровне последовательности может быть оптимизировано с помощью суррогатной цели на уровне токенов в методах градиента политики, таких как REINFORCE. В частности, с помощью аппроксимации первого порядка мы показываем, что этот суррогат становится все более корректным только при минимизации как расхождения между обучением и выводом, так и устаревания политики. Это наблюдение дает принципиальное объяснение ключевой роли нескольких широко используемых методов стабилизации RL-обучения, включая коррекцию важности сэмплирования, отсечение и, в частности, Routing Replay для моделей смеси экспертов (MoE). В ходе масштабных экспериментов с MoE-моделью на 30 млрд параметров, суммарно занявших сотни тысяч GPU-часов, мы демонстрируем, что для обучения на политике базовый алгоритм градиента политики с коррекцией важности обеспечивает наивысшую стабильность обучения. При внедрении обновлений вне политики для ускорения сходимости сочетание отсечения и Routing Replay становится необходимым для снижения нестабильности, вызванной устареванием политики. Примечательно, что после стабилизации обучения пролонгированная оптимизация последовательно дает сопоставимую итоговую производительность независимо от инициализации с холодного старта. Мы надеемся, что представленные инсайты и разработанные методики стабильного RL-обучения будут способствовать будущим исследованиям.
Агенты углубленного исследования (Deep Research Agents, DRA) ставят целью автоматическое создание аналитических отчетов экспертного уровня посредством итеративного поиска и синтеза информации. Однако большинство существующих DRA были проверены на бенчмарках для вопросно-ответных систем, в то время как исследования по генерации комплексных отчетов остаются недостаточно изученными. Что хуже, современные бенчмарки для синтеза отчетов страдают от сложности задач и субъективности метрик — это не отражает потребности пользователей и ограничивает практическую полезность генерируемых отчетов. Для устранения этих пробелов мы представляем улучшенный бенчмарк Fine-grained DEepResearch bench (FINDER), состоящий из 100 тщательно отобранных экспертами исследовательских задач с 419 структурированными пунктами контрольного списка, которые стандартизируют структуру отчета, аналитическую глубину и фактическую обоснованность. На основе примерно 1000 отчетов, созданных основными DRA, мы дополнительно предлагаем Deep rEsearch Failure Taxonomy (DEFT) — первую таксономию ошибок для агентов углубленного исследования. DEFT содержит 14 детализированных типов сбоев в области рассуждений, поиска и генерации и построена на основе обоснованной теории с совместной аннотацией человек-ИЯ и проверкой надежности между аннотаторами. Наши экспериментальные результаты показывают, что современные DRA испытывают трудности не с пониманием задачи, а с интеграцией доказательств, их проверкой и планированием, устойчивым к рассуждениям.
Современные модели диффузии видео способны синтезировать визуально убедительные ролики, однако часто нарушают фундаментальные законы физики: объекты парят в воздухе, ускорения дрейфуют, а столкновения происходят непоследовательно, что выявляет устойчивый разрыв между визуальным и физическим реализмом. Мы предлагаем NewtonRewards — первую физически обоснованную пост-обработочную архитектуру для генерации видео, основанную на верифицируемых вознаграждениях. Вместо опоры на обратную связь от человека или VLM, NewtonRewards извлекает из сгенерированных видео измеримые прокси-метрики с помощью замороженных вспомогательных моделей: оптический поток служит прокси для скорости, а высокоуровневые признаки внешнего вида — прокси для массы. Эти прокси позволяют явно применять ньютоновскую структуру через два взаимодополняющих вознаграждения: кинематическое ограничение Ньютона, обеспечивающее динамику с постоянным ускорением, и вознаграждение за сохранение массы, предотвращающее тривиальные вырожденные решения. Мы оцениваем NewtonRewards на пяти примитивах ньютоновского движения (свободное падение, горизонтальное/параболическое бросание и скольжение вниз/вверх по наклонной плоскости) с использованием нашего нового масштабного бенчмарка NewtonBench-60K. По всем примитивам в визуальных и физических метриках NewtonRewards последовательно улучшает физическую правдоподобность, плавность движения и временную согласованность по сравнению с предыдущими пост-обработочными методами. Кроме того, метод сохраняет высокую производительность при сдвигах распределения по высоте, скорости и трению. Наши результаты демонстрируют, что физически обоснованные верифицируемые вознаграждения открывают масштабируемый путь к генерации видео с учётом физических законов.
Предыдущие работы исследовали различные задачи кастомизированной генерации по заданному эталонному изображению, однако они по-прежнему сталкиваются с ограничениями в воспроизведении согласованных мелкодетализированных элементов. В данной статье мы стремимся решить проблему несогласованности генерируемых изображений с помощью применения постобработки под управлением эталона и представляем наш метод ImageCritic. Сначала мы создаем набор данных из троек «эталон-деградированное изображение-целевое изображение», полученных посредством отбора на основе визуально-языковых моделей и явной деградации, что эффективно моделирует распространенные неточности и несогласованности, наблюдаемые в существующих моделях генерации. Кроме того, на основе тщательного анализа механизмов внимания и внутренних представлений модели мы разрабатываем функцию потерь для выравнивания внимания и детальный энкодер для точного исправления несогласованностей. ImageCritic может быть интегрирован в агентский фреймворк для автоматического обнаружения несогласованностей и их исправления с помощью многораундового локального редактирования в сложных сценариях. Многочисленные эксперименты демонстрируют, что ImageCritic эффективно решает проблемы, связанные с детализацией, в различных сценариях кастомизированной генерации, обеспечивая значительное улучшение по сравнению с существующими методами.
Современные авторегрессионные модели видео-диффузии ограничены тремя основными проблемами: (i) конечным временным горизонтом, накладываемым 3D ротационным позиционным кодированием (3D-RoPE) базовой модели, (ii) медленной реакцией на промпты при сохранении детального управления действиями в ходе длинных генераций и (iii) невозможностью создания кинематографических переходов между сценами в рамках единого потока генерации. Мы представляем infty-RoPE — унифицированную инферентную архитектуру, которая решает все три ограничения с помощью трех взаимосвязанных компонентов: Block-Relativistic RoPE, KV Flush и RoPE Cut. Block-Relativistic RoPE переформулирует временное кодирование как движущуюся локальную систему отсчета, где каждый новый генерируемый латентный блок поворачивается относительно максимального фреймового горизонта базовой модели, в то время как предыдущие блоки поворачиваются назад для сохранения относительной временной геометрии. Эта релятивистская формулировка устраняет фиксированные временные позиции, позволяя осуществлять непрерывную генерацию видео далеко за пределы базовых позиционных ограничений. Для обеспечения детального управления действиями без перекодирования KV Flush обновляет KV-кэш, сохраняя только два латентных кадра — глобальный сток и последний сгенерированный латентный кадр, тем самым гарантируя мгновенную реакцию на промпты. Наконец, RoPE Cut вводит контролируемые разрывы в координатах временного RoPE, позволяя осуществлять многокадровые переходы между сценами в рамках единой непрерывной генерации. В совокупности эти компоненты делают infty-RoPE независимым от обучения фундаментом для бесконечно длинной, управляемой и кинематографичной видео-диффузии. Комплексные эксперименты показывают, что infty-RoPE последовательно превосходит предыдущие авторегрессионные модели по общим показателям VBench.
Унифицированные мультимодальные модели (UMM) ставят целью совместное выполнение задач мультимодального понимания и генерации в рамках единой архитектуры. Мы представляем TUNA — нативную UMM, которая строит единое непрерывное визуальное представление путём каскадного соединения энкодера VAE с репрезентационным энкодером. Это унифицированное репрезентационное пространство позволяет осуществлять сквозную обработку изображений и видео как для задач понимания, так и для генерации. По сравнению с предыдущими UMM с разделёнными представлениями, унифицированное визуальное пространство TUNA избегает несоответствий форматов представлений, вносимых раздельными энкодерами, и превосходит подходы с разделёнными представлениями как в понимании, так и в генерации. Более того, мы наблюдаем, что более мощные предобученные репрезентационные энкодеры последовательно обеспечивают лучшую производительность на всех мультимодальных задачах, что подчёркивает важность репрезентационного энкодера. Наконец, в данной унифицированной конфигурации совместное обучение на данных как для понимания, так и для генерации позволяет этим двум задачам извлекать взаимную пользу, а не мешать друг другу. Наши расширенные эксперименты на бенчмарках мультимодального понимания и генерации показывают, что TUNA достигает state-of-the-art результатов в понимании изображений и видео, генерации изображений и видео, а также редактировании изображений, демонстрируя эффективность и масштабируемость её унифицированной репрезентационной архитектуры.
Мы представляем LFM2 — семейство жидкостных фундаментальных моделей, разработанных для эффективного развертывания на устройствах и мощных возможностей решения задач. Используя поиск архитектуры с обратной связью от оборудования в условиях ограничений задержки и памяти на периферийных устройствах, мы получили компактный гибридный бэкбон, сочетающий короткие свертки с затвором и небольшое количество блоков группового внимания запросов, что обеспечивает до 2-кратного ускорения предзаполнения и декодирования на CPU по сравнению с моделями аналогичного размера. Семейство LFM2 охватывает диапазон от 350 млн до 8,3 млрд параметров, включая плотные модели (350M, 700M, 1,2B, 2,6B) и вариант с ансамблем экспертов (8,3B всего, 1,5B активных), все с длиной контекста 32K. Конвейер обучения LFM2 включает темперированный раздельный объект дистилляции знаний Top-K, избегающий несоответствия поддержки; обучение по учебному плану с данными, упорядоченными по сложности; и трехэтапный рецепт пост-обучения, состоящий из контролируемой тонкой настройки, оптимизации предпочтений с нормализацией длины и слияния моделей. Предварительно обученные на 10–12 трлн токенов, модели LFM2 демонстрируют высокие результаты в различных бенчмарках; например, LFM2-2.6B достигает 79,56% на IFEval и 82,41% на GSM8K. Мы также создали мультимодальные и поисковые варианты: LFM2-VL для задач «зрение-язык», LFM2-Audio для речи и LFM2-ColBERT для поиска. LFM2-VL поддерживает настраиваемый компромисс между точностью и задержкой за счет эффективной обработки визуальных токенов, а LFM2-Audio разделяет пути ввода и вывода аудио для обеспечения интерактивного речевого взаимодействия в реальном времени, конкурируя с моделями в 3 раза крупнее. LFM2-ColBERT предоставляет низкозатратный энкодер для запросов и документов, обеспечивая высокопроизводительный поиск на нескольких языках. Все модели выпускаются с открытыми весами и пакетами развертывания для ExecuTorch, llama.cpp и vLLM, что делает LFM2 практичной основой для периферийных приложений, требующих быстрого, эффективного по памяти вывода и мощных возможностей решения задач.
Графы знаний (ГЗ) обеспечивают структурированное, проверяемое основание для больших языковых моделей (БЯМ), однако современные системы на основе БЯМ обычно используют ГЗ как вспомогательные структуры для текстового поиска, оставляя их внутреннее качество недостаточно изученным. В данной работе мы предлагаем Wikontic — многоэтапный конвейер, который строит ГЗ из текстов открытой области путем извлечения кандидатных триплетов с квалификаторами, применения ограничений на типы и отношения на основе Wikidata и нормализации сущностей для снижения дублирования. Получаемые ГЗ компактны, соответствуют онтологии и хорошо связаны; на MuSiQue искомая сущность-ответ присутствует в 96% сгенерированных триплетов. На HotpotQA наша установка, использующая только триплеты, достигает показателя F1 76.0, а на MuSiQue — 59.8 F1, что соответствует или превосходит несколько базовых методов retrieval-augmented generation, по-прежнему требующих текстового контекста. Кроме того, Wikontic демонстрирует наилучшую производительность по сохранению информации на бенчмарке MINE-1 (86%), превосходя предыдущие методы построения ГЗ. Wikontic также эффективен на этапе построения: создание ГЗ использует менее 1000 выходных токенов, что примерно в 3 раза меньше, чем у AriGraph, и <1/20 от GraphRAG. Предложенный конвейер повышает качество генерируемого ГЗ и предлагает масштабируемое решение для использования структурированных знаний в БЯМ.
Последние достижения в области больших языковых моделей (LLM) обусловлены их возникающими способностями к рассуждению, особенно благодаря длинным цепочкам мыслей (CoT), которые обеспечивают тщательное исследование и обдумывание. Несмотря на эти успехи, LLM с длинными CoT часто демонстрируют неоптимальное поведение при рассуждениях, такое как излишнее усложнение и чрезмерно затянутые цепочки рассуждений, что может ухудшать производительность. В данной статье мы анализируем процессы рассуждений через призму оптимизации, представляя CoT как процедуру градиентного спуска, где каждый шаг рассуждения представляет собой обновление в направлении решения задачи. Основываясь на этой перспективе, мы представляем RePro (Rectifying Process-level Reward) — новый подход к улучшению рассуждений LLM на этапе пост-обучения. RePro определяет суррогатную целевую функцию для оценки процесса оптимизации, лежащего в основе CoT, используя двойной механизм оценки для количественного определения его интенсивности и стабильности. Эти оценки агрегируются в составную награду на уровне процесса, которая бесшовно интегрируется в конвейеры обучения с подкреплением с верифицируемыми наградами (RLVR) для оптимизации LLM. Многочисленные эксперименты с различными алгоритмами обучения с подкреплением и разнообразными LLM, оцененные на наборах данных по математике, естественным наукам и программированию, демонстрируют, что RePro последовательно улучшает производительность рассуждений и смягчает проявление неоптимального поведения.
Диффузионные модели стали ведущим классом генеративных моделей, однако их итерационный процесс сэмплирования остается вычислительно дорогим. Дистилляция по временным шагам является перспективной техникой для ускорения генерации, но часто требует длительного обучения и приводит к деградации качества изображений. Более того, тонкая настройка таких дистиллированных моделей для конкретных задач, таких как эстетическая привлекательность или пользовательские предпочтения, с использованием обучения с подкреплением (RL) печально известна своей нестабильностью и легко приводит к взлому функции вознаграждения. В данной работе мы представляем Flash-DMD — новую архитектуру, которая обеспечивает быструю сходимость при дистилляции и совместную RL-доработку. В частности, мы сначала предлагаем эффективную стратегию дистилляции с учетом временных шагов, которая значительно снижает стоимость обучения при повышении реалистичности, превосходя DMD2 при использовании всего 2.1% от ее вычислительных затрат на обучение. Во-вторых, мы вводим схему совместного обучения, в которой модель тонко настраивается по RL-цели, в то время как обучение дистилляции по временным шагам продолжается параллельно. Мы показываем, что стабильная, хорошо определенная функция потерь от продолжающейся дистилляции действует как мощный регуляризатор, эффективно стабилизируя процесс RL-обучения и предотвращая коллапс политики. Многочисленные эксперименты на моделях, основанных на оценке и потоковом соответствии, демонстрируют, что предложенный метод Flash-DMD не только сходится значительно быстрее, но и достигает передового качества генерации в режиме сэмплирования с малым числом шагов, превосходя существующие методы по визуальному качеству, пользовательским предпочтениям и метрикам соответствия текста и изображения. Наша работа представляет эффективную парадигму для обучения эффективным, высокоточным и стабильным генеративным моделям. Код будет опубликован в ближайшее время.
Модели "Vision-Language-Action" (VLA) демонстрируют растущую эффективность в решении разнообразных робототехнических задач. Однако их развертывание в реальных условиях остается медленным и неэффективным: демонстрационные видео часто ускорены в 5-10 раз для создания видимости плавности, при этом заметны задержки действий и запаздывающие реакции на изменения в окружающей среде. Асинхронный вывод данных предлагает перспективное решение для достижения непрерывного управления с низкой задержкой, позволяя роботам одновременно выполнять действия и проводить логические выводы. Однако, поскольку робот и среда продолжают изменяться в процессе вывода, возникает временное несоответствие между интервалами прогнозирования и выполнения. Это приводит к значительной нестабильности действий, в то время как существующие методы либо снижают точность, либо вводят дополнительные вычислительные затраты для ее компенсации. Мы предлагаем VLASH — универсальную асинхронную платформу вывода для моделей VLA, которая обеспечивает плавное, точное и быстрое реактивное управление без дополнительных затрат или изменений архитектуры. VLASH оценивает будущее состояние во время выполнения, продвигая состояние робота вперед с помощью ранее сгенерированного фрагмента действия, тем самым устраняя разрыв между прогнозированием и исполнением. Эксперименты показывают, что VLASH обеспечивает ускорение до 2,03 раз и снижает задержку реакции до 17,4 раз по сравнению с синхронным выводом, полностью сохраняя исходную точность. Более того, он позволяет моделям VLA решать задачи, требующие быстрой реакции и высокой точности, такие как игра в настольный теннис и игра "Ударь крота", где традиционный синхронный вывод не справляется. Код доступен по адресу https://github.com/mit-han-lab/vlash.
Мы представляем GR-RL — фреймворк роботизированного обучения, который преобразует универсальную политику «зрение-язык-действие» (VLA) в высокоэффективного специалиста для манипуляций, требующих длительных горизонтов планирования и ловкости. В основе существующих политик VLA лежит предположение об оптимальности демонстраций, выполняемых человеком. Однако мы утверждаем, что в задачах высокоточных и требующих ловкости манипуляций человеческие демонстрации являются зашумленными и субоптимальными. GR-RL предлагает многоэтапный конвейер обучения, который фильтрует, дополняет и усиливает демонстрации с помощью обучения с подкреплением. Сначала GR-RL изучает показатель прогресса задачи, обусловленный зрением и языком, фильтрует траектории демонстраций и оставляет только те переходы, которые положительно влияют на прогресс. В частности, мы показываем, что прямое применение офлайн-обучения с подкреплением с разреженным вознаграждением позволяет использовать получаемые Q-значения в качестве надежной функции прогресса. Далее мы вводим аугментацию на основе морфологической симметрии, которая значительно повышает обобщающую способность и производительность GR-RL. Наконец, для лучшего согласования политики VLA с её реальным поведением при развертывании для высокоточного управления мы выполняем онлайн-обучение с подкреплением, обучая предсказателя шума в латентном пространстве. Благодаря этому конвейеру GR-RL, насколько нам известно, является первой политикой на основе обучения, способной автономно зашнуровывать обувь, продевая шнурки через несколько люверсов с успешностью 83,3% — задачей, требующей длительного рассуждения, точности на уровне миллиметров и взаимодействия с податливыми мягкими телами. Мы надеемся, что GR-RL станет шагом на пути к тому, чтобы универсальные базовые модели роботов могли специализироваться в надежных экспертов для реального мира.
Крупномасштабное предварительное обучение на видео-текстовых данных демонстрирует высокую производительность, но зависит от зашумленных синтетических описаний с ограниченным семантическим охватом, часто упуская имплицитные знания о мире, такие как движение объектов, 3D-геометрия и физические признаки. В отличие от этого, маскированное видео-моделирование (MVM) непосредственно использует пространственно-временные структуры, но уступает тексто-контролируемым методам в общих задачах. Мы обнаружили, что этот разрыв возникает из-за упущенных архитектурных проблем: реконструкция на уровне пикселей затруднена с точки зрения сходимости, а её низкоуровневые требования часто конфликтуют с семантикой, в то время как латентное предсказание часто поощряет обучение с использованием «коротких путей». Для решения этих проблем мы разделяем традиционную архитектуру «кодировщик-декодировщик» на структуру «Кодировщик-Предиктор-Декодировщик» (EPD), где предиктор выступает в роли латентной модели мира, и предлагаем InternVideo-Next — двухэтапную схему предобучения, которая создает семантически согласованное и сохраняющее детали латентное пространство для этой модели мира. Во-первых, традиционный линейный декодер в пиксельном MVM заставляет выходной латентный вектор предиктора проецироваться линейно и, следовательно, быть разделимым в пиксельном пространстве, что вызывает конфликт с семантической абстракцией. Наш Этап 1 предлагает условный диффузионный декодер и внедряет надежные априорные семантические знания на уровне изображений для улучшения семантики и сходимости, тем самым связывая точность на уровне пикселей с высокоуровневой семантической абстракцией. Этап 2 дополнительно изучает знания о мире, предсказывая замороженные цели Этапа 1 в этом пространстве, смягчая проблему обучения «коротким путям». Обученная на публичных немаркированных видео, InternVideo-Next достигает передовых результатов на различных бенчмарках и предлагает масштабируемый путь к обучению общим видео-представлениям.
Генеративные модели на основе потоков недавно продемонстрировали высокую производительность, однако выборка обычно требует дорогостоящего численного интегрирования обыкновенных дифференциальных уравнений (ОДУ). Метод Rectified Flow позволяет осуществлять одношаговую выборку путем изучения почти прямых вероятностных траекторий, но достижение такой прямолинейности требует множества вычислительно затратных итераций рефлоу. MeanFlow достигает одношаговой генерации за счет прямого моделирования средней скорости во времени; однако при обучении на сильно изогнутых потоках он страдает от медленной сходимости и зашумленного обучения. Для решения этих проблем мы предлагаем Rectified MeanFlow — фреймворк, который моделирует поле средней скорости вдоль выправленной траектории, используя всего один шаг рефлоу. Это устраняет необходимость в идеально выпрямленных траекториях, обеспечивая при этом эффективное обучение. Кроме того, мы вводим простую, но эффективную эвристику усечения, направленную на уменьшение остаточной кривизны и дальнейшее повышение производительности. Масштабные эксперименты на ImageNet с разрешениями 64, 256 и 512 показывают, что Re-MeanFlow стабильно превосходит предыдущие методы одношаговой дистилляции потоков и Rectified Flow как по качеству образцов, так и по эффективности обучения. Код доступен по адресу https://github.com/Xinxi-Zhang/Re-MeanFlow.
В данной статье мы указываем, что цель алгоритмов извлечения заключается в согласовании с большой языковой моделью (LLM), что аналогично задаче дистилляции знаний в LLM. Мы анализируем сходство в фокусе информации между дистиллированной языковой моделью (DLM) и исходной LLM с позиций теории информации и на этой основе предлагаем новую парадигму, использующую DLM в качестве алгоритма извлечения. Опираясь на это понимание, мы представляем SpeContext — совместно спроектированные алгоритм и систему для рассуждений в длинном контексте. (1) На алгоритмическом уровне SpeContext предлагает облегченный механизм извлечения на основе весов внимания на уровне голов DLM, достигая сокращения параметров более чем на 90% за счет устранения избыточности. (2) На системном уровне SpeContext проектирует асинхронный поток данных с предварительной выборкой посредством стратегии эластичной загрузки, эффективно совмещая извлечение KV-кэша с вычислениями в LLM. (3) На уровне компиляции SpeContext строит теоретическую модель памяти и реализует адаптивную систему управления памятью для ускорения за счет максимизации использования памяти GPU. Мы развертываем и оцениваем SpeContext в двух средах с ограниченными ресурсами: облачной и периферийной. Многочисленные эксперименты показывают, что по сравнению с фреймворком Huggingface SpeContext достигает до 24.89-кратного повышения пропускной способности в облаке и 10.06-кратного ускорения на периферии с незначительной потерей точности, продвигая парето-границу точности и производительности.
Потоковые языковые модели для видео (VideoLLMs) демонстрируют впечатляющие результаты в различных задачах понимания видео, однако сталкиваются со значительными трудностями при развертывании в реальном времени из-за высоких вычислительных затрат на обработку плотных визуальных токенов из непрерывных видеопотоков. В сценариях потокового видео основным узким местом является этап кодирования Vision Transformer (ViT), где избыточная обработка временно схожих кадров приводит к неэффективности. Кроме того, раздутые последовательности токенов на этапе предварительного заполнения (pre-filling) LLM дополнительно усугубляют задержки и нагрузку на память. Для решения этих проблем мы предлагаем Streaming Token Compression (STC) — модульную иерархическую структуру, которая бесшовно интегрируется в существующие потоковые VideoLLMs, оптимизируя этапы кодирования ViT и предварительного заполнения LLM для ускорения обработки. STC вводит два акселератора на уровне токенов: STC-Cacher, который снижает нагрузку кодирования ViT за счет кэширования и повторного использования признаков из временно схожих кадров, и STC-Pruner, который сжимает последовательность визуальных токенов перед ее поступлением в LLM, сохраняя только наиболее значимые токены на основе пространственной и временной релевантности. Многочисленные эксперименты на четырех базовых потоковых VideoLLMs в рамках пяти тестовых наборов данных показывают, что STC превосходит другие методы сжатия. Примечательно, что STC сохраняет до 99% точности в рамках фреймворка ReKV, одновременно сокращая задержку кодирования ViT и задержку предварительного заполнения LLM на 24,5% и 45,3% соответственно.
Крупные языковые модели (LLMs) лежат в основе приложений для генерации кода, математических рассуждений и агентских рабочих процессов. На практике системы получают доступ к LLM через коммерческие API или развертывания с открытым исходным кодом, а ландшафт моделей (например, GPT, Claude, Llama) быстро эволюционирует. Эта быстрая эволюция вынуждает к частой смене моделей, обусловленной возможностями, стоимостью, ограничениями развертывания и конфиденциальностью. Однако промпты (prompts) высокочувствительны к модели: повторное использование промпта, разработанного для одной модели, на другой часто приводит к значительно худшей производительности по сравнению с промптом, оптимизированным для целевой модели. Мы называем это явление **дрейфом моделей (Model Drifting)**. На основе обширного эмпирического анализа различных конфигураций LLM мы показываем, что дрейф моделей является распространенным и серьезным. Для решения этой проблемы мы представляем **PromptBridge**, бесплатную (training-free) систему, которая сохраняет эффективность промптов при смене моделей, обеспечивая перенос промптов между моделями без затратной повторной оптимизации для каждой задачи или модели. PromptBridge требует для калибровки лишь небольшой набор задач согласования (alignment tasks). Сначала он применяет **Модельно-Адаптивную Рефлексивную Эволюцию Промптов (Model-Adaptive Reflective Prompt Evolution, MAP-RPE)** для получения оптимальных промптов, специфичных для задачи и модели, с помощью итеративного рефлексивного уточнения и количественной оценки. Используя полученные калиброванные пары промптов для исходной и целевой моделей, PromptBridge изучает кросс-модельное отображение промптов (cross-model prompt mapping). Во время тестирования, т.е. для новой (unseen) задачи, данное отображение, получая на вход промпт для исходной модели, напрямую генерирует оптимизированный промпт для целевой модели. Эксперименты в условиях одного агента и нескольких агентов показывают, что PromptBridge последовательно повышает итоговую точность, сокращая усилия по миграции. Код будет доступен в ближайшее время.
Масштабирование вычислительных ресурсов на этапе тестирования стало мощной парадигмой для улучшения математических рассуждений в больших языковых моделях (LLM) за счет выделения дополнительных вычислительных ресурсов во время вывода. Однако современные методы используют равномерное распределение ресурсов по всем подзадачам рассуждения, создавая фундаментальные узкие места, когда сложные подзадачи получают недостаточно внимания, а рутинные операции потребляют непропорционально много ресурсов. Такое равномерное распределение создает узкие места в производительности, при которых дополнительные вычислительные ресурсы дают diminishing returns (убывающую отдачу). Вдохновленные теорией двойственных процессов, мы предлагаем SCALE (Selective Resource Allocation) — фреймворк, который выборочно распределяет вычислительные ресурсы в зависимости от сложности подзадачи. SCALE работает в четыре этапа: (1) декомпозиция задачи на последовательные подзадачи рассуждения, (2) оценка сложности каждой подзадачи для различения рутинных операций и вычислительно сложных подзадач, (3) назначение выборочного режима обработки между Системой 1 для простых подзадач и Системой 2 для сложных и (4) последовательное выполнение с передачей контекста. Концентрируя ресурсы на сложных подзадачах при эффективной обработке рутинных операций, SCALE достигает существенного улучшения производительности с превосходным использованием ресурсов. Многочисленные эксперименты демонстрируют, что SCALE значительно превосходит базовые методы равномерного масштабирования, достигая улучшения точности до 13.75 процентных пунктов (с 57.50% до 71.25% на AIME25) при одновременном снижении вычислительных затрат на 33%-53%, что представляет собой значительный прогресс в масштабировании на этапе тестирования, устраняющий фундаментальные ограничения современных подходов.
Многоязычные модели преобразования текста в изображение (T2I) быстро развиваются в плане визуального реализма и семантического соответствия и находят широкое применение. Однако результаты их работы варьируются в различных культурных контекстах: поскольку язык несет культурные коннотации, изображения, синтезированные по многоязычным запросам, должны сохранять кросс-лингвистическую культурную согласованность. Мы проводим комплексный анализ, показывающий, что современные T2I-модели часто выдают культурно-нейтральные или смещенные в сторону англоязычной культуры результаты при работе с многоязычными промптами. Анализ двух репрезентативных моделей указывает, что проблема заключается не в отсутствии культурных знаний, а в недостаточной активации репрезентаций, связанных с культурой. Мы предлагаем метод зондирования, который локализует культурно-чувствительные сигналы в небольшой группе нейронов нескольких фиксированных слоев. Руководствуясь этим открытием, мы представляем две взаимодополняющие стратегии выравнивания: (1) культурную активацию на этапе вывода, которая усиливает идентифицированные нейроны без тонкой настройки основной архитектуры; и (2) целевую культурную адаптацию на уровне слоев, которая обновляет только культурно-релевантные слои. Эксперименты на нашем бенчмарке CultureBench демонстрируют последовательное улучшение культурной согласованности по сравнению с сильными базовыми моделями при сохранении точности и разнообразия результатов.
Быстрый рост количества визуальных токенов в мультимодальных больших языковых моделях (MLLM) приводит к чрезмерному потреблению памяти и задержкам вывода, особенно при обработке изображений и видео высокого разрешения. Прунинг (отсев) токенов — это метод, используемый для смягчения данной проблемы путем удаления избыточности, однако существующие подходы часто игнорируют релевантность пользовательскому запросу или страдают от ограничений механизмов внимания, что снижает их адаптивность и эффективность. Для решения этих задач мы предлагаем Script, метод прунинга по принципу «подключи и работай», который не требует переобучения и является универсальным для различных MLLM. Script состоит из двух модулей: модуля прунинга с графовой структурой, удаляющего визуально избыточные токены, и семантического модуля прунинга, обусловленного запросом, который сохраняет визуальную информацию, релевантную запросу. Вместе они повышают производительность при решении мультимодальных задач. Эксперименты на четырнадцати бенчмарках для задач понимания изображений и видео показывают, что Script стабильно обеспечивает более высокую эффективность модели и прогнозную точность по сравнению с существующими методами прунинга. Для LLaVA-NeXT-7B метод позволяет достичь до 6.8-кратного ускорения фазы предварительного заполнения (prefill) и 10-кратного сокращения объема операций с плавающей запятой (FLOP), сохраняя при этом 96.88% исходной производительности модели.
Восстановление пиксельных геометрических свойств из одного изображения является принципиально некорректной задачей из-за неоднозначности внешнего вида и неинъективных соответствий между 2D-наблюдениями и 3D-структурами. Хотя дискриминативные регрессионные модели демонстрируют высокую производительность благодаря обучению на больших данных, их успех ограничен масштабом, качеством и разнообразием доступных данных, а также ограниченными физическими представлениями. Современные диффузионные модели обладают мощными априорными знаниями о мире, кодирующими геометрию и семантику, усвоенные из огромных наборов изображений и текстов, однако прямое повторное использование их стохастической генеративной формулировки субоптимально для детерминированного геометрического вывода: первая оптимизирована для разнообразной и высококачественной генерации изображений, тогда как вторая требует стабильных и точных предсказаний. В данной работе мы предлагаем Lotus-2, двухэтапную детерминированную систему для стабильного, точного и детализированного геометрического плотного предсказания, направленную на создание оптимального протокола адаптации для полного использования предобученных генеративных априорных знаний. В частности, на первом этапе основной предсказатель использует одношаговую детерминированную формулировку с целевой функцией для чистых данных и легковесный модуль локальной непрерывности (LCM) для генерации глобально согласованных структур без артефактов сетки. На втором этапе модуль повышения резкости деталей выполняет ограниченную многошаговую коррекцию с помощью исправленного потока в многообразии, определенном основным предсказателем, улучшая мелкозернистую геометрию посредством бесшумного детерминированного согласования потоков. Используя всего 59 тыс. обучающих примеров (менее 1% существующих крупномасштабных наборов данных), Lotus-2 устанавливает новые рекорды в области монокулярного оценивания глубины и демонстрирует высококонкурентные результаты в предсказании нормалей поверхностей. Эти результаты показывают, что диффузионные модели могут служить детерминированными априорными знаниями о мире, обеспечивая высококачественное геометрическое рассуждение, выходящее за рамки традиционных дискриминативных и генеративных парадигм.
Понимание потокового видео требует от моделей не только обработки временно поступающих кадров, но и прогнозирования намерений пользователя для реалистичных приложений, таких как AR-очки. Хотя существующие потоковые бенчмарки оценивают временные рассуждения, ни один из них не измеряет, способны ли MLLM интерпретировать или использовать сигналы человеческого взгляда в потоковом режиме. Чтобы заполнить этот пробел, мы представляем StreamGaze — первый бенчмарк, разработанный для оценки того, насколько эффективно MLLM используют взгляд для временных и проактивных рассуждений в потоковых видео. StreamGaze вводит управляемые взглядом задачи по прошлому, настоящему и проактивные задачи, которые всесторонне оценивают понимание потокового видео. Эти задачи оценивают, могут ли модели использовать взгляд в реальном времени для отслеживания shifting внимания и вывода намерений пользователя только на основе прошлых и текущих наблюдаемых кадров. Для создания StreamGaze мы разработали конвейер генерации вопросно-ответных пар (QA) для видео со взглядом, который согласовывает эгоцентричные видео с необработанными траекториями взгляда посредством экстракции фиксаций, визуального prompting для конкретных регионов и построения scanpath. Этот конвейер производит пространственно-временно обоснованные QA-пары, которые тесно отражают динамику человеческого восприятия. Во всех задачах StreamGaze мы наблюдаем существенный разрыв в производительности между передовыми MLLM и человеческими показателями, выявляя фундаментальные ограничения во временных рассуждениях на основе взгляда, моделировании намерений и проактивном прогнозировании. Мы также предоставляем детальный анализ стратегий prompting взглядом, моделей рассуждений и специфических для задач типов ошибок, предлагая более глубокое понимание того, почему современные MLLM испытывают трудности и какие возможности должны развивать будущие модели. Все данные и код будут публично выпущены для поддержки дальнейших исследований в области понимания потокового видео с управлением взглядом.
Современные мультимодальные модели рассуждений, вдохновленные DeepSeek-R1, значительно продвинули системы "зрение-язык". Однако в задачах дистанционного зондирования (ДЗ) мы наблюдаем широко распространенное псевдорассуждение: модели описывают процесс рассуждения, а не подлинно приходят к правильному ответу на основе визуальных данных. Мы объясняем это "эффектом беглого взгляда" (Glance Effect), когда единичное, грубое восприятие крупномасштабных изображений ДЗ приводит к неполному пониманию и рассуждениям, основанным на лингвистической самосогласованности, а не на визуальных свидетельствах. Для решения этой проблемы мы предлагаем RS-EoT (Evidence-of-Thought для ДЗ) — языковую, итеративную парадигму поиска визуальных свидетельств. Для внедрения этой парадигмы мы предлагаем SocraticAgent, самообучающуюся мультиагентную систему, которая синтезирует цепочки рассуждений через чередующиеся циклы логического вывода и визуального анализа. Для усиления и обобщения этих паттернов мы предлагаем двухэтапную прогрессивную стратегию обучения с подкреплением (RL): сначала RL на задачах точного позиционирования (Grounding) для усиления возможностей RS-EoT, а затем RL на задачах VQA для ДЗ для обобщения на более широкие сценарии понимания. Эксперименты показывают, что RS-EoT достигает передовых результатов на нескольких бенчмарках VQA и позиционирования для ДЗ. Анализ выявляет четкие итеративные циклы рассуждений и поиска свидетельств, подтверждая, что RS-EoT смягчает "эффект беглого взгляда" и обеспечивает подлинное обоснованное доказательствами рассуждение. Наш код, данные и модели доступны по адресу https://geox-lab.github.io/Asking_like_Socrates.
Агенты с графическим интерфейсом (GUI) требуют эффективного использования исторического контекста для выполнения последовательных задач навигации. Хотя включение прошлых действий и наблюдений может улучшить принятие решений, наивное использование полной истории приводит к чрезмерным вычислительным затратам и отвлечению на нерелевантную информацию. Для решения этой проблемы мы представляем HiconAgent — агент GUI, обученный с помощью оптимизации политики с учетом исторического контекста (HCPO) для эффективного использования исторической информации. HCPO оптимизирует использование истории как на этапе сэмплирования, так и на этапе обновления политики с помощью двух взаимодополняющих компонентов: (1) Динамическое сэмплирование контекста (DCS) предоставляет агенту истории переменной длины во время сэмплирования, позволяя адаптивно использовать наиболее релевантный контекст; (2) Анкерное сжатие истории (AHC) улучшает фазу обновления политики с помощью двухветвевой стратегии, где сжатая ветвь удаляет наблюдения из истории, сохраняя действия в качестве якорей информационного потока. Сжатая и несжатая ветви связываются через loss-функцию выравнивания, усиленную историей, для обеспечения согласованного использования истории при сохранении эффективности. Эксперименты на основных бенчмарках навигации GUI демонстрируют высокую производительность. Несмотря на меньший размер, HiconAgent-3B превосходит GUI-R1-7B на +8.46% по точности граундинга и на +11.32% по успешности шагов на GUI-Odyssey, при этом показывая сопоставимые результаты на AndroidControl и AITW с ускорением вычислений до 2.47x и сокращением FLOPs на 60%.
Крупные модели рассуждений (LRM) демонстрируют высокую производительность в математике, генерации кода и планировании задач, однако их зависимость от длинных цепочек многословных «мыслительных» токенов приводит к высокой задержке, избыточности и несогласованным путям рассуждений. Вдохновленные гипотезой языка мысли, которая постулирует, что человеческое мышление оперирует символическим, композиционным ментальным языком, называемым ментализом, мы представляем фреймворк, который обучает модели рассуждать в аналогичном компактном стиле. Ментализ кодирует абстрактные рассуждения в виде сверхсжатых структурированных токенов, позволяя моделям решать сложные задачи за значительно меньшее количество шагов. Для повышения как эффективности, так и точности мы предлагаем ОПТИМИЗАЦИЮ ПРЕДПОЧТЕНИЯ КОРОТКОЙ ДЛИНЫ (SLPO) — метод обучения с подкреплением, который поощряет корректные и лаконичные решения, сохраняя возможность более длинных рассуждений при необходимости. Примененный к моделям, выровненным по ментализу, SLPO обеспечивает значительно более высокие степени сжатия, позволяя проводить краткие рассуждения, которые сохраняют преимущества детального мышления без вычислительных накладных расходов. На наборах данных, включая AIME 2024 и 2025, MinervaMath, OlympiadBench, Math500 и AMC, наши модели ORION генерируют цепочки рассуждений с использованием в 4–16 раз меньше токенов, демонстрируют до 5-кратного снижения задержки вывода и сокращают затраты на обучение в 7–9 раз по сравнению с моделью DeepSeek R1 Distilled, сохраняя при этом 90–98% её точности. ORION также превосходит Claude и ChatGPT-4o по точности до 5%, сохраняя 2-кратное сжатие. Эти результаты показывают, что сжатое рассуждение в стиле ментализа представляет собой шаг к человеческой когнитивной эффективности, обеспечивая рассуждения в реальном времени с низкими затратами без ущерба для точности.
Парадигма инверсно-шумоподавления, основанная на диффузионных моделях, демонстрирует превосходные результаты в разнообразных задачах редактирования и восстановления изображений. Мы заново исследуем её механизм и выявляем ключевой, ранее упускавшийся фактор деградации реконструкции: ошибку аппроксимации шума. Эта ошибка возникает из-за приближённой оценки шума на шаге t с помощью предсказания на шаге t-1, что приводит к значительному накоплению погрешности в течение всего процесса инверсии. Мы представляем метод Projection-Orthogonal Least Squares for Robust and Adaptive Inversion (POLARIS), который переформулирует инверсию из проблемы компенсации ошибок в проблему происхождения ошибок. Вместо оптимизации эмбеддингов или латентных кодов для смещения накопленного дрейфа, POLARIS рассматривает коэффициент управления ω как пошаговую переменную и выводит математически обоснованную формулу для минимизации ошибки инверсии на каждом шаге. Примечательно, что POLARIS улучшает качество латентного пространства инверсии всего одной строкой кода. С пренебрежимо малыми вычислительными затратами метод существенно снижает ошибки аппроксимации шума и последовательно повышает точность последующих задач.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) расширило способности крупных языковых моделей (LLM) к рассуждению, позволив создавать автономных агентов, способных выполнять эффективные многошаговые рассуждения с интеграцией инструментов. Хотя инструкции служат основным протоколом для определения поведения агентов, RLVR обычно опирается на статические, созданные вручную инструкции. Однако эти инструкции могут быть неоптимальными для базовой модели, а оптимальная инструкция может меняться по мере улучшения политики агента и исследования взаимодействия со средой. Чтобы устранить этот разрыв, мы представляем INSPO — новую框架 co-эволюции инструкций и политики, которая интегрирует оптимизацию инструкций как динамический компонент в цикл обучения с подкреплением (RL). INSPO поддерживает динамическую популяцию кандидатов в инструкции, которые семплируются вместе с вопросами; сигналы вознаграждения в циклах RL автоматически присваиваются каждой инструкции, а аутсайдеры периодически отсеиваются. Новые инструкции генерируются и проверяются с помощью механизма on-policy рефлексии, в рамках которого LLM-оптимизатор анализирует прошлый опыт из буфера воспроизведения и развивает более эффективные стратегии с учётом текущей политики. Мы проводим обширные эксперименты на задачах многошагового поиска и рассуждений, демонстрируя, что INSPO существенно превосходит сильные базовые методы, основанные на статических инструкциях. INSPO обнаруживает инновационные инструкции, которые направляют агента по более стратегическим путям рассуждения, обеспечивая значительный прирост производительности при лишь незначительном увеличении вычислительных затрат.
Специализированные клинические ИИ-ассистенты активно внедряются в медицинскую практику, часто позиционируясь как более безопасные или надежные по сравнению с универсальными большими языковыми моделями (LLM). Однако, в отличие от передовых моделей, эти клинические инструменты редко проходят независимую количественную оценку, что создает критический пробел в доказательной базе, несмотря на их растущее влияние на диагностику, триаж и интерпретацию клинических рекомендаций. Мы провели сравнительную оценку двух широко используемых клинических ИИ-систем (OpenEvidence и UpToDate Expert AI) и трех современных универсальных LLM (GPT-5, Gemini 3 Pro и Claude Sonnet 4.5) с использованием мини-бенчмарка из 1000 заданий, объединяющего задачи MedQA (медицинские знания) и HealthBench (соответствие клинической логике). Универсальные модели consistently превзошли клинические инструменты, причем GPT-5 показал наивысшие результаты, тогда как OpenEvidence и UpToDate продемонстрировали недостатки в полноте, качестве коммуникации, контекстном восприятии и системном анализе безопасности. Полученные данные свидетельствуют, что инструменты, рекламируемые для поддержки клинических решений, могут уступать передовым LLM, что подчеркивает настоятельную необходимость прозрачной независимой оценки перед внедрением в рабочие процессы, связанные с пациентами.
Масштабирование на этапе тестирования (TTS) — динамическое распределение вычислительных ресурсов во время вывода — является перспективным направлением для улучшения способности к рассуждению у больших языковых моделей (LLM). Однако систематическое сравнение известных TTS-стратегий в идентичных условиях отсутствует, а влияние типа модели и сложности задачи на производительность остается неясным. Чтобы восполнить эти пробелы, мы проводим первое крупномасштабное исследование TTS, охватывающее более тридцати миллиардов токенов, сгенерированных с использованием восьми открытых LLM (от 7 до 235 миллиардов параметров) на четырех наборах данных для проверки рассуждений. Мы наблюдаем три устойчивые тенденции: (1) ни одна TTS-стратегия не является универсально лучшей; (2) модели для рассуждений демонстрируют различные паттерны качества цепочек рассуждений в зависимости от сложности задачи и длины цепочки, формируя категории краткосрочного и долгосрочного горизонта; (3) для конкретного типа модели оптимальная производительность TTS монотонно масштабируется с увеличением вычислительного бюджета. На основе этих наблюдений мы предлагаем практические рекомендации по выбору наилучшей TTS-стратегии с учетом сложности задачи, типа модели и вычислительного бюджета, предоставляя практическое руководство по эффективному масштабированию на этапе вывода.
Современные модели редактирования изображений обладают интеллектуальными возможностями нового уровня, облегчая редактирование на основе когнитивных и творческих принципов. Однако существующие бенчмарки предлагают слишком узкую область для оценки, не позволяя всесторонне оценить эти продвинутые способности. Для решения этой проблемы мы представляем WiseEdit — ресурсоемкий бенчмарк для комплексной оценки редактирования изображений, основанного на когнитивных и творческих принципах, который характеризуется глубиной задач и широтой охвата знаний. Проводя аналогию с человеческим когнитивным творчеством, WiseEdit разбивает редактирование изображений на три каскадных этапа: Осознание, Интерпретация и Воображение, каждый из которых соответствует задаче, представляющей сложность для моделей на конкретном этапе. Он также включает сложные задачи, в которых ни один из трех этапов не может быть легко завершен. Кроме того, WiseEdit охватывает три фундаментальных типа знаний: декларативные, процедурные и метакогнитивные. В итоге WiseEdit состоит из 1220 тестовых случаев, объективно выявляя ограничения современных моделей редактирования изображений в области основанных на знаниях когнитивных рассуждений и возможностей творческой композиции. Бенчмарк, код оценки и сгенерированные каждым моделью изображения будут вскоре общедоступны. Страница проекта: https://qnancy.github.io/wiseedit_project_page/.
Хотя преобладающие модели генерации видео с управлением камерой способны создавать кинематографические результаты, их прямое применение для генерации 3D-консистентных и высокодетализированных временно-синхронизированных мульти-вью видео остается сложной задачей, что является ключевой возможностью для освоения 4D-пространств. Некоторые работы прибегают к аугментации данных или оптимизации во время тестирования, однако эти стратегии ограничены слабой обобщающей способностью моделей и проблемами масштабируемости. Для решения этой проблемы мы предлагаем ChronosObserver — бестренировочный метод, включающий Гиперпространство состояний мира для представления пространственно-временных ограничений сцены 4D-мира и Выборку с управлением через гиперпространство для синхронизации траекторий сэмплинга диффузии множественных вью с использованием гиперпространства. Результаты экспериментов демонстрируют, что наш метод позволяет достичь генерации высокодетализированных и 3D-консистентных временно-синхронизированных мульти-вью видео без обучения или дообучения моделей диффузии.
Мы представляем новую методологию, которая непосредственно обучает спектральный базис для анализа форм и многообразий на основе неструктурированных данных, устраняя необходимость в традиционном выборе оператора, дискретизации и решениях задач на собственные значения. Основываясь на теории оптимальных приближений, мы обучаем сеть декомпозиции неявного оператора аппроксимации путем минимизации ошибки реконструкции в изучаемом базисе для заданного распределения пробных функций. Для подходящих распределений эти функции можно рассматривать как аппроксимацию оператора Лапласа и его спектрального разложения, которые являются фундаментальными в геометрической обработке. Более того, наш метод единообразно восстанавливает не только спектральный базис, но и плотность выборки неявной метрики, а также собственные значения базового оператора. Примечательно, что наш неконтролируемый метод не накладывает предположений на многообразие данных, таких как наличие сетки или размерность многообразия, что позволяет масштабировать его на произвольные наборы данных любой размерности. На точечных облаках, лежащих на поверхностях в 3D, и многообразиях высокоразмерных изображений наш подход дает содержательные спектральные базисы, которые могут напоминать базисы Лапласа, без явного построения оператора. Заменяя традиционные этапы выбора оператора, его построения и спектрального разложения обучением, наша методология предлагает принципиальную, управляемую данными альтернативу стандартным конвейерам. Это открывает новые возможности в геометрической обработке неструктурированных данных, особенно в высокоразмерных пространствах.
Долгосрочной целью компьютерного зрения является моделирование движений по видео, однако представления, лежащие в основе движений, — то есть невидимые физические взаимодействия, вызывающие деформацию и перемещение объектов, — остаются в значительной степени неисследованными. В данной работе мы изучаем, как восстановить невидимые силы по визуальным наблюдениям, например, оценить поле ветра, наблюдая за падением листа на землю. Нашим ключевым нововведением является дифференцируемый end-to-end фреймворк обратной графики, который совместно моделирует геометрию объектов, физические свойства и взаимодействия непосредственно из видеозаписей. Благодаря использованию обратного распространения ошибки наш подход позволяет восстанавливать представления сил из движений объектов. Мы проверяем наш метод на синтетических и реальных сценариях, и результаты демонстрируют его способность выводить правдоподобные силовые поля из видео. Кроме того, мы показываем потенциальные применения нашего подхода, включая физически достоверную генерацию и редактирование видео. Мы надеемся, что наш подход прольет свет на понимание и моделирование физического процесса, стоящего за пикселями, сокращая разрыв между зрением и физикой. Дополнительные видео-результаты доступны на нашей {странице проекта}: https://chaoren2357.github.io/seeingthewind/.
Хотя большие языковые модели демонстрируют превосходные результаты в задачах с высокоресурсными языками, языки Индии с низким и крайне низким уровнем ресурсов остаются серьёзно недооцененными. Мы представляем IndicParam — созданный экспертами эталонный набор данных, содержащий более 13 000 вопросов с множественным выбором, охватывающих 11 таких языков (непали, гуджарати, маратхи, одия — с низким уровнем ресурсов; догри, майтхили, раджастхани, санскрит, бодо, сантали, конкани — с крайне низким) плюс набор данных с код-свитчингом санскрит-английский. Мы оценили 19 языковых моделей, как проприетарных, так и с открытыми весами, что показало: даже лучшая модель GPT-5 достигает средней точности лишь 45,0%, за ней следуют DeepSeek-3.2 (43,1%) и Claude-4.5 (42,7%). Дополнительно мы маркировали каждый вопрос как ориентированный на знания или чисто лингвистический, чтобы разграничить фактологическое воспроизведение и грамматическую компетентность. Кроме того, мы оценили способность моделей обрабатывать различные форматы вопросов — такие как сопоставление по спискам, пары «утверждение-обоснование» и упорядочивание последовательностей — наряду с традиционными вопросами с множественным выбором. IndicParam позволяет выявить ограничения кросс-лингвального переноса и устанавливает сложный эталон для языков Индии. Набор данных доступен по адресу https://huggingface.co/datasets/bharatgenai/IndicParam. Скрипты для запуска тестирования находятся по адресу https://github.com/ayushbits/IndicParam.
Современные методы визуализации повествования зачастую позиционируют объекты исключительно на основе текста и сталкиваются с трудностями в поддержании художественной согласованности. Для преодоления этих ограничений мы представляем DreamingComics — фреймворк для визуализации историй с учётом компоновки. Мы основываемся на предварительно обученной видео диффузионной трансформерной (DiT) модели, используя её пространственно-временные предикторы для повышения консистентности идентичности и стиля. Для управления позиционированием на основе компоновки мы предлагаем RegionalRoPE — схему позиционного кодирования, учитывающую регионы, которая переиндексирует эмбеддинги в соответствии с целевой компоновкой. Кроме того, мы вводим маскированную функцию потерь для условий, чтобы дополнительно ограничить визуальные характеристики каждого объекта их назначенной областью. Для вывода компоновки из сценариев на естественном языке мы интегрируем генератор компоновки на основе большой языковой модели (LLM), обученный создавать компоновки в стиле комиксов, что обеспечивает гибкое и контролируемое задание условий компоновки. Мы представляем всестороннюю оценку нашего подхода, демонстрирующую увеличение консистентности персонажей на 29,2% и сходства стилей на 36,2% по сравнению с предыдущими методами, при этом показывая высокую пространственную точность. Страница нашего проекта доступна по адресу https://yj7082126.github.io/dreamingcomics/
Каузальное мышление позволяет человеку понимать не только то, что наблюдается, но и причины происходящего. Чтобы воспроизвести эту способность в современных системах ИИ, мы представляем задачу визуального обнаружения причинно-следственных связей. Она требует от моделей вывода причинно-следственных отношений между визуальными объектами в различных сценариях, а не просто восприятия их наличия. Для этого мы сначала создали набор данных Visual Causal Graph (VCG-32K) — крупномасштабную коллекцию из более чем 32 000 изображений с размеченными причинно-следственными графами на уровне объектов, а затем разработали CauSight, новую модель обработки естественного языка и компьютерного зрения для выполнения визуального каузального анализа посредством причинно-обусловленного рассуждения. Наша методика обучения интегрирует три компонента: (1) курацию обучающих данных из VCG-32K, (2) «Дерево причинных мыслей» (ToCT) для синтеза траекторий рассуждений и (3) обучение с подкреплением с разработанным каузальным вознаграждением для совершенствования стратегии рассуждений. Эксперименты показывают, что CauSight превосходит GPT-4.1 в задаче визуального обнаружения причинно-следственных связей, демонстрируя более чем трехкратный прирост производительности (абсолютное улучшение на 21%). Наш код, модель и набор данных полностью открыты на странице проекта: https://github.com/OpenCausaLab/CauSight.
В последнее время двухэтапные стратегии тонкой настройки, такие как приобретение базовых знаний о вождении через контролируемую тонкую настройку (SFT) и дальнейшее улучшение принятия решений и планирования с помощью тонкой настройки с подкреплением (RFT), продемонстрировали значительный потенциал для развития парадигмы автономного вождения, основанной на знаниях. Однако обучающая природа SFT по-прежнему ограничивает обобщающую способность логического вывода, тем самым сдерживая раскрытие полного потенциала производительности вождения. В то же время современные подходы RFT в основном применяются к downstream-задачам, поскольку семантическое понимание сцены является открытой проблемой, для которой трудно количественно определить соответствующие вознаграждения. Для преодоления этих ограничений мы предлагаем OpenREAD — основанную на визуально-языковой модели (VLM) OPEN-ended REasoning reinforced архитектуру автономного вождения, которая обеспечивает сквозную RFT по всему спектру — от логического вывода высокого уровня до планирования траектории низкого уровня. В частности, мы начинаем с создания масштабных аннотаций типа «рассуждение по цепочке» (Chain-of-Thought, CoT) на открытых наборах данных, связанных со знаниями о вождении, и используем мощную большую языковую модель (LLM) Qwen3 в роли критика в рамках RFT для количественной оценки качества рассуждений на открытые вопросы при моделировании вознаграждений. Многочисленные эксперименты подтверждают, что совместная сквозная RFT приводит к существенному улучшению как в upstream-, так и в downstream-задачах, позволяя OpenREAD достичь наивысшей производительности на бенчмарках логического вывода и планирования.
В области открытых текстовых моделей перевода больших языковых моделей (LLM) достигнут значительный прогресс с улучшенным языковым охватом и качеством. Однако эти модели могут использоваться лишь в каскадных конвейерах для речевого перевода (ST), выполняя сначала автоматическое распознавание речи с последующим переводом. Это вносит дополнительную задержку, что особенно критично в задачах одновременного речевого перевода (SimulST), и препятствует использованию моделью мультимодального контекста, такого как изображения, которые могут помочь в разрешении неоднозначностей. Предобученные мультимодальные фундаментальные модели (MMFM) уже обладают мощными способностями к восприятию и рассуждению в различных модальностях, но обычно уступают специализированным переводческим LLM по языковому охвату и качеству перевода. Для создания эффективной мультимодальной системы перевода мы предлагаем сквозной подход, объединяющий MMFM с переводческими LLM. Мы представляем новую стратегию фьюжна, которая соединяет скрытые состояния из нескольких слоев предобученной MMFM с переводческой LLM, обеспечивая совместное сквозное обучение. Полученная модель OmniFusion, построенная на основе Omni 2.5-7B в качестве MMFM и SeedX PPO-7B в качестве переводческой LLM, способна выполнять речевой, речево-визуальный и текстово-визуальный перевод. Эксперименты показывают, что OmniFusion эффективно использует как аудио-, так и визуальные входные данные, достигает сокращения задержки на 1 секунду в SimulST по сравнению с каскадными конвейерами и также улучшает общее качество перевода. Код доступен по адресу https://github.com/saikoneru/OmniFusion.
Движения камеры и объектов играют ключевую роль в повествовании видеоролика. Однако точное редактирование этих захваченных движений остается серьезной проблемой, особенно при сложных перемещениях объектов. Современные подходы к управляемому движением преобразованию изображения в видео (I2V) часто не учитывают полный контекст сцены для согласованного редактирования, в то время как методы видео-в-видео (V2V) позволяют изменять точку обзора или осуществлять простое перемещение объектов, но обеспечивают ограниченный контроль над детализированным движением объектов. Мы представляем фреймворк V2V, основанный на треках объектов, который позволяет совместно редактировать движение камеры и объектов. Это достигается за счет кондиционирования модели генерации видео на исходном видео и парных 3D-треках, представляющих исходные и целевые движения. Эти 3D-треки устанавливают разреженные соответствия, которые переносят богатый контекст из исходного видео к новым движениям, сохраняя пространственно-временную согласованность. Важно, что по сравнению с 2D-треками, 3D-треки предоставляют явные глубинные подсказки, позволяя модели разрешать порядок глубины и работать с окклюзиями для точного редактирования движения. Обученная в два этапа на синтетических и реальных данных, наша модель поддерживает разнообразные виды редактирования движений, включая совместное управление камерой/объектами, перенос движения и нежесткую деформацию, раскрывая новый творческий потенциал в редактировании видео.
Растущая распространенность рака щитовидной железы в мире стимулировала разработку различных методов компьютерного обнаружения. Точная сегментация узлов щитовидной железы является критически важным первым шагом в создании систем поддержки клинических решений на основе ИИ. Данное исследование посвящено сегментации экземпляров узлов щитовидной железы с использованием алгоритмов YOLOv5 на ультразвуковых изображениях. Мы оценили несколько вариантов YOLOv5 (Nano, Small, Medium, Large и XLarge) на двух версиях набора данных: с допплеровскими изображениями и без них. Алгоритм YOLOv5-Large показал наивысшую производительность с показателем Dice 91% и mAP 0.87 на наборе данных, включающем допплеровские изображения. Примечательно, что наши результаты демонстрируют, что допплеровские изображения, которые врачи обычно исключают, могут значительно улучшить качество сегментации. Модель YOLOv5-Small достигла показателя Dice 79%, когда допплеровские изображения были исключены, в то время как их включение улучшило результаты всех модельных вариантов. Полученные данные свидетельствуют о том, что сегментация экземпляров с помощью YOLOv5 предоставляет эффективный подход к обнаружению узлов щитовидной железы в реальном времени с потенциальным клиническим применением в автоматизированных диагностических системах.
Мы представляем декодеры на основе Conformer для соревнования LibriBrain 2025 PNPL, ориентированные на две фундаментальные задачи MEG: обнаружение речи и классификацию фонем. Наш подход адаптирует компактную архитектуру Conformer для обработки сырых MEG-сигналов с 306 каналами, используя легковесный сверточный проекционный слой и специализированные головки для каждой задачи. Для обнаружения речи SpecAugment, адаптированный для MEG, позволил впервые исследовать аугментацию, специфичную для MEG-данных. Для классификации фонем мы применили взвешивание классов по обратному квадратному корню и динамический загрузчик с группировкой для работы с примерами, усредненными по 100 выборкам. Кроме того, простая нормализация на уровне экземпляра оказалась критически важной для смягчения сдвигов распределения в холд-аут выборке. Используя официальные разбиения Standard track и F1-macro для выбора модели, наши лучшие системы достигли результатов 88,9% (речь) и 65,8% (фонемы) в лидерборде, превзойдя базовые уровни конкурса и войдя в топ-10 по обеим задачам. Для получения дополнительных деталей реализации техническая документация, исходный код и контрольные точки доступны по адресу https://github.com/neural2speech/libribrain-experiments.
Business Process Model and Notation (BPMN) — это широко распространенный стандарт для представления сложных бизнес-процессов. Хотя диаграммы BPMN часто обмениваются в виде визуальных изображений, существующие методы в основном опираются на XML-представления для вычислительного анализа. В данной работе мы представляем конвейер, который использует Vision-Language Models (VLM) для извлечения структурированных JSON-представлений диаграмм BPMN непосредственно из изображений, без необходимости в исходных файлах моделей или текстовых аннотациях. Мы также интегрируем оптическое распознавание символов (OCR) для текстового обогащения и оцениваем сгенерированные списки элементов по сравнению с эталонными данными, полученными из исходных XML-файлов. Наш подход позволяет обеспечить надежное извлечение компонентов в сценариях, где исходные файлы недоступны. Мы проводим сравнительный анализ нескольких VLM и отмечаем улучшение производительности у ряда моделей при использовании OCR для текстового обогащения. Кроме того, мы провели обширный статистический анализ методов обогащения на основе OCR и исследования абляции промптов, что дает более четкое понимание их влияния на производительность модели.