Ежедневно отобранные исследовательские статьи по ИИ с переводами
Встраивания памяти играют ключевую роль в системах с расширенной памятью, таких как OpenClaw, однако их оценка недостаточно изучена в современных бенчмарках текстовых эмбеддингов, которые узко сфокусированы на традиционном поиске пассажей и не способны оценить способность моделей справляться с задачами извлечения памяти в долгосрочном горизонте, связанными с фрагментированной, контекстно-зависимой и временно удаленной информацией. Чтобы решить эту проблему, мы представляем Бенчмарк эмбеддингов для долгосрочной памяти (Long-horizon Memory Embedding Benchmark, LMEB) — комплексную структуру, которая оценивает возможности моделей эмбеддингов в обработке сложных задач извлечения памяти в долгосрочном горизонте. LMEB охватывает 22 набора данных и 193 задачи zero-shot поиска по 4 типам памяти: эпизодической, диалоговой, семантической и процедурной, с использованием как сгенерированных ИИ, так и аннотированных человеком данных. Эти типы памяти различаются по уровню абстракции и временной зависимости, отражая различные аспекты извлечения памяти, которые соответствуют разнообразным вызовам реального мира. Мы оценили 15 широко используемых моделей эмбеддингов с диапазоном параметров от сотен миллионов до десятков миллиардов. Результаты показывают, что (1) LMEB обеспечивает разумный уровень сложности; (2) Более крупные модели не всегда работают лучше; (3) LMEB и MTEB демонстрируют ортогональность. Это свидетельствует о том, что область еще не пришла к универсальной модели, способной преуспеть во всех задачах извлечения памяти, и что производительность в традиционном поиске пассажей может не обобщаться на долгосрочное извлечение памяти. В итоге, предоставляя стандартизированную и воспроизводимую структуру оценки, LMEB заполняет критический пробел в оценке эмбеддингов памяти, способствуя дальнейшему прогрессу в области текстовых эмбеддингов для обработки долгосрочного, контекстно-зависимого извлечения памяти. LMEB доступен по адресу https://github.com/KaLM-Embedding/LMEB.
Визуальное отслеживание объектов является врожденной когнитивной способностью человека, однако оно остается критическим узким местом для моделей "визуальный язык" (Vision-Language Models, VLM). Этот дефицит часто маскируется в существующих видео-бенчмарках за счет визуальных сокращений. Мы представляем VET-Bench — синтетическую диагностическую платформу, содержащую визуально идентичные объекты, для отслеживания которых необходимо полагаться исключительно на пространственно-временную непрерывность. Наши эксперименты показывают, что современные передовые VLM демонстрируют на VET-Bench результаты на уровне случайного угадывания или близкие к нему, что выявляет фундаментальное ограничение: чрезмерную зависимость от статических признаков отдельных кадров и неспособность поддерживать репрезентации объектов во времени. Мы предоставляем теоретический анализ, проводя параллели с проблемой отслеживания состояния, и доказываем, что VLM на основе трансформеров фиксированной глубины принципиально ограничены в возможности отслеживания неразличимых объектов без промежуточного контроля из-за ограничений выразительной способности. Для решения этой проблемы мы предлагаем Пространственно-временное обоснованное цепочку рассуждений (Spatiotemporal Grounded Chain-of-Thought, SGCoT): генерацию траекторий объектов в качестве явных промежуточных состояний. Используя способность Molmo2 к отслеживанию объектов, мы вызываем SGCoT-рассуждения путем тонкой настройки на синтезированных текстовых данных для согласования. Наш метод достигает рекордной точности, превышающей 90% на VET-Bench, демонстрируя, что VLM могут надежно решать задачу видеоигры "наперстки" от начала до конца без использования внешних инструментов. Наш код и данные доступны по адресу https://vetbench.github.io.
Мы представляем Multimodal OCR (MOCR) — парадигму анализа документов, которая совместно преобразует текст и графику в единые текстовые представления. В отличие от традиционных OCR-систем, которые фокусируются на распознавании текста и оставляют графические области в виде обрезанных пикселей, наш метод, названный dots.mocr, рассматривает визуальные элементы, такие как диаграммы, схемы, таблицы и иконки, как объекты анализа первого класса, что позволяет системам анализировать документы с сохранением семантических связей между элементами. Он предлагает несколько преимуществ: (1) он воссоздает как текст, так и графику в виде структурированных выходных данных, обеспечивая более точную реконструкцию документа; (2) он поддерживает сквозное обучение на разнородных элементах документа, позволяя моделям использовать семантические связи между текстовыми и визуальными компонентами; и (3) он преобразует ранее игнорируемую графику в пригодный для повторного использования код-уровень разметки, раскрывая мультимодальную разметку, встроенную в существующие документы. Чтобы сделать эту парадигму практичной в больших масштабах, мы создали комплексный механизм обработки данных из PDF-файлов, отрисованных веб-страниц и нативных SVG-ресурсов и обучили компактную модель с 3 миллиардами параметров с помощью поэтапного предварительного обучения и контролируемого тонкого дообучения. Мы оцениваем dots.mocr с двух точек зрения: анализ документа и анализ структурированной графики. На тестах для анализа документов он занимает второе место после Gemini 3 Pro на нашем OCR Arena Elo-лидерборде, превосходит существующие системы анализа документов с открытым исходным кодом и устанавливает новый рекорд в 83.9 на olmOCR Bench. В анализе структурированной графики dots.mocr демонстрирует более высокое качество реконструкции по сравнению с Gemini 3 Pro на тестах image-to-SVG, показывая высокую производительность на диаграммах, UI-макетах, научных рисунках и химических схемах. Эти результаты показывают масштабируемый путь к созданию крупномасштабных image-to-code корпусов для мультимодального предварительного обучения. Код и модели общедоступны по адресу https://github.com/rednote-hilab/dots.mocr.
Современным направлением в мультимодальном моделировании является объединение визуального понимания и генерации в рамках единой модели. Однако эти задачи требуют несовместимых режимов декодирования и визуальных представлений, что затрудняет их совместную оптимизацию в общем пространстве признаков. В данной работе мы представляем Cheers — унифицированную мультимодальную модель, которая разделяет патч-уровневые детали от семантических представлений, стабилизируя семантику для мультимодального понимания и повышая точность генерации изображений через управляемые остаточные детали. Модель включает три ключевых компонента: (i) унифицированный визуальный токенизатор, кодирующий и сжимающий латентные состояния изображения в семантические токены для эффективного кондиционирования языковой модели; (ii) трансформер на основе LLM, объединяющий авторегрессионное декодирование для генерации текста и диффузионное декодирование для генерации изображений; (iii) каскадная голова с согласованием потоков, которая сначала декодирует визуальную семантику, а затем внедряет семантически управляемые остаточные детали из токенизатора для уточнения высокочастотного контента. Эксперименты на популярных бенчмарках показывают, что Cheers соответствует или превосходит передовые UMM как в визуальном понимании, так и в генерации. Модель также достигает 4-кратного сжатия токенов, обеспечивая более эффективное кодирование и генерацию изображений высокого разрешения. Примечательно, что Cheers превосходит Tar-1.5B на бенчмарках GenEval и MMBench, требуя лишь 20% затрат на обучение, что демонстрирует эффективное и экономичное (благодаря 4-кратному сжатию токенов) унифицированное мультимодальное моделирование. Мы опубликуем весь код и данные для будущих исследований.
Современные совместные аудиовизуальные диффузионные модели демонстрируют выдающееся качество генерации, но страдают от высокой задержки из-за двунаправленных внимательных зависимостей, что препятствует их применению в реальном времени. Мы предлагаем OmniForcing — первую систему, позволяющую дистиллировать автономную двунаправленную диффузионную модель с двумя потоками в высококачественный потоковый авторегрессионный генератор. Однако прямое применение причинной дистилляции к таким двухпоточным архитектурам приводит к сильной нестабильности обучения из-за крайней временной асимметрии между модальностями и resulting разреженности токенов. Мы устраняем inherent разрыв в плотности информации за счет введения Асимметричного блочно-причинного выравнивания с глобальным префиксом и нулевым усечением, которое предотвращает дрейф межмодальной синхронизации. Градиентный взрыв, вызванный экстремальной разреженностью аудиотокенов при причинном сдвиге, дополнительно решается с помощью механизма Audio Sink Token, оснащенного ограничением Identity RoPE. Наконец, парадигма Joint Self-Forcing Distillation позволяет модели динамически самокорректировать кумулятивные межмодальные ошибки от смещения воздействия при длинных развертываниях. Благодаря независимой от модальностей схеме вывода с rolling KV-кэшем, OmniForcing достигает передовых показателей потоковой генерации на уровне ~25 кадров/с на одном GPU, сохраняя межмодальную синхронизацию и визуальное качество на уровне двунаправленной учительской модели. Страница проекта: https://omniforcing.com
Крупные языковые модели для онлайн-видео (VideoLLMs) играют ключевую роль в обеспечении отзывчивого взаимодействия в реальном времени. Существующие методы фокусируются на потоковом восприятии, но лишены синхронизированного потока логических рассуждений. Однако прямое применение методов масштабирования во время тестирования приводит к неприемлемой задержке ответа. Чтобы решить эту проблему компромисса, мы предлагаем Video Streaming Thinking (VST) — новую парадигму для потокового понимания видео. Она поддерживает механизм «размышления во время просмотра», который активирует рассуждения над поступающими видеофрагментами в потоковом режиме. Такая конструкция улучшает своевременное понимание и связное восприятие, сохраняя при этом реактивность в реальном времени за счет распределения задержки рассуждений LLM на время воспроизведения видео. Кроме того, мы представляем комплексный конвейер пост-обучения, который объединяет VST-SFT, структурно адаптирующий автономную VideoLLM к причинно-следственному потоковому рассуждению, и VST-RL, обеспечивающий сквозное улучшение через самоисследование в среде многократного видео-взаимодействия. Дополнительно мы разработали автоматизированный конвейер синтеза обучающих данных, который использует видео-графы знаний для генерации высококачественных потоковых вопросно-ответных пар, с обоснованным сущностями и отношениями потоковым «Рассуждением по цепочке» для обеспечения аргументации на основе множества свидетельств и устойчивого внимания к видеопотоку. Обширные оценки показывают, что VST-7B демонстрирует высокие результаты на онлайн-бенчмарках, например, 79.5% на StreamingBench и 59.3% на OVO-Bench. При этом VST остается конкурентоспособной на автономных бенчмарках для длинных видео или рассуждений. По сравнению с Video-R1, VST отвечает в 15.7 раз быстрее и достигает улучшения на +5.4% на VideoHolmes, демонстрируя более высокую эффективность и сильную обобщающую способность для разнообразных задач понимания видео. Код, данные и модели будут выпущены по адресу https://github.com/1ranGuan/VST.
Обучение эффективных программных инженерных агентов требует масштабируемых, исполняемых и верифицируемых сред, которые обеспечивают динамические циклы обратной связи для итеративного редактирования кода, выполнения тестов и улучшения решений. Однако существующие открытые наборы данных остаются ограниченными по масштабу и разнообразию репозиториев, в то время как промышленные решения непрозрачны из-за неопубликованной инфраструктуры, создавая непреодолимый барьер для большинства академических исследовательских групп. Мы представляем OpenSWE — крупнейшую полностью прозрачную платформу для обучения SWE-агентов на Python, включающую 45 320 исполняемых Docker-сред, охватывающих более 12,8 тыс. репозиториев, со всеми Dockerfile, скриптами оценки и полностью открытой инфраструктурой для обеспечения воспроизводимости. OpenSWE построен с помощью многозадачного синтезирующего конвейера, развернутого в распределенном кластере из 64 узлов, автоматизирующего исследование репозиториев, построение Dockerfile, генерацию скриптов оценки и итеративный анализ тестов. Помимо масштаба, мы предлагаем конвейер фильтрации, ориентированный на качество, который характеризует inherent сложность каждой среды, отфильтровывая экземпляры, которые либо нерешаемы, либо недостаточно сложны, и сохраняя только те, которые максимизируют эффективность обучения. При затратах в 891 тыс. долларов на построение сред и дополнительных 576 тыс. долларов на сэмплирование траекторий и кураторство с учетом сложности, общие инвестиции в проект составили приблизительно 1,47 млн долларов, что позволило получить около 13 тыс. отобранных траекторий из примерно 9 тыс. сред с гарантированным качеством. Экстенсивные эксперименты подтверждают эффективность OpenSWE: модели OpenSWE-32B и OpenSWE-72B достигают 62,4% и 66,0% на SWE-bench Verified, устанавливая состояние искусства среди серии Qwen2.5. Более того, специализированное SWE-обучение дает существенное улучшение в других областях, включая до 12 пунктов на математических задачах и 5 пунктов на научных тестах, без ухудшения фактологического запоминания.
Задачи преобразования визуальных данных в код требуют от моделей реконструкции структурированных визуальных входных данных, таких как диаграммы, таблицы и SVG, в исполняемые или структурированные представления с высокой визуальной точностью. Хотя современные большие визо-лингвистические модели (LVLM) демонстрируют высокие результаты благодаря обучению с учителем, применение обучения с подкреплением остается сложной задачей из-за несогласованности сигналов вознаграждения. Существующие подходы к вознаграждению основываются либо на текстовых правилах, либо на грубом сходстве визуальных эмбеддингов, но оба метода не способны уловить мелкозернистые визуальные расхождения и уязвимы для взлома системы вознаграждения. Мы предлагаем Модель Визуального Эквивалентного Вознаграждения (Visual-ERM) — мультимодальную генеративную модель вознаграждения, которая обеспечивает мелкозернистую, интерпретируемую и независимую от задачи обратную связь для оценки качества преобразования визуальных данных в код непосредственно в визуальном пространстве рендеринга. Интегрированная в обучение с подкреплением, Visual-ERM улучшает показатели модели Qwen3-VL-8B-Instruct на +8.4 балла в задаче преобразования диаграмм в код и обеспечивает стабильный прирост качества для парсинга таблиц и SVG (+2.7 и +4.1 в среднем), а также дополнительно усиливает масштабируемость во время тестирования за счет рефлексии и пересмотра. Мы также представляем VisualCritic-RewardBench (VC-RewardBench) — бенчмарк для оценки мелкозернистых расхождений между изображениями на структурированных визуальных данных, где модель Visual-ERM с 8 миллиардами параметров уверенно превосходит Qwen3-VL-235B-Instruct и приближается к ведущим проприетарным моделям. Наши результаты свидетельствуют, что мелкозернистый визуальный контроль вознаграждения является необходимым и достаточным условием для обучения с подкреплением в задачах vision-to-code, независимо от специфики конкретной задачи.
Мультимодальные большие языковые модели (MБЯМ) всё чаще применяются для выполнения визуальных рабочих процессов, таких как навигация по графическим интерфейсам (GUI), где следующий шаг зависит от проверенных визуальных композиционных условий (например, «если появилось диалоговое окно разрешений и цвет интерфейса зелёный, нажмите "Разрешить"»), а процесс может ветвиться или завершаться досрочно. Однако эта возможность остаётся недостаточно оценённой: существующие бенчмарки фокусируются на поверхностных композициях или независимых ограничениях, а не на глубоко связанных композиционных условных конструкциях. В данной статье мы представляем MM-CondChain — бенчмарк для визуально обоснованного глубокого композиционного рассуждения. Каждый экземпляр бенчмарка организован как многоуровневая цепочка рассуждений, где каждый уровень содержит нетривиальное композиционное условие, основанное на визуальных свидетельствах и построенное из множества объектов, атрибутов или отношений. Для правильного ответа МБЯМ должна детально воспринимать изображение, анализировать множество визуальных элементов на каждом шаге и следовать результирующему пути выполнения до конечного результата. Для масштабируемого построения таких данных в стиле рабочих процессов мы предлагаем агентный синтезирующий конвейер: Планировщик (Planner) организует поэтапную генерацию композиционных условий, а Проверяемое программное промежуточное представление (Verifiable Programmatic Intermediate Representation, VPIR) гарантирует, что условие каждого уровня является механически проверяемым. Затем Компоновщик (Composer) собирает эти проверенные уровни в полные инструкции. Используя этот конвейер, мы создаём бенчмарки для трёх визуальных доменов: натуральные изображения, диаграммы данных и траектории GUI. Эксперименты с рядом МБЯМ показывают, что даже самая мощная модель достигает всего 53.33 Path F1, с резким падением производительности на сложных негативных примерах и по мере роста глубины цепочки или сложности предикатов, что подтверждает: глубокое композиционное рассуждение остаётся фундаментальной проблемой.
Масштабирование на этапе тестирования стало доминирующей парадигмой повышения надежности LLM-агентов, однако современные подходы рассматривают вычислительные ресурсы как неограниченные, позволяя агентам исчерпывать бюджеты токенов и инструментов на избыточные шаги или тупиковые траектории. Существующие бюджетно-ориентированные методы либо требуют дорогостоящего тонкого обучения, либо опираются на грубые эвристики уровня траекторий, не способные вмешиваться в процессе выполнения. Мы предлагаем Бюджетно-Осознающее Дерево Ценностей (BAVT), не требующую обучения инферентную структуру, моделирующую многошаговые рассуждения как динамическое дерево поиска, управляемое оценкой ценности на уровне шагов в рамках единой LLM-архитектуры. Ключевым нововведением является механизм выбора узлов, обусловленный бюджетом, который использует отношение оставшихся ресурсов как естественный показатель степени для ценностей узлов, обеспечивая принципиальный, свободный от параметров переход от широкого исследования к жадной эксплуатации по мере исчерпания бюджета. Для борьбы с известной сверхуверенностью LLM в самооценке, BAVT использует остаточный предсказатель ценности, оценивающий относительный прогресс вместо абсолютного качества состояния, что позволяет надежно отсекать неинформативные или избыточные вызовы инструментов. Мы также предоставляем теоретическую гарантию сходимости, доказывая, что BAVT достигает конечного ответа с вероятностью не менее 1-ε при явной конечной границе бюджета. Обширные оценки на четырех бенчмарках многошаговых вопросов-ответов для двух семейств моделей демонстрируют, что BAVT стабильно превосходит базовые методы параллельного сэмплирования. Особенно показательно, что BAVT в условиях строгих ограничений малого бюджета превосходит производительность базовых методов при четырехкратном выделении ресурсов, устанавливая, что интеллектуальное управление бюджетом принципиально превосходит грубое масштабирование вычислений.
Распространение больших языковых моделей (LLM) позволяет специалистам по ИИ выполнять сложные сквозные задачи научного открытия, требующие координации специализированных ролей, включая генерацию идей и проведение экспериментов. Однако большинство современных систем-учёных на основе ИИ полагаются на статические, заранее спроектированные конвейеры и не способны адаптироваться на основе накопленной истории взаимодействий. Как следствие, такие системы упускают перспективные направления исследований, повторяют неудачные эксперименты и разрабатывают нереализуемые идеи. Для решения этой проблемы мы представляем EvoScientist — эволюционирующую мультиагентную систему-учёного, которая непрерывно совершенствует исследовательские стратегии благодаря постоянной памяти и саморазвитию. EvoScientist включает три специализированных агента: агент-исследователь (RA) для генерации научных идей, агент-инженер (EA) для реализации и проведения экспериментов и агент-менеджер эволюции (EMA), который извлекает знания из предыдущих взаимодействий и преобразует их в пригодный для повторного использования опыт. EvoScientist содержит два модуля долговременной памяти: (i) память идей, которая обобщает выполнимые исследовательские направления на основе наивысше оцененных идей, одновременно фиксируя ранее неудачные пути; и (ii) память экспериментов, которая сохраняет эффективные стратегии обработки данных и обучения моделей, полученные из траекторий поиска кода и лучших реализаций. Эти модули позволяют RA и EA извлекать релевантные предыдущие стратегии, повышая качество идей и успешность выполнения кода со временем. Эксперименты показывают, что EvoScientist превосходит 7 открытых и коммерческих систем последнего поколения в генерации научных идей, демонстрируя более высокую новизну, выполнимость, релевантность и ясность по результатам автоматической и экспертной оценки. EvoScientist также существенно повышает процент успешного выполнения кода за счёт мультиагентной эволюции, подтверждая эффективность долговременной памяти для сквозного научного открытия.
Метод оптимизации политики относительно группы (GRPO) зарекомендовал себя как мощный фреймворк для согласования предпочтений в потоковых моделях "текст-изображение". Однако мы наблюдаем, что стандартная парадигма, при которой группа сгенерированных образцов оценивается по единственному условию, страдает от недостаточного исследования взаимосвязей между образцами, что ограничивает как эффективность согласования, так и потолок производительности. Для преодоления этой разреженной схемы оценки с единой точки зрения мы предлагаем Многовидовой GRPO (MV-GRPO) — новый подход, который усиливает исследование взаимосвязей за счет расширения пространства условий для создания плотного многовидового отображения вознаграждений. В частности, для группы образцов, сгенерированных по одному промпту, MV-GRPO использует гибкий Усилитель Условий для генерации семантически смежных, но разнообразных описаний. Эти описания позволяют выполнить повторную оценку преимуществ с нескольких точек зрения, выявляя разнообразные семантические атрибуты и предоставляя более богатые сигналы для оптимизации. Вычисляя распределение вероятностей исходных образцов при условии этих новых описаний, мы можем включить их в процесс обучения без затратной перегенерации образцов. Многочисленные эксперименты демонстрируют, что MV-GRPO достигает превосходной производительности в согласовании по сравнению с передовыми методами.
Крупномасштабные генеративные модели для видео обучаются на обширных и разнообразных визуальных данных, что позволяет им усваивать богатые структурные, семантические и динамические априорные представления о визуальном мире. Хотя эти модели продемонстрировали впечатляющие генеративные способности, их потенциал в качестве универсальных визуальных обучающихся систем в значительной степени остается нераскрытым. В данной работе мы представляем V-Bridge — фреймворк, который переносит эту скрытую способность на задачи многозадачной few-shot реставрации изображений. Мы переосмысливаем реставрацию изображений не как статичную регрессионную задачу, а как прогрессивный генеративный процесс, и используем видео-модели для имитации постепенного уточнения от деградировавших входных данных до выходных данных с высокой точностью. Удивительно, но с использованием всего 1000 мультизадачных обучающих примеров (менее 2% от объема, требуемого существующими методами реставрации), предобученные видео-модели можно адаптировать для выполнения конкурентоспособной реставрации изображений, решая несколько задач одной моделью и не уступая специализированным архитектурам, явно созданным для этой цели. Наши результаты показывают, что генеративные модели для видео неявно изучают мощные и переносимые априорные знания для реставрации, которые можно активировать с помощью крайне ограниченного объема данных, что ставит под сомнение традиционную границу между генеративным моделированием и низкоуровневым компьютерным зрением и открывает новую парадигму проектирования базовых моделей для визуальных задач.
Быстрая эволюция воплощенных агентов ускорила внедрение домашних роботов в реальные условия. Однако, в отличие от структурированных промышленных сред, домашние пространства создают непредсказуемые риски безопасности, где системные ограничения, такие как задержки восприятия и отсутствие фоновых знаний, могут приводить к опасным ошибкам. Современные методы оценки безопасности, часто ограниченные статичными изображениями, текстом или общими опасностями, не позволяют адекватно тестировать обнаружение динамических небезопасных действий в этих специфических контекстах. Чтобы заполнить этот пробел, мы представляем HomeSafe-Bench — сложный бенчмарк, предназначенный для оценки моделей «визуальный язык» (VLM) в задачах обнаружения небезопасных действий в домашних сценариях. HomeSafe-Bench создан с помощью гибридного конвейера, сочетающего физическое моделирование с продвинутой генерацией видео, и включает 438 разнообразных случаев по шести функциональным зонам с детализированными многомерными аннотациями. Помимо бенчмаркинга, мы предлагаем HD-Guard — иерархическую потоковую архитектуру для мониторинга безопасности в реальном времени. HD-Guard координирует легковесный «Быстрый мозг» для непрерывного высокочастотного сканирования с асинхронным крупномасштабным «Медленным мозгом» для глубокого мультимодального анализа, эффективно балансируя между скоростью вывода и точностью обнаружения. Оценки показывают, что HD-Guard достигает превосходного компромисса между задержкой и производительностью, а наш анализ выявляет ключевые узкие места в современных системах безопасности на основе VLM.
Диффузионные модели продемонстрировали впечатляющие способности в задачах генерации изображений по тексту (Text-to-Image, T2I). Несмотря на высокое качество генерируемых изображений, они страдают от высоких вычислительных затрат, особенно это касается крупных моделей, содержащих десятки миллиардов параметров. Предыдущие исследования показали, что замена части шагов денойзинга на меньшую модель позволяет сохранить качество генерации. Однако эти методы ориентированы на экономию вычислений лишь для некоторых временных шагов, игнорируя разницу в вычислительных потребностях в рамках одного шага. В данной работе мы предлагаем HybridStitch — новую парадигму T2I-генерации, которая трактует генерацию как редактирование. В частности, мы вводим гибридную стадию, которая совместно использует как большую, так и малую модель. HybridStitch разделяет всё изображение на две области: одну, которая относительно проста для рендеринга и позволяет раньше перейти к малой модели, и другую, более сложную, требующую доработки большой моделью. HybridStitch использует малую модель для построения грубого эскиза, в то время как большая модель применяется для редактирования и уточнения сложных областей. Согласно нашей оценке, HybridStitch обеспечивает ускорение в 1.83 раза для Stable Diffusion 3, что быстрее всех существующих методов смешивания моделей.
Мультимодальные большие языковые модели (MLLM) демонстрируют высокую производительность в задачах офлайн-анализа видео, однако большинство из них ограничены офлайн-выводом или обладают слабыми возможностями онлайн-рассуждений, что затрудняет многократное взаимодействие с непрерывно поступающими видеопотоками. Существующие потоковые методы обычно используют чередующуюся парадигму восприятия-генерации, которая препятствует параллельному выполнению восприятия и генерации и приводит к преждевременному затуханию памяти по мере роста потоков, ухудшая моделирование длительных зависимостей. Мы предлагаем Think While Watching — основанную на памяти структуру потокового видеорассуждения, которая сохраняет непрерывную сегментную память в процессе многократного взаимодействия. Мы создали трехэтапный многократный набор данных цепочек рассуждений и применили поэтапную стратегию обучения, обеспечивая строгую причинность с помощью сегментной потоковой причинной маски и потокового позиционного кодирования. На этапе вывода мы внедряем эффективный конвейер, совмещающий просмотр и размышление, и адаптивно выбираем оптимальный бэкенд внимания. В рамках протоколов как однократного, так и многократного потокового ввода наш метод демонстрирует высокие результаты. Построенный на основе Qwen3-VL, он повышает точность однократного анализа на 2.6% в StreamingBench и на 3.79% в OVO-Bench. В условиях многократного взаимодействия метод сохраняет производительность при сокращении выходных токенов на 56%. Код доступен по адресу: https://github.com/wl666hhh/Think_While_Watching/
Несмотря на быстрое развитие моделей генерации видео, согласование их выходных данных со сложными пользовательскими интенциями остается сложной задачей. Существующие методы оптимизации на этапе тестирования обычно либо требуют значительных вычислительных ресурсов, либо доступа к внутренней структуре модели (white-box). Для решения этой проблемы мы представляем VQQA (Video Quality Question Answering) — унифицированную мультиагентную систему, обобщаемую для различных входных модальностей и задач генерации видео. Путем динамического формирования визуальных вопросов и использования получаемых от Vision-Language Model (VLM) критик в качестве семантических градиентов, VQQA заменяет традиционные пассивные метрики оценки интерпретируемыми и практичными отзывами. Это позволяет реализовать высокоэффективный процесс оптимизации промптов по замкнутому циклу через черный ящик с интерфейсом естественного языка. Многочисленные эксперименты демонстрируют, что VQQA эффективно выявляет и устраняет визуальные артефакты, существенно повышая качество генерации всего за несколько шагов доработки. Применяемый как для задач текст-видео (T2V), так и изображение-видео (I2V), наш метод демонстрирует абсолютное улучшение на +11,57% на T2V-CompBench и +8,43% на VBench2 по сравнению с базовой генерацией, значительно превосходя современные методы стохастического поиска и оптимизации промптов.
Крупные языковые модели (LLM) на основе архитектуры Transformer используют кэширование ключей и значений (KV-кэширование), чтобы избежать избыточных вычислений во время авторегрессионного вывода. Хотя этот механизм значительно повышает эффективность, размер кэша растет линейно с длиной входной последовательности, быстро становясь узким местом для задач с длинным контекстом. Существующие решения смягчают эту проблему путем вытеснения KV-пар промпта, которые считаются неважными, на основе расчетных оценок важности. Примечательно, что в ряде недавних работ предлагается улучшить качество вытеснения за счет «взгляда в будущее»: генератор черновиков создает суррогатный будущий ответ, аппроксимирующий истинный ответ целевой модели, который затем используется для более точной оценки важности кэшированных KV-пар. Однако эти подходы опираются на вычислительно дорогостоящее создание черновиков, что приводит к значительным накладным расходам на стадии предварительного заполнения и ограничивает их практическую применимость в реальных развертываниях. Для решения этой проблемы мы предлагаем LookaheadKV — облегченную систему вытеснения, которая использует преимущества суррогатного будущего ответа без необходимости явного создания черновиков. LookaheadKV дополняет слои Transformer параметрически эффективными модулями, обученными с высокой точностью предсказывать истинные оценки важности. Наша конструкция обеспечивает пренебрежимо малые накладные расходы в режиме выполнения, сопоставимые с существующими недорогими эвристиками, при этом достигая точности, превосходящей более затратные методы аппроксимации. Масштабные эксперименты на бенчмарках для понимания длинного контекста, проведенные для широкого спектра моделей, демонстрируют, что наш метод не только превосходит по производительности недавние конкурентоспособные базовые подходы в различных задачах понимания длинного контекста, но и снижает стоимость вытеснения до 14,5 раз, что приводит к значительному ускорению получения первого токена. Наш код доступен по адресу https://github.com/SamsungLabs/LookaheadKV.
Исчерпание запасов высококачественных данных для предварительного обучения сместило фокус исследований в сторону эволюционных систем, способных непрерывно генерировать новые артефакты, что привело к успеху AlphaEvolve. Однако прогресс таких систем сдерживается отсутствием строгой количественной оценки. Для решения этой проблемы мы представляем CreativeBench — эталонный набор для оценки машинного творчества в генерации кода, основанный на классической когнитивной framework. Состоящий из двух подмножеств — CreativeBench-Combo и CreativeBench-Explore — бенчмарк нацелен на комбинаторное и исследовательское творчество через автоматизированный конвейер, использующий реверс-инжиниринг и самоигру. Используя исполняемый код, CreativeBench объективно отличает творчество от галлюцинаций с помощью единой метрики, определяемой как произведение качества и новизны. Наш анализ современных моделей выявляет различные модели поведения: (1) масштабирование значительно улучшает комбинаторное творчество, но дает убывающую отдачу для исследования; (2) более крупные модели демонстрируют «конвергенцию через масштабирование», становясь более корректными, но менее разнообразными; и (3) способности к рассуждению в основном помогают ограниченному исследованию, а не комбинации. Наконец, мы предлагаем EvoRePE, стратегию управления на этапе вывода типа «включи и работай», которая интериоризирует паттерны эволюционного поиска для последовательного повышения машинного творчества.
Автономные агенты в открытом мире должны решать долгосрочные задачи, где основным ограничением является не качество пошагового планирования, а организация и эволюция опыта взаимодействия. Для решения этой проблемы мы представляем Steve-Evolving — непараметрическую саморазвивающуюся структуру, которая тесно связывает детальную диагностику выполнения с двунаправленной дистилляцией знаний в замкнутом цикле. Метод следует трем фазам: Анкетирование Опыта, Дистилляция Опыта и Управление с Обратной Связью на Основе Знаний. В частности, Анкетирование Опыта фиксирует каждую попытку достижения подцели в виде структурированного кортежа опыта с фиксированной схемой (предшествующее состояние, действие, результат-диагностики и последующее состояние) и организует его в трехуровневом пространстве опыта с многомерными индексами (например, сигнатуры условий, пространственное хеширование и семантические теги) и скользящим суммированием для эффективного и проверяемого воспроизведения. Чтобы обеспечить достаточную информационную плотность для атрибуции, уровень выполнения предоставляет композиционные сигналы диагностики, выходящие за рамки бинарных исходов, включая сводки различий состояний, перечисленные причины сбоев, непрерывные индикаторы и обнаружение застоя/циклов. Более того, успешные траектории Дистилляции Опыта обобщаются в переиспользуемые навыки с явными предварительными условиями и критериями проверки, в то время как неудачи дистиллируются в исполняемые защитные ограничения, которые фиксируют первопричины и запрещают рискованные операции как на уровне подцелей, так и на уровне задач. Кроме того, в Управлении с Обратной Связью на Основе Знаний извлеченные навыки и защитные ограничения внедряются в планировщик на основе LLM, а локальное перепланирование, инициированное диагностикой, обновляет активные ограничения в реальном времени, формируя процесс непрерывной эволюции без каких-либо обновлений параметров модели. Эксперименты на наборе долгосрочных задач Minecraft MCU демонстрируют стабильное улучшение по сравнению с базовыми методами статического извлечения.
Разреженные векторы внимания (SAV) стали отличной бесплатной альтернативой контролируемому дообучению или низкоранговой адаптации для повышения производительности моделей «визуальный язык» (VLM). По своей сути, SAV выбирают несколько точных голов внимания для целевой задачи и используют их в качестве классификаторов, а не полагаются на предсказание модели. В том же духе мы обнаруживаем, что прямое зондирование исходных активаций VLM в форме скалярных значений достаточно для создания точных классификаторов в разнообразных визуально обоснованных downstream-задачах. Смещение фокуса с векторов внимания на скалярные активации значительно расширяет пространство поиска точных параметров, позволяя нам находить более дискриминативные нейроны непосредственно с первого сгенерированного токена. Мы называем такие активации Супернейронами (SN). В данной постановке зондирования мы обнаруживаем, что в поверхностных слоях большой языковой модели появляется достаточно SN, чтобы обеспечить экстремально ранний выход уже из первого слоя модели на первом сгенерированном токене. По сравнению с исходной сетью, SN устойчиво улучшают производительность классификации, достигая при этом ускорения до 5.10 раз.
Ретриверы на основе моделей «визуальный язык» (VLM) вывели поиск визуальных документов (VDR) на впечатляющий уровень качества. Однако они требуют использования одного и того же энкодера с миллиардами параметров как для индексации документов, так и для кодирования запросов, что приводит к высокой задержке и зависимости от GPU даже для текстовых запросов. Мы наблюдаем, что такой дизайн избыточно симметричен: документы визуально сложны и требуют мощного визуального понимания, тогда как запросы — это просто короткие текстовые строки. NanoVDR использует эту асимметрию между запросом и документом, разделяя пути кодирования: замороженная VLM-учитель на 2 млрд параметров индексирует документы офлайн, а дистиллированный текстовый ученик размером всего 69 млн параметров кодирует запросы на этапе inference. Ключевым выбором дизайна является цель дистилляции. В результате систематического сравнения шести целей на трех архитектурах и 22 наборах данных бенчмарка ViDoRe мы обнаружили, что поэлементное косинусное выравнивание на тексте запроса стабильно превосходит ранжирующие и контрастивные альтернативы, при этом требуя только предварительно кэшированных эмбеддингов запросов от учителя и не требуя обработки документов во время обучения. Кроме того, мы выявили, что кросс-лингвальный перенос является основным узким местом производительности, и эффективно решаем эту проблему, дополняя обучающие данные машинно-переведенными запросами. Полученная модель NanoVDR-S-Multi (DistilBERT, 69M) сохраняет 95,1% качества учителя и превосходит DSE-Qwen2 (2B) на версиях v2 и v3, имея в 32 раза меньше параметров и в 50 раз ниже задержку запросов на CPU, при общих затратах на обучение менее 13 GPU-часов.
Композиционная реконструкция сцены направлена на создание объектно-ориентированных представлений, а не целостных сцен, из видеозаписей реального мира, что изначально применимо для симуляции и взаимодействия. Традиционные подходы к композиционной реконструкции в основном сосредоточены на визуальном виде и демонстрируют ограниченную способность к обобщению в реальных сценариях. В данной статье мы предлагаем SimRecon — фреймворк, реализующий конвейер «Восприятие-Генерация-Симуляция» для реконструкции загроможденных сцен, который сначала выполняет семантическую реконструкцию сцены на уровне видео, затем генерирует отдельные объекты и, наконец, собирает эти ресурсы в симуляторе. Однако простое комбинирование этих трех этапов приводит к визуальной недостоверности генерируемых ресурсов и физической неправдоподобности итоговой сцены, что особенно остро проявляется в сложных сценах. Поэтому мы дополнительно предлагаем два связующих модуля между тремя этапами для решения этой проблемы. В частности, для перехода от Восприятия к Генерации, критически важного для визуальной достоверности, мы вводим Активную оптимизацию точки обзора, которая активно исследует 3D-пространство для получения оптимальных спроецированных изображений в качестве условий для достраивания отдельных объектов. Кроме того, для перехода от Генерации к Симуляции, ключевого для физической правдоподобности, мы предлагаем Синтезатор графа сцены, который направляет построение с нуля в 3D-симуляторах, отражая изначальный конструктивный принцип реального мира. Многочисленные эксперименты на наборе данных ScanNet подтверждают превосходную производительность нашего метода по сравнению с предыдущими передовыми подходами.
Почему языковые модели иногда предпочитают верные утверждения, даже будучи обученными на данных смешанного качества? Мы вводим Принцип Сжатия–Согласованности: предсказание следующего токена благоприятствует гипотезам, которые допускают более короткое и внутренне согласованное описание обучающих данных. Смещение в сторону истины возникает только тогда, когда ложные альтернативы структурно сложнее сжать. Мы проверяем это на небольших char-level трансформерах в стиле GPT-2 (3.5–86 млн параметров), используя синтетические математические корпуса с контролируемой смесью верных и неверных правил. В условиях случайных ошибок модели сильно предпочитают верные завершения при парной оценке: точность 83.1% на сбалансированных данных и 67.0%, даже когда верные правила встречаются лишь в 10% корпуса. Замена случайных ошибок на связную, но математически неверную систему правил практически устраняет предпочтение (точность на уровне случайного угадывания). В более приближенном к естественному языку синтетическом мире эффект слабее, но всё же присутствует (57.7%). Дополнительные эксперименты показывают, что внедрение шагов верификации может восстановить предпочтение правильности даже в небольших масштабах, а увеличение числа согласованных правил приводит к постепенному росту точности. Наши результаты позволяют предположить, что то, что выглядит как «смещение к истине», в значительной степени является побочным эффектом давления сжатия и предпочтения внутренней согласованности, а не внутренней тяги к истине. Полный код и данные доступны по адресу https://github.com/Rai220/compression-drives-truth.
Крупные языковые модели (LLM) способны выводить конфиденциальные атрибуты, такие как пол или возраст, из косвенных признаков вроде имен и местоимений, что может приводить к смещенным рекомендациям. Хотя существует несколько методов устранения смещений, они требуют доступа к весам моделей, вычислительно затратны и недоступны для обычных пользователей. Для решения этой проблемы мы исследуем скрытые смещения в рекомендательных системах на основе LLM (LLMRecs) и изучаем возможность использования промпт-стратегий в качестве легковесного и удобного подхода к устранению смещений. Мы предлагаем три стратегии промптинга с учетом смещений для LLMRecs. Насколько нам известно, это первое исследование промпт-методов устранения смещений в LLMRecs, ориентированное на групповую справедливость для пользователей. Наши эксперименты с 3 LLM, 4 шаблонами промптов, 9 значениями конфиденциальных атрибутов и 2 наборами данных показывают, что предложенный подход, инструктирующий LLM быть справедливой, может улучшить беспристрастность до 74% при сохранении сопоставимой эффективности, но в некоторых случаях может чрезмерно продвигать определенные демографические группы.
Аномалии в многомерных временных рядах часто проявляются как изменения в межканальных зависимостях, а не как простые отклонения амплитуды. Например, в автономном вождении команда рулевого управления может быть внутренне согласованной, но рассогласованной с результирующим боковым ускорением. Остаточные детекторы могут пропускать такие аномалии, когда гибкие последовательностные модели все еще правдоподобно восстанавливают сигналы, несмотря на измененную координацию. Мы представляем AxonAD, неконтролируемый детектор, который рассматривает эволюцию запросов многоголового внимания как предсказуемый процесс на коротком горизонте. Градиентно-обновляемый путь реконструкции сочетается с предиктором, использующим только историю, который прогнозирует будущие векторы запросов из прошлого контекста. Это обучается с помощью маскированной цели "предиктор-цель" против целевого кодера с экспоненциальным скользящим средним (EMA). На этапе вывода ошибка реконструкции комбинируется с агрегированным показателем несоответствия запросов на хвосте распределения, который измеряет косинусное отклонение между прогнозируемыми и целевыми запросами на последних временных шагах. Такой двойной подход обеспечивает чувствительность к структурным сдвигам зависимостей, сохраняя при этом детектирование на уровне амплитуды. На проприетарной телеметрии бортовых систем с интервальными разметками и на многовариантном наборе TSB-AD (17 наборов данных, 180 рядов) с метриками, не зависящими от порога и учитывающими временные интервалы, AxonAD улучшает качество ранжирования и временной локализации по сравнению с сильными базовыми методами. Абляционные исследования подтверждают, что прогнозирование запросов и комбинированная оценка являются основными факторами наблюдаемого улучшения. Код доступен по URL https://github.com/iis-esslingen/AxonAD.
Аномальные детекторы временных рядов обычно сравнивают на рабочих станциях в условиях неограниченного выполнения. Однако мониторинг в автомобиле требует предсказуемой задержки и стабильного поведения при ограниченном параллелизме ЦП. Следовательно, рейтинги, основанные только на точности, могут искажать представление о том, какие методы остаются работоспособными в условиях, релевантных для развертывания. Мы представляем ECoLAD (Иерархия Эффективности Вычислений для Обнаружения Аномалий) — ориентированный на развертывание протокол оценки, реализованный в виде эмпирического исследования на основе проприетарной автомобильной телеметрии (уровень аномалий ~0,022%) и дополнительных публичных бенчмарков. ECoLAD применяет монотонную иерархию снижения вычислительной нагрузки к различным семействам детекторов, используя механически определенные, целочисленные правила масштабирования и явные ограничения на количество потоков ЦП, при этом фиксируя каждое внесенное изменение конфигурации. Поведение в условиях ограниченной пропускной способности характеризуется путем перебора целевых скоростей оценки и отчетности по (i) охвату (доля сущностей, удовлетворяющих цели) и (ii) наилучшему AUC-PR, достижимому среди измеренных конфигураций иерархии, удовлетворяющих цели. На ограниченной автомобильной телеметрии легковесные классические детекторы сохраняют как охват, так и эффективность обнаружения выше случайного базового уровня на всем диапазоне пропускной способности. Несколько глубоких методов теряют практическую применимость до того, как теряют точность.
Перекрёстная идентификация кораблей (ReID) между оптическими и радиолокационными изображениями с синтезированной апертурой (SAR) фундаментально осложняется значительным радиометрическим расхождением между пассивным оптическим и когерентным активным радиолокационным зондированием. В то время как существующие подходы в основном опираются на выравнивание статистических распределений или семантическое сопоставление, они часто упускают важный физический принцип: корабли являются жесткими объектами, чьи геометрические структуры остаются стабильными между модальностями съемки, тогда как текстурный вид сильно зависит от модальности. В данной работе мы предлагаем SDF-Net — сеть с раздельным обучением признаков с учетом структуры, которая систематически интегрирует геометрическую согласованность в задачу оптико-радиолокационной идентификации кораблей. Построенная на базе архитектуры ViT, SDF-Net вводит ограничение структурной согласованности, которое извлекает масштабно-инвариантную статистику градиентной энергии из промежуточных слоев для устойчивого закрепления представлений вопреки радиометрическим вариациям. На заключительном этапе SDF-Net разделяет полученные представления на инвариантные к модальности признаки идентичности и специфичные для модальности характеристики. Эти разъединенные признаки затем интегрируются посредством беспараметричной аддитивной остаточной фьюжн-операции, эффективно усиливая дискриминативную способность. Многочисленные эксперименты на наборе данных HOSS-ReID демонстрируют, что SDF-Net стабильно превосходит существующие современные методы. Код и обученные модели общедоступны по адресу https://github.com/cfrfree/SDF-Net.
Понимание и ответы на вопросы на основе указывающих жестов пользователя являются ключевыми для ассистентов следующего поколения с эгоцентрическим зрением. Однако современные мультимодальные большие языковые модели (MLLM) испытывают трудности с такими задачами из-за нехватки данных, богатых жестами, и их ограниченной способности выводить тонкие намерения указания из эгоцентрического видео. Для решения этой проблемы мы представляем EgoPointVQA — набор данных и эталон для ответов на вопросы в эгоцентрическом контексте с учетом жестов, включающий 4000 синтетических и 400 реальных видео для различных задач дейктического рассуждения. На его основе мы также предлагаем Hand Intent Tokens (HINT) — токены, полученные из 3D-ключевых точек руки с помощью готовой модели реконструкции, которые встраиваются во входные данные модели, чтобы предоставить явный пространственный и временной контекст для интерпретации намерения указания. Мы показываем, что наша модель превосходит другие при различных базовых архитектурах и размерах. В частности, HINT-14B достигает средней точности 68,1% по 6 задачам, что на 6,6% превышает показатель современной модели InternVL3-14B. Для содействия открытым исследованиям мы опубликуем код, модель и набор данных. Страница проекта: https://yuuraa.github.io/papers/choi2026egovqa
Задача поиска по тексту и движению (text-motion retrieval) заключается в изучении семантически согласованного латентного пространства между естественно-языковыми описаниями и последовательностями скелетных моделей 3D-движения человека, что позволяет осуществлять двунаправленный поиск по двум модальностям. Большинство существующих методов используют двухэнкодерную архитектуру, которая сжимает движение и текст в глобальные эмбеддинги, отбрасывая тонкие локальные соответствия, что снижает точность. Кроме того, эти методы на основе глобальных эмбеддингов предлагают ограниченную интерпретируемость результатов поиска. Чтобы преодолеть эти ограничения, мы предлагаем интерпретируемое представление движения на основе углов в сочленениях, которое отображает локальные признаки на уровне суставов в структурированное псевдоизображение, совместимое с предварительно обученными Vision Transformer. Для поиска движения по тексту мы используем MaxSim — механизм позднего взаимодействия на уровне токенов — и улучшаем его с помощью регуляризации Masked Language Modeling для формирования устойчивого и интерпретируемого согласования текста и движения. Многочисленные эксперименты на наборах данных HumanML3D и KIT-ML показывают, что наш метод превосходит современные подходы к поиску по тексту и движению, обеспечивая при этом интерпретируемые тонкие соответствия между текстом и движением. Код доступен в дополнительных материалах.
Автономные агенты, в особенности делегированные системы с памятью, постоянным контекстом и многошаговым планированием, создают проблему измерения, отсутствующую в моделях без сохранения состояния: агент, для которого продолжение работы является терминальной целью, и агент, делающий это лишь инструментально, могут порождать наблюдательно схожие траектории. Внешний поведенческий мониторинг не позволяет надежно их различить. Мы представляем Унифицированный протокол интереса к продолжению (UCIP) — многокритериальную систему обнаружения, которая переносит это различие с поведения на латентную структуру траекторий агента. UCIP кодирует траектории с помощью Квантовой машины Больцмана (QBM) — классического алгоритма, основанного на формализме матрицы плотности из квантовой статистической механики, — и измеряет энтропию фон Неймана редуцированной матрицы плотности, индуцированной биразбиением скрытых единиц. Мы проверяем, порождают ли агенты с терминальной целью продолжения (Тип A) латентные состояния с более высокой энтропией запутанности, чем агенты, для которых продолжение является лишь инструментальным (Тип B). Более высокая запутанность отражает более сильную статистическую связь между частями разбиения. На агентах в gridworld с известными истинными целями UCIP демонстрирует 100% точность обнаружения и AUC-ROC = 1.0 на отложенном неадверсивном тестировании с замороженным гейтом Фазы I. Разрыв в энтропии запутанности между агентами Типа A и Типа B составляет Delta = 0.381 (p < 0.001, перестановочный тест). Коэффициент корреляции Пирсона r = 0.934 по 11-точечному интерполяционному сканированию указывает, что внутри этого синтетического семейства UCIP отслеживает градуальные изменения в весе продолжения, а не просто бинарную метку. Среди протестированных моделей только QBM демонстрирует положительный Delta. Все вычисления являются классическими; «квантовый» относится лишь к математическому формализму. UCIP не обнаруживает сознание или субъективный опыт; он обнаруживает статистическую структуру в латентных представлениях, которая коррелирует с известными целями.