Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя диффузионные языковые модели (DZM) быстро развиваются, многие современные модели сходятся на использовании общего набора компонентов. Однако эти компоненты распределены по разрозненным исследовательским кодобазам или не имеют прозрачных реализаций, что затрудняет их воспроизведение и расширение. По мере ускорения развития области возникает явная потребность в унифицированной системе, которая стандартизирует эти общие компоненты, сохраняя при этом гибкость для поддержки новых методов и архитектур. Для решения этой проблемы мы представляем dLLM — фреймворк с открытым исходным кодом, который объединяет ключевые компоненты диффузионного языкового моделирования — обучение, вывод и оценку — и упрощает их адаптацию для новых разработок. С помощью dLLM пользователи могут воспроизводить, дообучать, развертывать и оценивать открытые большие DZM, такие как LLaDA и Dream, через стандартизированный конвейер. Фреймворк также предоставляет минимальные воспроизводимые рецепты для создания небольших DZM с нуля с использованием доступных вычислительных ресурсов, включая преобразование любого BERT-подобного энкодера или авторегрессионной языковой модели в DZM. Мы также публикуем чекпоинты этих небольших моделей, чтобы сделать DZM более доступными и ускорить будущие исследования.
Оптимизация GPU-ядр является фундаментальной задачей современного глубокого обучения, но остается высокоспециализированной деятельностью, требующей глубоких знаний аппаратного обеспечения. Несмотря на высокую производительность в области программирования общего назначения, большие языковые модели (LLM) остаются неконкурентоспособными по сравнению с компиляторными системами, такими как torch.compile, при генерации CUDA-ядр. Существующие подходы к генерации CUDA-кода либо полагаются на доработку без обучения, либо выполняют тонкую настройку моделей в рамках фиксированных многопроходных циклов "выполнение-обратная связь", но обе парадигмы не позволяют фундаментально улучшить внутренние способности модели к оптимизации CUDA, что приводит к ограниченному приросту производительности. Мы представляем CUDA Agent — крупномасштабную агентскую систему обучения с подкреплением, которая развивает экспертизу в области CUDA-ядр через три компонента: масштабируемый конвейер синтеза данных, среду разработки CUDA с расширенными возможностями и автоматизированной верификацией и профилированием для обеспечения надежных сигналов вознаграждения, а также алгоритмические методы обучения с подкреплением, обеспечивающие стабильность обучения. CUDA Agent демонстрирует наилучшие результаты на KernelBench, обеспечивая в 100%, 100% и 92% случаев более высокую скорость по сравнению с torch.compile на уровнях сложности Level-1, Level-2 и Level-3 соответственно, и превосходит сильнейшие проприетарные модели, такие как Claude Opus 4.5 и Gemini 3 Pro, примерно на 40% в наиболее сложных условиях Level-3.
Последние достижения в области генерации изображений по текстовым описаниям значительно повысили визуальную достоверность и креативность, но также предъявили более высокие требования к сложности промптов — особенно в части кодирования сложных пространственных отношений. В таких случаях достижение удовлетворительных результатов часто требует множественных попыток сэмплирования. Для решения этой проблемы мы представляем новый метод, усиливающий пространственное понимание современных моделей генерации изображений. Сначала мы создали SpatialReward-Dataset, содержащий более 80 тыс. пар предпочтений. На основе этого набора данных мы построили SpatialScore — оценочную модель, предназначенную для оценки точности пространственных отношений в генерации изображений по тексту, которая демонстрирует результаты, превосходящие даже ведущие проприетарные модели в пространственной оценке. Мы также показываем, что данная оценочная модель эффективно обеспечивает онлайн-обучение с подкреплением для сложной пространственной генерации. Многочисленные эксперименты на различных бенчмарках демонстрируют, что наша специализированная оценочная модель обеспечивает значительный и стабильный прогресс в понимании пространственных аспектов при генерации изображений.
Надежность оценки многоязычных больших языковых моделей (LLM) в настоящее время подвергается сомнению из-за нестабильного качества переведенных эталонных тестов. Существующие ресурсы часто страдают от семантического сдвига и потери контекста, что может приводить к искаженным метрикам производительности. В данной работе мы представляем полностью автоматизированную систему, предназначенную для решения этих проблем путем обеспечения масштабируемого высококачественного перевода наборов данных и тестовых наборов. Мы демонстрируем, что адаптация стратегий масштабирования вычислений во время тестирования, в частности Универсального Самосовершенствования (USI) и нашего предлагаемого метода многотурового ранжирования T-RANK, позволяет достичь значительно более высокого качества результатов по сравнению с традиционными подходами. Наша система гарантирует, что эталонные тесты сохраняют свою исходную структуру задач и языковые нюансы в процессе локализации. Мы применяем этот подход для перевода популярных тестовых наборов и данных на восемь языков Восточной и Южной Европы (украинский, болгарский, словацкий, румынский, литовский, эстонский, турецкий, греческий). Оценки с использованием как метрик, основанных на эталонах, так и подхода LLM-as-a-judge показывают, что наши переводы превосходят существующие ресурсы, что приводит к более точной оценке моделей на последующих этапах. Мы публикуем как саму систему, так и улучшенные тестовые наборы для содействия надежной и воспроизводимой разработке многоязычного искусственного интеллекта.
Масштабирование генерации видео с секунд до минут сталкивается с критическим ограничением: хотя данные для коротких видео обильны и обладают высокой точностью, связные данные длительной формы скудны и ограничены узкими предметными областями. Для решения этой проблемы мы предлагаем парадигму обучения, в которой **Поиск Моды встречает Поиск Среднего**, разделяя локальную точность и долговременную связность на основе унифицированного представления с помощью Разделенного Трансформер-Диффузии. Наш подход использует глобальный модуль Сопоставления Потоков, обучаемый с учителем на длинных видео для захвата нарративной структуры, одновременно применяя локальный модуль Сопоставления Распределений, который выравнивает скользящие окна относительно замороженной модели-учителя для коротких видео с помощью расхождения обратного Кульбака-Лейблера, ориентированного на моду. Эта стратегия позволяет синтезировать видео минутного масштаба, которые изучают долгосрочную связность и движения из ограниченного количества длинных видео через контролируемое сопоставление потоков, одновременно наследуя локальный реализм путем выравнивания каждого сегмента скользящего окна ученика относительно замороженного учителя для коротких видео, что приводит к созданию быстрого генератора длинных видео за несколько шагов. Оценки показывают, что наш метод эффективно закрывает разрыв между точностью и горизонтом, совместно улучшая локальную резкость, движение и долгосрочную согласованность. Страница проекта: https://primecai.github.io/mmm/.
Спекулятивное декодирование ускоряет инференцию авторегрессионных больших языковых моделей (LLM) за счёт использования облегчённой черновой модели для предложения кандидатных токенов, которые затем параллельно проверяются целевой моделью. Скорость работы в значительной степени определяется процентом принятия (acceptance rate), однако стандартное обучение минимизирует расхождение Кульбака-Лейблера (KL) в качестве суррогатной цели. Хотя KL-расхождение и процент принятия имеют одинаковый глобальный оптимум, небольшие черновые модели с ограниченной ёмкостью обычно сходятся к субоптимальным решениям, где минимизация KL не гарантирует максимизацию процента принятия. Для решения этой проблемы мы предлагаем LK-функции потерь — специальные целевые функции обучения, непосредственно направленные на максимизацию процента принятия. Всесторонние эксперименты с четырьмя архитектурами черновых моделей и шестью целевыми моделями, варьирующимися от 8 до 685 миллиардов параметров, демонстрируют стабильное улучшение метрик принятия во всех конфигурациях по сравнению со стандартным обучением на основе KL. Мы оцениваем наш подход в общих, программных и математических областях и сообщаем о повышении средней длины принятия до 8-10%. LK-функции потерь просты в реализации, не вводят вычислительных накладных расходов и могут быть напрямую интегрированы в любую существующую систему обучения спекулятивных моделей, что делает их убедительной альтернативой существующим целям обучения черновых моделей.
Научные исследования опираются на точное цитирование для установления авторства и обеспечения добросовестности, однако большие языковые модели (БЯМ) создают новый риск: сфабрикованные ссылки, которые выглядят правдоподобно, но не соответствуют реальным публикациям. Такие галлюцинированные цитаты уже были обнаружены в материалах, представленных и принятых на крупных конференциях по машинному обучению, что выявляет уязвимости в системе рецензирования. В то же время, стремительно растущие списки литературы делают ручную проверку непрактичной, а существующие автоматизированные инструменты остаются уязвимыми к зашумленным и неоднородным форматам цитирования и не имеют стандартизированной оценки. Мы представляем первый комплексный бенчмарк и фреймворк для обнаружения галлюцинированных цитат в научных текстах. Наш конвейер верификации с использованием мульти-агентного подхода разбивает проверку цитирования на извлечение утверждений, поиск доказательств, сопоставление фрагментов текста, логический вывод и калиброванное суждение для оценки того, действительно ли цитируемый источник подтверждает соответствующее утверждение. Мы создаем крупномасштабный набор данных, проверенный человеком, в различных областях и определяем унифицированные метрики для достоверности цитирования и соответствия доказательств. Эксперименты с современными БЯМ выявляют значительное количество ошибок цитирования и показывают, что наш фреймворк значительно превосходит предыдущие методы как по точности, так и по интерпретируемости. Данная работа предоставляет первую масштабируемую инфраструктуру для аудита цитирования в эпоху БЯМ и практические инструменты для повышения надежности научных ссылок.
Композиционное обобщение — способность распознавать знакомые части в новых контекстах — является определяющим свойством интеллектуальных систем. Хотя современные модели обучаются на огромных наборах данных, они охватывают лишь малую часть комбинаторного пространства возможных входных данных, что ставит вопрос о том, какую структуру должны иметь репрезентации для обеспечения обобщения на невиданные комбинации. Мы формализуем три требования к композиционному обобщению при стандартном обучении (делимость, переносимость, стабильность) и показываем, что они накладывают необходимые геометрические ограничения: репрезентации должны линейно раскладываться на компоненты, соответствующие отдельным концептам, и эти компоненты должны быть ортогональны между концептами. Это дает теоретическое обоснование Гипотезы о линейной репрезентации: широко наблюдаемая линейная структура нейронных репрезентаций является необходимым следствием композиционного обобщения. Мы также выводим оценки размерности, связывающие количество композируемых концептов с геометрией эмбеддингов. Эмпирически мы проверяем эти предсказания на современных моделях компьютерного зрения (CLIP, SigLIP, DINO) и обнаруживаем, что репрезентации демонстрируют частичную линейную факторизацию с низкоранговыми, почти ортогональными факторами для каждого концепта, причем степень этой структуры коррелирует с композиционным обобщением на невиданные комбинации. По мере дальнейшего масштабирования моделей эти условия предсказывают геометрию репрезентаций, к которой они могут сходиться. Код доступен по адресу https://github.com/oshapio/necessary-compositionality.
Запоминаемость изображений, то есть вероятность того, что изображение будет запомнено, традиционно изучалась в компьютерном зрении либо как пассивная задача прогнозирования, где модели регрессируют скалярную оценку, либо с помощью генеративных методов, изменяющих визуальный вход для повышения вероятности запоминания изображения. Однако ни одна из этих парадигм не поддерживает пользователей в момент съемки, когда ключевым вопросом является то, как улучшить запоминаемость фотографии. Мы представляем задачу обратной связи по запоминаемости (MemFeed), в рамках которой автоматизированная модель должна предоставлять пользователям действенные, интерпретируемые человеком рекомендации с целью улучшения будущего вспоминания изображения. Также мы представляем MemCoach — первый подход, предназначенный для предоставления конкретных предложений на естественном языке по улучшению запоминаемости (например, «акцентируйте внимание на мимике», «выдвиньте объект на передний план»). Наш метод, основанный на мультимодальных больших языковых моделях (MLLM), не требует обучения и использует стратегию управления «учитель-ученик», выравнивая внутренние активации модели в сторону более запоминающихся паттернов, изученных от учительской модели, продвигающейся от наименее к наиболее запоминающимся образцам. Для обеспечения систематической оценки этой новой задачи мы также представляем MemBench — новый эталонный набор, содержащий последовательно снятые серии фотографий с аннотированными оценками запоминаемости. Наши эксперименты с учетом нескольких MLLM демонстрируют эффективность MemCoach, показывая стабильно улучшенную производительность по сравнению с несколькими zero-shot моделями. Результаты указывают на то, что запоминаемость не только можно предсказывать, но также ей можно обучать и давать инструкции, смещая фокус с простого прогнозирования на предоставление действенной обратной связи для людей-создателей.
Контрастное обучение стало краеугольным камнем современного обучения представлениям, позволяя обучать модели на огромных объемах немаркированных данных как для решения конкретных задач, так и для построения общих (фундаментальных) моделей. Типичной функцией потерь в контрастном обучении является InfoNCE и её варианты. В данной работе мы показываем, что целевая функция InfoNCE индуцирует гауссову структуру в представлениях, возникающих в результате контрастного обучения. Мы устанавливаем этот результат в двух взаимодополняющих режимах. Во-первых, мы показываем, что при определенных предположениях о выравнивании и концентрации проекции высокоразмерного представления асимптотически приближаются к многомерному гауссову распределению. Далее, при менее строгих предположениях, мы демонстрируем, что добавление малого асимптотически исчезающего регуляризационного члена, который способствует малой норме признаков и высокой энтропии признаков, приводит к схожим асимптотическим результатам. Мы подкрепляем наш анализ экспериментами на синтетических данных и наборе CIFAR-10 с использованием различных архитектур и размеров энкодеров, демонстрируя последовательное гауссово поведение. Данная перспектива дает принципиальное объяснение часто наблюдаемой гауссовости в контрастных представлениях. Получаемая гауссова модель позволяет проводить принципиальный аналитический анализ обученных представлений и, как ожидается, найдет широкое применение в контрастном обучении.
Задача понимания референтных выражений (Referring Expression Comprehension, REC) связывает язык с визуальным восприятием на уровне регионов. Стандартные бенчмарки (RefCOCO, RefCOCO+, RefCOCOg) быстро прогрессируют с появлением мультимодальных больших языковых моделей (LLM), но остаются слабыми тестами визуального мышления и привязки к реальности: (i) многие выражения очень короткие, что не требует сложных рассуждений; (ii) изображения часто содержат мало объектов-отвлекателей, что упрощает поиск цели; и (iii) избыточные дескрипторы позволяют использовать обходные решения, минуя подлинное понимание текста и визуальное рассуждение. Мы представляем Ref-Adv — современный бенчмарк для REC, который подавляет обходные пути за счет сочетания лингвистически нетривиальных выражений только с информацией, необходимой для однозначной идентификации цели. Набор данных содержит референтные выражения для реальных изображений, отобранных со сложными объектами-отвлекателями и аннотированных с учетом аспектов рассуждений, включая отрицание. Мы проводим всесторонние абляции (перестановки порядка слов и проверку достаточности удаления дескрипторов), чтобы показать, что решение Ref-Adv требует рассуждений, выходящих за рамки простых сигналов, и оцениваем широкий спектр современных мультимодальных LLM на Ref-Adv. Несмотря на высокие результаты на RefCOCO, RefCOCO+ и RefCOCOg, модели демонстрируют значительное снижение производительности на Ref-Adv, что выявляет их зависимость от обходных путей и пробелы в визуальном мышлении и привязке к реальности. Мы предоставляем детальный анализ ошибок и стремимся к тому, чтобы Ref-Adv направлял будущие работы в области визуального мышления и привязки к реальности в мультимодальных LLM.
В данной статье рассматривается важная и малоизученная проблема понимания длинных видео при ограниченных вычислительных ресурсах. Мы предлагаем LongVideo-R1 — активного мультимодального агента на основе большой языковой модели (MLLM), оснащенного модулем логического вывода, предназначенного для эффективной навигации по видеоконтексту без избыточного полного перебора. В основе LongVideo-R1 лежит модуль рассуждений, который использует визуальные подсказки высокого уровня для определения наиболее информативного фрагмента видео для последующей обработки. На этапе вывода агент начинает обход с визуальных суммаризаций верхнего уровня и итеративно уточняет фокус внимания, немедленно прекращая процесс исследования при получении достаточных знаний для ответа на запрос. Для обучения мы сначала извлекаем иерархические описания видео из CGBench — видеокорпуса с аннотациями привязки к контексту — и используем GPT-5 для генерации 33 тысяч высококачественных траекторий типа «рассуждение-с-инструментом» (chain-of-thought-with-tool). Агент LongVideo-R1 дообучается на основе модели Qwen-3-8B по двухэтапной парадигме: контролируемое тонкое настраивание (SFT) с последующим обучением с подкреплением (RL), где в RL применяется специально разработанная функция вознаграждения для максимизации избирательной и эффективной навигации по клипам. Эксперименты на нескольких наборах данных для длинных видео подтверждают эффективность предложенного метода, который демонстрирует превосходный баланс между точностью ответов на вопросы и эффективностью. Все подготовленные данные и исходный код представлены в дополнительных материалах и будут общедоступны. Код и данные доступны по адресу: https://github.com/qiujihao19/LongVideo-R1.
Модели маскированного генеративного изображения (MIGM) достигли значительных успехов, однако их эффективность ограничивается многошаговым механизмом двунаправленного внимания. Фактически, в их вычислениях присутствует значительная избыточность: при семплировании дискретных токенов теряется богатая семантика, содержащаяся в непрерывных признаках. Некоторые существующие работы пытаются кэшировать признаки для аппроксимации будущих характеристик. Однако они демонстрируют существенную ошибку аппроксимации при агрессивных коэффициентах ускорения. Мы объясняем это ограниченной выразительной способностью таких методов и игнорированием информации о семплировании. Для устранения этого пробела мы предлагаем обучение легковесной модели, которая учитывает как предыдущие признаки, так и семплированные токены, и регрессирует среднее поле скорости эволюции признаков. Модель обладает умеренной сложностью, достаточной для учета тонкой динамики, оставаясь при этом легковесной по сравнению с исходной базовой моделью. Мы применяем наш метод, MIGM-Shortcut, к двум репрезентативным архитектурам MIGM и задачам. В частности, для передовой модели Lumina-DiMOO метод обеспечивает более чем 4-кратное ускорение генерации изображений по текстовому описанию с сохранением качества, значительно сдвигая паретовскую границу возможностей маскированной генерации изображений. Код и веса моделей доступны по адресу https://github.com/Kaiwen-Zhu/MIGM-Shortcut.
Модели диффузии демонстрируют наивысшее качество генерации видео, но их вывод остается дорогостоящим из-за большого количества последовательных шагов денойзинга. Это стимулировало растущее направление исследований, посвященных ускорению вывода в диффузионных моделях. Среди методов ускорения, не требующих дообучения, кэширование позволяет снизить вычислительные затраты за счет повторного использования ранее вычисленных выходов модели на различных шагах по времени. Существующие методы кэширования опираются на эвристические критерии для выбора моментов кэширования/повторного использования и требуют тщательной настройки. Мы преодолеваем это ограничение с помощью принципиальной framework-осведомленности о чувствительности для кэширования. В частности, мы формализуем ошибку кэширования через анализ чувствительности выхода модели к возмущениям на входе денойзинга, а именно к зашумленному латентному представлению и шагу по времени, и показываем, что эта чувствительность является ключевым предиктором ошибки кэширования. На основе этого анализа мы предлагаем Sensitivity-Aware Caching (SenCache) — динамическую политику кэширования, которая адаптивно выбирает моменты кэширования для каждого отдельного примера. Наш framework обеспечивает теоретическое обоснование для адаптивного кэширования, объясняет, почему предыдущие эмпирические эвристики могут быть частично эффективны, и расширяет их до динамического, специфичного для каждого образца подхода. Эксперименты на Wan 2.1, CogVideoX и LTX-Video показывают, что SenCache обеспечивает лучшее визуальное качество по сравнению с существующими методами кэширования при аналогичных вычислительных бюджетах.
Трансформеры стали де-факто основой большинства современных достижений в моделировании последовательностей, главным образом благодаря их растущей ёмкости памяти, которая масштабируется с длиной контекста. Хотя это оправдано для задач поиска, это приводит к квадратичной сложности, что стимулировало недавние исследования по поиску жизнеспособных субквадратичных рекуррентных альтернатив. Несмотря на многообещающие предварительные результаты в различных областях, такие рекуррентные архитектуры уступают трансформерам в задачах, требующих интенсивного запоминания, что часто объясняется их памятью фиксированного размера. В данной статье мы представляем кэширование памяти (MC) — простой, но эффективный метод, который улучшает рекуррентные модели за счёт сохранения контрольных точек их состояний памяти (также известных как скрытые состояния). Кэширование памяти позволяет эффективной ёмкости памяти RNN расти с длиной последовательности, предлагая гибкий компромисс, интерполирующий между фиксированной памятью (т.е. сложностью O(L)) RNN и растущей памятью (т.е. сложностью O(L²)) трансформеров. Мы предлагаем четыре варианта MC, включая механизмы управляемой агрегации и разреженного выбора, и обсуждаем их влияние как на линейные, так и на глубокие модули памяти. Наши экспериментальные результаты по моделированию языка и задачам понимания длинного контекста показывают, что MC улучшает производительность рекуррентных моделей, подтверждая его эффективность. Результаты задач контекстного запоминания указывают на то, что хотя трансформеры достигают наилучшей точности, наши варианты MC демонстрируют конкурентную производительность, сокращают разрыв с трансформерами и превосходят современные рекуррентные модели.
Крупные языковые модели (LLM) движутся к единому искусственному коллективному разуму, где общая природа (априорные предпосылки предварительного обучения) приводит к глубокому коллапсу распределительного разнообразия, ограничивая уникальные перспективы, необходимые для творческого поиска и научных открытий. Для решения этой проблемы мы предлагаем наделять модели воспитанием в момент вывода (индивидуализированными эпистемическими траекториями) с использованием парадигмы Эпистемической Эволюции, проходящей этапы исследования, усвоения и выражения. Мы реализуем это с помощью PRISM (Плюралистические рассуждения через моделирование контекстной структуры) — модели-агностической системы, которая расширяет LLM за счет динамических оперативных эпистемических графов. На трех тестах на креативность PRISM демонстрирует наивысшую новизну и значительно расширяет распределительное разнообразие. Более того, мы оцениваем практическую полезность на сложном тесте по диагностике редких заболеваний. Результаты показывают, что PRISM успешно выявляет корректные диагнозы из "длинного хвоста", которые стандартные LLM упускают, подтверждая, что его расхождение проистекает из осмысленного исследования, а не из бессвязного шума. В целом, эта работа устанавливает новую парадигму для плюралистического ИИ, выходя за рамки монолитного консенсуса к разнообразной экосистеме уникальных когнитивных индивидов, способных к коллективному, многоперспективному открытию.
Порождающее извлечение стало мощной парадигмой для рекомендательных систем на основе больших языковых моделей. Однако промышленные рекомендательные системы часто выигрывают от ограничения пространства выбора узким подмножеством элементов на основе бизнес-логики (например, обеспечение актуальности контента или категории продукта), что стандартное авторегрессионное декодирование изначально не поддерживает. Более того, существующие методы ограниченного декодирования, использующие префиксные деревья (боры), приводят к значительным задержкам на аппаратных акселераторах (TPU/GPU). В данной работе мы представляем STATIC (Sparse Transition Matrix-Accelerated Trie Index for Constrained Decoding) — эффективную и масштабируемую технику ограниченного декодирования, специально разработанную для высокопроизводительного порождающего извлечения на основе LLM на TPU/GPU. Путем преобразования префиксного дерева в статическую разреженную матрицу в формате CSR мы трансформируем нерегулярные обходы дерева в полностью векторизованные операции с разреженными матрицами, достигая значительного прироста эффективности на аппаратных акселераторах. Мы развернули STATIC в крупномасштабной промышленной платформе рекомендаций видео, обслуживающей миллиарды пользователей. STATIC демонстрирует значительное влияние на продуктовые метрики при минимальных накладных расходах по задержке (0.033 мс на шаг и 0.25% времени вывода), достигая ускорения в 948 раз по сравнению с CPU-реализацией бора и в 47-1033 раза по сравнению с базовым методом на основе бинарного поиска на аппаратных ускорителях. Более того, runtime-накладные расходы STATIC остаются крайне низкими в широком диапазоне практических конфигураций. Насколько нам известно, STATIC позволяет осуществить первое промышленное внедрение строго ограниченного порождающего извлечения. Кроме того, оценка на академических бенчмарках показывает, что STATIC может значительно улучшить производительность порождающего извлечения в условиях холодного старта. Наш код доступен по адресу https://github.com/youtube/static-constraint-decoding.
Модели «визуальный язык» (VLM) демонстрируют выдающиеся способности к мультимодальному пониманию и рассуждению, однако остаются вычислительно дорогими из-за плотной визуальной токенизации. Существующие подходы к повышению эффективности либо объединяют избыточные визуальные токены, либо постепенно отбрасывают их в языковой основе, часто жертвуя точностью ради скорости. В данной работе мы предлагаем DUET-VLM — универсальную модульную структуру двойного сжатия, которая включает (a) осознанное сжатие избыточности только в визуальной области, преобразующее выходные данные визуального кодера в токены, сохраняющие информацию, с последующим (b) послойным, значимым текстово-управляемым отбрасыванием визуальных токенов внутри языковой основы для постепенного удаления менее информативных токенов. Такое согласованное управление токенами позволяет проводить агрессивное сжатие, сохраняя при этом критическую семантику. На LLaVA-1.5-7B наш подход сохраняет более 99% точности базового уровня при использовании на 67% меньше токенов и удерживает >97% даже при сокращении на 89%. Благодаря двухэтапному сжатию во время обучения достигается точность 99,7% при 67%-ном сокращении и 97,6% при 89%-ном, превосходя предыдущие методы сокращения визуальных токенов по состоянию на текущий момент (SoTA) на нескольких тестовых наборах. При интеграции в Video-LLaVA-7B метод даже превосходит базовый уровень — достигая точности >100% при значительном сокращении токенов на 53,1% и сохраняя 97,6% точности в экстремальных условиях сокращения на 93,4%. Эти результаты подчеркивают преимущество сквозного обучения с DUET-VLM, обеспечивающего устойчивую адаптацию к сокращенному визуальному (изображение/видео) входу без потери точности и создающего компактные, но семантически насыщенные представления в рамках того же вычислительного бюджета. Наш код доступен по адресу https://github.com/AMD-AGI/DUET-VLM.
В области моделей редактирования изображений на основе инструкций (IIEM) достигнут значительный прогресс. Однако, хотя эти модели демонстрируют правдоподобное следование инструкциям и высокие способности к рассуждению на существующих бенчмарках, их возможность редактирования мелких объектов остается недостаточно изученной, несмотря на важность этой задачи для точного локального редактирования и улучшения деталей как в реальных, так и в сгенерированных изображениях. В данной статье мы представляем DeepLookEditBench (DLEBench) — первый бенчмарк, специально предназначенный для оценки способностей IIEM к редактированию объектов малого масштаба. В частности, мы создали сложный тестовый набор, включающий 1889 образцов по семи типам инструкций. В этих образцах целевые объекты занимают всего 1–10% площади изображения, охватывая сложные сценарии, такие как частичное перекрытие и редактирование множественных объектов. Для обеспечения надежной оценки на этом бенчмарке мы предлагаем протокол оценки с уточненными критериями балльной системы, чтобы минимизировать субъективность и неоднозначность по двум критериям: Следование инструкции и Визуальная согласованность. Этот протокол также introduces двухрежимную систему оценки (Инструментальный и Оракульный режимы), решающую проблему расхождения между оценкой LMM-as-a-Judge и человеческими суждениями на DLEBench. Эмпирические результаты для 10 IIEM выявляют значительные разрывы в производительности при редактировании объектов малого масштаба, подчеркивая необходимость специализированных бенчмарков для развития данной способности.
Контекстная инженерия стала ключевой парадигмой для раскрытия потенциала больших языковых моделей (LLM) в задачах программной инженерии (SE), позволяя достигать повышения производительности во время тестирования без тонкой настройки моделей. Несмотря на успехи, существующие исследования не имеют систематической таксономии типов контекста, специфичных для SE, и специализированного эталона для количественной оценки разнородных эффектов различных контекстов в основных рабочих процессах SE. Для устранения этого пробела мы предлагаем CL4SE (Context Learning for Software Engineering) — комплексный эталон, включающий детализированную таксономию четырех типов контекста, ориентированных на SE (интерпретируемые примеры, проект-специфичный контекст, контекст процедурного принятия решений, а также позитивный и негативный контекст), каждый из которых сопоставлен с репрезентативной задачей (генерация кода, суммаризация кода, ревью кода и оценка корректности патчей). Мы создали высококачественные наборы данных, содержащие более 13 000 примеров из более чем 30 проектов с открытым исходным кодом, и оценили пять основных LLM по девяти метрикам. Масштабные эксперименты демонстрируют, что контекстное обучение обеспечивает среднее повышение производительности на 24,7% по всем задачам. В частности, процедурный контекст повышает производительность ревью кода до 33% (Qwen3-Max), смешанный позитивно-негативный контекст улучшает оценку патчей на 30% (DeepSeek-V3), проект-специфичный контекст увеличивает BLEU суммаризации кода на 14,78% (GPT-Oss-120B), а интерпретируемые примеры повышают PASS@1 генерации кода на 5,72% (DeepSeek-V3). CL4SE устанавливает первую стандартизированную систему оценки для контекстного обучения в SE, предоставляет практические эмпирические insights для проектирования контекста под конкретные задачи и публикует масштабируемый набор данных для обеспечения воспроизводимости исследований в данной области.
Последующее обучение с подкреплением (RL) недавно позволило достичь значительного прогресса в крупных языковых моделях (LLM), способных к длинным цепочкам рассуждений (chain-of-thought), однако высокая вычислительная стоимость вывода (inference) таких моделей стимулирует их дистилляцию в модели-ученики меньшего размера. Большинство существующих методов дистилляции знаний (KD) разработаны для обучения с учителем (SFT) и основаны на фиксированных траекториях учителя или регуляризации с использованием дивергенции Кульбака-Лейблера (KL) между учителем и учеником. При сочетании с RL эти подходы часто страдают от рассогласования распределений и интерференции целей: контроль со стороны учителя может не соответствовать эволюционирующему распределению траекторий ученика, а KL-регуляризатор может конфликтовать с максимизацией вознаграждения и требовать тщательного балансирования потерь. Для решения этих проблем мы предлагаем RL-осознанную дистилляцию (RLAD), которая осуществляет выборочное имитирование в процессе RL — направляя ученика в сторону учителя только тогда, когда это улучшает текущее обновление политики. Наш ключевой компонент, дистилляция на основе отношения доверительной области (TRRD), заменяет KL-регуляризатор "учитель-ученик" на целевой функционал, основанный на отношении правдоподобия в стиле PPO/GRPO и заякоренный на смеси политик учителя и старой политики, что обеспечивает учитывающую преимущества (advantage-aware), ограниченную доверительной областью дистилляцию на траекториях ученика и естественным образом балансирует исследование, использование и имитацию. На различных наборах данных для проверки логических и математических рассуждений RLAD последовательно превосходит оффлайн-дистилляцию, стандартный GRPO и основанную на KL дистилляцию знаний "учитель-ученик" на политике (on-policy).
Хотя современные крупные языковые модели (LLM) демонстрируют растущую эффективность при автономной работе, многие сложные задачи по-прежнему остаются за пределами возможностей одиночной LLM. Для решения таких задач до сих пор нет ясности в том, как оптимально использовать множество LLM в качестве компонентов и объединять их в единую систему. В данной позиционной статье утверждается, что потенциальные архитектурные решения для проектирования подобных модульных языковых агентов можно найти в существующей литературе по когнитивным моделям и алгоритмам искусственного интеллекта (ИИ). Чтобы проиллюстрировать эту идею, мы формализуем концепцию шаблона агента, который определяет роли для отдельных LLM и принципы композиции их функциональностей. Далее мы рассматриваем разнообразные существующие языковые агенты из литературы и выделяем лежащие в их основе шаблоны, непосредственно заимствованные из когнитивных моделей или алгоритмов ИИ. Акцентируя внимание на этих проектных решениях, мы стремимся привлечь внимание к шаблонам агентов, вдохновленным когнитивной наукой и ИИ, как к мощному инструменту для создания эффективных и интерпретируемых языковых агентов.