Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем Green-VLA — поэтапную структуру «Видение-Язык-Действие» (VLA) для развертывания на реальном гуманоидном роботе Green с сохранением обобщающей способности для различных воплощений. Green-VLA следует пятиступенчатой учебной программе: (L0) базовые VLM, (L1) мультимодальное заземление, (R0) предварительное обучение на множестве воплощений, (R1) адаптация под конкретное воплощение и (R2) согласование политики с помощью обучения с подкреплением (RL). Мы сочетаем масштабируемый конвейер обработки данных (3000 часов демонстраций) с временным выравниванием и фильтрацией качества, а также используем унифицированный интерфейс действий с учетом воплощения, позволяющий единой политике управлять гуманоидами, мобильными манипуляторами и стационарными манипуляторами. На этапе вывода контроллер VLA дополнен прогнозированием прогресса эпизода, обнаружением выбросов и управлением на основе совместного прогнозирования для повышения безопасности и точного выбора целей. Эксперименты на симуляторах Simpler BRIDGE WidowX и CALVIN ABC-D, а также оценки на реальном роботе демонстрируют высокую обобщающую способность и улучшение производительности благодаря RL-согласованию по показателям успешности, надежности и эффективности в долгосрочных задачах.
Мы представляем Kimi K2.5 — мультимодальную агентную модель с открытым исходным кодом, разработанную для развития общей агентной интеллектуальности. K2.5 фокусируется на совместной оптимизации текстовой и визуальной модальностей, чтобы они взаимно усиливали друг друга. Это включает в себя ряд методов, таких как совместное предварительное обучение на тексте и изображениях, тонкую настройку без визуального контекста (zero-vision SFT) и совместное обучение с подкреплением для текста и изображений. На основе этой мультимодальной архитектуры K2.5 представляет Agent Swarm — фреймворк самостоятельной параллельной оркестровки агентов, который динамически разбивает сложные задачи на гетерогенные подзадачи и выполняет их параллельно. Масштабные оценки показывают, что Kimi K2.5 достигает передовых результатов в различных областях, включая программирование, компьютерное зрение, логические рассуждения и агентные задачи. Agent Swarm также снижает задержку до 4.5 раз по сравнению с базовыми одноагентными подходами. Мы публикуем дообученный чекпоинт модели Kimi K2.5 для содействия будущим исследованиям и практическому применению агентного интеллекта.
Мультимодальные большие языковые модели (MLLM) достигли значительных успехов в решении широкого спектра визуальных задач. Однако, будучи ограниченными объемом внутренних знаний о мире, предыдущие исследования предлагали расширять возможности MLLM с помощью парадигмы «рассуждение-затем-вызов-инструмента» для взаимодействия с визуальными и текстовыми поисковыми системами, что позволило получить существенный прирост производительности на задачах, требующих обширной фактической информации. Тем не менее, эти подходы обычно определяют мультимодальный поиск в упрощенной постановке, предполагая, что единственного запроса на уровне целого изображения или сущности и нескольких текстовых запросов достаточно для извлечения ключевых свидетельств, необходимых для ответа на вопрос, что нереалистично в реальных сценариях с существенным визуальным шумом. Более того, они часто ограничены по глубине рассуждений и широте поиска, что затрудняет решение сложных вопросов, требующих агрегации свидетельств из разнообразных визуальных и текстовых источников. Основываясь на этом, мы предлагаем Vision-DeepResearch — новую парадигму мультимодального глубокого исследования, которая выполняет многоходовый, многосущностный и многомасштабный визуальный и текстовый поиск для устойчивой работы с реальными поисковыми системами в условиях сильного шума. Наш Vision-DeepResearch поддерживает десятки шагов рассуждений и сотни взаимодействий с поисковыми системами, одновременно интериоризируя возможности глубокого исследования в MLLM посредством холодного старта с учителем и обучения с подкреплением, что приводит к созданию мощной end-to-end MLLM для глубокого мультимодального исследования. Она существенно превосходит существующие MLLM для глубокого мультимодального исследования, а также рабочие процессы, построенные на основе мощных проприетарных фундаментальных моделей, таких как GPT-5, Gemini-2.5-pro и Claude-4-Sonnet. Код будет доступен по адресу https://github.com/Osilly/Vision-DeepResearch.
Мультимодальные большие языковые модели (MLLM) достигли прогресса в области визуального вопросно-ответных систем (VQA) и теперь поддерживают системы Vision-DeepResearch, использующие поисковые системы для сложного визуально-текстового поиска фактов. Однако оценка этих визуальных и текстовых поисковых способностей остается сложной задачей, и существующие эталоны имеют два основных ограничения. Во-первых, существующие эталоны не ориентированы на визуальный поиск: ответы, требующие визуального поиска, часто раскрываются через межтекстовые подсказки в текстовых вопросах или могут быть выведены из априорных знаний мира, имеющихся в текущих MLLM. Во-вторых, излишне идеализированный сценарий оценки: со стороны поиска по изображениям необходимая информация часто может быть получена путем почти точного соответствия с полным изображением, в то время как текстовый поиск является чрезмерно прямым и недостаточно сложным. Для решения этих проблем мы создали эталон Vision-DeepResearch (VDR-Bench), состоящий из 2000 экземпляров VQA. Все вопросы созданы с помощью тщательного многоэтапного процесса курации и строгого экспертного обзора, предназначенного для оценки поведения систем Vision-DeepResearch в реалистичных условиях реального мира. Кроме того, для решения проблемы недостаточных возможностей визуального поиска современных MLLM мы предлагаем простой рабочий процесс многократного поиска по фрагментам изображения. Показано, что эта стратегия эффективно улучшает производительность модели в реалистичных сценариях визуального поиска. В целом, наши результаты предоставляют практические рекомендации для проектирования будущих мультимодальных систем углубленного поиска. Код будет доступен по адресу https://github.com/Osilly/Vision-DeepResearch.
Современные агенты для работы с репозиториями сталкиваются с разрывом в логических рассуждениях из-за фрагментированных представлений, поскольку существующие методы опираются на изолированную документацию API или графы зависимостей, лишенные семантической глубины. Мы рассматриваем понимание репозитория и генерацию как взаимно обратные процессы в рамках единого цикла: генерация разворачивает замысел в реализацию, тогда как понимание сжимает реализацию обратно в замысел. Для решения этой проблемы мы предлагаем RPG-Encoder — фреймворк, который обобщает Граф Планирования Репозитория (RPG) из статического генеративного чертежа в унифицированное высокоточное представление. RPG-Encoder замыкает цикл рассуждений за счет трех механизмов: (1) Кодирование исходного кода в RPG, который сочетает извлеченные семантические признаки с зависимостями кода; (2) Инкрементальная эволюция топологии для разделения затрат на поддержку и масштаба репозитория, что снижает нагрузку на 95,7%; и (3) Функционирование в качестве унифицированного интерфейса для навигации с учетом структуры. В ходе оценки RPG-Encoder демонстрирует наилучшие в своем классе результаты по пониманию репозиториев на SWE-bench Verified с показателем 93,7% Acc@5 и превосходит лучший базовый метод более чем на 10% на SWE-bench Live Lite. Эти результаты подчеркивают нашу превосходную точность детальной локализации в сложных кодобазах. Кроме того, достигается 98,5% покрытия реконструкции на RepoCraft, что подтверждает способность RPG с высокой точностью отражать исходную кодобазу и замыкать цикл между замыслом и реализацией.
Унифицированные мультимодальные модели часто испытывают трудности со сложными задачами синтеза, требующими глубоких рассуждений, и обычно рассматривают генерацию изображений по тексту и редактирование изображений как изолированные возможности, а не взаимосвязанные этапы рассуждений. Для решения этой проблемы мы предлагаем UniReason — унифицированную структуру, которая согласует эти две задачи через двойственную парадигму рассуждений. Мы формулируем генерацию как планирование, обогащённое знаниями о мире, для внедрения имплицитных ограничений, и используем возможности редактирования для тонкой визуальной доработки с целью дальнейшего исправления визуальных ошибок через саморефлексию. Этот подход объединяет генерацию и редактирование в рамках общего представления, отражая когнитивный процесс человека, состоящий из планирования и последующего уточнения. Мы поддерживаем эту структуру путём систематического создания крупномасштабного набора данных (~300 тыс. примеров), ориентированного на рассуждения и охватывающего пять основных областей знаний (например, культурные общие знания, физику и т.д.) для планирования, а также корпуса, сгенерированного агентом, для визуальной самокоррекции. Многочисленные эксперименты демонстрируют, что UniReason достигает передовых результатов в тестах, требующих интенсивных рассуждений, таких как WISE, KrisBench и UniREditBench, сохраняя при этом превосходные общие возможности синтеза.
Мы представляем SWE-Universe, масштабируемую и эффективную систему для автоматического построения верифицируемых сред реальной разработки программного обеспечения (SWE) из pull request'ов (PR) на GitHub. Чтобы преодолеть распространенные проблемы автоматизированного построения, такие как низкая производительность, слабые верификаторы и запретительно высокая стоимость, наша система использует агент сборки на основе эффективной специально обученной модели. Этот агент применяет итеративную самопроверку и обнаружение взлома в цикле для обеспечения надежной генерации высокоточных, верифицируемых задач. Используя этот метод, мы масштабировали количество реальных многоязычных сред SWE до миллионов (807 693). Мы демонстрируем глубокую ценность наших сред посредством крупномасштабного агентного промежуточного обучения и обучения с подкреплением. Наконец, мы применили эту технику к Qwen3-Max-Thinking и достигли результата в 75,3% на SWE-Bench Verified. Наша работа предоставляет как критически важный ресурс, так и надежную методологию для продвижения следующего поколения кодирующих агентов.
Глубокое исследование становится репрезентативной задачей с длительным горизонтом для агентов на основе больших языковых моделей (LLM). Однако длинные траектории в глубоком исследовании часто превышают ограничения контекста модели, сжимая бюджет токенов как для сбора доказательств, так и для написания отчета, и препятствуя эффективному масштабированию во время тестирования. Мы представляем FS-Researcher, файлово-ориентированную дуальную агентскую систему, которая масштабирует глубокое исследование за пределы окна контекста с помощью постоянного рабочего пространства. В частности, агент-«Сборщик Контекста» действует как библиотекарь, который просматривает интернет, пишет структурированные заметки и архивирует исходные материалы в иерархическую базу знаний, способную расти далеко за пределы длины контекста. Затем агент-«Автор Отчета» составляет итоговый отчет по разделам, используя базу знаний в качестве источника фактов. В этой системе файловая система служит долговременной внешней памятью и общим средством координации между агентами и сеансами, позволяя проводить итеративное уточнение за пределами окна контекста. Эксперименты на двух открытых бенчмарках (DeepResearch Bench и DeepConsult) показывают, что FS-Researcher достигает высочайшего качества отчетов на различных базовых моделях. Дальнейший анализ демонстрирует положительную корреляцию между качеством итогового отчета и вычислительными ресурсами, выделенными Сборщику Контекста, что подтверждает эффективное масштабирование во время тестирования в рамках файловой парадигмы. Код и данные анонимно открыты по адресу https://github.com/Ignoramus0817/FS-Researcher.
Пиксельная диффузия генерирует изображения непосредственно в пиксельном пространстве сквозным образом, избегая артефактов и узких мест, привносимых VAEs в двухэтапной латентной диффузии. Однако оптимизация многомерных пиксельных многообразий, содержащих множество перцептивно нерелевантных сигналов, является сложной задачей, из-за чего существующие методы пиксельной диффузии отстают от латентных диффузионных моделей. Мы предлагаем PixelGen — простую структуру пиксельной диффузии с перцептивным контролем. Вместо моделирования полного многообразия изображений PixelGen вводит два комплементарных перцептивных лосса, которые направляют диффузионную модель на изучение более осмысленного перцептивного многообразия. LPIPS-лосс способствует лучшему обучению локальных паттернов, тогда как перцептивный лосс на основе DINO усиливает глобальную семантику. Благодаря перцептивному контролю PixelGen превосходит сильные базовые модели латентной диффузии. Метод достигает FID 5.11 на ImageNet-256 без классификатор-фри гайданса, используя всего 80 эпох обучения, и демонстрирует благоприятные масштабируемые характеристики при крупномасштабной текстово-ориентированной генерации с показателем GenEval 0.79. PixelGen не требует VAEs, латентных представлений и вспомогательных этапов, предлагая более простую, но мощную генеративную парадигму. Код доступен по адресу https://github.com/Zehong-Ma/PixelGen.
Прогрессивное обучение (Progressive Learning, PL) снижает вычислительные затраты на предварительное обучение за счёт постепенного увеличения масштаба модели. В то время как предыдущие работы широко исследовали расширение по глубине, расширение по ширине остаётся значительно менее изученным, а немногочисленные существующие методы ограничиваются ранними стадиями обучения. Однако расширение ширины на средней стадии критически важно для максимизации вычислительной экономии, но остаётся сложной проблемой из-за серьёзной нестабильности обучения. Эмпирически мы показываем, что наивная инициализация на этом этапе нарушает статистику активаций, вызывая скачки потерь, в то время как инициализация копированием порождает симметрию градиентов, которая препятствует разнообразию признаков. Для решения этих проблем мы предлагаем SPARKLING (балансировка {S}охранения сигнала {A}нд разрыва симметрии{R} для {K}обучения с прогрессивным увеличением ширины{ING}) — новую структуру для расширения ширины на средней стадии. Наш метод обеспечивает сохранение сигнала через согласованность RMS-масштаба, стабилизируя статистику активаций при расширении. Разрыв симметрии гарантируется за счёт асимметричного сброса состояния оптимизатора и повторного разогрева скорости обучения. Масштабные эксперименты на моделях Mixture-of-Experts (MoE) демонстрируют, что при различных осях расширения ширины и семействах оптимизаторов SPARKLING стабильно превосходит обучение с нуля и снижает стоимость обучения до 35% при двукратном расширении ширины.
Рекомендательные системы на основе семантических идентификаторов (SID) представляют собой перспективную парадигму для масштабирования последовательных рекомендательных систем. Однако существующие методы в основном следуют семантико-центричному подходу: эмбеддинги элементов извлекаются с помощью базовых моделей и дискретизируются с использованием общих схем квантования. Данный подход не согласуется с задачами генеративного рекомендательного моделирования: семантические эмбеддинги слабо связаны с коллаборативной фильтрацией, а универсальное квантование неэффективно снижает последовательную неопределенность для авторегрессионного моделирования. Для решения этих проблем мы предлагаем ReSID — принципиальную SID-архитектуру, изначально ориентированную на рекомендации, которая переосмысливает обучение представлений и квантование с точки зрения сохранения информации и последовательной предсказуемости, не полагаясь на большие языковые модели. ReSID состоит из двух компонентов: (i) Field-Aware Masked Auto-Encoding (FAMAE), который изучает достаточные для предсказания представления элементов на основе структурированных признаков, и (ii) Globally Aligned Orthogonal Quantization (GAOQ), который создает компактные и предсказуемые SID-последовательности, совместно уменьшая семантическую неоднозначность и условную неопределенность префиксов. Теоретический анализ и масштабные эксперименты на десяти наборах данных демонстрируют эффективность ReSID. Наш метод стабильно превосходит сильные последовательные и SID-базированные генеративные базовые линии в среднем более чем на 10%, одновременно сокращая стоимость токенизации до 122 раз. Код доступен по адресу https://github.com/FuCongResearchSquad/ReSID.
Посттренировка рассуждающих больших языковых моделей (LLM) — это целостный процесс, который обычно состоит из офлайн-этапа SFT (тонкой настройки с учителем), за которым следует этап онлайн-обучения с подкреплением (RL). Однако SFT часто оптимизируют изолированно, стремясь максимизировать только её непосредственные показатели. Мы показываем, что после идентичной RL-тренировки модели, инициализированные из более сильных чекпоинтов SFT, могут значительно уступать по производительности моделям, инициализированным из более слабых. Мы объясняем это несоответствием, типичным для современных SFT-RL конвейеров: распределение, которое генерирует офлайн-данные для SFT, может существенно отличаться от политики, оптимизируемой в ходе онлайн-RL, которая учится на собственных прогонах (rollouts). Мы предлагаем PEAR (Policy Evaluation-inspired Algorithm for Offline Learning Loss Re-weighting) — метод для этапа SFT, который исправляет это несоответствие и лучше подготавливает модель к RL. PEAR использует важное взвешивание (importance sampling) для перевзвешивания потерь SFT, предлагая три варианта, работающих на уровне токенов, блоков и последовательностей. Его можно использовать для дополнения стандартных целей SFT, и он требует небольших дополнительных вычислительных затрат после сбора вероятностей для офлайн-данных. Мы провели контролируемые эксперименты на верифицируемых играх на рассуждение и задачах математического мышления на моделях Qwen 2.5, Qwen 3 и DeepSeek-distilled. PEAR стабильно улучшает результаты после RL по сравнению с канонической SFT, демонстрируя прирост в метрике "pass@8" до 14.6% на AIME2025. Наши результаты свидетельствуют о том, что PEAR является эффективным шагом к более целостной посттренировке LLM, поскольку он предполагает проектирование и оценку SFT с учётом последующего этапа RL, а не изолированно.
Мобильные графические модели мира (World Models, WM) с графическим интерфейсом (GUI) открывают перспективный путь для повышения производительности мобильных GUI-агентов на этапах обучения и логического вывода. Однако современные подходы сталкиваются с ключевым компромиссом: текстовые WM жертвуют визуальной точностью, в то время как неспособность визуальных WM к точному рендерингу текста вынуждает их полагаться на медленные, сложные конвейеры, зависящие от множества внешних моделей. Мы предлагаем новую парадигму: визуальное моделирование мира через генерацию исполняемого кода, в которой одна модель "визуальный язык" (Vision-Language Model, VLM) предсказывает следующее состояние GUI в виде исполняемого веб-кода, который рендерится в пиксели, а не генерирует пиксели напрямую. Это сочетает преимущества обоих подходов: VLM сохраняют лингвистические априорные знания для точного рендеринга текста, а их предварительное обучение на структурированном веб-коде позволяет обеспечить визуальную генерацию высокой точности. Мы представляем gWorld (8B, 32B) — первые модели визуальных мобильных GUI WM с открытыми весами, построенные на этой парадигме, вместе с фреймворком генерации данных (gWorld), который автоматически синтезирует обучающие данные на основе кода. В ходе всесторонней оценки на 4 внутри- и 2 внераспределенных бенчмарках gWorld устанавливает новую парето-границу по соотношению "точность — размер модели", превосходя 8 передовых моделей с открытыми весами, которые более чем в 50.25 раз крупнее. Дальнейший анализ показывает, что (1) масштабирование обучающих данных с помощью gWorld дает значительный прирост, (2) каждый компонент нашего конвейера улучшает качество данных и (3) более сильное моделирование мира повышает производительность политик мобильного GUI на последующих задачах.
Графовый поисково-генерирующий подход (GraphRAG) организует внешние знания в виде иерархического графа, обеспечивая эффективное извлечение и агрегацию разрозненных свидетельств из множества документов. Однако многие существующие бенчмарки для GraphRAG полагаются на короткие, курируемые текстовые фрагменты в качестве внешних знаний, не позволяя адекватно оценивать системы в реалистичных условиях, предполагающих длинные контексты и крупномасштабные гетерогенные документы. Для преодоления этого разрыва мы представляем WildGraphBench — бенчмарк, разработанный для оценки производительности GraphRAG в реальных условиях. Мы используем уникальную структуру Википедии, где связные повествования основаны на длинных и разнородных внешних справочных документах, для построения бенчмарка, отражающего сценарии из реальной практики. В частности, мы выбираем статьи из 12 тематических категорий верхнего уровня, используя их внешние ссылки в качестве корпуса для поиска, а утверждения, связанные с цитированием, — в качестве эталонных данных, получая в итоге 1100 вопросов, охватывающих три уровня сложности: вопросы на одиночный факт, вопросы на множественные факты и суммаризацию на уровне разделов. Эксперименты с несколькими базовыми моделями показывают, что современные GraphRAG-пайплайны помогают при агрегации множественных фактов, когда свидетельства поступают из умеренного числа источников, но данная парадигма агрегации может чрезмерно акцентировать обобщающие утверждения в ущерб детализированным сведениям, что приводит к снижению производительности на задачах суммаризации. Страница проекта: https://github.com/BstWPY/WildGraphBench.
Цепрассуждение (Chain-of-Thought) позволило большим языковым моделям перейти от мышления с помощью текста к мышлению с помощью изображений и видео. Однако у разных модальностей сохраняются явные ограничения: статичные изображения плохо передают временную структуру, а видео вносят значительную избыточность и вычислительные затраты. В данной работе мы предлагаем «Мышление с помощью комиксов» — парадигму визуального рассуждения, которая использует комиксы как среду с высокой плотностью информации, занимающую промежуточное положение между изображениями и видео. Комиксы сохраняют временную структуру, встроенный текст и нарративную связность, требуя при этом значительно меньших вычислительных затрат на рассуждение. Мы систематически исследуем два пути рассуждения на основе комиксов и оцениваем их на ряде задач логического вывода и задач понимания длинного контекста. Результаты экспериментов показывают, что «Мышление с помощью комиксов» превосходит «Мышление с помощью изображений» в многошаговых задачах временного и причинно-следственного рассуждения, оставаясь при этом существенно более эффективным, чем «Мышление с помощью видео». Дальнейший анализ указывает на то, что различные нарративные структуры и стили комиксов последовательно влияют на результаты across задачами, что позволяет предположить, что комиксы служат эффективным промежуточным визуальным представлением для улучшения мультимодального рассуждения.
Мы представляем RLAnything — фреймворк обучения с подкреплением, который динамически формирует модели среды, политики и вознаграждения посредством замкнутой оптимизации, усиливая обучающие сигналы и укрепляя общую систему RL для любых сценариев с большими языковыми моделями (LLM) или агентами. В частности, политика обучается с интегрированной обратной связью от пошаговых и результирующих сигналов, в то время как модель вознаграждения совместно оптимизируется через согласованную обратную связь, что, в свою очередь, дополнительно улучшает обучение политики. Более того, наша теоретически обоснованная автоматическая адаптация среды улучшает обучение как моделей вознаграждения, так и политик, используя критическую обратную связь от каждой из них, что позволяет обучаться на основе опыта. Экспериментально показано, что каждый добавленный компонент последовательно улучшает общую систему, и RLAnything обеспечивает существенный прирост производительности в различных репрезентативных задачах для LLM и агентов: повышение показателей Qwen3-VL-8B-Thinking на 9,1% на OSWorld, а Qwen2.5-7B-Instruct — на 18,7% и 11,9% на AlfWorld и LiveBench соответственно. Мы также демонстрируем, что оптимизированные сигналы модели вознаграждения превосходят результаты, основанные на человеческих разметках. Код: https://github.com/Gen-Verse/Open-AgentRL
Глубокие исследовательские агенты (DRA) продемонстрировали впечатляющие способности в автономном поиске информации и генерации отчетов, показав большой потенциал для помощи людям в выполнении сложных исследовательских задач. Современные системы оценки в основном полагаются на сгенерированные большими языковыми моделями (LLM) эталоны или производные от LLM критерии оценки. Хотя такие подходы обеспечивают масштабируемость, они часто не обладают надежностью экспертно-проверенного контента и не способны обеспечить объективную, детализированную оценку по ключевым параметрам. Для преодоления этого разрыва мы представляем Wiki Live Challenge (WLC) — динамичный бенчмарк, использующий новейшие «Хорошие статьи» (Good Articles, GA) Википедии в качестве экспертных эталонов. Строгие стандарты Википедии в отношении нейтральности, полноты и проверяемости представляют собой серьезный вызов для DRA, а «Хорошие статьи» являются вершиной соответствия этим стандартам. Мы собрали набор данных из 100 недавних «Хороших статей» и предлагаем Wiki Eval — комплексную систему оценки, включающую детализированный метод оценки с 39 критериями качества написания и строгие метрики фактической проверяемости. Многочисленные эксперименты с различными системами DRA выявили значительный разрыв между современными агентами и статьями Википедии, созданными экспертами-людьми, что подтверждает эффективность WLC для развития исследований в области агентов. Мы публикуем наш бенчмарк по адресу: https://github.com/WangShao2000/Wiki_Live_Challenge.
Методы прямой оптимизации предпочтений стали вычислительно эффективной альтернативой обучению с подкреплением на основе человеческих откликов (RLHF) для согласования больших языковых моделей (LLM). Современные подходы упростили процесс согласования за счёт выведения неявных функций вознаграждения, однако они часто страдают от фундаментального несоответствия целей: оптимизация относительного отступа между выбранными и отвергнутыми ответами не гарантирует сохранения абсолютной вероятности выбранного ответа. Это может приводить к «разучиванию», когда модель снижает вероятность высококачественных выходных данных для удовлетворения ограничений на отступ, и «коллапсу форматирования», вызванному чрезмерным штрафованием отвергнутых последовательностей. В данной работе мы представляем SLIME (Stabilized Likelihood Implicit Margin Enforcement) — цель согласования без эталонной модели, предназначенную для разделения обучения предпочтениям и качества генерации. SLIME включает трёхкомпонентную цель: (1) якорный член для максимизации правдоподобия предпочтительных ответов; (2) стабилизирующий штраф, предотвращающий схлопывание вероятностей отвергнутых токенов к нулю; и (3) механизм двойного отступа, комбинирующий жёсткие и мягкие ограничения для точного формирования границ. Наши результаты демонстрируют, что SLIME превосходит современные базовые методы по производительности, сохраняя при этом более высокую стабильность генерации.
Авторегрессионные диффузионные модели видео позволяют осуществлять потоковую генерацию, открывая путь к синтезу длинных последовательностей, видео-мировым моделям и интерактивным нейросетевым игровым движкам. Однако их ключевые слои внимания становятся основным узким местом на этапе вывода: по мере генерации кэш ключей-значений (KV-кэш) растет, что приводит к увеличению задержки и росту потребляемой памяти GPU, что, в свою очередь, ограничивает используемый временной контекст и нарушает долгосрочную согласованность. В данной работе мы исследуем избыточность в авторегрессионной диффузии видео и выявляем три устойчивых источника: почти идентичные кэшированные ключи между кадрами, медленно эволюционирующие (в основном семантические) запросы/ключи, которые делают многие вычисления внимания избыточными, и кросс-внимание по длинным промптам, где для каждого кадра важна лишь небольшая подмножество токенов. Опираясь на эти наблюдения, мы предлагаем унифицированную, не требующую дообучения, архитектуру внимания для авторегрессионной диффузии: TempCache сжимает KV-кэш с помощью временных соответствий, чтобы ограничить его рост; AnnCA ускоряет кросс-внимание, выбирая релевантные для кадра токены промпта с помощью быстрого приближенного поиска ближайших соседей (ANN); и AnnSA разреживает самовнимание, ограничивая каждый запрос семантически соответствующими ключами, также используя легковесный ANN. Вместе эти модули сокращают затраты на внимание, вычисления и память и совместимы с существующими авторегрессионными диффузионными архитектурами и мировыми моделями. Эксперименты демонстрируют до 5–10-кратного ускорения end-to-end при сохранении практически идентичного визуального качества и, что критически важно, поддержании стабильной пропускной способности и почти постоянного пикового потребления памяти GPU при длительных прогонах, в то время как предыдущие методы постепенно замедляются и страдают от растущего потребления памяти.
Для достижения интерактивной генерации видео в реальном времени современные методы дистиллируют предобученные двунаправленные модели видео-диффузии в авторегрессионные (AR) модели с малым числом шагов, сталкиваясь с архитектурным разрывом при замене полного внимания на причинное внимание. Однако существующие подходы не преодолевают этот разрыв теоретически. Они инициализируют AR-ученика через ODE-дистилляцию, что требует инъективности на уровне кадров: каждый зашумленный кадр должен однозначно отображаться на чистый кадр в соответствии с PF-ODE AR-учителя. Дистилляция AR-ученика от двунаправленного учителя нарушает это условие, препятствуя восстановлению потока учителя и приводя к условно-математическому ожиданию, что снижает качество. Для решения этой проблемы мы предлагаем Causal Forcing — метод, использующий AR-учителя для ODE-инициализации, тем самым устраняя архитектурный разрыв. Эксперименты показывают, что наш метод превосходит все базовые подходы по всем метрикам, опережая состояние искусства (Self Forcing) на 19.3% по Dynamic Degree, 8.7% по VisionReward и 16.7% по Instruction Following. Страница проекта и код: https://thu-ml.github.io/CausalForcing.github.io/.
Генерация видео по тексту (Text-to-Video, T2V) направлена на синтез видео с высоким визуальным качеством и временной согласованностью, которые семантически соответствуют входному тексту. Пост-тренинг на основе вознаграждений стал перспективным направлением для улучшения качества и семантического соответствия генерируемых видео. Однако современные методы либо полагаются на масштабные аннотации человеческих предпочтений, либо работают с несогласованными эмбеддингами из предварительно обученных визуально-языковых моделей, что приводит к ограниченной масштабируемости или субоптимальному контролю. Мы представляем PISCES — алгоритм пост-тренинга, не требующий аннотаций, который решает эти ограничения с помощью нового модуля Dual Optimal Transport (OT)-aligned Rewards. Чтобы согласовать сигналы вознаграждения с человеческим восприятием, PISCES использует оптимальное транспортирование (OT) для согласования текстовых и видео эмбеддингов как на распределенном, так и на дискретном токенном уровнях, что позволяет обеспечить выполнение двух целей: (i) Distributional OT-aligned Quality Reward, который оценивает общее визуальное качество и временную согласованность; и (ii) Discrete Token-level OT-aligned Semantic Reward, который обеспечивает семантическое пространственно-временное соответствие между текстовыми и видео токенами. Насколько нам известно, PISCES является первым методом, улучшающим контроль вознаграждения без аннотаций в генеративном пост-тренинге с использованием подхода оптимального транспортирования. Эксперименты на генерации как коротких, так и длинных видео показывают, что PISCES превосходит как методы с аннотациями, так и без них по показателям VBench по критериям Качества и Семантики, а исследования человеческих предпочтений дополнительно подтверждают его эффективность. Мы демонстрируем, что модуль Dual OT-aligned Rewards совместим с несколькими парадигмами оптимизации, включая прямое распространение ошибки и тонкую настройку с подкреплением.
Хотя генерация изображений по тексту достигла беспрецедентной точности, подавляющее большинство существующих моделей функционируют по своей сути как статические декодеры «текст-в-пиксели». Как следствие, они часто не улавливают неявные намерения пользователя. Несмотря на то, что новые унифицированные модели понимания-генерации улучшили распознавание intent, они по-прежнему испытывают трудности с выполнением задач, требующих сложных логических выводов на основе знаний, в рамках единой модели. Более того, ограниченные статическими внутренними априорными представлениями, эти модели остаются неспособными адаптироваться к изменяющейся динамике реального мира. Для преодоления этих пробелов мы представляем Mind-Brush — унифицированную агентскую платформу, преобразующую генерацию в динамический workflow, управляемый знаниями. Имитируя человеческую парадигму «думай-исследуй-создавай», Mind-Brush активно извлекает мультимодальные свидетельства для обоснования концепций вне распределения данных и использует инструменты логического вывода для разрешения неявных визуальных ограничений. Для строгой оценки этих возможностей мы предлагаем Mind-Bench — комплексный бенчмарк, содержащий 500 уникальных образцов, охватывающих новости в реальном времени, emerging concepts и такие области, как математические и пространственные рассуждения. Многочисленные эксперименты демонстрируют, что Mind-Brush существенно расширяет возможности унифицированных моделей, обеспечивая скачок способностей от нуля к единице для базовой модели Qwen-Image на Mind-Bench, одновременно достигая превосходных результатов на устоявшихся бенчмарках, таких как WISE и RISE.
Растут усилия по совершенствованию дистилляции знаний (KD) в больших языковых моделях (LLM), где плотный контроль со стороны учителя заменяется селективной дистилляцией, использующей подмножество позиций токенов, классов словаря или обучающих примеров для контроля. Однако остается неясным, какие сигналы важности, стратегии отбора и их взаимодействие являются наиболее эффективными. В данной работе мы пересматриваем, где и как проводить дистилляцию в авторегрессионных LLM. Мы разделяем селективную KD по осям позиции, класса и примера и систематически сравниваем сигналы важности и стратегии отбора. Затем, руководствуясь этим анализом, мы выявляем недостаточно изученные возможности и представляем выбор позиций на основе энтропии студента (SE-KD). На наборе бенчмарков SE-KD часто превосходит плотную дистилляцию по точности, соответствию решаемым задачам и эффективности использования памяти. Расширение этого подхода на оси класса и примера (SE-KD 3X) дает дополнительные выгоды в эффективности, что делает возможным кэширование учителя в оффлайн-режиме. На практике это сокращает общее время выполнения на 70% и пиковое использование памяти на 18%, одновременно уменьшая объем хранилища на 80% по сравнению с предыдущими методами без ущерба для производительности.
Глубокие исследовательские агенты на основе больших языковых моделей (LLM) в основном построены на архитектуре ReAct. Такое линейное проектирование затрудняет возврат к предыдущим состояниям, ветвление в альтернативных направлениях поиска или поддержание глобального контекста при длинных последовательностях, что часто приводит к локальным оптимумам, избыточному исследованию и неэффективному поиску. Мы предлагаем Re-TRAC — агентский фреймворк, который осуществляет межтраекторное исследование путем генерации структурированного представления состояния после каждой траектории для обобщения доказательств, неопределенностей, неудач и будущих планов, и обусловливает последующие траектории этим представлением состояния. Это позволяет осуществлять итеративную рефлексию и глобально информированное планирование, переосмысливая исследование как прогрессивный процесс. Эмпирические результаты показывают, что Re-TRAC стабильно превосходит ReAct на 15–20% в тесте BrowseComp при использовании передовых LLM. Для меньших моделей мы вводим контролируемое тонкое обучение с учетом Re-TRAC, достигая наилучшей производительности на сопоставимых масштабах. Примечательно, что Re-TRAC демонстрирует монотонное сокращение количества вызовов инструментов и использования токенов между раундами, что указывает на прогрессивно целенаправленное исследование, движимое межтраекторной рефлексией, а не избыточным поиском.
Мы представляем FSVideo — быстрый трансформерный фреймворк для диффузионного преобразования изображений в видео (I2V), основанный на следующих ключевых компонентах: 1) новый видеоавтокодировщик с высокостепенной компрессией латентного пространства (коэффициент пространственно-временного сжатия 64×64×4), обеспечивающий конкурентоспособное качество реконструкции; 2) архитектура диффузионного трансформера (DIT) с новой схемой организации памяти слоёв для улучшения межслойного потока информации и повторного использования контекста внутри DIT; 3) стратегия генерации в многомасштабном разрешении с помощью малошагового апсемплера на основе DIT для повышения детализации видео. Наша итоговая модель, включающая базовую 14B-параметрическую DIT-модель и 14B-параметрический DIT-апсемплер, демонстрирует конкурентоспособные результаты по сравнению с другими популярными открытыми моделями, при этом работая на порядок быстрее. В данном отчёте мы обсуждаем архитектурные решения и стратегии обучения нашей модели.
Японский финансовый язык сочетает агглютинативную, правостороннюю лингвистическую структуру, смешанные системы письма и нормы коммуникации с высоким контекстом, основанные на косвенном выражении и неявных обязательствах, что создает серьезные трудности для больших языковых моделей (LLM). Мы представляем Ebisu — эталонный тест для оценки понимания японского финансового языка в его естественной форме, состоящий из двух лингвистически и культурно обоснованных, экспертно размеченных задач: JF-ICR, который оценивает распознавание неявных обязательств и отказов в вопросах и ответах для инвесторов, и JF-TE, который проверяет иерархическое извлечение и ранжирование вложенной финансовой терминологии из профессиональных раскрытий. Мы оцениваем разнообразный набор открытых и проприетарных LLM, включая модели общего назначения, адаптированные для японского языка и финансовые модели. Результаты показывают, что даже передовые системы испытывают затруднения с обеими задачами. Хотя увеличение масштаба модели дает ограниченное улучшение, языковая и предметно-ориентированная адаптация не обеспечивает стабильного роста производительности, оставляя существенные пробелы нерешенными. Ebisu предоставляет целенаправленный эталон для развития финансового NLP с учетом лингвистических и культурных особенностей. Все наборы данных и скрипты для оценки находятся в открытом доступе.
Визуальная метафора представляет собой высокоуровневую форму человеческого творчества, использующую междоменное семантическое слияние для преобразования абстрактных концепций в выразительную визуальную риторику. Несмотря на значительный прогресс генеративного ИИ, современные модели в основном ограничиваются выравниванием на уровне пикселей и сохранением поверхностного внешнего вида, не способясь уловить лежащую в основе абстрактную логику, необходимую для подлинного метафорического генерации. Для преодоления этого разрыва мы представляем задачу переноса визуальной метафоры (VMT), которая требует от моделей автономного выделения «творческой сущности» из референсного изображения и повторного воплощения этой абстрактной логики на заданном пользователем целевом объекте. Мы предлагаем вдохновленную когнитивной наукой многоагентную框架, которая реализует Теорию концептуального смешения (CBT) через новую Схемную Грамматику («G»). Это структурированное представление разделяет реляционные инварианты от конкретных визуальных сущностей, обеспечивая строгую основу для междоменной ре-инстанцииации логики. Наш конвейер выполняет VMT через систему специализированных агентов: агент восприятия, который выделяет схему из референса; агент переноса, сохраняющий инвариантность общего пространства для поиска подходящих носителей; агент генерации для высококачественного синтеза; и иерархический диагностический агент, имитирующий профессионального критика, выполняющий замкнутый цикл обратного отслеживания для выявления и исправления ошибок на уровнях абстрактной логики, выбора компонентов и кодирования промптов. Масштабные эксперименты и человеческие оценки демонстрируют, что наш метод значительно превосходит современные базовые подходы по согласованности метафоры, уместности аналогии и визуальной креативности, прокладывая путь к автоматизированным высокоэффективным креативным приложениям в рекламе и медиа. Исходный код будет общедоступен.
Мультимодальные большие языковые модели (MБЯМ) достигли значительных успехов в задачах открытого восприятия, однако их способность решать сложные когнитивные задачи остается ограниченной, особенно когда визуальные детали абстрактны и требуют зрительной памяти. Современные подходы в основном масштабируют рассуждения по цепочке мыслей (Chain-of-Thought, CoT) в текстовом пространстве, даже когда одного языка недостаточно для ясного и структурированного мышления, и в значительной степени игнорируют механизмы визуального рассуждения, аналогичные человеческому визуально-пространственному эскизному блокноту и зрительным образам. Чтобы устранить этот недостаток, мы представляем Cognitive Supersensing — новую парадигму обучения, которая наделяет МБЯМ способностями к формированию зрительных образов, подобными человеческим, за счет интеграции головы латентного прогнозирования зрительных образов (Latent Visual Imagery Prediction, LVIP). Эта головка совместно изучает последовательности латентных визуально-когнитивных эмбеддингов и выравнивает их с ответом, формируя тем самым внутренние цепочки рассуждений на основе зрения. Мы также вводим этап обучения с подкреплением, который оптимизирует текстовые пути рассуждений на основе этого обоснованного визуального латентного представления. Для оценки когнитивных способностей МБЯМ мы представляем CogSense-Bench — комплексный бенчмарк для визуального ответа на вопросы (Visual Question Answering, VQA), оценивающий пять когнитивных измерений. Многочисленные эксперименты показывают, что МБЯМ, обученные с помощью Cognitive Supersensing, значительно превосходят современные базовые модели на CogSense-Bench и демонстрируют превосходную способность к обобщению на внешних бенчмарках VQA по математике и естественным наукам, что позволяет предположить, что внутренние зрительные образы потенциально являются ключом к преодолению разрыва между перцептивным распознаванием и когнитивным пониманием. Мы опубликуем в открытом доступе бенчмарк CogSense-Bench и веса нашей модели.
Современные генеративные модели демонстрируют значительный прогресс в области редактирования изображений. Однако существующие системы и бенчмарки в основном остаются тексто-ориентированными. В отличие от них, человеческое общение по своей природе мультимодально, где визуальные инструкции, такие как наброски, эффективно передают пространственные и структурные намерения. Для преодоления этого разрыва мы представляем VIBE — визуальный инструктивный бенчмарк для редактирования изображений с трехуровневой иерархией взаимодействия, которая охватывает дейктическую привязку, морфологические манипуляции и каузальные рассуждения. Для каждого из этих уровней мы подготовили качественные и разнообразные тестовые примеры, отражающие прогрессивно возрастающую сложность следования визуальным инструкциям. Мы также предлагаем надежную систему оценки LMM-as-a-judge с метриками, специфичными для задач, чтобы обеспечить масштабируемую и детальную оценку. В ходе всесторонней оценки 17 репрезентативных моделей редактирования изображений с открытым исходным кодом и проприетарных моделей мы обнаружили, что проприетарные модели демонстрируют зачаточные способности следования визуальным инструкциям и последовательно превосходят модели с открытым исходным кодом. Однако производительность заметно снижается с увеличением сложности задачи даже для самых мощных систем, что указывает на перспективные направления для будущих исследований.
Генерация говорящих аватаров является фундаментальной задачей в области генерации видео. Хотя существующие методы позволяют создавать полнотелые говорящие аватары с простыми движениями человека, расширение этой задачи до обоснованного взаимодействия человека с объектами (GHOI) остается сложной проблемой, требующей от аватара выполнения взаимодействий с окружающими объектами, согласованных с текстовым описанием. Эта проблема обусловлена необходимостью восприятия окружающей среды и дилеммой контроля-качества в генерации GHOI. Для её решения мы предлагаем новую двухпотоковую архитектуру InteractAvatar, которая разделяет восприятие и планирование от синтеза видео для обоснованного взаимодействия человека с объектами. Используя детектирование для улучшения восприятия окружающей среды, мы представляем Модуль Восприятия и Взаимодействия (PIM) для генерации движений взаимодействия, согласованных с текстом. Дополнительно предлагается Аудио-Интерактивный Модуль Генерации (AIM) для синтеза реалистичных говорящих аватаров, выполняющих взаимодействия с объектами. Благодаря специально разработанному выравнивателю движений и видео, PIM и AIM имеют схожую структуру сети и позволяют параллельно совместно генерировать движения и правдоподобные видео, эффективно смягчая дилемму контроля-качества. Наконец, мы создали бенчмарк GroundedInter для оценки генерации видео GHOI. Многочисленные эксперименты и сравнения демонстрируют эффективность нашего метода в генерации обоснованного взаимодействия человека с объектами для говорящих аватаров. Страница проекта: https://interactavatar.github.io
Стандартные модели вознаграждения обычно предсказывают скалярные оценки, которые не способны уловить многогранный характер качества ответов в неверифицируемых областях, таких как творческое письмо или выполнение открытых инструкций. Для преодоления этого ограничения мы предлагаем Rubric-ARM — фреймворк, который совместно оптимизирует генератор рубрик и оценщика с использованием обучения с подкреплением на основе обратной связи в виде предпочтений. В отличие от существующих методов, опирающихся на статические рубрики или разрозненные конвейеры обучения, наш подход трактует генерацию рубрик как латентное действие, изучаемое для максимизации точности оценивания. Мы представляем стратегию чередующейся оптимизации для смягчения нестационарности одновременных обновлений, подкрепляя её теоретическим анализом, который демонстрирует, как такой график снижает дисперсию градиента в процессе обучения. Многочисленные эксперименты показывают, что Rubric-ARM достигает наилучших результатов среди базовых методов на нескольких бенчмарках и значительно улучшает согласование политики на последующих этапах как в оффлайн-, так и в онлайн-режимах обучения с подкреплением.
Агенты, использующие компьютеры (Computer-Using Agents, CUA), ставят целью автономное управление компьютерными системами для выполнения реальных задач. Однако существующие агентные системы по-прежнему сложно масштабировать, и они отстают по производительности от человека. Ключевым ограничением является отсутствие переиспользуемых и структурированных абстракций навыков, которые бы фиксировали то, как люди взаимодействуют с графическими пользовательскими интерфейсами, и то, как использовать эти навыки. Мы представляем CUA-Skill — базу навыков для компьютерных агентов, которая кодирует знания человека о работе с компьютером в виде навыков, связанных с параметризованными графами выполнения и композиции. CUA-Skill — это масштабируемая библиотека тщательно разработанных навыков, охватывающих распространенные приложения Windows, которая служит практической инфраструктурой и инструментальной основой для создания масштабируемых и надежных агентов. На основе этой базы навыков мы создаем CUA-Skill Agent — сквозного агента для работы с компьютером, который поддерживает динамическое извлечение навыков, инстанцирование аргументов и восстановление после сбоев с учетом памяти. Наши результаты демонстрируют, что CUA-Skill существенно повышает процент успешного выполнения задач и устойчивость на сложных сквозных агентных бенчмарках, закладывая прочную основу для будущей разработки компьютерных агентов. На WindowsAgentArena агент CUA-Skill достигает наилучшего показателя в 57,5% успешных выполнений (лучший из трех запусков), будучи при этом значительно эффективнее предыдущих и современных подходов. Страница проекта доступна по адресу https://microsoft.github.io/cua_skill/.
Методы управления большими языковыми моделями (БЯМ), включая локальную тонкую настройку весов, адаптацию на основе LoRA и интервенции на уровне активаций, часто изучаются изолированно, что затуманивает их взаимосвязи и затрудняет сравнение. В данной работе мы представляем унифицированный взгляд, который трактует эти интервенции как динамические обновления весов, индуцированные управляющим сигналом, помещая их в единую концептуальную схему. Основываясь на этом подходе, мы предлагаем унифицированный анализ "предпочтение-полезность", который разделяет эффекты управления на предпочтение (определяемое как тенденция к целевому концепту) и полезность (определяемую как согласованная и релевантная задаче генерация), и измеряет обе величины в общей логарифмической шкале с использованием контрастных примеров с парной полярностью. Для всех методов мы наблюдаем последовательный компромисс между предпочтением и полезностью: усиление контроля увеличивает предпочтение, но предсказуемо снижает полезность. Мы далее объясняем это поведение через перспективу многообразия активаций, в которой контроль смещает репрезентации вдоль направлений целевого концепта для усиления предпочтения, тогда как полезность снижается в основном, когда интервенции выталкивают репрезентации за пределы многообразия валидной генерации модели. Наконец, мы представляем новый метод управления SPLIT, разработанный на основе этого анализа, который улучшает предпочтение, лучше сохраняя полезность. Код доступен по адресу https://github.com/zjunlp/EasyEdit/blob/main/examples/SPLIT.md.
В данной работе мы выявляем разреженную систему вознаграждения в скрытых состояниях больших языковых моделей (LLM), проводя аналогию с биологической системой вознаграждения в человеческом мозге. Мы демонстрируем, что эта система содержит ценностные нейроны, которые отражают внутреннее ожидание модели относительно ценности состояния, и с помощью интервенционных экспериментов устанавливаем важность этих нейронов для процесса рассуждений. Наши эксперименты показывают, что эти ценностные нейроны устойчивы к изменениям в различных наборах данных, масштабах моделей и архитектурах; более того, они демонстрируют значительную переносимость между разными наборами данных и моделями, дообученными на основе одной базовой модели. Анализируя случаи расхождения ценностных предсказаний и фактических вознаграждений, мы идентифицируем дофаминовые нейроны внутри системы вознаграждения, которые кодируют ошибки предсказания вознаграждения (RPE). Эти нейроны проявляют высокую активность, когда вознаграждение превышает ожидаемое, и низкую активность, когда вознаграждение оказывается ниже ожидаемого.
Последние достижения в области визуального мышления позволили использовать трансформеры для работы с бенчмарком ARC-AGI. Однако мы полагаем, что прямая архитектура, в которой вычислительная глубина строго ограничена размером параметров, не способна уловить итеративную, алгоритмическую природу человеческой индукции. В данной работе мы предлагаем рекурсивную архитектуру под названием Loop-ViT, которая разделяет глубину рассуждений и емкость модели за счет повторения со связанными весами. Loop-ViT итеративно применяет связанный гибридный блок, сочетающий локальные свертки и глобальную механизм внимания, для формирования скрытой цепи рассуждений. Ключевым моментом является введение беспараметрового механизма динамического выхода на основе предсказательной энтропии: модель останавливает вывод, когда ее внутреннее состояние «кристаллизуется» в аттрактор с низкой неопределенностью. Эмпирические результаты на бенчмарке ARC-AGI-1 подтверждают эту точку зрения: наша модель с 18 млн параметров достигает точности 65,8%, превосходя крупные ансамбли с 73 млн параметров. Эти результаты демонстрируют, что адаптивные итеративные вычисления предлагают гораздо более эффективный путь масштабирования для визуального мышления, чем простое увеличение ширины сети. Код доступен по адресу https://github.com/WenjieShu/LoopViT.
Крупные языковые модели (LLM) продемонстрировали высокие способности к рассуждению благодаря пошаговому цепочечному мышлению (CoT). Тем не менее, на пределе возможностей модели CoT часто оказывается недостаточным, а его строго последовательный характер ограничивает масштабируемость во время тестирования. Перспективной альтернативой является декомпозиционное рассуждение (DAC), которое разбивает сложную задачу на подзадачи для облегчения более эффективного исследования решения. Несмотря на перспективность, наш анализ выявляет фундаментальное несоответствие между общецелевой пост-обученной моделью и DAC-стилем вывода, что ограничивает способность модели полностью раскрыть этот потенциал. Для преодоления этого разрыва и полного раскрытия способностей LLM к рассуждению на наиболее сложных задачах мы предлагаем сквозную систему обучения с подкреплением (RL) для улучшения их DAC-стиля рассуждений. На каждом шаге политика декомпозирует задачу на группу подзадач, последовательно решает их и решает исходную задачу с учетом решений подзадач, причем как декомпозиция, так и решение интегрированы в RL-обучение. При сопоставимом обучении наша DAC-ориентированная система наделяет модель более высоким потолком производительности и лучшей масштабируемостью во время тестирования, превосходя CoT на 8.6% по Pass@1 и на 6.3% по Pass@32 на эталонных тестах уровня соревнований.
Генерация изображений по текстовому описанию (T2I) достигла значительных успехов, однако существующие методы часто лишены способности к динамическому логическому выводу и уточнению в процессе генерации — что является отличительной чертой человеческого творчества. Современные парадигмы, усиленные логическим выводом, в основном полагаются на явные мыслительные процессы, где промежуточные рассуждения декодируются в дискретный текст на фиксированных шагах с частым декодированием и повторным кодированием изображений, что приводит к неэффективности, потере информации и когнитивным рассогласованиям. Для преодоления этого разрыва мы представляем LatentMorph — новую архитектуру, которая бесшовно интегрирует неявный латентный вывод в процесс T2I-генерации. В основе LatentMorph лежат четыре легковесных компонента: (i) конденсатор для суммирования промежуточных состояний генерации в компактную визуальную память, (ii) транслятор для преобразования латентных "мыслей" в практические руководства, (iii) формирователь для динамического управления предсказанием следующих токенов изображения и (iv) вызывающий модуль, обученный с подкреплением, для адаптивного определения момента активации логического вывода. Благодаря выполнению рассуждений полностью в непрерывных латентных пространствах, LatentMorph избегает узких мест явного вывода и обеспечивает более адаптивное самоуточнение. Многочисленные эксперименты демонстрируют, что LatentMorph (I) улучшает базовую модель Janus-Pro на 16% по GenEval и на 25% по T2I-CompBench; (II) превосходит явные парадигмы (например, TwiG) на 15% и 11% в задачах абстрактного reasoning, таких как WISE и IPV-Txt, (III) при этом сокращая время вывода на 44% и потребление токенов на 51%; и (IV) демонстрирует 71% когнитивного соответствия с человеческой интуицией в отношении момента активации рассуждений.
Способность ИИ-агентов эффективно справляться с задачами возрастающей продолжительности и сложности продолжает расти, демонстрируя исключительную производительность в кодировании, глубоких исследованиях и комплексных оценках решения проблем. Однако в повседневных сценариях восприятие этих передовых возможностей ИИ среди обычных пользователей остается ограниченным. Мы утверждаем, что текущие оценки делают приоритет на увеличении сложности задач, без достаточного учета разнообразия агентских задач, необходимых для охвата повседневной работы, жизни и учебной деятельности широких демографических групп. Чтобы решить эту проблему, мы предлагаем AgentIF-OneDay, цель которого — определить, могут ли обычные пользователи использовать инструкции на естественном языке и ИИ-агентов для выполнения разнообразного спектра повседневных задач. Эти задачи требуют не только решения проблем через диалог, но и понимания различных типов вложений и предоставления ощутимых файловых результатов. Бенчмарк структурирован вокруг трех пользовательских категорий: Выполнение открытых рабочих процессов, которое оценивает соблюдение явных и сложных workflow; Скрытая инструкция, требующая от агентов выведения неявных указаний из вложений; и Итеративное улучшение, которое предполагает модификацию или расширение текущей работы. Мы используем рубрики на уровне экземпляров и усовершенствованный конвейер оценки, который согласует проверку на основе LLM с человеческим суждением, достигая 80.1% уровня согласия с использованием Gemini-3-Pro. AgentIF-OneDay включает 104 задачи, охватывающих 767 оценочных пунктов. Мы провели тестирование четырех ведущих универсальных ИИ-агентов и обнаружили, что агентские продукты, построенные на основе API, и ChatGPT-агенты на основе агентского RL остаются одновременно в первом эшелоне. Ведущие LLM API и модели с открытым исходным кодом интериоризировали агентские возможности, позволяя командам разработчиков ИИ-приложений создавать передовые Agent-продукты.
По мере внедрения агентов на основе больших языковых моделей (LLM) во всё более сложные реальные сценарии, существующие бенчмарки недостаточно отражают ключевые проблемы, такие как соблюдение глобальных ограничений, координация рассуждений с использованием множества инструментов и адаптация к изменяющемуся поведению пользователя в ходе длительных многоходовых взаимодействий. Чтобы заполнить этот пробел, мы представляем TRIP-Bench — долгосрочный бенчмарк, основанный на реалистичных сценариях планирования путешествий. TRIP-Bench использует реальные данные, предлагает 18 тщательно отобранных инструментов и более 40 требований к поездкам, а также поддерживает автоматизированную оценку. Он включает наборы данных разной сложности; сложный набор акцентирует внимание на длительных и неоднозначных взаимодействиях, смене стиля, изменениях осуществимости и итеративном пересмотре версий. Диалоги могут достигать 15 реплик пользователя, включать более 150 вызовов инструментов и превышать 200 тыс. токенов контекста. Эксперименты показывают, что даже передовые модели достигают не более 50% успеха на лёгком наборе, при этом производительность падает ниже 10% на сложных подмножествах. Мы также предлагаем GTPO — метод онлайн-многошагового обучения с подкреплением со специализированной нормализацией вознаграждений и разностным вознаграждением. Применённый к Qwen2.5-32B-Instruct, GTPO улучшает соблюдение ограничений и устойчивость взаимодействия, превосходя Gemini-3-Pro в нашей оценке. Мы ожидаем, что TRIP-Bench будет способствовать развитию практических долгосрочных интерактивных агентов, а GTPO предоставит эффективный рецепт онлайн-обучения с подкреплением для устойчивого долгосрочного обучения.
Модели потокового согласования (Flow Matching, FM) произвели революцию в генерации изображений по тексту (text-to-image, T2I), а обучение с подкреплением (Reinforcement Learning, RL) стало ключевой стратегией пост-обучения для согласования с целевыми функциями вознаграждения. В данном исследовании мы показываем, что текущие RL-конвейеры для FM страдают от двух недооцененных, но важных ограничений: неэффективности использования образцов из-за недостаточного разнообразия генераций и выраженного переобучения на промпты, когда модели запоминают конкретные формулировки из обучающей выборки и демонстрируют резкое падение производительности при оценке на семантически эквивалентных, но стилистически различных промптах. Мы представляем PromptRL (Prompt Matters in RL for Flow-Based Image Generation) — фреймворк, который интегрирует языковые модели (Language Models, LM) в качестве обучаемых агентов для уточнения промптов непосредственно в цикл RL-оптимизации, основанный на потоках. Такая конструкция дает два взаимодополняющих преимущества: быстрое развитие сложных способностей к переформулированию промптов и, что критически важно, синергетический режим обучения, который преобразует динамику оптимизации. PromptRL достигает наилучших результатов на нескольких бенчмарках, получая оценки 0.97 на GenEval, 0.98 на точности OCR и 24.05 на PickScore. Кроме того, мы подтверждаем эффективность нашего RL-подхода на крупномасштабных моделях редактирования изображений, улучшая показатель EditReward модели FLUX.1-Kontext с 1.19 до 1.43 всего за 0.06 миллиона rollout'ов, превосходя Gemini 2.5 Flash Image (также известную как Nano Banana) с результатом 1.37 и достигая сопоставимой производительности с ReasonNet (1.44), которая полагалась на разметку данных с мелкими деталями вместе со сложным многоэтапным обучением. Наши обширные эксперименты эмпирически демонстрируют, что PromptRL стабильно достигает более высоких пределов производительности, требуя при этом более чем в 2 раза меньше rollout'ов по сравнению с наивным RL, использующим только потоки. Наш код доступен по адресу https://github.com/G-U-N/UniRL.
Разреженные автоэнкодеры (SAE) стали перспективным методом интерпретации представлений нейронных сетей за счет декомпозиции активаций в разреженные комбинации словарных атомов. Однако SAE предполагают, что признаки комбинируются аддитивно через линейную реконструкцию — предположение, которое не может уловить композиционную структуру: линейные модели не способны различить, возникает ли «Starbucks» из композиции признаков «star» и «coffee» или просто из их совместного появления. Это вынуждает SAE выделять монолитные признаки для составных понятий вместо их декомпозиции на интерпретируемые составляющие. Мы представляем PolySAE, который расширяет декодер SAE членами высшего порядка для моделирования взаимодействий признаков, сохраняя при этом линейный кодировщик, критически важный для интерпретируемости. Благодаря низкоранговой тензорной факторизации в общем проекционном подпространстве PolySAE улавливает парные и тройные взаимодействия признаков с малыми вычислительными затратами (3% для GPT2). На четырех языковых моделях и трех вариантах SAE PolySAE демонстрирует в среднем улучшение F1-метрики на approximately 8% при сохранении сопоставимой ошибки реконструкции и обеспечивает в 2–10 раз большее расстояние Вассерштейна между условными распределениями признаков. Ключевым является то, что веса изученных взаимодействий показывают пренебрежимо малую корреляцию с частотой совместного появления (r = 0,06 против r = 0,82 для ковариации признаков SAE), что свидетельствует о том, что полиномиальные члены улавливают композиционную структуру, такую как морфологическое связывание и фразовая композиция, в значительной степени независимо от поверхностной статистики.
Крупные модели рассуждений (LRM) существенно выигрывают от обучения на сложных задачах уровня соревнований. Однако существующие автоматизированные методы синтеза вопросов не обеспечивают точного контроля сложности, требуют высоких вычислительных затрат и не позволяют массово генерировать вопросы конкурсного уровня. В данной статье мы предлагаем CoDiQ (Controllable Difficult Question Generation) — новую структуру, обеспечивающую детальный контроль сложности через масштабирование на этапе тестирования при гарантированной решаемости задач. Конкретно: сначала мы выявляем тенденцию масштабирования при тестировании (увеличение бюджета токенов для рассуждений повышает сложность, но снижает решаемость) и внутренние свойства, определяющие верхнюю границу способности модели генерировать корректные задачи высокой сложности. Затем мы разрабатываем CoDiQ-Generator на основе Qwen3-8B, который повышает верхний предел генерации сложных вопросов, что делает его особенно подходящим для создания трудных задач. На основе структуры CoDiQ мы строим CoDiQ-Corpus (44 тыс. последовательностей вопросов уровня соревнований). Экспертная оценка показывает, что эти вопросы значительно сложнее аналогов из LiveCodeBench/AIME при сохранении решаемости свыше 82%. Обучение LRM на CoDiQ-Corpus существенно улучшает показатели рассуждений, подтверждая, что масштабирование тренировочных вопросов с контролируемой сложностью усиливает reasoning-способности. Мы открываем исходные коды CoDiQ-Corpus, CoDiQ-Generator и реализаций для поддержки связанных исследований.
Развертывание современных речевых языковых моделей (SpeechLMs) в потоковых сценариях требует систем, обеспечивающих низкую задержку, высокую пропускную способность и надежные гарантии пригодности для потоковой передачи. Существующие системы не обеспечивают гибкой и эффективной поддержки разнообразных моделей. Мы представляем VoxServe — унифицированную систему обслуживания SpeechLMs, которая оптимизирует потоковую производительность. VoxServe вводит абстракцию выполнения моделей, которая отделяет архитектуру модели от системных оптимизаций, тем самым обеспечивая поддержку различных архитектур SpeechLM в единой системе. На основе этой абстракции VoxServe реализует потоковое планирование и асинхронный конвейер вывода для повышения сквозной эффективности. Оценки на множестве современных SpeechLMs показывают, что VoxServe обеспечивает в 10–20 раз более высокую пропускную способность по сравнению с существующими реализациями при сопоставимой задержке, сохраняя высокую пригодность для потоковой передачи. Код VoxServe доступен по адресу https://github.com/vox-serve/vox-serve.
Запросно-ориентированное универсальное разделение звука является фундаментальной задачей для интеллектуальных слуховых систем, направленной на выделение целевых источников из смесей. Несмотря на недавние успехи, существующие методы продолжают страдать от остаточных помех в сложных акустических сценах. Это ограничение производительности в значительной степени проистекает из проблемы данных: наборы данных из реального мира содержат слабые метки и выраженную совместную встречаемость событий. Эти недостатки приводят к тому, что модели изучают ложные корреляции между фоновым шумом и целевыми категориями вместо устойчивых акустических признаков. Для решения этой проблемы мы предлагаем автоматизированный конвейер, который устраняет совместную встречаемость событий путем извлечения высокочистых сегментов с одиночными событиями из наборов данных реального мира с помощью семантически согласованного протокола синтеза. Используя этот конвейер, мы создали Hive — высококачественный синтетический набор данных, содержащий 2.4 тысячи часов исходного аудио. Результаты экспериментов показывают, что по сравнению с передовой моделью SAM-Audio, обученной на огромном наборе данных, в ~500 раз превосходящем Hive по объему, некоторые модели с открытым исходным кодом, обученные на Hive, демонстрируют сопоставимую точность разделения и перцептивное качество. Более того, эти модели показали выдающуюся способность к zero-shot обобщению на тестовых наборах данных, выходящих за пределы распределения обучающих данных. Эти результаты подчеркивают, что приоритизация чистоты обучающих сигналов позволяет достичь значительной эффективности данных, предлагая новую парадигму для обучения устойчивых базовых слуховых моделей со сниженными вычислительными затратами. Код и набор данных доступны по адресу https://shandaai.github.io/Hive.
Мультимодальные большие языковые модели (MLLM) страдают от высоких вычислительных затрат из-за избыточного количества визуальных токенов, особенно в сценариях с высоким разрешением и видео. Существующие методы сокращения токенов обычно сосредоточены на изолированных компонентах конвейера и часто пренебрегают текстовым согласованием, что приводит к снижению производительности. В данной статье мы предлагаем VisionTrim — унифицированную структуру для ускорения MLLM без обучения, интегрирующую два эффективных модуля типа «plug-and-play»: 1) модуль выбора доминирующих визуальных токенов (DVTS), который сохраняет основные визуальные токены с помощью глобально-локального подхода, и 2) модуль текстово-ориентированного визуального дополнения (TGVC), который способствует контекстно-зависимому объединению токенов на основе текстовых подсказок. Многочисленные эксперименты на различных мультимодальных эталонах для изображений и видео демонстрируют превосходство производительности нашего метода VisionTrim, способствуя практическому внедрению MLLM в реальных приложениях. Код доступен по адресу: https://github.com/hanxunyu/VisionTrim.
Модели мира изучают внутреннее представление динамики окружающей среды, позволяя агентам моделировать и рассуждать о будущих состояниях в компактном латентном пространстве для таких задач, как планирование, прогнозирование и вывод. Однако работа моделей мира сопряжена с высокими вычислительными затратами и объемом памяти, что делает квантование моделей необходимым для эффективного развертывания. На сегодняшний день влияние квантования после обучения (PTQ) на модели мира в значительной степени не изучено. В данной работе мы представляем систематическое эмпирическое исследование квантования моделей мира на примере DINO-WM, оценивая различные методы PTQ в условиях квантования только весов, а также совместного квантования весов и активаций. Мы проводим обширные эксперименты на различных задачах визуального планирования в широком диапазоне битовых ширины̆, гранулярностей квантования и горизонтов планирования до 50 итераций. Наши результаты показывают, что эффекты квантования в моделях мира выходят за рамки стандартных компромиссов между точностью и битовой шириной: групповое квантование весов может стабилизировать развертки при низкой битовой ширине, гранулярность квантования активаций дает неоднозначные преимущества, а чувствительность к квантованию сильно асимметрична между модулями энкодера и предиктора. Более того, агрессивное квантование с низкой битовой шириной значительно ухудшает соответствие между целью планирования и успешностью задачи, приводя к сбоям, которые невозможно исправить с помощью дополнительной оптимизации. Эти результаты выявляют особые режимы сбоев, вызванные квантованием, в планировании на основе моделей мира и предоставляют практические рекомендации по развертыванию квантованных моделей мира в условиях строгих вычислительных ограничений. Код будет доступен по адресу https://github.com/huawei-noah/noah-research/tree/master/QuantWM.
Крупные языковые модели (LLM) широко используются как беспристрастные оценщики через промптинг, однако парадигма «LLM-как-судья» является дорогостоящей, непрозрачной и чувствительной к дизайну промптов. В данной работе мы исследуем, могут ли меньшие модели служить эффективными оценщиками, используя внутренние представления вместо поверхностного генеративного вывода. Мы выявляем устойчивую эмпирическую закономерность: малые языковые модели, несмотря на слабые генеративные способности, кодируют богатые оценочные сигналы в своих скрытых состояниях. Это побуждает нас выдвинуть Гипотезу асимметрии семантической ёмкости: для оценки требуется значительно меньшая семантическая ёмкость, чем для генерации, и она может быть основана на промежуточных представлениях, что свидетельствует о том, что оценка не обязательно должна опираться на крупномасштабные генеративные модели, а может использовать латентные признаки меньших моделей. Наши результаты мотивируют смену парадигмы с «LLM-как-судья» на «Представление-как-судья» — стратегию оценки, свободную от декодирования, которая исследует внутреннюю структуру модели вместо опоры на промптированный вывод. Мы реализуем эту парадигму через INSPECTOR, фреймворк на основе probing-а, который предсказывает оценки на уровне аспектов из представлений малых моделей. Эксперименты на бенчмарках логического мышления (GSM8K, MATH, GPQA) показывают, что INSPECTOR существенно превосходит малые LM на основе промптинга и близко приближается к полноценным LLM-судьям, предлагая при этом более эффективную, надежную и интерпретируемую альтернативу для масштабируемой оценки.
Агентность продвинутых больших языковых моделей подразумевает не только правильные ответы, но и автономную способность ставить цели и определять направления исследования. Мы называем это исследовательским интеллектом, отличая его от исполнительского интеллекта, который лишь выполняет поставленные задачи. Наука о данных представляет собой естественный полигон для испытаний, поскольку реальный анализ начинается с сырых данных, а не с явных запросов, однако немногие бенчмарки фокусируются на этом. Для решения проблемы мы представляем Deep Data Research (DDR) — открытую задачу, в рамках которой языковые модели автономно извлекают ключевые инсайты из баз данных, и DDR-Bench — масштабируемый бенчмарк на основе чек-листов, позволяющий проводить верифицируемую оценку. Результаты показывают, что хотя передовые модели демонстрируют зачатки агентности, долгосрочное исследование остается сложной задачей. Наш анализ подчеркивает, что эффективность исследовательского интеллекта зависит не только от агентских надстроек или простого масштабирования, но и от внутренних стратегий агентных моделей.
Крупные визуально-языковые модели (LVLM) демонстрируют высокую производительность при работе с одиночными изображениями, но их эффективность снижается, когда на вход подается несколько изображений. Одной из основных причин является утечка информации между изображениями, когда модель не может адекватно разграничить информацию, относящуюся к разным изображениям. Существующие LVLM уже используют токены-разделители для обозначения начала и конца каждого изображения, однако наш анализ показывает, что эти токены не способны эффективно блокировать межизображенческую утечку информации. Для повышения их эффективности мы предлагаем метод масштабирования скрытых состояний токенов-разделителей. Это усиливает способность модели сохранять информацию, специфичную для каждого изображения, за счет усиления внутриизображенческого взаимодействия и ограничения нежелательных межизображенческих взаимодействий. В результате модель лучше различает изображения и точнее над ними рассуждает. Эксперименты показывают рост производительности на мультиизображенческих бенчмарках, таких как Mantis, MuirBench, MIRB и QBench2. Мы также оценили наш метод на чисто текстовых задачах, требующих четкого разграничения. Метод улучшает производительность на бенчмарках для понимания множественных документов и таблиц, включая TQABench, MultiNews и WCEP-10. Примечательно, что наш метод не требует дополнительных затрат на обучение или вывод.
Обучение с подкреплением с верифицируемыми вознаграждениями (RLVR) продемонстрировало значительный потенциал для улучшения способности крупных языковых моделей (LLM) к рассуждениям. Однако из-за ограниченного объема информации, предоставляемой в процессе RLVR, модель может осуществлять лишь в значительной степени слепой поиск, что часто приводит к неудаче при решении сложных задач. Чтобы предоставить дополнительную информацию для процесса RLVR без использования модели-учителя, мы предлагаем A²D — метод адаптивного декомпозирования способностей для повышения эффективности RLVR. А именно, мы сначала обучаем декомпозитор с помощью RLVR без дистилляции, что позволяет ему разбивать сложные вопросы на набор более простых подвопросов. Затем мы используем этот декомпозитор для аннотирования подвопросов к каждому вопросу в обучающем наборе данных и далее обучаем модуль рассуждений в рамках RLVR с руководством в виде подвопросов. Чтобы лучше понять A²D, мы сначала сравниваем его производительность с конкурентоспособными базовыми методами, демонстрируя его эффективность. Затем мы наблюдаем, что наш метод функционирует как модуль типа «подключи и работай», который может быть применен к различным алгоритмам RLVR. Кроме того, мы проводим анализ декомпозитора, выявляя, как процесс RLVR влияет на его производительность и поведение, а также какой тип руководства лучше подходит для улучшения способностей модуля рассуждений к исследованию и использованию.
Трехмерное картографирование линий по мультивьюзовым RGB-изображениям обеспечивает компактное и структурированное визуальное представление сцен. Мы исследуем данную проблему с физической и топологической точек зрения: 3D-линия наиболее естественно возникает как ребро конечного плоского 3D-патча. Предлагается LiP-Map — фреймворк совместной оптимизации линий и плоскостей, который явно моделирует обучаемые примитивы линий и плоскостей. Такая связь позволяет достичь точного и детального 3D-картографирования линий при сохранении высокой эффективности (типичное время реконструкции составляет 3–5 минут на сцену). LiP-Map впервые интегрирует планарную топологию в задачу картографирования 3D-линий не за счет наложения парных условий компланарности, а путем явного построения взаимодействий между примитивами плоскостей и линий, что предлагает принципиальный путь к структурированной реконструкции в антропогенных средах. На более чем 100 сценах из ScanNetV2, ScanNet++, Hypersim, 7Scenes и Tanks&Temples метод LiP-Map превосходит современные методы как по точности, так и по полноте. Помимо качества картографирования линий, LiP-Map существенно улучшает визуальную локализацию с использованием линий, демонстрируя высокую производительность на 7Scenes. Наш код доступен по адресу https://github.com/calmke/LiPMAP для обеспечения воспроизводимости исследований.
Недавние исследования показали, что послойное прунинг (сокращение) позволяет сжимать большие языковые модели (LLM), сохраняя при этом высокую производительность на классификационных бенчмарках при минимальной или нулевой дообучении. Однако существующие методы прунинга часто демонстрируют значительную деградацию на задачах генеративного рассуждения. В ходе систематического исследования различных семейств моделей мы выявили, что задачи, требующие многошагового логического вывода, особенно чувствительны к сокращению глубины. Помимо поверхностной деградации текста, мы наблюдаем ухудшение ключевых алгоритмических способностей, включая арифметические вычисления для математических рассуждений и генерацию сбалансированных скобок для синтеза кода. В условиях реалистичных ограничений пост-тренировочного периода, без доступа к данным или вычислительным ресурсам масштаба предварительного обучения, мы оцениваем простую стратегию смягчения последствий, основанную на контролируемом дообучении с использованием самостоятельно сгенерированных ответов (Self-Generated Responses). Данный подход обеспечивает значительное восстановление производительности на классификационных задачах, сохраняя до 90% производительности базового уровня, и дает существенный прирост до 20–30 процентных пунктов на генеративных бенчмарках по сравнению с предыдущими методами пост-прунинга. Ключевой вывод заключается в том, что, несмотря на эти улучшения, восстановление генеративных рассуждений остается принципиально ограниченным по сравнению с классификационными задачами и в основном осуществимо при низких коэффициентах прунинга. В целом, мы определяем практические пределы послойного прунинга для генеративного рассуждения и даем рекомендации по эффективному применению сокращения глубины в условиях ограниченных пост-тренировочных ресурсов.
Дистилляция знаний предлагает перспективный путь передачи способностей к рассуждению от больших моделей-учителей к эффективным моделям-ученикам; однако существующие методы он-политик дистилляции на уровне токенов требуют выравнивания на уровне токенов между моделями ученика и учителя, что ограничивает способность модели ученика к исследованию, препятствует эффективному использованию обратной связи от интерактивной среды и приводит к серьезным проблемам с пропускной способностью памяти при обучении с подкреплением. Мы представляем On-policy Verbal Distillation (OVD) — ресурсосберегающий фреймворк, который заменяет вероятностное сопоставление на уровне токенов на сопоставление траекторий с использованием дискретных вербальных оценок (0–9) от моделей-учителей. OVD значительно сокращает потребление памяти, позволяя проводить он-политик дистилляцию от моделей-учителей с вербальной обратной связью, и избегает выравнивания на уровне токенов, что позволяет модели-ученику свободно исследовать пространство ответов. Многочисленные эксперименты на задачах веб-вопросов и ответов и математических рассуждений показывают, что OVD существенно превосходит существующие методы, демонстрируя до +12,9% абсолютного улучшения по среднему EM на задачах Web Q&A и до +25,7% прироста на математических бенчмарках (при обучении всего на одном случайном примере), а также обладая превосходной эффективностью обучения. Страница проекта доступна по адресу https://OVD.github.io.
Вычислительные ресурсы на этапе логического вывода вновь стали практичным способом улучшения рассуждений больших языковых моделей (LLM). Большинство алгоритмов масштабирования на этапе тестирования (TTS) полагаются на авторегрессионное декодирование, которое плохо подходит для дискретных диффузионных языковых моделей (dLLM) из-за их параллельного декодирования всей последовательности. В результате разработка эффективных и производительных методов TTS для раскрытия полного генеративного потенциала dLLM остается слабо изученной проблемой. Для её решения мы предлагаем Prism (Pruning, Remasking, and Integrated Self-verification Method) — эффективный фреймворк TTS для dLLM, который (i) выполняет иерархический поиск по траекториям (HTS), динамически отсекая и перераспределяя вычисления в раннем-среднем окне денойзинга, (ii) вводит локальное ветвление с частичным перемаскированием для исследования разнообразных реализаций при сохранении токенов с высокой уверенностью и (iii) заменяет внешние верификаторы на самопроверяемую обратную связь (SVF), получаемую с помощью промптов для самооценки промежуточных завершений. На четырех тестах по математическим рассуждениям и генерации кода для трех dLLM, включая LLaDA 8B Instruct, Dream 7B Instruct и LLaDA 2.0-mini, наш Prism демонстрирует благоприятный баланс между производительностью и эффективностью, достигая качества лучшего из N результатов при существенно меньшем количестве вызовов функции оценки (NFE). Код доступен по адресу https://github.com/viiika/Prism.
Хотя большие языковые модели (LLM) стали значительным прорывом в области искусственного интеллекта, аппаратные и вычислительные затраты на их обучение также являются существенным бременем. Среди современных оптимизаторов AdamW полагается на диагональные оценки кривизны и игнорирует структурные свойства, тогда как Muon применяет глобальную спектральную нормализацию ценой потери информации о кривизне. В данном исследовании мы пересмотрели методы оптимизации на многообразиях для обучения LLM, которые могут устранить ограничения обоих оптимизаторов, в то время как традиционные методы оптимизации на многообразиях оставались в значительной степени без внимания из-за их низкой производительности при оптимизации крупномасштабных моделей. Инновационно проецируя импульс на касательное пространство параметров модели и ограничивая его на вращающемся косом многообразии, мы предлагаем новый, мощный и эффективный оптимизатор **Mano**, который первым преодолевает разрыв в производительности между оптимизацией на многообразиях и современными оптимизаторами. Многочисленные эксперименты на моделях LLaMA и Qwen3 демонстрируют, что Mano стабильно и значительно превосходит AdamW и Muon даже при меньшем потреблении памяти и вычислительной сложности соответственно, что указывает на расширенную границу Парето с точки зрения пространственной и временной эффективности.
Диффузионные трансформеры являются основой для генерации видео и изображений, но их эффективность ограничена квадратичной сложностью механизма внимания. Хотя блочно-разреженное внимание ускоряет вычисления, обрабатывая только ключевые блоки ключ-значение, оно страдает от деградации качества при высокой степени разреженности из-за потери контекста. В данной работе мы обнаружили, что оценки внимания некритических блоков демонстрируют распределительную стабильность, что позволяет точно и эффективно аппроксимировать их вместо полного отбрасывания, что принципиально важно для проектирования разреженного внимания. Руководствуясь этим ключевым наблюдением, мы предлагаем PISA — не требующее дообучения кусочно-разреженное внимание, которое охватывает полный диапазон внимания с субквадратичной сложностью. В отличие от традиционной парадигмы «сохранить-или-отбросить», которая напрямую удаляет информацию некритических блоков, PISA вводит новую стратегию «точно-или-аппроксимировать»: она сохраняет точные вычисления для критических блоков, одновременно эффективно аппроксимируя остальные с помощью покомпонентного разложения Тейлора. Такой подход позволяет PISA служить точным приближением полного внимания, эффективно устраняя разрыв между скоростью и качеством. Результаты экспериментов показывают, что PISA обеспечивает ускорение в 1.91 и 2.57 раза на моделях Wan2.1-14B и Hunyuan-Video соответственно, при этом стабильно сохраняя наивысшее качество среди методов разреженного внимания. Примечательно, что даже для генерации изображений на FLUX PISA достигает ускорения в 1.2 раза без ущерба для визуального качества. Код доступен по адресу: https://github.com/xie-lab-ml/piecewise-sparse-attention.
Мы исследуем взаимосвязь между геометрией представлений и производительностью нейронных сетей. Анализируя 52 предобученные модели ImageNet из 13 семейств архитектур, мы показываем, что эффективная размерность — неконтролируемая геометрическая метрика — сильно предсказывает точность. Эффективная размерность выходного слоя достигает частичного коэффициента корреляции r=0.75 (p < 10^(-10)) после контроля на ёмкость модели, в то время как общее сжатие дает частичный r=-0.72. Эти результаты воспроизводятся на ImageNet и CIFAR-10 и обобщаются на NLP: эффективная размерность предсказывает производительность для 8 моделей-энкодеров на SST-2/MNLI и 15 декодерных LLM на AG News (r=0.69, p=0.004), тогда как размер модели — нет (r=0.07). Мы устанавливаем двунаправленную причинность: ухудшение геометрии с помощью шума вызывает потерю точности (r=-0.94, p < 10^(-9)), тогда как улучшение геометрии с помощью PCA сохраняет точность across архитектур (-0.03 п.п. при 95% дисперсии). Эта взаимосвязь не зависит от типа шума — гауссовский, равномерный, дропаут и импульсный шум показывают |r| > 0.90. Эти результаты устанавливают, что эффективная размерность предоставляет доменно-независимую прогностическую и причинную информацию о производительности нейронных сетей, вычисляемую полностью без использования меток.
Обучение с подкреплением стало ключевым методом посттренировки больших языковых моделей, однако доминирующие алгоритмы опираются на механизмы отсечения (clipping), которые создают проблемы оптимизации при масштабировании, включая области нулевого градиента, эксплуатацию функции вознаграждения и нестабильность обучения. Мы предлагаем Беcклипповую оптимизацию политики (CFPO), которая заменяет эвристическое отсечение выпуклым квадратичным штрафом, выведенным из ограничений на дивергенцию полной вариации. Это дает везде дифференцируемую целевую функцию, обеспечивающую стабильные обновления политики без жестких границ. Мы оцениваем CFPO в условиях как решения задач, так и согласования. В решении задач CFPO соответствует методам на основе отсечения по производительности на downstream-бенчмарках, одновременно расширяя режим стабильного обучения. В согласовании CFPO смягчает эксплуатацию многословия и снижает деградацию способностей, демонстрируя при этом конкурентоспособные результаты в выполнении инструкций. CFPO требует изменения всего одной строки кода и не вводит дополнительных гиперпараметров. Наши результаты позволяют предположить, что CFPO является перспективной прямой заменой методов на основе отсечения для посттренировки языковых моделей.
Существующие модели инструментально-ориентированного рассуждения (TIR) эффективно расширяют способности больших языковых моделей к ответам на вопросы за счет интеграции внешних инструментов. Однако в реальных сценариях существует множество открытых проблем, где фиксированные инструменты часто не соответствуют требованиям задачи. Кроме того, отсутствие механизмов самооптимизации означает, что ошибочные выходные данные инструментов могут вводить ответы модели в заблуждение. Дополнительно, создание существующих инструментов требует значительных ручных усилий, что ограничивает их применимость. Учитывая, что траектории рассуждений LLM инкапсулируют неявные способности к решению проблем, мы предлагаем UCT — новую беспараметрическую структуру, преобразующую агентов из пользователей инструментов в их создателей. Данный подход аккумулирует опыт рассуждений и дистиллирует его в переиспользуемые активы. Этот метод трансформирует агента из простого пользователя инструментов в создателя инструментов, обеспечивая адаптивное создание инструментов и самообновление в процессе вывода. Мы также вводим механизм консолидации памяти для поддержания библиотеки инструментов, гарантируя высокую переиспользуемость сохраненного эмпирического опыта для последующих задач рассуждения. Эта новая парадигма автоматизированного построения инструментов непрерывно улучшает их качество в процессе рассуждения, позволяя системе агентов развиваться без дополнительного обучения. Масштабные эксперименты демонстрируют, что наш метод представляет собой новую парадигму повышения возможностей моделей TIR. В частности, значительный прирост производительности +20.86%↑ и +23.04%↑ на бенчмарках в многодоменных математических и научных задачах подтверждает способность агента к саморазвитию.
Культурно-ориентированные защитные механизмы имеют решающее значение для согласования ИИ с реальными условиями, где безопасность выходит за рамки здравого смысла и охватывает разнообразные локальные ценности, нормы и специфические для регионов нормативные акты. Однако создание масштабируемых наборов данных, основанных на культурных особенностях, является сложной задачей из-за ограниченных ресурсов и дефицита аннотаторов — носителей языка. Как следствие, многие защитные модели полагаются на машинный перевод англоязычных наборов данных, зачастую упуская региональные и культурные нюансы. Мы представляем новую агентскую систему генерации данных для масштабируемого создания аутентичных наборов данных по безопасности, специфичных для региона Юго-Восточной Азии (ЮВА). На этой основе мы представляем семейство моделей SEA-Guard — первые многоязычные защитные модели, основанные на культурных контекстах ЮВА. Оценка по множеству эталонных тестов и культурных вариантов показывает, что SEA-Guard последовательно превосходит существующие защитные механизмы в обнаружении регионально-чувствительного или вредоносного контента, сохраняя при этом высокие показатели общей безопасности.
Подкрепляющее обучение расширяет рассужденческие возможности больших языковых моделей, однако часто сопряжено с высокими вычислительными затратами из-за ресурсоемкой оптимизации с использованием множества прогонов. Онлайн-выбор промтов предлагает потенциальное решение за счет приоритизации информативных промтов для повышения эффективности обучения. Однако существующие методы либо зависят от дорогостоящих точных оценок, либо строят прогностические модели, специфичные для конкретных промтов, которые не обладают обобщающей способностью. В данном исследовании представлен метод обобщающего прогностического выбора промтов (GPS), который выполняет байесовский вывод относительно сложности промтов с использованием легковесной генеративной модели, обученной на общей истории оптимизации. Принцип пакетного отбора включает приоритизацию промтов средней сложности и обеспечение разнообразия на основе истории для выбора информативных пакетов промтов. Небольшая прогностическая модель также демонстрирует обобщающую способность на этапе тестирования для эффективного распределения вычислительных ресурсов. Эксперименты на различных наборах данных для проверки рассуждений показывают значительное улучшение GPS по сравнению с передовыми базовыми методами с точки зрения эффективности обучения, итоговой производительности и эффективности на этапе тестирования.
Введение. Понятие этики ИИ по-разному трактуется различными участниками и группами стейкхолдеров. Мы представляем результаты кейс-стади компании OpenAI, анализирующего дискурс об этике ИИ. Метод. Исследование было направлено на ответ на вопрос: как публичный дискурс OpenAI использовал понятия «этика», «безопасность», «соответствие целям» и смежные концепции с течением времени и что этот дискурс сигнализирует о практических подходах к формированию повестки? Структурированный корпус текстов, дифференцирующий коммуникацию для широкой аудитории и для академического сообщества, был собран из публичной документации. Анализ. Качественный контент-анализ этических тем сочетал индуктивно выведенные и дедуктивно применяемые коды. Количественный анализ использовал методы вычислительного контент-анализа с применением NLP для моделирования тем и количественной оценки изменений в риторике с течением времени. Визуализации отображают агрегированные результаты. Для обеспечения воспроизводимости результатов наш код опубликован по адресу https://github.com/famous-blue-raincoat/AI_Ethics_Discourse. Результаты. Результаты показывают, что дискурс о безопасности и рисках доминирует в публичной коммуникации и документации OpenAI без применения академических и правозащитных этических рамок или терминологии. Выводы. Представлены последствия для регулирования, а также обсуждение практик «этического камуфляжа» (ethics-washing) в индустрии.
Крупные языковые модели (LLM) все чаще используются в качестве судей для оценки производительности агентов, особенно в непроверяемых условиях, где суждения основываются на траекториях агентов, включая цепочки рассуждений (CoT). Эта парадигма неявно предполагает, что CoT агента достоверно отражает как его внутренние рассуждения, так и состояние окружающей среды. Мы показываем, что это предположение ненадежно: LLM-судьи крайне подвержены манипуляциям с трассировкой рассуждений агентов. Систематически переписывая CoT агентов при фиксированных действиях и наблюдениях, мы демонстрируем, что одних только манипуляций с рассуждениями достаточно для увеличения ложноположительных результатов современных VLM-судей на величину до 90% на 800 траекториях, охватывающих разнообразные веб-задачи. Мы исследуем стратегии манипуляций, от стилевых подходов, изменяющих лишь представление рассуждений, до содержательных подходов, фабрикующих сигналы о прогрессе задачи, и обнаруживаем, что содержательные манипуляции последовательно более эффективны. Мы оцениваем методы на основе промптов и масштабирование вычислительных ресурсов на этапе судейства, которые снижают, но не полностью устраняют уязвимость к манипуляциям. Наши результаты выявляют фундаментальную уязвимость в оценке на основе LLM и подчеркивают необходимость механизмов судейства, которые проверяют утверждения рассуждений на основе наблюдаемых доказательств.
Современное глубокое обучение позволяет реалистично восстанавливать локальные области изображений, что создает серьезные вызовы для надежного детектирования таких манипуляций. Однако мы наблюдаем, что современные детекторы в основном полагаются на глобальные артефакты, возникающие как побочные эффекты восстановления, а не на локально синтезированное содержимое. Мы показываем, что такое поведение возникает из-за того, что реконструкция на основе VAE вызывает тонкий, но повсеместный спектральный сдвиг во всем изображении, включая неотредактированные области. Чтобы изолировать этот эффект, мы вводим операцию Inpainting Exchange (INP-X), которая восстанавливает исходные пиксели за пределами редактируемой области, сохраняя при этом все синтезированное содержимое. Мы создали тестовый набор данных объемом 90 тыс. изображений, включающий реальные, восстановленные и обработанные INP-X снимки, для оценки этого явления. При таком вмешательстве предварительно обученные современные детекторы, включая коммерческие, демонстрируют резкое падение точности (например, с 91% до 55%), часто приближаясь к уровню случайного угадывания. Мы предоставляем теоретический анализ, связывающий это поведение с ослаблением высокочастотных компонентов, вызванным информационными узкими местами VAE. Наши результаты подчеркивают необходимость разработки детекторов, учитывающих содержимое изображения. Действительно, обучение на нашем наборе данных обеспечивает лучшую обобщающую способность и локализацию по сравнению со стандартными методами обнаружения восстановленных областей. Наш набор данных и код общедоступны по адресу https://github.com/emirhanbilgic/INP-X.
Мульти-агентные системы стали мощной парадигмой для автоматизации научных открытий. Для дифференциации поведения агентов в таких системах современные фреймворки обычно назначают обобщенные ролевые персонажи, такие как «рецензент» или «автор», или полагаются на грубые ключевые слова для определения персонажей. Хотя такой подход функционален, он чрезмерно упрощает то, как действуют ученые-люди, чей вклад формируется их уникальными исследовательскими траекториями. В ответ на это мы предлагаем INDIBATOR — фреймворк для молекулярных открытий, который основывает агентов на индивидуализированных профилях ученых, построенных из двух модальностей: истории публикаций для получения знаний из литературы и истории молекул для структурных априорных представлений. Эти агенты участвуют в многоходовой дискуссии через фазы предложения, критики и голосования. Наша оценка демонстрирует, что эти агенты, основанные на тонкой индивидуализации, последовательно превосходят системы, полагающиеся на грубые персонажи, достигая конкурентоспособных или передовых результатов. Эти результаты подтверждают, что захват «научной ДНК» отдельных агентов необходим для высококачественных открытий.
Универсальные системы плотного поиска в открытых доменах обычно обучаются на больших, эклектичных наборах корпусов и поисковых задач. Как следует выбирать эти разнородные корпусы и задачи для обучения? Традиционные подходы предполагают равномерную выборку, выборку пропорционально размерам наборов данных или reliance на экспертные оценки. Хорошо известно, что стратегия выборки обучающих данных может существенно влиять на производительность модели. Однако вопрос поиска оптимальной стратегии недостаточно изучен в контексте моделей эмбеддингов. Мы предлагаем Inf-DDS, новую framework выборки на основе обучения с подкреплением, которая адаптивно перевзвешивает обучающие наборы данных, руководствуясь influence-based reward signals, и является значительно более легкой с точки зрения потребления ресурсов GPU. Наша техника итеративно уточняет политику выборки, отдавая приоритет наборам данных, которые максимизируют производительность модели на целевом development наборе. Мы оцениваем эффективность нашей стратегии выборки на широком спектре задач текстового поиска, демонстрируя значительное улучшение релевантности и лучшую адаптацию по сравнению с существующими gradient-based методами выборки, при одновременном снижении затрат на вычисления на GPU в 1.5–4 раза. Наша стратегия выборки позволяет достичь абсолютного улучшения NDCG@10 на 5.03 пункта при обучении multilingual модели bge-m3 и абсолютного улучшения NDCG@10 на 0.94 пункта при обучении модели all-MiniLM-L6-v2, даже при старте с expert-assigned весов на большом пуле обучающих наборов данных.
Межъязыковая оценка больших языковых моделей (LLM) обычно объединяет два источника вариативности: подлинные различия в производительности моделей и нестабильность измерений. Мы исследуем надежность оценки, фиксируя условия генерации и варьируя целевой язык. Используя синтетические диалоги службы поддержки, сгенерированные с идентичными параметрами на эстонском, финском и венгерском языках, мы проверяем, обеспечивают ли автоматические метрики и оценка по методу LLM-as-a-judge стабильные ранжирования моделей для этих морфологически богатых родственных финно-угорских языков. Опираясь на небольшой набор аннотаций носителей эстонского языка как на точку отсчета, мы выявляем систематическую нестабильность ранжирования: поверхностные метрики (лексическое разнообразие, поверхностное и семантическое сходство) сохраняют кросс-лингвистическую стабильность, тогда как прагматические оценки (связность, следование инструкциям) демонстрируют инверсии рангов и корреляции, близкие к нулю. Поскольку генерация контролируется, эти несоответствия отражают то, как оценка судей работает по-разному в разных языках, а не истинные различия между моделями. Данный контролируемый подход служит диагностическим инструментом: методы оценки, которые не сохраняют стабильность в идентичных условиях генерации, сигнализируют о проблеме переноса до внедрения. Наши результаты показывают, что трансфер оценки по методу zero-shot судьи ненадежен для дискурс-уровневого анализа в морфологически богатых языках, что обосновывает необходимость языково-специфичной калибровки относительно целевых человеческих бейзлайнов. Мы публикуем наш контролируемый протокол генерации, синтетические данные и框架 оценки для обеспечения воспроизводимости на других языковых семьях по адресу: https://github.com/isaac-chung/cross-lingual-stability-judges.
В данной статье представлена YOLOE-26 — унифицированная платформа, объединяющая оптимизированную для развертывания архитектуру YOLO26 (или YOLOv26) с парадигмой обучения с открытым словарем YOLOE для задач сегментации экземпляров в реальном времени с открытым словарем. Основываясь на свободном от NMS, сквозном дизайне YOLOv26, предложенный подход сохраняет характерные для семейства YOLO эффективность и детерминизм, расширяя при этом его возможности за пределы распознавания в закрытых наборах. YOLOE-26 использует сверточную основу с многоуровневой агрегацией признаков в стиле PAN/FPN, за которой следуют сквозные головы регрессии и сегментации экземпляров. Ключевым архитектурным нововведением является замена фиксированных логитов классов на голову эмбеддингов объектов, которая формулирует классификацию как задачу сравнения сходства с эмбеддингами промптов, полученными из текстовых описаний, визуальных примеров или встроенного словаря. Для обеспечения эффективного рассуждения с открытым словарем платформа включает Перепараметризуемое Выравнивание Области и Текста (RepRTA) для текстового промптинга с нулевыми накладными расходами, Семантически-Активируемый Кодировщик Визуальных Промптов (SAVPE) для сегментации по примерам и Ленивый Контраст Промптов Областей для автономного вывода. Все модальности промптинга работают в едином пространстве эмбеддингов объектов, позволяя бесшовно переключаться между текстовым, визуальным и полностью автономным режимами сегментации. Многочисленные эксперименты демонстрируют стабильное масштабирование и благоприятный баланс точности и эффективности для моделей разного размера как в режимах с промптами, так и без них. Стратегия обучения использует крупномасштабные наборы данных детекции и локализации с многозадачной оптимизацией и сохраняет полную совместимость с экосистемой Ultralytics для обучения, валидации и развертывания. В целом, YOLOE-26 предлагает практичное и масштабируемое решение для сегментации экземпляров с открытым словарем в реальном времени в динамичных условиях реального мира.
Резервуарные вычисления (RC) утвердились в качестве эффективной парадигмы для обработки временных данных. Однако их масштабируемость остается серьезно ограниченной (i) необходимостью последовательной обработки временных данных и (ii) чрезмерно большим объемом памяти, требуемым для высокоразмерных резервуаров. В данной работе мы переосмысливаем RC через призму структурированных операторов и моделей пространства состояний, чтобы преодолеть эти ограничения, и представляем Параллельную сеть с эхо-состояниями (ParalESN). ParalESN позволяет конструировать высокоразмерные и эффективные резервуары на основе диагональной линейной рекуррентности в комплексном пространстве, что обеспечивает параллельную обработку временных данных. Мы предоставляем теоретический анализ, демонстрирующий, что ParalESN сохраняет свойство эхо-состояний и гарантии универсальности традиционных сетей с эхо-состояниями, допуская при этом эквивалентное представление произвольных линейных резервуаров в комплексной диагональной форме. Экспериментально показано, что ParalESN соответствует прогностической точности традиционных RC на эталонных задачах прогнозирования временных рядов, обеспечивая при этом существенную экономию вычислительных ресурсов. В задачах одномерной классификации на уровне пикселей ParalESN демонстрирует конкурентоспособную точность с полностью обучаемыми нейронными сетями, сокращая вычислительные затраты и энергопотребление на порядки. В целом, ParalESN предлагает перспективный, масштабируемый и принципиальный путь для интеграции RC в ландшафт глубокого обучения.
Неявное нейронное представление (INR) доказало свою точность и эффективность в различных областях. В данной работе мы исследуем, как различные нейронные сети могут быть спроектированы в качестве нового текстурного INR, который работает непрерывным, а не дискретным образом в пространстве входных UV-координат. В ходе тщательных экспериментов мы демонстрируем, что такие INR демонстрируют высокое качество изображения при значительной экономии памяти и времени инференса при рендеринге. Мы анализируем баланс между этими целями. Кроме того, мы исследуем различные связанные приложения в задачах рендеринга в реальном времени и последующих задачах, такие как построение MIP-карт и генерация в пространстве INR.
Крупные языковые модели способны генерировать беглые ответы, которые не соответствуют предоставленному контексту, в то время как многие механизмы защиты полагаются на внешнюю проверку или отдельную оценку после генерации. Мы представляем внутренние сигнатуры потока, которые аудируют формирование решений на основе поэтапной динамики на фиксированной межблочной границе мониторинга. Метод стабилизирует покомпонентное движение посредством мониторинга, центрированного на смещении, затем суммирует траектории в компактных движущихся подпространствах, согласованных со считыванием, которые построены из основного токена и его ближайших конкурентов в пределах каждого глубинного окна. Соседние оконные кадры выравниваются с помощью ортогонального переноса, что дает сопоставимые по глубине длины перенесенных шагов, углы поворота и суммарные характеристики дрейфа подпространства, инвариантные к выбору базиса внутри окна. Облегченный валидатор на основе GRU, обученный на этих сигнатурах, выполняет самопроверку без модификации базовой модели. Помимо обнаружения, валидатор локализует проблемное глубинное событие и позволяет выполнить целенаправленное уточнение: модель откатывается к проблемному токену и фиксирует аномальный перенесенный шаг на идентифицированном блоке, сохраняя ортогональный остаток. Получившийся конвейер обеспечивает действенную локализацию и самопроверку с низкими накладными расходами на основе внутренней динамики принятия решений. Код доступен по адресу github.com/EavnJeong/Internal-Flow-Signatures-for-Self-Checking-and-Refinement-in-LLMs.
Мы предлагаем параболическое позиционное кодирование (PaPE) — позиционное кодирование на основе параболы для визуальных модальностей в архитектурах с механизмом внимания. Для набора визуальных токенов — таких как изображения, облака точек, видео или потоки данных с событийных камер — наша цель состоит в кодировании их позиций с учётом характеристик визуальных модальностей. Предыдущие работы в основном расширяли позиционные кодирования с 1D-последовательностей в языке на nD-структуры в компьютерном зрении, но лишь частично учитывая особенности визуальных данных. Мы устраняем этот пробел, проектируя PaPE на основе принципов, выведенных из предыдущих работ: инвариантности к сдвигу, инвариантности к вращению (PaPE-RI), затухания с расстоянием, направленности и контекстной осведомлённости. Мы оцениваем PaPE на 8 наборах данных, охватывающих 4 модальности. Мы обнаружили, что либо PaPE, либо PaPE-RI демонстрирует наилучшую производительность на 7 из 8 наборов данных. Эксперименты по экстраполяции на ImageNet-1K показывают, что PaPE исключительно хорошо экстраполирует, улучшая абсолютный показатель до 10,5% по сравнению со следующим по эффективности позиционным кодированием. Код доступен по адресу https://github.com/DTU-PAS/parabolic-position-encoding.
Хотя подход LLM-as-a-Judge широко используется для автоматизированной оценки, существующие практики валидации в основном работают на уровне наблюдаемых выходных данных, предоставляя ограниченное представление о том, функционируют ли сами модели-судьи в качестве стабильных и надежных измерительных инструментов. Для решения этой проблемы мы предлагаем двухфазную диагностическую систему оценки надежности LLM-as-a-Judge, основанную на теории Item Response Theory (IRT). Данная система использует Graded Response Model (GRM) из IRT и формализует надежность по двум взаимодополняющим направлениям: (1) внутренняя согласованность, определяемая как стабильность измерительного поведения при вариациях промптов, и (2) соответствие человеческим оценкам, отражающее согласованность с экспертной оценкой качества человеком. Мы эмпирически исследуем различные модели-судьи с помощью этой системы и показываем, что использование IRT-GRM дает интерпретируемые сигналы для систематической диагностики суждений. Эти сигналы предоставляют практические рекомендации для проверки надежности подхода LLM-as-a-Judge и выявления потенциальных причин ненадежности.