Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы исследуем метод повышения производительности больших языковых моделей с использованием саморефлексии и обучения с подкреплением. Стимулируя модель генерировать более качественные саморефлексии при неправильных ответах, мы демонстрируем, что способность модели решать сложные, проверяемые задачи может быть улучшена даже в условиях, когда генерация синтетических данных невозможна и доступна только бинарная обратная связь. Наш подход работает в два этапа: сначала, при неудачном выполнении задачи, модель генерирует саморефлексивный комментарий, анализирующий её предыдущую попытку; затем модель получает ещё одну попытку выполнить задачу с учётом этого комментария. Если последующая попытка оказывается успешной, токены, сгенерированные на этапе саморефлексии, получают вознаграждение. Наши экспериментальные результаты показывают значительное улучшение производительности для различных архитектур моделей, достигая 34,7% в написании математических уравнений и 18,1% в вызове функций. Примечательно, что более мелкие дообученные модели (от 1,5 до 7 миллиардов параметров) превосходят модели того же семейства, которые в 10 раз больше. Таким образом, наш новый подход представляет собой перспективный путь к созданию более полезных и надёжных языковых моделей, способных самостоятельно улучшаться в решении сложных задач при ограниченной внешней обратной связи.
Хотя существующие унифицированные модели демонстрируют высокую производительность в задачах понимания визуально-текстовой информации и генерации изображений по тексту, они ограничены в исследовании задач восприятия и манипуляции изображениями, которые крайне востребованы пользователями для широкого применения. Недавно OpenAI представила свою мощную модель GPT-4o-Image для комплексного восприятия и манипуляции изображениями, достигнув выразительных возможностей и привлекши внимание сообщества. Наблюдая за производительностью GPT-4o-Image в наших тщательно разработанных экспериментах, мы предполагаем, что GPT-4o-Image использует признаки, извлеченные семантическими кодировщиками, вместо VAE, в то время как VAE считаются важными компонентами во многих моделях манипуляции изображениями. Вдохновленные такими наблюдениями, мы представляем унифицированную генеративную структуру под названием UniWorld, основанную на семантических признаках, предоставляемых мощными визуально-языковыми моделями и контрастными семантическими кодировщиками. В результате мы создаем сильную унифицированную модель, используя всего 1% данных BAGEL, которая стабильно превосходит BAGEL на бенчмарках редактирования изображений. UniWorld также сохраняет конкурентоспособные возможности понимания и генерации изображений, демонстрируя высокую производительность в множестве задач восприятия изображений. Мы полностью открываем исходный код наших моделей, включая веса моделей, скрипты обучения и оценки, а также наборы данных.
Последние достижения в области визуально-языковых моделей (VLMs) расширили их возможности для задач интерактивных агентов, однако существующие тестовые наборы остаются ограниченными однозадачными или текстовыми средами. В реальных сценариях, напротив, часто участвуют несколько агентов, взаимодействующих в богатых визуальных и лингвистических контекстах, что создает сложности как с мультимодальными наблюдениями, так и со стратегическими взаимодействиями. Чтобы устранить этот разрыв, мы представляем Visual Strategic Bench (VS-Bench) — мультимодальный тестовый набор, который оценивает VLMs на способность к стратегическому мышлению и принятию решений в средах с несколькими агентами. VS-Bench включает восемь визуально-обоснованных сред, охватывающих кооперативные, конкурентные и смешанные взаимодействия, предназначенных для оценки способности агентов предсказывать будущие действия других и оптимизировать долгосрочные цели. Мы рассматриваем два взаимодополняющих измерения оценки: оффлайн-оценку стратегического мышления через точность предсказания следующего действия и онлайн-оценку принятия решений через нормализованный возврат эпизода. Экстенсивные эксперименты с четырнадцатью ведущими VLMs выявили значительный разрыв между текущими моделями и оптимальной производительностью, при этом лучшие модели достигают 47,8% точности предсказания и 24,3% нормализованного возврата. Мы также проводим углубленный анализ мультимодальных наблюдений, масштабирования на этапе тестирования, социального поведения и случаев неудач агентов VLM. Стандартизируя оценку и подчеркивая ограничения существующих моделей, мы видим в VS-Bench основу для будущих исследований стратегических мультимодальных агентов. Код и данные доступны по адресу https://vs-bench.github.io.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), обученные с использованием обучения с подкреплением и проверяемой наградой (Reinforcement Learning with Verifiable Reward, RLVR), продемонстрировали значительный прогресс в эффективном масштабировании вычислительных ресурсов на этапе тестирования. В данной работе мы исследуем, как синтезированные данные RL могут дополнительно улучшить RLVR. С этой целью мы предлагаем SynthRL — масштабируемый и гарантированный конвейер для автоматического увеличения объема данных в обучении с подкреплением, ориентированном на рассуждения. SynthRL состоит из трех ключевых этапов: (1) выбор исходных вопросов с подходящим распределением, (2) их преобразование в более сложные варианты с сохранением исходных ответов и (3) этап гарантированной проверки, обеспечивающий почти идеальную корректность и повышение сложности. Наши эмпирические эксперименты демонстрируют масштабируемость и эффективность SynthRL. При применении к набору данных MMK12 SynthRL синтезирует более 3,3 тысяч дополнительных проверяемых и сложных вопросов из примерно 8 тысяч исходных образцов. Модели, обученные на наших синтезированных данных, показывают стабильное улучшение на пяти внешних наборах данных для визуального математического рассуждения, значительно превосходя базовые модели, обученные только на исходных данных. Примечательно, что детальный анализ показывает, что улучшения наиболее заметны на самых сложных тестовых образцах, что подчеркивает эффективность SynthRL в стимулировании более глубоких и сложных паттернов рассуждения.
Модели, объединяющие зрение и язык (Vision-Language Models, VLMs), демонстрируют значительный прогресс в мультимодальном понимании, однако их способности к научному рассуждению остаются недостаточно оцененными. Современные мультимодальные бенчмарки в основном оценивают общее понимание изображений или текстовое рассуждение, не включая аутентичные научные контексты, которые требуют интеграции предметных знаний с анализом визуальных данных. Чтобы заполнить этот пробел, мы представляем CSVQA — диагностический мультимодальный бенчмарк, специально разработанный для оценки научного рассуждения через предметно-ориентированные визуальные вопросы и ответы. Наш бенчмарк включает 1378 тщательно составленных вопросов и ответов, охватывающих различные дисциплины STEM, каждый из которых требует предметных знаний, интеграции визуальных данных и сложного рассуждения. В сравнении с предыдущими мультимодальными бенчмарками, CSVQA уделяет больше внимания реальному научному контенту и сложным рассуждениям. Мы также предлагаем строгий протокол оценки, чтобы систематически проверять, подтверждаются ли предсказания моделей валидными промежуточными шагами рассуждения на основе курируемых объяснений. Наше всестороннее тестирование 15 VLMs на этом бенчмарке выявило значительные различия в производительности: даже лучшая проприетарная модель достигает точности лишь 49,6%. Эти эмпирические данные подчеркивают острую необходимость в развитии способностей к научному рассуждению в VLMs. Наш CSVQA доступен по адресу https://huggingface.co/datasets/Skywork/CSVQA.
Одной из ключевых задач при создании GUI-агентов, основанных на визуально-языковых моделях (VLM), является визуальное заземление, то есть локализация соответствующей области экрана для выполнения действий на основе как визуального контента, так и текстовых планов. Большинство существующих подходов формулируют эту задачу как генерацию координат на основе текста. Однако такие методы имеют ряд ограничений: слабое пространственно-семантическое соответствие, неспособность обрабатывать неоднозначные цели обучения и несоответствие между плотной природой координат экрана и грубой, патч-уровневой детализацией визуальных признаков, извлекаемых моделями, такими как Vision Transformers. В данной работе мы предлагаем GUI-Actor, метод на основе VLM для заземления GUI без использования координат. В основе GUI-Actor лежит механизм внимания, который обучается выравнивать выделенный токен <ACTOR> со всеми релевантными визуальными патч-токенами, что позволяет модели предлагать одну или несколько областей для выполнения действий за один проход. В дополнение к этому, мы разработали верификатор заземления для оценки и выбора наиболее подходящей области действия из предложенных кандидатов. Эксперименты показывают, что GUI-Actor превосходит предыдущие передовые методы на нескольких бенчмарках для заземления действий в GUI, демонстрируя улучшенную обобщаемость на незнакомые разрешения экрана и макеты. В частности, GUI-Actor-7B даже превосходит UI-TARS-72B (38.1) на ScreenSpot-Pro, достигая показателей 40.7 с Qwen2-VL и 44.6 с Qwen2.5-VL в качестве базовых моделей. Более того, благодаря включению верификатора, мы обнаружили, что тонкая настройка только нового механизма действий (~100M параметров для модели на 7B) при замороженном VLM-бэкбоне достаточна для достижения производительности, сопоставимой с предыдущими передовыми моделями, что подчеркивает, что GUI-Actor может наделить базовую VLM эффективными возможностями заземления, не жертвуя её универсальными преимуществами.
Пространственное мышление является ключевым аспектом когнитивной психологии и остается серьезным ограничением для современных моделей, работающих с визуальными и языковыми данными (VLMs). Хотя обширные исследования были направлены на оценку или улучшение понимания VLMs базовых пространственных отношений, таких как различение левого и правого, близкого и далекого, а также подсчет объектов, эти задачи представляют лишь самый фундаментальный уровень пространственного мышления. В данной работе мы представляем OmniSpatial — всеобъемлющий и сложный бенчмарк для пространственного мышления, основанный на когнитивной психологии. OmniSpatial охватывает четыре основные категории: динамическое рассуждение, сложная пространственная логика, пространственное взаимодействие и принятие перспективы, с 50 детализированными подкатегориями. С помощью сбора данных из Интернета и тщательной ручной аннотации мы создали более 1,5 тысяч пар вопросов и ответов. Масштабные эксперименты показывают, что как открытые, так и закрытые VLMs, а также существующие модели рассуждений и пространственного понимания, демонстрируют значительные ограничения в комплексном понимании пространства. Мы также анализируем случаи неудач и предлагаем возможные направления для будущих исследований.
Современные крупные модели рассуждений (LRMs) используют расширенное цепочечное рассуждение (CoT) для решения сложных задач, достигая наилучших результатов. Однако, несмотря на их успех, мы выявили критическую проблему: значительная часть простых задач, решаемых LRMs, может быть также решена нерассуждающими LLM с использованием значительно меньшего количества токенов, что указывает на то, что сложное рассуждение не всегда необходимо. Для решения этой проблемы мы систематически анализируем траектории рассуждений LRMs и представляем метод, использующий выявленные парадигмы и LLM-Judge для классификации этих траекторий как избыточного или необходимого рассуждения. Мы также представляем OThink-R1 — метод, который устраняет избыточные шаги рассуждения, сохраняя при этом логическую валидность. OThink-R1 динамически применяет режим "не-мышления" (быстрое мышление) для простых задач, в то время как для сложных задач используется вдумчивое мышление (медленное мышление). Эксперименты на математических задачах и задачах ответов на вопросы показывают, что OThink-R1 сокращает избыточность рассуждений в среднем на 23\% без ущерба для точности, предлагая практические рекомендации для эффективных моделей рассуждений. Код доступен по адресу https://github.com/AgenticIR-Lab/OThink-R1.
Мультимодальные большие языковые модели (MLLMs) в последние годы переживают стремительное развитие. Однако в финансовой сфере наблюдается заметный недостаток эффективных и специализированных мультимодальных наборов данных для оценки. Для продвижения разработки MLLM в финансовой области мы представляем FinMME, включающий более 11 000 высококачественных образцов финансовых исследований из 18 финансовых областей и 6 классов активов, с использованием 10 основных типов графиков и 21 подтипа. Мы обеспечиваем качество данных с помощью 20 аннотаторов и тщательно разработанных механизмов валидации. Кроме того, мы разработали FinScore — систему оценки, включающую штрафы за галлюцинации и многомерную оценку способностей для обеспечения объективной оценки. Обширные экспериментальные результаты показывают, что даже передовые модели, такие как GPT-4o, демонстрируют неудовлетворительную производительность на FinMME, подчеркивая его сложный характер. Бенчмарк демонстрирует высокую устойчивость, с вариациями предсказаний при различных промптах, остающимися ниже 1%, что свидетельствует о превосходной надежности по сравнению с существующими наборами данных. Наш набор данных и протокол оценки доступны по адресам https://huggingface.co/datasets/luojunyu/FinMME и https://github.com/luo-junyu/FinMME.
Заметный прогресс в области мультимодальных больших языковых моделей (MLLMs) привлек растущее внимание к их расширению на физические объекты, такие как шагающие роботы. Это требует от MLLMs не только овладения способностями к мультимодальному пониманию, но и интеграции визуально-пространственного мышления и возможностей физического взаимодействия. Тем не менее, существующие методы сталкиваются с трудностями в объединении этих способностей из-за их фундаментальных различий. В данной статье мы представляем Visual Embodied Brain (VeBrain) — унифицированную платформу для восприятия, рассуждения и управления в реальном мире. VeBrain переформулирует управление роботами в задачи, характерные для текстовых MLLMs, в двумерном визуальном пространстве, тем самым унифицируя цели и пространства отображения для различных задач. Затем предлагается новый адаптер для роботов, который преобразует текстовые управляющие сигналы от MLLMs в стратегии движения реальных роботов. С точки зрения данных, мы также представляем VeBrain-600k — высококачественный набор данных с инструкциями, охватывающий различные возможности VeBrain. В VeBrain-600k мы потратили сотни часов на сбор, обработку и аннотирование данных, а также использовали мультимодальную цепочку рассуждений (CoT) для объединения различных способностей в единый диалог. Многочисленные эксперименты на 13 мультимодальных тестах и 5 тестах на пространственный интеллект демонстрируют превосходство VeBrain по сравнению с существующими MLLMs, такими как Qwen2.5-VL. При развертывании на шагающих роботах и роботизированных манипуляторах VeBrain показывает высокую адаптивность, гибкость и композиционные способности по сравнению с существующими методами. Например, по сравнению с Qwen2.5-VL, VeBrain не только достигает значительного улучшения на тесте MMVet на +5,6%, но также превосходит в задачах для шагающих роботов с увеличением среднего результата на +50%.
Диффузионные языковые модели (LLM) появились как перспективная альтернатива традиционным авторегрессивным LLM, предлагая значительный потенциал для повышения эффективности выполнения. Однако существующие диффузионные модели не способны гарантированно соблюдать формальные ограничения, заданные пользователем, такие как регулярные выражения, что делает их ненадежными для задач, требующих структурированных выходных данных, например, генерации JSON с фиксированной схемой. В отличие от авторегрессивных моделей, которые генерируют токены последовательно, диффузионные LLM предсказывают блок токенов параллельно. Этот параллелизм делает традиционные алгоритмы ограниченного декодирования, разработанные для последовательного предсказания токенов, неэффективными для сохранения истинного распределения выходных данных. Чтобы устранить это ограничение, мы предлагаем DINGO — стратегию ограниченного декодирования на основе динамического программирования, которая является как эффективной, так и гарантированно сохраняющей распределение. DINGO позволяет выбирать строки с наибольшей вероятностью в рамках предсказанного моделью распределения, строго удовлетворяя любому заданному пользователем регулярному выражению. На стандартных тестах для генерации символической математики и JSON DINGO демонстрирует улучшение до 68 процентных пунктов по сравнению с неограниченным выводом.
Крупные модели, объединяющие обработку изображений и текста (Large Vision-Language Models, LVLM), недавно продемонстрировали значительный потенциал в развитии робототехники, сочетая воплощённое рассуждение с управлением роботами. Распространённый подход включает обучение на задачах воплощённого рассуждения, связанных с управлением роботами, с использованием метода тонкой настройки с учителем (Supervised Fine-Tuning, SFT). Однако наборы данных для SFT часто создаются эвристически и не оптимизированы явно для улучшения управления роботами. Кроме того, SFT часто приводит к таким проблемам, как катастрофическое забывание и снижение обобщающей способности. Для устранения этих ограничений мы представляем Robot-R1 — новую структуру, которая использует обучение с подкреплением для улучшения воплощённого рассуждения, ориентированного на управление роботами. Robot-R1 обучается предсказывать следующее ключевое состояние, необходимое для выполнения задачи, на основе текущего изображения сцены и метаданных среды, полученных из экспертных демонстраций. Вдохновлённые подходом DeepSeek-R1, мы в Robot-R1 выбираем ответы, основанные на рассуждениях, и усиливаем те из них, которые приводят к более точным предсказаниям. Наши эксперименты показывают, что модели, обученные с использованием Robot-R1, превосходят методы SFT в задачах воплощённого рассуждения. Несмотря на наличие всего 7 миллиардов параметров, Robot-R1 даже превосходит GPT-4o в задачах рассуждения, связанных с низкоуровневым управлением действиями, такими как пространственное и примитивное движение.
Хотя диффузионные трансформеры (DiTs) достигли прорывов в генерации видео, эта задача генерации длинных последовательностей остается ограниченной квадратичной сложностью механизмов внимания, что приводит к значительной задержке вывода. В результате детального анализа карт внимания в видео-диффузионном трансформере (vDiT) мы выявили три повторяющихся паттерна разреженности: диагональные, мультидиагональные и вертикально-полосатые структуры. При этом даже 3-6\% голов внимания могут быть пропущены. Важно отметить, что эти паттерны демонстрируют сильную корреляцию с глубиной слоя и позицией головы, но слабо зависят от входного содержимого. Используя эти наблюдения, мы предлагаем Sparse-vDiT — фреймворк для ускорения vDiT за счет разреженности, включающий: 1) Оптимизированные по паттернам разреженные ядра, которые заменяют плотное внимание на вычислительно эффективные реализации для каждого выявленного паттерна. 2) Оффлайн-алгоритм поиска разреженной диффузии, который выбирает оптимальную стратегию разреженных вычислений для каждого слоя и головы с учетом аппаратно-зависимого моделирования затрат. После определения оптимальной конфигурации мы объединяем головы в пределах одного слоя, которые используют одинаковую стратегию внимания, что повышает эффективность вывода. Интегрированный в современные модели vDiT (CogVideoX1.5, HunyuanVideo и Wan2.1), Sparse-vDiT достигает теоретического сокращения FLOP в 2.09, 2.38 и 1.67 раз, а фактического ускорения вывода в 1.76, 1.85 и 1.58 раз соответственно, при сохранении высокой визуальной точности с значениями PSNR, достигающими 24.13, 27.09 и 22.59. Наша работа демонстрирует, что скрытая структурная разреженность в vDiTs может быть систематически использована для синтеза длинных видео.
Несмотря на прогресс в области мультимодальных больших языковых моделей (MLLMs), их способность к детальному пониманию движения в видео остается крайне ограниченной. Они часто не учитывают различия между кадрами и склонны усреднять или игнорировать тонкие визуальные подсказки. Кроме того, хотя визуальные подсказки показали потенциал в работе со статичными изображениями, их применение к временным сложностям видео, особенно для детального понимания движения, остается практически неисследованным. Мы исследуем, можно ли раскрыть внутренние возможности и улучшить восприятие движения MLLMs, а также создать уникальные визуальные сигнатуры для разделения подсказок движения объектов и камеры. В данном исследовании мы представляем MotionSight — новый метод с нулевым обучением, который впервые использует объектно-ориентированный визуальный акцент и размытие в движении в качестве визуальных подсказок для эффективного улучшения детального понимания движения без обучения. Чтобы превратить это в ценные данные, мы создали MotionVid-QA — первый крупномасштабный набор данных для детального понимания движения в видео, содержащий иерархические аннотации, включая данные SFT и предпочтений, около 40 тысяч видеоклипов и около 87 тысяч вопросов и ответов. Эксперименты показывают, что MotionSight достигает передовых результатов среди открытых моделей и конкурирует с коммерческими решениями. В частности, для детального понимания движения мы представляем новый метод с нулевым обучением и крупномасштабный высококачественный набор данных. Весь код и аннотации будут общедоступны.
Мы представляем Subject Fidelity Optimization (SFO) — новую сравнительную обучающую структуру для генерации, управляемой объектом, в условиях нулевого сэмплинга, которая повышает точность воспроизведения объекта. В отличие от методов контролируемой тонкой настройки, которые полагаются исключительно на позитивные цели и используют потери диффузии, как на этапе предварительного обучения, SFO вводит синтетические негативные цели и явно направляет модель к предпочтению позитивных целей перед негативными через попарное сравнение. Для негативных целей мы предлагаем Condition-Degradation Negative Sampling (CDNS), который автоматически генерирует отличительные и информативные негативные примеры путем преднамеренного ухудшения визуальных и текстовых подсказок без дорогостоящих человеческих аннотаций. Кроме того, мы перераспределяем веса временных шагов диффузии, чтобы сосредоточить тонкую настройку на промежуточных этапах, где проявляются детали объекта. Многочисленные эксперименты демонстрируют, что SFO с CDNS значительно превосходит базовые методы как по точности воспроизведения объекта, так и по соответствию тексту на эталонном тесте генерации, управляемой объектом. Страница проекта: https://subjectfidelityoptimization.github.io/
Мы представляем CURE — новую структуру обучения с подкреплением, включающую специализированный дизайн вознаграждений, который совместно развивает способности генерации кода и модульных тестов на основе результатов их взаимодействия, без использования эталонного кода в качестве контроля. Этот подход обеспечивает гибкое и масштабируемое обучение, позволяя модульному тестеру обучаться непосредственно на ошибках генератора кода. Наши модели ReasonFlux-Coder-7B и 14B повышают точность генерации кода на 5,3% и точность Best-of-N на 9,0% после оптимизации на моделях Qwen2.5-Instruct, превосходя аналогичные по размеру модели Qwen-Coder, DeepSeek-Coder и Seed-Coder. Они естественным образом расширяются на задачи, такие как масштабирование на этапе тестирования и агентное кодирование, демонстрируя улучшение на 8,1% по сравнению с базовой моделью. Для модели long-CoT наш ReasonFlux-Coder-4B стабильно превосходит Qwen3-4B, достигая 64,8% эффективности вывода при генерации модульных тестов. Примечательно, что мы также обнаружили, что наша модель может эффективно использоваться в качестве модели вознаграждения для обучения с подкреплением на базовых моделях. Проект: https://github.com/Gen-Verse/CURE
Последние достижения в области генерации контента с помощью ИИ (AIGC) значительно ускорили процесс создания анимации. Для создания увлекательных анимаций важно генерировать согласованные многокадровые видеоклипы с повествовательными сценариями и референсами персонажей. Однако существующие публичные наборы данных в основном сосредоточены на реальных сценариях с глобальными описаниями и не содержат референсных изображений для обеспечения согласованности персонажей. Чтобы устранить этот пробел, мы представляем AnimeShooter — набор данных для многокадровой анимации с референсным руководством. AnimeShooter включает в себя иерархические аннотации и обеспечивает высокую визуальную согласованность между кадрами благодаря автоматизированному процессу. Аннотации на уровне сюжета предоставляют обзор повествования, включая сюжетную линию, ключевые сцены и профили главных персонажей с референсными изображениями, в то время как аннотации на уровне кадров разбивают сюжет на последовательные кадры, каждый из которых аннотирован сценой, персонажами, а также повествовательными и описательными визуальными подписями. Дополнительно, специальное подмножество AnimeShooter-audio предлагает синхронизированные аудиодорожки для каждого кадра, а также аудиоописания и источники звука. Чтобы продемонстрировать эффективность AnimeShooter и установить базовый уровень для задачи генерации многокадрового видео с референсным руководством, мы представляем AnimeShooterGen, который использует мультимодальные большие языковые модели (MLLM) и модели диффузии видео. Референсное изображение и ранее сгенерированные кадры сначала обрабатываются MLLM для создания представлений, учитывающих как референс, так и контекст, которые затем используются в качестве условия для модели диффузии для декодирования следующего кадра. Экспериментальные результаты показывают, что модель, обученная на AnimeShooter, достигает превосходной визуальной согласованности между кадрами и строгого следования референсным визуальным указаниям, что подчеркивает ценность нашего набора данных для генерации согласованных анимационных видео.
Мы представляем синтез изображений в нативном разрешении — новую парадигму генеративного моделирования, которая позволяет синтезировать изображения с произвольными разрешениями и соотношениями сторон. Этот подход преодолевает ограничения традиционных методов, работающих с фиксированным разрешением и квадратными изображениями, за счет нативной обработки визуальных токенов переменной длины, что является ключевой проблемой для классических техник. Для этого мы представляем архитектуру Native-resolution diffusion Transformer (NiT), разработанную для явного моделирования различных разрешений и соотношений сторон в процессе удаления шума. Освобожденный от ограничений фиксированных форматов, NiT изучает внутренние визуальные распределения на основе изображений с широким диапазоном разрешений и соотношений сторон. Примечательно, что одна модель NiT одновременно достигает наилучших результатов на бенчмарках ImageNet-256x256 и 512x512. Удивительным образом, подобно мощным возможностям zero-shot, наблюдаемым в современных больших языковых моделях, NiT, обученная исключительно на ImageNet, демонстрирует превосходную производительность в zero-shot-обобщении. Она успешно генерирует изображения высокой четкости с ранее не встречавшимися высокими разрешениями (например, 1536 x 1536) и разнообразными соотношениями сторон (например, 16:9, 3:1, 4:3), как показано на Рисунке 1. Эти результаты указывают на значительный потенциал моделирования в нативном разрешении как моста между визуальным генеративным моделированием и передовыми методами LLM.
Генерация длинных видео привлекает все больше внимания благодаря широкому применению в таких областях, как развлечения и симуляции. Несмотря на прогресс, синтез временно согласованных и визуально привлекательных длинных последовательностей остается сложной задачей. Традиционные подходы часто синтезируют длинные видео путем последовательной генерации и объединения коротких клипов или генерации ключевых кадров с последующей интерполяцией промежуточных кадров в иерархической манере. Однако оба подхода по-прежнему сталкиваются с серьезными трудностями, приводящими к таким проблемам, как временные повторы или неестественные переходы. В данной работе мы пересматриваем иерархический процесс генерации длинных видео и представляем LumosFlow — фреймворк, который явно вводит управление движением. В частности, мы сначала используем Large Motion Text-to-Video Diffusion Model (LMTV-DM) для генерации ключевых кадров с большими интервалами движения, что обеспечивает разнообразие контента в создаваемых длинных видео. Учитывая сложность интерполяции контекстных переходов между ключевыми кадрами, мы дополнительно разбиваем интерполяцию промежуточных кадров на генерацию движения и последующее уточнение. Для каждой пары ключевых кадров Latent Optical Flow Diffusion Model (LOF-DM) синтезирует сложные и крупномасштабные оптические потоки, а MotionControlNet затем уточняет результаты деформации для повышения качества и управления генерацией промежуточных кадров. По сравнению с традиционной интерполяцией видеокадров мы достигаем 15-кратной интерполяции, обеспечивая разумное и непрерывное движение между соседними кадрами. Эксперименты показывают, что наш метод позволяет генерировать длинные видео с согласованным движением и внешним видом. Код и модели будут опубликованы после принятия статьи. Страница проекта: https://jiahaochen1.github.io/LumosFlow/
Вдохновленные механизмом обучения в контексте больших языковых моделей (LLM), появляется новый подход к редактированию изображений на основе обобщаемых визуальных подсказок. Существующие методы, использующие одиночные эталонные изображения, обычно сосредоточены на корректировке стиля или внешнего вида и испытывают трудности с нежесткими преобразованиями. Чтобы устранить эти ограничения, мы предлагаем использовать пары исходных и целевых изображений для извлечения и передачи контентно-зависимых намерений редактирования на новые запрашиваемые изображения. Для этого мы представляем RelationAdapter — легковесный модуль, который позволяет моделям на основе диффузионных трансформеров (DiT) эффективно захватывать и применять визуальные преобразования на основе минимальных примеров. Мы также представляем Relation252K — обширный набор данных, включающий 218 разнообразных задач редактирования, для оценки обобщаемости и адаптивности моделей в сценариях, управляемых визуальными подсказками. Эксперименты на Relation252K показывают, что RelationAdapter значительно улучшает способность модели понимать и передавать намерения редактирования, что приводит к заметному повышению качества генерации и общей производительности редактирования.
Диффузионные модели достигли впечатляющих результатов в синтезе видео, но требуют итеративных шагов денойзинга, что приводит к значительным вычислительным затратам. Модели согласованности (Consistency Models) сделали существенный прогресс в ускорении диффузионных моделей. Однако их прямое применение к видео-диффузионным моделям часто приводит к серьезному ухудшению временной согласованности и деталей внешнего вида. В данной работе, анализируя динамику обучения моделей согласованности, мы выявляем ключевой конфликт в процессе дистилляции: существует значительное расхождение в градиентах оптимизации и вкладах в потери на разных временных шагах. Это расхождение препятствует достижению оптимального состояния дистиллированной модели-ученика, что приводит к ухудшению временной согласованности и деталей. Для решения этой проблемы мы предлагаем параметрически эффективную модель согласованности с двумя экспертами (Dual-Expert Consistency Model, DCM), где семантический эксперт сосредоточен на изучении семантической структуры и движения, а эксперт по деталям специализируется на тонкой доработке деталей. Кроме того, мы вводим потерю временной согласованности (Temporal Coherence Loss) для улучшения согласованности движения у семантического эксперта и применяем потери GAN и Feature Matching Loss для повышения качества синтеза у эксперта по деталям. Наш подход достигает наилучшего визуального качества при значительно сокращенном количестве шагов выборки, демонстрируя эффективность специализации экспертов в дистилляции видео-диффузионных моделей. Наш код и модели доступны по адресу https://github.com/Vchitect/DCM.
Модели диффузии для генерации видео из текста известны своими ограничениями в способности моделировать временные аспекты, такие как движение, физика и динамические взаимодействия. Существующие подходы решают эту проблему путем переобучения модели или введения внешних управляющих сигналов для обеспечения временной согласованности. В данной работе мы исследуем, можно ли извлечь осмысленное временное представление непосредственно из предсказаний предварительно обученной модели без дополнительного обучения или вспомогательных входных данных. Мы представляем FlowMo — новый метод управления без обучения, который улучшает согласованность движения, используя только собственные предсказания модели на каждом шаге диффузии. FlowMo сначала извлекает временное представление, очищенное от влияния внешнего вида, измеряя расстояние между латентными переменными, соответствующими последовательным кадрам. Это подчеркивает неявную временную структуру, предсказанную моделью. Затем метод оценивает согласованность движения, измеряя поточечную дисперсию по временной оси, и направляет модель на динамическое уменьшение этой дисперсии в процессе выборки. Многочисленные эксперименты с различными моделями генерации видео из текста демонстрируют, что FlowMo значительно улучшает согласованность движения без ущерба для визуального качества или соответствия текстовому запросу, предлагая эффективное plug-and-play решение для повышения временной точности предварительно обученных моделей диффузии видео.
Высококачественные наборы данных являются основой для обучения и оценки моделей машинного обучения, однако их создание, особенно с точными аннотациями, выполненными людьми, остается серьезной проблемой. Многие представленные работы по наборам данных часто страдают от недостатка оригинальности, разнообразия или строгого контроля качества, и эти недостатки часто упускаются из виду в процессе рецензирования. В представленных работах также часто отсутствуют важные детали о процессе создания и свойствах наборов данных. Хотя существующие инструменты, такие как datasheets, направлены на повышение прозрачности, они в основном носят описательный характер и не предоставляют стандартизированных, измеримых методов для оценки качества данных. Аналогично, требования к метаданным на конференциях способствуют подотчетности, но применяются непоследовательно. Чтобы устранить эти ограничения, в данной позиционной статье предлагается интеграция систематических, основанных на критериях метрик оценки в процесс рецензирования наборов данных, особенно в условиях растущего числа представлений. Мы также исследуем масштабируемые и экономически эффективные методы генерации синтетических данных, включая специализированные инструменты и подходы с использованием LLM-as-a-judge, для поддержки более эффективной оценки. В качестве призыва к действию мы представляем DataRubrics — структурированную систему для оценки качества как человечески, так и модельно сгенерированных наборов данных. Используя последние достижения в области оценки на основе LLM, DataRubrics предлагает воспроизводимое, масштабируемое и практичное решение для оценки качества наборов данных, позволяя как авторам, так и рецензентам поддерживать более высокие стандарты в исследованиях, ориентированных на данные. Мы также публикуем код для поддержки воспроизводимости оценок на основе LLM по адресу https://github.com/datarubrics/datarubrics.
Методы видео-диффузии значительно продвинулись в последние годы; однако они сталкиваются с трудностями при генерации реалистичных изображений автомобильных аварий из-за недостатка данных о подобных инцидентах в большинстве наборов данных, связанных с вождением. Улучшение безопасности дорожного движения требует реалистичных и управляемых симуляций аварий. Для решения этой проблемы мы предлагаем Ctrl-Crash — управляемую модель генерации видео автомобильных аварий, которая учитывает такие сигналы, как ограничивающие рамки, типы столкновений и начальный кадр изображения. Наш подход позволяет генерировать контрфактуальные сценарии, где незначительные изменения входных данных могут привести к кардинально различным исходам аварий. Для обеспечения детального управления на этапе вывода мы используем метод классификатор-фри гида с независимо настраиваемыми масштабами для каждого сигнала. Ctrl-Crash демонстрирует наилучшие результаты по количественным метрикам качества видео (например, FVD и JEDi) и качественным оценкам, основанным на экспертной оценке физической реалистичности и качества видео, по сравнению с предыдущими методами, основанными на диффузии.
Генерация кода с использованием больших языковых моделей (LLMs), часто называемая "вибро-кодированием", всё чаще применяется в производственной среде, но не обеспечивает качество кода, особенно в аспектах безопасности (например, уязвимости SQL-инъекций) и поддерживаемости (например, отсутствие аннотаций типов). Существующие методы, такие как контролируемое тонкое настраивание и постобработка на основе правил, зависят от трудоёмких аннотаций или хрупких эвристик, что ограничивает их масштабируемость и эффективность. Мы предлагаем REAL — фреймворк обучения с подкреплением, который стимулирует LLMs генерировать код производственного качества с использованием обратной связи, основанной на анализе программ. В частности, REAL интегрирует два автоматизированных сигнала: (1) анализ программ, выявляющий дефекты безопасности или поддерживаемости, и (2) модульные тесты, обеспечивающие функциональную корректность. В отличие от предыдущих работ, наш фреймворк не зависит от промптов и эталонных данных, что позволяет масштабировать контроль без ручного вмешательства. Эксперименты на множестве наборов данных и масштабов моделей показывают, что REAL превосходит современные методы в одновременной оценке функциональности и качества кода. Наша работа устраняет разрыв между быстрым прототипированием и готовым к производству кодом, позволяя LLMs обеспечивать как скорость, так и качество.
Дистилляция знаний (KD) представляет собой широко используемую методологию для обучения компактных, специализированных моделей с использованием знаний моделей-учителей. Однако её применение в активном обучении (AL), которое направлено на минимизацию затрат на аннотирование через итеративный отбор образцов, остается недостаточно изученным. Этот пробел обусловлен тем, что KD обычно предполагает доступ к достаточному количеству размеченных данных, тогда как AL работает в условиях дефицита данных, где специализированные модели-учители часто недоступны. В данной статье мы представляем ActiveKD — фреймворк, который интегрирует AL с KD, используя возможности крупных визуально-языковых моделей (VLMs) в задачах zero-shot и few-shot обучения. Ключевым аспектом ActiveKD является структурированная предсказательная предвзятость VLMs — их предсказания образуют кластеры в вероятностном пространстве. Мы рассматриваем эту структуру как индуктивную предвзятость модели-учителя, которая фиксирует обобщаемые паттерны выходных данных, полезные для обучения модели-ученика. Чтобы использовать эту предвзятость, мы предлагаем Probabilistic CoreSet (PCoreSet) — стратегию отбора, которая максимизирует покрытие в вероятностном пространстве, а не в пространстве признаков. PCoreSet стратегически выбирает категориально разнообразные неразмеченные образцы, что способствует более эффективной передаче знаний модели-учителя при ограниченном бюджете на аннотирование. Оценки на 11 наборах данных показывают, что PCoreSet стабильно превосходит существующие методы отбора в рамках фреймворка ActiveKD, продвигая исследования на стыке AL и KD.
Крупные языковые модели быстро становятся основой для интеллектуальных агентов, способных использовать инструменты. Однако обучение таких агентов является сложной задачей, поскольку требует создания и аннотирования человеком разнообразного набора задач, инструментов и критериев оценки. В данной работе мы предлагаем фреймворк Self-Challenging для обучения агента на высококачественных задачах, которые генерируются им самим. Агент сначала выступает в роли "испытателя" и создает задачу после взаимодействия с предоставленными инструментами. Задачи принимают форму нового общего класса проблем, называемого Code-as-Task, которые определяются инструкцией, функцией проверки, а также примерами решений и неудач, служащими тестами, что позволяет отфильтровывать только высококачественные задачи. Затем агент берет на себя роль "исполнителя" и обучается на этих задачах с использованием обучения с подкреплением, где оценочная обратная связь служит наградой. Оценка на двух существующих бенчмарках для многошаговых агентов, использующих инструменты, — M3ToolEval и TauBench — показывает, что фреймворк Self-Challenging обеспечивает более чем двукратное улучшение в модели Llama-3.1-8B-Instruct, несмотря на использование только самостоятельно сгенерированных данных для обучения.
Мы представляем MoCA-Video (Motion-Aware Concept Alignment in Video) — обучение-независимый фреймворк, устраняющий разрыв между семантическим смешением в области изображений и видео. При наличии сгенерированного видео и предоставленного пользователем эталонного изображения MoCA-Video внедряет семантические признаки эталонного изображения в конкретный объект внутри видео, сохраняя при этом исходное движение и визуальный контекст. Наш подход использует диагональный график удаления шума и класс-независимую сегментацию для обнаружения и отслеживания объектов в латентном пространстве, а также для точного управления пространственным расположением смешанных объектов. Для обеспечения временной согласованности мы применяем семантические коррекции на основе импульса и стабилизацию остаточного шума с помощью гамма-коррекции для плавных переходов между кадрами. Мы оцениваем производительность MoCA с использованием стандартных метрик SSIM, LPIPS на уровне изображений, временного LPIPS, а также вводим новую метрику CASS (Conceptual Alignment Shift Score) для оценки согласованности и эффективности визуальных изменений между исходным запросом и модифицированными кадрами видео. Используя самостоятельно созданный набор данных, MoCA-Video превосходит текущие базовые подходы, демонстрируя превосходную пространственную согласованность, когерентное движение и значительно более высокий показатель CASS, несмотря на отсутствие обучения или тонкой настройки. MoCA-Video показывает, что структурированное манипулирование в траектории шума диффузии позволяет достичь контролируемого синтеза видео высокого качества.
Получение данных для симуляции роботов в реальных условиях с помощью телеоперации является крайне трудоемким и затратным по времени процессом. В последнее время генеративные модели, управляемые действиями, получили широкое распространение в обучении и симуляции роботов, поскольку они устраняют проблемы безопасности и снижают затраты на обслуживание. Однако последовательности действий, используемые в этих методах, часто приводят к ограниченной точности управления и слабой обобщающей способности из-за их глобально грубого согласования. Для устранения этих ограничений мы предлагаем ORV — фреймворк для генерации видео роботов, основанный на концепции семантической оккупации, который использует 4D-последовательности семантической оккупации как детализированное представление для обеспечения более точной семантической и геометрической ориентации при генерации видео. Благодаря использованию представлений на основе оккупации, ORV позволяет бесшовно преобразовывать данные симуляции в фотореалистичные видео роботов, обеспечивая высокую временную согласованность и точную управляемость. Кроме того, наш фреймворк поддерживает одновременную генерацию многовидовых видео операций захвата роботом — важную возможность для последующих задач обучения роботов. Результаты многочисленных экспериментов показывают, что ORV стабильно превосходит существующие базовые методы на различных наборах данных и подзадачах. Демо, код и модель доступны по ссылке: https://orangesodahub.github.io/ORV.
Скорость генерации больших языковых моделей (LLM) ограничена авторегрессивным декодированием, при котором токены предсказываются последовательно один за другим. В качестве альтернативы, диффузионные большие языковые модели (dLLM) теоретически позволяют генерировать токены параллельно, но на практике сталкиваются с трудностями в достижении скорости авторегрессивных моделей без значительного ухудшения качества. Поэтому мы представляем адаптивное параллельное декодирование (APD) — новый метод, который динамически регулирует количество токенов, выбираемых параллельно. Мы достигаем этого, определяя мультипликативную смесь между маргинальными вероятностями dLLM и совместной вероятностью последовательностей, полученной с помощью небольшой вспомогательной авторегрессивной модели. Это инвертирует стандартную схему спекулятивного декодирования, где цель состоит в выборке из большой авторегрессивной модели с использованием черновиков, созданных меньшей моделью. Мы дополнительно оптимизируем APD, включая кэширование ключей и значений (KV) и ограничивая размер маскированного ввода. В целом, наш метод предлагает три настраиваемых параметра для гибкого баланса между пропускной способностью и качеством. Мы показываем, что APD обеспечивает значительно более высокую пропускную способность с минимальным ухудшением качества на тестовых наборах данных.
Современные подходы к самокоррекции в задачах text-to-SQL сталкиваются с двумя ключевыми ограничениями: 1) Традиционные методы самокоррекции полагаются на рекурсивные вызовы больших языковых моделей (LLM), что приводит к мультипликативным вычислительным затратам, и 2) LLM испытывают трудности с эффективным обнаружением и исправлением ошибок в декларативных SQL-запросах, поскольку не демонстрируют лежащий в основе путь рассуждений. В данной работе мы предлагаем SHARE — иерархического помощника для коррекции действий на основе малых языковых моделей (SLM), который позволяет LLM выполнять более точную локализацию ошибок и эффективную коррекцию. SHARE организует три специализированные малые языковые модели (SLM) в последовательный конвейер, где сначала преобразует декларативные SQL-запросы в пошаговые траектории действий, раскрывающие лежащие в основе рассуждения, а затем выполняет двухфазную детализированную коррекцию. Мы также предлагаем новую иерархическую стратегию самоэволюции для эффективного обучения с ограниченными данными. Результаты экспериментов показывают, что SHARE значительно улучшает возможности самокоррекции, демонстрируя устойчивость при работе с различными LLM. Кроме того, наш всесторонний анализ показывает, что SHARE сохраняет высокую производительность даже в условиях обучения с ограниченными ресурсами, что особенно ценно для приложений text-to-SQL с ограничениями на конфиденциальность данных.
Визуализации играют ключевую роль в эффективной передаче концепций и информации. Последние достижения в области рассуждений и генерации, усиленной поиском, позволили крупным языковым моделям (LLM) проводить глубокие исследования и создавать всесторонние отчеты. Несмотря на прогресс, существующие фреймворки для глубоких исследований в основном сосредоточены на генерации текстового контента, оставляя автоматизированное создание переплетенных текстов и визуализаций недостаточно изученным. Эта новая задача ставит ключевые вызовы в проектировании информативных визуализаций и их эффективной интеграции с текстовыми отчетами. Для решения этих задач мы предлагаем Формальное Описание Визуализации (FDV) — структурированное текстовое представление графиков, которое позволяет LLM обучаться и генерировать разнообразные, высококачественные визуализации. На основе этого представления мы представляем Multimodal DeepResearcher, агентский фреймворк, который разбивает задачу на четыре этапа: (1) исследование, (2) текстуализация примерного отчета, (3) планирование и (4) генерация мультимодального отчета. Для оценки созданных мультимодальных отчетов мы разработали MultimodalReportBench, содержащий 100 разнообразных тем в качестве входных данных, а также 5 специализированных метрик. Масштабные эксперименты с различными моделями и методами оценки демонстрируют эффективность Multimodal DeepResearcher. В частности, при использовании той же модели Claude 3.7 Sonnet, Multimodal DeepResearcher достигает 82\% общего показателя превосходства над базовым методом.
С выходом R1, общедоступной крупной модели рассуждений (LRM), исследователи часто обучают новые LRM, тренируя языковые модели на длинных цепочках рассуждений (CoT), сгенерированных R1. Хотя предыдущие работы показывают, что возможности LRM могут быть воспроизведены с помощью прямой дистилляции, сохраняющаяся зависимость от существующих моделей (например, R1) остается серьезным ограничением в развитии этой области. В качестве первого шага к независимой разработке LRM, данная работа исследует возможность создания длинного набора данных CoT с использованием языковых моделей (LLM), которые не обучались для масштабирования на этапе вывода. С этой целью мы представляем Long CoT Collection — набор данных из 100 тысяч рациональных объяснений CoT, аннотированных с использованием существующих LLM с короткими CoT. Мы разрабатываем конвейер, который внедряет новые стратегии рассуждений o1 в LLM с короткими CoT, позволяя им "думать" дольше и вводя управляемость над бюджетом мыслей для лучшего контроля проблемы чрезмерного анализа. Наши обширные анализы подтверждают, что качество нашего набора данных сопоставимо с R1 или немного ниже. Кроме того, эксперименты показывают, что обучение на нашем наборе данных не только укрепляет общие навыки рассуждения, но и обеспечивает прочную основу для обучения с подкреплением — модели, инициализированные на наших данных, достигают в 2-3 раза большего прогресса с использованием RLVR.
Недавние прорывы в области больших языковых моделей (LLM) существенно улучшили их способности к рассуждению, особенно в решении математических и логических задач с проверяемыми ответами, благодаря таким методам, как контролируемое дообучение (SFT) и обучение с подкреплением (RL). Предыдущие исследования показывают, что RL эффективно усваивает стратегии поиска, позволяя проводить длинные цепочки рассуждений (CoT), причем возврат (backtracking) естественным образом возникает как освоенная способность. Однако точные преимущества возврата, в частности, насколько значительно он способствует улучшению рассуждений и оптимальная степень его использования, остаются недостаточно изученными. В данной работе мы систематически исследуем динамику между SFT и RL на восьми задачах рассуждения: Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles и Self Reference. Наши результаты показывают, что короткие последовательности CoT, используемые в SFT в качестве разминки, действительно вносят умеренный вклад в обучение RL по сравнению с обучением RL с нуля; однако этот вклад уменьшается, когда задачи становятся все более сложными. Вдохновленные этим наблюдением, мы создаем синтетические наборы данных, систематически варьируя количество шагов возврата, и проводим контролируемые эксперименты, чтобы изолировать влияние либо правильности (содержания), либо структуры (например, частоты возврата). Мы обнаруживаем, что (1) более длинные CoT с возвратами, как правило, способствуют более эффективному и стабильному обучению RL, (2) более сложные задачи с большим пространством поиска требуют большего количества возвратов на этапе SFT. Кроме того, мы демонстрируем в экспериментах с дистиллированными данными, что обучение RL практически не зависит от правильности длинных последовательностей CoT, что указывает на то, что RL уделяет приоритетное внимание структурным паттернам, а не правильности содержания. В совокупности наши результаты предлагают практические рекомендации по разработке оптимальных стратегий обучения для эффективного масштабирования рассуждений в LLM.
Понимание длинных видеороликов представляет значительные трудности из-за обширной временно-пространственной сложности и сложности ответов на вопросы в таких продолжительных контекстах. Хотя крупные языковые модели (LLM) продемонстрировали значительный прогресс в возможностях анализа видео и обработки длинных контекстов, они продолжают проявлять ограничения при обработке насыщенных информацией часовых видеороликов. Чтобы преодолеть эти ограничения, мы предлагаем агента Deep Video Discovery, который использует стратегию агентского поиска по сегментированным видеоклипам. В отличие от предыдущих видеоагентов, вручную проектирующих жесткий рабочий процесс, наш подход подчеркивает автономную природу агентов. Предоставляя набор инструментов, ориентированных на поиск, в многоуровневой видеобазе данных, наш агент DVD использует продвинутые способности рассуждения LLM для планирования на основе текущего состояния наблюдения, стратегического выбора инструментов, формулирования подходящих параметров для действий и итеративного уточнения внутренних рассуждений на основе собранной информации. Мы проводим всестороннюю оценку на нескольких бенчмарках для понимания длинных видеороликов, что демонстрирует преимущества всей системы. Наш агент DVD достигает наилучших результатов (SOTA), значительно превосходя предыдущие работы с большим отрывом на сложном наборе данных LVBench. Также представлены всесторонние исследования с исключением компонентов и глубокий анализ инструментов, что дает идеи для дальнейшего развития интеллектуальных агентов, адаптированных для задач понимания длинных видеороликов. Код будет опубликован позже.
Семантический поиск имеет решающее значение для современных приложений, однако остается недостаточно изученным в текущих исследованиях. Существующие наборы данных ограничены одним языком, одним изображением или единичными условиями поиска, часто не полностью раскрывая выразительный потенциал визуальной информации, что подтверждается сохранением производительности при замене изображений текстовыми описаниями. Однако практические сценарии поиска часто включают сложные многокомпонентные запросы с несколькими изображениями. В связи с этим данная работа представляет MERIT — первый многоязычный набор данных для многокомпонентного семантического поиска, содержащий 320 000 запросов с 135 000 товаров на 5 языках, охватывающих 7 различных категорий продуктов. Масштабные эксперименты на MERIT выявили ограничение существующих моделей: фокусирование исключительно на глобальной семантической информации при игнорировании специфических условий в запросах. В результате мы предлагаем Coral — инновационную структуру тонкой настройки, которая адаптирует предобученные мультимодальные языковые модели (MLLM) за счет интеграции реконструкции эмбеддингов для сохранения детализированных условий и контрастивного обучения для извлечения всеобъемлющей глобальной семантики. Эксперименты показывают, что Coral достигает улучшения производительности на 45,9% по сравнению с традиционными подходами на MERIT, демонстрируя сильные обобщающие способности, подтвержденные на 8 известных бенчмарках поиска. В совокупности наши вклады — новый набор данных, выявление ключевых ограничений существующих подходов и инновационная структура тонкой настройки — закладывают основу для будущих исследований в области многокомпонентного семантического поиска.
Контрастное предварительное обучение языково-изобразительных моделей выравнивает признаки пар текст-изображение в общем латентном пространстве с помощью отдельных кодировщиков для каждой модальности. Хотя этот подход демонстрирует впечатляющие результаты в нескольких задачах с нулевым обучением, он изначально не способен обрабатывать мультимодальные входные данные, то есть кодировать изображение и текст в единый вектор признаков. В качестве решения часто используются дополнительные модули для объединения признаков, извлеченных унимодальными кодировщиками. В данной работе мы представляем FuseLIP — альтернативную архитектуру для мультимодального встраивания. Используя последние достижения в области дискретных токенизаторов изображений, мы предлагаем использовать единую трансформерную модель, которая работает с расширенным словарем текстовых и изобразительных токенов. Такой подход раннего слияния позволяет различным модальностям взаимодействовать на каждом уровне кодирования и получать более богатые представления по сравнению с распространенным поздним слиянием. Мы собираем новые наборы данных для предварительного обучения и оценки, разрабатывая сложные задачи для моделей мультимодальных кодировщиков. Мы показываем, что FuseLIP превосходит другие подходы в задачах мультимодального встраивания, таких как визуальный вопросно-ответный поиск и поиск преобразований изображений с текстовым руководством, при этом оставаясь сопоставимым с базовыми методами в унимодальных задачах.
Крупные языковые модели (LLM) недавно достигли значительного прогресса благодаря использованию обучения с подкреплением и расширенных методов цепочки рассуждений (CoT). Однако задача эффективного языкового рассуждения, особенно в процессе вывода с чрезвычайно длинными результатами, привлекает всё больше внимания исследовательского сообщества. В данной работе мы предлагаем динамический подход к обучению, основанный на соотношении, который не требует сложной аннотации данных или интерполяции между несколькими моделями. Мы непрерывно балансируем веса между данными Системы-1 и Системы-2 модели, чтобы устранить избыточные процессы рассуждения, сохраняя при этом способность модели к логическому выводу. Мы проверяем наш подход на моделях DeepSeek-R1-Distill-7B и DeepSeek-R1-Distill-14B, а также на разнообразных наборах тестов с различными уровнями сложности. Наш метод значительно сокращает количество выходных токенов почти на 40%, сохраняя точность рассуждений. Наш код и данные будут доступны в ближайшее время.
Недавние прорывы в области больших языковых моделей (LLM) привели к разработке новых эталонов для оценки их производительности в финансовой сфере. Однако текущие финансовые эталоны часто основываются на новостных статьях, отчетах о доходах или объявлениях, что затрудняет отражение реальной динамики финансовых встреч. Чтобы устранить этот пробел, мы предлагаем новый эталон под названием M^3FinMeeting, который представляет собой многоязычный, многосекторный и многофункциональный набор данных, предназначенный для понимания финансовых встреч. Во-первых, M^3FinMeeting поддерживает английский, китайский и японский языки, что улучшает понимание финансовых обсуждений в различных языковых контекстах. Во-вторых, он охватывает различные отрасли, определенные Глобальным стандартом классификации отраслей (GICS), что гарантирует широкий спектр финансовой деятельности. Наконец, M^3FinMeeting включает три задачи: суммирование, извлечение пар вопрос-ответ (QA) и ответы на вопросы, что способствует более реалистичной и всесторонней оценке понимания. Экспериментальные результаты с семью популярными LLM показывают, что даже самые передовые модели с длинным контекстом имеют значительный потенциал для улучшения, что демонстрирует эффективность M^3FinMeeting как эталона для оценки навыков понимания финансовых встреч LLM.
Современные парадигмы тонкой настройки с подкреплением (Reinforcement Fine-tuning, RFT) для крупных языковых моделей (Large Language Models, LLMs) страдают от низкой эффективности использования данных из-за избыточного повторения одинаковых запросов при равномерной выборке данных. Хотя предыдущие работы исследовали обучение по учебному плану с использованием эвристических метрик сложности, эти стратегии имеют ограничения, игнорируя внутренние сигналы обучения, генерируемые самой моделью, что приводит к неоптимальным режимам обучения. В данной работе мы выявляем внутренний сигнал модели, называемый концентрацией углов, который эффективно отражает способность LLM обучаться на конкретных данных. Мы теоретически и эмпирически демонстрируем корреляцию между угловым распределением векторов скрытых состояний токенов и результирующим градиентом, выявляя предпочтение в обучении данным с более высокой концентрацией углов. Вдохновленные этим открытием, мы предлагаем GAIN-RL, градиентно-ориентированную RL-структуру с навигацией на основе углов. Используя внутренний сигнал концентрации углов модели, GAIN-RL динамически выбирает данные для обучения на каждой эпохе, обеспечивая устойчиво значимые обновления градиента и тем самым значительно повышая общую эффективность обучения. Эмпирические оценки показывают, что GAIN-RL (GRPO) достигает более чем 2,5-кратного ускорения эффективности обучения на разнообразных математических и кодировочных задачах и при различных масштабах моделей. Более того, эффективная выборка GAIN-RL (GRPO) обеспечивает обучение с высокой эффективностью использования данных, достигая лучших результатов с половиной исходных данных по сравнению с базовым GRPO с полным набором данных для обучения. Код доступен по адресу https://github.com/wangqinsi1/GAINRL/tree/main.
Культура представляет собой богатую и динамичную область, которая развивается как в географическом, так и во временном аспектах. Однако существующие исследования по культурному пониманию с использованием моделей "визуальный язык" (VLMs) в основном акцентируют внимание на географическом разнообразии, часто упуская из виду важные временные измерения. Чтобы заполнить этот пробел, мы представляем Hanfu-Bench — новый, экспертно-курируемый мультимодальный набор данных. Ханьфу, традиционный наряд, охватывающий древние китайские династии, служит репрезентативным культурным наследием, отражающим глубокие временные аспекты китайской культуры, оставаясь при этом чрезвычайно популярным в современном китайском обществе. Hanfu-Bench включает две основные задачи: культурное визуальное понимание и культурную трансформацию изображений. Первая задача исследует распознавание временно-культурных особенностей на основе одного или нескольких изображений через визуальные вопросы с множественным выбором, тогда как вторая сосредоточена на преобразовании традиционного наряда в современные дизайны через наследование культурных элементов и адаптацию к современному контексту. Наша оценка показывает, что закрытые VLMs справляются с задачей визуального культурного понимания на уровне, сопоставимом с неэкспертами, но отстают на 10% от экспертов, в то время как открытые VLMs отстают еще больше. Для задачи трансформации многоаспектная человеческая оценка указывает, что лучшая модель достигает успеха только в 42% случаев. Наш бенчмарк предоставляет важный тестовый стенд, выявляя значительные вызовы в этом новом направлении временного культурного понимания и творческой адаптации.
Недавние достижения в области крупных мультимодальных моделей (LMMs) позволили добиться эффективного анализа на стыке зрения и языка, однако способность понимать видеоконтент остается ограниченной из-за неоптимальных стратегий выбора кадров. Существующие подходы часто полагаются на статические эвристики или внешние модули извлечения для передачи информации о кадрах в видео-LLM, что может не обеспечивать релевантной информации для запроса. В данной работе мы представляем ReFoCUS (Reinforcement-guided Frame Optimization for Contextual UnderStanding) — новую структуру оптимизации на уровне кадров, которая смещает цель оптимизации с текстовых ответов на выбор визуальных входных данных. ReFoCUS обучает политику выбора кадров с помощью обучения с подкреплением, используя сигналы вознаграждения, полученные от эталонной LMM, чтобы отразить внутренние предпочтения модели для кадров, которые лучше всего поддерживают временно обусловленные ответы. Для эффективного исследования большого комбинаторного пространства кадров мы применяем авторегрессионную архитектуру условного выбора, которая обеспечивает временную согласованность, одновременно снижая сложность. Наш подход не требует явного контроля на уровне кадров и последовательно улучшает производительность анализа на нескольких бенчмарках для видео-вопросов, подчеркивая преимущества согласования выбора кадров с внутренней полезностью модели.
Данная работа направлена на решение проблем недостаточного и избыточного анализа в длинных цепочках рассуждений (CoT) для крупных моделей рассуждений (LRMs) путем введения Полей Управления Рассуждениями (RCF) — нового подхода на этапе тестирования, который внедряет структурированные управляющие сигналы для направления рассуждений с точки зрения поиска по дереву. RCF позволяет моделям регулировать усилия, затрачиваемые на рассуждения, в соответствии с заданными управляющими условиями при решении сложных задач. Кроме того, мы представляем набор данных Control-R-4K, состоящий из сложных задач, аннотированных детальными процессами рассуждений и соответствующими управляющими полями. Для дальнейшего улучшения управления рассуждениями мы предлагаем метод Условного Дистилляционного Тонкого Настройки (CDF), который обучает модель — в частности, Control-R-32B — эффективно регулировать усилия на рассуждения во время тестирования. Результаты экспериментов на таких тестах, как AIME2024 и MATH500, демонстрируют, что наш подход достигает наилучших результатов на уровне 32B, обеспечивая при этом управляемый процесс длинных цепочек рассуждений (L-CoT). В целом, данная работа представляет собой эффективную парадигму для управляемого масштабирования рассуждений на этапе тестирования.
Существующие методы интерполяции используют предварительно обученные видеодиффузионные априори для генерации промежуточных кадров между редко выбранными ключевыми кадрами. При отсутствии 3D-геометрического руководства эти методы испытывают трудности с созданием правдоподобных результатов для сложных, сочлененных движений человека и предлагают ограниченный контроль над синтезированной динамикой. В данной статье мы представляем PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), новый фреймворк, который интегрирует 3D-сигналы человеческого руководства в процесс диффузии для Управляемой Человеко-ориентированной Интерполяции Ключевых Кадров (CHKI). Для предоставления богатых пространственных и структурных подсказок для интерполяции, наш PoseFuse3D, 3D-информированная модель управления, включает в себя новый SMPL-X кодировщик, который преобразует 3D-геометрию и форму в 2D латентное пространство кондиционирования, а также сеть слияния, которая интегрирует эти 3D-подсказки с 2D-вложениями поз. Для оценки мы создали CHKI-Video, новый набор данных, аннотированный как 2D-позами, так и 3D-параметрами SMPL-X. Мы показываем, что PoseFuse3D-KI последовательно превосходит современные базовые методы на CHKI-Video, достигая 9% улучшения в PSNR и 38% снижения в LPIPS. Комплексные абляции демонстрируют, что наша модель PoseFuse3D улучшает точность интерполяции.
Врожденные сложности арабской письменности, такие как ее курсивный характер, диакритические знаки (ташкиль) и разнообразие типографики, создают устойчивые проблемы для оптического распознавания символов (OCR). Мы представляем Qari-OCR — серию моделей, основанных на визуально-языковых технологиях, производных от Qwen2-VL-2B-Instruct, которые последовательно оптимизированы для арабского языка путем итеративной тонкой настройки на специализированных синтетических наборах данных. Наша ведущая модель, QARI v0.2, устанавливает новый открытый эталон с показателями Word Error Rate (WER) 0.160, Character Error Rate (CER) 0.061 и BLEU score 0.737 на текстах с богатым использованием диакритики. Qari-OCR демонстрирует превосходное обращение с ташкилем, разнообразием шрифтов и макетов документов, а также впечатляющую производительность на изображениях с низким разрешением. Дальнейшие исследования (QARI v0.3) показывают значительный потенциал для понимания структуры документов и рукописного текста. Данная работа обеспечивает заметное улучшение точности и эффективности OCR для арабского языка, при этом все модели и наборы данных опубликованы для стимулирования дальнейших исследований.
Мы исследуем, можно ли предсказать успех процесса нулевого снимка "Цепочки Мыслей" (CoT) до его завершения. Мы обнаруживаем, что зондирующий классификатор, основанный на представлениях языковой модели (LLM), демонстрирует высокую эффективность даже до генерации первого токена, что указывает на наличие важной информации о процессе рассуждения уже в начальных этапах представлений. В отличие от этого, сильная базовая модель на основе BERT, которая полагается исключительно на сгенерированные токены, показывает худшие результаты, вероятно, из-за зависимости от поверхностных лингвистических признаков, а не от более глубоких динамик рассуждения. Удивительно, но использование более поздних этапов рассуждения не всегда улучшает классификацию. Когда дополнительный контекст не помогает, ранние представления больше напоминают поздние, что свидетельствует о том, что LLM кодируют ключевую информацию на ранних этапах. Это подразумевает, что процесс рассуждения часто может быть остановлен раньше без потери качества. Чтобы проверить это, мы проводим эксперименты с ранней остановкой, показывая, что усечение CoT-рассуждений всё же улучшает производительность по сравнению с полным отсутствием CoT, хотя разница с полным рассуждением сохраняется. Однако подходы, такие как обучение с учителем или обучение с подкреплением, разработанные для сокращения цепочек CoT, могут использовать руководство нашего классификатора для определения моментов, когда ранняя остановка эффективна. Наши результаты предоставляют инсайты, которые могут поддержать такие методы, помогая оптимизировать эффективность CoT, сохраняя при этом его преимущества.
Крупные модели рекомендательных систем расширили возможности языковых моделей (LLM) в качестве мощных рекомендателей через кодирование или генерацию элементов, а недавние прорывы в области рассуждений LLM синхронно стимулируют исследование рассуждений в рекомендательных системах. Современные исследования обычно позиционируют LLM как внешние модули рассуждений для создания вспомогательных мыслей, дополняющих традиционные конвейеры рекомендаций. Однако такие разделенные конструкции ограничены значительными затратами ресурсов и неоптимальной совместной оптимизацией. Для решения этих проблем мы предлагаем \name, унифицированную крупную рекомендательную модель с внутренними возможностями рассуждений. Изначально мы переосмысливаем архитектуру модели, чтобы облегчить чередование рассуждений и рекомендаций в авторегрессивном процессе. Затем мы предлагаем RecPO, соответствующую структуру обучения с подкреплением, которая оптимизирует \name\ как возможности рассуждений, так и рекомендаций одновременно в рамках одного обновления политики; RecPO вводит схему объединенных наград, которая исключительно использует метки рекомендаций для имитации способности рассуждений, устраняя зависимость от специализированных аннотаций рассуждений. Эксперименты на трех наборах данных с различными базовыми моделями подтверждают эффективность \name, показывая относительные улучшения на 68.67\% в Hit@5 и 45.21\% в NDCG@20. Код доступен по адресу https://github.com/YRYangang/RRec.
Редактирование изображений с использованием инструкций для отражения нежестких движений, смены точек обзора камеры, деформаций объектов, артикуляций человека и сложных взаимодействий представляет собой сложную, но малоизученную проблему в области компьютерного зрения. Существующие подходы и наборы данных в основном сосредоточены на статических сценах или жестких преобразованиях, что ограничивает их способность обрабатывать выразительные правки, связанные с динамическим движением. Для устранения этого пробела мы представляем ByteMorph — комплексную платформу для редактирования изображений на основе инструкций с акцентом на нежесткие движения. ByteMorph включает крупномасштабный набор данных ByteMorph-6M и мощную базовую модель, построенную на основе Diffusion Transformer (DiT), под названием ByteMorpher. ByteMorph-6M содержит более 6 миллионов пар высококачественных изображений для обучения, а также тщательно отобранный эталонный набор для оценки ByteMorph-Bench. Оба набора охватывают широкий спектр типов нежестких движений в различных средах, фигурах человека и категориях объектов. Набор данных создан с использованием генерации данных, управляемой движением, техник послойного композитинга и автоматического создания подписей для обеспечения разнообразия, реалистичности и семантической согласованности. Мы также проводим всестороннюю оценку современных методов редактирования изображений на основе инструкций как из академической, так и из коммерческой сфер.
Разработка эффективных инструментов объяснимости для архитектур Transformer является важной задачей в исследованиях глубокого обучения. Одним из наиболее перспективных подходов в этой области является послойное распространение релевантности (Layer-wise Relevance Propagation, LRP), которое распространяет оценки релевантности в обратном направлении через сеть к входному пространству путем перераспределения значений активаций на основе предопределенных правил. Однако существующие методы, основанные на LRP для объяснимости Transformer, полностью игнорируют критический компонент архитектуры Transformer — позиционное кодирование (Positional Encoding, PE), что приводит к нарушению свойства сохранения и потере важного и уникального типа релевантности, связанного со структурными и позиционными особенностями. Для устранения этого ограничения мы переформулируем входное пространство для объяснимости Transformer как набор пар "позиция-токен". Это позволяет предложить специализированные теоретически обоснованные правила LRP, предназначенные для распространения атрибуций через различные методы позиционного кодирования, включая Rotary, Learnable и Absolute PE. Многочисленные эксперименты с тонко настроенными классификаторами и моделями с нулевым обучением, такими как LLaMA 3, демонстрируют, что наш метод значительно превосходит современные подходы в задачах объяснимости как в области компьютерного зрения, так и в обработке естественного языка. Наш код доступен в открытом доступе.
Обучение в контексте (In-context learning, ICL) представляет собой важную, но еще не до конца изученную способность предварительно обученных больших языковых моделей (LLMs). Оно может значительно улучшить выполнение задач с использованием нескольких примеров, называемых демонстрациями, без необходимости тонкой настройки. Хотя ICL эффективно в задачах ответов на вопросы, оно часто демонстрирует низкую производительность в задачах длинной генерации, таких как суммаризация. В рамках реалистичных предположений мы эмпирически и теоретически показываем, что одних только демонстраций ICL недостаточно для обучения LLMs распределениям языка и формата задачи для генерации. Мы утверждаем, что явное ознакомление с распределениями задачи и предполагаем, что их определение через промптинг повышает производительность модели. С этой целью мы представляем LongGuide, который эффективно генерирует два параллельных потока руководств, охватывающих свойства языка и формата задачи: (i) Метрические руководства (Metric Guidelines, MGs), которые инструктируют модели оптимизировать самооцененные метрики; и (ii) Руководства по ограничениям вывода (Output Constraint Guidelines, OCGs), которые ограничивают генерацию на уровне токенов и предложений. LongGuide автоматически выбирает наилучшую комбинацию руководств, улучшая как сильные открытые, так и закрытые LLMs более чем на 5% в условиях нулевого и немногих примеров. Мы показываем, что LongGuide является обобщаемым, может быть изучен слабыми моделями для улучшения сильных и синергетически интегрируется с автоматическими оптимизаторами промптов.