Ежедневно отобранные исследовательские статьи по ИИ с переводами
Появление агентного обучения с подкреплением (Agentic RL) знаменует собой смену парадигмы по сравнению с традиционным обучением с подкреплением, применяемым к большим языковым моделям (LLM RL), переосмысливая LLM как не пассивные генераторы последовательностей, а автономные агенты, принимающие решения в сложных, динамичных мирах. В этом обзоре мы формализуем эту концептуальную смену, противопоставляя вырожденные одношаговые марковские процессы принятия решений (MDP) в LLM-RL и временно расширенные, частично наблюдаемые марковские процессы принятия решений (POMDP), которые определяют Agentic RL. Основываясь на этом, мы предлагаем всеобъемлющую двустороннюю таксономию: одна организована вокруг ключевых агентных способностей, включая планирование, использование инструментов, память, рассуждение, самосовершенствование и восприятие, а другая — вокруг их применения в различных предметных областях. Центральной идеей нашей работы является то, что обучение с подкреплением служит критическим механизмом для преобразования этих способностей из статических, эвристических модулей в адаптивное, устойчивое агентное поведение. Для поддержки и ускорения будущих исследований мы консолидируем ландшафт открытых сред, бенчмарков и фреймворков в практический справочник. Синтезируя более пятисот последних работ, этот обзор очерчивает контуры этой быстро развивающейся области и выделяет возможности и вызовы, которые будут формировать развитие масштабируемых, универсальных ИИ-агентов.
Разработка автономных агентов для графических пользовательских интерфейсов (GUI) представляет собой серьезные вызовы в области искусственного интеллекта. Хотя недавние достижения в области нативных моделей агентов показали перспективность благодаря объединению восприятия, рассуждений, действий и памяти посредством сквозного обучения, остаются нерешенные проблемы, такие как масштабируемость данных, многократное обучение с подкреплением (RL), ограничения работы только с GUI и стабильность среды. В данном техническом отчете мы представляем UI-TARS-2 — нативную модель агента, ориентированную на GUI, которая решает эти задачи с помощью систематической методологии обучения: механизма "маховика данных" для масштабируемой генерации данных, стабилизированной многократной RL-структуры, гибридной среды GUI, интегрирующей файловые системы и терминалы, а также унифицированной песочницы для масштабных развертываний. Эмпирическая оценка демонстрирует, что UI-TARS-2 значительно превосходит своего предшественника UI-TARS-1.5. На тестах для GUI он достигает 88,2 на Online-Mind2Web, 47,5 на OSWorld, 50,6 на WindowsAgentArena и 73,3 на AndroidWorld, опережая сильные базовые модели, такие как Claude и агенты OpenAI. В игровых средах он достигает среднего нормализованного показателя 59,8 на наборе из 15 игр — примерно 60% от уровня человека — и остается конкурентоспособным с передовыми проприетарными моделями (например, OpenAI o3) на LMGame-Bench. Кроме того, модель способна обобщать задачи с длительным горизонтом планирования, связанные с поиском информации, и тесты для программной инженерии, что подчеркивает ее устойчивость в разнообразных задачах агентов. Детальный анализ динамики обучения также предоставляет ценные инсайты для достижения стабильности и эффективности в крупномасштабном RL агентов. Эти результаты подчеркивают потенциал UI-TARS-2 для продвижения состояния агентов GUI и демонстрируют его сильную способность к обобщению в реальных интерактивных сценариях.
Крупные языковые модели (LLM) могут значительно улучшить свои способности к рассуждению, взаимодействуя с внешними инструментами, что известно как Интегрированное Рассуждение с Инструментами (Tool-Integrated Reasoning, TIR). Однако расширение TIR на многошаговые сценарии с использованием обучения с подкреплением (Reinforcement Learning, RL) часто сталкивается с проблемами нестабильности обучения и коллапса производительности. Мы выяснили, что такая нестабильность в основном вызвана распределительным сдвигом из-за обратной связи от внешних инструментов, что приводит к генерации маловероятных токенов. Эта проблема усугубляется на последовательных шагах, вызывая катастрофические взрывы нормы градиента, которые нарушают процесс обучения. Для решения этой задачи мы представляем SimpleTIR — подключаемый алгоритм, который стабилизирует обучение в многошаговых сценариях TIR. Его ключевая стратегия заключается в выявлении и фильтрации траекторий, содержащих пустые шаги, то есть шаги, которые не приводят ни к созданию блока кода, ни к окончательному ответу. Удаляя такие проблемные траектории из обновления политики, SimpleTIR эффективно блокирует вредные градиенты с высокой величиной, тем самым стабилизируя динамику обучения. Многочисленные эксперименты показывают, что SimpleTIR достигает наилучших результатов на сложных тестах математического рассуждения, значительно повышая показатель AIME24 с базового уровня 22.1 (только текст) до 50.5 при использовании базовой модели Qwen2.5-7B. Кроме того, избегая ограничений контролируемого тонкого настраивания, SimpleTIR способствует тому, что модель открывает разнообразные и сложные паттерны рассуждения, такие как самокоррекция и перекрестная проверка.
В моделировании на стыке зрения и языка критические модели обычно обучаются для оценки выходных данных — присвоения скалярных оценок или парных предпочтений — а не для генерации ответов. Это разделение с моделями политик, которые производят ответы, настолько устоялось, что критические модели редко рассматриваются для непосредственного использования в качестве политик. В данной работе мы бросаем вызов этой традиции. Мы предлагаем реорганизовать наборы данных с метками предпочтений в проверяемые обучающие сигналы и проводить обучение с подкреплением непосредственно на базовой генеративной модели, создавая LLaVA-Critic-R1 — мультимодальную критическую модель, обученную оптимизировать суждения о предпочтениях, сохраняя при этом полную способность к генерации. Удивительно, но LLaVA-Critic-R1 оказывается не только высокопроизводительной критической моделью, но и конкурентоспособной моделью политики — она соответствует или превосходит специализированные модели визуального мышления (VLMs), обученные на данных из предметной области, на 26 бенчмарках визуального мышления и понимания, с средним приростом +5,7% по сравнению с базовой моделью (Qwen-2.5-VL-7B). Расширение этого подхода на существующие сильные модели визуального мышления приводит к созданию LLaVA-Critic-R1+, которая дополнительно улучшает производительность политики без ущерба для качества критической модели, достигая рекордного результата 71,9 на MMMU для масштаба 7B. Наконец, мы показываем, что улучшенная способность критической модели приносит пользу на этапе вывода: применение самокритики во время тестирования дает среднее улучшение +13,8% на пяти репрезентативных задачах мышления без дополнительного обучения. Наши результаты показывают, что обучение с подкреплением на данных критической модели может создать унифицированную модель, превосходящую как в оценке, так и в генерации, предлагая простой путь к масштабируемым, самоулучшающимся мультимодальным системам.
Обучение с подкреплением с верифицируемыми наградами (RLVR) продемонстрировало успехи в улучшении способностей языковых моделей к рассуждениям, но остается ограниченным одношаговыми взаимодействиями без интеграции инструментов. Хотя недавно появились подходы к агентному обучению с подкреплением с использованием инструментов (ARLT), направленные на решение задач с многошаговыми взаимодействиями, существующие работы разрабатывают специализированные кодовые базы, которые страдают от фрагментации, узких мест синхронного выполнения и ограниченной расширяемости между доменами. Эти недостатки препятствуют широкому внедрению сообществом и инновациям в алгоритмах. Мы представляем VerlTool — унифицированный и модульный фреймворк, который устраняет эти ограничения благодаря систематическим принципам проектирования. VerlTool предлагает четыре ключевых преимущества: (1) совместимость с VeRL на уровне архитектуры, обеспечивающую упрощенное сопровождение, (2) унифицированное управление инструментами через стандартизированные API, поддерживающие различные модальности, включая выполнение кода, поиск, SQL-базы данных и обработку изображений, (3) асинхронное выполнение, достигающее почти двукратного ускорения за счет устранения узких мест синхронизации, и (4) всестороннюю оценку, демонстрирующую конкурентоспособную производительность в 6 доменах ARLT. Наш фреймворк формализует ARLT как многошаговые траектории с мультимодальными токенами наблюдения (текст/изображение/видео), выходя за рамки одношаговых парадигм RLVR. Мы обучаем и оцениваем модели на задачах математического рассуждения, вопросно-ответных систем, генерации SQL, визуального рассуждения, веб-поиска и разработки программного обеспечения, достигая результатов, сопоставимых со специализированными системами, при этом предоставляя унифицированную инфраструктуру обучения. Модульная архитектура плагинов позволяет быстро интегрировать инструменты, требуя лишь минимальных определений на Python, что значительно снижает затраты на разработку и обеспечивает масштабируемую основу для исследований в области обучения с подкреплением с использованием инструментов. Наш код доступен по адресу https://github.com/TIGER-AI-Lab/verl-tool.
Мультимодальные языковые модели для видео (Video-MLLMs) достигли значительного прогресса в понимании видеоконтента. Однако они остаются уязвимыми к генерации галлюцинаций — контента, не согласующегося с видеовходом или не связанного с ним. Предыдущие бенчмарки для оценки галлюцинаций в видео в основном сосредоточены на коротких роликах. Они связывают галлюцинации с такими факторами, как сильные языковые априори, пропущенные кадры или смещения между визуальным и языковым представлениями, вносимые визуальным кодировщиком. Хотя эти причины действительно объясняют большинство галлюцинаций в коротких видео, они упрощают их природу. Иногда модели генерируют некорректные выходные данные, но с правильной семантикой на уровне кадров. Мы называем этот тип галлюцинаций Семантической Агрегационной Галлюцинацией (Semantic Aggregation Hallucination, SAH), которая возникает в процессе агрегации семантики на уровне кадров в семантические группы на уровне событий. Учитывая, что SAH становится особенно критичной в длинных видео из-за увеличения семантической сложности в рамках множества событий, важно отделить и тщательно изучить причины этого типа галлюцинаций. Для решения указанных проблем мы представляем ELV-Halluc — первый бенчмарк, посвящённый галлюцинациям в длинных видео, который позволяет систематически исследовать SAH. Наши эксперименты подтверждают существование SAH и показывают, что её частота возрастает с увеличением семантической сложности. Кроме того, мы обнаруживаем, что модели более склонны к SAH при быстром изменении семантики. Мы также обсуждаем потенциальные подходы для смягчения SAH. Мы демонстрируем, что стратегия позиционного кодирования способствует уменьшению SAH, и дополнительно применяем стратегию DPO для улучшения способности модели различать семантику внутри и между событиями. Для поддержки этого мы создали набор данных из 8K адверсариальных пар и достигли улучшений как на ELV-Halluc, так и на Video-MME, включая значительное снижение доли SAH на 27,7%.
Высококачественные размеченные данные крайне важны для обучения точных моделей преобразования документов, особенно в областях со сложными форматами, такими как таблицы, формулы и многоколоночный текст. Однако ручная разметка является дорогостоящей и трудоемкой, в то время как автоматическая разметка с использованием существующих моделей часто не обеспечивает достаточной точности в таких сложных сценариях. В результате обучение студенческих моделей путем дистилляции выходных данных учительских моделей может существенно ограничить их производительность в реальных приложениях. В данной статье мы предлагаем полностью автоматизированный подход, не требующий дистилляции, состоящий из двух этапов для создания высококачественных наборов данных и моделей извлечения документов, способных обрабатывать разнообразные форматы и макеты документов. На первом этапе мы представляем метод генерации крупномасштабных синтетических данных, который позволяет модели извлекать ключевые элементы в унифицированном формате с высокой начальной производительностью. На втором этапе мы предлагаем подход к самоулучшению, который дополнительно адаптирует модель, изначально обученную на синтетических данных, к реальным документам. В частности, мы сначала используем тонко настроенную модель для разметки реальных документов, затем применяем набор стратегий фильтрации для проверки качества разметки и, наконец, переобучаем модель на проверенном наборе данных. Итеративно повторяя этот процесс, мы постепенно улучшаем как способности модели к преобразованию, так и качество генерируемых данных. Мы обучаем публичную модель POINTS-1.5 для получения POINTS-Reader, которая превосходит многие существующие публичные и проприетарные модели сопоставимого или большего размера. Наша модель доступна по адресу https://github.com/Tencent/POINTS-Reader.
По мере того как крупные языковые модели (LLM) совершенствуют свои способности к ведению диалога и логическому рассуждению, их практическое применение в здравоохранении становится важным направлением исследований. Однако существует заметный разрыв между производительностью медицинских LLM на статических тестах, таких как USMLE, и их полезностью в реальной клинической практике. Это несоответствие возникает из-за того, что традиционные экзамены не учитывают динамический и интерактивный характер медицинских консультаций. Для решения этой проблемы мы представляем новую динамическую систему верификации, которая выходит за рамки статической проверки ответов, создавая масштабную высокоточную интерактивную систему обучения с подкреплением. Наша система включает два ключевых компонента: симулятор пациента, который создает реалистичные клинические сценарии на основе обезличенных медицинских записей, и генератор клинических критериев, который динамически формирует многомерные метрики оценки. На основе этой системы мы разработали Baichuan-M2 — медицинскую модель расширенного рассуждения с 32 миллиардами параметров, обученную с использованием многоэтапной стратегии обучения с подкреплением и улучшенного алгоритма Group Relative Policy Optimization (GRPO). Оцененная на тестовом наборе HealthBench, модель Baichuan-M2 превосходит все другие открытые модели и большинство передовых закрытых аналогов, достигая результата выше 32 на сложном тесте HealthBench Hard — ранее этот показатель был превышен только GPT-5. Наша работа демонстрирует, что надежная динамическая система верификации необходима для согласования возможностей LLM с практическими клиническими задачами, устанавливая новый парето-фронт в компромиссе между производительностью и количеством параметров для внедрения медицинского ИИ.
Архитектура Transformer, основанная на механизме самовнимания, стала де-факто стандартом для задач моделирования последовательностей. Однако её основная вычислительная операция масштабируется квадратично относительно длины последовательности (O(N^2)), что создаёт значительное узкое место при обработке длинных контекстов. В данной статье мы предлагаем сеть Gated Associative Memory (GAM) — новую, полностью параллельную архитектуру для моделирования последовательностей, которая демонстрирует линейную сложность (O(N)) относительно длины последовательности. Блок GAM заменяет слой самовнимания двумя параллельными путями: причинной сверткой для эффективного захвата локального, зависящего от позиции контекста и параллельным механизмом извлечения ассоциативной памяти для моделирования глобальных, основанных на содержании паттернов. Эти пути динамически объединяются с использованием механизма гейтирования, что позволяет модели гибко комбинировать локальную и глобальную информацию для каждого токена. Мы реализуем GAM с нуля и проводим строгий сравнительный анализ с базовой моделью Transformer и современным линейным базовым методом (Mamba) на бенчмарке WikiText-2, а также с Transformer на наборе данных TinyStories. Наши эксперименты показывают, что GAM стабильно быстрее, превосходя оба базовых метода по скорости обучения, и достигает превосходного или конкурентоспособного итогового значения perplexity на всех наборах данных, что делает её перспективной и эффективной альтернативой для моделирования последовательностей.
В последние годы развитие крупных языковых моделей (LLM) значительно продвинулось, расширив их возможности до мультимодальных задач с помощью мультимодальных крупных языковых моделей (MLLM). Однако понимание видео остается сложной областью из-за динамичного и насыщенного информацией характера видеоконтента. Существующие модели сталкиваются с компромиссом между пространственным разрешением и временным охватом при обработке видео. Мы представляем Keye-VL-1.5, который решает фундаментальные задачи в понимании видео благодаря трем ключевым инновациям. Во-первых, мы внедряем новую стратегию кодирования видео Slow-Fast, которая динамически распределяет вычислительные ресурсы на основе межкадрового сходства, обрабатывая ключевые кадры с существенными визуальными изменениями с более высоким разрешением (Slow pathway), а относительно статичные кадры — с увеличенным временным охватом и меньшим разрешением (Fast pathway). Во-вторых, мы реализуем прогрессивную четырехэтапную методику предварительного обучения, которая систематически расширяет контекстную длину модели с 8K до 128K токенов, позволяя обрабатывать более длинные видео и сложный визуальный контент. В-третьих, мы разрабатываем комплексный процесс пост-обучения, сосредоточенный на улучшении рассуждений и согласовании с человеческими предпочтениями, включая 5-шаговый процесс построения цепочки рассуждений, итеративное обучение с подкреплением на основе GSPO с прогрессивными подсказками для сложных случаев и обучение согласованию. Благодаря обширной оценке на публичных бенчмарках и строгому внутреннему человеческому тестированию, Keye-VL-1.5 демонстрирует значительные улучшения по сравнению с существующими моделями, особенно выделяясь в задачах понимания видео, сохраняя при этом конкурентоспособные результаты на общих мультимодальных бенчмарках.
Крупные языковые модели часто требуют дорогостоящей оптимизации, такой как обучение с подкреплением, для освоения сложных задач логического рассуждения. В данной работе показано, что способность к рассуждению, однажды освоенная, может быть извлечена и передана между моделями в виде компактного вектора задачи. Мы используем две общедоступные модели Qwen2.5 с идентичной инициализацией, одна из которых дообучена с помощью контролируемого тонкого настройки (SFT), а другая — с использованием групповой относительной оптимизации политики (GRPO) на одном и том же наборе данных. Из них мы извлекаем вектор рассуждения: v_{reason} = theta_{GRPO} - theta_{SFT}. Мы предполагаем, что этот вектор фиксирует способность к рассуждению, привнесенную обучением с подкреплением, исключая общие знания, полученные в процессе SFT. При добавлении этого вектора к совместимым моделям, настроенным на выполнение инструкций, с помощью простых арифметических операций, он последовательно улучшает производительность на различных тестах логического рассуждения: GSM8K (+4.9%), HumanEval (+4.3%), SciQ (+1.7%) и BigBenchHard (+12.3% для модели на 1.5 млрд параметров). Улучшения производительности сохраняются в условиях адверсарных атак. Напротив, вычитание вектора приводит к значительному ухудшению производительности (-11.8% на GSM8K), что демонстрирует его важный вклад в способность модели к рассуждению. Эта работа показывает, как способности к рассуждению, обычно развиваемые с помощью дорогостоящего обучения, могут быть извлечены из существующих моделей с открытым исходным кодом и повторно использованы с помощью простых операций с тензорами, предлагая практический способ улучшения моделей за счет повторного использования предыдущих вычислительных затрат.
В данной статье представлено упрощение архитектуры OpenVision и дизайна функции потерь для повышения эффективности обучения. Вслед за предыдущими работами по предварительному обучению на основе зрения и языка, такими как CapPa и AIMv2, а также современными мультимодальными подходами, такими как LLaVA, наши изменения просты: мы удаляем текстовый кодировщик (и, следовательно, контрастивную функцию потерь), оставляя только функцию потерь для генерации подписей в качестве чисто генеративного сигнала обучения. Мы называем эту новую версию OpenVision 2. Первоначальные результаты обнадеживают: несмотря на это упрощение, OpenVision 2 конкурентоспособно соответствует производительности оригинальной модели на широком наборе мультимодальных тестов, при этом значительно сокращая время обучения и потребление памяти. Например, с использованием ViT-L/14 время обучения сокращается примерно в 1,5 раза (с 83 часов до 57 часов), а использование памяти — примерно в 1,8 раза (с 24,5 ГБ до 13,8 ГБ, что эквивалентно увеличению максимального размера пакета с 2 тыс. до 8 тыс.). Эта превосходная эффективность обучения также позволяет нам масштабироваться далеко за пределы самого большого визуального кодировщика, использованного в OpenVision, достигая более 1 миллиарда параметров. Мы твердо убеждены, что этот легковесный, исключительно генеративный подход является перспективным для будущего развития визуальных кодировщиков в мультимодальных базовых моделях.
Посттренировка крупных языковых моделей (LM) часто фокусируется на точности и полезности в ущерб разнообразию. Это создает противоречие: хотя посттренировка улучшает качество ответов, она также сужает распределение выходных данных и сокращает диапазон идей, ограничивая полезность LM в творческих и исследовательских задачах, таких как мозговой штурм, создание историй или решение проблем. Мы решаем эту проблему с помощью фреймворка Diversity-Aware Reinforcement Learning (DARLING), который совместно оптимизирует качество ответов и семантическое разнообразие. В основе DARLING лежит введение обученной функции разделения для измерения разнообразия, выходящего за рамки поверхностных лексических вариаций. Этот сигнал разнообразия затем комбинируется с наградой за качество в процессе онлайн-обучения с подкреплением, побуждая модели генерировать выходные данные, которые одновременно являются высококачественными и уникальными. Эксперименты на множестве семейств моделей и их размеров показывают, что DARLING обобщается на два режима: задачи, не поддающиеся проверке (следование инструкциям и творческое письмо), и задачи, поддающиеся проверке (соревновательная математика). На пяти тестах в первом сценарии DARLING стабильно превосходит базовые методы обучения с подкреплением, ориентированные только на качество, создавая выходные данные, которые одновременно обладают более высоким качеством и новизной. Во втором сценарии DARLING достигает более высоких показателей pass@1 (качество решения) и pass@k (разнообразие решений). Наиболее примечательно, что явная оптимизация на разнообразие стимулирует исследование в онлайн-обучении с подкреплением, что проявляется в более качественных ответах.
Последние достижения в области обучения с подкреплением с верифицируемыми наградами (Reinforcement Learning with Verifiable Rewards, RLVR) позволили крупным языковым моделям (LLM) решать сложные задачи, связанные с рассуждениями, такие как математика и программирование. RLVR использует верифицируемые награды для оптимизации политики, что позволяет LLM постепенно улучшать качество вывода в обоснованной и надежной манере. Несмотря на свои перспективы, парадигма RLVR ставит значительные вызовы, поскольку существующие методы часто страдают от редких сигналов наград и нестабильных обновлений градиента политики, особенно в подходах, основанных на обучении с подкреплением. Для решения этих проблем мы предлагаем PACS, новый фреймворк RLVR, который достигает имплицитной связи актора и критика через структуру обучения с учителем. Рассматривая награду как предсказуемую метку, мы переформулируем задачу RLVR в задачу обучения с учителем над функцией оценки, параметризованной моделью политики и оптимизированной с использованием кросс-энтропийной потери. Детальный анализ градиентов показывает, что эта формулировка с учителем естественным образом восстанавливает классическое обновление градиента политики, одновременно имплицитно связывая роли актора и критика, что приводит к более стабильному и эффективному обучению. Тестирование на сложных задачах математического рассуждения демонстрирует, что PACS превосходит сильные базовые методы RLVR, такие как PPO и GRPO, достигая превосходных результатов в рассуждениях. Например, PACS достигает 59,78% на pass@256 в AIME 2025, что на 13,32 и 14,36 пункта выше, чем у PPO и GRPO. Этот простой, но мощный фреймворк предлагает перспективный путь для пост-обучения LLM с верифицируемыми наградами. Наш код и данные доступны в открытом доступе по адресу https://github.com/ritzz-ai/PACS.
Видеомонтаж объединяет съемочные материалы для создания видеопродукции, являясь ключевой техникой в производстве видео и кино. Традиционные подходы требуют значительных трудовых затрат и сотрудничества экспертов, что приводит к длительным производственным циклам и высоким затратам на рабочую силу. Для решения этой проблемы мы автоматизируем этот процесс с помощью генеративных моделей, называя это генеративным видеомонтажом. Эта новая задача стремится адаптивно внедрять информацию о идентичности и движении переднего плана видео в целевое видео в интерактивном режиме, позволяя пользователям настраивать размер, траекторию движения и другие атрибуты динамических элементов, добавляемых в итоговое видео. В частности, мы разработали новый конвейер на основе Diffusion Transformer (DiT), учитывая его внутренние свойства. Для сохранения согласованности целевого видео до и после редактирования мы модифицировали легковесную ветвь сохранения фона на основе DiT с использованием инъекции маскированных токенов. Для наследования динамических элементов из других источников предложен блок слияния DiT, использующий полное самовнимание, а также простая, но эффективная аугментация переднего плана для обучения. Кроме того, для слияния фонового и переднего плана видео с различными композициями на основе пользовательского управления мы разработали новое позиционное вложение, названное Extended Rotary Position Embedding (ERoPE). Наконец, мы собрали набор данных, включающий 61K наборов видео для нашей новой задачи, названный VideoComp. Эти данные содержат полные динамические элементы и высококачественные целевые видео. Эксперименты показывают, что наш метод эффективно реализует генеративный видеомонтаж, превосходя существующие возможные решения по точности и согласованности.
Недавнее развитие крупных языковых моделей (LLM) сопровождалось всплеском новых идей и методов для более эффективной оптимизации потерь в моделях глубокого обучения. Утверждения, связанные с этими методами, многочисленны: от ускоренной сходимости до устранения зависимости от определённых гиперпараметров. Однако разнообразие экспериментальных протоколов, используемых для проверки этих утверждений, затрудняет прямое сравнение методов. В данном исследовании представлена всесторонняя оценка современных техник оптимизации в стандартизированных сценариях предварительного обучения LLM, с систематическим варьированием размера модели, размера пакета и продолжительности обучения. Благодаря тщательной настройке каждого метода, мы предоставляем практикам рекомендации о том, какой оптимизатор лучше всего подходит для каждого сценария. Для исследователей наша работа выделяет перспективные направления для будущих исследований в области оптимизации. Наконец, публикуя наш код и обеспечивая полную воспроизводимость всех экспериментов, мы надеемся, что наши усилия помогут в разработке и строгом тестировании будущих методов.
Обучение с подкреплением на основе проверяемых наград (RLVR) стало перспективной основой для улучшения способностей к рассуждению у крупных языковых моделей. Однако существующие подходы, такие как GRPO, часто сталкиваются с проблемой нулевых градиентов. Эта проблема возникает в основном из-за фиксированных границ обрезки для вероятностных соотношений на уровне токенов и стандартизации одинаковых наград, что может приводить к неэффективным обновлениям градиентов и недостаточному использованию сгенерированных ответов. В данной работе мы предлагаем метод динамической оптимизации политики с обрезкой (DCPO), который вводит стратегию динамической обрезки, адаптивно регулирующую границы обрезки на основе априорных вероятностей для конкретных токенов, чтобы улучшить исследование на уровне токенов, а также технику сглаженной стандартизации преимуществ, которая стандартизирует награды на протяжении кумулятивных шагов обучения для повышения эффективного использования сгенерированных ответов на уровне ответов. DCPO достиг наилучших результатов на четырех бенчмарках с использованием четырех различных моделей. В частности, DCPO показал Avg@1 46.7 при жадном декодировании и Avg@32 38.8 при 32-кратной выборке на бенчмарке AIME24, превзойдя как DAPO (36.7/31.6), так и GRPO (36.7/32.1) на модели Qwen2.5-Math-7B. На бенчмарке AIME25 с использованием Qwen2.5-14B DCPO достиг результатов (23.3/19.0), превзойдя GRPO (13.3/10.5) и DAPO (20.0/15.3). Кроме того, DCPO показал в среднем 28% улучшение ненулевого преимущества по сравнению с GRPO на четырех моделях, удвоил эффективность обучения по сравнению с DAPO и значительно сократил коэффициент обрезки токенов на порядок по сравнению с GRPO и DAPO, при этом демонстрируя превосходные результаты. Эти результаты подчеркивают эффективность DCPO в более эффективном использовании сгенерированных данных для обучения с подкреплением в крупных языковых моделях.
Агенты с графическим интерфейсом (GUI), основанные на больших языковых моделях (LLM), демонстрируют потенциал во взаимодействии с разнообразными цифровыми средами. Среди них видеоигры представляют собой ценный полигон для тестирования благодаря их разнообразным интерфейсам, а приключенческие игры добавляют дополнительные сложности через сложные, сюжетно-ориентированные взаимодействия. Однако существующие игровые бенчмарки страдают от недостатка разнообразия и редко оценивают агентов на прохождение полных сюжетных линий. Чтобы решить эту проблему, мы представляем FlashAdventure — бенчмарк из 34 приключенческих игр на основе Flash, предназначенный для тестирования завершения полных сюжетных арок и преодоления разрыва между наблюдением и поведением: задачи запоминания и использования информации, полученной на ранних этапах игры. Мы также предлагаем CUA-as-a-Judge — автоматизированный инструмент оценки игрового процесса, и COAST — агентскую структуру, использующую долгосрочную память о подсказках для более эффективного планирования и решения последовательных задач. Эксперименты показывают, что современные GUI-агенты испытывают трудности с полными сюжетными арками, в то время как COAST улучшает выполнение ключевых этапов, устраняя разрыв между наблюдением и поведением. Тем не менее, значительное расхождение между людьми и лучшими агентами подчеркивает необходимость продолжения исследований для сокращения этого разрыва.
Модели-хранители используются для контроля и модерации ответов пользовательских чат-ботов, обеспечивая соблюдение ограничений и выявление нежелательного поведения. Стандартные модели-хранители, такие как LlamaGuard, обнаруживают заранее заданные, статические категории вредоносного контента. Мы предлагаем динамические модели-хранители, которые оценивают текст на основе пользовательских политик, что делает их полезными для различных прикладных областей, не охватываемых стандартными моделями-хранителями. Наши динамические модели могут использоваться для быстрого выявления нарушений политик или с применением цепочки рассуждений, которая формулирует и обосновывает выводы модели. Динамические модели-хранители демонстрируют точность обнаружения статических категорий вредоносного контента, сопоставимую со статическими моделями, при этом выявляют нарушения свободных политик с точностью, сравнимой с передовыми моделями рассуждений, за значительно меньшее время.
Векторные эмбеддинги в последние годы все чаще используются для решения задач поиска, а также начинают применяться для рассуждений, выполнения инструкций, написания кода и многого другого. Эти новые задачи требуют, чтобы эмбеддинги могли работать с любыми запросами и любыми представлениями о релевантности. Хотя предыдущие работы указывали на теоретические ограничения векторных эмбеддингов, существует распространенное предположение, что эти трудности связаны исключительно с нереалистичными запросами, а те, которые таковыми не являются, можно преодолеть с помощью более качественных данных для обучения и более крупных моделей. В данной работе мы показываем, что эти теоретические ограничения могут проявляться в реалистичных сценариях даже при использовании крайне простых запросов. Мы связываем известные результаты теории обучения, демонстрируя, что количество топ-k подмножеств документов, которые могут быть возвращены в результате некоторого запроса, ограничено размерностью эмбеддинга. Мы эмпирически показываем, что это справедливо даже при ограничении k=2 и прямой оптимизации на тестовом наборе данных с использованием свободно параметризованных эмбеддингов. Затем мы создаем реалистичный набор данных под названием LIMIT, который тестирует модели на основе этих теоретических результатов, и наблюдаем, что даже современные модели терпят неудачу на этом наборе данных, несмотря на простоту задачи. Наша работа демонстрирует ограничения моделей эмбеддингов в рамках существующей парадигмы единого вектора и призывает к дальнейшим исследованиям для разработки методов, способных устранить это фундаментальное ограничение.
Крупные языковые модели (LLM) преуспевают в генерации синтетических данных, но обеспечение их качества и разнообразия остается сложной задачей. Мы предлагаем Genetic Prompt — новый фреймворк, который сочетает генетические алгоритмы с LLM для улучшения генерации синтетических данных. Наш подход рассматривает семантические атрибуты текста как последовательности генов и использует LLM для моделирования операций кроссовера и мутации. Этот генетический процесс повышает качество и разнообразие данных, создавая новые комбинации атрибутов, что приводит к синтетическим распределениям, более близким к реальным данным. Для оптимизации выбора родительских образцов мы также интегрируем схему активного обучения, которая расширяет пространство поиска потомков. Наши эксперименты на множестве задач NLP выявили несколько ключевых результатов: Genetic Prompt не только значительно превосходит современные базовые методы, но и демонстрирует устойчивую производительность для различных размеров и масштабов моделей-генераторов. Более того, мы показываем, что объединение наших синтетических данных с исходным обучающим набором значительно повышает производительность моделей на последующих этапах, особенно в сценариях с несбалансированными классами. Наши результаты подтверждают, что Genetic Prompt является эффективным методом для создания высококачественных синтетических данных для широкого спектра приложений NLP.
Поиск медицинских изображений играет ключевую роль в принятии клинических решений и трансляционных исследованиях, опираясь на дискриминативные визуальные представления. Однако современные методы остаются фрагментированными, используя отдельные архитектуры и стратегии обучения для 2D, 3D и видеоданных медицинской визуализации. Такой подход, ориентированный на конкретные модальности, ограничивает масштабируемость и препятствует разработке унифицированных представлений. Для обеспечения унифицированного обучения мы создали крупномасштабный набор данных смешанных модальностей, включающий 867 653 медицинских изображений, среди которых 2D рентгеновские снимки и ультразвуковые исследования, RGB-видео эндоскопии и 3D КТ-сканы. Используя этот набор данных, мы обучили M3Ret — унифицированный визуальный кодировщик без какой-либо специализации под конкретные модальности. Он успешно обучается переносимым представлениям с использованием как генеративных (MAE), так и контрастных (SimDINO) парадигм самообучения (SSL). Наш подход устанавливает новый эталон в задаче поиска изображений без дообучения (zero-shot) для всех отдельных модальностей, превосходя сильные базовые модели, такие как DINOv3 и текстово-обученный BMC-CLIP. Более того, достигается сильное кросс-модальное согласование без использования парных данных, а модель обобщается на задачи, связанные с МРТ, несмотря на то, что она никогда не видела МРТ во время предварительного обучения, что демонстрирует обобщаемость чисто визуального самообучения на неизвестные модальности. Комплексный анализ дополнительно подтверждает масштабируемость нашего подхода в зависимости от размеров модели и данных. Эти результаты представляют собой многообещающий сигнал для сообщества медицинской визуализации, позиционируя M3Ret как шаг к созданию фундаментальных моделей для визуального SSL в понимании многомодальных медицинских изображений.
AdamW долгое время оставался доминирующим оптимизатором при предварительном обучении языковых моделей, несмотря на многочисленные заявления о том, что альтернативные оптимизаторы обеспечивают ускорение в 1,4–2 раза. Мы предполагаем, что два методологических недостатка затрудняли объективные сравнения и препятствовали практическому внедрению: (i) неравномерная настройка гиперпараметров и (ii) ограниченные или вводящие в заблуждение условия оценки. Чтобы устранить эти проблемы, мы провели систематическое исследование десяти оптимизаторов глубокого обучения на четырех масштабах моделей (0,1–1,2 млрд параметров) и соотношениях данных к модели (1–8x от оптимума Chinchilla). Мы обнаружили, что для объективных и информативных сравнений требуется тщательная настройка гиперпараметров и оценка на различных масштабах моделей и соотношениях данных к модели, проводимая по завершении обучения. Во-первых, оптимальные гиперпараметры для одного оптимизатора могут быть неоптимальными для другого, что делает слепой перенос гиперпараметров несправедливым. Во-вторых, фактическое ускорение многих предлагаемых оптимизаторов по сравнению с хорошо настроенными базовыми вариантами оказывается ниже заявленного и уменьшается с увеличением размера модели, достигая лишь 1,1x для моделей с 1,2 млрд параметров. В-третьих, сравнение промежуточных контрольных точек до достижения целевого бюджета обучения может вводить в заблуждение, так как ранги двух оптимизаторов могут меняться в процессе обучения из-за затухания скорости обучения. В ходе нашего тщательного исследования мы обнаружили, что все самые быстрые оптимизаторы, такие как Muon и Soap, используют матрицы в качестве предобуславливателей — умножая градиенты на матрицы, а не поэлементно на скаляры. Однако ускорение матричных оптимизаторов обратно пропорционально масштабу модели, уменьшаясь с 1,4x по сравнению с AdamW для моделей с 0,1 млрд параметров до всего лишь 1,1x для моделей с 1,2 млрд параметров.
Крупные языковые модели (LLM) демонстрируют выдающиеся результаты на множестве бенчмарков, однако остается неясным, отражает ли такой успех подлинное мышление или простое сопоставление паттернов. С точки зрения когнитивной науки, информативным тестом является способность моделей освоить незнакомый язык через явное металингвистическое дедуктивное обучение — парадигму, в рамках которой человеческие обучающиеся могут надежно усваивать грамматические системы с помощью металингвистического рассуждения. Мы исследуем этот вопрос с помощью Camlang, нового искусственного языка, который сочетает в себе естественные, но ранее не встречавшиеся особенности. Camlang включает два явных ресурса: грамматический справочник и двуязычный словарь, которые имитируют изучение второго языка взрослыми через явные грамматические правила и поиск лексики, что позволяет нам разделить ошибки в морфосинтаксисе, лексической семантике и рассуждениях на уровне предложения. Эксперименты с участием людей показывают, что этих ресурсов достаточно для освоения Camlang и успешного выполнения задач на этом языке. Для операционализации оценки мы адаптировали CommonsenseQA в Camlang, создав Camlang-CSQA-v0 — первую задачу в более широком наборе, где решение вопросов требует применения грамматических правил и лексических соответствий. Результаты экспериментов показывают, что GPT-5 достигает 98% точности (EM) на английском языке, но только 47% на Camlang, что значительно ниже человеческого результата в 87%, в то время как другие передовые LLM для рассуждений показывают еще худшие результаты. Дополнительная проверка людьми выявляет, что большинство успехов моделей обусловлено поверхностным лексическим выравниванием, тогда как GPT-5 демонстрирует ограниченные признаки металингвистической осведомленности, но не систематического грамматического мастерства, как у людей. Camlang устанавливает когнитивно обоснованную парадигму оценки, которая выявляет фундаментальные разрывы между текущими моделями и металингвистической компетенцией человека.
Глубокие исследовательские инструменты являются одними из самых влиятельных и часто встречающихся агентных систем на сегодняшний день. Однако мы отмечаем, что каждый из существующих глубоких исследовательских агентов жестко запрограммирован на выполнение определенной исследовательской стратегии с использованием фиксированного набора инструментов. Мы представляем Universal Deep Research (UDR) — универсальную агентную систему, которая работает с любой языковой моделью и позволяет пользователю создавать, редактировать и совершенствовать свои собственные полностью настраиваемые стратегии глубокого исследования без необходимости дополнительного обучения или тонкой настройки. Чтобы продемонстрировать универсальность нашей системы, мы оснащаем UDR примерами минимальных, расширенных и интенсивных исследовательских стратегий и предоставляем пользовательский интерфейс для облегчения экспериментов с системой.
Мы представляем ViSTA-SLAM как систему монокулярного визуального SLAM, работающую в реальном времени, которая функционирует без необходимости знания внутренних параметров камеры, что делает её применимой в разнообразных конфигурациях камер. В основе системы используется легковесная симметричная модель ассоциации двух видов (STA) в качестве фронтенда, которая одновременно оценивает относительные положения камеры и восстанавливает локальные карты точек всего по двум RGB-изображениям. Такой подход значительно снижает сложность модели — размер нашего фронтенда составляет всего 35% от размера современных методов, при этом повышая качество двухвидовых ограничений, используемых в конвейере. В бэкенде мы строим специально разработанный граф поз Sim(3), который включает замыкания петель для устранения накопленного дрейфа. Многочисленные эксперименты демонстрируют, что наш подход превосходит современные методы как по точности отслеживания камеры, так и по качеству плотной 3D-реконструкции. Репозиторий на Github: https://github.com/zhangganlin/vista-slam.
С быстрым развитием моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), агенты на основе графического интерфейса (GUI) стали ключевым направлением развития интеллектуальных мобильных систем. Однако существующие модели агентов продолжают сталкиваться с серьезными проблемами при выполнении задач в реальных условиях, особенно в плане точности и эффективности. Для преодоления этих ограничений мы предлагаем MobiAgent — комплексную систему мобильных агентов, состоящую из трех основных компонентов: моделей агентов серии MobiMind, фреймворка ускорения AgentRR и набора тестов MobiFlow. Кроме того, учитывая, что возможности современных мобильных агентов по-прежнему ограничены доступностью качественных данных, мы разработали автоматизированный конвейер сбора данных с использованием ИИ, который значительно снижает затраты на ручную аннотацию. По сравнению как с универсальными языковыми моделями (LLMs), так и со специализированными моделями GUI-агентов, MobiAgent демонстрирует наилучшую производительность в реальных мобильных сценариях.
Визуальные авторегрессионные модели (VAR) недавно появились как перспективный класс генеративных моделей, достигая производительности, сопоставимой с диффузионными моделями в задачах генерации изображений по тексту. Хотя условная генерация была широко изучена, способность выполнять редактирование изображений на основе текстовых подсказок без дополнительного обучения не менее важна, так как она поддерживает множество практических приложений в реальном мире. В данной статье исследуются возможности редактирования изображений по тексту с использованием VAR путем введения Visual AutoRegressive Inverse Noise (VARIN) — первой техники редактирования на основе инверсии шума, разработанной специально для моделей VAR. VARIN использует новую псевдообратную функцию для выборки argmax, названную Location-aware Argmax Inversion (LAI), для генерации обратных шумов Гумбеля. Эти обратные шумы позволяют точно восстанавливать исходное изображение и обеспечивать целенаправленные, контролируемые правки, соответствующие текстовым подсказкам. Многочисленные эксперименты демонстрируют, что VARIN эффективно изменяет исходные изображения в соответствии с заданными подсказками, при этом значительно сохраняя оригинальный фон и структурные детали, что подтверждает его эффективность как практического подхода к редактированию.
Преобразование запросов на естественном языке в SQL-запросы представляет собой важную задачу как в промышленности, так и в академических исследованиях, направленную на упрощение доступа к базам данных и крупномасштабным приложениям. В данной работе исследуется, как обучение в контексте и цепочка рассуждений могут быть использованы для создания надежного решения для систем преобразования текста в SQL. Мы предлагаем SQL-of-Thought: многоагентный фреймворк, который разбивает задачу Text2SQL на этапы связывания схемы, идентификации подзадач, генерации плана запроса, создания SQL-запроса и цикла управляемой коррекции. В отличие от предыдущих систем, которые полагаются исключительно на статическую коррекцию на основе выполнения, мы вводим динамическое исправление ошибок, управляемое таксономией и основанное на обучении в контексте. SQL-of-Thought достигает передовых результатов на наборе данных Spider и его вариантах, сочетая управляемую таксономию ошибок с планированием запросов на основе рассуждений.
Данная работа выявляет анизотропные распределения параметров как фундаментальное препятствие для обучения крупных языковых моделей (LLM) с низкобитной квантизацией: несколько доминирующих сингулярных значений создают широкие числовые диапазоны, которые конфликтуют с присущим блочной квантизации смещением. Это смещение непропорционально сохраняет значения с высокой величиной, отбрасывая меньшие, что приводит к нестабильности обучения и низкой производительности модели. В работе представлен Metis — фреймворк для обучения, который объединяет (i) спектральное разложение со случайным вложением для эффективного разделения доминирующих и редких компонентов, сжимая широкие распределения в узкие диапазоны, подходящие для квантизации; (ii) адаптивные скорости обучения в спектральной области для усиления недостаточно представленных направлений и лучшего захвата разнообразных признаков, критически важных для производительности; и (iii) регуляризатор с двойным диапазоном, который совместно ограничивает числовую точность и распределение диапазона параметров, обеспечивая стабильное и несмещенное обучение с низкобитной квантизацией. С использованием Metis обучение с FP8 превосходит базовые показатели FP32, а обучение с FP4 достигает точности, сравнимой с FP32, прокладывая путь для устойчивого и масштабируемого обучения LLM при продвинутой низкобитной квантизации. Реализация кода для Metis доступна по адресу: https://github.com/typename-yyf/Metis-quantization.
Мы представляем набор "Flavors of Moonshine" — серию компактных моделей автоматического распознавания речи (ASR), специализированных для ряда недостаточно представленных языков. Согласно общепринятому мнению, многоязычные модели ASR превосходят одноязычные за счет использования межъязыковых фонетических сходств. Мы оспариваем это предположение, демонстрируя, что для достаточно небольших моделей (27 миллионов параметров) обучение одноязычных систем на тщательно сбалансированной смеси высококачественных данных с человеческой разметкой, псевдоразметкой и синтетических данных приводит к существенно более высокой производительности. В среднем наши модели демонстрируют уровень ошибок на 48% ниже, чем модель Whisper Tiny сопоставимого размера, превосходят модель Whisper Small, которая в 9 раз больше, и в большинстве случаев соответствуют или превосходят модель Whisper Medium, которая в 28 раз больше. Эти результаты продвигают современное состояние для моделей такого размера, обеспечивая точное распознавание речи на устройствах для языков, которые ранее имели ограниченную поддержку. Мы выпускаем модели Moonshine для арабского, китайского, японского, корейского, украинского и вьетнамского языков под разрешительной открытой лицензией.
Точная сегментация органов и опухолей на КТ и МРТ снимках имеет решающее значение для диагностики, планирования лечения и мониторинга заболеваний. Хотя глубокое обучение продвинуло автоматизированную сегментацию, большинство моделей остаются узкоспециализированными, не обладая универсальностью для различных модальностей и учреждений. Фундаментальные модели (FMs) для обработки изображений, предобученные на миллиардах натуральных изображений, предлагают мощные и переносимые представления. Однако их адаптация к медицинской визуализации сталкивается с двумя основными проблемами: (1) архитектура ViT, используемая в большинстве фундаментальных моделей, по-прежнему уступает специализированным CNN в сегментации медицинских изображений, и (2) значительный разрыв между доменами натуральных и медицинских изображений ограничивает переносимость. Мы представляем MedDINOv3 — простой и эффективный фреймворк для адаптации DINOv3 к медицинской сегментации. Сначала мы пересматриваем базовые ViT и разрабатываем простую и эффективную архитектуру с многоуровневой агрегацией токенов. Затем мы выполняем доменно-адаптивное предобучение на CT-3M — тщательно отобранной коллекции из 3,87 миллионов аксиальных срезов КТ, используя многоэтапный рецепт DINOv3 для обучения устойчивым плотным признакам. MedDINOv3 достигает или превосходит современные результаты на четырех бенчмарках сегментации, демонстрируя потенциал фундаментальных моделей обработки изображений в качестве универсальных архитектур для сегментации медицинских изображений. Код доступен по адресу https://github.com/ricklisz/MedDINOv3.
Крупные языковые модели (LLM) могут непреднамеренно отражать социальные предубеждения, присутствующие в их обучающих данных, что приводит к вредным или предвзятым результатам. В индийском контексте наши эмпирические оценки ряда моделей показывают, что предубеждения, связанные с кастой и религией, особенно заметны. Однако большинство существующих стратегий смягчения этих предубеждений ориентированы на западный контекст и не учитывают местные особенности. Мы предлагаем AMBEDKAR — фреймворк, вдохновлённый эгалитарным видением доктора Б. Р. Амбедкара, архитектора Конституции Индии, который направляет выводы LLM в сторону справедливости, нейтральности и инклюзивности в соответствии со статьями 14–17. Наш подход включает слой декодирования, учитывающий Конституцию, который руководствуется Искусственной Конституцией Индии и применяется только на этапе вывода, без обновления параметров базовой модели. Мы используем алгоритм спекулятивного декодирования, который активно снижает кастовые и религиозные предубеждения в процессе генерации. Этот слой смягчения работает непосредственно в процессе декодирования, избегая изменений внутренней структуры модели и снижая вычислительные и инфраструктурные затраты, связанные с повторным обучением. Мы переосмысливаем спекулятивное декодирование не только как инструмент повышения эффективности, но и как механизм обеспечения справедливости. В этом фреймворке Малая языковая модель (SLM) выступает в роли потенциально предвзятого генератора, а конституционно направляемая Крупная языковая модель (LLM) служит верификатором. Вместо ускорения генерации LLM обеспечивает траектории, устойчивые к предубеждениям, в выводах SLM. Такая инверсия ролей порождает парадигму «справедливость через спекуляцию». Наш подход позволяет достичь абсолютного снижения предубеждений до 26,41% по сравнению с базовым уровнем. Наш исходный код, наборы данных и результаты доступны по адресу: https://anonymous.4open.science/r/AMBEDKAR-983B/
Чувствительность к формулировкам запросов, под которой понимается явление, когда перефразирование (т.е. повторение написанного или сказанного с использованием других слов) приводит к значительным изменениям в производительности крупных языковых моделей (LLM), широко признана как ключевое ограничение LLM. В данной работе мы возвращаемся к этому вопросу и задаемся следующим: действительно ли широко обсуждаемая высокая чувствительность к формулировкам запросов является врожденной слабостью LLM, или это в значительной степени артефакт процессов оценки? Чтобы ответить на этот вопрос, мы систематически оцениваем 7 LLM (например, семейства GPT и Gemini) на 6 тестовых наборах, включая как задачи с множественным выбором, так и открытые задания, используя 12 различных шаблонов запросов. Мы обнаруживаем, что значительная часть чувствительности к формулировкам связана с эвристическими методами оценки, такими как оценка на основе логарифмического правдоподобия и строгое сопоставление ответов, которые часто игнорируют семантически правильные ответы, выраженные через альтернативные формулировки, такие как синонимы или перефразирования. Когда мы применяем подход "LLM-как-судья" для оценки, мы наблюдаем значительное снижение вариативности производительности и более высокую согласованность в ранжировании моделей при использовании различных формулировок запросов. Наши результаты позволяют предположить, что современные LLM более устойчивы к шаблонам запросов, чем считалось ранее, и что чувствительность к формулировкам может быть скорее артефактом оценки, чем недостатком самих моделей.
Традиционные методы согласования для крупных моделей обработки зрения и языка (LVLMs) в основном опираются на данные о предпочтениях, курируемые человеком. Данные о предпочтениях, созданные человеком, являются дорогостоящими; данные о предпочтениях, сгенерированные машиной, ограничены по качеству; а самоконтролируемые данные о предпочтениях часто приводят к галлюцинациям. Чтобы преодолеть эти ограничения, мы предлагаем новую структуру обучения "Совет равных" (Panel-of-Peers), вдохновленную совместным обучением среди людей. Этот подход использует группу LVLMs, каждая из которых оценивает и учится на коллективных результатах через итеративный процесс самосовершенствования. Модели, симулируя систему рецензирования, генерируют, оценивают и уточняют результаты в ответ на тщательно подобранный набор запросов, имитируя учебную среду в классе. Мы демонстрируем, что эта методология улучшает производительность модели без необходимости в обширных наборах данных с человеческими метками. Наши эксперименты показывают значительное улучшение на множестве бенчмарков, демонстрируя потенциал оценки равных как масштабируемой альтернативы самоконтролируемому согласованию. В частности, мы показываем, что "Совет равных" увеличивает средний балл на пятнадцати бенчмарках с 48% до 57%.
Справедливость в рекомендательных системах (RS) обычно классифицируется на групповую справедливость и индивидуальную справедливость. Однако до сих пор не существует устоявшегося научного понимания взаимосвязи между этими двумя типами справедливости, поскольку предыдущие работы по каждому из типов использовали различные метрики оценки или цели оценки, что не позволяет провести корректное сравнение между ними. В результате в настоящее время неизвестно, как повышение одного типа справедливости может повлиять на другой. Чтобы заполнить этот пробел, мы изучаем взаимосвязь групповой и индивидуальной справедливости через всестороннее сравнение метрик оценки, которые могут быть применены к обоим типам справедливости. Наши эксперименты с 8 запусками на 3 наборах данных показывают, что рекомендации, которые являются высоко справедливыми для групп, могут быть крайне несправедливыми для отдельных пользователей. Наше открытие является новым и полезным для практиков рекомендательных систем, стремящихся повысить справедливость своих систем. Наш код доступен по адресу: https://github.com/theresiavr/stairway-to-fairness.
Несмотря на огромный потенциал, технология виртуальной примерки сталкивается с двумя основными проблемами, препятствующими её практическому применению: неспособность современных методов поддерживать композиции нарядов с использованием нескольких элементов (включая одежду и аксессуары) и их значительная неэффективность, вызванная избыточным пересчётом характеристик элементов на каждом шаге шумоподавления. Для решения этих проблем мы предлагаем FastFit — высокоскоростную платформу для виртуальной примерки с поддержкой нескольких элементов, основанную на новой кэшируемой архитектуре диффузии. Благодаря использованию механизма Semi-Attention и замене традиционных временных эмбеддингов на эмбеддинги классов для элементов, наша модель полностью разделяет кодирование характеристик элементов и процесс шумоподавления с минимальными затратами на параметры. Это позволяет вычислять характеристики элементов только один раз и повторно использовать их без потерь на всех этапах, что принципиально устраняет узкое место в эффективности и обеспечивает ускорение в среднем в 3,5 раза по сравнению с аналогичными методами. Кроме того, для содействия исследованиям в области сложной виртуальной примерки с несколькими элементами мы представляем DressCode-MR — новый крупномасштабный набор данных. Он включает 28 179 наборов высококачественных парных изображений, охватывающих пять ключевых категорий (верхняя одежда, нижняя одежда, платья, обувь и сумки), созданных с использованием конвейера экспертных моделей и уточнения на основе обратной связи от людей. Многочисленные эксперименты на наборах данных VITON-HD, DressCode и нашем DressCode-MR показывают, что FastFit превосходит современные методы по ключевым метрикам качества, одновременно предлагая значительное преимущество в эффективности вывода.
Обучение на основе точечных облаков, особенно в самообучающемся режиме без ручной разметки, привлекает всё больше внимания как в сообществе компьютерного зрения, так и в области машинного обучения благодаря своему потенциалу в широком спектре приложений. Большинство существующих генеративных подходов для самообучающегося обучения на точечных облаках сосредоточены на восстановлении замаскированных точек на основе видимых в рамках одного представления. Учитывая, что предварительное обучение на основе двух представлений по своей природе вносит больше разнообразия и вариативности, оно может обеспечить более сложное и информативное предварительное обучение. Вдохновленные этим, мы исследуем потенциал обучения на основе двух представлений в данной области. В этой статье мы предлагаем Point-PQAE, кросс-реконструкционную генеративную парадигму, которая сначала генерирует два разделенных точечных облака/представления, а затем восстанавливает одно из другого. Для достижения этой цели мы впервые разрабатываем механизм обрезки для генерации представлений точечных облаков и дополнительно предлагаем новое позиционное кодирование для представления относительного 3D-положения между двумя разделенными представлениями. Кросс-реконструкция значительно увеличивает сложность предварительного обучения по сравнению с самовосстановлением, что позволяет нашему методу превзойти предыдущие методы самовосстановления в рамках одного представления в 3D-самообучающемся обучении. В частности, он превосходит базовый метод самовосстановления (Point-MAE) на 6,5%, 7,0% и 6,7% в трех вариантах ScanObjectNN с протоколом оценки Mlp-Linear. Код доступен по адресу https://github.com/aHapBean/Point-PQAE.
Точное обнаружение объектов в сложных визуальных областях, таких как оценка повреждений транспортных средств, представляет собой значительную задачу даже для экспертов, которые не всегда могут справиться с ней надежно. Хотя DiffusionDet продвинул современные методы благодаря условному денизингу с использованием диффузии, его производительность остается ограниченной из-за локального условного анализа признаков в контекстно-зависимых сценариях. Мы устраняем это фундаментальное ограничение, вводя метод Context-Aware Fusion (CAF), который использует механизмы кросс-внимания для интеграции глобального контекста сцены с локальными признаками предложений напрямую. Глобальный контекст генерируется с помощью отдельного специализированного кодировщика, который захватывает полную информацию об окружающей среде, позволяя каждому предложению объекта учитывать понимание на уровне сцены. Наша структура значительно улучшает генеративную парадигму обнаружения, позволяя каждому предложению объекта учитывать полную информацию об окружающей среде. Экспериментальные результаты демонстрируют улучшение по сравнению с современными моделями на бенчмарке CarDD, устанавливая новые стандарты производительности для контекстно-зависимого обнаружения объектов в точных областях.