Ежедневно отобранные исследовательские статьи по ИИ с переводами
Последние достижения в области крупных моделей рассуждений (LRMs) демонстрируют, что сложные поведенческие паттерны, такие как многошаговое рассуждение и саморефлексия, могут возникать благодаря обучению с подкреплением (RL) с использованием простых правил на основе вознаграждений. Однако существующие подходы без RL (zero-RL) по своей природе являются «он-политичными», что ограничивает обучение только собственными выводами модели и не позволяет развить способности к рассуждению, выходящие за пределы её начальных возможностей. Мы представляем LUFFY (Learning to reason Under oFF-policY guidance) — фреймворк, который дополняет zero-RL трассировками рассуждений вне политики (off-policy). LUFFY динамически балансирует имитацию и исследование, комбинируя демонстрации вне политики с он-политичными прогонами во время обучения. В частности, мы предлагаем формирование политики с помощью регуляризованного важностного сэмплинга, чтобы избежать поверхностного и жесткого копирования в процессе смешанного обучения. Примечательно, что LUFFY достигает среднего прироста более чем на +7.0 баллов на шести математических бенчмарках и преимущества более чем на +6.2 балла в задачах вне распределения. Он также значительно превосходит тонкую настройку с помощью имитации (SFT), особенно в обобщении. Анализ показывает, что LUFFY не только эффективно имитирует, но и исследует за пределами демонстраций, предлагая масштабируемый путь для обучения обобщаемых моделей рассуждений с использованием внеполитичного руководства.
Мы представляем Eagle 2.5 — семейство передовых моделей для обработки визуально-языковых данных (VLMs), предназначенных для мультимодального обучения с длинным контекстом. Наша работа решает задачи, связанные с пониманием длинных видео и анализом изображений высокого разрешения, предлагая универсальную архитектуру для обоих направлений. Предложенная обучающая архитектура включает в себя методы Automatic Degrade Sampling и Image Area Preservation, которые сохраняют целостность контекста и визуальных деталей. Кроме того, в рамках архитектуры реализованы многочисленные оптимизации для эффективной обработки данных с длинным контекстом. Мы также представляем Eagle-Video-110K — новый набор данных, объединяющий аннотации на уровне сюжета и отдельных фрагментов, что способствует пониманию длинных видео. Eagle 2.5 демонстрирует значительные улучшения на мультимодальных бенчмарках с длинным контекстом, предлагая надежное решение для ограничений существующих VLMs. В частности, наша лучшая модель Eagle 2.5-8B достигает 72,4% на Video-MME при обработке 512 входных кадров, что соответствует результатам ведущих коммерческих моделей, таких как GPT-4o, и крупномасштабных открытых моделей, таких как Qwen2.5-VL-72B и InternVL2.5-78B.
В данной статье представлен мета-агент уровня запросов под названием FlowReasoner, предназначенный для автоматизации проектирования мультиагентных систем уровня запросов, то есть одной системы на каждый пользовательский запрос. Основная идея заключается в стимулировании мета-агента, основанного на рассуждениях, с помощью внешней обратной связи по выполнению. Конкретно, сначала мы наделяем FlowReasoner базовой способностью к рассуждениям относительно генерации мультиагентных систем, используя знания, извлеченные из DeepSeek R1. Затем мы дополнительно улучшаем его с помощью обучения с подкреплением (RL), используя внешнюю обратную связь по выполнению. Многоцелевая функция вознаграждения разработана для руководства обучением RL с учетом производительности, сложности и эффективности. Таким образом, FlowReasoner получает возможность генерировать персонализированную мультиагентную систему для каждого пользовательского запроса посредством обдуманных рассуждений. Эксперименты на инженерных и соревновательных бенчмарках кода демонстрируют превосходство FlowReasoner. Примечательно, что он превосходит o1-mini на 10,52% по точности на трех бенчмарках. Код доступен по адресу https://github.com/sail-sg/FlowReasoner.
Современные крупные языковые модели (LLM) часто проходят контролируемую тонкую настройку (SFT) для приобретения навыков использования инструментов. Однако SFT плохо справляется с обобщением в незнакомых или сложных сценариях применения инструментов. Недавние достижения в области обучения с подкреплением (RL), особенно с моделями, подобными R1, продемонстрировали многообещающие способности к рассуждению и обобщению. Тем не менее, проектирование вознаграждений для использования инструментов представляет уникальные сложности: может быть вызвано несколько инструментов с различными параметрами, а грубые сигналы вознаграждения, такие как совпадение ответов, не обеспечивают детализированной обратной связи, необходимой для эффективного обучения. В данной работе мы представляем первое всестороннее исследование проектирования вознаграждений для задач выбора и применения инструментов в рамках парадигмы RL. Мы систематически исследуем широкий спектр стратегий вознаграждения, анализируя их типы, масштабы, детализацию и временную динамику. На основе этих наблюдений мы предлагаем принципиальное проектирование вознаграждений, адаптированное для задач использования инструментов, и применяем его для обучения LLM с использованием оптимизации политики на основе групповых относительных показателей (GRPO). Эмпирические оценки на различных тестовых наборах демонстрируют, что наш подход обеспечивает устойчивое, масштабируемое и стабильное обучение, достигая улучшения на 17% по сравнению с базовыми моделями и на 15% по сравнению с моделями SFT. Эти результаты подчеркивают критическую роль продуманного проектирования вознаграждений в улучшении способностей LLM к использованию инструментов и их обобщающей производительности. Все коды опубликованы для содействия будущим исследованиям.
Рассуждения с интеграцией инструментов (TIR) расширяют возможности крупных языковых моделей (LLM), позволяя им использовать внешние инструменты, такие как поисковые системы и интерпретаторы кода, для решения задач, выходящих за рамки возможностей чисто языковых рассуждений. Хотя обучение с подкреплением (RL) показало потенциал в улучшении TIR за счет оптимизации правильности конечных ответов, существующие подходы часто упускают из виду эффективность и стоимость использования инструментов. Это может привести к субоптимальному поведению, включая чрезмерное количество вызовов инструментов, что увеличивает вычислительные и финансовые затраты, или недостаточное использование инструментов, что снижает качество ответов. В данной работе мы предлагаем Оптимизацию политики с контролируемыми вызовами инструментов (OTC-PO), простую, но эффективную RL-основанную структуру, которая побуждает модели выдавать точные ответы с минимальным количеством вызовов инструментов. Наш метод вводит награду за интеграцию инструментов, которая учитывает как правильность, так и эффективность использования инструментов, способствуя высокой производительности инструментов. Мы реализуем эту структуру как в рамках Оптимизации проксимальной политики (PPO), так и в рамках Оптимизации относительных предпочтений групп (GRPO), получая OTC-PPO и OTC-GRPO. Эксперименты с моделями Qwen-2.5 и Qwen-Math на нескольких бенчмарках вопросов и ответов показывают, что наш подход сокращает количество вызовов инструментов до 73,1% и повышает их производительность до 229,4%, сохраняя при этом сопоставимую точность ответов. Насколько нам известно, это первая RL-основанная структура, которая явно оптимизирует эффективность использования инструментов в TIR.
Многоходовые взаимодействия с языковыми моделями (LM) представляют собой серьезные угрозы безопасности, поскольку вредоносные намерения могут быть стратегически распределены между несколькими обменами репликами. Однако подавляющее большинство предыдущих исследований было сосредоточено на безопасности в одноходовых сценариях, в то время как адаптивность и разнообразие остаются ключевыми вызовами в многоходовом тестировании на уязвимости (red-teaming). Для решения этих задач мы представляем X-Teaming — масштабируемую структуру, которая систематически исследует, как внешне безобидные взаимодействия перерастают в вредоносные последствия, и генерирует соответствующие сценарии атак. X-Teaming использует совместно работающих агентов для планирования, оптимизации атак и проверки, достигая наилучших показателей эффективности и разнообразия многоходовых атак с успешностью до 98,1% на ведущих открытых и закрытых моделях. В частности, X-Teaming демонстрирует 96,2% успешности атак против последней модели Claude 3.7 Sonnet, которая считалась практически неуязвимой для одноходовых атак. На основе X-Teaming мы представляем XGuard-Train — открытый набор данных для обучения безопасности в многоходовых сценариях, который в 20 раз превышает предыдущий лучший ресурс и включает 30 тысяч интерактивных атак, предназначенных для обеспечения устойчивой многоходовой безопасности языковых моделей. Наша работа предлагает важные инструменты и идеи для противодействия сложным разговорным атакам, продвигая безопасность языковых моделей в многоходовых взаимодействиях.
Современные агенты, использующие компьютеры (Computer-Using Agents, CUAs), основанные на мультимодальных больших языковых моделях (LLMs), открывают перспективное направление для автоматизации сложных рабочих процессов на компьютере с использованием естественного языка. Однако большинство существующих CUAs остаются концептуальными прототипами, ограниченными поверхностной интеграцией с операционной системой, хрупким взаимодействием на основе скриншотов и нарушающим выполнение процессов. Мы представляем UFO2 — многоагентную операционную систему (AgentOS) для рабочих столов Windows, которая выводит CUAs на уровень практической, системной автоматизации. UFO2 включает централизованный HostAgent для декомпозиции и координации задач, а также набор специализированных AppAgent, оснащенных нативными API, предметно-ориентированными знаниями и унифицированным слоем действий GUI–API. Такая архитектура обеспечивает надежное выполнение задач, сохраняя модульность и расширяемость. Гибридный конвейер контроля и анализа объединяет Windows UI Automation (UIA) с визуальным парсингом для поддержки разнообразных стилей интерфейсов. Эффективность выполнения дополнительно повышается за счет спекулятивного планирования множественных действий, что снижает нагрузку на LLM на каждом шаге. Наконец, интерфейс Picture-in-Picture (PiP) позволяет выполнять автоматизацию в изолированном виртуальном рабочем столе, что дает возможность агентам и пользователям работать одновременно без помех. Мы оцениваем UFO2 на более чем 20 реальных приложениях Windows, демонстрируя значительное улучшение надежности и точности выполнения по сравнению с предыдущими CUAs. Наши результаты показывают, что глубокая интеграция с операционной системой открывает масштабируемый путь к надежной и ориентированной на пользователя автоматизации рабочего стола.
Растущий спрос на приложения дополненной и виртуальной реальности (AR/VR) подчеркивает необходимость в высококачественном 360-градусном панорамном контенте. Однако создание таких изображений и видео остается сложной задачей из-за значительных искажений, вносимых эквидистантной проекцией (ERP). Существующие подходы либо дообучают предварительно обученные диффузионные модели на ограниченных наборах данных ERP, либо используют методы без дообучения, которые все равно опираются на латентные представления ERP, что приводит к разрывам вблизи полюсов. В данной работе мы представляем SphereDiff — новый подход для создания бесшовных 360-градусных панорамных изображений и видео с использованием современных диффузионных моделей без дополнительной дообучения. Мы определяем сферическое латентное представление, которое обеспечивает равномерное распределение по всем направлениям, устраняя искажения, присущие ERP. Мы расширяем MultiDiffusion на сферическое латентное пространство и предлагаем метод сферической латентной выборки, позволяющий напрямую использовать предварительно обученные диффузионные модели. Кроме того, мы вводим взвешенное усреднение с учетом искажений для дальнейшего улучшения качества генерации в процессе проекции. Наш метод превосходит существующие подходы в создании 360-градусного панорамного контента, сохраняя высокую точность, что делает его надежным решением для иммерсивных AR/VR-приложений. Код доступен по ссылке: https://github.com/pmh9960/SphereDiff.
Модели рассуждений продемонстрировали впечатляющие результаты на сложных задачах, с которыми традиционные языковые модели справляются плохо. Однако многие из них страдают от проблемы избыточного мышления — генерации большого количества ненужных токенов, которые не повышают точность ответа на вопрос. Мы вводим приближенные меры сложности задач и показываем, что существует четкая взаимосвязь между сложностью задачи и оптимальным количеством токенов, а также оцениваем, насколько хорошо различные модели рассуждений калиброваны в плане эффективного распределения оптимального количества токенов. Мы обнаруживаем, что в целом модели рассуждений плохо калиброваны, особенно на простых задачах. Для оценки калибровки на простых вопросах мы представляем DUMB500 — набор данных, содержащий крайне простые задачи по математике, рассуждениям, программированию и другим областям, и совместно оцениваем модели рассуждений на этих простых примерах и крайне сложных примерах из существующих передовых бенчмарков в той же предметной области. Наконец, мы представляем THOUGHTTERMINATOR — метод декодирования без обучения, который значительно улучшает калибровку моделей рассуждений.
3D Gaussian Splatting (3DGS) демонстрирует превосходство в фотореалистичной реконструкции сцен, но сталкивается с трудностями при работе со стилизованными сценариями (например, мультфильмы, игры) из-за фрагментированных текстур, семантического рассогласования и ограниченной адаптируемости к абстрактной эстетике. Мы предлагаем StyleMe3D — целостный фреймворк для переноса стиля в 3D GS, который интегрирует мультимодальное стилевое кондиционирование, многоуровневое семантическое выравнивание и улучшение перцептивного качества. Наши ключевые идеи включают: (1) оптимизация только RGB-атрибутов сохраняет геометрическую целостность в процессе стилизации; (2) разделение низко-, средне- и высокоуровневой семантики критически важно для согласованного переноса стиля; (3) масштабируемость для изолированных объектов и сложных сцен необходима для практического применения. StyleMe3D вводит четыре новых компонента: Dynamic Style Score Distillation (DSSD), использующий латентное пространство Stable Diffusion для семантического выравнивания; Contrastive Style Descriptor (CSD) для локализованного, контентно-зависимого переноса текстур; Simultaneously Optimized Scale (SOS) для разделения стилевых деталей и структурной согласованности; и 3D Gaussian Quality Assessment (3DG-QA) — дифференцируемый эстетический приоритет, обученный на данных, оцененных людьми, для подавления артефактов и улучшения визуальной гармонии. Протестированный на синтетических данных NeRF (объекты) и tandt db (сцены), StyleMe3D превосходит современные методы в сохранении геометрических деталей (например, резьбы на скульптурах) и обеспечении стилистической согласованности в сценах (например, согласованное освещение в пейзажах), сохраняя при этом рендеринг в реальном времени. Эта работа объединяет фотореалистичный 3D GS и художественную стилизацию, открывая возможности для применения в играх, виртуальных мирах и цифровом искусстве.
Многопозиционное понимание, способность согласовывать визуальную информацию с различных точек зрения для эффективной навигации, манипуляции и понимания 3D-сцен, является фундаментальной проблемой для мультимодальных больших языковых моделей (MLLMs), используемых в качестве воплощенных агентов. Хотя современные MLLMs демонстрируют впечатляющие успехи в высокоуровневом рассуждении и планировании, они часто оказываются несостоятельными при столкновении с геометрической согласованностью между видами и соответствием между различными ракурсами. Для всесторонней оценки сложностей MLLMs в многопозиционном анализе сцен мы предлагаем All-Angles Bench — эталонный набор из более чем 2100 тщательно аннотированных человеком вопросов и ответов для многопозиционных сцен, охватывающих 90 разнообразных реальных сценариев. Наши шесть задач (подсчет, идентификация атрибутов, относительное расстояние, относительное направление, манипуляция объектами и оценка позы камеры) специально проверяют геометрическое соответствие модели и способность согласованно объединять информацию между видами. Наши масштабные эксперименты, проведенные на 27 репрезентативных MLLMs, включая Gemini-2.0-Flash, Claude-3.7-Sonnet и GPT-4o, в сравнении с оценками людей, выявили значительный разрыв в производительности, указывающий на то, что текущие MLLMs далеки от уровня человеческого понимания. Глубокий анализ показывает, что MLLMs особенно слабо справляются в двух аспектах: (1) соответствие между видами для частично закрытых ракурсов и (2) установление приблизительных поз камеры. Эти результаты подчеркивают необходимость специализированных доработок или модулей, которые внедряют более сильное многопозиционное восприятие. Мы считаем, что наш All-Angles Bench предоставляет ценные инсайты и способствует сокращению разрыва между MLLMs и человеческим уровнем многопозиционного понимания. Проект и эталонный набор доступны по адресу https://danielchyeh.github.io/All-Angles-Bench/.
В данной статье мы представляем EasyEdit2 — фреймворк, разработанный для обеспечения возможности «подключи и работай» в управлении поведением крупных языковых моделей (LLM). EasyEdit2 поддерживает широкий спектр вмешательств на этапе тестирования, включая безопасность, эмоциональную окраску, личностные характеристики, паттерны рассуждений, фактическую точность и языковые особенности. В отличие от своего предшественника, EasyEdit2 обладает новой архитектурой, специально разработанной для плавного управления моделью. Она включает ключевые модули, такие как генератор векторов управления и применитель векторов управления, которые позволяют автоматически генерировать и применять векторы для влияния на поведение модели без изменения её параметров. Одним из главных преимуществ EasyEdit2 является его простота в использовании — пользователям не требуется глубоких технических знаний. Всего один пример позволяет эффективно направлять и корректировать ответы модели, делая точное управление доступным и эффективным. Эмпирически мы демонстрируем результаты управления различными LLM, подтверждая эффективность этих методов. Исходный код доступен на GitHub по адресу https://github.com/zjunlp/EasyEdit вместе с демонстрационным блокнотом. Кроме того, мы предоставляем демонстрационное видео по адресу https://zjunlp.github.io/project/EasyEdit2/video для быстрого ознакомления.
Управление движением камеры и человека широко изучалось для генерации видео, однако существующие подходы обычно рассматривают их отдельно, сталкиваясь с ограниченным объемом данных с высококачественными аннотациями для обоих аспектов. Чтобы преодолеть это, мы представляем Uni3C — унифицированную 3D-улучшенную структуру для точного управления как движением камеры, так и человека в генерации видео. Uni3C включает два ключевых вклада. Во-первых, мы предлагаем модуль управления plug-and-play, обученный с замороженной базовой моделью генерации видео, PCDController, который использует непроецируемые облака точек из монохромной глубины для достижения точного управления камерой. Благодаря использованию сильных 3D-приоритетов облаков точек и мощных возможностей базовых моделей видео, PCDController демонстрирует впечатляющую обобщаемость, хорошо работая независимо от того, заморожена ли базовая модель или дообучена. Эта гибкость позволяет обучать различные модули Uni3C в специфических областях, таких как управление камерой или движением человека, снижая зависимость от совместно аннотированных данных. Во-вторых, мы предлагаем совместно выровненное 3D-руководство для фазы вывода, которое бесшовно интегрирует как сценовые облака точек, так и персонажей SMPL-X, чтобы унифицировать управляющие сигналы для камеры и движения человека соответственно. Многочисленные эксперименты подтверждают, что PCDController обладает высокой устойчивостью в управлении движением камеры для дообученных базовых моделей генерации видео. Uni3C значительно превосходит конкурентов как в управляемости камеры, так и в качестве движения человека. Кроме того, мы собираем специализированные наборы для валидации, включающие сложные движения камеры и действия человека, чтобы подтвердить эффективность нашего метода.
Мы представляем LeetCodeDataset — высококачественный эталонный набор данных для оценки и обучения моделей генерации кода, который решает две ключевые проблемы в исследованиях больших языковых моделей (LLM): отсутствие бенчмарков, ориентированных на логическое программирование, и самодостаточных обучающих сред. Набор данных включает задачи LeetCode на Python с богатой метаинформацией, широким охватем, более чем 100 тестовыми случаями на задачу и временными разбиениями (до/после июля 2024 года), что позволяет проводить оценку без риска загрязнения данных и эффективное обучение с учителем (SFT). Эксперименты показывают, что модели, ориентированные на логическое мышление, значительно превосходят аналоги без такой ориентации, а SFT с использованием всего 2,6 тыс. сгенерированных моделью решений достигает производительности, сравнимой с использованием 110 тыс. образцов. Набор данных и фреймворк для оценки доступны на Hugging Face и Github.
Мультимодальные большие языковые модели (MLLM) стали основой для агентов с графическим пользовательским интерфейсом (GUI), демонстрируя потенциал в автоматизации задач на вычислительных устройствах. Недавние исследования начали изучать рассуждения в задачах, связанных с GUI, с обнадеживающими результатами. Однако многие современные подходы полагаются на вручную разработанные шаблоны рассуждений, что может приводить к недостаточно устойчивым и адаптивным рассуждениям в сложных GUI-средах. В то же время некоторые существующие агенты продолжают функционировать как реактивные акторы, полагаясь в основном на неявные рассуждения, которые могут быть недостаточно глубокими для задач GUI, требующих планирования и восстановления после ошибок. Мы утверждаем, что для развития этих агентов необходим переход от реактивного поведения к действиям, основанным на осознанных рассуждениях. Для облегчения этой трансформации мы представляем InfiGUI-R1, GUI-агента на основе MLLM, разработанного с использованием нашего фреймворка Actor2Reasoner — двухэтапного подхода к обучению, ориентированного на рассуждения и предназначенного для постепенного превращения агентов из реактивных акторов в осознанных рассудителей. Первый этап, Внедрение Рассуждений, сосредоточен на создании базового рассудителя. Мы используем Дистилляцию Пространственных Рассуждений для передачи кросс-модальных способностей к пространственным рассуждениям от моделей-учителей к MLLM через траектории с явными шагами рассуждений, что позволяет моделям интегрировать визуально-пространственную информацию GUI с логическими рассуждениями перед генерацией действий. Второй этап, Улучшение Осознанности, совершенствует базового рассудителя в осознанного с использованием обучения с подкреплением. На этом этапе вводятся два подхода: Руководство Подцелями, которое вознаграждает модели за генерацию точных промежуточных подцелей, и Построение Сценариев Восстановления после Ошибок, которое создает сценарии обучения на основе выявленных шагов, склонных к ошибкам. Экспериментальные результаты показывают, что InfiGUI-R1 демонстрирует высокую производительность в задачах заземления GUI и работы с траекториями. Ресурсы доступны по адресу https://github.com/Reallm-Labs/InfiGUI-R1.
Мобильные агенты графического интерфейса демонстрируют потенциал в автоматизации задач, но сталкиваются с проблемами обобщения в разнообразных реальных сценариях. Традиционные подходы, использующие предварительное обучение или тонкую настройку на больших наборах данных, не справляются с разнообразием мобильных приложений и задач, специфичных для пользователей. Мы предлагаем улучшить возможности мобильных агентов графического интерфейса через демонстрации человека, сосредоточившись на повышении производительности в новых сценариях, а не на достижении универсального обобщения через увеличение объемов данных. Для реализации этой парадигмы мы представляем LearnGUI — первый комплексный набор данных, специально разработанный для изучения обучения на основе демонстраций в мобильных агентах графического интерфейса, включающий 2 252 офлайн-задачи и 101 онлайн-задачу с высококачественными демонстрациями человека. Мы также разработали LearnAct, сложную мультиагентную систему, которая автоматически извлекает знания из демонстраций для улучшения выполнения задач. Эта система объединяет три специализированных агента: DemoParser для извлечения знаний, KnowSeeker для поиска релевантных знаний и ActExecutor для выполнения задач с использованием демонстраций. Наши экспериментальные результаты показывают значительное улучшение производительности как в офлайн-, так и в онлайн-оценках. В офлайн-тестах одна демонстрация повышает точность модели, увеличивая точность Gemini-1.5-Pro с 19,3% до 51,7%. В онлайн-оценках наша система повышает успешность выполнения задач UI-TARS-7B-SFT с 18,1% до 32,8%. Фреймворк LearnAct и бенчмарк LearnGUI устанавливают обучение на основе демонстраций как перспективное направление для создания более адаптируемых, персонализированных и готовых к развертыванию мобильных агентов графического интерфейса.
Мы представляем Distributional RewArds for Generative OptimizatioN (DRAGON) — универсальную структуру для тонкой настройки моделей генерации медиа с целью достижения желаемого результата. По сравнению с традиционным обучением с подкреплением на основе человеческой обратной связи (RLHF) или подходами, основанными на парных предпочтениях, такими как оптимизация прямых предпочтений (DPO), DRAGON обладает большей гибкостью. Он способен оптимизировать функции вознаграждения, которые оценивают как отдельные примеры, так и их распределения, что делает его совместимым с широким спектром вознаграждений: на уровне отдельных экземпляров, между экземпляром и распределением, а также между распределениями. Используя эту универсальность, мы создаем новые функции вознаграждения, выбирая кодировщик и набор эталонных примеров для формирования распределения образцов. Когда используются кросс-модальные кодировщики, такие как CLAP, эталонные примеры могут принадлежать другой модальности (например, текст против аудио). Затем DRAGON собирает онлайн-генерации и генерации на основе текущей политики, оценивает их для формирования набора положительных демонстраций и отрицательного набора, а также использует контраст между ними для максимизации вознаграждения. Для оценки мы тонко настраиваем диффузионную модель преобразования текста в музыку в аудиодомен с 20 различными функциями вознаграждения, включая пользовательскую модель эстетики музыки, оценку CLAP, разнообразие Vendi и расстояние Фреше для аудио (FAD). Мы также сравниваем настройки FAD на уровне отдельных экземпляров (на одну песню) и на уровне всего набора данных, одновременно исследуя различные кодировщики FAD и эталонные наборы. По всем 20 целевым вознаграждениям DRAGON достигает средней доли побед в 81,45%. Более того, функции вознаграждения, основанные на наборах образцов, действительно улучшают генерацию и сопоставимы с вознаграждениями, основанными на моделях. С подходящим набором образцов DRAGON достигает 60,95% доли побед в качестве музыки по оценке людей, не обучаясь на аннотациях человеческих предпочтений. Таким образом, DRAGON демонстрирует новый подход к проектированию и оптимизации функций вознаграждения для улучшения качества, воспринимаемого человеком. Примеры звуков доступны на https://ml-dragon.github.io/web.
Крупные языковые модели (LLM) продемонстрировали мощные способности к рассуждению, особенно при улучшении с помощью обучения с подкреплением (RL). Хотя предыдущие работы успешно применяли RL к математическим рассуждениям — где правила и корректность четко определены — обобщение этих методов на более широкие области рассуждений остается сложной задачей из-за ограниченных данных, отсутствия проверяемых структур вознаграждения и разнообразия требований задач. В данной работе мы предлагаем NEMOTRON-CROSSTHINK — фреймворк, который систематически включает мультидоменные корпуса, включая синтетические и реальные пары вопрос-ответ, в обучение RL для улучшения обобщения на разнообразные задачи рассуждений. NEMOTRON-CROSSTHINK решает ключевые проблемы путем (1) включения данных из различных источников, охватывающих STEM, гуманитарные, социальные науки и т.д.; (2) применения структурированных шаблонов (например, множественный выбор и открытые вопросы) для контроля сложности пространства ответов; (3) фильтрации проверяемых ответов; и (4) оптимизации стратегий смешивания данных, эффективно использующих данные из нескольких источников. Наш подход позволяет масштабировать и проверять моделирование вознаграждения за пределами математики и демонстрирует улучшенную точность как на математических (MATH-500: +30,1%, AMC23: +27,5%), так и на неметематических тестах рассуждений (MMLU-PRO: +12,8%, GPQA-DIAMOND: +11,3%, AGIEVAL: +15,1%, SUPERGPQA: +3,8%). Более того, NEMOTRON-CROSSTHINK показывает значительно улучшенную эффективность ответов — используя на 28% меньше токенов для правильных ответов — что подчеркивает более сфокусированное и эффективное рассуждение. С помощью NEMOTRON-CROSSTHINK мы демонстрируем, что интеграция мультидоменных, мультиформатных данных в RL приводит к созданию более точных, эффективных и обобщаемых LLM.
Крупные мультимодальные модели (LMMs) единообразно воспринимают кадры видео, что приводит к вычислительной неэффективности для видео с изначально изменяющейся плотностью временной информации. В данной статье представлен Quicksviewer — LMM с новой парадигмой восприятия, которая разделяет видео неравномерной плотности на различные кубы с использованием Gumbel Softmax, за которыми следует унифицированная повторная выборка для каждого куба для достижения эффективного понимания видео. Этот простой и интуитивно понятный подход динамически сжимает видео в режиме реального времени на основе его временной плотности, значительно уменьшая пространственно-временную избыточность (общий коэффициент сжатия 45 раз), при этом обеспечивая эффективное обучение с большим рецептивным полем. Мы обучаем модель на основе языкового бэкбона через три прогрессивных этапа, каждый из которых включает длинные видео в среднем продолжительностью 420 секунд/1 кадр в секунду благодаря эффективности восприятия. При использовании всего 0,8 млн видео-текстовых образцов для обучения наша модель превосходит прямой базовый подход, использующий фиксированную стратегию разделения, с максимальным увеличением точности на 8,72, что демонстрирует эффективность в производительности. На Video-MME Quicksviewer достигает состояния SOTA при умеренной длине последовательностей, используя всего до 5% токенов на кадр, необходимых базовым моделям. С этой парадигмой масштабирование количества входных кадров выявляет четкий степенной закон возможностей модели. Также эмпирически подтверждено, что сегменты, сгенерированные сетью кубирования, могут помочь в анализе непрерывных событий в видео.
Мы представляем TAPIP3D — новый подход для долгосрочного трекинга 3D точек в монохромных RGB и RGB-D видео. TAPIP3D представляет видео в виде стабилизированных относительно камеры пространственно-временных облаков признаков, используя информацию о глубине и движении камеры для переноса 2D признаков видео в 3D мировое пространство, где движение камеры эффективно компенсируется. TAPIP3D итеративно уточняет оценки 3D движения на основе нескольких кадров в рамках этой стабилизированной репрезентации, что позволяет осуществлять устойчивый трекинг на протяжении длительных периодов. Для управления присущими 3D распределениям точек нерегулярностями мы предлагаем механизм Local Pair Attention. Эта стратегия 3D контекстуализации эффективно использует пространственные отношения в 3D, формируя информативные окрестности признаков для точного оценивания 3D траекторий. Наш подход, ориентированный на 3D, значительно превосходит существующие методы трекинга 3D точек и даже улучшает точность 2D трекинга по сравнению с традиционными 2D пиксельными трекерами при наличии точных данных о глубине. Он поддерживает вывод как в координатах камеры (т.е. нестабилизированных), так и в мировых координатах, и наши результаты показывают, что компенсация движения камеры улучшает производительность трекинга. Наш подход заменяет традиционные 2D квадратные корреляционные окрестности, используемые в предыдущих 2D и 3D трекерах, что приводит к более устойчивым и точным результатам на различных бенчмарках трекинга 3D точек. Страница проекта: https://tapip3d.github.io
Анаморфоз относится к категории изображений, которые намеренно искажены, что делает их неузнаваемыми при прямом просмотре. Их истинная форма раскрывается только при наблюдении с определённой точки зрения, которая может быть достигнута с помощью катоптрических устройств, таких как зеркало или линза. Хотя создание этих математических устройств можно проследить ещё в XVII веке, они интерпретируемы только при взгляде с определённого ракурса и теряют смысл при обычном просмотре. В данной работе мы возвращаемся к этим известным оптическим иллюзиям с генеративным подходом. С помощью моделей латентного исправленного потока мы предлагаем метод создания анаморфных изображений, которые сохраняют осмысленность при прямом просмотре. Для этого мы вводим метод Лапласианской пирамидальной деформации — частотно-ориентированную технику деформации изображений, ключевую для генерации высококачественных визуалов. Наша работа расширяет концепцию "Визуальных анаграмм" (arXiv:2311.17919) на латентные пространственные модели и более широкий спектр пространственных преобразований, позволяя создавать новые генеративные перцептивные иллюзии.
Крупные языковые модели (LLM) демонстрируют впечатляющие возможности, но уязвимы к атакующим запросам, которые эксплуатируют их слабости для генерации небезопасных или предвзятых ответов. Существующие методы "красного командования" часто сталкиваются с проблемами масштабируемости, высокими требованиями к ресурсам или ограниченным разнообразием стратегий атак. Мы предлагаем RainbowPlus — новый фреймворк для "красного командования", основанный на эволюционных вычислениях, который улучшает генерацию атакующих запросов за счет адаптивного поиска качества и разнообразия (QD), расширяющего классические эволюционные алгоритмы, такие как MAP-Elites, с инновациями, адаптированными для языковых моделей. Используя многокомпонентный архив для хранения разнообразных высококачественных запросов и комплексную функцию пригодности для оценки нескольких запросов одновременно, RainbowPlus преодолевает ограничения архивов с одним запросом и попарных сравнений в предыдущих методах QD, таких как Rainbow Teaming. Эксперименты, сравнивающие RainbowPlus с методами QD на шести эталонных наборах данных и четырех открытых LLM, демонстрируют превосходство в успешности атак (ASR) и разнообразии (Diverse-Score ≈ 0.84), генерируя до 100 раз больше уникальных запросов (например, 10 418 против 100 для Ministral-8B-Instruct-2410). На наборе данных HarmBench с двенадцатью LLM (десять открытых, две закрытых) RainbowPlus достигает средней успешности атак 81,1%, превосходя AutoDAN-Turbo на 3,9%, и работает в 9 раз быстрее (1,45 против 13,50 часов). Наша открытая реализация способствует дальнейшему развитию безопасности LLM, предлагая масштабируемый инструмент для оценки уязвимостей. Код и ресурсы доступны по адресу https://github.com/knoveleng/rainbowplus, поддерживая воспроизводимость и будущие исследования в области "красного командования" LLM.
Крупные языковые модели (LLM) всё чаще внедряются в специализированные производственные конвейеры обработки данных в различных областях, таких как финансы, маркетинг и электронная коммерция. Однако при их использовании в производственной среде на множестве входных данных они часто не следуют инструкциям или не соответствуют ожиданиям разработчиков. Для повышения надёжности в таких приложениях важно создавать утверждения или ограничения для выходных данных LLM, которые будут работать параллельно с конвейерами. Однако определение правильного набора утверждений, которые отражают требования разработчиков для конкретной задачи, является сложной задачей. В данной статье мы представляем PROMPTEVALS — набор данных, содержащий 2087 промптов для конвейеров LLM с 12623 соответствующими критериями утверждений, собранными от разработчиков, использующих наши инструменты с открытым исходным кодом для работы с конвейерами LLM. Этот набор данных в 5 раз больше предыдущих коллекций. Используя тестовую выборку PROMPTEVALS в качестве эталона, мы оценили закрытые и открытые модели на предмет генерации релевантных утверждений. Примечательно, что наши доработанные модели Mistral и Llama 3 превосходят GPT-4o в среднем на 20,93%, предлагая как снижение задержек, так и улучшение производительности. Мы считаем, что наш набор данных может стимулировать дальнейшие исследования в области надёжности LLM, их согласованности и инженерии промптов.
В данном исследовании проводится детальное сравнение базовой модели обнаружения объектов RF-DETR и конфигураций модели обнаружения объектов YOLOv12 для выявления зеленых плодов в сложной среде сада, характеризующейся неоднозначностью меток, перекрытиями и смешением с фоном. Был разработан специализированный набор данных, включающий как одноклассовые (зеленые плоды), так и многоклассовые (перекрытые и неперекрытые зеленые плоды) аннотации для оценки производительности моделей в динамичных реальных условиях. Модель обнаружения объектов RF-DETR, использующая основу DINOv2 и деформируемое внимание, продемонстрировала превосходство в моделировании глобального контекста, эффективно идентифицируя частично перекрытые или неоднозначные зеленые плоды. В то же время YOLOv12 использовала внимание на основе CNN для улучшенного извлечения локальных признаков, что оптимизировало её для вычислительной эффективности и развертывания на периферийных устройствах. RF-DETR достигла наивысшего среднего значения точности (mAP50) 0,9464 в одноклассовом обнаружении, подтвердив своё превосходство в локализации зеленых плодов в сложных сценах. Хотя YOLOv12N зафиксировала наивысшее значение mAP@50:95 0,7620, RF-DETR стабильно превосходила в сложных пространственных сценариях. В многоклассовом обнаружении RF-DETR лидировала с mAP@50 0,8298, демонстрируя способность различать перекрытые и неперекрытые плоды, в то время как YOLOv12L показала наивысший результат в mAP@50:95 с 0,6622, что указывает на лучшее классифицирование в контекстах с детальными перекрытиями. Анализ динамики обучения подчеркнул быстрое сходимость RF-DETR, особенно в одноклассовых настройках, где она достигла плато в течение 10 эпох, демонстрируя эффективность архитектур на основе трансформеров в адаптации к динамическим визуальным данным. Эти результаты подтверждают эффективность RF-DETR для задач точного сельского хозяйства, в то время как YOLOv12 подходит для сценариев, требующих быстрого реагирования. >Ключевые термины: RF-DETR обнаружение объектов, YOLOv12, YOLOv13, YOLOv14, YOLOv15, YOLOE, YOLO World, YOLO, You Only Look Once, Roboflow, Detection Transformers, CNN.
Модели компьютерного зрения (Vision Foundation Models, VFMs), такие как DINOv2 и CLIP, достигли впечатляющих результатов в различных задачах, но их ограниченное разрешение признаков снижает производительность в приложениях, требующих понимания на уровне пикселей. Увеличение разрешения признаков предлагает перспективное направление для решения этой проблемы. В данной работе мы выделяем два ключевых фактора для улучшения увеличения разрешения признаков: архитектуру апсемплера и целевую функцию обучения. Для архитектуры апсемплера мы представляем трансформер с кросс-вниманием на основе координат, который интегрирует изображения высокого разрешения с координатами и признаками VFM низкого разрешения для генерации четких и качественных признаков. Для целевой функции обучения мы предлагаем создание псевдо-опорных признаков высокого разрешения с использованием масок, не зависящих от классов, и метода самодистилляции. Наш подход эффективно захватывает мелкие детали и гибко адаптируется к различным входным данным и разрешениям признаков. Эксперименты показывают, что наш подход значительно превосходит существующие методы увеличения разрешения признаков в различных задачах. Наш код доступен по адресу https://github.com/andrehuang/loftup.
Мы представляем подход для обнаружения и отслеживания детализированных 3D поз нескольких людей из потока данных с одной монохромной камеры. Наша система обеспечивает временную согласованность предсказаний в переполненных сценах с сложными позами и окклюзиями. Наша модель выполняет как надежное обнаружение на каждом кадре, так и обученное обновление поз для отслеживания людей от кадра к кадру. Вместо сопоставления обнаружений во времени, позы обновляются напрямую на основе нового входного изображения, что позволяет осуществлять онлайн-отслеживание через окклюзии. Мы обучаем модель на множестве наборов изображений и видео, используя псевдоразмеченные аннотации, чтобы создать модель, которая соответствует современным системам по точности оценки 3D поз, при этом будучи быстрее и точнее в отслеживании нескольких людей во времени. Код и веса модели доступны по адресу https://github.com/apple/ml-comotion.
Мы разработали набор минималистичных алгоритмических задач, которые являются свободной абстракцией открытых задач реального мира. Это позволяет нам четко и контролируемо оценить творческие ограничения современных языковых моделей. Подобно реальным задачам, требующим творческого, дальновидного скачка мысли, наши задачи предполагают неявный, открытый стохастический шаг планирования, который либо (а) обнаруживает новые связи в абстрактном графе знаний (как в игре слов, проведении аналогий или исследованиях), либо (б) создает новые паттерны (как в разработке математических задач или новых белков). В этих задачах мы эмпирически и концептуально показываем, что обучение на основе предсказания следующего токена является близоруким и чрезмерно полагается на запоминание; в то время как подходы, основанные на множестве токенов, такие как обучение без учителя и диффузионные модели, превосходно справляются с созданием разнообразного и оригинального результата. Во-вторых, в наших задачах мы обнаруживаем, что для извлечения случайности из Transformer без ущерба для связности лучше вносить шум непосредственно на уровне входного слоя (с помощью метода, который мы называем хэш-кондиционированием), а не полагаться на температурную выборку на уровне выходного слоя. Таким образом, наша работа предлагает принципиальную, минималистичную тестовую среду для анализа открытых творческих навыков и предоставляет новые аргументы в пользу выхода за рамки обучения на основе следующего токена и выборки на основе softmax. Часть кода доступна по адресу: https://github.com/chenwu98/algorithmic-creativity.
Медицинские визуальные языковые модели продемонстрировали значительный потенциал в различных областях здравоохранения, включая создание описаний медицинских изображений и помощь в диагностике. Однако большинство существующих моделей полагаются на текстовые инструкции, что ограничивает их применимость в реальных клинических условиях, особенно в таких сценариях, как хирургия, где текстовое взаимодействие часто оказывается непрактичным для врачей. Кроме того, современные модели анализа медицинских изображений обычно не предоставляют подробного обоснования своих прогнозов, что снижает их надежность для принятия клинических решений. Учитывая, что ошибки в медицинской диагностике могут иметь серьезные последствия, существует острая необходимость в интерпретируемой и рациональной медицинской помощи. Для решения этих задач мы представляем end-to-end речевую медицинскую VLM, SilVar-Med, мультимодальный помощник для анализа медицинских изображений, который интегрирует речевое взаимодействие с визуальными языковыми моделями, открывая новое направление в области голосового взаимодействия для анализа медицинских изображений. Кроме того, мы сосредоточились на интерпретации обоснования каждого прогноза медицинских аномалий с использованием предложенного набора данных для рассуждений. В ходе обширных экспериментов мы демонстрируем концептуальное исследование для интерпретации медицинских изображений на основе рассуждений с end-to-end речевым взаимодействием. Мы считаем, что эта работа продвинет область медицинского ИИ, способствуя созданию более прозрачных, интерактивных и клинически применимых систем диагностической поддержки. Наш код и набор данных доступны публично на SiVar-Med.