Ежедневно отобранные исследовательские статьи по ИИ с переводами
Обучение с подкреплением на основе политик в настоящее время играет важную роль в улучшении больших языковых моделей (LLM) в задачах математического рассуждения. Однако существующие методы обучения с подкреплением, основанные на прогонах (GRPO, DAPO, GSPO и др.), не учитывают явно способность LLM к обучению на образцах разного уровня сложности, что противоречит когнитивному процессу человека, который осваивает математические задачи от простого к сложному. Интуитивно мы обнаруживаем, что дисперсия награды группы прогонов в RLVR частично отражает сложность текущего образца для LLM. Образцы, которые слишком просты или слишком сложны, имеют меньшую дисперсию, тогда как образцы средней сложности демонстрируют более высокую дисперсию. На основе этого мы предлагаем VCRL — фреймворк для обучения с подкреплением с динамическим управлением сложностью обучающих образцов на основе дисперсии групповых наград. Эксперименты на пяти математических бенчмарках и двух моделях показывают преимущества VCRL по сравнению с текущими базовыми методами обучения с подкреплением для LLM.
Крупные мультимодальные модели рассуждений достигли значительного прогресса, однако их развитие ограничивается двумя основными проблемами: отсутствием открытых, масштабных, высококачественных данных с длинными цепочками рассуждений (CoT) и нестабильностью алгоритмов обучения с подкреплением (RL) на этапе пост-обучения. Group Relative Policy Optimization (GRPO), стандартный фреймворк для тонкой настройки RL, склонен к исчезновению градиента при низкой дисперсии наград, что ослабляет сигналы оптимизации и ухудшает сходимость. Данная работа вносит три ключевых вклада: (1) Мы предлагаем Variance-Aware Sampling (VAS), стратегию выбора данных, основанную на Variance Promotion Score (VPS), которая объединяет дисперсию результатов и разнообразие траекторий для повышения дисперсии наград и стабилизации оптимизации политик. (2) Мы публикуем масштабные, тщательно отобранные ресурсы, включающие ~1.6M данных CoT для холодного старта и ~15k пар вопросов и ответов для RL, разработанные для обеспечения качества, сложности и разнообразия, а также полностью воспроизводимую сквозную кодовую базу для обучения. (3) Мы открываем исходный код семейства мультимодальных моделей рассуждений различных масштабов, устанавливая стандартные базовые линии для сообщества. Эксперименты на наборах данных для математических рассуждений демонстрируют эффективность как отобранных данных, так и предложенного VAS. Подробные исследования и анализ вклада каждого компонента предоставляют дополнительные инсайты. Кроме того, мы теоретически доказываем, что дисперсия наград ограничивает снизу ожидаемую величину градиента политики, а VAS служит практическим механизмом для реализации этой гарантии. Наш код, данные и контрольные точки доступны по адресу https://github.com/LengSicong/MMR1.
Мы представляем базовую модель научного рассуждения, которая согласует естественный язык с гетерогенными научными представлениями. Модель предварительно обучается на корпусе из 206 миллиардов токенов, включающем научные тексты, чистые последовательности и пары последовательность-текст, затем выравнивается с помощью SFT на 40 миллионах инструкций, используя метод постепенного "холодного старта" для стимулирования длинных цепочек рассуждений, а также обучение с подкреплением с формированием наград, специфичных для задач, что способствует осознанному научному рассуждению. Модель поддерживает четыре семейства возможностей, охватывающих до 103 задач в различных рабочих процессах: (i) точный перевод между текстом и научными форматами, (ii) извлечение текста/знаний, (iii) предсказание свойств, (iv) классификация свойств, (v) безусловная и условная генерация последовательностей и проектирование. По сравнению с узкоспециализированными системами, наш подход расширяет охват инструкций, улучшает кросс-доменную обобщаемость и повышает точность. Мы подробно описываем процесс подготовки данных и обучения, а также показываем, что междисциплинарное обучение усиливает перенос знаний и надежность в последующих задачах. Модель, наборы данных для настройки инструкций и код для оценки доступны в открытом доступе по адресам https://huggingface.co/SciReason и https://github.com/open-sciencelab/SciReason.
Последние достижения в области обучения с подкреплением (RL) значительно расширили агентные возможности больших языковых моделей (LLM). В долгосрочных и многоходовых задачах для агентов существующие подходы, основанные исключительно на наградах за результат, часто сталкиваются с проблемой разреженного обучения. Для решения этой проблемы мы предлагаем Tree-based Group Relative Policy Optimization (Tree-GRPO) — метод группового RL для агентов, основанный на поиске по дереву, где каждый узел дерева представляет полный шаг взаимодействия агента. Благодаря общим префиксам, выборка при поиске по дереву увеличивает количество возможных прогонов при фиксированном бюджете токенов или вызовов инструментов. Более того, мы обнаруживаем, что древовидная структура траектории естественным образом позволяет создавать пошаговые сигналы обучения даже при использовании только награды за результат. На основе этого Tree-GRPO оценивает относительные преимущества групп как на внутридеревном, так и на междеревном уровнях. С помощью теоретического анализа мы показываем, что цель оптимизации групповой относительной политики на внутридеревном уровне эквивалентна задаче пошагового прямого обучения предпочтениям. Эксперименты на 11 наборах данных и 3 типах задач вопросов и ответов демонстрируют превосходство предложенного древовидного RL над цепочечным методом RL.
Мы представляем Seedream 4.0 — эффективную и высокопроизводительную мультимодальную систему генерации изображений, которая объединяет синтез текста в изображение (T2I), редактирование изображений и композицию из нескольких изображений в единой архитектуре. Мы разработали высокоэффективный диффузионный трансформер с мощным VAE, который также значительно сокращает количество токенов изображения. Это позволяет эффективно обучать нашу модель и быстро генерировать нативные изображения высокого разрешения (например, 1K-4K). Seedream 4.0 предварительно обучен на миллиардах пар текст-изображение, охватывающих разнообразные таксономии и концепции, ориентированные на знания. Комплексный сбор данных в сотнях вертикальных сценариев, дополненный оптимизированными стратегиями, обеспечивает стабильное и масштабное обучение с сильной обобщающей способностью. Благодаря включению тщательно настроенной модели VLM, мы выполняем мультимодальное пост-обучение для совместного обучения задач T2I и редактирования изображений. Для ускорения вывода мы интегрировали методы адверсарного дистилляции, согласования распределений, квантования, а также спекулятивного декодирования. Это позволяет достичь времени вывода до 1,8 секунд для генерации изображения 2K (без использования LLM/VLM в качестве PE-модели). Комплексные оценки показывают, что Seedream 4.0 достигает передовых результатов как в T2I, так и в мультимодальном редактировании изображений. В частности, он демонстрирует исключительные мультимодальные возможности в сложных задачах, включая точное редактирование изображений и контекстное рассуждение, а также поддерживает использование нескольких изображений в качестве референсов и может генерировать несколько выходных изображений. Это расширяет традиционные системы T2I в более интерактивный и многомерный творческий инструмент, продвигая границы генеративного ИИ как для творчества, так и для профессиональных приложений. Seedream 4.0 теперь доступен по адресу https://www.volcengine.com/experience/ark?launch=seedream.
Последние достижения в области генеративных моделей, изначально ориентированных на 3D, ускорили создание ресурсов для игр, кино и дизайна. Однако большинство методов по-прежнему в основном полагаются на условия, заданные изображениями или текстом, и не имеют детализированного кросс-модального управления, что ограничивает контролируемость и практическое применение. Для устранения этого пробела мы представляем Hunyuan3D-Omni — унифицированную платформу для детализированного и контролируемого создания 3D-ресурсов, основанную на Hunyuan3D 2.1. В дополнение к изображениям, Hunyuan3D-Omni принимает облака точек, воксели, ограничивающие рамки и априорные данные о скелетной позе в качестве управляющих сигналов, обеспечивая точный контроль над геометрией, топологией и позой. Вместо отдельных модулей для каждой модальности наша модель объединяет все сигналы в единой кросс-модальной архитектуре. Мы обучаем модель с использованием прогрессивной стратегии выборки, учитывающей сложность, которая выбирает одну управляющую модальность для каждого примера и смещает выборку в сторону более сложных сигналов (например, скелетной позы), снижая вес более простых (например, облаков точек), что способствует устойчивому мультимодальному слиянию и корректной обработке отсутствующих входных данных. Эксперименты показывают, что дополнительные элементы управления повышают точность генерации, позволяют выполнять геометрически осознанные преобразования и увеличивают устойчивость в производственных процессах.
AutoIntent — это автоматизированный инструмент машинного обучения для задач классификации текста. В отличие от существующих решений, AutoIntent обеспечивает сквозную автоматизацию, включая выбор модели эмбеддингов, оптимизацию классификатора и настройку порога принятия решений, все в рамках модульного интерфейса, аналогичного sklearn. Фреймворк разработан для поддержки многометочной классификации и обнаружения данных, выходящих за рамки задачи. AutoIntent демонстрирует превосходную производительность по сравнению с существующими инструментами AutoML на стандартных наборах данных для классификации намерений и позволяет пользователям балансировать между эффективностью и потреблением ресурсов.
Применение крупных языковых моделей (LLM) в качестве автоматических оценщиков (LLM-as-a-judge) выявило существенные несоответствия в современных системах оценки. Мы выделяем два фундаментальных типа несоответствий: (1) Несоответствие в сравнении оценок, когда ответы с более низкими рейтингами превосходят ответы с более высокими в попарных сравнениях, и (2) Несоответствие транзитивности в попарных сравнениях, проявляющееся в виде циклических цепочек предпочтений (A>B>C>A) и противоречий эквивалентности (A=B=C≠A). Мы утверждаем, что эти проблемы возникают из-за потери информации в дискретных системах оценки и неоднозначных суждений о равенстве в процессе попарного сравнения. Мы предлагаем TrustJudge, вероятностный фреймворк, который устраняет эти ограничения с помощью двух ключевых инноваций: 1) оценка, чувствительная к распределению, которая вычисляет непрерывные ожидания на основе вероятностей дискретных оценок, сохраняя информационную энтропию для более точного оценивания, и 2) агрегация с учетом вероятностей, которая устраняет нарушения транзитивности с использованием двунаправленных вероятностей предпочтений или перплексии. Мы также формализуем теоретические ограничения текущих фреймворков LLM-as-a-judge и показываем, как компоненты TrustJudge преодолевают их. При оценке с использованием Llama-3.1-70B-Instruct в качестве судьи на нашем наборе данных, TrustJudge снижает несоответствие в сравнении оценок на 8.43% (с 23.32% до 14.89%) и несоответствие транзитивности в попарных сравнениях на 10.82% (с 15.22% до 4.40%), сохраняя при этом более высокую точность оценки. Наша работа представляет первый систематический анализ несоответствий в системах оценки в парадигме LLM-as-a-judge, предлагая как теоретические инсайты, так и практические решения для надежной автоматической оценки. Фреймворк демонстрирует стабильные улучшения для различных архитектур и масштабов моделей, обеспечивая более доверенную оценку LLM без необходимости дополнительного обучения или аннотаций от человека. Код доступен по адресу https://github.com/TrustJudge/TrustJudge.
В данной статье представлен простой и масштабируемый подход к повышению эффективности использования данных при обучении крупных языковых моделей (LLM) за счет дополнения существующих текстовых данных траекториями мышления. Вычислительные ресурсы, затрачиваемые на предварительное обучение LLM, растут беспрецедентными темпами, в то время как доступность высококачественных данных остается ограниченной. В связи с этим максимизация полезности доступных данных представляет собой значительную исследовательскую задачу. Основным препятствием является то, что определенные высококачественные токены сложно изучить при фиксированной емкости модели, поскольку базовое обоснование для одного токена может быть исключительно сложным и глубоким. Для решения этой проблемы мы предлагаем методологию Thinking augmented Pre-Training (TPT), которая универсально дополняет тексты автоматически сгенерированными траекториями мышления. Такое дополнение эффективно увеличивает объем обучающих данных и делает высококачественные токены более доступными для изучения благодаря пошаговому рассуждению и декомпозиции. Мы применяем TPT в различных конфигурациях обучения до 100 млрд токенов, включая предварительное обучение как с ограниченными, так и с обильными данными, а также промежуточное обучение на основе сильных открытых контрольных точек. Экспериментальные результаты показывают, что наш метод существенно улучшает производительность LLM для различных размеров и семейств моделей. В частности, TPT повышает эффективность использования данных при предварительном обучении LLM в 3 раза. Для модели с 3 млрд параметров он улучшает производительность после обучения более чем на 10% на нескольких сложных тестах на рассуждение.
Обучение с подкреплением (RL) стало мощной парадигмой для оптимизации больших языковых моделей (LLM) с целью решения сложных задач логического рассуждения. Основная проблема в этом процессе заключается в управлении энтропией политики, которая отражает баланс между исследованием и эксплуатацией во время обучения. Существующие методы, такие как проксимальная оптимизация политики (PPO) и её варианты, отбрасывают ценные градиентные сигналы от маловероятных токенов из-за механизма отсечения. Мы систематически анализируем динамику энтропии и показываем, что эти отсечённые токены играют критическую, но недооценённую роль в регулировании эволюции энтропии. Мы предлагаем алгоритм **Управление Энтропией через Градиент-Сохранную Оптимизацию Политики (CE-GPPO)**, который мягко и ограниченно возвращает градиенты от отсечённых токенов в оригинальный PPO. Контролируя величину градиентов от токенов за пределами интервала отсечения, CE-GPPO достигает баланса между исследованием и эксплуатацией. Мы предоставляем теоретическое обоснование и эмпирические доказательства, показывающие, что CE-GPPO эффективно смягчает нестабильность энтропии. Эксперименты на задачах математического рассуждения демонстрируют, что CE-GPPO стабильно превосходит сильные базовые методы для моделей различных масштабов.
Недавние достижения в области клонирования поведения (BC) позволили создать впечатляющие политики визуомоторного управления. Однако эти подходы ограничены качеством человеческих демонстраций, трудоемкостью сбора данных и снижением отдачи от увеличения объема оффлайн-данных. В сравнении, обучение с подкреплением (RL) тренирует агента через автономное взаимодействие с окружающей средой и показало замечательные успехи в различных областях. Тем не менее, обучение RL-политик непосредственно на реальных роботах остается сложной задачей из-за низкой эффективности использования данных, проблем безопасности и трудностей обучения на основе редких наград для задач с длительным горизонтом, особенно для систем с высокой степенью свободы (DoF). Мы представляем метод, который объединяет преимущества BC и RL через фреймворк остаточного обучения. Наш подход использует BC-политики как черные ящики и обучает легковесные пошаговые остаточные коррекции с помощью эффективного оффполиси RL. Мы демонстрируем, что наш метод требует только редких бинарных сигналов награды и может эффективно улучшать политики манипуляции на системах с высокой степенью свободы (DoF) как в симуляции, так и в реальном мире. В частности, мы демонстрируем, насколько нам известно, первый успешный тренинг RL в реальном мире на гуманоидном роботе с ловкими руками. Наши результаты показывают передовую производительность в различных задачах, основанных на зрении, указывая на практический путь для внедрения RL в реальном мире. Сайт проекта: https://residual-offpolicy-rl.github.io
Мы представляем CHARM — новое параметрическое представление и генеративную структуру для моделирования причесок в аниме. В то время как традиционные методы моделирования волос сосредоточены на реалистичности с использованием подходов, основанных на отдельных прядях или объемных представлениях, прически в аниме обладают высоко стилизованной, кусочно-структурированной геометрией, что создает сложности для существующих техник. Существующие работы часто полагаются на плотное моделирование сеток или ручное создание сплайн-кривых, что делает их неэффективными для редактирования и непригодными для масштабируемого обучения. CHARM предлагает компактное, обратимое параметрическое представление на основе контрольных точек, где каждая "карта волос" представлена последовательностью контрольных точек, а каждая точка кодируется всего пятью геометрическими параметрами. Это эффективное и точное представление поддерживает как удобное для художников проектирование, так и генерацию на основе обучения. На основе этого представления CHARM предлагает авторегрессивную генеративную структуру, которая эффективно создает прически аниме из входных изображений или облаков точек. Интерпретируя прически аниме как последовательный "язык волос", наш авторегрессивный трансформер захватывает как локальную геометрию, так и глобальную топологию прически, что приводит к созданию высококачественных причесок аниме. Для облегчения обучения и оценки генерации причесок аниме мы создали AnimeHair — крупномасштабный набор данных, содержащий 37 тысяч высококачественных причесок аниме с разделенными картами волос и обработанными данными сеток. Многочисленные эксперименты демонстрируют передовые результаты CHARM как в точности реконструкции, так и в качестве генерации, предлагая выразительное и масштабируемое решение для моделирования причесок аниме. Страница проекта: https://hyzcluster.github.io/charm/
В последние годы мультимодальные модели достигли значительных успехов и проложили путь для создания интеллектуальных агентов, работающих в браузерах. Однако при решении задач на реальных веб-страницах в многошаговых, долгосрочных сценариях текущие агенты всё ещё сталкиваются с проблемами, такими как несогласованная последовательность действий и чрезмерное количество проб и ошибок в процессе выполнения. В данной статье представлен Recon-Act — саморазвивающийся мультиагентный фреймворк, основанный на парадигме поведения "Разведка-Действие". Система состоит из Команды разведки и Команды действий: первая проводит сравнительный анализ и генерацию инструментов, а вторая занимается декомпозицией намерений, оркестрацией инструментов и их выполнением. Сравнивая ошибочные траектории с успешными, Команда разведки выводит способы исправления, абстрагирует их в унифицированное понятие обобщённых инструментов, выраженных либо в виде подсказок, либо в виде правил, и регистрирует их в архиве инструментов в реальном времени. Команда действий пересматривает процесс, используя эти целевые инструменты, тем самым создавая замкнутый цикл обучения по схеме "данные-инструменты-действия-обратная связь". Следуя предложенной в работе дорожной карте из 6 уровней реализации, мы в настоящее время достигли Уровня 3 (с ограниченным вмешательством человека). Благодаря обобщённым инструментам, полученным в процессе разведки, Recon-Act значительно повышает адаптируемость к новым веб-сайтам и способность решать долгосрочные задачи, демонстрируя наилучшие результаты на сложном наборе данных VisualWebArena.
Композиция изображений направлена на бесшовное вставление объекта, заданного пользователем, в новую сцену, однако существующие модели испытывают трудности с обработкой сложного освещения (например, точные тени, отражения в воде) и разнообразных входных данных высокого разрешения. Современные диффузионные модели для генерации изображений из текста (например, SD3.5, FLUX) уже кодируют важные физические и разрешающие априорные знания, но им не хватает фреймворка для их раскрытия без использования латентной инверсии, которая часто фиксирует позы объектов в контекстуально неподходящих ориентациях, или хрупких манипуляций с вниманием. Мы предлагаем SHINE, фреймворк без необходимости обучения для бесшовной и высококачественной вставки с устранением ошибок. SHINE вводит потерю с управляемыми якорями на многообразии, используя предобученные адаптеры кастомизации (например, IP-Adapter) для управления латентными представлениями с целью точного воспроизведения объекта при сохранении целостности фона. Предлагаются методы подавления деградации и адаптивного смешивания фона для дальнейшего устранения низкокачественных результатов и видимых швов. Для решения проблемы отсутствия строгих бенчмарков мы представляем ComplexCompo, который включает разнообразные разрешения и сложные условия, такие как слабое освещение, сильная засветка, сложные тени и отражающие поверхности. Эксперименты на ComplexCompo и DreamEditBench демонстрируют передовые результаты по стандартным метрикам (например, DINOv2) и оценкам, согласованным с человеческим восприятием (например, DreamSim, ImageReward, VisionReward). Код и бенчмарк будут общедоступны после публикации.
Хотя крупные модели рассуждений (LRMs) генерируют обширные цепочки мыслей, у нас отсутствует принципиальная структура для понимания того, как эти мысли организованы. В данной статье мы представляем новый подход, применяя теорию эпизодов Шенфилда — классическую когнитивную модель для решения математических задач человеком — для анализа следов рассуждений LRMs. Мы аннотировали тысячи предложений и абзацев из решений математических задач, сгенерированных моделями, используя семь когнитивных меток (например, План, Реализация, Проверка). Результатом стал первый общедоступный бенчмарк для детального анализа машинного рассуждения, включающий крупный аннотированный корпус и подробные руководства по аннотированию. Наш предварительный анализ выявляет уникальные паттерны в рассуждениях LRMs, такие как динамика переходов между когнитивными состояниями. Эта структура предоставляет теоретически обоснованную методологию для интерпретации когнитивных процессов LRMs и открывает возможности для разработки более управляемых и прозрачных систем рассуждений.
Мы представляем SD3.5-Flash, эффективную фреймворк дистилляции с малым количеством шагов, которая обеспечивает генерацию высококачественных изображений на доступных потребительских устройствах. Наш подход дистиллирует вычислительно сложные модели с исправленным потоком через переформулированную цель согласования распределений, специально адаптированную для генерации с малым количеством шагов. Мы вводим два ключевых новшества: "совместное использование временных шагов" для уменьшения шума градиента и "тонкую настройку с разделением временных шагов" для улучшения соответствия запросам. В сочетании с комплексной оптимизацией конвейера, такой как реструктуризация текстового кодировщика и специализированная квантизация, наша система обеспечивает как быструю генерацию, так и эффективное использование памяти на различных аппаратных конфигурациях. Это делает технологию доступной для всего спектра устройств, от мобильных телефонов до настольных компьютеров. Благодаря обширной оценке, включая масштабные пользовательские исследования, мы демонстрируем, что SD3.5-Flash стабильно превосходит существующие методы с малым количеством шагов, делая передовые технологии генеративного ИИ действительно доступными для практического внедрения.
Крупные языковые модели для работы с кодом продемонстрировали впечатляющие возможности в решении задач программирования, однако современные бенчмарки в основном сосредоточены на одномодальных задачах, а не на разработке визуальных игр. Большинство существующих бенчмарков, связанных с кодом, оценивают корректность синтаксиса и точность выполнения, упуская из виду ключевые игровые метрики, такие как играбельность, визуальная эстетика и вовлеченность пользователей, которые имеют решающее значение для реального применения. Чтобы устранить разрыв между текущими возможностями языковых моделей в решении алгоритмических задач и соревновательного программирования и комплексными требованиями практической разработки игр, мы представляем V-GameGym — всеобъемлющий бенчмарк, включающий 2 219 высококачественных образцов, распределенных по 100 тематическим кластерам, созданным на основе реальных репозиториев, с использованием новой методологии кластеризации для обеспечения как разнообразия, так и структурной полноты. Кроме того, мы вводим мультимодальную систему оценки с автоматизированным конвейером на основе языковых моделей для синтеза визуального кода с использованием полноценных UI-сред. Наш обширный анализ показывает, что V-GameGym эффективно устраняет разрыв между точностью генерации кода и практическими рабочими процессами разработки игр, предоставляя количественные метрики качества для визуального программирования и генерации интерактивных элементов.
Обучение с подкреплением (RL) демонстрирует потенциал в обучении агентных моделей, которые выходят за рамки статических бенчмарков и участвуют в динамических, многоходовых взаимодействиях. Однако истинная ценность таких агентов заключается в их способности помогать пользователям, что создает сложности из-за разнообразия и динамики взаимодействия с ними. В данной работе мы предлагаем UserRL — унифицированную структуру для обучения и оценки пользовательских способностей через стандартизированные среды gym, дополненные симулированными пользователями. Мы систематически варьируем назначение наград на уровне ходов и расчет оценок на уровне траекторий, чтобы проанализировать, как различные формулировки влияют на обучение по алгоритму GRPO. Наши эксперименты с моделями Qwen3 выявили три ключевых результата: (i) начальная подготовка с использованием SFT критически важна для раскрытия начальной способности к взаимодействию и обеспечения устойчивых улучшений в RL; (ii) осознанный расчет оценок траекторий приводит к более эффективным и результативным многоходовым взаимодействиям; и (iii) хотя более сильные симулированные пользователи (например, GPT-4o) облегчают обучение, открытые симуляторы (например, Qwen3-32B) остаются экономически выгодным и переносимым вариантом. В совокупности эти результаты подчеркивают, что тщательная разработка формирования наград и выбор симуляции пользователей столь же важны, как и масштаб модели, и устанавливают UserRL как практический путь для создания устойчивых агентных моделей, ориентированных на пользователя. Все коды и данные доступны для будущих исследований.
Модели трехмерной реконструкции на основе обучения, представленные Visual Geometry Grounded Transformers (VGGTs), достигли значительного прогресса благодаря использованию крупномасштабных трансформеров. Однако их чрезмерные вычислительные и энергетические затраты серьезно ограничивают их применение в реальных условиях. Посттренировочная квантизация (PTQ) стала распространенным методом для сжатия и ускорения моделей. Тем не менее, эмпирически мы наблюдаем, что PTQ сталкивается с уникальными трудностями при сжатии миллиардных VGGTs: независимые от данных специальные токены вызывают распределения активаций с тяжелыми хвостами, а многопользовательская природа 3D-данных делает выбор калибровочных образцов крайне нестабильным. В данной статье предлагается первая квантизационная структура для VGGTs, а именно QuantVGGT. Она основывается на двух технических вкладах: во-первых, мы вводим Dual-Smoothed Fine-Grained Quantization, которая интегрирует предварительное глобальное вращение Адамара и последующее локальное сглаживание каналов для устойчивого смягчения распределений с тяжелыми хвостами и межканальной дисперсии. Во-вторых, мы разрабатываем Noise-Filtered Diverse Sampling, который фильтрует выбросы с помощью статистики глубоких слоев и строит кадро-ориентированные разнообразные калибровочные кластеры для обеспечения стабильных диапазонов квантизации. Комплексные эксперименты демонстрируют, что QuantVGGT достигает наилучших результатов на различных тестах и битовых глубинах, значительно превосходя предыдущие методы общей квантизации. Мы подчеркиваем, что наш 4-битный QuantVGGT обеспечивает сокращение памяти в 3,7 раза и ускорение в 2,5 раза при реальном аппаратном выводе, сохраняя точность реконструкции выше 98% от полной точности. Это демонстрирует значительные преимущества и практичность QuantVGGT в условиях ограниченных ресурсов. Наш код доступен по адресу https://github.com/wlfeng0509/QuantVGGT.
Крупные модели рассуждений (Large Reasoning Models, LRMs) продемонстрировали впечатляющие способности в решении сложных задач, часто получая преимущество от обучения на трудных математических задачах, которые стимулируют сложные рассуждения. Недавние исследования были направлены на автоматизированную генерацию математических задач с использованием проприетарных моделей или масштабных открытых моделей, основанных на исходных данных или внутренних математических концепциях. Однако масштабирование этих методов остается сложной задачей из-за высоких вычислительных затрат/стоимости API, сложности формулирования запросов и ограниченного уровня сложности генерируемых задач. Чтобы преодолеть эти ограничения, мы предлагаем ScaleDiff — простой, но эффективный конвейер, предназначенный для масштабирования создания сложных задач. Мы эффективно идентифицируем сложные задачи из существующих наборов данных с помощью всего одного прямого прохода, используя адаптивную модель мышления, которая способна оценивать сложность задачи и автоматически переключаться между режимами "Мышление" и "Без мышления". Затем мы обучаем специализированный генератор сложных задач (DiffGen-8B) на этих отфильтрованных сложных данных, который может производить новые сложные задачи в больших масштабах, устраняя необходимость в сложных запросах для каждого экземпляра и связанных с ними высоких затрат на API. Тонкая настройка модели Qwen2.5-Math-7B-Instruct на наборе данных ScaleDiff-Math приводит к значительному увеличению производительности на 11,3% по сравнению с исходным набором данных и достигает средней точности 65,9% на тестах AIME'24, AIME'25, HMMT-Feb'25, BRUMO'25 и MATH500, превосходя недавние мощные LRMs, такие как OpenThinker3. Примечательно, что такая производительность достигается с использованием экономичной модели Qwen3-8B в качестве учителя, что демонстрирует, что наш конвейер может эффективно передавать продвинутые способности к рассуждению без необходимости в более крупных и дорогостоящих моделях-учителях. Кроме того, мы наблюдаем явный эффект масштабирования в производительности модели на сложных тестах по мере увеличения количества сложных задач. Код: https://github.com/QizhiPei/ScaleDiff.
Синтез интерьерных сцен становится все более важным с развитием воплощенного ИИ (Embodied AI), который требует 3D-сред, которые не только визуально реалистичны, но и физически правдоподобны, а также функционально разнообразны. Хотя современные подходы значительно улучшили визуальную точность, они часто ограничиваются фиксированными категориями сцен, недостаточно детализированы на уровне объектов, не обеспечивают физической согласованности и с трудом соответствуют сложным пользовательским инструкциям. В данной работе мы представляем SceneWeaver — рефлексивную агентскую платформу, которая объединяет различные парадигмы синтеза сцен через инструментальное итеративное уточнение. В основе SceneWeaver лежит планировщик на основе языковой модели, который выбирает из набора расширяемых инструментов генерации сцен, включая генеративные модели на основе данных, а также методы, основанные на визуальных данных и языковых моделях (LLM), руководствуясь самооценкой физической правдоподобности, визуального реализма и семантического соответствия пользовательскому вводу. Этот замкнутый цикл "рассуждай-действуй-рефлексируй" позволяет агенту выявлять семантические несоответствия, вызывать целевые инструменты и обновлять среду в ходе последовательных итераций. Эксперименты на различных типах комнат, включая открытые словарные категории, демонстрируют, что SceneWeaver не только превосходит предыдущие методы по физическим, визуальным и семантическим метрикам, но и эффективно обобщается на сложные сцены с разнообразными инструкциями, что делает шаг к созданию универсальных 3D-сред. Сайт проекта: https://scene-weaver.github.io/.
Поисково-усиленные большие языковые модели (LLM) значительно продвинули задачи поиска информации, интегрируя извлечение данных в процесс генерации, что снижает когнитивную нагрузку пользователей по сравнению с традиционными поисковыми системами. Однако они по-прежнему недостаточно эффективны для полного удовлетворения разнообразных потребностей пользователей, что требует распознавания различных намерений, скрытых за одним и тем же запросом у разных пользователей, и предоставления информации в предпочтительных формах. Хотя современные системы, такие как ChatGPT и Gemini, пытаются персонализировать результаты, используя историю взаимодействий пользователей, систематическая оценка такой персонализации остается недостаточно изученной. Для устранения этого пробела мы предлагаем BESPOKE — реалистичный бенчмарк для оценки персонализации в поисково-усиленных LLM. BESPOKE разработан как реалистичный, собирая аутентичные истории чатов и поисков непосредственно от людей, так и диагностический, сопоставляя ответы с детализированными оценками предпочтений и обратной связью. Бенчмарк создан в ходе долгосрочной, глубоко вовлеченной аннотации, где люди-аннотаторы предоставляли свои истории, формулировали запросы с подробными информационными потребностями и оценивали ответы с помощью баллов и диагностической обратной связи. Используя BESPOKE, мы проводим систематический анализ, который выявляет ключевые требования для эффективной персонализации в задачах поиска информации, закладывая основу для детализированной оценки персонализированных поисково-усиленных LLM. Наш код и данные доступны по адресу https://augustinlib.github.io/BESPOKE/.
Традиционные системы рекомендаций полагаются на пассивные механизмы обратной связи, которые ограничивают пользователей простыми вариантами выбора, такими как "нравится" и "не нравится". Однако эти грубые сигналы не способны уловить тонкие мотивации и намерения пользователей. В свою очередь, современные системы также не могут определить, какие конкретные атрибуты элементов вызывают удовлетворение или неудовлетворение пользователей, что приводит к неточному моделированию предпочтений. Эти фундаментальные ограничения создают устойчивый разрыв между намерениями пользователей и интерпретациями системы, что в конечном итоге подрывает удовлетворенность пользователей и снижает эффективность системы. Для преодоления этих ограничений мы представляем Interactive Recommendation Feed (IRF) — новаторскую парадигму, которая позволяет использовать команды на естественном языке в рамках основных потоков рекомендаций. В отличие от традиционных систем, которые ограничивают пользователей пассивным неявным влиянием на поведение, IRF предоставляет активный явный контроль над политиками рекомендаций через лингвистические команды в реальном времени. Для поддержки этой парадигмы мы разработали RecBot — архитектуру с двумя агентами, где Parser Agent преобразует лингвистические выражения в структурированные предпочтения, а Planner Agent динамически организует адаптивные цепочки инструментов для оперативной корректировки политик. Для обеспечения практического внедрения мы используем симуляционно-усиленное дистилляцию знаний, чтобы достичь эффективной производительности при сохранении мощных аналитических возможностей. В ходе обширных оффлайн- и долгосрочных онлайн-экспериментов RecBot демонстрирует значительные улучшения как в удовлетворенности пользователей, так и в бизнес-результатах.
Хотя явные позиционные кодировки, такие как RoPE, являются основным источником позиционной информации в декодерах Transformer, причинная маска также предоставляет позиционную информацию. В данной работе мы доказываем, что причинная маска может вызывать позиционно-зависимые паттерны в оценках внимания, даже без параметров или причинной зависимости во входных данных. Наш теоретический анализ показывает, что индуцированный паттерн внимания склонен отдавать предпочтение близким парам запрос-ключ, отражая поведение распространённых позиционных кодировок. Эмпирический анализ подтверждает, что обученные модели демонстрируют такое же поведение, причём обученные параметры дополнительно усиливают эти паттерны. Примечательно, что мы обнаружили, что взаимодействие причинной маски и RoPE искажает относительные паттерны оценок внимания RoPE, превращая их в неотносительные. Мы последовательно наблюдали этот эффект в современных крупных языковых моделях, что подчеркивает важность рассмотрения причинной маски как источника позиционной информации наряду с явными позиционными кодировками.
Бенчмарки, оцениваемые с помощью языковых моделей (LLM), всё чаще используются для анализа сложного поведения моделей, однако их проектирование вносит ошибки, отсутствующие в традиционных бенчмарках, основанных на эталонных данных. Мы утверждаем, что без чётких целей и проверяемых конструкций рейтинги бенчмарков могут порождать высокоуверенные, но фактически шумные результаты. Мы предлагаем два механизма для диагностики этих проблем. Схематическая согласованность количественно оценивает, насколько вердикт судьи объясняется явной схемой оценки, выявляя необъяснимую дисперсию, когда судьи отклоняются от собственных критериев. Психометрическая валидность объединяет сигналы внутренней согласованности и дискриминантной валидности, чтобы количественно оценить нередуцируемую неопределённость в любом запуске бенчмарка. Применяя эти инструменты к Arena-Hard Auto, мы обнаруживаем серьёзную несогласованность схем и коллапс факторов среди популярных судей: например, необъяснимая дисперсия превышает 90% для DeepSeek-R1-32B, а корреляции факторов превышают 0,93 для большинства критериев. Мы также показываем, что агрегация в стиле ELO, используемая в Arena-Hard Auto, маскирует подлинную неопределённость рейтингов. Наши результаты выявляют ошибки проектирования, подрывающие валидность, и предлагают практические принципы для создания более точных и надёжных бенчмарков, оцениваемых LLM. Мы публикуем наш код по адресу https://anonymous.4open.science/r/judgment-to-noise-947D/README.md.
Несмотря на устойчивый прогресс в генерации изображений на основе макетов, современные методы по-прежнему сталкиваются с трудностями при работе с макетами, содержащими значительные пересечения между ограничивающими рамками. Мы выделяем две основные проблемы: (1) большие области пересечения и (2) пересекающиеся объекты с минимальной семантической различимостью. С помощью качественных примеров и количественного анализа мы демонстрируем, как эти факторы снижают качество генерации. Для систематической оценки этой проблемы мы вводим OverLayScore — новый метрический показатель, который количественно оценивает сложность пересекающихся ограничивающих рамок. Наш анализ показывает, что существующие тестовые наборы смещены в сторону более простых случаев с низкими значениями OverLayScore, что ограничивает их эффективность в оценке производительности моделей в более сложных условиях. Чтобы устранить этот пробел, мы представляем OverLayBench — новый тестовый набор с высококачественными аннотациями и сбалансированным распределением по различным уровням OverLayScore. В качестве первого шага к улучшению производительности на сложных пересечениях мы также предлагаем CreatiLayout-AM — модель, дообученную на тщательно отобранном наборе данных с амодальными масками. В совокупности наши результаты закладывают основу для более устойчивой генерации изображений на основе макетов в реалистичных и сложных сценариях. Ссылка на проект: https://mlpc-ucsd.github.io/OverLayBench.
Видео-рассуждение стало критически важной способностью для мультимодальных больших языковых моделей (MLLMs), требующей от моделей выхода за рамки статического восприятия к связному пониманию временной динамики в сложных сценах. Однако существующие MLLMs часто демонстрируют несогласованность процесса, когда промежуточные рассуждения отклоняются от динамики видео, даже если конечный ответ правильный, что подрывает интерпретируемость и устойчивость. Для решения этой проблемы мы представляем MOSS-ChatV, фреймворк с обучением с подкреплением, использующий награду на основе динамического выравнивания временных рядов (DTW). Это правило-ориентированное вознаграждение согласует траектории рассуждений с временно закрепленными эталонами, обеспечивая эффективный контроль процесса без дополнительных моделей вознаграждения. Мы также определяем прогнозирование динамического состояния как ключевой показатель видео-рассуждения и создаем MOSS-Video, бенчмарк с аннотированными траекториями рассуждений, где обучающая часть используется для тонкой настройки MOSS-ChatV, а тестовая часть оставлена для оценки. MOSS-ChatV достигает 87,2\% на MOSS-Video (тест) и улучшает производительность на общих видео-бенчмарках, таких как MVBench и MMVU. Фреймворк стабильно обеспечивает улучшения на различных архитектурах, включая Qwen2.5-VL и Phi-2, подтверждая его широкую применимость. Оценки с использованием GPT-4o в качестве судьи дополнительно показывают, что MOSS-ChatV генерирует более согласованные и стабильные траектории рассуждений.
Крупные языковые модели (LLM) сталкиваются с серьезными вычислительными трудностями при обработке длинных контекстов из-за квадратичной сложности механизма самовнимания. Хотя методы мягкого сжатия контекста, которые преобразуют входной текст в более компактные латентные представления, показали свою перспективность, их практическое применение остается ограниченным. Существующие подходы обычно сжимают контекст как единое целое, что приводит к квадратичной сложности сжатия и невозможности повторного использования вычислений для запросов с перекрывающимися контекстами. В данной работе мы представляем CompLLM — метод мягкого сжатия, разработанный для практического применения. Вместо обработки контекста как единого целого CompLLM разделяет его на сегменты и сжимает каждый из них независимо. Этот простой дизайн обеспечивает три ключевых свойства: эффективность, так как этап сжатия масштабируется линейно с длиной контекста; масштабируемость, позволяя моделям, обученным на коротких последовательностях (например, 1 тыс. токенов), обобщать на контексты длиной 100 тыс. токенов; и возможность повторного использования, позволяя кэшировать сжатые сегменты и применять их для разных запросов. Наши эксперименты показывают, что при коэффициенте сжатия 2x и на длинных контекстах CompLLM ускоряет время до первого токена (TTFT) до 4 раз и сокращает размер кэша ключей и значений (KV cache) на 50%. Более того, CompLLM демонстрирует производительность, сопоставимую с использованием несжатого контекста, а на очень длинных последовательностях даже превосходит его, что подтверждает его эффективность и практическую полезность.
Эффективность крупных языковых моделей (LLM) в значительной степени зависит от стратегий рассуждений, или стилей мышления, используемых в их запросах. Однако взаимодействие между этими стилями рассуждений, архитектурой модели и типом задачи остается плохо изученным. Чтобы устранить этот пробел, мы представляем StyleBench — всеобъемлющий бенчмарк для систематической оценки стилей рассуждений на разнообразных задачах и моделях. Мы оцениваем пять репрезентативных стилей рассуждений, включая цепочку мыслей (CoT), дерево мыслей (ToT), алгоритм мыслей (AoT), набросок мыслей (SoT) и цепочку черновиков (CoD), на пяти задачах рассуждений, используя 15 открытых моделей из основных семейств (LLaMA, Qwen, Mistral, Gemma, GPT-OSS, Phi и DeepSeek) с параметрами от 270 млн до 120 млрд. Наш масштабный анализ показывает, что ни один стиль не является универсально оптимальным. Мы демонстрируем, что эффективность стратегии сильно зависит как от масштаба модели, так и от типа задачи: методы, основанные на поиске (AoT, ToT), превосходно справляются с открытыми задачами, но требуют крупномасштабных моделей, в то время как лаконичные стили (SoT, CoD) достигают радикального повышения эффективности на четко определенных задачах. Кроме того, мы выявляем ключевые поведенческие паттерны: меньшие модели часто не следуют инструкциям вывода и переходят к угадыванию, в то время как устойчивость рассуждений проявляется как функция масштаба. Наши результаты предлагают важный ориентир для выбора оптимальных стратегий рассуждений в зависимости от конкретных ограничений. Мы открываем исходный код бенчмарка на https://github.com/JamesJunyuGuo/Style_Bench.
Решения типа "от начала до конца" (End-to-End, E2E) стали основным подходом для систем автономного вождения, при этом модели "Видение-Язык-Действие" (Vision-Language-Action, VLA) представляют собой новую парадигму, которая использует предварительно обученные мультимодальные знания из моделей "Видение-Язык" (Vision-Language Models, VLMs) для интерпретации и взаимодействия со сложными реальными средами. Однако эти методы остаются ограниченными недостатками обучения с подражанием, которое с трудом кодирует физические правила в процессе обучения. Существующие подходы часто полагаются на сложные пост-обработки на основе правил, используют обучение с подкреплением, которое в основном ограничено симуляциями, или применяют диффузионное управление, требующее вычислительно затратных расчетов градиентов. Для решения этих проблем мы представляем ReflectDrive — новый обучающийся фреймворк, который интегрирует механизм рефлексии для генерации безопасных траекторий с помощью дискретной диффузии. Сначала мы дискретизируем двумерное пространство вождения для создания кодовой книги действий, что позволяет использовать предварительно обученные диффузионные языковые модели для задач планирования через тонкую настройку. Ключевым элементом нашего подхода является механизм рефлексии, учитывающий безопасность, который выполняет итеративную самокоррекцию без вычисления градиентов. Наш метод начинается с генерации траекторий, обусловленных целью, для моделирования многомодального поведения вождения. На основе этого мы применяем методы локального поиска для выявления небезопасных токенов и определения допустимых решений, которые затем служат безопасными якорями для регенерации на основе инпейнтинга. Оцененный на бенчмарке NAVSIM, ReflectDrive демонстрирует значительные преимущества в генерации траекторий, критичных для безопасности, предлагая масштабируемое и надежное решение для систем автономного вождения.
Мы предлагаем фреймворк, который позволяет нейронным моделям "думать во время прослушивания" повседневных звуков, тем самым повышая производительность классификации аудио. Вдохновленные недавними достижениями в области рассуждений крупных языковых моделей, мы рассматриваем два ключевых вопроса: (i) как можно интегрировать мышление в существующие конвейеры классификации аудио, чтобы обеспечить рассуждения в пространстве категорий и улучшить производительность, и (ii) можно ли разработать новую архитектуру с нуля, которая поддерживает как мышление, так и масштабирование во время тестирования? Мы демонстрируем, что в обоих случаях наши модели показывают улучшенную точность классификации. Используя масштабирование во время тестирования, мы наблюдаем устойчивый рост производительности по мере увеличения числа сэмплированных трасс. Кроме того, мы оцениваем две открытые модели рассуждений, GPT-OSS-20B и Qwen3-14B, показывая, что хотя такие модели способны к рассуждениям с нулевым обучением, легковесный подход — переобучение только матрицы эмбеддингов замороженной меньшей модели, такой как GPT-2 — может превзойти производительность текстовых моделей рассуждений с миллиардами параметров.
Перцептивная оптимизация в первую очередь определяется целевой функцией точности, которая обеспечивает как семантическую согласованность, так и общий визуальный реализм, в то время как состязательная целевая функция дополняет процесс, улучшая резкость восприятия и детализацию. Несмотря на их ключевую роль, взаимосвязь между их эффективностью как целей оптимизации и их способностью служить метриками оценки качества изображений (IQA) остается недостаточно изученной. В данной работе мы проводим систематический анализ и выявляем неожиданную асимметрию между перцептивной оптимизацией и оценкой: метрики точности, которые превосходно работают в IQA, не обязательно эффективны для перцептивной оптимизации, причем это несоответствие становится более выраженным при использовании состязательного обучения. Кроме того, хотя дискриминаторы эффективно подавляют артефакты в процессе оптимизации, их обученные представления предлагают лишь ограниченные преимущества при повторном использовании в качестве инициализации базовых моделей для IQA. Помимо этой асимметрии, наши результаты также показывают, что конструкция дискриминатора играет решающую роль в формировании оптимизации, причем архитектуры на основе патчей и сверток обеспечивают более точное восстановление деталей по сравнению с классическими или трансформерными альтернативами. Эти выводы углубляют понимание проектирования функций потерь и их связи с переносимостью IQA, прокладывая путь к более принципиальным подходам к перцептивной оптимизации.
Крупные аудио-языковые модели (LALMs) демонстрируют высокую способность к решению речевых задач в режиме zero-shot, что указывает на их перспективность для распознавания эмоций в речи (SER). Однако в реальных условиях развертывания SER часто терпит неудачи из-за несоответствия доменов, когда исходные данные недоступны, а мощные LALMs доступны только через API. Мы задаемся вопросом: можно ли, имея только неразмеченные аудиоданные целевого домена и доступ к LALM через API, адаптировать студенческую модель так, чтобы она превзошла LALM в целевом домене? Для решения этой задачи мы предлагаем MI-Fuse — фреймворк для объединения денойзированных меток, который дополняет LALM классификатором SER, обученным на исходном домене, в качестве вспомогательного учителя. Фреймворк извлекает несколько стохастических предсказаний от обоих учителей, взвешивает их средние распределения на основе неопределенности, измеряемой взаимной информацией, и стабилизирует обучение с помощью учителя, основанного на экспоненциальном скользящем среднем. Эксперименты на трех публичных наборах данных по эмоциям и шести кросс-доменных переходах показывают стабильные улучшения, при этом студенческая модель превосходит LALM и опережает самый сильный базовый метод на 3,9%. Этот подход усиливает системы распознавания эмоций в речи без необходимости обмена исходными данными, обеспечивая реалистичную адаптацию.
В данной статье представлена Системная Карта Опасностей (Hazard-Aware System Card, HASC) — новая концепция, разработанная для повышения прозрачности и подотчетности в процессе создания и внедрения систем искусственного интеллекта (ИИ). HASC расширяет существующие концепции карт моделей и системных карт, интегрируя всеобъемлющий и динамический учет уровня безопасности и защищенности системы ИИ. В рамках предложенного подхода вводится стандартизированная система идентификаторов, включая новый идентификатор опасностей безопасности ИИ (AI Safety Hazard, ASH ID), который дополняет существующие идентификаторы уязвимостей, такие как CVE, обеспечивая четкую и последовательную коммуникацию об устраненных недостатках. Предоставляя единый доступный источник достоверной информации, HASC позволяет разработчикам и заинтересованным сторонам принимать более обоснованные решения относительно безопасности систем ИИ на протяжении всего их жизненного цикла. В заключение мы также сравниваем предложенные системные карты ИИ со стандартом ISO/IEC 42001:2023 и обсуждаем, как они могут дополнять друг друга, обеспечивая большую прозрачность и подотчетность для систем ИИ.
Обнаружение ненавистнического контента является сложной и важной задачей. Автоматизированные инструменты, такие как модели машинного обучения, могут помочь, но они требуют постоянного обучения для адаптации к постоянно меняющемуся ландшафту социальных сетей. В данной работе мы оцениваем способность восьми открытых языковых моделей (LLM) выявлять антисемитский контент, уделяя особое внимание использованию контекстного определения в качестве политического руководства. Мы исследуем различные методы промптинга и разрабатываем новый промпт, похожий на цепочку рассуждений (CoT), — Guided-CoT. Guided-CoT эффективно справляется с контекстной политикой, повышая производительность всех оцениваемых моделей независимо от конфигурации декодирования, размера модели или способности к рассуждениям. Примечательно, что Llama 3.1 70B превосходит тонко настроенную GPT-3.5. Кроме того, мы анализируем ошибки LLM и вводим метрики для количественной оценки семантического расхождения в обоснованиях, генерируемых моделями, что выявляет значительные различия и парадоксальное поведение среди LLM. Наши эксперименты подчеркивают различия в полезности, объяснимости и надежности различных LLM.