HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

23 papers found

Matrix-Game: Интерактивная Модель Основ Мира
Matrix-Game: Interactive World Foundation Model

Jun 23

ByYifan Zhang, Chunli Peng, Boyang Wang, Puyi Wang, Qingcheng Zhu, Fei Kang, Biao Jiang, Zedong Gao, Eric Li, Yang Liu, Yahui Zhou

Мы представляем Matrix-Game — интерактивную модель-основу для генерации управляемых игровых миров. Matrix-Game обучается с использованием двухэтапного подхода: сначала выполняется масштабное предварительное обучение без меток для понимания окружения, за которым следует обучение с метками действий для генерации интерактивного видео. Для поддержки этого процесса мы создали Matrix-Game-MC — всеобъемлющий набор данных из Minecraft, включающий более 2700 часов неразмеченных видеоклипов игрового процесса и более 1000 часов высококачественных размеченных клипов с детализированными аннотациями действий клавиатуры и мыши. Наша модель использует управляемую парадигму генерации "изображение-в-мир", учитывая эталонное изображение, контекст движения и действия пользователя. Благодаря более чем 17 миллиардам параметров, Matrix-Game обеспечивает точный контроль над действиями персонажа и движениями камеры, сохраняя при этом высокое визуальное качество и временную согласованность. Для оценки производительности мы разработали GameWorld Score — унифицированный бенчмарк, измеряющий визуальное качество, временное качество, управляемость действий и понимание физических правил для генерации миров в Minecraft. Многочисленные эксперименты показывают, что Matrix-Game стабильно превосходит предыдущие открытые модели генерации миров в Minecraft (включая Oasis и MineWorld) по всем метрикам, с особенно значительным улучшением в управляемости и физической согласованности. Двойные слепые оценки людьми дополнительно подтверждают превосходство Matrix-Game, подчеркивая её способность генерировать воспринимаемо реалистичные и точно управляемые видео в разнообразных игровых сценариях. Для содействия будущим исследованиям в области интерактивной генерации "изображение-в-мир" мы опубликуем веса модели Matrix-Game и бенчмарк GameWorld Score на https://github.com/SkyworkAI/Matrix-Game.

JarvisArt: Освобождение человеческого художественного творчества с помощью интеллектуального агента для ретуши фотографий
JarvisArt: Liberating Human Artistic Creativity via an Intelligent Photo Retouching Agent

Jun 21

ByYunlong Lin, Zixu Lin, Kunjie Lin, Jinbin Bai, Panwang Pan, Chenxin Li, Haoyu Chen, Zhongdao Wang, Xinghao Ding, Wenbo Li, Shuicheng Yan

Ретушь фотографий стала неотъемлемой частью современного визуального повествования, позволяя пользователям передавать эстетику и выражать творческие идеи. Хотя профессиональные инструменты, такие как Adobe Lightroom, предлагают мощные возможности, они требуют значительного опыта и ручной работы. В то же время существующие решения на основе ИИ обеспечивают автоматизацию, но часто страдают от ограниченной настраиваемости и слабой обобщаемости, не удовлетворяя разнообразные и персонализированные потребности в редактировании. Чтобы устранить этот разрыв, мы представляем JarvisArt — агента, управляемого мультимодальной крупной языковой моделью (MLLM), который понимает намерения пользователя, имитирует процесс рассуждения профессиональных художников и интеллектуально координирует более 200 инструментов ретуши в Lightroom. JarvisArt проходит двухэтапный процесс обучения: начальную тонкую настройку с использованием Chain-of-Thought для формирования базовых навыков рассуждения и использования инструментов, за которой следует Group Relative Policy Optimization for Retouching (GRPO-R) для дальнейшего улучшения принятия решений и владения инструментами. Мы также предлагаем протокол Agent-to-Lightroom для обеспечения бесшовной интеграции с Lightroom. Для оценки производительности мы разработали MMArt-Bench — новый бенчмарк, созданный на основе реальных пользовательских правок. JarvisArt демонстрирует удобство взаимодействия, превосходную обобщаемость и детальный контроль как над глобальными, так и над локальными корректировками, открывая новые горизонты для интеллектуальной ретуши фотографий. Примечательно, что он превосходит GPT-4o с улучшением на 60% по средним пиксельным метрикам на MMArt-Bench для точности передачи содержания, сохраняя при этом сопоставимые способности следовать инструкциям. Страница проекта: https://jarvisart.vercel.app/.

AnimaX: Анимация неодушевленных объектов в 3D с использованием совместных моделей диффузии видео и поз
AnimaX: Animating the Inanimate in 3D with Joint Video-Pose Diffusion Models

Jun 24

ByZehuan Huang, Haoran Feng, Yangtian Sun, Yuanchen Guo, Yanpei Cao, Lu Sheng

Мы представляем AnimaX, прямую (feed-forward) фреймворк для 3D-анимации, который объединяет априорные знания о движении из видео-диффузионных моделей с контролируемой структурой скелетной анимации. Традиционные методы синтеза движения либо ограничены фиксированными топологиями скелетов, либо требуют затратной оптимизации в высокоразмерных пространствах деформаций. В отличие от них, AnimaX эффективно переносит знания о движении, основанные на видео, в 3D-область, поддерживая разнообразные артикулированные меши с произвольными скелетами. Наш метод представляет 3D-движение как многовидовые, многокадровые 2D-карты поз и позволяет совместную видео-позную диффузию, обусловленную рендерингом шаблонов и текстовым описанием движения. Мы вводим общие позиционные кодировки и модально-зависимые вложения, чтобы обеспечить пространственно-временное выравнивание между видео- и позными последовательностями, эффективно перенося априорные знания из видео в задачу генерации движения. Полученные многовидовые последовательности поз триангулируются в 3D-позиции суставов и преобразуются в анимацию мешей с помощью обратной кинематики. Обучаясь на новом наборе данных из 160 000 риггированных последовательностей, AnimaX достигает передовых результатов на VBench по обобщению, точности движения и эффективности, предлагая масштабируемое решение для категорийно-независимой 3D-анимации. Страница проекта: https://anima-x.github.io/{https://anima-x.github.io/}.

Skywork-SWE: Раскрытие законов масштабирования данных для разработки программного обеспечения в крупных языковых моделях
Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs

Jun 24

ByLiang Zeng, Yongcong Li, Yuzhen Xiao, Changshi Li, Chris Yuhao Liu, Rui Yan, Tianwen Wei, Jujie He, Xuchen Song, Yang Liu, Yahui Zhou

Инженерия программного обеспечения (ИПО) недавно стала важной испытательной площадкой для агентов следующего поколения на основе крупных языковых моделей (LLM), требуя от них ключевых способностей в двух аспектах: устойчивое итеративное решение задач (например, более 50 раундов взаимодействия) и разрешение зависимостей в длинных контекстах (например, более 32 тыс. токенов). Однако процесс подготовки данных в ИПО остается крайне трудоемким, так как он в значительной степени зависит от ручной аннотации для фильтрации файлов с кодом и настройки специализированных сред выполнения для запуска и проверки модульных тестов. В результате большинство существующих наборов данных ограничены всего несколькими тысячами примеров, взятых из GitHub. В связи с этим мы предлагаем инкрементальный, автоматизированный конвейер подготовки данных, который систематически масштабирует объем и разнообразие наборов данных для ИПО. Наш набор данных включает 10 169 реальных задач на Python из 2 531 уникального репозитория GitHub, каждая из которых сопровождается задачей, описанной на естественном языке, и образом среды выполнения для автоматизированной проверки модульных тестов. Мы тщательно отобрали более 8 000 успешно проверенных траекторий обучения из нашего набора данных для ИПО. При тонкой настройке модели Skywork-SWE на этих траекториях мы обнаружили удивительный феномен масштабирования данных: производительность обученной модели в задачах ИПО продолжает улучшаться с увеличением объема данных, не показывая признаков насыщения. Примечательно, что наша модель Skywork-SWE достигает точности 38,0% по метрике pass@1 на бенчмарке SWE-bench Verified без использования верификаторов или множественных прогонов, устанавливая новый рекорд (SOTA) среди LLM на основе Qwen2.5-Coder-32B, построенных на фреймворке OpenHands. Более того, с применением техник масштабирования на этапе тестирования производительность дополнительно улучшается до 47,0%, превосходя предыдущие результаты SOTA для моделей с менее чем 32 млрд параметров. Мы публикуем контрольную точку модели Skywork-SWE-32B для ускорения будущих исследований.

Chain-of-Experts: Раскрытие коммуникационного потенциала моделей типа Mixture-of-Experts
Chain-of-Experts: Unlocking the Communication Power of Mixture-of-Experts Models

Jun 23

ByZihan Wang, Rui Pan, Jiarui Yao, Robert Csordas, Linjie Li, Lu Yin, Jiajun Wu, Tong Zhang, Manling Li, Shiwei Liu

Мы предлагаем Chain-of-Experts (CoE), новую архитектуру Mixture-of-Experts (MoE), которая вводит последовательное взаимодействие экспертов внутри каждого слоя. В отличие от традиционных моделей MoE, где эксперты работают независимо и параллельно, CoE обрабатывает токены итеративно через цепочку экспертов внутри слоя. Для поддержки динамического выбора экспертов на каждой итерации CoE использует выделенный маршрутизатор на каждом шаге итерации внутри слоя. Этот дизайн позволяет токенам переоценивать и выбирать разных экспертов на каждой итерации, вместо статического назначения. В результате CoE вводит гибкий механизм маршрутизации, который увеличивает разнообразие комбинаций экспертов и обогащает репрезентативную способность модели. CoE демонстрирует улучшенную производительность при фиксированных вычислительных ресурсах: на задачах математического рассуждения она снижает ошибку валидации с 1.20 до 1.12 по сравнению со стандартной MoE. Помимо производительности, CoE предлагает новую ось масштабирования: глубину через итерацию экспертов, что дополняет традиционное масштабирование по ширине/глубине. Например, использование 2x итераций соответствует производительности 3x выбора экспертов (по ширине), при этом сокращая использование памяти на 17.6-42% по сравнению с другими стратегиями масштабирования. Наш анализ показывает, что преимущества CoE обусловлены её итеративной остаточной структурой и усиленной специализацией экспертов, поддерживаемой итеративной маршрутизацией, что вместе раскрывает более выразительные представления. Код доступен по адресу https://github.com/ZihanWang314/coe.

GRPO-CARE: Обучение с подкреплением с учетом согласованности для мультимодального рассуждения
GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning

Jun 19

ByYi Chen, Yuying Ge, Rui Wang, Yixiao Ge, Junhao Cheng, Ying Shan, Xihui Liu

Недавние подходы в обучении с подкреплением, такие как GRPO с контролем по результатам, продвинули использование цепочек рассуждений (Chain-of-Thought) в больших языковых моделях (LLM), однако их адаптация к мультимодальным LLM (MLLM) остается неисследованной. Чтобы восполнить недостаток строгой оценки методов пост-обучения для MLLM, мы представляем SEED-Bench-R1 — бенчмарк, включающий сложные реальные видеоролики, требующие сбалансированного восприятия и рассуждений. Он предлагает обширный набор данных для обучения и оценивает обобщающую способность в трех усложняющихся сценариях: в рамках одного распределения, в кросс-средовых и кросс-средово-задачных условиях. Используя SEED-Bench-R1, мы обнаружили, что стандартный GRPO, хотя и улучшает точность ответов, часто снижает логическую согласованность между шагами рассуждений и ответами, достигая лишь 57,9% согласованности. Это связано с тем, что сигналы вознаграждения сосредоточены исключительно на конечных ответах, поощряя использование "коротких путей", а строгие штрафы KL ограничивают исследование. Чтобы решить эту проблему, мы предлагаем GRPO-CARE — RL-фреймворк, учитывающий согласованность, который оптимизирует как правильность ответов, так и логическую связность рассуждений без явного контроля. GRPO-CARE вводит двухуровневую систему вознаграждения: (1) базовое вознаграждение за правильность ответа и (2) адаптивный бонус за согласованность, вычисляемый путем сравнения вероятности перехода от рассуждений к ответу (с использованием медленно эволюционирующей референсной модели) с аналогичными показателями других моделей. Этот двойной механизм усиливает вознаграждение за рассуждения, которые одновременно правильны и логически согласованы. Заменив штрафы KL на этот адаптивный бонус, GRPO-CARE превосходит стандартный GRPO на SEED-Bench-R1, достигая улучшения производительности на 6,7% на самом сложном уровне оценки и повышения согласованности на 24,5%. Он также демонстрирует сильную переносимость, улучшая производительность модели на различных бенчмарках для понимания видео. Наша работа вносит вклад в систематически разработанный бенчмарк и обобщаемый фреймворк пост-обучения, способствуя развитию более интерпретируемых и устойчивых MLLM.

Унифицированная модель "Видение-Язык-Действие"
Unified Vision-Language-Action Model

Jun 24

ByYuqi Wang, Xinghang Li, Wenxuan Wang, Junbo Zhang, Yingyan Li, Yuntao Chen, Xinlong Wang, Zhaoxiang Zhang

Модели, объединяющие зрение, язык и действия (Vision-Language-Action models, VLAs), привлекают значительное внимание благодаря своему потенциалу в развитии роботизированных манипуляций. Однако предыдущие подходы в основном полагаются на общие способности к пониманию моделей, объединяющих зрение и язык (Vision-Language Models, VLMs), для генерации сигналов действий, часто упуская из виду богатую временную и причинно-следственную структуру, заложенную в визуальных наблюдениях. В данной статье мы представляем UniVLA — унифицированную и нативную мультимодальную модель VLA, которая авторегрессивно моделирует сигналы зрения, языка и действий в виде последовательностей дискретных токенов. Такая формулировка позволяет гибко обучаться мультимодальным задачам, особенно на основе крупномасштабных видеоданных. Благодаря включению моделирования мира в процессе пост-обучения, UniVLA захватывает причинно-следственные динамики из видео, что способствует эффективному переносу на обучение стратегий для последующих задач — особенно для задач с длительным горизонтом. Наш подход устанавливает новые рекорды на нескольких широко используемых симуляционных тестах, включая CALVIN, LIBERO и Simplenv-Bridge, значительно превосходя предыдущие методы. Например, UniVLA достигает средней успешности 95,5% на тесте LIBERO, превосходя показатель pi0-FAST в 85,5%. Мы также демонстрируем её широкую применимость в реальных задачах манипуляции с использованием ALOHA и автономного вождения.

ScaleCap: Масштабируемое создание описаний изображений во время вывода с помощью двухмодального устранения смещений
ScaleCap: Inference-Time Scalable Image Captioning via Dual-Modality Debiasing

Jun 24

ByLong Xing, Qidong Huang, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Jinsong Li, Shuangrui Ding, Weiming Zhang, Nenghai Yu, Jiaqi Wang, Feng Wu, Dahua Lin

В данной статье представлена стратегия ScaleCap для масштабируемого создания подписей к изображениям на этапе вывода, которая генерирует всесторонние и детализированные описания изображений. Основные проблемы высококачественного создания подписей связаны с внутренними предубеждениями LVLM (моделей, работающих с мультимодальными данными): мультимодальное предубеждение, приводящее к несбалансированной гранулярности описаний, когда одни элементы описываются подробно, а другие лишь упоминаются; лингвистическое предубеждение, вызывающее галлюцинации в виде описаний несуществующих объектов. Для решения этих проблем мы предлагаем масштабируемую стратегию создания подписей с устранением предубеждений, которая постепенно обогащает и калибрует описание с увеличением бюджета вывода. В частности, мы предлагаем два новых компонента: эвристическое ответы на вопросы и контрастное оценивание предложений. Первый компонент генерирует вопросы, специфичные для содержания изображения, и отвечает на них, чтобы постепенно добавлять релевантную информацию в описание. Второй компонент использует оффлайн-контрастное декодирование на уровне предложений для эффективного выявления и устранения галлюцинаций, вызванных лингвистическими предубеждениями. С увеличением затрат на вывод ScaleCap задает больше эвристических вопросов, чтобы постепенно захватывать дополнительные визуальные детали, создавая более точные, сбалансированные и информативные подписи. Эксперименты по выравниванию модальностей демонстрируют эффективность ScaleCap. Аннотирование 450 тысяч изображений с использованием ScaleCap и их применение для предварительного обучения LVLM приводит к устойчивому улучшению производительности на 11 широко используемых бенчмарках. Кроме того, ScaleCap демонстрирует превосходное богатство и точность генерируемых подписей в двух дополнительных задачах: замене изображений на подписи в задаче VQA и реконструкции изображений из подписей для оценки семантического охвата. Код доступен по адресу https://github.com/Cooperx521/ScaleCap.

SWE-SQL: Освещение путей использования языковых моделей для решения пользовательских проблем с SQL в реальных приложениях
SWE-SQL: Illuminating LLM Pathways to Solve User SQL Issues in Real-World Applications

Jun 23

ByJinyang Li, Xiaolong Li, Ge Qu, Per Jacobsson, Bowen Qin, Binyuan Hui, Shuzheng Si, Nan Huo, Xiaohan Xu, Yue Zhang, Ziwei Tang, Yuanshuai Li, Florensia Widjaja, Xintong Zhu, Feige Zhou, Yongfeng Huang, Yannis Papakonstantinou, Fatma Ozcan, Chenhao Ma, Reynold Cheng

Разрешение сложных проблем SQL остается значительным узким местом в реальных приложениях баз данных. Современные крупные языковые модели (LLM), хотя и эффективны в переводе текста в SQL, не были тщательно оценены на более сложной задаче отладки SQL-проблем. Чтобы устранить этот пробел, мы представляем BIRD-CRITIC, новый бенчмарк для отладки SQL-проблем, включающий 530 задач PostgreSQL (BIRD-CRITIC-PG) и 570 мультидиалектных задач (BIRD-CRITIC-Multi), извлеченных из реальных пользовательских проблем и воспроизведенных в новых средах для обеспечения строгой оценки. Базовые оценки подчеркивают сложность задачи: ведущая модель рассуждений O3-Mini достигает успеха только в 38,87% случаев на BIRD-CRITIC-PG и 33,33% на BIRD-CRITIC-Multi. В то же время развитие открытых моделей для задач баз данных имеет решающее значение для поддержки локальной разработки и защиты конфиденциальности данных. Поэтому мы представляем Six-Gym (Sql-fIX-Gym), среду обучения для повышения возможностей открытых моделей в отладке SQL-проблем. Эта среда использует стратегию SQL-Rewind, которая автоматически генерирует исполняемые наборы данных проблем-решений путем обратного проектирования проблем из проверенных SQL. Однако популярные методы тонкой настройки на основе траекторий не исследуют существенные сигналы надзора. Мы также предлагаем f-Plan Boosting, который извлекает высокоуровневые планы отладки из SQL-решений, позволяя учительским LLM генерировать на 73,7% больше успешных траекторий для обучения. Мы интегрируем эти компоненты в открытый агент Bird-Fixer. На основе Qwen-2.5-Coder-14B, Bird-Fixer достигает успеха в 38,11% случаев на BIRD-CRITIC-PG и 29,65% на BIRD-CRITIC-Multi, превосходя ведущие проприетарные модели, такие как Claude-3.7-Sonnet и GPT-4.1, что знаменует значительный шаг к демократизации сложных возможностей отладки SQL. Таблица лидеров и исходный код доступны по адресу: https://bird-critic.github.io/

Могут ли крупные языковые модели учитывать разногласия между аннотаторами-людьми?
Can Large Language Models Capture Human Annotator Disagreements?

Jun 24

ByJingwei Ni, Yu Fan, Vilém Zouhar, Donya Rooein, Alexander Hoyle, Mrinmaya Sachan, Markus Leippold, Dirk Hovy, Elliott Ash

Вариативность человеческой аннотации (т. е. разногласия в аннотациях) является распространённым явлением в NLP и часто отражает важную информацию, такую как субъективность задачи и неоднозначность образцов. Хотя крупные языковые модели (LLM) всё чаще используются для автоматической аннотации с целью сокращения человеческих усилий, их оценка обычно сосредоточена на предсказании меток, основанных на большинстве голосов («истинных» меток). Однако до сих пор неясно, способны ли эти модели также учитывать информативную вариативность человеческой аннотации. Наша работа восполняет этот пробел, проводя всестороннюю оценку способности LLM предсказывать разногласия в аннотациях без доступа к повторным человеческим меткам. Наши результаты показывают, что LLM испытывают трудности с моделированием разногласий, что может быть упущено при оценке, основанной на метках большинства. Примечательно, что, хотя рассуждения в стиле RLVR (обучение с подкреплением с проверяемыми вознаграждениями) в целом повышают производительность LLM, они ухудшают её в предсказании разногласий. Наши выводы подчеркивают критическую необходимость оценки и улучшения LLM-аннотаторов в моделировании разногласий. Код и данные доступны по адресу: https://github.com/EdisonNi-hku/Disagreement_Prediction.

MMSearch-R1: Стимулирование LMM к поиску
MMSearch-R1: Incentivizing LMMs to Search

Jun 25

ByJinming Wu, Zihao Deng, Wei Li, Yiding Liu, Bo You, Bo Li, Zejun Ma, Ziwei Liu

Надежное развертывание крупных мультимодальных моделей (LMM) в реальных сценариях требует доступа к внешним источникам знаний, учитывая сложность и динамичный характер информации в реальном мире. Существующие подходы, такие как генерация с использованием извлечения данных (RAG) и поисковые агенты с инженерными подсказками, опираются на жесткие конвейеры, что часто приводит к неэффективному или избыточному поисковому поведению. Мы представляем MMSearch-R1 — первую сквозную структуру обучения с подкреплением, которая позволяет LMM выполнять поиск по запросу в многоходовых сценариях в реальных интернет-средах. Наша структура интегрирует инструменты поиска как по изображениям, так и по тексту, позволяя модели решать, когда и как их использовать, руководствуясь вознаграждением на основе результата с учетом штрафа за поиск. Для поддержки обучения мы собираем мультимодальный набор данных для вопросно-ответных задач (VQA) через полуавтоматизированный конвейер, охватывающий разнообразные визуальные и текстовые потребности в знаниях, и создаем сбалансированный поднабор с образцами, требующими поиска и не требующими его, что оказывается важным для формирования эффективного и запросного поискового поведения. Масштабные эксперименты на задачах VQA, требующих знаний и поиска информации, показывают, что наша модель не только превосходит базовые модели на основе RAG того же размера, но и соответствует производительности более крупной модели на основе RAG, сокращая количество поисковых запросов более чем на 30%. Мы также анализируем ключевые эмпирические результаты, чтобы предложить практические рекомендации для продвижения исследований в области мультимодального поиска.

Направляющее воздействие в частотной области обеспечивает высококачественную выборку при низких масштабах CFG
Guidance in the Frequency Domain Enables High-Fidelity Sampling at Low CFG Scales

Jun 24

BySeyedmorteza Sadat, Tobias Vontobel, Farnood Salehi, Romann M. Weber

Классификаторно-независимое управление (Classifier-Free Guidance, CFG) стало важным компонентом современных условных диффузионных моделей. Несмотря на высокую эффективность на практике, механизмы, благодаря которым CFG улучшает качество, детализацию и соответствие запросам, до конца не изучены. Мы предлагаем новый взгляд на CFG, анализируя его эффекты в частотной области, и показываем, что низкие и высокие частоты по-разному влияют на качество генерации. В частности, управление низкими частотами определяет глобальную структуру и соответствие условиям, тогда как управление высокими частотами в основном улучшает визуальную точность. Однако применение единого масштаба ко всем частотам — как это делается в стандартном CFG — приводит к перенасыщению и снижению разнообразия при высоких масштабах, а также к ухудшению визуального качества при низких масштабах. На основе этих наблюдений мы предлагаем частотно-разделенное управление (Frequency-Decoupled Guidance, FDG), эффективный подход, который разлагает CFG на низко- и высокочастотные компоненты и применяет отдельные силы управления к каждому компоненту. FDG улучшает качество изображений при низких масштабах управления и избегает недостатков высоких масштабов CFG по своей конструкции. В ходе обширных экспериментов на множестве наборов данных и моделей мы демонстрируем, что FDG последовательно повышает точность выборок, сохраняя разнообразие, что приводит к улучшению показателей FID и recall по сравнению с CFG, устанавливая наш метод как готовую альтернативу стандартному классификаторно-независимому управлению.

SRFT: Одноэтапный метод с контролируемой и подкрепляющей тонкой настройкой для рассуждений
SRFT: A Single-Stage Method with Supervised and Reinforcement Fine-Tuning for Reasoning

Jun 24

ByYuqian Fu, Tinghong Chen, Jiajun Chai, Xihuai Wang, Songjun Tu, Guojun Yin, Wei Lin, Qichao Zhang, Yuanheng Zhu, Dongbin Zhao

Крупные языковые модели (LLM) достигли значительных успехов в задачах, требующих рассуждений, однако оптимальная интеграция контролируемой тонкой настройки (Supervised Fine-Tuning, SFT) и обучения с подкреплением (Reinforcement Learning, RL) остается фундаментальной проблемой. Проведя всесторонний анализ распределений токенов, динамики обучения и механизмов интеграции с точки зрения энтропии, мы выявили ключевые различия между этими подходами: SFT вызывает крупномасштабные глобальные изменения в распределениях политик LLM, тогда как RL выполняет более детализированную избирательную оптимизацию, причем энтропия служит важным индикатором эффективности обучения. На основе этих наблюдений мы предлагаем метод Supervised Reinforcement Fine-Tuning (SRFT), который объединяет оба подхода к тонкой настройке в рамках единого этапа с использованием механизмов взвешивания, учитывающих энтропию. Наш подход одновременно применяет SFT и RL для прямой оптимизации LLM с использованием демонстраций и самостоятельных исследований, вместо двухэтапных последовательных методов. Эксперименты показывают, что SRFT достигает средней точности 59,1%, превосходя методы без RL на 9,0% на пяти тестах математического рассуждения и на 10,9% на трех тестах с данными, выходящими за пределы распределения.

SimpleGVR: Простой базовый подход для каскадной сверхразрешающей обработки видео в скрытом пространстве
SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution

Jun 24

ByLiangbin Xie, Yu Li, Shian Du, Menghan Xia, Xintao Wang, Fanghua Yu, Ziyan Chen, Pengfei Wan, Jiantao Zhou, Chao Dong

Латентные диффузионные модели стали ведущей парадигмой для эффективной генерации видео. Однако, по мере того как ожидания пользователей смещаются в сторону более высокого разрешения, использование исключительно латентных вычислений становится недостаточным. Перспективный подход заключается в разделении процесса на два этапа: генерация семантического содержания и синтез деталей. Первый этап использует вычислительно интенсивную базовую модель на низких разрешениях, тогда как второй применяет легковесную каскадную модель супер-разрешения видео (VSR) для достижения высокого разрешения. В данной работе мы сосредоточились на изучении ключевых принципов проектирования каскадных моделей VSR, которые в настоящее время недостаточно исследованы. Во-первых, мы предлагаем две стратегии деградации для создания обучающих пар, которые лучше имитируют характеристики выходных данных базовой модели, обеспечивая согласованность между моделью VSR и её вышестоящим генератором. Во-вторых, мы предоставляем важные инсайты о поведении модели VSR через систематический анализ (1) стратегий выборки временных шагов, (2) эффектов шумового усиления на входных данных низкого разрешения (LR). Эти выводы напрямую информируют наши архитектурные и обучающие инновации. Наконец, мы вводим чередующиеся временные блоки и разреженное локальное внимание для достижения эффективного обучения и вывода, значительно сокращая вычислительные затраты. Многочисленные эксперименты демонстрируют превосходство нашей структуры над существующими методами, а исследования с исключением подтверждают эффективность каждого выбора дизайна. Наша работа устанавливает простую, но эффективную базовую линию для каскадной генерации супер-разрешения видео, предлагая практические инсайты для руководства будущими достижениями в эффективных каскадных системах синтеза.

Масштабирование спекулятивного декодирования с использованием опережающего рассуждения
Scaling Speculative Decoding with Lookahead Reasoning

Jun 24

ByYichao Fu, Rui Ge, Zelei Shao, Zhijie Deng, Hao Zhang

Модели рассуждений преуспевают в генерации длинных цепочек мыслей, но декодирование получающихся тысяч токенов происходит медленно. Спекулятивное декодирование на уровне токенов (SD) помогает, но его эффективность ограничена, поскольку вероятность того, что вся догадка из гамма-токенов будет верной, экспоненциально снижается с ростом гаммы. Это означает, что выделение большего объема вычислений для более длинных черновиков токенов сталкивается с алгоритмическим потолком, что делает ускорение скромным и независимым от оборудования. Мы поднимаем этот потолок с помощью метода Lookahead Reasoning, который использует второй уровень параллелизма на уровне шагов. Наше ключевое понимание заключается в том, что модели рассуждений генерируют пошагово, и каждый шаг должен быть семантически правильным, а не точным совпадением токенов. В Lookahead Reasoning легковесная модель-черновик предлагает несколько будущих шагов; целевая модель расширяет каждое предложение за один пакетный проход, а верификатор сохраняет семантически правильные шаги, позволяя целевой модели перегенерировать те, которые не прошли проверку. Спекулятивное декодирование на уровне токенов по-прежнему работает внутри каждого шага рассуждения, поэтому два уровня параллелизма умножаются. Мы показываем, что Lookahead Reasoning повышает пиковое ускорение SD как теоретически, так и эмпирически. На тестах GSM8K, AIME и других бенчмарках Lookahead Reasoning улучшает ускорение SD с 1.4x до 2.1x, сохраняя качество ответов, и его ускорение лучше масштабируется с увеличением пропускной способности GPU. Наш код доступен по адресу https://github.com/hao-ai-lab/LookaheadReasoning.

USAD: Универсальное представление речи и звука через дистилляцию
USAD: Universal Speech and Audio Representation via Distillation

Jun 23

ByHeng-Jui Chang, Saurabhchand Bhati, James Glass, Alexander H. Liu

Самообучение (SSL) произвело революцию в представлениях аудиоданных, однако модели часто остаются узкоспециализированными, сосредотачиваясь либо на задачах, связанных с речью, либо на задачах, не связанных с речью. В данной работе мы представляем универсальный подход к обучению представлений аудиоданных — Universal Speech and Audio Distillation (USAD), который объединяет различные типы аудио (речь, звуки и музыку) в единую модель. USAD использует эффективное послойное дистилляционное обучение от узкоспециализированных SSL-моделей для тренировки студенческой модели на обширном наборе аудиоданных. USAD демонстрирует конкурентоспособные результаты на различных бенчмарках и наборах данных, включая задачи обработки речи на уровне фреймов и экземпляров, классификацию аудио и звуков, достигая результатов, близких к современным, с использованием одного энкодера на бенчмарках SUPERB и HEAR.

Потеряно в смешении: оценка понимания языковыми моделями текста с код-свитчингом
Lost in the Mix: Evaluating LLM Understanding of Code-Switched Text

Jun 16

ByAmr Mohamed, Yang Zhang, Michalis Vazirgiannis, Guokan Shang

Кодовое переключение (CSW) — это практика чередования двух или более языков в рамках одного дискурса. Это явление широко распространено в многоязычных сообществах и становится всё более частым в онлайн-контенте, где пользователи естественным образом смешивают языки в повседневном общении. В результате крупные языковые модели (LLM), которые сейчас играют ключевую роль в обработке и генерации контента, часто сталкиваются с входами, содержащими кодовое переключение. Учитывая их широкое использование, крайне важно понять, как LLM обрабатывают и анализируют такие смешанные тексты. В данной статье представлена систематическая оценка понимания LLM в условиях кодового переключения путём создания CSW-вариантов устоявшихся тестов на логическое мышление и понимание. Хотя ухудшение результатов наблюдается, когда иностранные элементы нарушают структуру английского текста — даже при наличии лингвистических ограничений — встраивание английского в другие языки часто улучшает понимание. Хотя использование подсказок даёт неоднозначные результаты, тонкая настройка моделей предлагает более стабильный путь для смягчения ухудшения.

Почему открытые LLM испытывают трудности с анализом данных? Систематическое эмпирическое исследование
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study

Jun 24

ByYuqi Zhu, Yi Zhong, Jintian Zhang, Ziheng Zhang, Shuofei Qiao, Yujie Luo, Lun Du, Da Zheng, Huajun Chen, Ningyu Zhang

Крупные языковые модели (LLM) демонстрируют потенциал в автоматизации задач анализа данных, однако модели с открытым исходным кодом сталкиваются с существенными ограничениями в сценариях, требующих интенсивного рассуждения. В данной работе мы исследуем стратегии для улучшения возможностей анализа данных у открытых LLM. Создав базовый набор данных, включающий разнообразные реалистичные сценарии, мы оцениваем модели по трем направлениям: понимание данных, генерация кода и стратегическое планирование. Наш анализ выявил три ключевых результата: (1) Качество стратегического планирования является основным фактором, определяющим производительность модели; (2) Дизайн взаимодействия и сложность задачи существенно влияют на способности к рассуждению; (3) Качество данных оказывает большее влияние, чем их разнообразие, для достижения оптимальной производительности. Используя эти выводы, мы разработали методологию синтеза данных, которая демонстрирует значительное улучшение аналитических способностей открытых LLM.

Ортогональная тонкая настройка, масштабируемая для практического применения
Orthogonal Finetuning Made Scalable

Jun 24

ByZeju Qiu, Weiyang Liu, Adrian Weller, Bernhard Schölkopf

Ортогональная тонкая настройка (OFT) обеспечивает высокую параметрическую эффективность адаптации, предотвращая катастрофическое забывание, однако её высокие требования к времени выполнения и памяти ограничивают практическое применение. Мы выявили, что основное вычислительное узкое место в OFT связано с её реализацией, ориентированной на веса, которая опирается на дорогостоящие матрично-матричные умножения с кубической сложностью. Чтобы преодолеть это, мы предлагаем OFTv2 — переформулировку, ориентированную на входные данные, которая вместо этого использует матрично-векторные умножения (т.е. вычисления без матриц), снижая вычислительную стоимость до квадратичной. Мы также вводим параметризацию Кэли-Неймана — эффективную ортогональную параметризацию, которая аппроксимирует инверсию матрицы в преобразовании Кэли с помощью усечённого ряда Неймана. Эти модификации позволяют OFTv2 достичь до 10-кратного ускорения обучения и 3-кратного снижения использования памяти GPU без ущерба для производительности. Кроме того, мы расширяем OFTv2 для поддержки тонкой настройки квантованных базовых моделей и показываем, что она превосходит популярный метод QLoRA по стабильности обучения, эффективности и использованию памяти.

KnowRL: Исследование осведомленного обучения с подкреплением для обеспечения фактической достоверности
KnowRL: Exploring Knowledgeable Reinforcement Learning for Factuality

Jun 24

ByBaochang Ren, Shuofei Qiao, Wenhao Yu, Huajun Chen, Ningyu Zhang

Крупные языковые модели (LLM), особенно модели с медленным мышлением, часто демонстрируют сильные галлюцинации, выдавая некорректный контент из-за неспособности точно распознавать границы знаний в процессе рассуждений. Хотя обучение с подкреплением (RL) может улучшить способности к сложным рассуждениям, его ориентированный на результат механизм вознаграждения часто не обеспечивает фактического контроля над процессом мышления, что еще больше усугубляет проблему галлюцинаций. Для решения проблемы высокого уровня галлюцинаций в моделях с медленным мышлением мы предлагаем Knowledge-enhanced RL, или KnowRL. KnowRL направляет модели на выполнение медленного мышления, основанного на фактах, путем интеграции вознаграждения за фактическую достоверность, основанного на проверке знаний, в процесс обучения RL, помогая им распознавать свои границы знаний. Этот целенаправленный ввод фактической информации в процессе обучения RL позволяет модели изучать и усваивать стратегии рассуждений, основанные на фактах. Непосредственно вознаграждая соблюдение фактов на этапах рассуждений, KnowRL способствует более надежному процессу мышления. Результаты экспериментов на трех наборах данных для оценки галлюцинаций и двух наборах данных для оценки рассуждений показывают, что KnowRL эффективно снижает галлюцинации в моделях с медленным мышлением, сохраняя при этом их изначальные сильные способности к рассуждениям. Наш код доступен по адресу https://github.com/zjunlp/KnowRL.

Улучшение прогрессивной генерации с использованием декомпозируемого согласования потоков
Improving Progressive Generation with Decomposable Flow Matching

Jun 24

ByMoayed Haji-Ali, Willi Menapace, Ivan Skorokhodov, Arpit Sahni, Sergey Tulyakov, Vicente Ordonez, Aliaksandr Siarohin

Генерация высокоразмерных визуальных модальностей является вычислительно сложной задачей. Распространенным решением является прогрессивная генерация, при которой выходные данные синтезируются в грубо-тонком спектральном авторегрессивном режиме. Хотя диффузионные модели выигрывают от грубо-тонкого характера удаления шума, явные многоступенчатые архитектуры редко применяются. Эти архитектуры увеличивают сложность общего подхода, вводя необходимость в пользовательской формулировке диффузии, переходах между этапами, зависящих от декомпозиции, специальных сэмплерах или каскаде моделей. Наш вклад, Декомпозируемое Сопоставление Потоков (Decomposable Flow Matching, DFM), представляет собой простую и эффективную структуру для прогрессивной генерации визуальных данных. DFM применяет Сопоставление Потоков независимо на каждом уровне пользовательского многомасштабного представления (например, лапласианской пирамиды). Как показывают наши эксперименты, наш подход улучшает визуальное качество как для изображений, так и для видео, демонстрируя превосходные результаты по сравнению с предыдущими многоступенчатыми структурами. На Imagenet-1k 512px DFM достигает улучшения показателей FDD на 35,2% по сравнению с базовой архитектурой и на 26,4% по сравнению с наилучшим базовым методом при одинаковых вычислительных затратах на обучение. При применении для дообучения крупных моделей, таких как FLUX, DFM демонстрирует более высокую скорость сходимости к распределению обучения. Важно, что все эти преимущества достигаются с использованием одной модели, архитектурной простоты и минимальных изменений существующих обучающих конвейеров.

Интеллектуальное техническое обслуживание и оптимизация прогнозных моделей для повышения эффективности выработки ветровой энергии
Intelligent Operation and Maintenance and Prediction Model Optimization for Improving Wind Power Generation Efficiency

Jun 19

ByXun Liu, Xiaobin Wu, Jiaqi He, Rajan Das Gupta

Данное исследование изучает эффективность моделей прогнозирующего технического обслуживания и оптимизацию интеллектуальных систем эксплуатации и технического обслуживания (O&M) для повышения эффективности выработки ветровой энергии. С помощью качественного исследования были проведены структурированные интервью с пятью инженерами ветряных электростанций и менеджерами по техническому обслуживанию, каждый из которых обладает обширным опытом в эксплуатации турбин. Используя тематический анализ, исследование выявило, что, хотя модели прогнозирующего технического обслуживания эффективно сокращают простои, выявляя крупные неисправности, они часто сталкиваются с трудностями в обнаружении мелких, постепенных отказов. Ключевые вызовы включают ложные срабатывания, неисправности датчиков и сложности интеграции новых моделей с устаревшими системами турбин. Передовые технологии, такие как цифровые двойники, SCADA-системы и мониторинг состояния, значительно улучшили практики технического обслуживания турбин. Однако эти технологии все еще требуют доработок, особенно в области совершенствования ИИ и интеграции данных в реальном времени. Результаты подчеркивают необходимость непрерывного развития для полной оптимизации производительности ветряных турбин и поддержки более широкого внедрения возобновляемой энергии.

Mem4Nav: Улучшение навигации с использованием зрения и языка в городских условиях с помощью иерархической системы пространственного познания на основе долгосрочной и краткосрочной памяти
Mem4Nav: Boosting Vision-and-Language Navigation in Urban Environments with a Hierarchical Spatial-Cognition Long-Short Memory System

Jun 24

ByLixuan He, Haoyu Dong, Zhenxing Chen, Yangcheng Yu, Jie Feng, Yong Li

Навигация на основе зрения и языка (Vision-and-Language Navigation, VLN) в крупномасштабных городских средах требует от воплощенных агентов способности связывать лингвистические инструкции с комплексными сценами и воспроизводить релевантный опыт на протяжении длительных временных интервалов. Предыдущие модульные подходы обеспечивают интерпретируемость, но страдают от отсутствия единой памяти, в то время как сквозные агенты на основе (мультимодальных) языковых моделей (MLLM) преуспевают в объединении зрения и языка, но ограничены фиксированными контекстными окнами и неявным пространственным рассуждением. Мы представляем Mem4Nav — иерархическую систему пространственного познания с долгосрочной и краткосрочной памятью, которая может быть интегрирована в любой базовый VLN-алгоритм. Mem4Nav объединяет разреженную октодеревь для детального воксельного индексирования с семантическим топологическим графом для связи ключевых ориентиров высокого уровня, сохраняя оба компонента в обучаемых токенах памяти, встроенных через обратимый трансформер. Долгосрочная память (LTM) сжимает и сохраняет исторические наблюдения как на уровне октодерева, так и на узлах графа, в то время как краткосрочная память (STM) кэширует недавние мультимодальные данные в относительных координатах для избегания препятствий и локального планирования в реальном времени. На каждом шаге извлечение из STM значительно сокращает динамический контекст, а при необходимости более глубокой истории токены LTM декодируются без потерь для восстановления прошлых вложений. Оценка на наборах данных Touchdown и Map2Seq с использованием трех базовых архитектур (модульной, современной VLN с LLM на основе подсказок и современной VLN с MLLM с шаговым вниманием) показала, что Mem4Nav обеспечивает улучшение на 7–13 процентных пунктов (pp) в показателе завершения задачи, достаточное снижение SPD и увеличение nDTW более чем на 10 pp. Абляционные исследования подтверждают незаменимость как иерархической карты, так и двойных модулей памяти. Наш код доступен по адресу https://github.com/tsinghua-fib-lab/Mem4Nav.