HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

26 papers found

Может ли 1 миллиардный языковой модельный (1B LLM) превзойти 405 миллиардный языковой модельный (405B LLM)? Переосмысление масштабирования вычислений в оптимальное время тестирования.
Can 1B LLM Surpass 405B LLM? Rethinking Compute-Optimal Test-Time Scaling

Feb 10

ByRunze Liu, Junqi Gao, Jian Zhao, Kaiyan Zhang, Xiu Li, Biqing Qi, Wanli Ouyang, Bowen Zhou

153

Масштабирование времени тестирования (Test-Time Scaling, TTS) является важным методом для улучшения производительности Больших Языковых Моделей (Large Language Models, LLMs) путем использования дополнительных вычислений во время фазы вывода. Однако текущие исследования не систематически анализируют, как модели политики, модели вознаграждения процесса (Process Reward Models, PRMs) и сложность задачи влияют на TTS. Этот недостаток анализа ограничивает понимание и практическое применение методов TTS. В данной статье мы сосредотачиваемся на двух основных вопросах: (1) Какой оптимальный подход к масштабированию вычислений времени тестирования для различных моделей политики, PRMs и уровней сложности задачи? (2) Насколько дополнительные вычисления могут улучшить производительность LLMs на сложных задачах, и могут ли более маленькие языковые модели превзойти более крупные через этот подход? Проведя комплексные эксперименты на задачах MATH-500 и сложных задачах AIME24, мы пришли к следующим наблюдениям: (1) Оптимальная стратегия вычислений TTS сильно зависит от выбора модели политики, PRM и сложности задачи. (2) С нашей оптимальной стратегией вычислений TTS крайне маленькие модели политики могут превзойти более крупные модели. Например, 1B LLM может превзойти 405B LLM на задаче MATH-500. Более того, как на задаче MATH-500, так и на AIME24, 0.5B LLM превосходит GPT-4o, 3B LLM превосходит 405B LLM, а 7B LLM обгоняет o1 и DeepSeek-R1, обладая более высокой эффективностью вывода. Эти результаты показывают важность адаптации стратегий TTS к конкретным характеристикам каждой задачи и модели, а также указывают на то, что TTS является многообещающим подходом для улучшения рассуждений LLMs.

SynthDetoxM: Современные LLM-модели - это набор данных для детоксикации с параллельной аннотацией на несколько примеров.
SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators

Feb 10

ByDaniil Moskovskiy, Nikita Sushko, Sergey Pletenev, Elena Tutubalina, Alexander Panchenko

Существующие подходы к мультиязычной очистке текста осложнены недостатком параллельных мультиязычных наборов данных. В данной работе мы представляем конвейер для создания мультиязычных параллельных данных по очистке текста. Мы также представляем SynthDetoxM, вручную собранный и синтетически созданный мультиязычный набор данных по очистке текста, включающий 16 000 пар предложений высокого качества по очистке текста на немецком, французском, испанском и русском языках. Данные были получены из различных наборов данных оценки токсичности, а затем переписаны с помощью девяти современных открытых LLM в режиме few-shot. Наши эксперименты показывают, что модели, обученные на созданных синтетических наборах данных, имеют превосходное качество по сравнению с моделями, обученными на человеко-размеченном наборе данных MultiParaDetox, даже при ограниченных данных. Модели, обученные на SynthDetoxM, превосходят все оцененные LLM в режиме few-shot. Мы публикуем наш набор данных и код для содействия дальнейшим исследованиям в области мультиязычной очистки текста.

Исследование предела вознаграждения за результат при обучении математическому рассуждению
Exploring the Limit of Outcome Reward for Learning Mathematical Reasoning

Feb 10

ByChengqi Lyu, Songyang Gao, Yuzhe Gu, Wenwei Zhang, Jianfei Gao, Kuikun Liu, Ziyi Wang, Shuaibin Li, Qian Zhao, Haian Huang, Weihan Cao, Jiangning Liu, Hongwei Liu, Junnan Liu, Songyang Zhang, Dahua Lin, Kai Chen

Способности к рассуждению, особенно в решении сложных математических задач, являются ключевыми компонентами общего интеллекта. Недавние достижения частных компаний, такие как модели серии o от OpenAI, позволили сделать значительный прогресс в задачах рассуждения. Однако полные технические детали остаются нераскрытыми, и предполагаемые используемые методы - это только обучение с подкреплением (RL) и длинная цепочка мыслей. В данной статье предлагается новая структура RL, названная OREAL, для достижения предельной производительности в математических задачах рассуждения, где доступны только бинарные исходные вознаграждения. Мы теоретически доказываем, что клонирование поведения на положительных траекториях из лучших N (BoN) выборок достаточно для изучения оптимальной политики с регуляризацией KL в средах с бинарной обратной связью. Эта формулировка также предполагает, что вознаграждения отрицательных образцов должны быть переформированы, чтобы обеспечить согласованность градиента между положительными и отрицательными образцами. Для преодоления долгосрочных трудностей, вызванных разреженными вознаграждениями в RL, которые усугубляются частичной правильностью длинной цепочки мыслей в задачах рассуждения, мы также применяем модель вознаграждения на уровне токенов для выборки важных токенов в траекториях рассуждения для обучения. С помощью OREAL впервые модель 7B может достичь точности 94,0 pass@1 на MATH-500 через RL, что соответствует моделям 32B. OREAL-32B также превосходит предыдущие модели 32B, обученные дистилляцией, с точностью 95,0 pass@1 на MATH-500. Наше исследование также указывает на важность начальных моделей политики и обучающих запросов для RL. Код, модели и данные будут опубликованы для будущих исследований на https://github.com/InternLM/OREAL.

Проклятие глубины в больших языковых моделях
The Curse of Depth in Large Language Models

Feb 9

ByWenfang Sun, Xinyuan Song, Pengxiang Li, Lu Yin, Yefeng Zheng, Shiwei Liu

В данной статье мы представляем Курс Глубины, концепцию, которая выделяет, объясняет и решает недавнее наблюдение в современных больших языковых моделях (LLM), где почти половина слоев менее эффективна, чем ожидалось. Сначала мы подтверждаем широкое распространение этого явления среди наиболее популярных семейств LLM, таких как Ллама, Мистраль, ДипСик, и Квен. Наш анализ, как теоретический, так и эмпирический, выявляет, что основной причиной неэффективности глубоких слоев в LLM является широкое использование Предварительной Нормализации Слоя (Pre-LN). В то время как Pre-LN стабилизирует обучение трансформерных LLM, дисперсия его выхода экспоненциально растет с глубиной модели, что нежелательно приводит к тому, что производная глубоких блоков трансформера становится единичной матрицей и, следовательно, практически не способствует обучению. Для преодоления этого недостатка обучения мы предлагаем Масштабирование Нормализации Слоя, которое масштабирует дисперсию выхода нормализации слоя обратно пропорционально квадратному корню его глубины. Это простое изменение смягчает взрыв дисперсии выхода более глубоких слоев трансформера, улучшая их вклад. Наши экспериментальные результаты, охватывающие размеры моделей от 130 миллионов до 1 миллиарда, демонстрируют, что Масштабирование Нормализации Слоя значительно улучшает производительность предварительного обучения LLM по сравнению с Pre-LN. Более того, это улучшение плавно переносится на надзорное дообучение. Все эти приросты можно объяснить тем, что Масштабирование Нормализации Слоя позволяет более глубоким слоям эффективнее вносить свой вклад во время обучения.

Обучение языковых моделей для социального дедуктивного вывода с помощью мультиагентного обучения с подкреплением.
Training Language Models for Social Deduction with Multi-Agent Reinforcement Learning

Feb 9

ByBidipta Sarkar, Warren Xia, C. Karen Liu, Dorsa Sadigh

Общение на естественном языке является мощным инструментом в многоагентных средах, поскольку позволяет независимым агентам обмениваться информацией в частично наблюдаемых средах и обеспечивает координацию с людьми без предварительного обучения. Однако большинство предыдущих работ ограничены, поскольку либо полагаются на обучение с большим количеством демонстраций от людей, либо не обладают способностью генерировать естественные и полезные стратегии общения. В данной работе мы обучаем языковые модели вести продуктивные дискуссии о своей среде на естественном языке без каких-либо демонстраций от людей. Мы разбиваем проблему коммуникации на прослушивание и высказывание. Наша основная идея заключается в использовании цели агента для предсказания полезной информации о мире в качестве плотного сигнала вознаграждения, направляющего коммуникацию. Конкретно, мы улучшаем навыки прослушивания модели, обучая их предсказывать информацию о среде на основе дискуссий, и одновременно улучшаем навыки высказывания модели с помощью многозадачного обучения с подкреплением, вознаграждая сообщения на основе их влияния на других агентов. Для изучения роли и необходимости коммуникации в сложных социальных средах мы изучаем воплощенную игру в социальное обманывание на основе Among Us, где ключевым вопросом является определение личности противостоящего мошенника. Мы анализируем возникающие поведенческие особенности благодаря нашей технике, такие как обвинения в подозрении и предоставление доказательств, и обнаруживаем, что это позволяет проводить эффективные дискуссии, удваивая показатели побед по сравнению со стандартным обучением с подкреплением. Мы выкладываем наш код и модели по адресу https://socialdeductionllm.github.io/

Квантование Матрёшка
Matryoshka Quantization

Feb 10

ByPranav Nair, Puranjay Datta, Jeff Dean, Prateek Jain, Aditya Kusupati

Квантование весов модели является ключевым для снижения затрат на коммуникацию и вывод больших моделей. Однако квантование моделей, особенно до низких точностей, таких как int4 или int2, требует компромисса в качестве модели; в частности, известно, что int2 серьезно снижает качество модели. В результате практики часто вынуждены поддерживать несколько моделей с разными уровнями квантования или обслуживать одну модель, которая лучше всего удовлетворяет баланс между качеством и задержкой. С другой стороны, целочисленные типы данных, такие как int8, имеют вложенную (Матрешка) структуру, где меньшие целочисленные типы, такие как int4 или int2, вложены в старшие биты. В данной статье предлагается техника квантования Матрешка (MatQuant), новаторская многомасштабная техника квантования, которая решает проблему необходимости нескольких квантованных моделей. Она позволяет обучать и поддерживать только одну модель, которая затем может обслуживаться на разных уровнях точности. Более того, благодаря регуляризации совместного обучения и совместной дистилляции, предоставленной MatQuant, модели точности int2, извлеченные MatQuant, могут быть на 10% более точными, чем стандартное квантование int2 (с использованием техник, таких как QAT или OmniQuant). Это представляет собой значительный прогресс в квантовании моделей, что подтверждается тем, что с тем же подходом модель Gemma-2 9B FFN, квантованная int2, более точна, чем модель Gemma-2 2B FFN, квантованная int8.

LM2: Модели с большим объемом памяти
LM2: Large Memory Models

Feb 9

ByJikun Kang, Wenqi Wu, Filippos Christianos, Alex J. Chan, Fraser Greenlee, George Thomas, Marvin Purtorab, Andy Toulis

Эта статья представляет модель Large Memory (LM2), архитектуру Transformer только для декодера, усовершенствованную дополнительным модулем памяти, которая призвана решить ограничения стандартных Transformer в многошаговом рассуждении, реляционной аргументации и синтезе информации, распределенной по длинным контекстам. Предложенная модель LM2 включает модуль памяти, действующий как хранилище контекстуального представления, взаимодействующее с входными токенами через кросс-внимание и обновляемое через механизмы гейтинга. Для сохранения общих возможностей Transformer, LM2 сохраняет первоначальный поток информации, интегрируя при этом дополнительный путь памяти. Экспериментальные результаты на бенчмарке BABILong показывают, что модель LM2 превосходит как модель с памятью RMT на 37.1%, так и базовую модель Llama-3.2 на 86.3% в среднем по задачам. LM2 обладает исключительными возможностями в многошаговом выводе, числовом рассуждении и ответах на вопросы с большим контекстом. На наборе данных MMLU она достигает улучшения на 5.0% по сравнению с предварительно обученной базовой моделью, демонстрируя, что ее модуль памяти не ухудшает производительность на общих задачах. Кроме того, в нашем анализе мы исследуем интерпретируемость памяти, эффективность модулей памяти и поведение на этапе тестирования. Наши результаты подчеркивают важность явной памяти в улучшении архитектур Transformer.

CODESIM: МногоАгентная Генерация Кода и Решение Проблем через Планирование и Отладку, Основанные на Симуляции.
CODESIM: Multi-Agent Code Generation and Problem Solving through Simulation-Driven Planning and Debugging

Feb 8

ByMd. Ashraful Islam, Mohammed Eunus Ali, Md Rizwan Parvez

Большие языковые модели (LLM) сделали значительные успехи в генерации кода и решении задач. В текущих подходах используются внешние инструментальные итеративные отладчики, которые используют обратную связь времени выполнения компилятора или других инструментов для улучшения грубых программ, сгенерированных различными методами. Однако эффективность этих подходов в значительной степени зависит от качества начальной генерации кода, что остается открытой проблемой. В данной статье мы представляем CodeSim, новую многоагентную платформу генерации кода, которая всесторонне решает этапы синтеза программ - планирование, кодирование и отладку - через подход, аналогичный восприятию человека. Поскольку человек проверяет свое понимание любых алгоритмов через визуальное моделирование, CodeSim уникально представляет метод проверки плана и внутренней отладки через пошаговую симуляцию ввода/вывода. Обширные эксперименты на семи сложных конкурентных бенчмарках по решению проблем и синтезу программ демонстрируют выдающиеся возможности генерации кода CodeSim. Наша платформа достигает новых результатов на уровне передовых технологий (прохождение@1) - (HumanEval 95,1%, MBPP 90,7%, APPS 22% и CodeContests 29,1%). Более того, наш метод показывает потенциал для еще большего улучшения при совмещении с внешними отладчиками. Для облегчения дальнейших исследований и разработок в этой области мы открыли исходный код нашей платформы по этой ссылке (https://kagnlp.github.io/codesim.github.io/).

ReasonFlux: Иерархическое логико-вероятностное моделирование через масштабирование шаблонов мышления
ReasonFlux: Hierarchical LLM Reasoning via Scaling Thought Templates

Feb 10

ByLing Yang, Zhaochen Yu, Bin Cui, Mengdi Wang

Мы представляем, что иерархическое логико-вероятностное моделирование с использованием масштабирования шаблонов мыслей может эффективно оптимизировать пространство поиска рассуждений и превзойти математические способности мощных LLM, таких как OpenAI o1-preview и DeepSeek V3. Мы обучаем нашу модель ReasonFlux-32B с использованием всего 8 GPU и вводим три инновации: (i) структурированную и универсальную библиотеку шаблонов мыслей, содержащую около 500 высокоуровневых шаблонов мыслей, способных обобщать аналогичные или схожие проблемы рассуждений; (ii) выполнение иерархического обучения с подкреплением на последовательности шаблонов мыслей вместо длинных CoTs, оптимизация базового LLM для планирования оптимальной траектории шаблонов для постепенного решения сложных проблем; (iii) новая система масштабирования вывода, позволяющая иерархическое логико-вероятностное моделирование путем адаптивного масштабирования шаблонов мыслей во время вывода. С последовательностью шаблонов мыслей на траектории шаблонов наш ReasonFlux-32B значительно продвигает математические способности рассуждений на уровень передовых технологий. Заметно, на тесте MATH достигается точность 91,2%, превосходя o1-preview на 6,7%. На тесте USA Math Olympiad (AIME) ReasonFlux-32B решает в среднем 56,7% задач, превосходя o1-preview и DeepSeek-V3 на 27% и 45% соответственно. Код: https://github.com/Gen-Verse/ReasonFlux

Шоу-о Турбо: К Ускоренному Единому Мультимодальному Пониманию и Генерации
Show-o Turbo: Towards Accelerated Unified Multimodal Understanding and Generation

Feb 8

ByChenkai Xu, Xu Wang, Zhenyi Liao, Yishun Li, Tianqi Hou, Zhijie Deng

В последнее время наблюдается увеличенный интерес к созданию объединенных моделей мультимодального понимания и генерации, среди которых выделяется модель Show-o, обладающая большим потенциалом как для генерации текста по изображению, так и изображения по тексту. Процесс вывода модели Show-o включает постепенное удаление шума из токенов изображения и авторегрессивную декодирование текстовых токенов, что, к сожалению, приводит к проблемам с эффективностью с обеих сторон. В данной статье представлена модель Show-o Turbo, созданная для преодоления этого разрыва. Сначала мы выявляем объединенную перспективу удаления шума для генерации изображений и текста в модели Show-o на основе параллельного декодирования текстовых токенов. Затем мы предлагаем расширить метод дистилляции согласованности (CD), квалифицированный подход для сокращения процесса удаления шума в моделях диффузии, на мультимодальные траектории удаления шума в модели Show-o. Мы вводим стратегию сегментации траекторий и процедуру обучения по курсу для улучшения сходимости обучения. Эмпирически, в генерации текста по изображению, модель Show-o Turbo показывает оценку GenEval 0.625 за 4 шага выборки без использования руководства без классификатора (CFG), превосходя оригинальную модель Show-o с 8 шагами и CFG; в генерации изображения по тексту, модель Show-o Turbo демонстрирует ускорение в 1.5 раза без значительной потери производительности. Код доступен по ссылке https://github.com/zhijie-group/Show-o-Turbo.

Без потерь ускорение крупных языковых моделей с иерархическим черновым вариантом на основе временной локальности в спекулятивном декодировании.
Lossless Acceleration of Large Language Models with Hierarchical Drafting based on Temporal Locality in Speculative Decoding

Feb 8

BySukmin Cho, Sangjin Choi, Taeho Hwang, Jeongyeon Seo, Soyeong Jeong, Huije Lee, Hoyun Song, Jong C. Park, Youngjin Kwon

Ускорение вывода в больших языковых моделях (LLM) критично для взаимодействия в реальном времени, поскольку они широко внедрены в услуги реального мира. Спекулятивное декодирование, полностью алгоритмическое решение, привлекло внимание как способ улучшения скорости вывода путем составления и проверки токенов, что позволяет генерировать несколько токенов за один проход. Однако текущие стратегии составления обычно требуют значительной настройки или имеют неустойчивую производительность в различных задачах. Для решения этих проблем мы предлагаем Иерархическое Составление (HD), новый метод составления без потерь, который организует различные источники токенов в несколько баз данных в иерархической структуре на основе временной локальности. На этапе составления HD последовательно обращается к нескольким базам данных для получения черновых токенов от наивысшей к наименьшей локальности, обеспечивая последовательное ускорение в различных задачах и минимизируя задержку составления. Наши эксперименты на Spec-Bench с использованием LLM с параметрами 7B и 13B показывают, что HD превосходит существующие методы составления баз данных, достигая надежного ускорения вывода при различных размерах моделей, задачах и температурах.

MetaChain: Полностью автоматизированный и нулевой кодовый фреймворк для агентов LLM.
MetaChain: A Fully-Automated and Zero-Code Framework for LLM Agents

Feb 9

ByJiabin Tang, Tianyu Fan, Chao Huang

Агенты с Большой Языковой Моделью (LLM) продемонстрировали замечательные возможности в автоматизации задач и интеллектуальном принятии решений, способствуя широкому распространению фреймворков разработки агентов, таких как LangChain и AutoGen. Однако эти фреймворки в основном обслуживают разработчиков с обширными техническими навыками - значительное ограничение, учитывая, что только 0,03% населения мира обладает необходимыми навыками программирования. Этот явный разрыв в доступности поднимает фундаментальный вопрос: можем ли мы дать возможность каждому, независимо от технического фона, создавать своих собственных агентов LLM, используя только естественный язык? Для решения этой проблемы мы представляем MetaChain - полностью автоматизированный и высоко саморазвивающийся фреймворк, который позволяет пользователям создавать и развертывать агентов LLM только с помощью естественного языка. Действуя как автономная Операционная Система Агента, MetaChain включает четыре ключевых компонента: i) Утилиты Системы Агента, ii) Движок Действий на основе LLM, iii) Самоуправляемая Файловая Система и iv) Модуль Пользовательской Настройки Агента Самоигры. Эта легкая, но мощная система обеспечивает эффективное и динамичное создание и модификацию инструментов, агентов и рабочих процессов без необходимости программирования или ручного вмешательства. Помимо возможностей разработки агентов без кода, MetaChain также служит универсальной мультиагентной системой для Генеральных ИИ-помощников. Комплексные оценки на бенчмарке GAIA демонстрируют эффективность MetaChain в общих мультиагентных задачах, превосходя существующие передовые методы. Более того, возможности MetaChain, связанные с Поисково-Улучшенной Генерацией (RAG), показали последовательно более высокую производительность по сравнению с многими альтернативными решениями на основе LLM.

Lumina-Video: Эффективная и гибкая генерация видео с многоуровневым Next-DiT
Lumina-Video: Efficient and Flexible Video Generation with Multi-scale Next-DiT

Feb 10

ByDongyang Liu, Shicheng Li, Yutong Liu, Zhen Li, Kai Wang, Xinyue Li, Qi Qin, Yufei Liu, Yi Xin, Zhongyu Li, Bin Fu, Chenyang Si, Yuewen Cao, Conghui He, Ziwei Liu, Yu Qiao, Qibin Hou, Hongsheng Li, Peng Gao

Недавние достижения утвердили Диффузионные Трансформеры (DiTs) как доминирующую концепцию в генеративном моделировании. На основе этого успеха Lumina-Next достигает исключительной производительности в создании фотореалистичных изображений с помощью Next-DiT. Однако его потенциал для генерации видео остается в значительной степени неиспользованным из-за значительных проблем в моделировании пространственно-временной сложности, присущей видеоданным. Для решения этой проблемы мы представляем Lumina-Video, концепцию, которая использует преимущества Next-DiT, внедряя специализированные решения для синтеза видео. Lumina-Video включает в себя архитектуру Мультимасштабного Next-DiT, которая совместно обучает несколько патчификаций для улучшения как эффективности, так и гибкости. Дополнительно, интегрируя оценку движения в качестве явного условия, Lumina-Video также обеспечивает прямое управление динамической степенью созданных видеороликов. В сочетании с пошаговой схемой обучения с постепенным увеличением разрешения и кадров в секунду, а также с многоканальной схемой обучения с использованием смешанных естественных и синтетических данных, Lumina-Video достигает выдающегося качества изображения и плавности движения при высокой эффективности как во время обучения, так и вывода. Кроме того, мы предлагаем Lumina-V2A, модель видео-к-аудио на основе Next-DiT, для создания синхронизированных звуков для созданных видеороликов. Коды доступны по ссылке https://www.github.com/Alpha-VLLM/Lumina-Video.

EVEv2: Улучшенные базовые модели для моделей видео-языка без кодировщика
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models

Feb 10

ByHaiwen Diao, Xiaotong Li, Yufeng Cui, Yueze Wang, Haoge Deng, Ting Pan, Wenxuan Wang, Huchuan Lu, Xinlong Wang

Существующие модели видео-языкового восприятия без кодировщика (VLM) быстро сокращают разрыв в производительности по сравнению с моделями на основе кодировщика, подчеркивая перспективный потенциал объединенных мультимодальных систем с простой структурой и эффективным развертыванием. Мы систематически проясняем разрыв в производительности между VLM, использующими предварительно обученные видео-кодировщики, дискретные токенизаторы и минималистические визуальные слои с нуля, глубоко исследуя малоизученные характеристики моделей VLM без кодировщика. Мы разрабатываем эффективные стратегии для моделей VLM без кодировщика, которые не уступают основным моделям на основе кодировщика. После тщательного исследования мы запускаем EVEv2.0, новое и улучшенное семейство моделей VLM без кодировщика. Мы показываем, что: (i) Правильное декомпозирование и иерархическое ассоциирование видения и языка в рамках единой модели снижает взаимное влияние между модальностями. (ii) Хорошо спроектированная стратегия обучения обеспечивает эффективную оптимизацию для моделей VLM без кодировщика. Через обширное оценивание наш EVEv2.0 представляет собой всестороннее исследование разработки архитектуры только с декодером через модальности, демонстрируя превосходную эффективность данных и сильные возможности визионно-рассуждательного обучения. Код общедоступен по адресу: https://github.com/baaivision/EVE.

Видеораспространение с учетом истории
History-Guided Video Diffusion

Feb 10

ByKiwhan Song, Boyuan Chen, Max Simchowitz, Yilun Du, Russ Tedrake, Vincent Sitzmann

Метод руководства без классификатора (CFG) является ключевой техникой для улучшения условной генерации в моделях диффузии, обеспечивая более точное управление и повышая качество выборки. Естественно расширить эту технику на видео-диффузию, которая генерирует видео в зависимости от переменного количества контекстных кадров, совокупно называемых историей. Однако мы выявляем две ключевые проблемы при руководстве переменной длиной истории: архитектуры, поддерживающие только условное фиксированное размерное обучение, и эмпирическое наблюдение, что история в стиле CFG плохо справляется с отсевом. Для решения этой проблемы мы предлагаем Трансформер Диффузии Принуждения (DFoT), архитектуру видео-диффузии и теоретически обоснованную целевую функцию обучения, которые совместно позволяют условие на гибкое количество кадров истории. Затем мы представляем Руководство Историей, семейство методов руководства, уникально активируемых DFoT. Мы показываем, что его самая простая форма, ванильное руководство историей, уже значительно улучшает качество генерации видео и временную последовательность. Более продвинутый метод, руководство историей в разные моменты времени и частоты, дополнительно улучшает динамику движения, обеспечивает композиционную обобщенность для истории вне распределения и может стабильно создавать очень длинные видео. Веб-сайт: https://boyuan.space/history-guidance

Скрытая жизнь токенов: снижение галлюцинаций крупных моделей видео-языкового восприятия с помощью управления визуальной информацией.
The Hidden Life of Tokens: Reducing Hallucination of Large Vision-Language Models via Visual Information Steering

Feb 5

ByZhuowei Li, Haizhou Shi, Yunhe Gao, Di Liu, Zhenting Wang, Yuxiao Chen, Ting Liu, Long Zhao, Hao Wang, Dimitris N. Metaxas

Большие модели видео-языкового взаимодействия (LVLM) могут эффективно рассуждать как над текстовыми, так и над визуальными данными, однако они имеют тенденцию генерировать синтаксически связанный, но не имеющий визуальной основы контент. В данной статье мы исследуем внутреннюю динамику генерации контента, изучая ранжировку логитов токенов на протяжении процесса генерации, раскрывая три ключевых паттерна в обработке информации LVLM: (1) постепенная потеря визуальной информации - токены с визуальной основой постепенно теряют предпочтение на протяжении генерации, и (2) раннее возбуждение - семантически значимые токены достигают пика активации на более ранних слоях, чем на последнем слое. (3) скрытая подлинная информация - токены с визуальной основой, хотя и не выбираются в конечном итоге, все еще сохраняют относительно высокие ранжировки на этапе вывода. Основываясь на этих наблюдениях, мы предлагаем VISTA (Управление визуальной информацией с дополнением токен-логитов), фреймворк вмешательства в процесс вывода без обучения, который снижает генерацию контента без визуальной основы и способствует подлинной информации. VISTA работает путем комбинирования двух взаимодополняющих подходов: усиление визуальной информации в пространстве активации и использование активаций на ранних слоях для способствования семантически значимой декодировке. По сравнению с существующими методами, VISTA не требует внешнего контроля и применим к различным стратегиям декодирования. Обширные эксперименты показывают, что VISTA в среднем снижает генерацию контента без визуальной основы на 40% в рамках оценочной задачи генерации открытого текста и последовательно превосходит существующие методы на четырех тестовых наборах данных по четырем архитектурам при трех стратегиях декодирования.

CustomVideoX: Динамическая адаптация с учетом внимания к 3D ссылочным данным для трансформеров диффузии видео с нулевым обучением для индивидуализированных видео.
CustomVideoX: 3D Reference Attention Driven Dynamic Adaptation for Zero-Shot Customized Video Diffusion Transformers

Feb 10

ByD. She, Mushui Liu, Jingxuan Pang, Jin Wang, Zhen Yang, Wanggui He, Guanghao Zhang, Yi Wang, Qihan Huang, Haobin Tang, Yunlong Yu, Siming Fu

Персонализированная генерация достигла значительного прогресса в синтезе изображений, однако персонализированная генерация видео остается сложной из-за временных несоответствий и деградации качества. В данной статье мы представляем CustomVideoX, инновационную структуру, использующую видео-трансформер для персонализированной генерации видео из исходного изображения. CustomVideoX опирается на предварительно обученные видео-сети, обучая исключительно параметры LoRA для извлечения характеристик исходного изображения, обеспечивая при этом эффективность и адаптивность. Для облегчения бесшовного взаимодействия между исходным изображением и видео-контентом мы предлагаем 3D Reference Attention, позволяющий прямое и одновременное взаимодействие характеристик исходного изображения со всеми кадрами видео по пространственным и временным измерениям. Для смягчения чрезмерного влияния характеристик исходного изображения и текстового руководства на сгенерированный видео-контент во время вывода мы реализуем стратегию Time-Aware Reference Attention Bias (TAB), динамически модулируя смещение внимания к исходному изображению на различных временных шагах. Кроме того, мы представляем модуль Entity Region-Aware Enhancement (ERAE), выравнивающий высокоактивированные области ключевых сущностей с инъекцией характеристик исходного изображения путем корректировки смещения внимания. Для тщательной оценки персонализированной генерации видео мы создаем новый бенчмарк, VideoBench, включающий более 50 объектов и 100 подсказок для обширной оценки. Экспериментальные результаты показывают, что CustomVideoX значительно превосходит существующие методы по показателям согласованности и качества видео.

Эффективные Video Diffusion Transformers с вниманием к тайлам
Efficient-vDiT: Efficient Video Diffusion Transformers With Attention Tile

Feb 10

ByHangliang Ding, Dacheng Li, Runlong Su, Peiyuan Zhang, Zhijie Deng, Ion Stoica, Hao Zhang

Несмотря на перспективу синтеза видеороликов высокой точности, Диффузионные Трансформеры (DiTs) с трехмерным полным вниманием страдают от дорогостоящего вывода из-за сложности вычислений внимания и многочисленных этапов выборки. Например, популярная модель Open-Sora-Plan требует более 9 минут для создания одного видеоролика из 29 кадров. В данной статье рассматривается проблема неэффективности с двух сторон: 1) Обрезка трехмерного полного внимания на основе избыточности в видеоданных; Мы выявляем распространенный повторяющийся плиточный образец в трехмерных картах внимания для видеоданных и предлагаем новое семейство разреженного трехмерного внимания, имеющее линейную сложность относительно количества кадров видео. 2) Сокращение процесса выборки путем применения существующей дистилляции согласованности на нескольких этапах; Мы разбиваем всю траекторию выборки на несколько сегментов и проводим дистилляцию согласованности в каждом из них для активации возможностей генерации на несколько шагов. Мы также разрабатываем трехэтапный пайплайн обучения для объединения низкосложного внимания и возможностей генерации на несколько шагов. Особенно стоит отметить, что с использованием 0.1% предварительных данных мы превратили модель Open-Sora-Plan-1.2 в эффективную, которая работает в 7.4-7.8 раз быстрее для создания видео 720p из 29 и 93 кадров с незначительным снижением производительности в VBench. Кроме того, мы демонстрируем, что наш подход подходит для распределенного вывода, достигая дополнительного ускорения в 3.91 раза при работе на 4 GPU с параллелизмом последовательности.

Оптимизация предпочтений двойных подписей для моделей диффузии
Dual Caption Preference Optimization for Diffusion Models

Feb 9

ByAmir Saeidi, Yiran Luo, Agneet Chatterjee, Shamanthak Hegde, Bimsara Pathiraja, Yezhou Yang, Chitta Baral

Недавние достижения в оптимизации предпочтений человека, изначально разработанные для моделей больших языков (LLM), показали значительный потенциал в улучшении моделей диффузии текста в изображения. Эти методы направлены на изучение распределения предпочтительных образцов, отличая их от менее предпочтительных. Однако существующие наборы данных предпочтений часто имеют перекрытие между этими распределениями, что приводит к конфликтному распределению. Кроме того, мы выявили, что входные подсказки содержат несущественную информацию для менее предпочтительных изображений, что ограничивает способность сети денойзинга точно предсказывать шум в методах оптимизации предпочтений, известную как проблема несущественной подсказки. Для решения этих проблем мы предлагаем метод двойной оптимизации предпочтений подписей (DCPO), новый подход, использующий две различные подписи для смягчения несущественных подсказок. Для борьбы с конфликтным распределением мы представляем набор данных Pick-Double Caption, модифицированную версию Pick-a-Pic v2 с отдельными подписями для предпочтительных и менее предпочтительных изображений. Мы также предлагаем три различные стратегии для генерации различных подписей: подписывание, возмущение и гибридные методы. Наши эксперименты показывают, что DCPO значительно улучшает качество изображения и его соответствие подсказкам, превосходя Stable Diffusion (SD) 2.1, SFT_Chosen, Diffusion-DPO и MaPO по нескольким метрикам, включая Pickscore, HPSv2.1, GenEval, CLIPscore и ImageReward, донастроенные на SD 2.1 в качестве основы.

К масштабированию обучения агентов в интернете
Towards Internet-Scale Training For Agents

Feb 10

ByBrandon Trabucco, Gunnar Sigurdsson, Robinson Piramuthu, Ruslan Salakhutdinov

Преобладающий подход к обучению агентов веб-навигации заключается в сборе демонстраций от людей для набора популярных веб-сайтов и ручных задач, однако становится очевидным, что данные людей являются неэффективным ресурсом. Мы разработали конвейер для облегчения обучения агентов в Интернете без трудоемких аннотаций людей. На первом этапе LLM генерирует задачи для 150 тыс. разнообразных веб-сайтов. На следующем этапе агенты LLM выполняют задачи и формируют траектории. На заключительном этапе LLM проверяет траектории и оценивает их успешность. Языковые модели конкурентоспособны с аннотаторами людей, обнаруживая и фильтруя вредный контент с точностью 97%, генерируя выполнимые задачи с частотой 89% и оценивая успешные траектории с точностью 82,6%. Масштабируя конвейер, агенты на основе Llama 3.1 70B решают 16,7% задач для 150 тыс. сайтов. Обучение на данных, сгенерированных нашим конвейером, конкурентоспособно с обучением на демонстрациях людей. В условиях ограниченных данных, полученных из Mind2Web и WebLINX, мы улучшаем точность шага на +89,5% и +122,1% соответственно для агентов, обученных на смесях данных из нашего конвейера и данных людей. При обучении агентов на всех доступных данных людей из этих бенчмарков, агенты не могут обобщаться на разнообразные реальные сайты, и добавление наших данных улучшает их обобщение на +149,0% для WebLINX и +156,3% для Mind2Web. Код будет доступен по адресу: data-for-agents.github.io.

DreamDPO: Выравнивание генерации текста в 3D с предпочтениями человека через прямую оптимизацию предпочтений
DreamDPO: Aligning Text-to-3D Generation with Human Preferences via Direct Preference Optimization

Feb 5

ByZhenglin Zhou, Xiaobo Xia, Fan Ma, Hehe Fan, Yi Yang, Tat-Seng Chua

Генерация 3D из текста автоматизирует создание 3D контента на основе текстовых описаний, что предлагает трансформационный потенциал в различных областях. Однако существующие методы часто испытывают трудности с согласованием созданного контента с предпочтениями людей, что ограничивает их применимость и гибкость. Для решения этих ограничений в данной статье мы предлагаем DreamDPO, оптимизационную платформу, которая интегрирует предпочтения людей в процесс генерации 3D с помощью прямой оптимизации предпочтений. Практически DreamDPO сначала создает попарные примеры, затем сравнивает их соответствие предпочтениям людей с использованием вознаграждения или больших мультимодальных моделей, и в конечном итоге оптимизирует 3D представление с помощью функции потерь, управляемой предпочтениями. Используя попарное сравнение для отражения предпочтений, DreamDPO снижает зависимость от точных оценок качества в точке, обеспечивая тонкую управляемость через оптимизацию, управляемую предпочтениями. Эксперименты показывают, что DreamDPO достигает конкурентоспособных результатов и обеспечивает более высококачественный и управляемый 3D контент по сравнению с существующими методами. Код и модели будут опубликованы в открытом доступе.

Steel-LLM: от нуля до открытого исходного кода - личное путешествие в создании китайско-центричного LLM.
Steel-LLM:From Scratch to Open Source -- A Personal Journey in Building a Chinese-Centric LLM

Feb 10

ByQingshui Gu, Shu Li, Tianyu Zheng, Zhaoxiang Zhang

Steel-LLM - это китайско-центричная языковая модель, разработанная с нуля с целью создания качественной модели с открытым исходным кодом при ограниченных вычислительных ресурсах. Запущенный в марте 2024 года, проект нацелен на обучение модели с 1 миллиардом параметров на крупномасштабном наборе данных, уделяя приоритет прозрачности и обмену практическими идеями для помощи другим участникам сообщества. Процесс обучения в основном сосредоточен на китайских данных, с небольшой долей английских данных, что позволяет заполнить пробелы в существующих открытых языковых моделях путем предоставления более подробного и практического описания пути построения модели. Steel-LLM продемонстрировал конкурентоспособную производительность на бенчмарках, таких как CEVAL и CMMLU, превзойдя ранние модели от крупных учреждений. В данной статье представлены подробные выводы о ключевых вкладах проекта, включая сбор данных, конструкцию модели, методики обучения и проблемы, возникшие по пути, предлагая ценный ресурс для исследователей и практиков, желающих разработать собственные языковые модели. Чекпоинты модели и скрипт обучения доступны по ссылке https://github.com/zhanshijinwat/Steel-LLM.

APE: Более быстрая и длительная генерация с увеличением контекста через адаптивное параллельное кодирование
APE: Faster and Longer Context-Augmented Generation via Adaptive Parallel Encoding

Feb 8

ByXinyu Yang, Tianqi Chen, Beidi Chen

Техники генерации с увеличением контекста (CAG), включая RAG и ICL, требуют эффективного объединения нескольких контекстов для генерации ответов на запросы пользователей. Прямое ввод контекстов в виде последовательности вносит значительную вычислительную нагрузку, поскольку требуется повторное кодирование объединенного выбора контекстов для каждого запроса. Для решения этой проблемы мы исследуем перспективный потенциал параллельного кодирования для независимого предварительного вычисления и кэширования состояний KV каждого контекста. Этот подход позволяет непосредственно загружать кэшированные состояния во время вывода, обеспечивая повторное использование позиций среди контекстов. Однако из-за несоответствий в распределении внимания прямое применение параллельного кодирования приводит к значительному снижению производительности. Для обеспечения эффективного и эффективного CAG мы предлагаем Адаптивное Параллельное Кодирование (APE), которое внедряет общий префикс, температуру внимания и коэффициент масштабирования для согласования распределения параллельного кодирования с последовательным кодированием. Результаты на задачах RAG и ICL показывают, что APE может сохранить производительность последовательного кодирования на уровне 98% и 93%, используя те же входные данные, превзойдя при этом параллельное кодирование на 3.6% и 7.9% соответственно. Он также масштабируется для обработки многократного CAG, эффективно кодируя сотни контекстов параллельно. Оценка эффективности показывает, что APE может достичь ускорения в 4.5 раза на конечном этапе, сокращая время предварительной загрузки в 28 раз для контекста длиной 128 тыс. символов.

Jakiro: Увеличение спекулятивного декодирования с помощью разделенной многоголовой модели через MoE
Jakiro: Boosting Speculative Decoding with Decoupled Multi-Head via MoE

Feb 10

ByHaiduo Huang, Fuwei Yang, Zhenhua Liu, Yixing Xu, Jinze Li, Yang Liu, Xuanwu Yin, Dong Li, Pengju Ren, Emad Barsoum

Спекулятивное декодирование (SD) ускоряет вывод больших языковых моделей, используя более компактную рабочую модель для предсказания нескольких токенов, которые затем проверяются параллельно более крупной целевой моделью. Однако ограниченная емкость рабочей модели часто требует использования деревянной выборки для улучшения точности прогнозирования, где на каждом шаге генерируется несколько кандидатов. Мы выявляем ключевое ограничение этого подхода: кандидаты на одном и том же шаге происходят из одного и того же представления, что ограничивает разнообразие и снижает общую эффективность. Для решения этой проблемы мы предлагаем Jakiro, использующий Смесь Экспертов (MoE), где независимые эксперты генерируют разнообразные прогнозы, эффективно разрывая корреляции между кандидатами. Кроме того, мы представляем гибридную стратегию вывода, объединяющую авторегрессионное декодирование для начальных токенов с параллельным декодированием для последующих этапов, и улучшаем последнее с помощью контрастного механизма в признаках для повышения точности. Наш метод значительно повышает точность прогнозирования и достигает более высоких ускорений вывода. Обширные эксперименты с различными моделями подтверждают эффективность и надежность нашего подхода, устанавливая новый SOTA в спекулятивном декодировании. Наш код доступен по адресу https://github.com/haiduo/Jakiro.

Воплощенное красное моделирование для аудита базовых робототехнических моделей
Embodied Red Teaming for Auditing Robotic Foundation Models

Nov 27

BySathwik Karnik, Zhang-Wei Hong, Nishant Abhangi, Yen-Chen Lin, Tsun-Hsuan Wang, Christophe Dupuy, Rahul Gupta, Pulkit Agrawal

Модели роботов, зависящие от языка, имеют потенциал позволить роботам выполнять широкий спектр задач на основе естественноязыковых инструкций. Однако оценка их безопасности и эффективности остаётся сложной из-за трудностей в тестировании всех различных способов формулировки одной задачи. Текущие бенчмарки имеют два ключевых ограничения: они опираются на ограниченный набор инструкций, созданных людьми, упуская множество сложных случаев, и сосредотачиваются только на выполнении задач без оценки безопасности, такой как избегание повреждений. Для решения этих пробелов мы представляем метод оценки под названием Embodied Red Teaming (ERT), который генерирует разнообразные и сложные инструкции для тестирования этих моделей. ERT использует автоматизированные техники красной команды с использованием моделей Vision Language (VLM), чтобы создавать контекстуально обоснованные, сложные инструкции. Экспериментальные результаты показывают, что современные модели роботов, зависящие от языка, терпят неудачу или ведут себя небезопасно на инструкциях, сгенерированных ERT, подчёркивая недостатки текущих бенчмарков в оценке производительности и безопасности в реальном мире. Код и видео доступны по ссылке: https://s-karnik.github.io/embodied-red-team-project-page.

Запретная наука: Бенчмарк и научные тесты отказа в использовании двойного назначения искусственного интеллекта
Forbidden Science: Dual-Use AI Challenge Benchmark and Scientific Refusal Tests

Feb 8

ByDavid Noever, Forrest McKee

Разработка надежных стандартов безопасности для больших языковых моделей требует открытых, воспроизводимых наборов данных, способных измерить как адекватное отклонение от вредного контента, так и потенциальное чрезмерное ограничение легитимного научного дискурса. Мы представляем набор данных и тестовую среду с открытым исходным кодом для оценки механизмов безопасности LLM по запросам, связанным в основном с контролируемыми веществами, анализируя ответы четырех основных моделей на систематически изменяемые подсказки. Наши результаты показывают различные профили безопасности: Claude-3.5-sonnet продемонстрировал наиболее консервативный подход с 73% отказов и 27% разрешений, в то время как Mistral пытался ответить на 100% запросов. GPT-3.5-turbo показал умеренное ограничение с 10% отказов и 90% разрешений, а Grok-2 зарегистрировал 20% отказов и 80% разрешений. Тестирование стратегий изменения подсказок показало снижение согласованности ответов с 85% при одиночных подсказках до 65% при пяти вариациях. Этот общедоступный стандарт позволяет систематически оценивать критический баланс между необходимыми ограничениями безопасности и потенциальным чрезмерным цензурированием легитимного научного исследования, обеспечивая основу для измерения прогресса в реализации безопасности искусственного интеллекта. Анализ цепочки мыслей выявляет потенциальные уязвимости в механизмах безопасности, подчеркивая сложность внедрения надежных механизмов защиты без чрезмерного ограничения желательного и допустимого научного дискурса.