Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

LongRoPE: Расширение контекстного окна языковых моделей за пределы 2 миллионов токенов
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Feb 21

ByYiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

116

Большое окно контекста является желательной характеристикой для крупных языковых моделей (LLM). Однако из-за высоких затрат на тонкую настройку, дефицита длинных текстов и катастрофических значений, вносимых новыми позициями токенов, текущие расширенные окна контекста ограничены примерно 128 тысячами токенов. В данной статье представлен метод LongRoPE, который впервые расширяет окно контекста предварительно обученных LLM до впечатляющих 2048 тысяч токенов, используя всего до 1 тысячи шагов тонкой настройки на длинах обучения до 256 тысяч токенов, при этом сохраняя производительность на исходном коротком окне контекста. Это достигается за счет трех ключевых инноваций: (i) мы выявляем и используем две формы неоднородностей в позиционной интерполяции с помощью эффективного поиска, что обеспечивает лучшее начальное приближение для тонкой настройки и позволяет увеличить окно контекста в 8 раз без тонкой настройки; (ii) мы вводим стратегию прогрессивного расширения, которая сначала тонко настраивает LLM на длине 256 тысяч токенов, а затем проводит вторую позиционную интерполяцию на расширенной LLM для достижения окна контекста в 2048 тысяч токенов; (iii) мы корректируем LongRoPE на длине 8 тысяч токенов для восстановления производительности на коротком окне контекста. Многочисленные эксперименты на моделях LLaMA2 и Mistral в различных задачах демонстрируют эффективность нашего метода. Модели, расширенные с помощью LongRoPE, сохраняют исходную архитектуру с незначительными изменениями в позиционных эмбеддингах и могут повторно использовать большинство существующих оптимизаций.

YOLOv9: Обучение тому, что вы хотите изучить, с использованием программируемой градиентной информации
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Feb 21

ByChien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao

Современные методы глубокого обучения сосредоточены на том, как разработать наиболее подходящие целевые функции, чтобы результаты предсказания модели были максимально близки к истинным значениям. Одновременно необходимо разработать подходящую архитектуру, которая может способствовать получению достаточного объема информации для прогнозирования. Существующие методы игнорируют тот факт, что при прохождении входных данных через послойное извлечение признаков и пространственные преобразования теряется значительное количество информации. В данной статье рассматриваются важные вопросы потери данных при их передаче через глубокие сети, а именно информационное узкое место и обратимые функции. Мы предложили концепцию программируемой градиентной информации (PGI) для адаптации к различным изменениям, требуемым глубокими сетями для достижения множества целей. PGI может предоставлять полную входную информацию для целевой задачи, чтобы рассчитывать целевую функцию, что позволяет получать надежную градиентную информацию для обновления весов сети. Кроме того, разработана новая легковесная сетевая архитектура — Обобщенная Эффективная Сеть Агрегации Слоев (GELAN), основанная на планировании градиентных путей. Архитектура GELAN подтверждает, что PGI демонстрирует превосходные результаты на легковесных моделях. Мы проверили предложенные GELAN и PGI на задаче детекции объектов на наборе данных MS COCO. Результаты показывают, что GELAN, используя только стандартные операторы свертки, достигает лучшего использования параметров по сравнению с современными методами, разработанными на основе depth-wise сверток. PGI может применяться для различных моделей — от легковесных до крупных. Она позволяет получать полную информацию, благодаря чему модели, обучаемые с нуля, могут достигать лучших результатов, чем современные модели, предварительно обученные на больших наборах данных. Сравнительные результаты представлены на Рисунке 1. Исходные коды доступны по адресу: https://github.com/WongKinYiu/yolov9.

Набор данных Aria Everyday Activities
Aria Everyday Activities Dataset

Feb 20

ByZhaoyang Lv, Nickolas Charron, Pierre Moulon, Alexander Gamino, Cheng Peng, Chris Sweeney, Edward Miller, Huixuan Tang, Jeff Meissner, Jing Dong, Kiran Somasundaram, Luis Pesqueira, Mark Schwesinger, Omkar Parkhi, Qiao Gu, Renzo De Nardi, Shangyi Cheng, Steve Saarinen, Vijay Baiyya, Yuyang Zou, Richard Newcombe, Jakob Julian Engel, Xiaqing Pan, Carl Ren

Мы представляем набор данных Aria Everyday Activities (AEA) — эгоцентричный мультимодальный открытый набор данных, записанный с использованием очков Project Aria. AEA содержит 143 последовательности повседневной активности, записанные несколькими пользователями в пяти географически разнообразных помещениях. Каждая запись включает мультимодальные данные сенсоров, собранные через очки Project Aria. Кроме того, AEA предоставляет данные машинного восприятия, включая высокочастотные глобально выровненные 3D-траектории, облако точек сцены, 3D-вектор направления взгляда для каждого кадра и синхронизированную с временной шкалой расшифровку речи. В данной статье мы демонстрируем несколько примеров исследовательских приложений, реализованных с использованием этого набора данных, включая нейронную реконструкцию сцены и сегментацию по запросу. AEA является открытым набором данных, который можно загрузить с сайта projectaria.com. Мы также предоставляем открытые реализации и примеры использования набора данных в инструментах Project Aria Tools.

SDXL-Lightning: Прогрессивное адверсариальное диффузионное дистилляционное обучение
SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Feb 21

ByShanchuan Lin, Anran Wang, Xiao Yang

Мы предлагаем метод диффузионной дистилляции, который устанавливает новый эталон в одношаговой/малошаговой генерации изображений с разрешением 1024 пикселя на основе SDXL. Наш метод сочетает прогрессивную и состязательную дистилляцию для достижения баланса между качеством и охватом мод. В данной статье мы обсуждаем теоретический анализ, проектирование дискриминатора, формулировку модели и методы обучения. Мы открываем исходный код наших дистиллированных моделей SDXL-Lightning как в виде LoRA, так и в виде полных весов UNet.

Snap Video: Масштабируемые пространственно-временные трансформеры для синтеза видео из текста
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

Feb 22

ByWilli Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov

Современные модели для генерации изображений демонстрируют впечатляющее качество и универсальность. Вдохновлённые этими преимуществами, исследовательское сообщество адаптирует их для создания видео. Поскольку видеоконтент обладает высокой избыточностью, мы утверждаем, что простое перенесение достижений моделей для изображений в область генерации видео снижает точность передачи движения, ухудшает визуальное качество и ограничивает масштабируемость. В данной работе мы создаём Snap Video — модель, изначально ориентированную на видео, которая системно решает эти проблемы. Для этого мы сначала расширяем фреймворк EDM, чтобы учитывать пространственно и временно избыточные пиксели и естественным образом поддерживать генерацию видео. Во-вторых, мы показываем, что U-Net — ключевой инструмент в генерации изображений — плохо масштабируется при создании видео, требуя значительных вычислительных ресурсов. Поэтому мы предлагаем новую архитектуру на основе трансформеров, которая обучается в 3,31 раза быстрее, чем U-Net (и примерно в 4,5 раза быстрее на этапе вывода). Это позволяет нам впервые эффективно обучить текстово-видео модель с миллиардами параметров, достичь передовых результатов на ряде бенчмарков и генерировать видео с существенно более высоким качеством, временной согласованностью и сложностью движения. Пользовательские исследования показали, что наша модель значительно превосходит самые современные методы. Подробнее на нашем сайте: https://snap-research.github.io/snapvideo/.

User-LLM: Эффективная контекстуализация языковых моделей с использованием пользовательских эмбеддингов
User-LLM: Efficient LLM Contextualization with User Embeddings

Feb 21

ByLin Ning, Luyang Liu, Jiaxing Wu, Neo Wu, Devora Berlowitz, Sushant Prakash, Bradley Green, Shawn O'Banion, Jun Xie

Крупные языковые модели (LLM) произвели революцию в обработке естественного языка. Однако эффективное включение сложных и потенциально зашумленных данных пользовательского взаимодействия остается сложной задачей. Для решения этой проблемы мы предлагаем User-LLM — новую структуру, которая использует пользовательские эмбеддинги для контекстуализации LLM. Эти эмбеддинги, извлеченные из разнообразных пользовательских взаимодействий с помощью самоконтролируемого предобучения, фиксируют скрытые предпочтения пользователей и их эволюцию во времени. Мы интегрируем эти пользовательские эмбеддинги с LLM через механизмы кросс-внимания и мягкого промптинга, что позволяет LLM динамически адаптироваться к контексту пользователя. Наши всесторонние эксперименты на наборах данных MovieLens, Amazon Review и Google Local Review демонстрируют значительное улучшение производительности в различных задачах. В частности, наш подход превосходит контекстуализацию на основе текстовых промптов в задачах с длинными последовательностями и задачах, требующих глубокого понимания пользователя, при этом оставаясь вычислительно эффективным. Мы также интегрируем слои Perceiver для оптимизации взаимодействия между пользовательскими энкодерами и LLM, снижая вычислительные затраты.

В глубоком обучении с подкреплением, прореженная сеть — это хорошая сеть.
In deep reinforcement learning, a pruned network is a good network

Feb 19

ByJohan Obando-Ceron, Aaron Courville, Pablo Samuel Castro

Недавние исследования показали, что агенты глубокого обучения с подкреплением испытывают трудности в эффективном использовании параметров своих сетей. Мы опираемся на предыдущие инсайты о преимуществах методов разреженного обучения и демонстрируем, что постепенное обрезание по величине позволяет агентам максимизировать эффективность использования параметров. Это приводит к созданию сетей, которые демонстрируют значительное улучшение производительности по сравнению с традиционными сетями и проявляют своего рода "закон масштабирования", используя лишь небольшую часть всех параметров сети.

Принуждение языковых моделей к выполнению и раскрытию (почти) чего угодно
Coercing LLMs to do and reveal (almost) anything

Feb 21

ByJonas Geiping, Alex Stein, Manli Shu, Khalid Saifullah, Yuxin Wen, Tom Goldstein

Недавние исследования показали, что атаки на большие языковые модели (LLM) могут "взломать" модель, заставив её генерировать вредоносные высказывания. В данной работе мы утверждаем, что спектр атак на LLM гораздо шире, чем просто взлом. Мы предоставляем обширный обзор возможных поверхностей атак и их целей. На основе ряда конкретных примеров мы обсуждаем, классифицируем и систематизируем атаки, которые вызывают различные нежелательные поведения, такие как введение в заблуждение, управление моделью, отказ в обслуживании или извлечение данных. Мы анализируем эти атаки в контролируемых экспериментах и обнаруживаем, что многие из них связаны с практикой предварительного обучения LLM с возможностями программирования, а также с продолжающимся существованием странных "глюк"-токенов в стандартных словарях LLM, которые следует удалить по соображениям безопасности.

Перенос музыкального стиля с использованием временно-изменяемой инверсии диффузионных моделей
Music Style Transfer with Time-Varying Inversion of Diffusion Models

Feb 21

BySifei Li, Yuxin Zhang, Fan Tang, Chongyang Ma, Weiming dong, Changsheng Xu

С развитием диффузионных моделей текстово-управляемый перенос стиля изображений продемонстрировал высококачественные и контролируемые результаты синтеза. Однако использование текста для разнообразного переноса музыкальных стилей сталкивается с существенными трудностями, в основном из-за ограниченной доступности согласованных аудио-текстовых наборов данных. Музыка, являясь абстрактной и сложной формой искусства, демонстрирует вариации и тонкости даже в рамках одного жанра, что делает точные текстовые описания сложной задачей. В данной статье представлен подход к переносу музыкального стиля, который эффективно захватывает музыкальные атрибуты с использованием минимального объема данных. Мы вводим новый модуль временно-вариативной текстовой инверсии для точного захвата особенностей мел-спектрограмм на различных уровнях. В процессе вывода мы предлагаем технику стилизации с уменьшенным смещением для получения стабильных результатов. Экспериментальные результаты показывают, что наш метод способен переносить стиль конкретных инструментов, а также включать естественные звуки для создания мелодий. Примеры и исходный код доступны по адресу https://lsfhuihuiff.github.io/MusicTI/.

ToDo: Понижение частоты токенов для эффективной генерации изображений высокого разрешения
ToDo: Token Downsampling for Efficient Generation of High-Resolution Images

Feb 21

ByEthan Smith, Nayan Saxena, Aninda Saha

Механизм внимания играет ключевую роль в моделях диффузии изображений, однако их квадратичная вычислительная сложность ограничивает размеры изображений, которые можно обработать в разумные временные и ресурсные рамки. В данной работе исследуется важность плотного внимания в генеративных моделях изображений, которые часто содержат избыточные признаки, что делает их подходящими для более разреженных механизмов внимания. Мы предлагаем новый метод ToDo, не требующий обучения, который основывается на понижении размерности токенов ключей и значений для ускорения вывода Stable Diffusion до 2 раз для стандартных размеров и до 4,5 раз и более для высоких разрешений, таких как 2048x2048. Мы показываем, что наш подход превосходит предыдущие методы в балансировке эффективной пропускной способности и качества изображений.

BBA: Би-модальное выравнивание поведенческих характеристик для рассуждений с использованием крупных визуально-языковых моделей
BBA: Bi-Modal Behavioral Alignment for Reasoning with Large Vision-Language Models

Feb 21

ByXueliang Zhao, Xinting Huang, Tingchen Fu, Qintong Li, Shansan Gong, Lemao Liu, Wei Bi, Lingpeng Kong

Мультимодальное рассуждение является ключевой способностью для крупных моделей, работающих с визуальными и языковыми данными (LVLMs). Интеграция с предметно-ориентированными языками (DSL), которые предоставляют точные визуальные представления, позволяет этим моделям выполнять более точные рассуждения в сложных и профессиональных областях. Однако стандартный метод Chain-of-Thought (CoT) сталкивается с трудностями в эффективном использовании уникальных преимуществ визуальных и DSL-представлений, в основном из-за различий в механизмах рассуждения. Кроме того, он часто не справляется с критическими этапами в задачах многошагового рассуждения. Для решения этих проблем мы представляем метод Bi-Modal Behavioral Alignment (BBA), разработанный для максимального раскрытия потенциала DSL в улучшении сложных мультимодальных задач рассуждения. Этот метод сначала направляет LVLMs на создание отдельных цепочек рассуждений для визуальных и DSL-представлений. Затем он согласовывает эти цепочки, устраняя любые несоответствия, достигая тем самым согласованной интеграции поведения различных модальностей. Наши эксперименты показывают, что BBA значительно улучшает производительность GPT-4V(ision) в решении геометрических задач (с 28,34% до 34,22%), прогнозировании позиционного преимущества в шахматах (с 42,08% до 46,99%) и предсказании свойств молекул (с 77,47% до 83,52%).

D-Flow: Дифференцирование через потоки для управляемой генерации
D-Flow: Differentiating through Flows for Controlled Generation

Feb 21

ByHeli Ben-Hamu, Omri Puny, Itai Gat, Brian Karrer, Uriel Singer, Yaron Lipman

Управление результатом генерации современных моделей диффузии и согласования потоков (Flow-Matching, FM) без необходимости повторного обучения модели для конкретной задачи открывает мощный инструмент для решения обратных задач, условной генерации и контролируемой генерации в целом. В данной работе мы представляем D-Flow — простую структуру для управления процессом генерации путем дифференцирования через поток с оптимизацией исходной (шумовой) точки. Мы обосновываем этот подход нашим ключевым наблюдением, которое гласит, что для моделей диффузии/FM, обученных с гауссовыми вероятностными траекториями, дифференцирование через процесс генерации проецирует градиент на многообразие данных, неявно внося априорную информацию в процесс оптимизации. Мы проверяем нашу структуру на линейных и нелинейных задачах контролируемой генерации, включая обратные задачи для изображений и аудио, а также условную генерацию молекул, достигая наилучших результатов во всех случаях.

Ouroboros: Спекулятивное декодирование с улучшенным созданием черновиков с использованием крупных моделей
Ouroboros: Speculative Decoding with Large Model Enhanced Drafting

Feb 21

ByWeilin Zhao, Yuxiang Huang, Xu Han, Chaojun Xiao, Zhiyuan Liu, Maosong Sun

Методы декодирования с предварительным составлением и последующей проверкой, такие как спекулятивное декодирование, широко применяются как методы, не требующие обучения, для ускорения вывода больших языковых моделей (LLM). Вместо использования авторегрессивного процесса для последовательного декодирования токенов, спекулятивное декодирование сначала создает черновики с помощью эффективной небольшой модели. Затем LLM требуется провести проверку и исправление в неавторегрессивном режиме, чтобы минимизировать временные затраты. Генерация более длинных черновиков может привести к еще более значительному ускорению после проверки, но также влечет за собой существенные затраты на пробы и ошибки в случае неудачи. Из-за высокой вероятности неудачной проверки существующие методы декодирования не могут создавать слишком много контента для проверки за один раз, что приводит к субоптимальному ускорению вывода. В данной статье мы представляем Ouroboros, который создает пул кандидатов из фраз на основе процесса проверки LLM, чтобы предоставить кандидатов для генерации черновиков небольшой модели. Таким образом, Ouroboros может дополнительно повысить эффективность и результативность начальных черновиков. Результаты экспериментов на типичных задачах генерации текста показывают, что Ouroboros достигает ускорения до 1.9x и 2.8x по сравнению с опережающим декодированием и спекулятивным декодированием соответственно. Исходный код Ouroboros доступен по адресу https://github.com/thunlp/Ouroboros.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

LongRoPE: Расширение контекстного окна языковых моделей за пределы 2 миллионов токенов
LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens

Feb 21

ByYiran Ding, Li Lyna Zhang, Chengruidong Zhang, Yuanyuan Xu, Ning Shang, Jiahang Xu, Fan Yang, Mao Yang

116

YOLOv9: Обучение тому, что вы хотите изучить, с использованием программируемой градиентной информации
YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information

Feb 21

ByChien-Yao Wang, I-Hau Yeh, Hong-Yuan Mark Liao

Набор данных Aria Everyday Activities
Aria Everyday Activities Dataset

Feb 20

SDXL-Lightning: Прогрессивное адверсариальное диффузионное дистилляционное обучение
SDXL-Lightning: Progressive Adversarial Diffusion Distillation

Feb 21

ByShanchuan Lin, Anran Wang, Xiao Yang

Snap Video: Масштабируемые пространственно-временные трансформеры для синтеза видео из текста
Snap Video: Scaled Spatiotemporal Transformers for Text-to-Video Synthesis

Feb 22

ByWilli Menapace, Aliaksandr Siarohin, Ivan Skorokhodov, Ekaterina Deyneka, Tsai-Shien Chen, Anil Kag, Yuwei Fang, Aleksei Stoliar, Elisa Ricci, Jian Ren, Sergey Tulyakov