Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большое окно контекста является желательной характеристикой для крупных языковых моделей (LLM). Однако из-за высоких затрат на тонкую настройку, дефицита длинных текстов и катастрофических значений, вносимых новыми позициями токенов, текущие расширенные окна контекста ограничены примерно 128 тысячами токенов. В данной статье представлен метод LongRoPE, который впервые расширяет окно контекста предварительно обученных LLM до впечатляющих 2048 тысяч токенов, используя всего до 1 тысячи шагов тонкой настройки на длинах обучения до 256 тысяч токенов, при этом сохраняя производительность на исходном коротком окне контекста. Это достигается за счет трех ключевых инноваций: (i) мы выявляем и используем две формы неоднородностей в позиционной интерполяции с помощью эффективного поиска, что обеспечивает лучшее начальное приближение для тонкой настройки и позволяет увеличить окно контекста в 8 раз без тонкой настройки; (ii) мы вводим стратегию прогрессивного расширения, которая сначала тонко настраивает LLM на длине 256 тысяч токенов, а затем проводит вторую позиционную интерполяцию на расширенной LLM для достижения окна контекста в 2048 тысяч токенов; (iii) мы корректируем LongRoPE на длине 8 тысяч токенов для восстановления производительности на коротком окне контекста. Многочисленные эксперименты на моделях LLaMA2 и Mistral в различных задачах демонстрируют эффективность нашего метода. Модели, расширенные с помощью LongRoPE, сохраняют исходную архитектуру с незначительными изменениями в позиционных эмбеддингах и могут повторно использовать большинство существующих оптимизаций.
Современные методы глубокого обучения сосредоточены на том, как разработать наиболее подходящие целевые функции, чтобы результаты предсказания модели были максимально близки к истинным значениям. Одновременно необходимо разработать подходящую архитектуру, которая может способствовать получению достаточного объема информации для прогнозирования. Существующие методы игнорируют тот факт, что при прохождении входных данных через послойное извлечение признаков и пространственные преобразования теряется значительное количество информации. В данной статье рассматриваются важные вопросы потери данных при их передаче через глубокие сети, а именно информационное узкое место и обратимые функции. Мы предложили концепцию программируемой градиентной информации (PGI) для адаптации к различным изменениям, требуемым глубокими сетями для достижения множества целей. PGI может предоставлять полную входную информацию для целевой задачи, чтобы рассчитывать целевую функцию, что позволяет получать надежную градиентную информацию для обновления весов сети. Кроме того, разработана новая легковесная сетевая архитектура — Обобщенная Эффективная Сеть Агрегации Слоев (GELAN), основанная на планировании градиентных путей. Архитектура GELAN подтверждает, что PGI демонстрирует превосходные результаты на легковесных моделях. Мы проверили предложенные GELAN и PGI на задаче детекции объектов на наборе данных MS COCO. Результаты показывают, что GELAN, используя только стандартные операторы свертки, достигает лучшего использования параметров по сравнению с современными методами, разработанными на основе depth-wise сверток. PGI может применяться для различных моделей — от легковесных до крупных. Она позволяет получать полную информацию, благодаря чему модели, обучаемые с нуля, могут достигать лучших результатов, чем современные модели, предварительно обученные на больших наборах данных. Сравнительные результаты представлены на Рисунке 1. Исходные коды доступны по адресу: https://github.com/WongKinYiu/yolov9.
Мы представляем набор данных Aria Everyday Activities (AEA) — эгоцентричный мультимодальный открытый набор данных, записанный с использованием очков Project Aria. AEA содержит 143 последовательности повседневной активности, записанные несколькими пользователями в пяти географически разнообразных помещениях. Каждая запись включает мультимодальные данные сенсоров, собранные через очки Project Aria. Кроме того, AEA предоставляет данные машинного восприятия, включая высокочастотные глобально выровненные 3D-траектории, облако точек сцены, 3D-вектор направления взгляда для каждого кадра и синхронизированную с временной шкалой расшифровку речи. В данной статье мы демонстрируем несколько примеров исследовательских приложений, реализованных с использованием этого набора данных, включая нейронную реконструкцию сцены и сегментацию по запросу. AEA является открытым набором данных, который можно загрузить с сайта projectaria.com. Мы также предоставляем открытые реализации и примеры использования набора данных в инструментах Project Aria Tools.
Мы предлагаем метод диффузионной дистилляции, который устанавливает новый эталон в одношаговой/малошаговой генерации изображений с разрешением 1024 пикселя на основе SDXL. Наш метод сочетает прогрессивную и состязательную дистилляцию для достижения баланса между качеством и охватом мод. В данной статье мы обсуждаем теоретический анализ, проектирование дискриминатора, формулировку модели и методы обучения. Мы открываем исходный код наших дистиллированных моделей SDXL-Lightning как в виде LoRA, так и в виде полных весов UNet.
Современные модели для генерации изображений демонстрируют впечатляющее качество и универсальность. Вдохновлённые этими преимуществами, исследовательское сообщество адаптирует их для создания видео. Поскольку видеоконтент обладает высокой избыточностью, мы утверждаем, что простое перенесение достижений моделей для изображений в область генерации видео снижает точность передачи движения, ухудшает визуальное качество и ограничивает масштабируемость. В данной работе мы создаём Snap Video — модель, изначально ориентированную на видео, которая системно решает эти проблемы. Для этого мы сначала расширяем фреймворк EDM, чтобы учитывать пространственно и временно избыточные пиксели и естественным образом поддерживать генерацию видео. Во-вторых, мы показываем, что U-Net — ключевой инструмент в генерации изображений — плохо масштабируется при создании видео, требуя значительных вычислительных ресурсов. Поэтому мы предлагаем новую архитектуру на основе трансформеров, которая обучается в 3,31 раза быстрее, чем U-Net (и примерно в 4,5 раза быстрее на этапе вывода). Это позволяет нам впервые эффективно обучить текстово-видео модель с миллиардами параметров, достичь передовых результатов на ряде бенчмарков и генерировать видео с существенно более высоким качеством, временной согласованностью и сложностью движения. Пользовательские исследования показали, что наша модель значительно превосходит самые современные методы. Подробнее на нашем сайте: https://snap-research.github.io/snapvideo/.
Крупные языковые модели (LLM) произвели революцию в обработке естественного языка. Однако эффективное включение сложных и потенциально зашумленных данных пользовательского взаимодействия остается сложной задачей. Для решения этой проблемы мы предлагаем User-LLM — новую структуру, которая использует пользовательские эмбеддинги для контекстуализации LLM. Эти эмбеддинги, извлеченные из разнообразных пользовательских взаимодействий с помощью самоконтролируемого предобучения, фиксируют скрытые предпочтения пользователей и их эволюцию во времени. Мы интегрируем эти пользовательские эмбеддинги с LLM через механизмы кросс-внимания и мягкого промптинга, что позволяет LLM динамически адаптироваться к контексту пользователя. Наши всесторонние эксперименты на наборах данных MovieLens, Amazon Review и Google Local Review демонстрируют значительное улучшение производительности в различных задачах. В частности, наш подход превосходит контекстуализацию на основе текстовых промптов в задачах с длинными последовательностями и задачах, требующих глубокого понимания пользователя, при этом оставаясь вычислительно эффективным. Мы также интегрируем слои Perceiver для оптимизации взаимодействия между пользовательскими энкодерами и LLM, снижая вычислительные затраты.
Недавние исследования показали, что агенты глубокого обучения с подкреплением испытывают трудности в эффективном использовании параметров своих сетей. Мы опираемся на предыдущие инсайты о преимуществах методов разреженного обучения и демонстрируем, что постепенное обрезание по величине позволяет агентам максимизировать эффективность использования параметров. Это приводит к созданию сетей, которые демонстрируют значительное улучшение производительности по сравнению с традиционными сетями и проявляют своего рода "закон масштабирования", используя лишь небольшую часть всех параметров сети.
Недавние исследования показали, что атаки на большие языковые модели (LLM) могут "взломать" модель, заставив её генерировать вредоносные высказывания. В данной работе мы утверждаем, что спектр атак на LLM гораздо шире, чем просто взлом. Мы предоставляем обширный обзор возможных поверхностей атак и их целей. На основе ряда конкретных примеров мы обсуждаем, классифицируем и систематизируем атаки, которые вызывают различные нежелательные поведения, такие как введение в заблуждение, управление моделью, отказ в обслуживании или извлечение данных. Мы анализируем эти атаки в контролируемых экспериментах и обнаруживаем, что многие из них связаны с практикой предварительного обучения LLM с возможностями программирования, а также с продолжающимся существованием странных "глюк"-токенов в стандартных словарях LLM, которые следует удалить по соображениям безопасности.
С развитием диффузионных моделей текстово-управляемый перенос стиля изображений продемонстрировал высококачественные и контролируемые результаты синтеза. Однако использование текста для разнообразного переноса музыкальных стилей сталкивается с существенными трудностями, в основном из-за ограниченной доступности согласованных аудио-текстовых наборов данных. Музыка, являясь абстрактной и сложной формой искусства, демонстрирует вариации и тонкости даже в рамках одного жанра, что делает точные текстовые описания сложной задачей. В данной статье представлен подход к переносу музыкального стиля, который эффективно захватывает музыкальные атрибуты с использованием минимального объема данных. Мы вводим новый модуль временно-вариативной текстовой инверсии для точного захвата особенностей мел-спектрограмм на различных уровнях. В процессе вывода мы предлагаем технику стилизации с уменьшенным смещением для получения стабильных результатов. Экспериментальные результаты показывают, что наш метод способен переносить стиль конкретных инструментов, а также включать естественные звуки для создания мелодий. Примеры и исходный код доступны по адресу https://lsfhuihuiff.github.io/MusicTI/.
Мультимодальное рассуждение является ключевой способностью для крупных моделей, работающих с визуальными и языковыми данными (LVLMs). Интеграция с предметно-ориентированными языками (DSL), которые предоставляют точные визуальные представления, позволяет этим моделям выполнять более точные рассуждения в сложных и профессиональных областях. Однако стандартный метод Chain-of-Thought (CoT) сталкивается с трудностями в эффективном использовании уникальных преимуществ визуальных и DSL-представлений, в основном из-за различий в механизмах рассуждения. Кроме того, он часто не справляется с критическими этапами в задачах многошагового рассуждения. Для решения этих проблем мы представляем метод Bi-Modal Behavioral Alignment (BBA), разработанный для максимального раскрытия потенциала DSL в улучшении сложных мультимодальных задач рассуждения. Этот метод сначала направляет LVLMs на создание отдельных цепочек рассуждений для визуальных и DSL-представлений. Затем он согласовывает эти цепочки, устраняя любые несоответствия, достигая тем самым согласованной интеграции поведения различных модальностей. Наши эксперименты показывают, что BBA значительно улучшает производительность GPT-4V(ision) в решении геометрических задач (с 28,34% до 34,22%), прогнозировании позиционного преимущества в шахматах (с 42,08% до 46,99%) и предсказании свойств молекул (с 77,47% до 83,52%).
Механизм внимания играет ключевую роль в моделях диффузии изображений, однако их квадратичная вычислительная сложность ограничивает размеры изображений, которые можно обработать в разумные временные и ресурсные рамки. В данной работе исследуется важность плотного внимания в генеративных моделях изображений, которые часто содержат избыточные признаки, что делает их подходящими для более разреженных механизмов внимания. Мы предлагаем новый метод ToDo, не требующий обучения, который основывается на понижении размерности токенов ключей и значений для ускорения вывода Stable Diffusion до 2 раз для стандартных размеров и до 4,5 раз и более для высоких разрешений, таких как 2048x2048. Мы показываем, что наш подход превосходит предыдущие методы в балансировке эффективной пропускной способности и качества изображений.
Управление результатом генерации современных моделей диффузии и согласования потоков (Flow-Matching, FM) без необходимости повторного обучения модели для конкретной задачи открывает мощный инструмент для решения обратных задач, условной генерации и контролируемой генерации в целом. В данной работе мы представляем D-Flow — простую структуру для управления процессом генерации путем дифференцирования через поток с оптимизацией исходной (шумовой) точки. Мы обосновываем этот подход нашим ключевым наблюдением, которое гласит, что для моделей диффузии/FM, обученных с гауссовыми вероятностными траекториями, дифференцирование через процесс генерации проецирует градиент на многообразие данных, неявно внося априорную информацию в процесс оптимизации. Мы проверяем нашу структуру на линейных и нелинейных задачах контролируемой генерации, включая обратные задачи для изображений и аудио, а также условную генерацию молекул, достигая наилучших результатов во всех случаях.
Методы декодирования с предварительным составлением и последующей проверкой, такие как спекулятивное декодирование, широко применяются как методы, не требующие обучения, для ускорения вывода больших языковых моделей (LLM). Вместо использования авторегрессивного процесса для последовательного декодирования токенов, спекулятивное декодирование сначала создает черновики с помощью эффективной небольшой модели. Затем LLM требуется провести проверку и исправление в неавторегрессивном режиме, чтобы минимизировать временные затраты. Генерация более длинных черновиков может привести к еще более значительному ускорению после проверки, но также влечет за собой существенные затраты на пробы и ошибки в случае неудачи. Из-за высокой вероятности неудачной проверки существующие методы декодирования не могут создавать слишком много контента для проверки за один раз, что приводит к субоптимальному ускорению вывода. В данной статье мы представляем Ouroboros, который создает пул кандидатов из фраз на основе процесса проверки LLM, чтобы предоставить кандидатов для генерации черновиков небольшой модели. Таким образом, Ouroboros может дополнительно повысить эффективность и результативность начальных черновиков. Результаты экспериментов на типичных задачах генерации текста показывают, что Ouroboros достигает ускорения до 1.9x и 2.8x по сравнению с опережающим декодированием и спекулятивным декодированием соответственно. Исходный код Ouroboros доступен по адресу https://github.com/thunlp/Ouroboros.