HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

11 papers found

Rho-1: Не все токены то, что вам нужно.
Rho-1: Not All Tokens Are What You Need

Apr 11

ByZhenghao Lin, Zhibin Gou, Yeyun Gong, Xiao Liu, Yelong Shen, Ruochen Xu, Chen Lin, Yujiu Yang, Jian Jiao, Nan Duan, Weizhu Chen

Предыдущие методы предварительного обучения языковых моделей равномерно применяли потерю прогнозирования следующего токена ко всем обучающим токенам. Опровергая этот норматив, мы предполагаем, что "Не все токены в корпусе одинаково важны для обучения языковой модели". Наш первоначальный анализ углубляется в динамику обучения на уровне токенов языковой модели, раскрывая различные шаблоны потерь для различных токенов. Используя эти идеи, мы представляем новую языковую модель под названием Rho-1. В отличие от традиционных ЯМ, которые учатся предсказывать каждый следующий токен в корпусе, Rho-1 использует Селективное Моделирование Языка (SLM), которое выборочно обучает полезные токены, соответствующие желаемому распределению. Этот подход включает оценку токенов предварительного обучения с использованием опорной модели, а затем обучение языковой модели с упором на токены с более высокой избыточной потерей. После продолжительного предварительного обучения на корпусе 15B OpenWebMath, Rho-1 дает абсолютное улучшение в точности при небольшом количестве примеров до 30% в 9 математических задачах. После настройки, Rho-1-1B и 7B достигли передовых результатов 40.6% и 51.8% на наборе данных MATH соответственно - сравнимых с DeepSeekMath с использованием всего 3% токенов предварительного обучения. Более того, при предварительном обучении на 80B общих токенах, Rho-1 достигает среднего улучшения в 6.8% по 15 разнообразным задачам, увеличивая как эффективность, так и производительность предварительного обучения языковой модели.

OSWorld: Сравнение производительности мультимодальных агентов для задач с открытым концом в реальных компьютерных средах
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Apr 11

ByTianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Toh Jing Hua, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu

Самостоятельные агенты, выполняющие сложные компьютерные задачи с минимальным вмешательством человека, имеют потенциал изменить взаимодействие человека с компьютером, значительно улучшая доступность и производительность. Однако существующие бенчмарки либо не имеют интерактивной среды, либо ограничены средами, специфичными для определенных приложений или областей, не отражая разнообразную и сложную природу использования компьютера в реальном мире, тем самым ограничивая спектр задач и масштабируемость агентов. Для решения этой проблемы мы представляем OSWorld - первую в своем роде масштабируемую реальную компьютерную среду для мультимодальных агентов, поддерживающую настройку задач, оценку на основе выполнения и интерактивное обучение на различных операционных системах, таких как Ubuntu, Windows и macOS. OSWorld может служить единым интегрированным компьютерным окружением для оценки открытых компьютерных задач, включающих произвольные приложения. На основе OSWorld мы создаем бенчмарк из 369 компьютерных задач, включающих реальные веб- и настольные приложения в открытых областях, ввод-вывод файловой системы ОС и рабочие процессы, охватывающие несколько приложений. Каждый пример задачи происходит из реальных случаев использования компьютера и включает подробную настройку начального состояния и сценарий оценки на основе выполнения для надежной и воспроизводимой оценки. Обширное исследование современных агентов на базе LLM/VLM на OSWorld показывает значительные недостатки в их способности выступать в роли компьютерных помощников. В то время как люди могут выполнить более 72,36% задач, лучшая модель достигает лишь 12,24% успеха, в основном испытывая трудности с GUI и операционными знаниями. Комплексный анализ с использованием OSWorld предоставляет ценные идеи для разработки мультимодальных универсальных агентов, которые не были возможны с помощью предыдущих бенчмарков. Наш код, среда, базовые модели и данные доступны публично по адресу https://os-world.github.io.

ControlNet++: Улучшение Условного Управления с Эффективной Согласованностью Обратная связь
ControlNet++: Improving Conditional Controls with Efficient Consistency Feedback

Apr 11

ByMing Li, Taojiannan Yang, Huafeng Kuang, Jie Wu, Zhaoning Wang, Xuefeng Xiao, Chen Chen

Для улучшения управляемости моделей диффузии текста в изображение существующие усилия, такие как ControlNet, внедрили изображения, основанные на условных управлениях. В этой статье мы показываем, что существующие методы по-прежнему сталкиваются с значительными проблемами при генерации изображений, соответствующих изображениям условных управлений. Для этого мы предлагаем ControlNet++, новый подход, который улучшает управляемую генерацию путем явной оптимизации циклической последовательности на уровне пикселей между сгенерированными изображениями и условными управлениями. Конкретно, для входного условного управления мы используем предварительно обученную дискриминативную модель вознаграждения для извлечения соответствующего условия сгенерированных изображений, а затем оптимизируем потери согласованности между входным условным управлением и извлеченным условием. Прямолинейная реализация заключается в генерации изображений из случайных шумов, а затем расчете потерь согласованности, но такой подход требует сохранения градиентов для нескольких временных шагов выборки, что приводит к значительным временным и памятьным затратам. Для решения этой проблемы мы предлагаем эффективную стратегию вознаграждения, которая намеренно нарушает входные изображения, добавляя шум, а затем использует денойзированные изображения на один шаг для тонкой настройки вознаграждения. Это позволяет избежать значительных затрат, связанных с выборкой изображений, обеспечивая более эффективную тонкую настройку вознаграждения. Обширные эксперименты показывают, что ControlNet++ значительно улучшает управляемость при различных условных управлениях. Например, он достигает улучшений по сравнению с ControlNet на 7,9% mIoU, 13,4% SSIM и 7,6% RMSE соответственно для маски сегментации, края линейного рисунка и глубины.

RecurrentGemma: Преодоление трансформеров для эффективных моделей открытого языка
RecurrentGemma: Moving Past Transformers for Efficient Open Language Models

Apr 11

ByAleksandar Botev, Soham De, Samuel L Smith, Anushan Fernando, George-Cristian Muraru, Ruba Haroun, Leonard Berrada, Razvan Pascanu, Pier Giuseppe Sessa, Robert Dadashi, Léonard Hussenot, Johan Ferret, Sertan Girgin, Olivier Bachem, Alek Andreev, Kathleen Kenealy, Thomas Mesnard, Cassidy Hardin, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Armand Joulin, Noah Fiedel, Evan Senter, Yutian Chen, Srivatsan Srinivasan, Guillaume Desjardins, David Budden, Arnaud Doucet, Sharad Vikram, Adam Paszke, Trevor Gale, Sebastian Borgeaud, Charlie Chen, Andy Brock, Antonia Paterson, Jenny Brennan, Meg Risdal, Raj Gundluru, Nesh Devanathan, Paul Mooney, Nilay Chauhan, Phil Culliton, Luiz GUStavo Martins, Elisa Bandy, David Huntsperger, Glenn Cameron, Arthur Zucker, Tris Warkentin, Ludovic Peran, Minh Giang, Zoubin Ghahramani, Clément Farabet, Koray Kavukcuoglu, Demis Hassabis, Raia Hadsell, Yee Whye Teh, Nando de Frietas

Мы представляем RecurrentGemma, открытую языковую модель, которая использует новую архитектуру Griffin от Google. Griffin объединяет линейные рекурренты с локальным вниманием для достижения отличного качества работы с языком. Он имеет состояние фиксированного размера, что снижает использование памяти и обеспечивает эффективный вывод на длинных последовательностях. Мы предоставляем предварительно обученную модель с 2 миллиардами параметров, не включая эмбеддинги, а также вариант, настроенный по инструкции. Обе модели достигают сравнимого качества с Gemma-2B, несмотря на обучение на меньшем количестве токенов.

Ferret-v2: Улучшенный базовый уровень для ссылок и привязки с использованием больших моделей языка.
Ferret-v2: An Improved Baseline for Referring and Grounding with Large Language Models

Apr 11

ByHaotian Zhang, Haoxuan You, Philipp Dufter, Bowen Zhang, Chen Chen, Hong-You Chen, Tsu-Jui Fu, William Yang Wang, Shih-Fu Chang, Zhe Gan, Yinfei Yang

В то время как Ferret плавно интегрирует региональное понимание в Большую Языковую Модель (LLM) для облегчения ее возможности ссылки и закрепления, это представляет определенные ограничения: ограниченностью предварительно обученным фиксированным визуальным кодировщиком и неспособностью хорошо справляться с более широкими задачами. В данной работе мы представляем Ferret-v2, значительное улучшение по сравнению с Ferret, с тремя ключевыми дизайнами. (1) Закрепление и ссылка на любое разрешение: гибкий подход, который легко обрабатывает более высокое разрешение изображения, улучшая способность модели обрабатывать и понимать изображения более детально. (2) Мульти-гранулярное визуальное кодирование: путем интеграции дополнительного кодировщика DINOv2 модель изучает лучше и разнообразнее основные контексты для глобальной и мелкозернистой визуальной информации. (3) Трехэтапная парадигма обучения: помимо выравнивания изображения-подписи, предлагается дополнительный этап для плотного выравнивания высокого разрешения перед окончательной настройкой инструкции. Эксперименты показывают, что Ferret-v2 обеспечивает значительные улучшения по сравнению с Ferret и другими передовыми методами благодаря масштабированию высокого разрешения и обработке мелкозернистой визуальной информации.

Лучшие практики и извлеченные уроки по синтетическим данным для языковых моделей
Best Practices and Lessons Learned on Synthetic Data for Language Models

Apr 11

ByRuibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, Andrew M. Dai

Успех моделей искусственного интеллекта зависит от наличия больших, разнообразных и высококачественных наборов данных, получение которых может быть сложным из-за дефицита данных, проблем конфиденциальности и высоких затрат. Синтетические данные стали перспективным решением, создавая искусственные данные, имитирующие реальные паттерны. В данной статье представлен обзор исследований синтетических данных, обсуждающий их применение, вызовы и будущие направления. Мы представляем эмпирические доказательства из предыдущих работ, чтобы продемонстрировать их эффективность и подчеркнуть важность обеспечения их фактичности, достоверности и беспристрастности. Мы подчеркиваем необходимость ответственного использования синтетических данных для создания более мощных, инклюзивных и надежных языковых моделей.

LLoCO: Обучение длинным контекстам в автономном режиме
LLoCO: Learning Long Contexts Offline

Apr 11

BySijun Tan, Xiuyu Li, Shishir Patil, Ziyang Wu, Tianjun Zhang, Kurt Keutzer, Joseph E. Gonzalez, Raluca Ada Popa

Обработка длинных контекстов остается вызовом для больших языковых моделей (LLM) из-за квадратичной вычислительной и памяти исключительной нагрузки механизма самовнимания и значительных размеров кэша KV во время генерации. Мы предлагаем новый подход к решению этой проблемы путем обучения контекстов в автономном режиме через сжатие контекста и параметроэффективное донастройку в предметной области. Наш метод позволяет LLM создавать краткое представление исходного контекста и эффективно извлекать соответствующую информацию для точного ответа на вопросы. Мы представляем LLoCO, технику, которая объединяет сжатие контекста, извлечение и параметроэффективную донастройку с использованием LoRA. Наш подход расширяет эффективное окно контекста модели LLaMA2-7B на 4k токенов для обработки до 128k токенов. Мы оцениваем наш подход на нескольких наборах данных для вопросно-ответных задач с длинным контекстом, демонстрируя, что LLoCO значительно превосходит обучение в контексте, используя в 30 раз меньше токенов во время вывода. LLoCO достигает ускорения до 7.62 раз и существенно снижает стоимость ответов на вопросы в длинных документах, что делает его многообещающим решением для эффективной обработки длинных контекстов. Наш код общедоступен по адресу https://github.com/jeffreysijuntan/lloco.

УИЛБУР: Адаптивное контекстное обучение для надежных и точных веб-агентов
WILBUR: Adaptive In-Context Learning for Robust and Accurate Web Agents

Apr 8

ByMichael Lutz, Arth Bohra, Manvel Saroyan, Artem Harutyunyan, Giovanni Campagna

В области исследований веб-агентов достижение как обобщения, так и точности остается сложной задачей. Из-за высокой вариации в структуре веб-сайтов существующие подходы часто терпят неудачу. Более того, существующие техники настройки и контекстного обучения не способны обобщаться на несколько веб-сайтов. Мы представляем подход Wilbur, который использует дифференцируемую модель ранжирования и новую технику синтеза инструкций для оптимального заполнения запроса черного ящика большой языковой модели демонстрациями задач из предыдущих запусков. Для максимизации общих показателей успеха мы также предлагаем интеллектуальный механизм отката, который учится и исправляет свои ошибки. Наконец, мы показываем, что наша модель ранжирования может быть обучена на данных из генеративного авто-учебного плана, который выбирает представительные цели из LLM, запускает агента и автоматически оценивает его без ручной аннотации. Wilbur достигает передовых результатов на бенчмарке WebVoyager, превосходя модели только с текстом в целом на 8% и до 36% на определенных веб-сайтах. На том же бенчмарке Wilbur находится в пределах 5% от сильной мультимодальной модели, несмотря на то что получает только текстовые входы, и дальнейший анализ показывает, что значительное количество неудач связано с техническими проблемами при работе с веб-сайтами.

HGRN2: Рекуррентные нейронные сети с линейными воротами и расширением состояния
HGRN2: Gated Linear RNNs with State Expansion

Apr 11

ByZhen Qin, Songlin Yang, Weixuan Sun, Xuyang Shen, Dong Li, Weigao Sun, Yiran Zhong

Иерархическая воротная линейная RNN (HGRN, Цин и др., 2023) продемонстрировала конкурентоспособную скорость обучения и производительность в языковом моделировании, обеспечивая при этом эффективный вывод. Однако размер рекуррентного состояния HGRN остается относительно небольшим, что ограничивает его выразительность. Для решения этой проблемы, вдохновленные линейным вниманием, мы представляем простой механизм расширения состояния на основе внешнего произведения, благодаря которому размер рекуррентного состояния может значительно увеличиться без введения дополнительных параметров. Форма линейного внимания также позволяет эффективно использовать аппаратное обеспечение для обучения. Наши обширные эксперименты подтверждают преимущество HGRN2 перед HGRN1 в языковом моделировании, классификации изображений и в долгосрочной арене. Наша крупнейшая модель HGRN2 объемом 3 млрд нейронов незначительно превосходит Mamba и трансформерную архитектуру LLaMa в языковом моделировании в контролируемом экспериментальном окружении; и конкурентоспособна с многими открытыми моделями объемом 3 млрд в оценке на следующем уровне, используя при этом гораздо меньше общего количества обучающих токенов.

Применение руководства в ограниченном интервале улучшает качество выборки и распределения в моделях диффузии.
Applying Guidance in a Limited Interval Improves Sample and Distribution Quality in Diffusion Models

Apr 11

ByTuomas Kynkäänniemi, Miika Aittala, Tero Karras, Samuli Laine, Timo Aila, Jaakko Lehtinen

Руководство - это важная техника для извлечения наилучшей производительности из моделей диффузии, генерирующих изображения. Традиционно по всей цепочке выборки изображения применялся постоянный вес руководства. Мы показываем, что руководство явно вредно в начале цепочки (высокие уровни шума), в значительной степени излишне в конце (низкие уровни шума) и полезно только в середине. Мы ограничиваем его до определенного диапазона уровней шума, улучшая как скорость вывода, так и качество результата. Этот ограниченный интервал руководства значительно улучшает рекорд FID в ImageNet-512, с 1,81 до 1,40. Мы показываем, что это количественно и качественно полезно при различных параметрах сэмплера, архитектурах сетей и наборах данных, включая масштабную настройку Stable Diffusion XL. Мы предлагаем выставление интервала руководства в качестве гиперпараметра во всех моделях диффузии, использующих руководство.

Разреженный Лейнформер
Sparse Laneformer

Apr 11

ByJi Liu, Zifeng Zhang, Mingjie Lu, Hongyang Wei, Dong Li, Yile Xie, Jinzhang Peng, Lu Tian, Ashish Sirasao, Emad Barsoum

Обнаружение полос движения является фундаментальной задачей в автономном вождении и достигло значительного прогресса с развитием глубокого обучения. Предыдущие методы на основе якорей часто разрабатывали плотные якоря, которые сильно зависят от обучающего набора данных и остаются неизменными во время вывода. Мы анализируем, что плотные якоря не являются необходимыми для обнаружения полос движения, и предлагаем основанную на трансформере архитектуру обнаружения полос движения на основе разреженного механизма якорей. Для этого мы генерируем разреженные якоря с позиционно-осведомленными запросами полосы и запросами углов вместо традиционных явных якорей. Мы используем Горизонтальное Восприимчивое Внимание (HPA) для агрегации признаков полосы вдоль горизонтального направления и применяем Перекрестное Внимание Полосы-Угла (LACA) для взаимодействия между запросами полосы и запросами углов. Мы также предлагаем Внимание Полосы (LPA) на основе деформируемого перекрестного внимания для дальнейшего уточнения прогнозов полосы. Наш метод, названный Разреженный Лейнеформер, легко реализуем и обучаем на конечный результат. Обширные эксперименты показывают, что Разреженный Лейнеформер проявляет себя лучше по сравнению с современными методами, например, превосходя Лейнеформер на 3,0% по оценке F1 и O2SFormer на 0,7% по оценке F1 с меньшим количеством MACs на наборе данных CULane с той же основой ResNet-34.

OSWorld: Сравнение производительности мультимодальных агентов для задач с открытым концом в реальных компьютерных средах
OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments

Apr 11