HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

9 papers found

GAN мертв; да здравствует GAN! Современный базовый уровень GAN
The GAN is dead; long live the GAN! A Modern GAN Baseline

Jan 9

ByYiwen Huang, Aaron Gokaslan, Volodymyr Kuleshov, James Tompkin

Существует широко распространенное утверждение о том, что обучение генеративно-состязательных сетей (GAN) является сложным, и архитектуры GAN, представленные в литературе, полны эмпирических трюков. Мы предоставляем доказательства против этого утверждения и строим современную базовую модель GAN более принципиальным образом. Во-первых, мы вывели хорошо себя ведущую регуляризованную потерю релятивистского GAN, которая решает проблемы потери режимов и неконвергенции, которые ранее решались с помощью мешка ад-хок трюков. Мы математически проанализировали нашу потерю и доказали, что она обладает гарантиями локальной сходимости, в отличие от большинства существующих релятивистских потерь. Во-вторых, наша новая потеря позволяет нам отказаться от всех ад-хок трюков и заменить устаревшие основы, используемые в обычных GAN, современными архитектурами. Используя StyleGAN2 в качестве примера, мы представляем план упрощения и модернизации, который приводит к новой минималистической базовой модели - R3GAN. Несмотря на свою простоту, наш подход превосходит StyleGAN2 на наборах данных FFHQ, ImageNet, CIFAR и Stacked MNIST, и сравнительно успешен по сравнению с передовыми GAN и моделями диффузии.

Улучшение человекоподобных ответов в больших языковых моделях.
Enhancing Human-Like Responses in Large Language Models

Jan 9

ByEthem Yağız Çalık, Talha Rüzgar Akkuş

Данный доклад исследует прогресс в создании больших языковых моделей (БЯМ), более приближенных к человеческому образу. Мы сосредотачиваемся на методах, улучшающих понимание естественного языка, согласованность беседы и эмоциональный интеллект в системах искусственного интеллекта. В рамках исследования оцениваются различные подходы, включая донастройку с использованием разнообразных наборов данных, внедрение психологических принципов и разработку моделей, которые лучше имитируют образцы человеческого мышления. Наши результаты показывают, что эти улучшения не только повышают взаимодействие с пользователем, но и открывают новые возможности для применения искусственного интеллекта в различных областях. В дальнейшей работе будут рассмотрены этические аспекты и потенциальные предвзятости, внесенные этими человекоподобными характеристиками.

Эмпирическое исследование авторегрессионного предварительного обучения на видео
An Empirical Study of Autoregressive Pre-training from Videos

Jan 9

ByJathushan Rajasegaran, Ilija Radosavovic, Rahul Ravishankar, Yossi Gandelsman, Christoph Feichtenhofer, Jitendra Malik

Мы проводим эмпирическое исследование авторегрессионного предварительного обучения на видео. Для выполнения нашего исследования мы создаем серию авторегрессионных видеомоделей, названных Toto. Мы рассматриваем видео как последовательности визуальных токенов и обучаем модели трансформера для авторегрессивного предсказания будущих токенов. Наши модели предварительно обучаются на разнообразном наборе данных видео и изображений, включающем более 1 триллиона визуальных токенов. Мы исследуем различные архитектурные, обучающие и дизайнерские выборы. Мы оцениваем изученные визуальные представления на ряде задач в дальнейшем, включая распознавание изображений, классификацию видео, отслеживание объектов и робототехнику. Наши результаты показывают, что, несмотря на минимальные индуктивные предпочтения, авторегрессионное предварительное обучение приводит к конкурентоспособной производительности на всех бенчмарках. Наконец, мы обнаруживаем, что масштабирование наших видеомоделей приводит к аналогичным кривым масштабирования, как и в моделях языка, хотя и с другой скоростью. Более подробная информация доступна по ссылке https://brjathu.github.io/toto/

Готовы ли вариационные методы Лапласа для автономного вождения? Эмпирическое исследование с точки зрения надежности, данных и метрик.
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Jan 7

ByShaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan

Недавние достижения в моделях видео-языка (VLM) вызвали интерес к их использованию для автономного вождения, особенно в создании интерпретируемых решений вождения на естественном языке. Однако предположение, что VLM по своей природе обеспечивают визуально обоснованные, надежные и интерпретируемые объяснения для вождения, остается в значительной степени неизученным. Для решения этого пробела мы представляем DriveBench, набор данных для оценки надежности VLM в 17 сценариях (чистые, поврежденные и только текстовые входы), охватывающий 19 200 кадров, 20 498 пар вопрос-ответ, три типа вопросов, четыре основных задачи вождения и в общей сложности 12 популярных VLM. Наши результаты показывают, что VLM часто генерируют правдоподобные ответы, основанные на общих знаниях или текстовых подсказках, а не на истинном визуальном обосновании, особенно при деградированных или отсутствующих визуальных входах. Это поведение, скрытое дисбалансами в наборе данных и недостаточными метриками оценки, представляет существенные риски в сценариях, связанных с безопасностью, таких как автономное вождение. Мы также наблюдаем, что VLM испытывают трудности с мультимодальным рассуждением и проявляют повышенную чувствительность к повреждениям входных данных, что приводит к несоответствиям в производительности. Для решения этих проблем мы предлагаем усовершенствованные метрики оценки, которые придают приоритет надежному визуальному обоснованию и мультимодальному пониманию. Кроме того, мы выделяем потенциал использования осведомленности VLM о повреждениях для улучшения их надежности, предлагая план развития более надежных и интерпретируемых систем принятия решений в реальных сценариях автономного вождения. Набор инструментов для оценки доступен публично.

Центурио: О водителях многоязычной способности крупной модели видео-языка.
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model

Jan 9

ByGregor Geigle, Florian Schneider, Carolin Holtermann, Chris Biemann, Radu Timofte, Anne Lauscher, Goran Glavaš

Большинство крупных моделей видео-языка (LVLM) на сегодняшний день обучаются в основном на английских данных, что затрудняет понимание ими неанглоязычных входных данных и приводит к невозможности генерации вывода на желаемом целевом языке. Существующие усилия по решению этих проблем включают добавление мультиязычных обучающих данных, однако это происходит в значительной степени спонтанно, лишенное понимания того, как различные комбинации обучающих данных влияют на разные группы языков. В данной работе мы представляем всестороннее исследование стратегий обучения для массово мультиязычных моделей видео-языка. Во-первых, мы проводим серию многоэтапных экспериментов, охватывающих 13 последующих задач видео-языка и 43 языка, систематически исследуя: (1) количество обучающих языков, которые можно включить без ухудшения производительности на английском языке, и (2) оптимальные языковые распределения для предварительного обучения, а также (3) данных настройки инструкций. Кроме того, мы (4) исследуем способы улучшения мультиязычного понимания текста в изображении и представляем новый показатель для этой задачи. Удивительно, наш анализ показывает, что можно (i) включить одновременно до 100 обучающих языков (ii) с использованием всего 25-50\% неанглоязычных данных, чтобы значительно улучшить мультиязычную производительность, сохраняя при этом сильную производительность на английском языке. Мы также обнаружили, что (iii) включение неанглоязычных данных OCR в предварительное обучение и настройку инструкций является ключевым для улучшения мультиязычного понимания текста в изображении. Наконец, мы объединяем все наши результаты и обучаем Centurio, многопредметную модель видео-языка на 100 языках, предлагая передовую производительность в оценке, охватывающей 14 задач и 56 языков.

SWE-Fixer: Обучение открытым LLM-моделям для эффективного и эффективного решения проблем на GitHub.
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution

Jan 9

ByChengxing Xie, Bowen Li, Chang Gao, He Du, Wai Lam, Difan Zou, Kai Chen

Большие языковые модели (LLM) продемонстрировали выдающуюся компетентность в решении разнообразных сложных задач. Одним из значительных применений LLM является решение задач программной инженерии, особенно в разрешении реальных задач на GitHub путем исправления кода на основе проблем, сообщенных пользователями. Однако многие существующие подходы полагаются на собственные LLM, что ограничивает воспроизводимость, доступность и прозрачность. Критические компоненты LLM для решения проблем программной инженерии и способы эффективного улучшения их возможностей остаются неясными. Для решения этих проблем мы представляем SWE-Fixer, новую открытую LLM, разработанную для эффективного и эффективного решения проблем на GitHub. SWE-Fixer состоит из двух основных модулей: модуля извлечения файлов с кодом и модуля редактирования кода. Модуль извлечения использует BM25 вместе с легковесной моделью LLM для достижения грубого и точного извлечения файлов. Затем модуль редактирования кода использует другую модель LLM для генерации патчей для выявленных файлов. Затем, чтобы компенсировать отсутствие общедоступных наборов данных, мы составляем обширный набор данных, включающий 110 тыс. проблем на GitHub вместе с соответствующими патчами, и обучаем два модуля SWE-Fixer отдельно. Мы оцениваем наш подход на бенчмарках SWE-Bench Lite и Verified, достигая передового качества с оценками соответственно 23,3% и 30,2% среди моделей с открытым исходным кодом. Эти результаты подчеркивают эффективность нашего подхода. Мы собираемся сделать нашу модель, набор данных и код общедоступными на https://github.com/InternLM/SWE-Fixer.

О вычислительных ограничениях и доказуемо эффективных критериях визуальных авторегрессионных моделей: анализ сложности с тонкой детализацией.
On Computational Limits and Provably Efficient Criteria of Visual Autoregressive Models: A Fine-Grained Complexity Analysis

Jan 8

ByYekun Ke, Xiaoyu Li, Yingyu Liang, Zhizhou Sha, Zhenmei Shi, Zhao Song

Недавно модели визуальной авторегрессии (VAR) представили прорывное достижение в области генерации изображений, предлагая масштабируемый подход через грубо-детальную парадигму "предсказание следующего масштаба". Однако современный алгоритм моделей VAR в [Tian, Jiang, Yuan, Peng и Wang, NeurIPS 2024] требует времени O(n^4), что является вычислительно неэффективным. В данной работе мы анализируем вычислительные ограничения и критерии эффективности моделей VAR через призму детальной сложности. Нашим ключевым вкладом является выявление условий, при которых вычисления VAR могут достигать субквадратичной сложности по времени. Конкретно, мы устанавливаем критический порог для нормы входных матриц, используемых в механизмах внимания VAR. Выше этого порога, предполагая Гипотезу о сильном экспоненциальном времени (SETH) из теории детальной сложности, субквадратичный алгоритм времени для моделей VAR невозможен. Для подтверждения наших теоретических выводов мы представляем эффективные конструкции, использующие низкоранговые аппроксимации, соответствующие полученным критериям. Эта работа инициирует изучение вычислительной эффективности модели VAR с теоретической точки зрения. Наш метод прольет свет на продвижение масштабируемой и эффективной генерации изображений в рамках VAR.

Энтропийно-управляемое внимание для частных LLMs
Entropy-Guided Attention for Private LLMs

Jan 7

ByNandan Kumar Jha, Brandon Reagen

Всеобщее распространение собственных языковых моделей вызвало серьезные проблемы конфиденциальности, требующие развития в области частного вывода (PI), где вычисления выполняются непосредственно над зашифрованными данными без раскрытия чувствительной информации пользователей. Хотя PI предлагает многообещающее решение, его практическое внедрение затруднено значительными накладными расходами на связь и задержками, в основном вызванными нелинейными операциями. Для решения этой проблемы мы представляем информационно-теоретическую основу для характеристики роли нелинейностей в моделях языка только декодера, заложив принципиальное основание для оптимизации архитектур трансформеров, адаптированных к требованиям PI. Путем использования энтропии Шеннона в качестве количественной меры мы раскрываем ранее не исследованный двойной смысл нелинейностей: помимо обеспечения стабильности обучения, они критически важны для поддержания разнообразия внимательных голов. В частности, мы обнаружили, что их удаление вызывает два критических режима сбоя: {\em коллапс энтропии} в более глубоких слоях, что нарушает стабильность обучения, и {\em энтропийное перегрузка} в более ранних слоях, что приводит к недоиспользованию представительной способности многоголового внимания (MHA). Мы предлагаем механизм внимания, направленный на энтропию, совместно с новой техникой регуляризации энтропии для смягчения энтропийной перегрузки. Кроме того, мы исследуем PI-дружественные альтернативы нормализации слоя для предотвращения коллапса энтропии и стабилизации обучения LLM с уменьшенными нелинейностями. Наше исследование сокращает разрыв между теорией информации и архитектурным дизайном, устанавливая динамику энтропии как принципиальное руководство для разработки эффективных архитектур PI. Код и реализация доступны по ссылке https://github.com/Nandan91/entropy-guided-attention-llm{entropy-guided-llm}.

Формирование основ для обработки естественного языка исторического турецкого языка: ресурсы и модели
Building Foundations for Natural Language Processing of Historical Turkish: Resources and Models

Jan 8

ByŞaziye Betül Özateş, Tarık Emre Tıraş, Ece Elif Adak, Berat Doğan, Fatih Burak Karagöz, Efe Eren Genç, Esma F. Bilgin Taşdemir

Эта статья представляет основные ресурсы и модели для обработки естественного языка (NLP) исторического турецкого языка, области, которая осталась мало исследованной в вычислительной лингвистике. Мы представляем первый набор данных для распознавания именованных сущностей (NER) - HisTR и первый деревянный банк данных Universal Dependencies, OTA-BOUN для исторической формы турецкого языка, а также модели на основе трансформера, обученные с использованием этих наборов данных для задач распознавания именованных сущностей, синтаксического анализа зависимостей и разметки частей речи. Кроме того, мы представляем Османский текстовый корпус (OTC), чистый корпус транслитерированных исторических турецких текстов, охватывающий широкий диапазон исторических периодов. Наши экспериментальные результаты показывают значительное улучшение вычислительного анализа исторического турецкого языка, достигая многообещающих результатов в задачах, требующих понимания исторических языковых структур. Они также выделяют существующие проблемы, такие как адаптация к области и вариации языка в течение разных исторических периодов. Все представленные ресурсы и модели доступны по адресу https://huggingface.co/bucolin для использования в качестве эталона для будущего прогресса в области NLP исторического турецкого языка.

Готовы ли вариационные методы Лапласа для автономного вождения? Эмпирическое исследование с точки зрения надежности, данных и метрик.
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives

Jan 7

ByShaoyuan Xie, Lingdong Kong, Yuhao Dong, Chonghao Sima, Wenwei Zhang, Qi Alfred Chen, Ziwei Liu, Liang Pan