HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

25 papers found

Кэмбрий-1: Полностью открытое, ориентированное на зрение исследование мультимодальных языковых моделей.
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

Jun 24

ByShengbang Tong, Ellis Brown, Penghao Wu, Sanghyun Woo, Manoj Middepogu, Sai Charitha Akula, Jihan Yang, Shusheng Yang, Adithya Iyer, Xichen Pan, Austin Wang, Rob Fergus, Yann LeCun, Saining Xie

Мы представляем Cambrian-1, семейство мультимодальных языковых моделей (MLLMs), разработанных с учетом визионерного подхода. Хотя более мощные языковые модели могут улучшить мультимодальные возможности, выбор дизайна для компонентов зрения часто недостаточно исследован и оторван от исследований обучения визуального представления. Этот разрыв затрудняет точное сопоставление сенсорных данных в реальных сценариях. Наше исследование использует LLMs и настройку визуальных инструкций в качестве интерфейса для оценки различных визуальных представлений, предлагая новые идеи по различным моделям и архитектурам - на основе экспериментов с более чем 20 кодировщиками зрения. Мы критически рассматриваем существующие бенчмарки MLLM, решая трудности, связанные с объединением и интерпретацией результатов из различных задач, и представляем новый визионерный бенчмарк, CV-Bench. Для дальнейшего улучшения визуального сопоставления мы предлагаем Пространственный Визионерный Агрегатор (SVA), динамический и пространственно осознающий коннектор, который интегрирует высокоразрешенные визионерные характеристики с LLMs, сокращая количество токенов. Кроме того, мы обсуждаем курирование высококачественных данных настройки визуальных инструкций из общедоступных источников, подчеркивая важность балансировки и распределения данных. В целом, Cambrian-1 не только достигает передовой производительности, но и служит всесторонним, открытым справочником для настроенных по инструкции MLLMs. Мы предоставляем веса модели, код, вспомогательные инструменты, наборы данных и подробные инструкции по настройке и оценке. Мы надеемся, что наш выпуск вдохновит и ускорит прогресс в мультимодальных системах и обучении визуальному представлению.

DreamBench++: Человеко-ориентированный бенчмарк для персонализированной генерации изображений
DreamBench++: A Human-Aligned Benchmark for Personalized Image Generation

Jun 24

ByYuang Peng, Yuxin Cui, Haomiao Tang, Zekun Qi, Runpei Dong, Jing Bai, Chunrui Han, Zheng Ge, Xiangyu Zhang, Shu-Tao Xia

Персонализированная генерация изображений обладает большим потенциалом для помощи людям в повседневной работе и жизни благодаря ее впечатляющей функции творческого создания персонализированного контента. Однако текущие оценки либо автоматизированы, но не соответствуют людям, либо требуют оценки людьми, что занимает много времени и денег. В данной работе мы представляем DreamBench++, бенчмарк, выровненный по человеку, автоматизированный с помощью передовых мультимодальных моделей GPT. Конкретно, мы систематически разрабатываем подсказки, чтобы GPT был как выровнен по человеку, так и сам по себе, усиленный задачей обратной связи. Кроме того, мы создаем обширный набор данных, включающий разнообразные изображения и подсказки. Проведя сравнительный анализ 7 современных генеративных моделей, мы демонстрируем, что DreamBench++ приводит к значительно более выровненной по человеку оценке, способствуя развитию сообщества через инновационные результаты.

BigCodeBench: Оценка производительности генерации кода с разнообразными вызовами функций и сложными инструкциями
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions

Jun 22

ByTerry Yue Zhuo, Minh Chien Vu, Jenny Chim, Han Hu, Wenhao Yu, Ratnadira Widyasari, Imam Nur Bani Yusuf, Haolan Zhan, Junda He, Indraneil Paul, Simon Brunner, Chen Gong, Thong Hoang, Armel Randy Zebaze, Xiaoheng Hong, Wen-Ding Li, Jean Kaddour, Ming Xu, Zhihan Zhang, Prateek Yadav, Naman Jain, Alex Gu, Zhoujun Cheng, Jiawei Liu, Qian Liu, Zijian Wang, David Lo, Binyuan Hui, Niklas Muennighoff, Daniel Fried, Xiaoning Du, Harm de Vries, Leandro Von Werra

Автоматизированная инженерия программного обеспечения была значительно усилена недавними достижениями в области больших языковых моделей (LLM) для программирования. Хотя текущие бенчмарки показали, что LLM могут выполнять различные задачи по инженерии программного обеспечения, подобно человеческим разработчикам, большинство их оценок ограничены короткими и самодостаточными алгоритмическими задачами. Решение сложных и практических программных задач требует возможности использования разнообразных вызовов функций в качестве инструментов для эффективной реализации функциональностей, таких как анализ данных и веб-разработка. Кроме того, использование нескольких инструментов для решения задачи требует композиционного мышления при точном понимании сложных инструкций. Сочетание этих характеристик может представлять собой большое испытание для LLM. Для оценки способности LLM решать сложные и практические программные задачи мы представляем Bench, бенчмарк, который ставит перед LLM задачу вызова нескольких вызовов функций в качестве инструментов из 139 библиотек и 7 областей для 1,140 тонких программных задач. Для тщательной оценки LLM каждая программная задача включает 5.6 тестовых случаев с средним покрытием ветвей 99%. Кроме того, мы предлагаем вариант Bench, Benchi, ориентированный на естественный язык, который автоматически преобразует исходные документации в краткие инструкции только с основной информацией. Наше обширное исследование 60 LLM показывает, что LLM пока не способны точно следовать сложным инструкциям по использованию вызовов функций, с результатами до 60%, значительно ниже человеческой производительности 97%. Полученные результаты подчеркивают необходимость дальнейших достижений в этой области.

Оценка D-MERIT частичной аннотации в информационном поиске
Evaluating D-MERIT of Partial-annotation on Information Retrieval

Jun 23

ByRoyi Rassin, Yaron Fairstein, Oren Kalinsky, Guy Kushilevitz, Nachshon Cohen, Alexander Libov, Yoav Goldberg

Модели извлечения часто оцениваются на частично аннотированных наборах данных. Каждый запрос сопоставляется с несколькими релевантными текстами, а оставшаяся корпусная коллекция считается несущественной. В результате модели, успешно извлекающие ложные отрицательные результаты, наказываются при оценке. К сожалению, полная аннотация всех текстов для каждого запроса не является ресурсоэффективной. В данной работе мы показываем, что использование частично аннотированных наборов данных при оценке может исказить картину. Мы создали D-MERIT, набор данных для оценки извлечения отрывков из Википедии, стремясь включить все релевантные отрывки для каждого запроса. Запросы описывают группу (например, "журналы о лингвистике"), а релевантные отрывки являются доказательством того, что сущности принадлежат к группе (например, отрывок, указывающий на то, что "Язык" - журнал о лингвистике). Мы показываем, что оценка на наборе данных, содержащем аннотации только для подмножества релевантных отрывков, может привести к вводящему в заблуждение ранжированию систем извлечения и что с увеличением количества релевантных текстов в наборе оценки ранжировки сходятся. Мы предлагаем наш набор данных в качестве ресурса для оценки и наше исследование в качестве рекомендации по балансу между ресурсоэффективностью и надежной оценкой при аннотировании наборов данных для извлечения текста.

Долгосрочная передача контекста от языка к зрению
Long Context Transfer from Language to Vision

Jun 24

ByPeiyuan Zhang, Kaichen Zhang, Bo Li, Guangtao Zeng, Jingkang Yang, Yuanhan Zhang, Ziyue Wang, Haoran Tan, Chunyuan Li, Ziwei Liu

Видеоряды предоставляют ценную временную информацию, но существующие крупные мультимодальные модели (LMM) не справляются с пониманием чрезвычайно длинных видео. Многие работы решают эту проблему, уменьшая количество визуальных токенов с помощью визуальных ресэмплеров. В данной статье мы подходим к этой проблеме с точки зрения языковой модели. Просто экстраполируя длину контекста языкового основания, мы позволяем LMM понимать порядки большего количества визуальных токенов без какого-либо видеообучения. Мы называем это явление передачей длинного контекста и внимательно анализируем его свойства. Для эффективного измерения способности LMM обобщать на длинные контексты в модальности зрения мы разрабатываем V-NIAH (Visual Needle-In-A-Haystack), чисто синтетический длинный визуальный бенчмарк, вдохновленный тестом NIAH языковой модели. Наш предложенный Длинный Видеоассистент (LongVA) может обрабатывать 2000 кадров или более 200 тыс. визуальных токенов без дополнительных сложностей. Благодаря расширенной длине контекста LongVA достигает передовых результатов на Video-MME среди моделей масштаба 7 млрд, плотно выбирая больше входных кадров. Наша работа доступна в открытом доступе на https://github.com/EvolvingLMMs-Lab/LongVA.

Видео-Бесконечность: Распределенная Генерация Длинных Видео
Video-Infinity: Distributed Long Video Generation

Jun 24

ByZhenxiong Tan, Xingyi Yang, Songhua Liu, Xinchao Wang

Модели диффузии недавно достигли выдающихся результатов в генерации видео. Несмотря на обнадеживающие показатели, сгенерированные видеоролики обычно ограничены небольшим количеством кадров, что приводит к длительности клипов всего несколько секунд. Основные проблемы в создании более длинных видео включают значительные требования к памяти и увеличенное время обработки, необходимое для одного GPU. Простым решением было бы распределение нагрузки между несколькими GPU, что, однако, приводит к двум проблемам: (1) обеспечение эффективного взаимодействия всех GPU для обмена информацией о времени и контексте, и (2) модификация существующих моделей диффузии видео, обычно обученных на коротких последовательностях, для создания более длинных видео без дополнительного обучения. Для решения этих проблем в данной статье мы представляем Video-Infinity, распределенный конвейер вывода, который позволяет параллельную обработку на нескольких GPU для генерации длинных видеоформатов. Конкретно, мы предлагаем два согласованных механизма: параллелизм клипов и двойное внимание. Параллелизм клипов оптимизирует сбор и обмен контекстной информацией между GPU, что минимизирует накладные расходы на связь, в то время как двойное внимание модулирует временное самовнимание для эффективного балансирования локальных и глобальных контекстов на устройствах. Вместе эти два механизма объединяют усилия для распределения нагрузки и обеспечивают быструю генерацию длинных видео. При настройке на 8 x Nvidia 6000 Ada GPU (48G) наш метод генерирует видео длиной до 2 300 кадров примерно за 5 минут, обеспечивая генерацию длинных видео со скоростью в 100 раз выше, чем у предыдущих методов.

Видеохоллуцинатор: Оценка внутренних и внешних галлюцинаций в Больших видео-языковых моделях
VideoHallucer: Evaluating Intrinsic and Extrinsic Hallucinations in Large Video-Language Models

Jun 24

ByYuxuan Wang, Yueqian Wang, Dongyan Zhao, Cihang Xie, Zilong Zheng

Недавние достижения в области мультимодальных крупных языковых моделей (MLLM) расширили их возможности до понимания видео. Тем не менее, эти модели часто страдают от "галлюцинаций", когда генерируется несвязанное или бессмысленное содержание, отклоняющееся от фактического контекста видео. В данной работе представлен VideoHallucer, первый всесторонний бенчмарк для обнаружения галлюцинаций в крупных видео-языковых моделях (LVLM). VideoHallucer классифицирует галлюцинации на два основных типа: внутренние и внешние, предлагая дополнительные подкатегории для детального анализа, включая объектно-относительные, временные, семантические детали, внешние фактические и внешние неверные галлюцинации. Мы применяем адверсариальный бинарный метод VideoQA для всесторонней оценки, где стратегически создаются пары базовых и галлюцинированных вопросов. Оценив одиннадцать LVLM на VideoHallucer, мы выявляем, что i) большинство текущих моделей имеют значительные проблемы с галлюцинациями; ii) хотя масштабирование наборов данных и параметров улучшает способность моделей обнаруживать базовые визуальные подсказки и контрфактические утверждения, это приносит ограниченную пользу для обнаружения внешних фактических галлюцинаций; iii) существующие модели более способны обнаруживать факты, чем идентифицировать галлюцинации. Как побочный результат, эти анализы дополнительно направляют развитие нашей структуры self-PEP, достигая в среднем улучшения устойчивости к галлюцинациям на 5,38% для всех архитектур моделей.

WARP: О преимуществах взвешенных средних вознагражденных политик.
WARP: On the Benefits of Weight Averaged Rewarded Policies

Jun 24

ByAlexandre Ramé, Johan Ferret, Nino Vieillard, Robert Dadashi, Léonard Hussenot, Pierre-Louis Cedoz, Pier Giuseppe Sessa, Sertan Girgin, Arthur Douillard, Olivier Bachem

Обучение с подкреплением на основе обратной связи от человека (RLHF) выравнивает большие языковые модели (LLM), поощряя их генерации с высокими вознаграждениями с использованием модели вознаграждения, обученной на человеческих предпочтениях. Для предотвращения забывания предварительных знаний RLHF обычно включает регуляризацию KL; это заставляет политику оставаться близкой к своей надзорной тонкой настройке инициализации, хотя это затрудняет оптимизацию вознаграждения. Чтобы решить компромисс между KL и вознаграждением, в данной статье мы представляем новую стратегию выравнивания под названием Weight Averaged Rewarded Policies (WARP). WARP объединяет политики в пространстве весов на трех различных этапах. Во-первых, он использует экспоненциальное скользящее среднее политики в качестве динамической якорной точки в регуляризации KL. Во-вторых, он применяет сферическую интерполяцию для слияния независимо настроенных политик в новую улучшенную. В-третьих, он линейно интерполирует между этой объединенной моделью и инициализацией, чтобы восстановить функции из предварительного обучения. Эта процедура затем применяется итеративно, причем окончательная модель каждой итерации используется в качестве продвинутой инициализации для следующей, постепенно уточняя фронт КЛ-вознаграждения, достигая превосходных вознаграждений при фиксированном KL. Эксперименты с политиками GEMMA подтверждают, что WARP улучшает их качество и выравнивание, превосходя другие LLM с открытым исходным кодом.

Законы масштабирования для языковых моделей с линейной сложностью
Scaling Laws for Linear Complexity Language Models

Jun 24

ByXuyang Shen, Dong Li, Ruitao Leng, Zhen Qin, Weigao Sun, Yiran Zhong

Интерес к моделям с линейной сложностью для больших языковых моделей растет, хотя их способность к масштабированию остается неопределенной. В данном исследовании мы представляем законы масштабирования для языковых моделей с линейной сложностью, чтобы установить основу для их масштабируемости. Конкретно, мы изучаем поведение масштабирования трех эффективных линейных архитектур. Среди них TNL, линейная модель внимания с декрементом, не зависящим от данных; HGRN2, линейная RNN с декрементом, зависящим от данных; и cosFormer2, линейная модель внимания без декремента. Мы также включаем LLaMA в качестве базовой архитектуры для мягкого внимания softmax для сравнения. Эти модели обучались шестью вариантами, варьирующимися от 70 миллионов до 7 миллиардов параметров на корпусе из 300 миллиардов токенов и оценивались с общим числом 1,376 промежуточных контрольных точек на различных задачах. Эти задачи включают потери валидации, рассуждения на здравый смысл и информационный поиск и генерацию. Исследование показывает, что существующие языковые модели с линейной сложностью обладают аналогичными возможностями масштабирования, как и традиционные модели на основе трансформеров, продемонстрировав при этом более высокую лингвистическую компетентность и удержание знаний.

Эффективное непрерывное предварительное обучение путем снижения разрыва стабильности.
Efficient Continual Pre-training by Mitigating the Stability Gap

Jun 21

ByYiduo Guo, Jie Fu, Huishuai Zhang, Dongyan Zhao, Yikang Shen

Продолжительное предварительное обучение все более становится основным подходом для адаптации крупных языковых моделей (КЯМ) к новым областям. Этот процесс включает в себя обновление предварительно обученной КЯМ корпусом из новой области, что приводит к изменению распределения обучения. Для изучения поведения КЯМ во время этого изменения мы измерили производительность модели на протяжении процесса продолжительного предварительного обучения. Мы обнаружили временное снижение производительности в начале, за которым последовала фаза восстановления, феномен, известный как "разрыв стабильности", ранее отмеченный в моделях зрения, классифицирующих новые классы. Для решения этой проблемы и улучшения производительности КЯМ в рамках фиксированного вычислительного бюджета мы предлагаем три эффективные стратегии: (1) Постоянное предварительное обучение КЯМ на подмножестве правильного размера в течение нескольких эпох, что приводит к более быстрому восстановлению производительности, чем предварительное обучение КЯМ на большом корпусе за одну эпоху; (2) Предварительное обучение КЯМ только на высококачественном подкорпусе, что быстро повышает производительность в области; и (3) Использование смеси данных, аналогичной данным предварительного обучения, для уменьшения разрыва в распределении. Мы проводим различные эксперименты на моделях семейства Llama для подтверждения эффективности наших стратегий как в медицинском продолжительном предварительном обучении, так и в настройке инструкций. Например, наши стратегии улучшают среднюю производительность медицинской задачи модели OpenLlama-3B с 36,2% до 40,7% всего с 40% от изначального бюджета обучения и улучшают среднюю общую производительность задач без вызывания забывания. Более того, мы применяем наши стратегии к модели Llama-3-8B. Полученная модель, Llama-3-Physician, достигает лучшей медицинской производительности среди текущих моделей с открытым исходным кодом и выполняет сравнимо или даже лучше, чем GPT-4, на нескольких медицинских бенчмарках. Мы выпускаем наши модели на сайте https://huggingface.co/YiDuo1999/Llama-3-Physician-8B-Instruct.

К быстрому многоязычному выводу LLM: спекулятивное декодирование и специализированные черновики
Towards Fast Multilingual LLM Inference: Speculative Decoding and Specialized Drafters

Jun 24

ByEuiin Yi, Taehyeon Kim, Hongseok Jeung, Du-Seong Chang, Se-Young Yun

Большие языковые модели (LLM) революционизировали обработку естественного языка и расширили свою применимость в различных коммерческих приложениях. Однако развертывание этих моделей ограничено высоким временем вывода в мультиязычных средах. Для преодоления этого вызова в данной статье исследуется метод обучения вспомогательной модели при спекулятивном декодировании, которое используется для составления черновика, а затем его будущие токены проверяются целевой LLM. Мы показываем, что языковые черновые модели, оптимизированные с помощью целевой стратегии предварительного обучения и донастройки, значительно ускоряют время вывода по сравнению с предыдущими методами. Мы проверяем эти модели на различных языках по времени вывода, ускорению вне области и оценке GPT-4o.

Sparser работает быстрее, и меньше - это больше: эффективное разреженное внимание для трансформеров с большим диапазоном.
Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers

Jun 24

ByChao Lou, Zixia Jia, Zilong Zheng, Kewei Tu

Эффективное обработка длинных последовательностей в авторегрессионных трансформерах, особенно в рамках расширенного окна контекста, представляет существенные трудности из-за квадратичной вычислительной сложности и значительных требований к памяти KV, присущих механизмам самовнимания. В данной работе мы представляем SPARSEK Attention, новый разреженный механизм внимания, разработанный для преодоления этих вычислительных и памятных препятствий при сохранении производительности. Наш подход интегрирует сеть оценки и дифференцируемый оператор маскирования top-k, SPARSEK, для выбора постоянного числа пар KV для каждого запроса, тем самым обеспечивая оптимизацию на основе градиентов. В результате SPARSEK Attention предлагает линейную временную сложность и постоянный объем памяти во время генерации. Экспериментальные результаты показывают, что SPARSEK Attention превосходит предыдущие разреженные методы внимания и обеспечивает значительное увеличение скорости как во время обучения, так и вывода, особенно в языковом моделировании и задачах на уровне приложений. Более того, наш метод может быть легко интегрирован в предварительно обученные Большие Языковые Модели (LLM) с минимальной донастройкой, предлагая практическое решение для эффективного управления дальнодействующими зависимостями в различных приложениях.

Семантические зонды энтропии: надежное и дешевое обнаружение галлюцинаций в языковых моделях с ограниченной памятью
Semantic Entropy Probes: Robust and Cheap Hallucination Detection in LLMs

Jun 22

ByJannik Kossen, Jiatong Han, Muhammed Razzak, Lisa Schut, Shreshth Malik, Yarin Gal

Мы предлагаем семантические зонды энтропии (SEPs) - дешевый и надежный метод для количественной оценки неопределенности в больших языковых моделях (LLMs). Галлюцинации, которые звучат правдоподобно, но фактически неверны и произвольны, представляют собой основное препятствие для практического применения LLMs. Недавние исследования Фарквара и др. (2024) предлагают семантическую энтропию (SE), которая может обнаруживать галлюцинации, оценивая неопределенность в пространстве семантического значения для набора модельных генераций. Однако увеличение в 5-10 раз стоимости вычислений, связанное с вычислением SE, затрудняет практическое применение. Для решения этой проблемы мы предлагаем SEPs, которые напрямую приближают SE из скрытых состояний одной генерации. SEPs просты в обучении и не требуют выборки нескольких модельных генераций во время тестирования, снижая издержки на количественную оценку семантической неопределенности практически до нуля. Мы показываем, что SEPs сохраняют высокую производительность в обнаружении галлюцинаций и лучше обобщаются на данные вне распределения, чем предыдущие методы зондирования, которые напрямую предсказывают точность модели. Наши результаты по моделям и задачам подтверждают, что скрытые состояния модели улавливают SE, и наши исследования абляции дают дополнительные идеи о позициях токенов и слоях модели, для которых это имеет место.

За пределами пошаговой игры: обеспечение реального времени бесед с моделями Duplex
Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models

Jun 22

ByXinrong Zhang, Yingfa Chen, Shengding Hu, Xu Han, Zihang Xu, Yuanwei Xu, Weilin Zhao, Maosong Sun, Zhiyuan Liu

Поскольку большие языковые модели (LLM) все более проникают в повседневную жизнь, возрастает потребность в интерактивности в реальном времени, которая была бы похожа на человеческие разговоры. Традиционные чат-системы с поочередным обменом сообщениями, управляемые LLM, не позволяют пользователям взаимодействовать устно с системой во время генерации ответов. Для преодоления этих ограничений мы адаптируем существующие LLM к дуплексным моделям, чтобы эти LLM могли слушать пользователей во время генерации вывода и динамически корректировать себя для предоставления пользователям мгновенной обратной связи, например, в ответ на прерывания. Конкретно, мы делим запросы и ответы разговоров на несколько временных срезов, а затем применяем стратегию кодирования-декодирования с временным мультиплексированием (TDM) для псевдо-одновременной обработки этих срезов. Кроме того, чтобы сделать LLM достаточно квалифицированными для обработки разговоров в реальном времени, мы создаем набор данных для донастройки, состоящий из чередующихся временных срезов запросов и ответов, а также охватывающий типичные виды обратной связи в мгновенных взаимодействиях. Наши эксперименты показывают, что хотя запросы и ответы разговоров разбиваются на неполные срезы для обработки, LLM могут сохранить свою исходную производительность на стандартных бенчмарках с несколькими шагами донастройки нашего набора данных. Автоматическая и человеческая оценка показывают, что дуплексные модели делают взаимодействие пользователя с искусственным интеллектом более естественным и похожим на человеческое, и значительно повышают удовлетворенность пользователя по сравнению с обычными LLM. Нашу дуплексную модель и набор данных будут опубликованы.

Настройка предпочтений для смягчения токсичности обобщается на разные языки.
Preference Tuning For Toxicity Mitigation Generalizes Across Languages

Jun 23

ByXiaochen Li, Zheng-Xin Yong, Stephen H. Bach

Детоксикация многоязычных моделей больших языковых объемов (LLM) стала крайне важной из-за их все более широкого мирового использования. В данной работе мы исследуем перекрестную обобщаемость настройки предпочтений в детоксикации LLM методом нулевой настройки межъязыковой. В отличие от предыдущих исследований, которые показывают ограниченную перекрестную обобщаемость для других задач безопасности, мы демонстрируем, что обучение прямой оптимизации предпочтений (DPO) только на английских данных может значительно снизить токсичность в многоязычных открытых генерациях. Например, вероятность того, что mGPT-1.3B сгенерирует токсичные продолжения, снижается с 46,8% до 3,9% на 17 различных языках после обучения. Наши результаты также распространяются на другие многоязычные LLM, такие как BLOOM, Llama3 и Aya-23. Используя механистические инструменты интерпретации, такие как причинное вмешательство и анализ активации, мы выявили двойственное многоязычное свойство слоев MLP в LLM, что объясняет перекрестную обобщаемость DPO. Наконец, мы показываем, что двуязычное извлечение предложений может предсказать переносимость через языковые границы настройки предпочтений DPO.

Автоопределение: к единой концепции автоматизированного обнаружения уязвимостей в больших языковых моделях
AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models

Jun 24

ByJiale Cheng, Yida Lu, Xiaotao Gu, Pei Ke, Xiao Liu, Yuxiao Dong, Hongning Wang, Jie Tang, Minlie Huang

Хотя большие языковые модели (Large Language Models, LLM) становятся все более мощными, они все еще проявляют значительные, но тонкие слабости, такие как ошибки в выполнении инструкций или задачах по кодированию. Поскольку эти непредвиденные ошибки могут привести к серьезным последствиям при практическом применении, крайне важно систематически исследовать ограничения в LLM. Традиционные подходы к оценке производительности не могут полностью выявить конкретные недостатки модели, в то время как ручные проверки затратны и не масштабируются. В данной статье мы представляем унифицированную структуру, AutoDetect, для автоматического выявления слабостей в LLM на различных задачах. Вдохновленный процессом образовательной оценки, который измеряет результаты обучения студентов, AutoDetect состоит из трех агентов на базе LLM: Экзаменатор, Опрашивающий и Оценщик. Сотрудничество между этими тремя агентами разработано для реализации всестороннего и глубокого выявления слабостей. Наша структура демонстрирует значительный успех в выявлении недостатков, с уровнем успешного выявления превышающим 30% в известных моделях, таких как ChatGPT и Claude. Более того, эти выявленные слабости могут направить на конкретные улучшения модели, доказывая большую эффективность по сравнению с методами нецелевого увеличения данных, такими как Self-Instruct. Наш подход привел к существенным улучшениям в популярных LLM, включая серии Llama и Mistral-7b, увеличивая их производительность на более чем 10% по нескольким показателям. Код и данные общедоступны на https://github.com/thu-coai/AutoDetect.

Нейроны регулирования уверенности в языковых моделях
Confidence Regulation Neurons in Language Models

Jun 24

ByAlessandro Stolfo, Ben Wu, Wes Gurnee, Yonatan Belinkov, Xingyi Song, Mrinmaya Sachan, Neel Nanda

Несмотря на широкое использование, механизмы, с помощью которых большие языковые модели (LLM) представляют и регулируют неопределенность в прогнозах следующего токена, остаются в значительной степени неизученными. В данном исследовании исследуются два критических компонента, которые, как считается, влияют на эту неопределенность: недавно обнаруженные нейроны энтропии и новый набор компонентов, которые мы называем нейронами частоты токенов. Нейроны энтропии характеризуются необычайно высокой нормой веса и влияют на масштабирование окончательной нормализации слоя (LayerNorm), чтобы эффективно уменьшить логиты. Наша работа показывает, что нейроны энтропии действуют, записываясь на невстраиваемое нулевое пространство, что позволяет им воздействовать на норму остаточного потока с минимальным прямым воздействием на сами логиты. Мы наблюдаем присутствие нейронов энтропии в различных моделях, вплоть до 7 миллиардов параметров. С другой стороны, нейроны частоты токенов, которые мы обнаруживаем и описываем здесь впервые, увеличивают или подавляют логит каждого токена пропорционально его логарифмической частоте, тем самым сдвигая распределение вывода к или от униграммного распределения. Наконец, мы представляем подробное кейс-исследование, в котором нейроны энтропии активно управляют уверенностью в условиях индукции, то есть обнаружения и продолжения повторяющихся подпоследовательностей.

Сколько параметров нужно, чтобы поменять лампочку? Оценка производительности в самостоятельной игре в разговорные игры как функция характеристик модели.
How Many Parameters Does it Take to Change a Light Bulb? Evaluating Performance in Self-Play of Conversational Games as a Function of Model Characteristics

Jun 20

ByNidhir Bhavsar, Jonathan Jordan, Sherzod Hakimov, David Schlangen

Что делает хорошую модель большого языка (LLM)? То, что она хорошо справляется с соответствующими эталонами - которые, надеемся, измеряют, с некоторой достоверностью, наличие способностей, которые также испытываются в реальном приложении. Но что делает модель хорошо справляющейся? Что дает модели ее способности? Мы берем недавно введенный тип эталонов, который предназначен для проверки способностей в контексте целеполагающего, агентивного взаимодействия через самостоятельную игру в разговорные игры, и анализируем, как развивается производительность в зависимости от характеристик модели, таких как количество параметров или тип обучения. Мы обнаруживаем, что хотя существует явная связь между количеством параметров и производительностью, все еще существует широкий разброс точек производительности в пределах заданного диапазона размеров, что должно быть объяснено параметрами обучения, такими как качество данных для настройки и метод. С более практической точки зрения, мы также обнаруживаем определенную степень непредсказуемости производительности при различных методах доступа, возможно, из-за неоткрытых параметров выборки, и, что очень важно, стабильность производительности по крайней мере при умеренной квантизации весов во время вывода.

ClotheDreamer: Генерация одежды по текстовому описанию с использованием 3D гауссиан
ClotheDreamer: Text-Guided Garment Generation with 3D Gaussians

Jun 24

ByYufei Liu, Junshu Tang, Chu Zheng, Shijie Zhang, Jinkun Hao, Junwei Zhu, Dongjin Huang

Создание трехмерной одежды высокой точности из текста желательно, но вызывает определенные трудности при создании цифрового аватара. Недавние подходы на основе диффузии с использованием метода выборки по дистилляции оценок (Score Distillation Sampling, SDS) открывают новые возможности, но либо сложно связаны с человеческим телом, либо имеют проблемы с повторным использованием. Мы представляем ClotheDreamer, трехмерный метод на основе гауссовских функций для создания готовых к производству трехмерных одеждных элементов из текстовых подсказок. Мы предлагаем новое представление - Разделенное гауссовское наложение одежды (Disentangled Clothe Gaussian Splatting, DCGS) для возможности отдельной оптимизации. DCGS представляет одетого аватара как одну гауссовскую модель, но застывает гауссовские наложения тела. Для улучшения качества и полноты мы включаем двустороннюю выборку по дистилляции оценок для наблюдения за одетым аватаром и отрисовкой RGBD одежды соответственно с условиями позы, а также предлагаем новую стратегию обрезки свободной одежды. Наш подход также может поддерживать пользовательские шаблоны одежды в качестве входных данных. Благодаря нашему дизайну синтетическая трехмерная одежда легко применяется для виртуальной примерки и поддерживает физически точную анимацию. Обширные эксперименты демонстрируют превосходное и конкурентоспособное качество нашего метода. Нашу страницу проекта можно найти по адресу https://ggxxii.github.io/clothedreamer.

Найденное посередине: Калибровка смещения позиционного внимания улучшает использование длинного контекста.
Found in the Middle: Calibrating Positional Attention Bias Improves Long Context Utilization

Jun 23

ByCheng-Yu Hsieh, Yung-Sung Chuang, Chun-Liang Li, Zifeng Wang, Long T. Le, Abhishek Kumar, James Glass, Alexander Ratner, Chen-Yu Lee, Ranjay Krishna, Tomas Pfister

Большие языковые модели (LLM), даже когда специально обучены обрабатывать длинные контексты ввода, испытывают трудности с захватом актуальной информации, расположенной посередине их ввода. Это явление известно как проблема потерянного в середине. В данной работе мы вносим три вклада. Во-первых, мы стремимся понять факторы, вызывающие это явление. При этом мы устанавливаем связь между потерянным в середине и внутренним внимательным уклоном LLM: LLM демонстрируют уклон внимания в форме буквы U, где токены в начале и в конце его ввода получают более высокое внимание, независимо от их значимости. Во-вторых, мы смягчаем этот позиционный уклон через механизм калибровки, найденный посередине, который позволяет модели обращать внимание на контексты верно в соответствии с их значимостью, даже если они находятся посередине. В-третьих, мы показываем, что найденный посередине не только достигает лучшей производительности в поиске актуальной информации в длинном контексте, но также в конечном итоге приводит к улучшенной производительности в генерации с использованием аугментированного поиска (RAG) по различным задачам, превосходя существующие методы на до 15 процентных пунктов. Эти результаты открывают перспективы для понимания уклона внимания LLM и его потенциальных последствий.

Видео-SALMONN: Речевые аудио-визуальные крупномасштабные языковые модели
video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models

Jun 22

ByGuangzhi Sun, Wenyi Yu, Changli Tang, Xianzhao Chen, Tian Tan, Wei Li, Lu Lu, Zejun Ma, Yuxuan Wang, Chao Zhang

Понимание речи как элемент более общего понимания видео с использованием крупных языковых моделей на основе аудио-визуальных данных (av-LLM) является критически важным, но недостаточно изученным аспектом. В данной статье предлагается видео-SALMONN, единая энд-ту-энд av-LLM для обработки видео, способная понимать не только последовательности визуальных кадров, аудио-события и музыку, но и речь. Для получения детализированной временной информации, необходимой для понимания речи, сохраняя при этом эффективность для других элементов видео, в данной статье предлагается новая многоуровневая причинно-следственная структура Q-Former с множественным разрешением (MRC Q-Former) для соединения предварительно обученных аудио-визуальных кодировщиков и основной крупной языковой модели. Более того, предлагаются специализированные методы обучения, включая потерю разнообразия и схему смешанного обучения аудио-визуальных данных без пар, для избежания доминирования кадров или модальности. На представленной оценочной бенчмарк-системе речево-аудио-визуального восприятия видео-SALMONN достигает более чем на 25\% абсолютного улучшения точности в задаче видео-QA и более чем на 30\% абсолютного улучшения точности в задачах аудио-визуального QA с участием человеческой речи. Кроме того, видео-SALMONN демонстрирует выдающиеся способности по пониманию видео и логическому мышлению в задачах, которые не имеют аналогов среди других av-LLM. Наш код обучения и модельные точки доступны по ссылке \url{https://github.com/bytedance/SALMONN/}.

IRASim: Обучение интерактивным симуляторам действий реальных роботов
IRASim: Learning Interactive Real-Robot Action Simulators

Jun 20

ByFangqi Zhu, Hongtao Wu, Song Guo, Yuxiao Liu, Chilam Cheang, Tao Kong

Масштабируемое обучение роботов в реальном мире ограничено стоимостью и вопросами безопасности реальных роботов. Кроме того, развертывание траекторий роботов в реальном мире может быть длительным и трудоемким процессом. В данной статье мы предлагаем обучить интерактивный симулятор действий реального робота как альтернативу. Мы представляем новый метод, IRASim, который использует мощь генеративных моделей для создания крайне реалистичных видео роботической руки, выполняющей заданную траекторию действий, начиная с начального кадра. Для проверки эффективности нашего метода мы создаем новый бенчмарк, IRASim Benchmark, основанный на трех наборах данных реальных роботов, и проводим обширные эксперименты на данном бенчмарке. Результаты показывают, что IRASim превосходит все базовые методы и предпочтительнее в человеческих оценках. Мы надеемся, что IRASim может служить эффективным и масштабируемым подходом для улучшения обучения роботов в реальном мире. Для поощрения исследований по генеративным симуляторам действий реальных роботов мы предоставляем код с открытым исходным кодом, бенчмарк и контрольные точки на https://gen-irasim.github.io.

Может ли Few-shot работать в длинном контексте? Переработка контекста для генерации демонстраций
Can Few-shot Work in Long-Context? Recycling the Context to Generate Demonstrations

Jun 19

ByArie Cattan, Alon Jacovi, Alex Fabrikant, Jonathan Herzig, Roee Aharoni, Hannah Rashkin, Dror Marcus, Avinatan Hassidim, Yossi Matias, Idan Szpektor, Avi Caciularu

Несмотря на недавние достижения в области больших языковых моделей (Large Language Models, LLM), их производительность на задачах, требующих учета длинных контекстов, остается недостаточной. Обучение в контексте (In-Context Learning, ICL) с несколькими примерами обучения может быть привлекательным решением для улучшения производительности LLM в данной ситуации; Однако наивное добавление примеров ICL с длинным контекстом вносит вызовы, включая значительное увеличение токенов для каждого примера обучения и несоответствие контекста между демонстрациями и целевым запросом. В данной работе мы предлагаем автоматически генерировать несколько примеров обучения для задач вопрос-ответ с длинным контекстом путем повторного использования контекстов. Конкретно, учитывая длинный входной контекст (1-3 тыс. токенов) и запрос, мы генерируем дополнительные пары запрос-ответ из заданного контекста в качестве нескольких примеров обучения, при этом контекст вводится только один раз. Это обеспечивает использование демонстраций тем же контекстом, что и целевой запрос, при этом добавляется лишь небольшое количество токенов к подсказке. Мы дополнительно улучшаем каждую демонстрацию, указывая модели явно идентифицировать соответствующие абзацы перед ответом, что улучшает производительность, обеспечивая детальную атрибуцию источнику ответа. Мы применяем наш метод к нескольким LLM и получаем существенные улучшения (+23\% в среднем по моделям) на различных наборах данных вопрос-ответ с длинным контекстом, особенно когда ответ находится посреди контекста. Удивительно, несмотря на введение только однократных примеров ICL, LLM также успешно обобщаются на многократные вопросы-ответы с длинным контекстом с использованием нашего подхода.

Дистилляция оценок отталкивания для разнообразной выборки моделей диффузии
Repulsive Score Distillation for Diverse Sampling of Diffusion Models

Jun 24

ByNicolas Zilberstein, Morteza Mardani, Santiago Segarra

Сэмплирование дистилляции скоринга имеет решающее значение для интеграции моделей диффузии в генерацию сложных визуальных данных. Несмотря на впечатляющие результаты, оно сталкивается с проблемой коллапса режима и недостатком разнообразия. Для преодоления этого вызова мы используем интерпретацию градиентного потока дистилляции скоринга для предложения Репульсивной Дистилляции Скоринга (RSD). В частности, мы предлагаем вариационную структуру на основе отталкивания ансамбля частиц, способствующую разнообразию. С использованием вариационного приближения, которое включает в себя взаимодействие между частицами, отталкивание проявляется как простая регуляризация, позволяющая взаимодействие частиц на основе их относительной парной схожести, измеряемой, например, с помощью радиальных базисных ядер. Мы разрабатываем RSD как для неконтролируемых, так и для контролируемых сценариев сэмплирования. Для контролируемого сэмплирования мы сосредотачиваемся на обратных задачах в пространстве латентных переменных, что приводит к расширенной вариационной формулировке, достигающей хорошего баланса между вычислительной сложностью, качеством и разнообразием. Наши обширные эксперименты по генерации текста в изображения и обратным задачам демонстрируют, что RSD достигает превосходного компромисса между разнообразием и качеством по сравнению с альтернативами последнего поколения.

Рейтинг медалей OlympicArena: Какой ИИ на сегодняшний день самый интеллектуальный?
OlympicArena Medal Ranks: Who Is the Most Intelligent AI So Far?

Jun 24

ByZhen Huang, Zengzhi Wang, Shijie Xia, Pengfei Liu

В данном отчете мы ставим следующий вопрос: Какая модель искусственного интеллекта на сегодняшний день является наиболее интеллектуальной, измеренной по олимпийскому стандарту (OlympicArena - олимпийский, многодисциплинарный, мультимодальный бенчмарк для сверхинтеллектуального искусственного интеллекта)? Мы специально сосредотачиваемся на недавно выпущенных моделях: Claude-3.5-Sonnet, Gemini-1.5-Pro и GPT-4o. Впервые мы предлагаем использовать подход с использованием таблицы медалей Олимпиады для ранжирования моделей искусственного интеллекта на основе их комплексной производительности в различных дисциплинах. Эмпирические результаты показывают: (1) Claude-3.5-Sonnet демонстрирует высокую конкурентоспособность в общей производительности по сравнению с GPT-4o, превосходя GPT-4o в нескольких областях (таких как Физика, Химия и Биология). (2) Gemini-1.5-Pro и GPT-4V ранжируются последовательно сразу за GPT-4o и Claude-3.5-Sonnet, но между ними имеется явный разрыв в производительности. (3) Производительность моделей искусственного интеллекта из сообщества с открытым исходным кодом значительно отстает от этих закрытых моделей. (4) Производительность этих моделей на данном бенчмарке оставляет желать лучшего, указывая на то, что у нас еще долгий путь к достижению сверхинтеллекта. Мы остаемся преданными непрерывному отслеживанию и оценке производительности последних мощных моделей на данном бенчмарке (доступно на https://github.com/GAIR-NLP/OlympicArena).