Ежедневно отобранные исследовательские статьи по ИИ с переводами
Большие языковые модели (LLM) должны реагировать точно, но часто демонстрируют недостаточное рассуждение или генерируют галлюцинационный контент. Для решения этих проблем были начаты исследования с приставкой "Self-", такие как Self-Consistency, Self-Improve и Self-Refine. Они имеют общее: включение LLM в оценку и обновление самого себя для устранения проблем. Тем не менее, эти усилия лишены единой перспективы на сжатие, так как существующие обзоры в основном сосредотачиваются на категоризации без изучения мотивов этих работ. В данной статье мы обобщаем теоретическую концепцию, названную Внутренняя Согласованность, которая предлагает единые объяснения для явлений, таких как недостаток рассуждения и наличие галлюцинаций. Внутренняя Согласованность оценивает согласованность между скрытым слоем LLM, декодирующим слоем и слоем ответа на основе методологий выборки. Расширяя концепцию Внутренней Согласованности, мы представляем упрощенную, но эффективную теоретическую концепцию, способную извлекать Внутреннюю Согласованность, названную Self-Feedback. Концепция Self-Feedback состоит из двух модулей: Self-Evaluation и Self-Update. Эта концепция была использована во многих исследованиях. Мы систематически классифицируем эти исследования по задачам и направлениям работы; обобщаем соответствующие методы оценки и эталоны; и углубляемся в вопрос "Работает ли Self-Feedback на самом деле?" Мы предлагаем несколько критических точек зрения, включая гипотезу "Часовое Эволюция Внутренней Согласованности", гипотезу "Согласованность - (Почти) Правильность" и "Парадокс Скрытого и Явного Рассуждения". Кроме того, мы намечаем перспективные направления для будущих исследований. Мы предоставили в открытый доступ экспериментальный код, список литературы и статистические данные, доступные по ссылке https://github.com/IAAR-Shanghai/ICSFSurvey.
Выводы моделей больших языков на основе трансформеров состоят из двух последовательных этапов: 1) этап предварительного заполнения для вычисления кэша KV подсказок и генерации первого токена, и 2) этап декодирования для генерации последующих токенов. Для длинных подсказок кэш KV должен быть вычислен для всех токенов во время этапа предварительного заполнения, что может значительно увеличить время, необходимое для генерации первого токена. Следовательно, этап предварительного заполнения может стать узким местом в процессе генерации. Остается открытым вопрос, являются ли все токены подсказки необходимы для генерации первого токена. Для ответа на этот вопрос мы представляем новый метод, LazyLLM, который выборочно вычисляет KV для токенов, важных для предсказания следующего токена как на этапе предварительного заполнения, так и на этапе декодирования. В отличие от статических методов обрезки, которые сразу обрезают подсказку, LazyLLM позволяет моделям языка динамически выбирать различные подмножества токенов из контекста на разных этапах генерации, даже если они были обрезаны на предыдущих этапах. Обширные эксперименты на стандартных наборах данных по различным задачам показывают, что LazyLLM является универсальным методом, который может быть легко интегрирован с существующими языковыми моделями для значительного ускорения генерации без дополнительной настройки. Например, в задаче мультидокументного вопросно-ответного тестирования LazyLLM ускоряет этап предварительного заполнения модели LLama 2 7B в 2,34 раза, сохраняя точность.
В области многомодальных языковых моделей большинство методов основаны на архитектуре, аналогичной LLaVA. Эти модели используют однослойную функцию ViT в качестве визуального стимула, подают ее непосредственно в языковые модели наряду с текстовыми токенами. Однако при работе с длинными последовательностями визуальных сигналов или входных данных, таких как видео, механизм самовнимания языковых моделей может привести к значительным вычислительным издержкам. Кроме того, использование однослойных функций ViT затрудняет полное восприятие визуальных сигналов большими языковыми моделями. В данной статье предлагается эффективная многомодальная языковая модель для минимизации вычислительных затрат, позволяющая модели воспринимать визуальные сигналы максимально полно. Наш метод включает в себя: (1) использование кросс-внимания для взаимодействия изображения-текст, аналогичного Flamingo. (2) использование иерархических функций ViT. (3) внедрение механизма Mixture of Experts (MoE) для улучшения эффективности модели. Наша модель достигает конкурентоспособных результатов на общедоступных многомодальных бенчмарках и успешно справляется с задачами, такими как описание изображений и описание видео.
В данной работе мы представляем ChatQA 2, модель на основе Llama3, разработанную для сокрытия разрыва между общедоступными LLM и ведущими собственными моделями (например, GPT-4-Turbo) в понимании длинного контекста и возможностях генерации с увеличенным поиском (RAG). Эти две возможности являются важными для LLM в обработке больших объемов информации, которые не умещаются в один запрос, и дополняют друг друга в зависимости от конечных задач и вычислительных бюджетов. Мы представляем детальный рецепт продолжения обучения для расширения окна контекста базовой модели Llama3-70B с 8K до 128K токенов, а также трехэтапный процесс настройки инструкций для улучшения следования инструкциям модели, производительности RAG и способностей понимания длинного контекста. Наши результаты показывают, что модель Llama3-ChatQA-2-70B достигает точности, сравнимой с GPT-4-Turbo-2024-0409 на многих задачах понимания длинного контекста и превосходит ее в бенчмарке RAG. Интересно, что мы обнаружили, что передовой поисковик длинного контекста может уменьшить проблему фрагментации контекста top-k в RAG, дополнительно улучшая результаты на основе RAG для задач понимания длинного контекста. Мы также предоставляем обширные сравнения между решениями RAG и длинного контекста, используя передовые длинно-контекстные LLM.
Открытые генеративные модели имеют важное значение для сообщества, позволяя проводить тонкую настройку и служа как базовые при представлении новых моделей. Однако большинство текущих моделей текст в аудио являются закрытыми и недоступными для художников и исследователей для дальнейшего развития. Здесь мы описываем архитектуру и процесс обучения новой открытой модели текст в аудио с открытыми весами, обученной на данных Creative Commons. Наша оценка показывает, что производительность модели конкурентоспособна с лучшими показателями по различным метрикам. Особенно отмечены результаты FDopenl3 (измерение реализма генерации), демонстрирующие ее потенциал для синтеза стереозвука высокого качества на частоте 44,1 кГц.
В последние годы были сделаны значительные достижения в области понимания визуальных документов, с преобладающей архитектурой, включающей каскад моделей зрения и языка. Компонент текста может быть извлечен явно с использованием внешних моделей OCR в подходах на основе OCR, либо, альтернативно, модель зрения может быть наделена способностью к чтению в подходах без OCR. Обычно запросы к модели вводятся исключительно в компонент языка, что требует, чтобы визуальные признаки охватывали весь документ. В данной статье мы представляем VisFocus, метод без OCR, разработанный для более эффективного использования возможностей кодировщика зрения путем прямого его соединения с языковым запросом. Для этого мы заменяем слои с понижающим дискретизацию с входными слоями, которые получают входной запрос и позволяют выделять значимые части документа, игнорируя другие. Мы сочетаем улучшения архитектуры с новой задачей предварительного обучения, используя маскирование языка на фрагменте текста документа, поданного на вход визуальному кодировщику вместо запроса, чтобы наделить модель возможностью фокусировки. В результате VisFocus учится распределять внимание на текстовые участки, соответствующие предоставленному запросу. Наши эксперименты показывают, что этот подход к визуальному кодированию с управляемым запросом значительно улучшает производительность, достигая передовых результатов на различных бенчмарках.
Оптическое распознавание символов (OCR) и распознавание почерка (HWR) на арабском языке представляют уникальные вызовы из-за курсивного и контекстно-зависимого характера арабского письма. В данном исследовании представлен Qalam, новая базовая модель, разработанная для арабского OCR и HWR, построенная на кодировщике SwinV2 и декодере RoBERTa. Наша модель значительно превосходит существующие методы, достигая уровня ошибок слов (WER) всего лишь 0,80% в задачах HWR и 1,18% в задачах OCR. Мы обучаем Qalam на разнообразном наборе данных, включающем более 4,5 миллионов изображений из арабских рукописей и синтетический набор данных, состоящий из 60 тыс. пар изображение-текст. Следует отметить, что Qalam продемонстрировал исключительное управление арабскими диакритическими знаками, критической особенностью арабских письменностей. Более того, он проявляет замечательную способность обрабатывать изображения высокого разрешения, преодолевая распространенное ограничение в текущих системах OCR. Эти достижения подчеркивают потенциал Qalam в качестве ведущего решения для распознавания арабского письма, предлагая значительный скачок в точности и эффективности.
Видение Автономного Вычисления (ACV), предложенное более двух десятилетий назад, предвидит вычислительные системы, самостоятельно управляющиеся, подобно биологическим организмам, плавно адаптирующимся к изменяющимся окружениям. Несмотря на десятилетия исследований, достижение ACV остается сложной задачей из-за динамичной и сложной природы современных вычислительных систем. Недавние достижения в области Больших Языковых Моделей (LLM) предлагают многообещающие решения для этих вызовов, используя свои обширные знания, понимание языка и возможности автоматизации задач. В данной статье исследуется осуществимость реализации ACV через мультиагентную платформу на основе LLM для управления микросервисами. Мы представляем пятиуровневую таксономию для автономного обслуживания сервисов и представляем онлайн бенчмарк оценки на основе демонстрационного проекта микросервисов Sock Shop для оценки производительности нашей платформы. Наши результаты демонстрируют значительный прогресс в достижении уровня 3 автономности, подчеркивая эффективность LLM в обнаружении и устранении проблем в архитектурах микросервисов. Это исследование способствует развитию автономного вычисления путем пионерского внедрения LLM в платформы управления микросервисами, открывая путь к более адаптивным и самоуправляемым вычислительным системам. Код будет доступен по ссылке https://aka.ms/ACV-LLM.
Поскольку языковые модели (ЯМ) в настоящее время превосходят среднего человека во многих сложных задачах, становится все сложнее разрабатывать сложные, высококачественные и реалистичные оценки. Мы решаем эту проблему, изучая способности ЯМ генерировать код для решения реальных научных исследовательских задач. Взяв во внимание мнение ученых и исследователей в области искусственного интеллекта в 16 различных естественнонаучных подобластях, включая математику, физику, химию, биологию и материаловедение, мы создали научно отобранный кодовый бенчмарк, SciCode. Задачи в SciCode естественным образом разбиваются на несколько подзадач, каждая из которых включает в себя воспоминание знаний, логическое мышление и синтез кода. В общей сложности SciCode содержит 338 подзадач, разложенных из 80 сложных основных задач. Он предлагает дополнительные описания, содержащие полезную научную информацию и научно аннотированные эталонные решения и тестовые случаи для оценки. Claude3.5-Sonnet, лучшая модель среди протестированных, способна решить лишь 4,6% задач в наиболее реалистичной ситуации. Мы считаем, что SciCode демонстрирует как прогресс современных ЯМ в становлении полезными научными помощниками, так и проливает свет на развитие и оценку научного искусственного интеллекта в будущем.
Развертывание больших языковых моделей (LLM) часто ограничивается пропускной способностью памяти, где основным узким местом является стоимость передачи параметров модели из глобальной памяти GPU в ее регистры. В сочетании с пользовательскими ядрами, объединяющими операции деквантования и матричного умножения, квантование только весов может обеспечить более быстрое вывода, уменьшая объем перемещения памяти. Однако разработка высокопроизводительных ядер для весово-квантованных LLM представляет существенные вызовы, особенно когда веса сжимаются до неравномерных битовых ширин (например, 3 бита) с неравномерным квантованием через таблицу поиска (LUT). В данной статье описывается FLUTE, гибкий движок таблицы поиска для LUT-квантованных LLM, который использует офлайн-перестройку квантованной матрицы весов для минимизации битовых манипуляций, связанных с распаковкой, а также векторизацию и дублирование таблицы поиска для смягчения ограничений на пропускную способность общей памяти. При размерах партий < 32 и размере группы квантования 128 (типичном для вывода LLM) ядро FLUTE может быть в 2-4 раза быстрее существующих ядер GEMM. В качестве применения FLUTE мы исследуем простое расширение квантования на основе таблицы поиска NormalFloat и применяем его для квантования LLaMA3 в различные конфигурации, достигая конкурентоспособной производительности квантования по сравнению с сильными базовыми значениями, а также увеличивая пропускную способность от начала до конца на 1,5-2 раза.
Недавние инновации в обучении языковых моделей показали, что возможно создать высокопроизводительные модели, достаточно компактные для работы на смартфонах. Поскольку эти модели развертываются во все большем количестве областей, критически важно гарантировать их соответствие человеческим предпочтениям и вопросам безопасности. В данном отчете мы представляем нашу методологию для обеспечения безопасности серии языковых моделей Phi-3. Мы использовали цикл "исправление-улучшение", проводя несколько раундов курирования набора данных, обеспечения безопасности после обучения, тестирования производительности, "красной команды" и выявления уязвимостей для охвата различных областей вреда как в одиночных, так и в многоходовых сценариях. Наши результаты показывают, что такой подход итеративно улучшил производительность моделей Phi-3 по широкому спектру ответственных бенчмарков искусственного интеллекта.
В последнее время, с быстрыми достижениями генеративных моделей, область генерации визуального текста переживает значительный прогресс. Однако по-прежнему вызывает трудности создание высококачественных изображений текста в реальных сценариях, так как необходимо удовлетворить три критических критерия: (1) Достоверность: сгенерированные изображения текста должны быть фотореалистичными, а содержание должно соответствовать заданным условиям; (2) Обоснованность: области и содержание сгенерированного текста должны соответствовать сцене; (3) Полезность: сгенерированные изображения текста могут облегчить связанные задачи (например, обнаружение и распознавание текста). Проведя исследование, мы обнаружили, что существующие методы, основанные на рендеринге или диффузии, едва ли могут одновременно удовлетворить все эти аспекты, что ограничивает их область применения. Поэтому в данной статье мы предлагаем визуальный генератор текста (названный SceneVTG), который способен создавать высококачественные изображения текста в естественной среде. Следуя двухэтапной парадигме, SceneVTG использует Мультимодельную Большую Языковую Модель для рекомендации разумных областей и содержания текста на различных масштабах и уровнях, которые используются условиями для генерации изображений текста с помощью условной модели диффузии. Обширные эксперименты показывают, что предложенный SceneVTG значительно превосходит традиционные методы, основанные на рендеринге, и недавние методы на основе диффузии по достоверности и обоснованности. Кроме того, сгенерированные изображения обладают превосходной полезностью для задач, связанных с обнаружением и распознаванием текста. Код и наборы данных доступны на AdvancedLiterateMachinery.
Разреженные автокодировщики (SAE) представляют собой многообещающий метод без учителя для выявления причинно значимых и интерпретируемых линейных признаков в активациях модели языка (LM). Для того чтобы быть полезными для последующих задач, SAE должны верно декомпозировать активации LM; однако для интерпретируемости декомпозиция должна быть разреженной - две цели, которые находятся в напряжении. В данной статье мы представляем JumpReLU SAE, которые достигают передовой точности восстановления на определенном уровне разреженности на активациях Gemma 2 9B по сравнению с другими недавними достижениями, такими как Gated и TopK SAE. Мы также показываем, что это улучшение не происходит за счет интерпретируемости через ручные и автоматизированные исследования интерпретируемости. JumpReLU SAE представляют собой простое изменение обычных (ReLU) SAE - где мы заменяем ReLU на разрывную активационную функцию JumpReLU - и аналогично эффективны в обучении и выполнении. Используя прямые оценщики (STEs) в принципиальной манере, мы показываем, как можно эффективно обучать JumpReLU SAE, несмотря на разрывную функцию JumpReLU, введенную в прямом проходе SAE. Аналогично мы используем STE для прямого обучения L0 на разреженность, вместо обучения на прокси, такие как L1, избегая проблем, таких как уменьшение.
Значительное улучшение было достигнуто в автоматической генерации подписей к аудио (AAC) с использованием последних моделей. Однако эти модели стали все более крупными по мере улучшения их производительности. В данной работе мы предлагаем рамочную концепцию дистилляции знаний (KD) для AAC. Наш анализ показывает, что в моделях AAC на основе кодировщика-декодировщика эффективнее дистиллировать знания в кодировщик, чем в декодировщик. Для этого мы включаем потерю дистилляции на уровне кодировщика в процесс обучения, дополнительно к стандартной обучающей потере и потере дистилляции на уровне последовательности. Мы исследуем два метода дистилляции на уровне кодировщика, основанных на потере среднеквадратичной ошибки (MSE) и контрастной потере соответственно. Экспериментальные результаты показывают, что контрастная дистилляция знаний более устойчива, чем дистилляция знаний на основе MSE, проявляя превосходную производительность в ситуациях с ограниченными данными. Используя только аудиоданные в процессе обучения в рамках KD, наша модель-ученик достигает конкурентоспособной производительности, с скоростью вывода, которая в 19 раз быстрее. Онлайн-демонстрация доступна по ссылке: \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.
Мы представляем новый подход к восстановлению трехмерной формы и видозависимого внешнего вида по нескольким цветным изображениям, обеспечивая эффективную трехмерную реконструкцию и синтез нового вида. Наш метод изучает неявное нейронное представление в форме знаковой функции расстояния (SDF) и поля радиации. Модель обучается постепенно через объемную рендеринг с помощью маршрута лучей и регуляризуется с помощью многообъектного стерео (MVS) без обучения. Ключевым моментом нашего вклада является новая стратегия обучения неявной нейронной функции формы, которая поощряет наше поле SDF быть как можно более линейным около уровня, тем самым устойчиво обучаясь к шуму, исходящему от сигналов надзора и регуляризации. Без использования каких-либо предварительно обученных априорных знаний наш метод, названный SparseCraft, достигает передовых результатов как в синтезе нового вида, так и в реконструкции из разреженных видов в стандартных бенчмарках, требуя менее 10 минут для обучения.
Недавно генерация текста в 3D-формат привлекла значительное внимание, что привело к значительному улучшению производительности. Предыдущие методы используют модели генерации 3D с конца в конец для инициализации 3D-гауссиан, модели диффузии с множественным видом для обеспечения согласованности множественных видов и модели диффузии текста в изображение для уточнения деталей с алгоритмами дистилляции оценок. Однако эти методы имеют два ограничения. Во-первых, они сталкиваются с конфликтами в направлениях генерации, поскольку различные модели нацелены на создание разнообразных 3D-активов. Во-вторых, проблема пересыщения в дистилляции оценок не была тщательно исследована и решена. Для преодоления этих ограничений мы предлагаем PlacidDreamer, фреймворк текста в 3D, который гармонизирует инициализацию, генерацию с множественным видом и генерацию с условиями текста с помощью единой модели диффузии с множественным видом, одновременно используя новый алгоритм дистилляции оценок для достижения сбалансированного насыщения. Для объединения направления генерации мы представляем модуль Латентной Плоскости, дружественное к обучению расширение плагина, которое позволяет моделям диффузии с множественным видом обеспечивать быструю реконструкцию геометрии для инициализации и улучшенные многовидовые изображения для персонализации модели диффузии текста в изображение. Для решения проблемы пересыщения мы предлагаем рассматривать дистилляцию оценок как многокритериальную оптимизацию и представляем алгоритм Сбалансированной Дистилляции Оценок, который предлагает оптимальное решение Парето, достигающее богатых деталей и сбалансированного насыщения. Обширные эксперименты подтверждают выдающиеся возможности нашего PlacidDreamer. Код доступен по адресу https://github.com/HansenHuang0823/PlacidDreamer.