Ежедневно отобранные исследовательские статьи по ИИ с переводами
Производительность большой языковой модели (LLM) в значительной степени зависит от качества и размера набора данных для предварительного обучения. Однако наборы данных для предварительного обучения для передовых открытых LLM, таких как Llama 3 и Mixtral, не являются общедоступными, и очень мало известно о том, как они были созданы. В данной работе мы представляем FineWeb, набор данных объемом 15 триллионов токенов, полученный из 96 снимков Common Crawl, который обеспечивает более высокую производительность LLM по сравнению с другими открытыми наборами данных для предварительного обучения. Для продвижения понимания того, как лучше составлять высококачественные наборы данных для предварительного обучения, мы тщательно документируем и анализируем все используемые в FineWeb варианты проектирования, включая глубокие исследования стратегий дедупликации и фильтрации. Кроме того, мы представляем FineWeb-Edu, коллекцию текстов объемом 1,3 триллиона токенов, отобранных из FineWeb. LLM, предварительно обученные на FineWeb-Edu, проявляют значительно лучшую производительность на знаниевых и задачах, требующих рассуждений, таких как MMLU и ARC. Вместе с нашими наборами данных мы публично выпускаем нашу кодовую базу для курирования данных и все модели, обученные в ходе наших экспериментов по абляции.
Генерация 3D-моделей, управляемая моделями диффузии текст-изображение, позволяет создавать визуально привлекательные ресурсы. Однако предыдущие методы исследуют генерацию на основе изображения или текста. Границы творчества ограничены тем, что может быть выражено словами или изображениями, которые могут быть использованы. Мы представляем YouDream, метод генерации высококачественных анатомически управляемых животных. YouDream управляется с использованием модели диффузии текст-изображение, управляемой 2D-видами предварительной позы 3D. Наш метод генерирует 3D-животных, которые невозможно создать с использованием предыдущих методов генерации текста в 3D. Кроме того, наш метод способен сохранять анатомическую согласованность в созданных животных, область, в которой предыдущие подходы генерации текста в 3D часто испытывают затруднения. Более того, мы разработали полностью автоматизированный конвейер для генерации часто встречающихся животных. Чтобы избежать необходимости в человеческом вмешательстве для создания позы 3D, мы предлагаем мультиагентный LLM, который адаптирует позы из ограниченной библиотеки поз 3D животных для представления желаемого животного. Проведенное пользовательское исследование результатов YouDream демонстрирует предпочтение моделей животных, сгенерированных нашим методом, над другими. Результаты и код вращения доступны по адресу https://youdream3d.github.io/
Языковые модели (LMs) демонстрируют впечатляющую производительность и способность к обобщению. Однако LMs сталкиваются с постоянной проблемой катастрофического забывания, которое подрывает их долгосрочную устойчивость в непрерывном обучении (CL). Существующие подходы обычно решают проблему путем включения старых данных задачи или индуктивного смещения по задачам в LMs. Однако старые данные и точная информация о задаче часто недоступны или дороги в сборе, что затрудняет доступность текущих подходов CL для LMs. Для решения этого ограничения мы представляем MIGU (MagnItude-based Gradient Updating для непрерывного обучения), метод без повторений и без меток задач, который обновляет только параметры модели с большими величинами выхода в линейных слоях LMs. MIGU основан на нашем наблюдении, что нормализованное по L1 распределение величин выхода в линейных слоях LMs отличается, когда модели LM работают с разными данными задач. Применяя это простое ограничение к процессу обновления градиента, мы можем использовать врожденное поведение LMs, тем самым разблокируя их врожденные способности CL. Наши эксперименты показывают, что MIGU универсально применим ко всем трем архитектурам LM (T5, RoBERTa и Llama2), обеспечивая современную или сопоставимую производительность в области непрерывного донастройки и непрерывного предварительного обучения на четырех бенчмарках CL. Например, MIGU обеспечивает улучшение средней точности на 15,2% по сравнению с обычными базовыми методами эффективной настройки параметров в бенчмарке CL на 15 задачах. MIGU также может легко интегрироваться со всеми тремя существующими типами CL для дальнейшего улучшения производительности. Код доступен по адресу https://github.com/wenyudu/MIGU.
Недавние достижения в оптимизации предпочтений человека, изначально разработанные для языковых моделей (LM), показали перспективы для диффузионных моделей текста в изображение, улучшая соответствие запросу, визуальное привлекательность и предпочтения пользователя. В отличие от LM, диффузионные модели обычно оптимизируются в пространстве пикселей или VAE, которое плохо соответствует человеческому восприятию, что приводит к более медленному и менее эффективному обучению на этапе согласования предпочтений. Мы предлагаем использовать перцептивный критерий в пространстве встраивания U-Net диффузионной модели для решения этих проблем. Наш подход включает донастройку Stable Diffusion 1.5 и XL с использованием прямой оптимизации предпочтений (DPO), контрастной оптимизации предпочтений (CPO) и надзорной донастройки (SFT) в этом пространстве встраивания. Этот метод значительно превосходит стандартные реализации пространства латентных переменных по различным метрикам, включая качество и вычислительные затраты. Для SDXL наш подход обеспечивает 60.8\% общего предпочтения, 62.2\% визуальной привлекательности и 52.1\% следования запросу по сравнению с оригинальным открытым SDXL-DPO на наборе данных PartiPrompts, существенно снижая вычислительные затраты. Наш подход не только улучшает эффективность и качество согласования предпочтений человека для диффузионных моделей, но также легко интегрируется с другими методами оптимизации. Код обучения и веса LoRA будут доступны здесь: https://huggingface.co/alexgambashidze/SDXL_NCP-DPO_v0.1
Для развития моделей агентов, вызывающих функции, требуются разнообразные, надежные и высококачественные наборы данных. В данной статье представлен APIGen, автоматизированный конвейер генерации данных, разработанный для синтеза верифицируемых наборов данных высокого качества для приложений вызова функций. Мы используем APIGen и собираем 3 673 исполнимых API из 21 различной категории для создания разнообразных наборов данных вызова функций масштабируемым и структурированным образом. Каждое данные в нашем наборе данных проверяется на трех уровнях иерархии: проверка формата, фактическое выполнение функций и семантическая верификация, обеспечивая его надежность и корректность. Мы демонстрируем, что модели, обученные нашими отобранными наборами данных, даже с всего 7 миллиардами параметров, могут достичь передовой производительности на тесте Беркли по вызову функций, превзойдя несколько моделей GPT-4. Более того, наша модель с 1 миллиардом параметров достигает исключительной производительности, превосходя GPT-3.5-Turbo и Claude-3 Haiku. Мы выпустили набор данных, содержащий 60 000 записей высокого качества, с целью продвижения области агентов, вызывающих функции. Набор данных доступен на Huggingface: https://huggingface.co/datasets/Salesforce/xlam-function-calling-60k и на домашней странице проекта: https://apigen-pipeline.github.io/
Мы представляем общую структуру для решения уравнений в частных производных (УЧП) с использованием генеративных моделей диффузии. В частности, мы сосредотачиваемся на сценариях, где у нас нет полной информации о сцене, необходимой для применения классических решателей. Большинство существующих методов прямого или обратного решения УЧП плохо справляются, когда наблюдения за данными или основными коэффициентами неполны, что является распространенным предположением для измерений в реальном мире. В данной работе мы предлагаем DiffusionPDE, который может одновременно заполнять отсутствующую информацию и решать УЧП, моделируя совместное распределение пространств решения и коэффициентов. Мы показываем, что изученные генеративные априорные распределения приводят к универсальной структуре для точного решения широкого спектра УЧП при частичном наблюдении, значительно превосходящей современные методы как в прямом, так и в обратном направлении.
Способности к обработке длинного контекста больших языковых моделей (LLM) стали активно обсуждаемой темой в последние годы. Для оценки производительности LLM в различных сценариях появились различные оценочные бенчмарки. Однако поскольку большинство из этих бенчмарков сосредоточены на выявлении ключевой информации для ответа на вопросы, что в основном требует способности извлечения информации у LLM, эти бенчмарки могут частично отражать способность LLM к рассуждению на основе большого объема информации. Тем временем, хотя LLM часто утверждают, что имеют контекстные окна размером 32k, 128k, 200k или даже больше, эти бенчмарки не раскрывают фактической поддерживаемой длины этих LLM. Для решения этих проблем мы предлагаем набор данных бенчмарка LongIns, сложный экзамен на основе инструкций с длинным контекстом для LLM, который создан на основе существующих наборов данных инструкций. Конкретно, в нашем LongIns мы представляем три настройки оценки: Глобальная Инструкция и Одна Задача (GIST), Локальная Инструкция и Одна Задача (LIST) и Локальная Инструкция и Несколько Задач (LIMT). Основываясь на LongIns, мы проводим всестороннюю оценку существующих LLM и имеем следующие важные результаты: (1). Лучшая производительность GPT-4 с длиной контекста 128k показывает плохие результаты при оценке контекстного окна 16k в нашем LongIns. (2). Для многошаговой рассуждательной способности многих существующих LLM все еще требуются значительные усилия при коротких контекстных окнах (менее 4k).
Много-модальные модели языка больших размеров (MLLM) сделали значительные успехи в различных задачах визуального понимания. Однако большинство этих моделей ограничены в обработке изображений низкого разрешения, что ограничивает их эффективность в задачах восприятия, требующих детальной визуальной информации. В нашем исследовании мы представляем MG-LLaVA, инновационную MLLM, улучшающую визуальные возможности модели путем включения многогранного потока видения, включающего функции низкого разрешения, высокого разрешения и объектно-центричные функции. Мы предлагаем интеграцию дополнительного визуального кодера высокого разрешения для захвата мелких деталей, которые затем объединяются с базовыми визуальными функциями через сеть объединения Conv-Gate. Для дальнейшего совершенствования способностей модели к распознаванию объектов мы включаем функции на уровне объектов, полученные из ограничивающих рамок, идентифицированных автономными детекторами. Обученная исключительно на общедоступных мультимодальных данных с помощью настройки инструкций, MG-LLaVA демонстрирует исключительные навыки восприятия. Мы создаем экземпляр MG-LLaVA с широким спектром языковых кодировщиков от 3,8 миллиардов до 34 миллиардов, чтобы полноценно оценить производительность модели. Обширные оценки по нескольким бенчмаркам показывают, что MG-LLaVA превосходит существующие MLLM с сопоставимыми размерами параметров, демонстрируя свою замечательную эффективность. Код будет доступен по ссылке https://github.com/PhoenixZ810/MG-LLaVA.
В данной работе мы представляем MotionBooth, инновационную платформу, разработанную для создания анимации настраиваемых объектов с точным контролем как над движениями объекта, так и камеры. Путем использования нескольких изображений определенного объекта мы эффективно настраиваем модель текста-видео для точного воспроизведения формы и характеристик объекта. Наш подход представляет потери области объекта и сохранение видео для улучшения производительности обучения объекта, а также потерю перекрестного внимания токенов объекта для интеграции настраиваемого объекта с сигналами управления движением. Кроме того, мы предлагаем техники управления движениями объекта и камеры во время вывода без обучения. В частности, мы используем манипуляцию картой перекрестного внимания для управления движением объекта и представляем новый модуль сдвига латентности для управления движением камеры. MotionBooth отличается сохранением внешнего вида объектов и одновременным контролем движений в созданных видео. Обширные количественные и качественные оценки демонстрируют превосходство и эффективность нашего метода. Нашу страницу проекта можно найти по адресу https://jianzongwu.github.io/projects/motionbooth
Способности моделирования длинного контекста привлекли широкое внимание, что привело к появлению Больших Языковых Моделей (БЯМ) с ультра-контекстными окнами. Тем временем, показатели для оценки БЯМ с длинным контекстом постепенно нарастают. Однако существующие показатели используют несвязанные шумовые тексты для искусственного увеличения длины тестовых случаев, отходя от реальных сценариев применения длинного контекста. Для устранения этого разрыва мы предлагаем новый показатель длинного контекста, Loong, соответствующий реалистичным сценариям через расширенное мультидокументное вопросно-ответное тестирование (QA). В отличие от типичного QA по документам, в тестовых случаях Loong каждый документ имеет отношение к конечному ответу, пропуск любого документа приведет к неудаче ответа. Кроме того, Loong представляет четыре типа задач с различными длинами контекста: Локализация Спотлайта, Сравнение, Кластеризация и Цепочка Рассуждений, чтобы облегчить более реалистичную и всестороннюю оценку понимания длинного контекста. Обширные эксперименты показывают, что существующие модели языка с длинным контекстом все еще обладают значительным потенциалом для улучшения. Модель с извлечением и генерацией (RAG) демонстрирует низкую производительность, показывая, что Loong может надежно оценивать способности моделирования длинного контекста модели.
Сегментация текста на предложения играет раннюю и важную роль во многих системах обработки естественного языка (NLP). Обычно это достигается с использованием правиловых или статистических методов, опирающихся на лексические особенности, такие как пунктуация. Хотя некоторые недавние работы уже не полагаются исключительно на пунктуацию, мы обнаружили, что ни один из предыдущих методов не обеспечивает (i) устойчивость к отсутствующей пунктуации, (ii) эффективную адаптируемость к новым областям и (iii) высокую эффективность. Мы представляем новую модель - Segment any Text (SaT) - для решения этой проблемы. Для повышения устойчивости мы предлагаем новую схему предварительного обучения, которая обеспечивает меньшую зависимость от пунктуации. Для решения вопроса адаптируемости мы вводим дополнительный этап параметрически эффективного дообучения, устанавливающий передовые показатели производительности в различных областях, таких как стихи из песен и юридические документы. По пути мы вносим архитектурные модификации, которые приводят к трехкратному увеличению скорости по сравнению с предыдущим передовым уровнем и решают проблему случайной зависимости от контекста в далеком будущем. Наконец, мы представляем вариант нашей модели с дообучением на разнообразных многоязычных смесях данных, разделенных на предложения, действуя как замена и улучшение для существующих инструментов сегментации. В целом, наши вклады предоставляют универсальный подход к сегментации любого текста. Наш метод превосходит все базовые показатели - включая сильные языковые модели - на 8 корпусах, охватывающих различные области и языки, особенно в практически значимых ситуациях, где текст плохо форматирован. Наши модели и код, включая документацию, доступны по адресу https://huggingface.co/segment-any-text под лицензией MIT.
Несмотря на общие возможности предварительно обученных крупных языковых моделей (LLM), им все еще требуется дальнейшая адаптация для более эффективного использования в практических приложениях. В данной статье мы демонстрируем взаимозаменяемость трех популярных и различных инструментов адаптации: обновление параметров, моделирование вознаграждения и контекстное подсказывание. Эта взаимозаменяемость устанавливает треугольную структуру с шестью направлениями трансформации, каждое из которых облегчает ряд приложений. Наша работа предлагает целостное видение, которое объединяет множество существующих исследований и предлагает потенциальные направления исследований. Мы видим нашу работу как полезную карту пути для будущих исследований в области LLM.
Модель диффузии продемонстрировала выдающуюся способность в генерации видео, что привлекло интерес к внедрению управления траекторией в процесс генерации. В то время как существующие работы в основном сосредотачиваются на методах, основанных на обучении (например, условный адаптер), мы утверждаем, что сама модель диффузии обеспечивает приличное управление созданным контентом без необходимости обучения. В данном исследовании мы представляем настраиваемую рамку для достижения управляемой траекторной генерации видео, накладывая руководство как на конструирование шума, так и на вычисление внимания. Конкретно, 1) мы сначала показываем несколько поучительных явлений и анализируем, как начальные шумы влияют на траекторию движения созданного контента. 2) В дальнейшем мы предлагаем FreeTraj, настраиваемый подход, который обеспечивает управление траекторией путем модификации выборки шума и механизмов внимания. 3) Кроме того, мы расширяем FreeTraj для облегчения генерации более длительных и крупных видео с управляемыми траекториями. Обладая этими конструкциями, пользователи имеют гибкость предоставлять траектории вручную или выбирать траектории, автоматически созданные планировщиком траекторий LLM. Обширные эксперименты подтверждают эффективность нашего подхода в улучшении управляемости траекторий моделей диффузии видео.
Недавние достижения в области крупных языковых моделей (LLM) значительно улучшили возможности разговорных агентов, делая их применимыми в различных областях (например, образование). Несмотря на прогресс, оценка агентов часто не учитывает сложности разговоров в реальном мире, такие как общение в реальном времени, диалоги с участием нескольких участников и расширенные контекстуальные зависимости. Для устранения этого разрыва мы представляем DialSim, симулятор диалогов в реальном времени. В этом симуляторе агенту назначается роль персонажа из популярных телешоу, требуя от него отвечать на спонтанные вопросы, используя информацию из прошлых диалогов, и различать известную и неизвестную информацию. Основные особенности DialSim включают оценку способности агента отвечать в разумные сроки, обработку долгосрочных диалогов с участием нескольких участников и управление адверсарными ситуациями (например, замена имен персонажей) для проверки зависимости агента от предварительно обученных знаний. Мы использовали этот симулятор для оценки последних разговорных агентов и анализа их ограничений. Наши эксперименты выявляют как сильные, так и слабые стороны этих агентов, предоставляя ценные идеи для будущих улучшений в области разговорного искусственного интеллекта. DialSim доступен по адресу https://github.com/jiho283/Simulator.
Создание фильмов и производство анимации часто требуют сложных техник для координации переходов камеры и движений объектов, обычно включающих трудоемкое захватывание реального мира. Несмотря на прогресс в области генеративного искусственного интеллекта для создания видео, достижение точного контроля над движением для генерации интерактивных видео-ресурсов остается сложной задачей. В этой связи мы предлагаем Image Conductor, метод для точного контроля переходов камеры и движений объектов для генерации видео-ресурсов из одного изображения. Предлагается хорошо продуманная стратегия обучения для разделения отдельных движений камеры и объекта с помощью весов камеры LoRA и весов объекта LoRA. Для дальнейшего учета кинематографических вариаций от недостаточно определенных траекторий мы вводим технику направляющего объекта без камеры во время вывода, улучшая движения объекта и устраняя переходы камеры. Кроме того, мы разрабатываем конвейер кураторства данных о видеодвижении, ориентированный на траектории, для обучения. Количественные и качественные эксперименты демонстрируют точность и тонкое управление нашим методом в создании видео с управляемым движением из изображений, продвигая практическое применение интерактивного синтеза видео. Веб-страница проекта доступна по адресу https://liyaowei-stu.github.io/project/ImageConductor/
Обучение и донастройка больших языковых моделей (LLM) часто затрудняются ограниченной памятью GPU. Существующие методы оптимизации на основе проекций решают эту проблему путем проецирования градиентов в низкоразмерное подпространство для уменьшения памяти состояния оптимизатора, однако они обычно используют плотные матрицы проекций, что может привести к избыточным вычислительным и памятьным нагрузкам. В данной работе мы предлагаем Grass (GRAdient Stuctured Sparsification), новый подход, который использует разреженные проекции для преобразования градиентов в структурированные разреженные обновления. Этот дизайн не только значительно снижает использование памяти для состояний оптимизатора, но также минимизирует память для градиентов, вычислительные и коммуникационные затраты, что приводит к существенному увеличению пропускной способности. Обширные эксперименты на задачах предварительного обучения и донастройки показывают, что Grass достигает конкурентоспособных результатов по сравнению с обучением полного ранга и существующими методами на основе проекций. Заметно, что Grass позволяет предварительное обучение модели LLaMA с 13 миллиардами параметров с использованием половины точности на одном GPU A100 с памятью 40 ГБ - подвиг, недостижимый для предыдущих методов, и обеспечивает увеличение пропускной способности до 2 раз на системе с 8 GPU. Код можно найти по ссылке https://github.com/aashiqmuhamed/GRASS.
Методы управления активацией показали свою эффективность в условионировании генерации языковых моделей путем аддитивного вмешательства в промежуточные представления моделей. Однако оценка этих техник до сих пор была ограничена одиночными свойствами условий и синтетическими сценариями. В данной работе мы проводим всестороннюю оценку различных стратегий управления активацией, выделяя зависимость оптимальных параметров от свойств условий для обеспечения устойчивого эффекта на протяжении генерации. Для решения этой проблемы мы предлагаем Динамическую Композицию Активации, информационно-теоретический подход к модуляции интенсивности управления одним или несколькими свойствами во время генерации. Наши эксперименты по многопараметрическому управлению показывают, что наш метод успешно поддерживает высокое условионирование, минимизируя влияние условий на плавность генерации.
Для того чтобы системы искусственного интеллекта эффективно общались с людьми, им необходимо понимать, как мы принимаем решения. Однако решения людей не всегда рациональны, поэтому неявные внутренние модели принятия решений человека в больших языковых моделях (LLM) должны учитывать это. Предыдущие эмпирические данные, кажется, свидетельствуют о том, что эти неявные модели точны - LLM предлагают правдоподобные аналоги человеческого поведения, действуя так, как мы ожидаем, что люди поступают в повседневных взаимодействиях. Однако, сравнивая поведение и прогнозы LLM с большим набором данных о человеческих решениях, мы обнаруживаем, что на самом деле это не так: при симуляции и прогнозировании выбора людей ряд передовых LLM (GPT-4o & 4-Turbo, Llama-3-8B & 70B, Claude 3 Opus) предполагают, что люди более рациональны, чем мы на самом деле. Конкретно, эти модели отклоняются от человеческого поведения и ближе соответствуют классической модели рационального выбора - теории ожидаемой ценности. Интересно, что люди также склонны предполагать, что другие люди рациональны, когда интерпретируют их поведение. В результате, сравнивая выводы, к которым приходят LLM и люди из решений других людей с использованием другого психологического набора данных, мы обнаруживаем, что эти выводы сильно коррелируют. Таким образом, неявные модели принятия решений LLM, кажется, соответствуют ожиданию человека, что другие люди будут действовать рационально, а не тому, как на самом деле действуют люди.
Поскольку искусственный общий интеллект (AGI) все более интегрируется в различные аспекты человеческой жизни, обеспечение безопасности и этического соответствия таких систем имеет первостепенное значение. Предыдущие исследования в основном сосредотачивались на угрозах одномодальности, что может быть недостаточно, учитывая интегрированный и сложный характер взаимодействия между модальностями. Мы представляем новое испытание на безопасность и соответствие называемое "Безопасные входы, но небезопасный вывод" (SIUO) для оценки безопасности и соответствия между модальностями. Конкретно, оно рассматривает случаи, когда одиночные модальности безопасны независимо друг от друга, но могут потенциально привести к небезопасным или недопустимым результатам при их комбинировании. Для эмпирического исследования этой проблемы мы разработали SIUO, бенчмарк между модальностями, охватывающий 9 критических областей безопасности, таких как самоповреждение, незаконная деятельность и нарушения конфиденциальности. Наши результаты показывают значительные уязвимости безопасности как в закрытых, так и в открытых LVLMs, таких как GPT-4V и LLaVA, подчеркивая недостаточность текущих моделей для надежной интерпретации и реагирования на сложные реальные сценарии.