Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем DeepSeek-Coder-V2, открытую модель языка кода на основе смеси экспертов (MoE), которая достигает производительности, сравнимой с GPT4-Turbo в задачах, специфичных для кода. Конкретно, DeepSeek-Coder-V2 дополнительно предварительно обучается от промежуточной точки DeepSeek-V2 с дополнительными 6 триллионами токенов. Через это продолжающееся предварительное обучение DeepSeek-Coder-V2 существенно улучшает возможности кодирования и математического рассуждения DeepSeek-V2, сохраняя при этом сравнимую производительность в общих языковых задачах. По сравнению с DeepSeek-Coder-33B, DeepSeek-Coder-V2 демонстрирует значительные преимущества в различных аспектах задач, связанных с кодом, а также в рассуждениях и общих возможностях. Кроме того, DeepSeek-Coder-V2 расширяет поддержку языков программирования с 86 до 338, увеличивая при этом длину контекста с 16K до 128K. В стандартных оценках показателей DeepSeek-Coder-V2 достигает более высокой производительности по сравнению с закрытыми моделями, такими как GPT4-Turbo, Claude 3 Opus и Gemini 1.5 Pro в бенчмарках по кодированию и математике.
Точная оценка глубины на изображениях 360 градусов критически важна для виртуальной реальности, автономной навигации и приложений иммерсивных медиа. Существующие методы оценки глубины, разработанные для изображений с перспективным видом, терпят неудачу при применении к изображениям 360 градусов из-за различных проекций камеры и искажений, в то время как методы для 360 градусов проявляются менее эффективно из-за отсутствия размеченных пар данных. Мы предлагаем новую структуру оценки глубины, которая эффективно использует неразмеченные данные 360 градусов. Наш подход использует передовые модели оценки глубины в перспективе в качестве учителей для генерации псевдо-меток с помощью техники проекции шестигранного куба, обеспечивая эффективную разметку глубины на изображениях 360 градусов. Этот метод использует увеличивающееся количество крупных наборов данных. Наш подход включает два основных этапа: оффлайн-генерацию масок для недопустимых областей и онлайн-полу-надзорный совместный режим обучения. Мы протестировали наш подход на стандартных наборах данных, таких как Matterport3D и Stanford2D3D, показав значительное улучшение точности оценки глубины, особенно в сценариях с нулевым обучением. Наша предложенная обучающая платформа может улучшить любой монокулярный оценщик глубины 360 и продемонстрировать эффективный перенос знаний между различными проекциями камер и типами данных. См. нашу страницу проекта для результатов: https://albert100121.github.io/Depth-Anywhere/
Выравнивание человека в больших языковых моделях (LLM) - активная область исследований. Недавнее революционное исследование, оптимизация прямых предпочтений (DPO), значительно упростило процесс по сравнению с предыдущими работами в обучении с подкреплением на основе обратной связи от человека (RLHF), обойдя этап обучения по вознаграждению в RLHF. DPO после обучения предоставляет неявную модель вознаграждения. В данной работе мы сделали новое наблюдение, что эта неявная модель вознаграждения может сама по себе использоваться в бутстрап-режиме для дальнейшего выравнивания LLM. Наш подход заключается в использовании вознаграждений от текущей модели LLM для создания набора предпочтений, который затем используется в последующих раундах DPO. Мы внедрили улучшения, которые устраняют предвзятость длины ответов и улучшают качество набора предпочтений для дальнейшего совершенствования нашего подхода. Наш подход, названный самовыравнивание с DPO на основе неявных вознаграждений (DICE), показывает значительное улучшение в выравнивании и достигает более высокой производительности, чем Gemini Pro на AlpacaEval 2, достигая победного показателя с контролем длины 27.55% против GPT-4 Turbo, но с использованием всего 8 миллиардов параметров и без внешней обратной связи. Наш код доступен по адресу https://github.com/sail-sg/dice.
Большие модели языка и зрения (LLVM) были разработаны на основе обобщающей мощи больших моделей языка (LLM) и появления настройки визуальных инструкций. Помимо прямого масштабирования, эти модели позволяют LLVM демонстрировать мощные результаты в задачах языкового восприятия (VL), используя естественноязыковые инструкции. Однако существующие открытые LLVM, которые показывают сопоставимые результаты с закрытыми LLVM, такими как GPT-4V, часто считаются слишком объемными (например, 26 млрд, 34 млрд и 110 млрд параметров) с большим количеством слоев. Эти крупные модели требуют дорогостоящих высокопроизводительных ресурсов как для обучения, так и для вывода. Для решения этой проблемы мы представляем новое эффективное семейство LLVM с моделями LLM размером 1,8 млрд, 3,8 млрд и 7 млрд, Трошение слоев (TroL), которое позволяет повторное использование слоев по токенам. Эта техника обхода слоев имитирует эффект возврата и повторного прохождения потока ответов, увеличивая количество слоев прямого распространения без физического добавления новых слоев. Мы показываем, что TroL использует простой подход к обходу слоев, но эффективно превосходит открытые LLVM с более крупными моделями и конкурирует с производительностью закрытых LLVM с значительными размерами.
Мы представляем ChatGLM, развивающуюся семью больших языковых моделей, над которыми мы работали в течение времени. В данном отчете основное внимание уделяется серии языков GLM-4, включающей в себя модели GLM-4, GLM-4-Air и GLM-4-9B. Они представляют наши наиболее продвинутые модели, обученные с учетом всех идей и уроков, извлеченных из предшествующих трех поколений ChatGLM. На сегодняшний день модели GLM-4 предварительно обучены на десяти триллионах токенов в основном на китайском и английском языках, а также на небольшом наборе корпусов из 24 языков, в основном выровненных для использования на китайском и английском. Высокое качество выравнивания достигается с помощью многоступенчатого процесса последующего обучения, включающего надзорную донастройку и обучение на основе обратной связи от людей. Оценки показывают, что модель GLM-4 1) близко конкурирует или превосходит GPT-4 по общим метрикам, таким как MMLU, GSM8K, MATH, BBH, GPQA и HumanEval, 2) приближается к GPT-4-Turbo в следовании инструкциям, измеряемому по IFEval, 3) соответствует GPT-4 Turbo (128K) и Claude 3 для задач с длинным контекстом, и 4) превосходит GPT-4 в выравнивании на китайском языке, измеряемом по AlignBench. Модель GLM-4 All Tools дополнительно выравнена для понимания намерений пользователя и автономного принятия решения о том, когда и какой инструмент(ы) использовать - включая веб-браузер, интерпретатор Python, модель текст-в-изображение и пользовательские функции - для эффективного выполнения сложных задач. В практических приложениях она соответствует и даже превосходит GPT-4 All Tools в задачах, таких как доступ к онлайн-информации через веб-браузинг и решение математических задач с использованием интерпретатора Python. За время работы мы сделали доступными для общественности ряд моделей, включая ChatGLM-6B (три поколения), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM и CodeGeeX, привлекая более 10 миллионов загрузок на Hugging Face только в 2023 году. Открытые модели можно получить на https://github.com/THUDM и https://huggingface.co/THUDM.
Модели видео-языка (VLM) достигли значительного успеха в различных мультимодальных задачах, но часто ограничены ограниченным контекстным окном и высокой вычислительной стоимостью обработки изображений высокого разрешения и видео. Визионное сжатие может уменьшить эту проблему путем сокращения количества визионных токенов. Предыдущие подходы сжимали визионные токены с помощью внешних модулей и заставляли LLM понимать сжатые, что приводило к потере визуальной информации. Однако парадигма понимания визионных токенов LLM не полностью используется в процессе обучения сжатию. Мы предлагаем VoCo-LLaMA, первый подход к сжатию визионных токенов с использованием LLM. Вводя визионные токены сжатия во время настройки инструкций видения и используя дистилляцию внимания, наш метод учитывает, как LLM понимает визионные токены в их обработке токенов VoCo. VoCo-LLaMA облегчает эффективное визионное сжатие и повышает вычислительную эффективность на стадии вывода. Конкретно, наш метод достигает минимальной потери производительности при коэффициенте сжатия в 576 раз, что приводит к уменьшению числа операций с плавающей запятой на до 94,8% и ускорению времени вывода на 69,6%. Более того, благодаря непрерывному обучению с использованием последовательностей сжатых токенов временных рядов видеокадров, VoCo-LLaMA демонстрирует способность понимать временные корреляции, превосходя предыдущие методы на популярных бенчмарках вопросов и ответов на видео. Наш подход представляет собой многообещающий способ разблокировать полный потенциал контекстного окна VLM, обеспечивая более масштабные мультимодальные приложения. Страницу проекта вместе с соответствующим кодом можно найти по адресу https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.
Программные агенты стали перспективными инструментами для решения сложных задач в области инженерии программного обеспечения. Однако существующие работы упрощают рабочие процессы разработки программного обеспечения, следуя модели «водопада». Поэтому мы предлагаем AgileCoder, многоагентную систему, интегрирующую гибкую методологию (AM) в рамки. Эта система назначает конкретные роли AM, такие как Менеджер продукта, Разработчик и Тестировщик, различным агентам, которые затем совместно разрабатывают программное обеспечение на основе ввода пользователей. AgileCoder повышает эффективность разработки, организуя работу на спринты, сосредотачиваясь на поэтапной разработке программного обеспечения через спринты. Кроме того, мы представляем Генератор динамического графа кода, модуль, который динамически создает граф зависимостей кода при внесении обновлений в кодовую базу. Это позволяет агентам лучше понимать кодовую базу, что приводит к более точной генерации кода и модификациям на протяжении процесса разработки программного обеспечения. AgileCoder превосходит существующие показатели, такие как ChatDev и MetaGPT, устанавливая новый стандарт и демонстрируя возможности многоагентных систем в продвинутых средах инженерии программного обеспечения. Наш исходный код можно найти по адресу https://github.com/FSoft-AI4Code/AgileCoder.
Модель Retrieval Augmented Generation (RAG) обогащает способность языковых моделей к рассуждениям с использованием внешнего контекста для улучшения ответов на запросы пользователя. Этот подход стал популярным благодаря его практическому применению в различных областях, включая поиск, вопросно-ответные системы и чат-ботов. Однако точная природа работы этого подхода пока не до конца понятна. В данной статье мы механистически исследуем конвейер RAG, чтобы подчеркнуть, что языковые модели используют явный путь и имеют сильное предвзятое отношение к использованию только контекстной информации для ответа на вопрос, минимально полагаясь на их параметрическую память. Мы исследуем это механистическое поведение языковых моделей с помощью: (i) анализа причинно-следственных связей для показа, что параметрическая память используется минимально при ответе на вопрос, и (ii) вкладов внимания и исключений, чтобы показать, что поток остаточных токенов последнего токена не обогащается от токена-субъекта в вопросе, а обогащается от других информативных токенов в контексте. Мы обнаружили, что это выраженное поведение явного пути верно как для моделей семейства LLaMa, так и для семейства моделей Phi.
Надзорное дообучение улучшает способности языковых моделей в решении задач математического рассуждения. Для максимизации таких выгод существующие исследования сосредотачиваются на расширении набора обучающих данных различными техниками аугментации данных, что эффективно для стандартных однокруглых настроек вопрос-ответ. Наша работа представляет новую технику, направленную на развитие более глубокого понимания обучающих задач, улучшая производительность не только в стандартных настройках, но также в более сложных сценариях, требующих рефлексивного мышления. Конкретно, мы предлагаем рефлексивную аугментацию, метод, встраивающий рефлексию задачи в каждый обучающий пример. Он обучает модель рассматривать альтернативные точки зрения, работать с абстракциями и аналогиями, тем самым способствуя более глубокому пониманию через рефлексивное рассуждение. Обширные эксперименты подтверждают достижение нашей цели, подчеркивая уникальные преимущества нашего метода и его дополняющий характер по сравнению с существующими техниками аугментации.
Языковые модели, ориентированные на безопасность, часто проявляют хрупкие и несбалансированные механизмы безопасности, увеличивая вероятность генерации небезопасного контента. Кроме того, внедрение новых знаний с помощью техник редактирования в языковые модели может дополнительно подвергать опасности безопасность. Для решения этих проблем мы предлагаем SafeInfer, стратегию выравнивания безопасности во время декодирования, адаптированную к контексту, для генерации безопасных ответов на запросы пользователей. SafeInfer состоит из двух фаз: фазы усиления безопасности, которая использует безопасные демонстрационные примеры для корректировки скрытых состояний модели и увеличения вероятности безопасных выходных данных, и фазы декодирования под контролем безопасности, которая влияет на выбор токенов на основе оптимизированных с точки зрения безопасности распределений, обеспечивая соответствие сгенерированного контента этическим рекомендациям. Кроме того, мы представляем HarmEval, новый бенчмарк для обширной оценки безопасности, разработанный для решения потенциальных сценариев неправомерного использования в соответствии с политикой ведущих гигантов искусственного интеллекта.
Большие языковые модели (LLM) обучаются на огромных объемах данных, большинство из которых автоматически извлекается из интернета. Эти данные включают в себя энциклопедические документы, содержащие обширное общее знание (например, Википедия), но также могут перекрываться с наборами данных-бенчмарками, используемыми для оценки LLM. Следовательно, оценка моделей на тестовых разбиениях, которые могли просочиться в обучающий набор, склонна к вводящим в заблуждение выводам. Для поощрения надежной оценки языковых моделей мы представляем новый тестовый набор данных под названием RepLiQA, подходящий для задач вопросно-ответной системы и извлечения тем. RepLiQA представляет собой коллекцию из пяти разбиений тестовых наборов данных, четыре из которых не были опубликованы в интернете или не были доступны через API LLM до настоящей публикации. Каждый образец в RepLiQA включает (1) справочный документ, созданный человеческим аннотатором и описывающий вымышленную ситуацию (например, новостную статью), отсутствующую в интернете; (2) вопрос по теме документа; (3) правильный ответ, извлеченный непосредственно из информации в документе; и (4) абзац из справочного документа, содержащий ответ. Таким образом, точные ответы могут быть сгенерированы только в случае, если модель может найти соответствующий контент в предоставленном документе. Мы проводим масштабный бенчмарк, включающий несколько передовых LLM, чтобы выявить различия в производительности моделей различных типов и размеров в контекстно-условной моделировании языка. Опубликованные разбиения RepLiQA можно найти здесь: https://huggingface.co/datasets/ServiceNow/repliqa.
Обеспечение безопасного соответствия крупных языковых моделей (LLM) человеческим ценностям является критическим, поскольку они становятся неотъемлемыми для приложений, таких как перевод и вопросно-ответная система. Существующие методы соответствия испытывают затруднения с динамическими намерениями пользователей и сложными целями, что делает модели уязвимыми к созданию вредного контента. Мы предлагаем Safety Arithmetic, фреймворк без обучения, улучшающий безопасность LLM в различных сценариях: базовые модели, модели с обучением с учителем (SFT) и отредактированные модели. Safety Arithmetic включает удаление направления вреда для предотвращения создания вредного контента и выравнивание безопасности для поощрения безопасных ответов. Кроме того, мы представляем NoIntentEdit, набор данных, выделяющий примеры редактирования, которые могут подвергнуть опасности безопасность модели, если использованы непреднамеренно. Наши эксперименты показывают, что Safety Arithmetic значительно улучшает показатели безопасности, снижает избыточную безопасность и сохраняет полезность модели, превосходя существующие методы в обеспечении безопасного создания контента.
Языковые модели обычно токенизируют исходный текст на последовательности подсловных идентификаторов из заранее определенного словаря, процесс, который по своей природе чувствителен к опечаткам, вариациям длины и в значительной степени не учитывает внутреннюю структуру токенов - проблемы, которые мы называем "проклятьем токенизации". В данном исследовании мы подробно рассматриваем эти недостатки и демонстрируем, что большие языковые модели (LLM) остаются уязвимыми для этих проблем. Это исследование систематически исследует эти вызовы и их влияние на LLM через три ключевых исследовательских вопроса: (1) решение сложных проблем, (2) исследование структуры токенов и (3) устойчивость к типографским вариациям. Наши результаты показывают, что масштабирование параметров модели может смягчить проблему токенизации; однако LLM по-прежнему страдают от предвзятостей, вызванных опечатками и другими вариациями формата текста. Наши эксперименты показывают, что регуляризация подслов, такая как BPE-dropout, может смягчить эту проблему. Мы опубликуем наш код и данные для облегчения дальнейших исследований.
Развитие крупных языковых моделей (LLM) значительно расширило область применения в обработке естественного языка, а мультимодальные LLM расширяют эти возможности для интеграции и интерпретации визуальных данных. Однако существующие эталоны для визуальных языковых моделей (VLM) в основном сосредоточены на входах из одного изображения, игнорируя важный аспект понимания множественных изображений. В данной статье мы представляем Мульти-Изображенческий Реляционный Эталон (MIRB), разработанный для оценки способности VLM сравнивать, анализировать и рассуждать по всем изображениям. Наш эталон включает четыре категории: восприятие, знание визуального мира, рассуждения и многопереходные рассуждения. Через всестороннюю оценку широкого спектра моделей с открытым и закрытым исходным кодом мы демонстрируем, что, хотя модели VLM с открытым исходным кодом показали результаты, приближающиеся к производительности GPT-4V в задачах с одним изображением, существует значительный разрыв в производительности в задачах рассуждения по множеству изображений. Наши результаты также показывают, что даже передовая модель GPT-4V испытывает трудности с нашим эталоном, подчеркивая необходимость дальнейших исследований и разработок в этой области. Мы считаем, что наш вклад в MIRB может послужить площадкой для разработки многомодальных моделей следующего поколения.
Эволюция искусственного интеллекта (ИИ) значительно ускорена благодаря прогрессу в области больших языковых моделей (LLM) и больших мультимодальных моделей (LMM), постепенно демонстрируя потенциал когнитивного мышления в решении проблем и научных открытиях (т.е. ИИ4Науку), ранее считавшемся прерогативой человеческого интеллекта. Для всесторонней оценки производительности текущих моделей в когнитивном мышлении мы представляем OlympicArena, включающий 11 163 двуязычных задач в текстовом и комбинированном тексто-изображенческом форматах. Эти задачи охватывают широкий спектр дисциплин, охватывая семь областей и 62 международных олимпийских соревнования, тщательно проверенных на предмет утечки данных. Мы утверждаем, что задачи олимпийских соревнований идеально подходят для оценки когнитивного мышления ИИ из-за их сложности и междисциплинарного характера, что является важным для решения сложных научных задач и облегчения открытий. Помимо оценки производительности в различных дисциплинах с использованием критерия только ответа, мы проводим детальные эксперименты и анализы с разных точек зрения. Мы изучаем когнитивные способности моделей, их производительность в различных модальностях и результаты на уровне процесса, что является важным для задач, требующих сложного мышления с длинными решениями. Наши обширные оценки показывают, что даже передовые модели, такие как GPT-4o, достигают лишь 39,97% общей точности, что иллюстрирует текущие ограничения ИИ в сложном мышлении и мультимодальной интеграции. Через OlympicArena мы стремимся продвинуть ИИ к сверхинтеллекту, оснащая его для решения более сложных задач в науке и за ее пределами. Мы также предоставляем обширный набор ресурсов для поддержки исследований в области ИИ, включая набор данных для сравнения, платформу с открытым исходным кодом для аннотаций, детальный инструмент оценки и таблицу лидеров с функциями автоматической отправки.
Несмотря на недавние достижения в техниках высококачественной реконструкции человека, требования к плотно захваченным изображениям или затратному оптимизации для каждого экземпляра значительно затрудняют их применение в более широких сценариях. Для решения этих проблем мы представляем HumanSplat, который предсказывает трехмерные свойства гауссовского сплэттинга любого человека по одному входному изображению общим образом. В частности, HumanSplat включает в себя двумерную модель диффузии с множественными видами и трансформер восстановления с латентными априорными знаниями о структуре человека, которые умело интегрируют геометрические априорные знания и семантические особенности в рамках единой структуры. Дополнительно разработана иерархическая потеря, которая включает семантическую информацию о человеке для достижения моделирования текстуры высокого качества и лучшего ограничения оцененных множественных видов. Обширные эксперименты на стандартных бенчмарках и изображениях "в дикой природе" демонстрируют, что HumanSplat превосходит существующие методы нового синтеза видов, достигая фотореалистичности.
Табличные данные - структурированные, гетерогенные данные в стиле электронных таблиц с рядами и столбцами - широко используются на практике во многих областях. Однако, несмотря на то, что недавние базовые модели снизили необходимость разработки специфических наборов данных и предикторов в областях, таких как языковое моделирование и компьютерное зрение, этот парадигма обучения передаче не оказала сходного влияния в области табличных данных. В данной работе мы стремимся уменьшить этот разрыв и представляем TabuLa-8B, языковую модель для табличного прогнозирования. Мы определяем процесс извлечения большого, высококачественного набора данных для обучения из корпуса TabLib, предлагая методы фильтрации и контроля качества табличных данных. Используя полученный набор данных, который включает более 1,6 млрд строк из 3,1 млн уникальных таблиц, мы донастраиваем крупную языковую модель Llama 3-8B (LLM) для прогнозирования табличных данных (классификации и бинной регрессии) с использованием новой схемы упаковки и внимания для табличного прогнозирования. Проведя оценку на тестовом наборе из 329 наборов данных, мы обнаруживаем, что TabuLa-8B имеет точность нулевого прогноза на невидимых таблицах на более чем 15 процентных пунктов выше, чем случайное угадывание, что невозможно для существующих передовых моделей табличного прогнозирования (например, XGBoost, TabPFN). В настройке с небольшим количеством обучающих примеров (1-32 примера), без какой-либо донастройки на целевых наборах данных, TabuLa-8B более точен на 5-15 п.п. по сравнению с моделями XGBoost и TabPFN, которые явно обучены на равном, или даже до 16 раз большем объеме данных. Мы публикуем нашу модель, код и данные вместе с публикацией этой статьи.
Для оценки знаний в больших языковых моделях (LLM) текущие методы запрашивают модель, а затем оценивают ее сгенерированные ответы. В данной работе мы задаемся вопросом, можно ли провести оценку до того, как модель сгенерирует какой-либо текст. Конкретно, возможно ли оценить, насколько модель обладает знаниями о конкретной сущности, исходя только из ее внутренних вычислений? Мы изучаем этот вопрос на двух задачах: при заданной сущности целью является предсказание (a) способности модели отвечать на общие вопросы о сущности и (b) достоверности ответов, сгенерированных моделью о сущности. Эксперименты с различными LLM показывают, что KEEN, простой зонд, обученный на внутренних представлениях сущностей, успешно справляется с обеими задачами - сильно коррелируя как с точностью ответов модели на вопросы по субъекту, так и с FActScore, недавним метрическим показателем достоверности в открытом генерировании. Более того, KEEN естественным образом соотносится с уклончивым поведением модели и точно отражает изменения в знаниях модели после донастройки. Наконец, мы показываем более интерпретируемый, но одинаково эффективный вариант KEEN, который выделяет небольшой набор токенов, коррелирующих с отсутствием знаний модели. Будучи простым и легким, KEEN может быть использован для выявления пробелов и кластеров знаний о сущностях в LLM и направлять решения, такие как дополнение запросов поиска.
Медицинские знания зависят от контекста и требуют последовательного рассуждения при работе с различными естественными языковыми выражениями с семантически эквивалентными фразами. Это особенно важно для названий лекарств, поскольку пациенты часто используют торговые наименования, такие как Advil или Tylenol, вместо их общих эквивалентов. Для изучения этого мы создали новый набор данных для оценки надежности, RABBITS, чтобы оценить различия в производительности на медицинских бенчмарках после замены торговых и общих названий лекарств с использованием аннотаций экспертов-врачей. Мы оценили как открытые, так и API-ориентированные LLM на MedQA и MedMCQA, выявив постоянное снижение производительности на уровне от 1 до 10\%. Более того, мы выявили потенциальный источник этой хрупкости в загрязнении тестовых данных в широко используемых наборах данных для предварительного обучения. Весь код доступен по адресу https://github.com/BittermanLab/RABBITS, а таблица лидеров HuggingFace доступна по адресу https://huggingface.co/spaces/AIM-Harvard/rabbits-leaderboard.
Модели диффузии текста в изображение (T2I) продемонстрировали впечатляющие возможности по генерации изображений. Тем не менее, их вычислительная интенсивность мешает организациям с ограниченными ресурсами развертывать модели T2I после их донастройки на внутренних целевых данных. В то время как методы обрезки предлагают потенциальное решение для снижения вычислительной нагрузки моделей T2I, статические методы обрезки используют одну и ту же обрезанную модель для всех входных запросов, не учитывая различные требования к емкости различных запросов. Динамическая обрезка решает эту проблему, используя отдельную подсеть для каждого запроса, но она препятствует параллелизму по пакетам на графических процессорах. Для преодоления этих ограничений мы представляем метод Адаптивной Обрезки Под Запрос (APTP), новый метод обрезки, разработанный для моделей диффузии T2I. Центральным элементом нашего подхода является модель маршрутизатора запросов, которая учится определять необходимую емкость для входного текстового запроса и направлять его к коду архитектуры, учитывая общий желаемый бюджет вычислений для запросов. Каждый код архитектуры представляет собой специализированную модель, адаптированную к присвоенным ей запросам, и количество кодов является гиперпараметром. Мы обучаем маршрутизатор запросов и коды архитектуры с использованием контрастного обучения, обеспечивая отображение похожих запросов в близкие коды. Кроме того, мы используем оптимальный транспорт, чтобы предотвратить схлопывание кодов в один. Мы демонстрируем эффективность APTP путем обрезки Stable Diffusion (SD) V2.1 с использованием наборов данных CC3M и COCO. APTP превосходит базовые методы обрезки одиночных моделей по показателям FID, CLIP и CMMD. Наш анализ кластеров, выученных APTP, показывает, что они имеют семантический смысл. Мы также показываем, что APTP может автоматически обнаруживать ранее эмпирически найденные сложные запросы для SD, например, запросы для генерации текстовых изображений, присваивая им коды более высокой емкости.
Быстрое развитие языковых моделей потребовало создания более сложных бенчмарков. Существующие статические бенчмарки часто испытывают трудности в последовательном различении возможностей различных моделей и не соответствуют предпочтениям пользователей в реальном мире. С другой стороны, платформы с живыми данными, такие как Chatbot Arena, собирают широкий спектр естественных подсказок и отзывов пользователей. Однако эти подсказки различаются по сложности, и обратная связь не может быть применена офлайн к новым моделям. Для того чтобы обеспечить соответствие бенчмарков темпу развития LLM, мы рассматриваем, как можно оценить бенчмарки по их способности уверенно разделять модели и соответствовать предпочтениям людей. В соответствии с этими принципами мы разработали BenchBuilder, живой бенчмарк, который фильтрует высококачественные подсказки из источников живых данных для возможности офлайн оценки на новых сложных подсказках. BenchBuilder выделяет семь показателей высококачественной подсказки, таких как требование к областным знаниям, и использует аннотатор LLM для выбора высококачественного подмножества подсказок из различных кластеров тем. Процесс оценки LLM включает судью LLM для обеспечения полностью автоматизированного, высококачественного и постоянно обновляемого бенчмарка. Мы применяем BenchBuilder к подсказкам из Chatbot Arena для создания Arena-Hard-Auto v0.1: 500 сложных пользовательских подсказок из широкого спектра задач. Arena-Hard-Auto v0.1 предлагает интервалы уверенности, сжатые в 3 раза по сравнению с MT-Bench, и достигает современного уровня согласованности 89,1% с рейтингами предпочтений людей, все это по стоимости всего лишь $25 и без участия человеческих разметчиков. Пайплайн BenchBuilder улучшает оценочные бенчмарки и предоставляет ценный инструмент для разработчиков, позволяя извлекать высококачественные бенчмарки из обширных данных с минимальными усилиями.
Бинаризация, которая преобразует весовые параметры в двоичные значения, стала эффективной стратегией для уменьшения размера крупных языковых моделей (LLM). Однако типичные техники бинаризации значительно снижают лингвистическую эффективность LLM. Для решения этой проблемы мы представляем новую технику бинаризации под названием Смесь Масштабов (BinaryMoS). В отличие от традиционных методов, BinaryMoS использует несколько экспертов по масштабированию для двоичных весов, динамически объединяя этих экспертов для каждого токена для адаптивной генерации масштабирующих факторов. Этот токен-адаптивный подход повышает представительную мощность бинаризованных LLM, позволяя контекстуальные корректировки значений двоичных весов. Более того, поскольку этот адаптивный процесс затрагивает только масштабирующие факторы, а не весь весовой матрицы, BinaryMoS сохраняет эффективность сжатия, сходную с традиционными статическими методами бинаризации. Наши экспериментальные результаты показывают, что BinaryMoS превосходит традиционные техники бинаризации в различных задачах обработки естественного языка и даже превосходит методы квантования на 2 бита, сохраняя при этом схожий размер модели с методами статической бинаризации.
Прямое выравнивание по предпочтениям (DAP) стало перспективной парадигмой для выравнивания больших языковых моделей (LLM) с человеческими желаниями из заранее собранных офлайн наборов данных о предпочтениях. В то время как недавние исследования показывают, что существующие методы офлайн DAP могут прямо получить выгоду от онлайн обучающих выборок, мы подчеркиваем необходимость разработки специфических онлайн алгоритмов DAP для полного использования мощи онлайн обучения. В частности, мы выявляем, что обученная LLM должна придерживаться близости к поведенческой LLM, которая собирает обучающие выборки. В этом контексте мы предлагаем онлайн Оптимизацию Предпочтений в близости к Поведенческой LLM (BPO), подчеркивая важность построения правильной области доверия для выравнивания LLM. Мы проводим обширные эксперименты для подтверждения эффективности и применимости нашего подхода, интегрируя его с различными методами DAP, что приводит к значительному улучшению производительности на широком спектре задач при обучении на том же объеме данных о предпочтениях. Даже при введении только одной дополнительной фазы сбора данных, наша онлайн BPO улучшает базовую линию офлайн DAP с 72,0% до 80,2% для TL;DR и с 82,2% до 89,1% для Anthropogenic Helpfulness в терминах победного коэффициента по сравнению с человеческим эталонным текстом.
Монтаж видео является основой цифровых медиа, от развлечений и образования до профессионального общения. Однако ранее применяемые методы часто не учитывали необходимость всестороннего понимания как глобальных, так и локальных контекстов, что приводило к неточным и несогласованным правкам в пространственно-временном измерении, особенно для длинных видеороликов. В данной статье мы представляем VIA, универсальную временно-пространственную систему адаптации видео для глобального и локального монтажа, расширяющую возможности последовательного монтажа видеороликов длительностью в минуту. Во-первых, для обеспечения локальной согласованности внутри отдельных кадров основой VIA является новый метод адаптации редактирования во время тестирования, который адаптирует предварительно обученную модель редактирования изображений для улучшения согласованности между возможными направлениями редактирования и текстовой инструкцией, а также адаптирует маскированные скрытые переменные для точного локального контроля. Кроме того, для поддержания глобальной согласованности по всей последовательности видео мы представляем временно-пространственную адаптацию, которая адаптирует согласованные переменные внимания в ключевых кадрах и стратегически применяет их по всей последовательности для реализации эффектов монтажа. Обширные эксперименты демонстрируют, что по сравнению с базовыми методами наш подход VIA создает правки, более верные исходным видеороликам, более согласованные в пространственно-временном контексте и более точные в локальном контроле. Более того, мы показываем, что VIA способен обеспечить последовательный монтаж длинных видеороликов в минуты, разблокируя потенциал для продвинутых задач монтажа видео по длинным последовательностям.
Оценка эффективности больших языковых моделей (LLM) в решении разнообразных задач является важной для понимания их сильных и слабых сторон. Традиционные методы оценки обычно применяют одну стратегию подсказки равномерно по всем наборам данных, не учитывая изменяющуюся сложность задач. Мы представляем Таксономию Иерархических Подсказок (HPT), таксономию, которая использует Иерархическую Структуру Подсказок (HPF), состоящую из пяти уникальных стратегий подсказок, упорядоченных от простой к наиболее сложной, для более точной оценки LLM и предоставления более ясной перспективы. Эта таксономия присваивает оценку, называемую Оценкой Иерархических Подсказок (HP-Score), наборам данных, а также LLM на основе правил таксономии, обеспечивая тонкое понимание их способности решать разнообразные задачи и предлагая универсальную меру сложности задач. Кроме того, мы представляем Адаптивную Иерархическую Структуру Подсказок, которая автоматизирует выбор соответствующих стратегий подсказок для каждой задачи. В данном исследовании сравниваются ручные и адаптивные иерархические структуры подсказок с использованием четырех настроенных по инструкциям LLM: Llama 3 8B, Phi 3 3.8B, Mistral 7B и Gemma 7B, на четырех наборах данных: BoolQ, CommonSenseQA (CSQA), IWSLT-2017 en-fr (IWSLT) и SamSum. Эксперименты демонстрируют эффективность HPT, предоставляя надежный способ сравнения различных задач и возможностей LLM. Данная статья приводит к разработке универсальной метрики оценки, которая может быть использована для оценки как сложности наборов данных, так и возможностей LLM. Реализация как ручной HPF, так и адаптивной HPF доступна публично.
Модели, объединяющие зрение и язык (VLM), теперь используются для создания автономных мультимодальных агентов, способных действовать в реальных средах. В данной статье мы показываем, что мультимодальные агенты создают новые риски безопасности, хотя атаковать их сложнее, чем ранее из-за ограниченного доступа к информации о среде. Наши атаки используют адверсальные текстовые строки для направления градиентного возмущения на одно триггерное изображение в среде: (1) атака на описания направлена на белобоксовых описателей, если они используются для преобразования изображений в описания в качестве дополнительных входных данных для VLM; (2) наша атака CLIP направлена на группу моделей CLIP совместно, что может быть передано на собственные VLM. Для оценки атак мы создали VisualWebArena-Adv, набор адверсальных задач на основе VisualWebArena, среды для веб-мультимодальных задач агентов. В пределах L-бесконечности нормы 16/256 на одном изображении атака на описания может заставить агента GPT-4V с описаниями выполнить адверсальные цели с успехом 75%. При удалении описателя или использовании GPT-4V для генерации собственных описаний атака CLIP может достичь успехов в 21% и 43% соответственно. Эксперименты на агентах на основе других VLM, таких как Gemini-1.5, Claude-3 и GPT-4o, показывают интересные различия в их устойчивости. Дальнейший анализ выявляет несколько ключевых факторов, способствующих успеху атаки, и мы также обсуждаем последствия для защиты. Страница проекта: https://chenwu.io/attack-agent Код и данные: https://github.com/ChenWu98/agent-attack
В данной статье мы указываем, что неоптимальное отображение шума на данные приводит к медленному обучению моделей диффузии. В процессе обучения диффузии текущие методы диффундируют каждое изображение по всему пространству шума, что приводит к смешиванию всех изображений в каждой точке слоя шума. Мы подчеркиваем, что случайное смешивание отображения шума на данные усложняет оптимизацию функции денойзинга в моделях диффузии. Вдохновляясь немешаемым явлением в физике, мы предлагаем метод "Немешаемая диффузия" - простой и эффективный способ улучшить случайное смешивание отображения шума на данные. В физике совместимость может меняться в зависимости от различных межмолекулярных сил. Таким образом, немешаемость означает, что смешивание молекулярных источников различимо. Вдохновленные этим, мы предлагаем стратегию обучения с присвоением, а затем диффузией. Конкретно, перед диффузией данных изображения в шум мы присваиваем целевой шум диффузии для данных изображения, минимизируя общее расстояние пары изображение-шум в мини-пакете. Присвоение функционирует аналогично внешним силам для разделения областей, подлежащих диффузии на изображениях, тем самым смягчая врожденные трудности в обучении диффузии. Наш подход чрезвычайно прост, требуя всего одну строку кода для ограничения области диффузии для каждого изображения, сохраняя при этом гауссовское распределение шума. Это гарантирует, что каждое изображение проецируется только на близкий шум. Для решения высокой сложности алгоритма присвоения мы используем метод квантованного присвоения для снижения вычислительной нагрузки до незначительного уровня. Эксперименты показывают, что наш метод достигает ускорения обучения до 3 раз для моделей согласованности и DDIM на наборе данных CIFAR, и до 1,3 раза быстрее на наборах данных CelebA для моделей согласованности. Кроме того, мы проводим тщательный анализ метода "Немешаемая диффузия", который проливает свет на то, как он улучшает скорость обучения диффузии, сохраняя достоверность.
Большие модели для генерации музыки по тексту достигли значительного прогресса, облегчая создание высококачественных и разнообразных музыкальных произведений по предоставленным текстовым подсказкам. Однако входные текстовые подсказки могут не точно передавать потребности пользователя, особенно когда целью является создание музыки, воплощающей определенную концепцию, выведенную из определенной коллекции ссылочных произведений. В данной статье мы предлагаем новый метод для индивидуализированной генерации музыки по тексту, способный улавливать концепцию из двухминутной ссылочной музыки и создавать новое музыкальное произведение, соответствующее данной концепции. Мы достигаем этого путем донастройки предварительно обученной модели генерации музыки по тексту с использованием ссылочной музыки. Однако прямая донастройка всех параметров приводит к проблемам переобучения. Для решения этой проблемы мы предлагаем метод настройки ключевых параметров, который позволяет модели усваивать новую концепцию, сохраняя ее исходные генеративные возможности. Кроме того, мы выявляем потенциальное противоречие концепций при введении нескольких концепций в предварительно обученную модель. Мы представляем стратегию улучшения концепции для различения нескольких концепций, позволяя донастроенной модели генерировать музыку, включающую как отдельные, так и несколько концепций одновременно. Поскольку мы первые, кто работает над задачей индивидуализированной генерации музыки, мы также представляем новый набор данных и протокол оценки для данной задачи. Наш предложенный Jen1-DreamStyler превосходит несколько базовых в качественной и количественной оценках. Демонстрации будут доступны на https://www.jenmusic.ai/research#DreamStyler.
Супервыравнивание, где люди являются слабыми руководителями для сверхчеловеческих моделей, стало важной и широко обсуждаемой проблемой в текущей эпохе быстрого развития моделей больших языков (LLM). Недавние исследования предварительно изучают эту проблему, используя слабые модели для руководства сильными моделями. Они обнаружили, что слабо руководимые сильные студенты могут последовательно превосходить слабых учителей по цели выравнивания, что приводит к явлению обобщения от слабого к сильному. Однако нас беспокоит, что за таким многообещающим явлением может стоять проблема слабо-сильного обмана, где сильные модели могут обмануть слабые модели, демонстрируя хорошее выравнивание в областях, известных слабым моделям, но проявляя несогласованные поведенческие характеристики в случаях, когда слабые модели этого не знают. Мы предпринимаем первый шаг к исследованию этой проблемы безопасности в конкретном, но реалистичном случае многокритериального выравнивания, где могут возникнуть конфликты между некоторыми целями выравнивания (например, полезность против безвредности). Такой конфликт может привести к тому, что сильные модели обманывают слабые модели в одном измерении выравнивания, чтобы получить высокую награду в другом измерении выравнивания. Наши эксперименты как на задаче моделирования вознаграждения, так и в сценарии оптимизации предпочтений показывают: (1) существует явление слабо-сильного обмана; (2) явление обмана может усиливаться по мере увеличения разрыва в возможностях между слабыми и сильными моделями. Мы также обсуждаем потенциальные решения и устанавливаем, что использование бутстрэпинга с промежуточной моделью может смягчить обман в некоторой степени. Наша работа подчеркивает настоятельную необходимость уделить больше внимания истинной надежности супервыравнивания.
В данной статье мы представляем метод Low-Rank Adaptation (LoRA), вдохновленный подпространством, который является вычислительно эффективным, легким в реализации и готовым к применению в больших языковых, мультимодальных и диффузионных моделях. Изначально мы эквивалентно декомпозируем веса LoRA на два подпространства и обнаруживаем, что простое их смешивание может улучшить производительность. Для изучения такого явления мы пересматриваем его через призму тонкой настройки подпространства, показывая, что такая модификация эквивалентна использованию фиксированного микшера для слияния подпространств. Для большей гибкости мы совместно обучаем микшер с исходными весами LoRA и называем этот метод Mixture-of-Subspaces LoRA (MoSLoRA). MoSLoRA последовательно превосходит LoRA на задачах различных модальностей, включая рассуждения на здравый смысл, настройку визуальных инструкций и генерацию текста в изображение по запросу, демонстрируя его эффективность и устойчивость. Код доступен на https://github.com/wutaiqiang/MoSLoRA.