Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние исследования показывают, что после тонкой настройки на высококачественном наборе инструкций результирующая модель может демонстрировать впечатляющие способности для решения широкого круга задач. Однако существующие методы генерации данных для инструкций часто производят дублирующиеся данные и недостаточно контролируют их качество. В данной статье мы расширяем обобщаемость настройки на инструкциях, классифицируя данные инструкций на 4 задачи, связанные с кодом, и предлагаем основанную на больших языковых моделях (LLM) структуру обработки данных "Генератор-Дискриминатор" для создания разнообразных и высококачественных данных инструкций из открытого исходного кода. Таким образом, мы представляем CodeOcean — набор данных, содержащий 20 000 экземпляров инструкций для 4 универсальных задач, связанных с кодом, который направлен на повышение эффективности настройки на инструкциях и улучшение обобщающей способности тонко настроенной модели. Далее мы представляем WaveCoder — тонко настроенную модель для работы с кодом (Code LLM), использующую расширенную настройку на инструкциях с широким и универсальным охватом. Эта модель специально разработана для улучшения настройки на инструкциях языковых моделей для работы с кодом (Code LLMs). Наши эксперименты демонстрируют, что модели Wavecoder превосходят другие модели с открытым исходным кодом по обобщающей способности в различных задачах, связанных с кодом, при том же уровне масштаба тонкой настройки. Более того, Wavecoder демонстрирует высокую эффективность в предыдущих задачах генерации кода. Таким образом, данная статья вносит значительный вклад в область генерации данных для инструкций и тонкой настройки моделей, предоставляя новые идеи и инструменты для повышения производительности в задачах, связанных с кодом.
Экспоненциальный рост крупных языковых моделей (LLM) открыл множество возможностей для создания мультимодальных систем искусственного общего интеллекта (AGI). Однако прогресс в области моделей для обработки изображений и мультимодальных моделей, объединяющих зрение и язык, которые также являются ключевыми элементами мультимодального AGI, не поспевает за развитием LLM. В данной работе мы разрабатываем крупномасштабную мультимодальную модель, объединяющую зрение и язык (InternVL), которая масштабирует модель обработки изображений до 6 миллиардов параметров и постепенно согласует её с крупной языковой моделью, используя веб-данные изображений и текстов из различных источников. Эта модель может быть широко применена и демонстрирует наилучшие результаты в задачах визуального восприятия, таких как распознавание на уровне изображения или пикселя, а также в задачах, объединяющих зрение и язык, таких как классификация изображений/видео с нулевым обучением, поиск соответствий между изображениями/видео и текстом с нулевым обучением, и интеграция с LLM для создания мультимодальных диалоговых систем. Мы надеемся, что наше исследование внесёт вклад в развитие крупных мультимодальных моделей. Код и модели доступны по адресу https://github.com/OpenGVLab/InternVL.
Как люди, мы постоянно взаимодействуем с окружающими и получаем обратную связь в форме естественного языка. Такая языковая обратная связь позволяет нам анализировать свои действия, поддерживать соответствующее поведение и исправлять ошибки. Возникает естественный вопрос: можно ли использовать языковую обратную связь для согласования больших языковых моделей (LLM)? В отличие от предыдущих исследований, которые согласовывали LLM с данными о вознаграждениях или предпочтениях, мы представляем первое систематическое исследование согласования через призму языковой обратной связи (т.е. суждений). Мы начинаем с детального анализа потенциальных методов, которые могут быть адаптированы для согласования LLM с суждениями, и обнаруживаем, что эти методы не способны в полной мере использовать суждения. Для более эффективного использования суждений мы предлагаем новую структуру — Контрастное обучение с маловероятностью (Contrastive Unlikelihood Training, CUT), которая позволяет осуществлять детектирование и исправление неподходящего контента на основе суждений. Наши результаты оффлайн-согласования показывают, что с использованием всего 1317 готовых данных суждений CUT (LLaMA2-13b) может превзойти модель DaVinci003 с 175 миллиардами параметров и опередить лучший базовый метод на 52,34 балла на AlpacaEval. Результаты онлайн-согласования демонстрируют, что CUT может согласовывать LLM (LLaMA2-chat-13b) итеративно, используя специфические для модели данные суждений, с устойчивым улучшением производительности с 81,09 до 91,36 баллов на AlpacaEval. Наш анализ также указывает на то, что суждения обладают большим потенциалом, чем вознаграждения, для согласования LLM и заслуживают дальнейших исследований.
Люди обладают удивительной способностью визуального восприятия — умением видеть и понимать увиденное, что помогает им осмысливать визуальный мир и, в свою очередь, рассуждать. Мультимодальные большие языковые модели (MLLM) недавно достигли впечатляющих результатов в задачах, связанных с обработкой визуальной и текстовой информации, таких как визуальные вопросы и ответы, генерация описаний изображений, визуальное рассуждение и создание изображений. Однако, когда их просят идентифицировать или подсчитать (воспринять) объекты на заданном изображении, существующие системы MLLM терпят неудачу. Работая над созданием точной системы MLLM для восприятия и рассуждения, мы предлагаем использовать универсальные визуальные кодировщики (VCoder) в качестве "глаз" для мультимодальных языковых моделей. Мы передаем VCoder данные восприятия, такие как карты сегментации или глубины, что улучшает способности MLLM к восприятию. Во-вторых, мы используем изображения из COCO и выходные данные готовых моделей визуального восприятия для создания нашего набора данных COCO Segmentation Text (COST) для обучения и оценки MLLM на задаче восприятия объектов. В-третьих, мы вводим метрики для оценки способностей MLLM к восприятию объектов на нашем наборе данных COST. Наконец, мы предоставляем обширные экспериментальные доказательства, подтверждающие улучшенные навыки восприятия на уровне объектов VCoder по сравнению с существующими мультимодальными языковыми моделями, включая GPT-4V. Мы открываем исходный код нашего набора данных, кода и моделей для содействия исследованиям. Исходный код доступен по адресу: https://github.com/SHI-Labs/VCoder.
Ключевым методом создания искусственного интеллекта (ИИ) является обучение с подкреплением (Reinforcement Learning, RL). Однако разработка автономной RL-политики, которая напрямую связывает восприятие с действиями, сталкивается с серьезными проблемами, главными из которых являются отсутствие универсальности для множества задач и необходимость большого объема обучающих данных. Основная причина заключается в том, что такая политика не может эффективно интегрировать предварительную информацию в цикл восприятия-действия при разработке стратегии. Крупные языковые модели (Large Language Models, LLMs) стали фундаментальным способом включения междисциплинарных знаний в агентов ИИ, но им не хватает способности к обучению и адаптации для решения конкретных задач принятия решений. В данной статье представлена общая модель интеграции и обучения структурированного рассуждения в политики агентов ИИ. Наша методология вдохновлена модульностью, наблюдаемой в человеческом мозге. Фреймворк использует построение внутренних и внешних функций для включения предшествующих знаний о структурах рассуждений. Он также обеспечивает адаптивную способность к обучению моделей внутри каждого модуля или функции, что согласуется с модульной структурой когнитивных процессов. Мы подробно описываем фреймворк и сравниваем его с другими подходами ИИ и существующими фреймворками. В статье исследуются практические применения, включая эксперименты, демонстрирующие эффективность нашего метода. Наши результаты показывают, что агенты ИИ работают и адаптируются значительно лучше, когда в них встроены организованные рассуждения и предварительные знания. Это открывает путь к созданию более устойчивых и универсальных систем агентов ИИ.
Последние достижения в области обработки естественного языка привели к тому, что крупные языковые модели (LLM) достигли уровня понимания и генерации языка, сопоставимого с человеческим, во многих реальных задачах, и даже рассматриваются как потенциальный путь к созданию искусственного общего интеллекта. Для более эффективного содействия исследованиям в области LLM недавно были предложены многие открытые модели, такие как Llama 2 и Falcon, которые демонстрируют производительность, сравнимую с проприетарными моделями. Однако эти модели в основном разработаны для англоязычных сценариев и показывают низкую производительность в китайских контекстах. В данном техническом отчете мы представляем YAYI 2, включая базовую и чат-модель, с 30 миллиардами параметров. YAYI 2 предварительно обучается с нуля на многоязычном корпусе, содержащем 2,65 триллиона токенов, отфильтрованных с помощью нашего конвейера обработки данных для предварительного обучения. Базовая модель согласуется с человеческими ценностями посредством контролируемого тонкого обучения на миллионах инструкций и обучения с подкреплением на основе обратной связи от людей. Многочисленные эксперименты на различных бенчмарках, таких как MMLU и CMMLU, последовательно демонстрируют, что предложенная модель YAYI 2 превосходит другие открытые модели аналогичного размера.
Атаки на языковые модели обычно предполагают одну из двух крайних моделей угроз: полный белый доступ к весам модели или черный доступ, ограниченный API генерации текста. Однако реальные API часто более гибкие, чем просто генерация текста: они предоставляют «серый» доступ, что открывает новые векторы атак. Чтобы изучить это, мы провели тестирование на проникновение трех новых функций, доступных в API GPT-4: тонкая настройка, вызов функций и извлечение знаний. Мы обнаружили, что тонкая настройка модели на всего 15 вредоносных или 100 безвредных примеров может удалить ключевые защитные механизмы GPT-4, позволяя генерировать вредоносные выходные данные. Кроме того, мы выяснили, что помощники GPT-4 легко раскрывают схему вызова функций и могут быть использованы для выполнения произвольных вызовов функций. Наконец, мы обнаружили, что извлечение знаний может быть перехвачено путем внедрения инструкций в документы для извлечения. Эти уязвимости подчеркивают, что любые дополнения к функциональности, предоставляемой API, могут создавать новые уязвимости.
3D-реконструкция на основе одного ракурса является сложной задачей из-за неоднозначности, возникающей при использовании монокулярных сигналов, и отсутствия информации о скрытых областях. Нейронные поля излучения (NeRF), хотя и популярны для синтеза видов и 3D-реконструкции, обычно зависят от изображений с нескольких ракурсов. Существующие методы для 3D-реконструкции с использованием NeRF на основе одного ракурса полагаются либо на априорные данные для "додумывания" скрытых областей, что может быть физически неточным, либо на тени, наблюдаемые RGB-камерами, которые сложно обнаружить при рассеянном освещении и на фонах с низким альбедо. Мы предлагаем использовать данные времени пролета, полученные с помощью однофотонного лавинного диода, чтобы преодолеть эти ограничения. Наш метод моделирует двухотраженные оптические пути с использованием NeRF, применяя данные лидарных переходных процессов для обучения. Используя преимущества как NeRF, так и двухотраженного света, измеряемого лидаром, мы показываем, что можем реконструировать видимую и скрытую геометрию без использования априорных данных или зависимости от контролируемого освещения или альбедо сцены. Кроме того, мы демонстрируем улучшенную обобщаемость в условиях практических ограничений на пространственное и временное разрешение сенсора. Мы считаем, что наш метод является перспективным направлением, поскольку однофотонные лидары становятся повсеместными на потребительских устройствах, таких как телефоны, планшеты и гарнитуры.
Несмотря на то, что CLIP является базовой моделью для множества задач, связанных с обработкой изображений и текста, она страдает от сильной предвзятости к распознаванию текста на изображениях. Такая предвзятость заставляет модели CLIP "повторять" визуальный текст, встроенный в изображения, игнорируя при этом подлинную визуальную семантику. Мы обнаружили, что в наиболее популярном наборе данных LAION-2B, содержащем изображения и текстовые описания, подписи также часто дословно повторяют текст, встроенный в изображения. Наш анализ показывает, что около 50\% изображений содержат визуальный текст, и 90\% их подписей в той или иной степени повторяют этот текст. Основываясь на этом наблюдении, мы тщательно исследуем различные версии моделей CLIP и подтверждаем, что визуальный текст является доминирующим фактором при измерении сходства изображений и текста в стиле LAION для этих моделей. Чтобы проверить, формируют ли такие повторяющиеся подписи предвзятость к распознаванию текста, мы обучаем серию моделей CLIP на подмножествах LAION, отобранных по различным критериям, ориентированным на повторяющиеся подписи. Мы показываем, что обучение с использованием таких подписей легко формирует эту предвзятость, но вредит ожидаемому обучению визуально-языковым представлениям в моделях CLIP. Это говорит о том, что необходимо срочно пересмотреть либо проектирование моделей, подобных CLIP, либо существующий процесс создания наборов данных изображений и текстов, основанный на фильтрации по оценке CLIP.
Популяризация диффузионных моделей "текст-изображение" (Text-to-Image, T2I) позволяет генерировать высококачественные изображения на основе текстовых описаний. Однако создание разнообразных персонализированных изображений с учетом визуальных атрибутов из референсных данных остается сложной задачей. В данной работе основное внимание уделяется персонализации T2I диффузионных моделей на уровне абстрактных концепций или категорий, адаптируя общие черты из набора референсных изображений и создавая новые экземпляры с достаточным уровнем вариативности. Мы предлагаем решение, которое позволяет предобученной T2I диффузионной модели изучить набор "мягких" промптов, что дает возможность генерировать новые изображения путем выборки промптов из изученного распределения. Эти промпты обеспечивают возможности текстового редактирования и дополнительную гибкость в управлении вариациями и смешением между несколькими распределениями. Мы также демонстрируем адаптируемость изученного распределения промптов к другим задачам, таким как "текст-3D". Наконец, мы подтверждаем эффективность нашего подхода с помощью количественного анализа, включая автоматическую оценку и экспертные оценки. Проектный сайт: https://briannlongzhao.github.io/DreamDistribution.
Мы исследуем задачу реконструкции 3D-формы по одному изображению в условиях нулевого сэмплинга (zero-shot). Современные работы изучают реконструкцию формы через генеративное моделирование 3D-объектов, однако такие модели требуют значительных вычислительных ресурсов как на этапе обучения, так и на этапе вывода. В отличие от этого, традиционный подход к данной проблеме основан на регрессии, где детерминированные модели обучаются для прямого предсказания формы объекта. Такие регрессионные методы обладают значительно более высокой вычислительной эффективностью по сравнению с генеративными. Это поднимает естественный вопрос: необходимо ли генеративное моделирование для достижения высокой производительности, или, напротив, регрессионные подходы остаются конкурентоспособными? Чтобы ответить на этот вопрос, мы разработали мощную регрессионную модель под названием ZeroShape, основанную на консолидированных результатах в данной области и новом инсайте. Мы также создали крупный эталонный набор данных для оценки на основе реальных объектов из трех различных наборов 3D-данных. Этот набор данных более разнообразен и на порядок больше, чем те, которые использовались в предыдущих работах для количественной оценки моделей, что позволяет снизить дисперсию оценки в нашей области. Мы показываем, что ZeroShape не только достигает превосходной производительности по сравнению с современными методами, но и демонстрирует значительно более высокую вычислительную и ресурсную эффективность.
Расширение сокращений — это стратегия, направленная на ускорение коммуникации за счет уменьшения объема набора текста и использования языковой модели для предложения расширений. В данной работе мы рассматриваем персонализацию предложений крупной языковой модели (LLM) на основе предыдущих диалогов для повышения релевантности предсказаний, особенно когда объем пользовательских данных невелик (~1000 примеров). В частности, мы сравниваем тонкую настройку, настройку через промпты и генерацию с использованием извлеченных данных для предложения расширений сокращенных вводов. Наше кейс-исследование с развернутой LLM на 8 миллиардов параметров у реального пользователя с БАС, а также эксперименты с персонализацией на основе персонажей фильмов показывают, что (1) в некоторых сценариях может потребоваться кастомизация, и настройка через промпты хорошо справляется с этой задачей, (2) тонкая настройка на данных из целевой области (даже с 600 примерами) все же приносит некоторый выигрыш, однако (3) генерация с использованием извлеченных данных в режиме few-shot также превосходит тонкую настройку. (4) Эффективная по параметрам настройка позволяет реализовать масштабируемую персонализацию. Для настройки через промпты мы также обнаружили, что инициализация обучаемых "мягких промптов" токенами, релевантными пользователю, приводит к более высокой точности, чем случайная инициализация.
По мере развития крупномасштабных генеративных моделей ИИ, выходящих за рамки генерации текста (1D) и включающих генерацию изображений (2D) и видео (3D), обработка пространственной и временной информации представляет уникальные вызовы для качества, производительности и эффективности. Мы представляем первую работу, направленную на понимание этого нового пространства проектирования систем для многомодальных моделей генерации текста в изображение (TTI) и текста в видео (TTV). Современные архитектуры моделей разделяются на две категории: модели на основе диффузии и модели на основе трансформеров. Наше систематическое исследование производительности на наборе из восьми репрезентативных моделей TTI/TTV показывает, что после применения передовых методов оптимизации, таких как Flash Attention, сверточные слои занимают до 44% времени выполнения для моделей TTI на основе диффузии, в то время как линейные слои потребляют до 49% времени выполнения для моделей на основе трансформеров. Мы также отмечаем, что модели TTI на основе диффузии напоминают этап предварительного заполнения (Prefill) в выводе больших языковых моделей (LLM) и получают выигрыш в скорости от Flash Attention в 1.1-2.5 раза больше, чем модели TTI на основе трансформеров, которые напоминают этап декодирования (Decode). Поскольку оптимизации, разработанные для LLM, не могут быть напрямую применены к моделям TTI/TTV, необходимо провести тщательное исследование этих задач, чтобы получить представление о новых возможностях оптимизации. В процессе мы определяем длину последовательности в контексте моделей TTI/TTV и отмечаем, что длина последовательности может варьироваться до 4 раз в выводе моделей на основе диффузии. Мы также наблюдаем, что временные аспекты задач TTV создают уникальные системные узкие места, причем временное внимание (Temporal Attention) занимает более 60% общего времени внимания. В целом, наше глубокое исследование производительности систем является важным первым шагом к проектированию эффективных и развертываемых систем для новых задач TTI/TTV.
Физические свойства объекта, такие как масса, существенно влияют на то, как мы манипулируем им руками. Удивительно, но этот аспект до сих пор оставался без внимания в предыдущих работах по синтезу 3D-движений. Чтобы повысить естественность синтезированных 3D-движений рук и объектов, в данной работе предлагается MACS — первый подход к синтезу 3D-движений рук и объектов, учитывающий массу (MAss Conditioned 3D hand and object motion Synthesis). Наш подход основан на каскадных диффузионных моделях и генерирует взаимодействия, которые правдоподобно адаптируются в зависимости от массы объекта и типа взаимодействия. MACS также принимает в качестве входных данных вручную нарисованную 3D-траекторию объекта и синтезирует естественные 3D-движения рук, обусловленные массой объекта. Эта гибкость позволяет использовать MACS для различных прикладных задач, таких как генерация синтетических данных для обучения машинного обучения, быстрая анимация рук в графических процессах и создание взаимодействий персонажей в компьютерных играх. Экспериментально мы показываем, что небольшого набора данных достаточно для того, чтобы MACS мог разумно обобщать интерполированные и экстраполированные массы объектов, не встречавшиеся во время обучения. Кроме того, MACS демонстрирует умеренную обобщаемость к новым объектам благодаря меткам контактов, обусловленным массой, которые генерируются нашей моделью синтеза контактов на поверхности ConNet. Наше всестороннее пользовательское исследование подтверждает, что синтезированные 3D-взаимодействия рук и объектов выглядят высоко правдоподобно и реалистично.
В данной статье представлена модель "Shai" — крупная языковая модель уровня 10 миллиардов параметров, специально разработанная для индустрии управления активами и построенная на основе открытой базовой модели. Благодаря непрерывному предварительному обучению и тонкой настройке с использованием целевого корпуса данных, Shai демонстрирует улучшенную производительность в задачах, актуальных для её области, превосходя базовые модели. Наше исследование включает разработку инновационной системы оценки, которая интегрирует профессиональные квалификационные экзамены, специализированные задачи, ответы на открытые вопросы и проверку безопасности, чтобы всесторонне оценить возможности Shai. Кроме того, мы обсуждаем вызовы и последствия использования крупных языковых моделей, таких как GPT-4, для оценки производительности в управлении активами, предлагая сочетание автоматизированной оценки и экспертного суждения. Разработка Shai, демонстрирующая потенциал и универсальность крупных языковых моделей уровня 10 миллиардов параметров в финансовом секторе с высокой производительностью и умеренными вычислительными требованиями, призвана предоставить практические идеи и методологии, которые помогут коллегам по отрасли в их аналогичных начинаниях.
Недавно исследователи предприняли попытки изучить способность крупных языковых моделей (LLM) обрабатывать видео и предложили несколько моделей видео-LLM. Однако способность LLM справляться с задачей видео-граундинга (VG), которая является важной временной задачей, требующей от модели точного определения начальных и конечных временных меток временных моментов в видео, соответствующих заданным текстовым запросам, до сих пор остается неясной и неисследованной в литературе. Чтобы заполнить этот пробел, в данной статье мы предлагаем бенчмарк LLM4VG, который систематически оценивает производительность различных LLM на задачах видео-граундинга. На основе предложенного LLM4VG мы разработали обширные эксперименты для изучения двух групп видео-LLM моделей на задачах видео-граундинга: (i) видео-LLM, обученные на парах текст-видео (обозначаемые как VidLLM), и (ii) LLM, объединенные с предварительно обученными моделями визуального описания, такими как модели генерации подписей к видео/изображениям. Мы предлагаем методы промптов для интеграции инструкций VG и описаний от различных типов генераторов, включая генераторы на основе подписей для прямого визуального описания и генераторы на основе вопросно-ответных систем (VQA) для усиления информации. Мы также предоставляем всесторонние сравнения различных VidLLM и исследуем влияние различных выборов визуальных моделей, LLM, дизайна промптов и других факторов. Наши экспериментальные оценки приводят к двум выводам: (i) существующие VidLLM все еще далеки от достижения удовлетворительной производительности в задачах видео-граундинга, и для дальнейшей тонкой настройки этих моделей следует включить больше временных видео-задач, и (ii) комбинация LLM и визуальных моделей демонстрирует предварительные способности для видео-граундинга с значительным потенциалом для улучшения за счет использования более надежных моделей и дальнейшего руководства с помощью промптов.