Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы предлагаем Adam-mini, оптимизатор, который достигает такой же или даже лучшей производительности, чем AdamW, с уменьшением объема памяти на 45% до 50%. Adam-mini уменьшает использование памяти, сокращая ресурсы скорости обучения в Adam (т.е. 1/v). Мы обнаружили, что более 90% этих скоростей обучения в v могут быть безопасно удалены, если (1) тщательно разделить параметры на блоки в соответствии с нашим предложенным принципом структуры гессиана; (2) назначить одну, но хорошую скорость обучения для каждого блока параметров. Мы также обнаружили, что для каждого из этих блоков параметров существует одна высококачественная скорость обучения, которая может превзойти Adam, при условии наличия достаточных ресурсов для ее поиска. Затем мы предлагаем один эффективный способ найти хорошие скорости обучения и предлагаем Adam-mini. Эмпирически мы проверяем, что Adam-mini работает так же или лучше, чем AdamW, на различных языковых моделях от 125M до 7B для предварительного обучения, надзорного дообучения и RLHF. Уменьшенный объем памяти Adam-mini также снижает накладные расходы на коммуникацию между GPU и ЦП, тем самым увеличивая пропускную способность. Например, Adam-mini достигает на 49.6% большей пропускной способности, чем AdamW, при предварительном обучении Llama2-7B на 2 раза A800-80GB GPU, что экономит 33% времени на предварительное обучение.
Искусственно-интеллектные агенты стали все более значимыми в различных областях, обеспечивая автономное принятие решений и решение проблем. Для эффективной работы эти агенты требуют процесса планирования, определяющего наилучший курс действий, а затем выполняющего запланированные действия. В данной статье мы представляем эффективную структуру Planner-Action для устройств, которая разделяет планирование и выполнение действий на два отдельных компонента: агент планирования на основе Phi-3 Mini, LLM с 3,8 миллиарда параметров, оптимизированный для периферийных устройств, и агент действия, использующий модель Octopus для выполнения функций. Агент планирования первоначально отвечает на запросы пользователей, декомпозируя задачи на последовательность подшагов, которые затем выполняются агентом действия. Для оптимизации производительности на устройствах с ограниченными ресурсами мы используем донастройку модели вместо контекстного обучения, снижая вычислительные затраты и энергопотребление, улучшая время отклика. Наш подход включает использование GPT-4 для генерации разнообразных планировочных запросов и ответов на основе доступных функций, с последующей проверкой для обеспечения качества данных. Мы донастраиваем модель Phi-3 Mini на этом отобранном наборе данных, достигая 97\% успешности в нашей тестовой среде. Для решения многообластных задач планирования мы разработали метод мульти-обучения LoRA, который объединяет веса из LoRA, обученных на различных подмножествах функций. Этот подход обеспечивает гибкую обработку сложных многообластных запросов, сохраняя вычислительную эффективность на устройствах с ограниченными ресурсами. Для поддержки дальнейших исследований мы предоставляем наши веса модели в открытом доступе по адресу https://huggingface.co/NexaAIDev/octopus-planning. Для демонстрации обращайтесь по ссылке https://www.nexa4ai.com/octo-planner.
Понимание графиков играет ключевую роль при применении Мультимодальных Больших Языковых Моделей (MLLMs) к задачам реального мира, таким как анализ научных статей или финансовых отчетов. Однако существующие наборы данных часто сосредоточены на переспрощенных и однородных графиках с вопросами на основе шаблонов, что приводит к чрезмерно оптимистичной оценке прогресса. Мы демонстрируем, что хотя открытые модели могут казаться более эффективными, чем сильные закрытые модели на этих бенчмарках, простой стресс-тест с немного отличающимися графиками или вопросами может снизить производительность на 34.5%. В данной работе мы предлагаем CharXiv, комплексный набор оценки, включающий 2,323 естественных, сложных и разнообразных графика из статей arXiv. CharXiv включает два типа вопросов: 1) описательные вопросы о рассмотрении основных элементов графика и 2) вопросы рассуждения, требующие синтезирования информации по сложным визуальным элементам на графике. Для обеспечения качества все графики и вопросы отбираются, курируются и проверяются экспертами. Наши результаты показывают существенный, ранее недооцененный разрыв между навыками рассуждения сильнейшей закрытой модели (т.е. GPT-4o), достигающей точности 47.1%, и сильнейшей открытой модели (т.е. InternVL Chat V1.5), достигающей 29.2%. Все модели значительно уступают человеческой производительности в 80.5%, подчеркивая слабости в способностях понимания графиков существующих MLLMs. Мы надеемся, что CharXiv способствует будущим исследованиям в области понимания графиков MLLM, предоставляя более реалистичную и точную оценку прогресса. Страница проекта и рейтинг: https://charxiv.github.io/
Мы предлагаем новый бенчмарк генерации текста в видео (T2V) - ChronoMagic-Bench, чтобы оценить временные и метаморфные возможности моделей T2V (например, Sora и Lumiere) в создании видео с эффектом ускоренного воспроизведения. В отличие от существующих бенчмарков, сосредотачивающихся на визуальном качестве и текстовой связности созданных видео, ChronoMagic-Bench фокусируется на способности модели генерировать видео с значительной метаморфной амплитудой и временной согласованностью. Бенчмарк проверяет модели T2V на их физические, биологические и химические возможности с помощью свободного текстового запроса. Для этих целей ChronoMagic-Bench представляет 1 649 подсказок и реальных видео в качестве ссылок, разделенных на четыре основных типа видео с эффектом ускоренного воспроизведения: биологические, созданные человеком, метеорологические и физические явления, которые дополнительно разделены на 75 подкатегорий. Эта категоризация всесторонне оценивает способность модели обрабатывать разнообразные и сложные трансформации. Для точного соответствия человеческим предпочтениям с бенчмарком мы представляем две новые автоматические метрики, MTScore и CHScore, для оценки метаморфных характеристик видео и временной согласованности. MTScore измеряет метаморфную амплитуду, отражая степень изменений со временем, в то время как CHScore оценивает временную согласованность, обеспечивая логическое развитие и последовательность созданных видео. Основываясь на ChronoMagic-Bench, мы проводим всестороннюю ручную оценку десяти репрезентативных моделей T2V, раскрывая их сильные и слабые стороны в различных категориях подсказок и предоставляя тщательную систему оценки, которая устраняет текущие пробелы в исследованиях по генерации видео. Более того, мы создаем крупномасштабный набор данных ChronoMagic-Pro, содержащий 460 тыс. высококачественных пар видео с эффектом ускоренного воспроизведения 720p и подробных подписей, обеспечивающих высокую физическую соответственность и большую метаморфную амплитуду.
Смесь экспертов (MoE) привлекает все больше внимания благодаря своим уникальным свойствам и выдающейся производительности, особенно в задачах обработки языка. Путем разреженной активации подмножества параметров для каждого токена архитектура MoE может увеличить размер модели, не жертвуя вычислительной эффективности, достигая лучшего баланса между производительностью и затратами на обучение. Однако механизм MoE до сих пор требует дальнейшего исследования, и степень его модуляризации остается под вопросом. В данной статье мы предпринимаем первую попытку понять внутреннее устройство крупных языковых моделей на основе MoE. Конкретно, мы всесторонне изучаем параметрические и поведенческие особенности трех недавних моделей на основе MoE и раскрываем некоторые увлекательные наблюдения, включая (1) Нейроны действуют как мелкозернистые эксперты. (2) Маршрутизатор MoE обычно выбирает экспертов с более крупными нормами выхода. (3) Разнообразие экспертов увеличивается по мере увеличения слоя, в то время как последний слой является выбивающимся. На основе наблюдений мы также предлагаем рекомендации для широкого круга практиков MoE, такие как дизайн маршрутизатора и распределение экспертов. Мы надеемся, что эта работа прольет свет на будущие исследования в области фреймворка MoE и других модульных архитектур. Код доступен по ссылке https://github.com/kamanphoebe/Look-into-MoEs.
Мы представляем WildGuard - открытый, легкий инструмент модерации для обеспечения безопасности LLM, достигающий трех целей: (1) выявление злонамеренных намерений в запросах пользователей, (2) обнаружение рисков безопасности в ответах модели и (3) определение уровня отказов модели. Вместе WildGuard отвечает растущим потребностям в автоматической модерации безопасности и оценке взаимодействий с LLM, предоставляя универсальный инструмент с улучшенной точностью и широким охватом по 13 категориям рисков. В то время как существующие открытые инструменты модерации, такие как Llama-Guard2, довольно хорошо справляются с классификацией прямолинейных взаимодействий с моделью, они значительно уступают вызываемому GPT-4, особенно в выявлении атак "адверсариального освобождения" и в оценке отказов моделей, ключевого показателя оценки поведения безопасности в ответах модели. Для решения этих проблем мы создаем WildGuardMix - масштабный и тщательно сбалансированный многозадачный набор данных для модерации безопасности с 92 тыс. размеченных примеров, охватывающих обычные (прямые) запросы и атаки "адверсариального освобождения", сопровождаемые различными ответами отказа и согласия. WildGuardMix представляет собой комбинацию WildGuardTrain, обучающих данных WildGuard, и WildGuardTest - высококачественного тестового набора данных с 5 тыс. размеченных элементов, охватывающих широкий спектр рисковых сценариев. Через обширные оценки на WildGuardTest и десяти существующих общедоступных бенчмарках мы показываем, что WildGuard устанавливает передовую производительность в открытой модерации безопасности по всем трем задачам по сравнению с десятью сильными существующими моделями открытой модерации (например, до 26,4% улучшения в обнаружении отказов). Важно, что WildGuard соответствует и иногда превосходит производительность GPT-4 (например, до 3,9% улучшения в идентификации вредности запроса). WildGuard служит весьма эффективным модератором безопасности в интерфейсе LLM, снижая уровень успешности атак "освобождения" с 79,8% до 2,4%.
Электронные медицинские записи (ЭМР) являются неотъемлемыми для хранения полных медицинских записей пациентов, объединяя структурированные данные (например, медикаменты) с подробными клиническими заметками (например, заметками врачей). Эти элементы необходимы для простого извлечения данных и предоставления глубоких контекстуальных идей о медицинском уходе для пациента. Однако они часто страдают от расхождений из-за неинтуитивного дизайна системы ЭМР и человеческих ошибок, что представляет серьезные риски для безопасности пациентов. Для решения этой проблемы мы разработали EHRCon, новый набор данных и задачу, специально разработанные для обеспечения согласованности данных между структурированными таблицами и неструктурированными заметками в ЭМР. EHRCon был создан в сотрудничестве с медицинскими специалистами с использованием набора данных ЭМР MIMIC-III и включает в себя ручные аннотации 3 943 сущностей в 105 клинических заметках, проверенных на соответствие записям в базе данных. EHRCon имеет две версии: одну, использующую оригинальную схему MIMIC-III, и другую, использующую схему OMOP CDM, чтобы увеличить ее применимость и обобщаемость. Более того, используя возможности больших языковых моделей, мы представляем CheckEHR, новую структуру для проверки согласованности между клиническими заметками и таблицами базы данных. CheckEHR использует восьмиступенчатый процесс и показывает многообещающие результаты как в настройках с небольшим количеством данных, так и в настройках с нулевым количеством данных. Код доступен по ссылке https://github.com/dustn1259/EHRCon.
Сообщество исследователей в области искусственного интеллекта исследует путь к искусственному общему интеллекту (AGI), разрабатывая "языковых агентов", которые представляют собой сложные крупные модели языка (LLM) с использованием как техник подачи, так и методов использования инструментов. Хотя языковые агенты продемонстрировали впечатляющие возможности для многих задач реального мира, фундаментальным ограничением текущих исследований языковых агентов является то, что они ориентированы на модель или на инженерию. Другими словами, прогресс в области техник подачи, инструментов и конвейеров языковых агентов требует значительных усилий по ручной инженерии от человеческих экспертов, а не автоматического обучения на основе данных. Мы считаем, что переход от ориентации на модель или на инженерию к ориентации на данные, то есть способность языковых агентов автономно учиться и развиваться в средах, является ключом к их возможному достижению AGI. В данной работе мы представляем символическое обучение агентов, систематическую структуру, позволяющую языковым агентам оптимизировать себя самостоятельно в ориентированном на данные способе с использованием символьных оптимизаторов. Конкретно, мы рассматриваем агентов как символьные сети, где обучаемые веса определяются техниками подачи, инструментами и способом их объединения. Символическое обучение агентов разработано для оптимизации символьной сети в языковых агентах путем имитации двух фундаментальных алгоритмов в обучении связанных систем: обратного распространения и градиентного спуска. Вместо работы с числовыми весами символическое обучение агентов работает с естественными языковыми аналогами весов, потерь и градиентов. Мы проводим эксперименты для доказательства концепции как на стандартных бенчмарках, так и на сложных задачах реального мира и показываем, что символическое обучение агентов позволяет языковым агентам обновлять себя после создания и развертывания в дикой среде, приводя к "саморазвивающимся агентам".
Футбол - это популярный во всем мире вид спорта с огромной аудиторией, в данной статье мы рассматриваем создание модели автоматической комментарий к футбольным матчам для улучшения просмотров зрителей. В общем, мы вносим следующие вклады: Во-первых, обнаруживая распространенное несоответствие видео и текста в существующих наборах данных, мы вручную аннотировали временные метки для 49 матчей, устанавливая более надежную базу для генерации комментариев к футбольным матчам, названную SN-Caption-test-align; Во-вторых, мы предлагаем мультимодальный временной процесс выравнивания для автоматической коррекции и фильтрации существующего набора данных в масштабе, создавая более качественный набор данных для тренировки автоматической генерации комментариев к футбольным матчам, обозначенный как MatchTime; В-третьих, на основе нашего отобранного набора данных мы обучаем модель автоматической генерации комментариев, названную MatchVoice. Обширные эксперименты и исследования абляции продемонстрировали эффективность нашего процесса выравнивания и обучения модели на отобранных наборах данных достигают передовых показателей производительности для генерации комментариев, показывая, что лучшее выравнивание может привести к значительному улучшению производительности в последующих задачах.
Большие языковые модели (LLM) продемонстрировали впечатляющие способности к рассуждениям, особенно в текстовом математическом решении проблем. Однако существующие наборы данных для настройки изображений с инструкциями, содержащие ограниченное количество пар вопрос-ответ на изображение, не полностью используют визуальную информацию для улучшения мультимодальных математических рассуждений мультимодальных LLM (MLLM). Для заполнения этого разрыва мы решаем проблему отсутствия высококачественных, разнообразных мультимодальных математических наборов данных, собирая 40 тыс. высококачественных изображений с парами вопрос-ответ из 24 существующих наборов данных и синтезируя 320 тыс. новых пар, создавая набор данных MathV360K, который увеличивает как ширину, так и глубину мультимодальных математических вопросов. Мы представляем Math-LLaVA, модель на основе LLaVA-1.5, настроенную с помощью MathV360K. Этот новаторский подход значительно улучшает мультимодальные математические рассуждения LLaVA-1.5, достигая увеличения на 19 пунктов и сравнимой производительности с GPT-4V на тестовом наборе данных MathVista. Более того, Math-LLaVA демонстрирует улучшенную обобщаемость, показывая значительные улучшения на бенчмарке MMMU. Наше исследование подчеркивает важность разнообразия и синтеза наборов данных в развитии математических рассуждений MLLM. Код и данные доступны по ссылке: https://github.com/HZQ950419/Math-LLaVA.
Мы представляем WildTeaming, автоматическую систему безопасности LLM, которая анализирует взаимодействия пользователей с чат-ботами в реальном мире для обнаружения 5,7 тыс. уникальных кластеров новых тактик для обхода защиты, а затем создает несколько тактик для систематического исследования новых методов обхода защиты. По сравнению с предыдущими работами, где анализ безопасности выполнялся с помощью нанятых сотрудников, оптимизации на основе градиентов или итеративной корректировки с LLM, наша работа исследует методы обхода защиты среди пользователей чат-ботов, которым не было специально указано нарушать систему. WildTeaming раскрывает ранее неидентифицированные уязвимости передовых LLM, что приводит к увеличению до 4,6 раз разнообразия и успешности атак по сравнению с передовыми методами обхода защиты. Хотя существует множество наборов данных для оценки обхода защиты, очень мало открытых наборов данных существует для обучения обходу защиты, поскольку данные для обучения безопасности были закрыты, даже когда веса модели были открыты. С помощью WildTeaming мы создаем WildJailbreak, масштабный открытый синтетический набор данных безопасности с 262 тыс. пар прямых запросов (vanilla) и адверсарных (сложные обходы защиты). Для смягчения преувеличенных безопасных действий WildJailbreak предоставляет два контрастных типа запросов: 1) вредоносные запросы (vanilla и адверсарные) и 2) добросовестные запросы, которые напоминают вредоносные запросы по форме, но не содержат вреда. Поскольку WildJailbreak значительно повышает качество и масштаб существующих ресурсов безопасности, это уникально позволяет нам изучить эффекты масштабирования данных и взаимодействие свойств данных и возможностей модели во время обучения безопасности. Через обширные эксперименты мы определяем свойства обучения, которые обеспечивают идеальный баланс безопасных действий: соответствующее обеспечение без излишнего отказа, эффективную обработку прямых и адверсарных запросов и минимальное, если вообще, снижение общих возможностей. Все компоненты WildJailbreak способствуют достижению сбалансированных безопасных действий моделей.
Глубокие нейронные политики недавно были внедрены в различных областях, от биотехнологии до автоматизированных финансовых систем. Однако использование глубоких нейронных сетей для аппроксимации функции ценности вызывает опасения относительно стабильности границы принятия решений, особенно в отношении чувствительности принятия политических решений к неразличимым, неустойчивым особенностям из-за высоконелинейных и сложных глубоких нейронных многообразий. Эти опасения являются препятствием для понимания рассуждений, сделанных глубокими нейронными политиками, и их фундаментальных ограничений. Поэтому крайне важно разработать техники, направленные на понимание чувствительности в изученных представлениях политик нейронных сетей. Для достижения этой цели мы предлагаем теоретически обоснованный метод, который обеспечивает систематический анализ нестабильных направлений на границе принятия решений глубокой нейронной политики как во времени, так и в пространстве. Через эксперименты в среде обучения Arcade Learning Environment (ALE) мы демонстрируем эффективность нашей техники для выявления коррелированных направлений нестабильности и измерения того, как сдвиги выборки изменяют набор чувствительных направлений в ландшафте нейронной политики. Более того, мы показываем, что передовые техники устойчивого обучения приводят к изучению разобщенных нестабильных направлений, с значительно большими колебаниями со временем, по сравнению со стандартным обучением. Мы считаем, что наши результаты раскрывают фундаментальные свойства процесса принятия решений, сделанных политиками обучения с подкреплением, и могут помочь в создании надежных и устойчивых глубоких нейронных политик.
Недавний успех чередующихся больших мультимодальных моделей (LMM) в обучении с малым количеством примеров подтверждает, что обучение в контексте (ICL) с большим количеством примеров может быть перспективным для изучения новых задач. Однако этот многократный мультимодальный ICL-подход сталкивается с одной критической проблемой: он фундаментально ограничен длиной контекста модели, установленной на этапе предварительного обучения. Проблема особенно заметна в мультимодальной области, которая обрабатывает как текст, так и изображения, требуя дополнительных токенов. Это мотивирует необходимость мультимодального метода для сжатия множества снимков в меньшее количество токенов без донастройки. В данной работе мы позволяем LMM выполнять мультимодальное, многократное обучение в контексте, используя мультимодальные векторы задач (MTV) - компактные неявные представления примеров в контексте, сжатые в внимательных головах модели. Конкретно, мы сначала демонстрируем существование таких MTV в LMM, а затем используем эти извлеченные MTV для обеспечения многократного обучения в контексте для различных задач, связанных с видением и языком. Наши эксперименты показывают, что MTV могут улучшаться в производительности с увеличением количества сжатых снимков и обобщаться на аналогичные задачи вне области без дополнительной длины контекста для вывода.
Сервисирование больших языковых моделей (LLM) преобразовалось от бессостоятельных к состоятельным системам, используя техники, такие как кэширование контекста и дезагрегированное вывод. Эти оптимизации увеличивают срок службы и область применения кэша KV, требуя нового архитектурного подхода. Мы представляем MemServe, унифицированную систему, интегрирующую оптимизации как между запросами, так и внутри запросов. MemServe вводит MemPool, эластичный пул памяти, управляющий распределенной памятью и кэшами KV между экземплярами обслуживания. Используя API MemPool, MemServe объединяет кэширование контекста с дезагрегированным выводом впервые, поддерживаемый глобальным планировщиком, который улучшает повторное использование кэша через глобальную политику, основанную на дереве запросов. Тесты показывают, что MemServe значительно улучшает время завершения задачи и время до первого ответа.