Ежедневно отобранные исследовательские статьи по ИИ с переводами
Растущий интерес к моделям видео-языка (VLM) был вызван улучшениями в больших языковых моделях и видовых трансформерах. Несмотря на обилие литературы по этой теме, мы замечаем, что критические решения относительно проектирования VLM часто не обоснованы. Мы утверждаем, что эти неподтвержденные решения затрудняют прогресс в области, делая сложным определение, какие выборы улучшают производительность модели. Для решения этой проблемы мы проводим обширные эксперименты вокруг предварительно обученных моделей, выбора архитектуры, данных и методов обучения. Наша консолидация результатов включает разработку Idefics2, эффективной базовой VLM с 8 миллиардами параметров. Idefics2 достигает передовой производительности в своей категории размера на различных мультимодальных бенчмарках и часто находится на уровне моделей в четыре раза большего размера. Мы выпускаем модель (базовую, инструктируемую и чатовую) вместе с созданными для ее обучения наборами данных.
В данном техническом отчете мы представляем рабочий процесс онлайн итеративного обучения с подкреплением на основе обратной связи человека (RLHF), который, как сообщается, существенно превосходит свой оффлайн аналог в недавней литературе по большим языковым моделям (LLM). Однако существующие проекты RLHF с открытым исходным кодом по-прежнему в основном ограничены оффлайн средой обучения. В данном техническом отчете мы стремимся заполнить этот разрыв и предоставить подробное руководство, легко воспроизводимое для онлайн итеративного RLHF. В частности, поскольку онлайн обратная связь человека обычно недоступна для сообществ с ограниченными ресурсами с открытым исходным кодом, мы начинаем с построения моделей предпочтений с использованием разнообразного набора открытых наборов данных и используем построенную прокси-модель предпочтений для приближения обратной связи человека. Затем мы обсуждаем теоретические аспекты и алгоритмические принципы онлайн итеративного RLHF, за которыми следует подробная практическая реализация. Наша обученная LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, достигает впечатляющих результатов на бенчмарках чатботов LLM, включая AlpacaEval-2, Arena-Hard и MT-Bench, а также на других академических бенчмарках, таких как HumanEval и TruthfulQA. Мы показали, что надзорное дообучение (SFT) и итеративное RLHF могут достичь передовых результатов с полностью открытыми наборами данных. Кроме того, мы сделали наши модели, отобранные наборы данных и подробные пошаговые руководства по коду общедоступными. Дополнительную информацию можно найти на https://github.com/RLHFlow/RLHF-Reward-Modeling и https://github.com/RLHFlow/Online-RLHF.
В данной статье мы представляем SUTRA, мультиязычную архитектуру большой языковой модели, способную понимать, рассуждать и генерировать текст на более чем 50 языках. Уникальная концепция SUTRA разделяет базовое понимание концепций от языковой обработки, что обеспечивает масштабируемое и эффективное мультиязычное выравнивание и обучение. Используя структуру Смеси Экспертов как для обработки языка, так и концепций, SUTRA демонстрирует как вычислительную эффективность, так и отзывчивость. Через обширные оценки показано, что SUTRA превосходит существующие модели, такие как GPT-3.5, Llama2 на 20-30% на ведущих бенчмарках для мультиязычных задач по массовому мультизадачному пониманию языка. Модели SUTRA также являются онлайн-языковыми моделями, способными использовать знания из интернета для предоставления ответов без галлюцинаций, фактических и актуальных, сохраняя при этом свои мультиязычные возможности. Кроме того, мы исследуем более широкие последствия его архитектуры для будущего мультиязычного искусственного интеллекта, выделяя его потенциал для демократизации доступа к технологиям искусственного интеллекта во всем мире и для улучшения равенства и полезности искусственного интеллекта в регионах с преимущественно неанглоязычными языками. Наши результаты показывают, что SUTRA не только заполняет ключевые пробелы в возможностях мультиязычных моделей, но также устанавливает новый стандарт операционной эффективности и масштабируемости в приложениях искусственного интеллекта.
Монолитные большие языковые модели (LLM), такие как GPT-4, проложили путь для современных генеративных приложений искусственного интеллекта. Однако обучение, обслуживание и поддержка монолитных LLM в масштабе остаются чрезмерно дорогими и сложными. Неравномерное увеличение соотношения вычислений к памяти современных ускорителей искусственного интеллекта создало "стену памяти", требуя новых методов развертывания ИИ. Композиция экспертов (CoE) представляет собой альтернативный модульный подход, снижающий стоимость и сложность обучения и обслуживания. Однако этот подход сталкивается с двумя ключевыми проблемами при использовании обычного оборудования: (1) без объединенных операций у менее крупных моделей ниже операционная интенсивность, что затрудняет достижение высокой утилизации; и (2) размещение большого количества моделей может быть либо чрезмерно дорогим, либо медленным при динамическом переключении между ними. В данной статье мы описываем, как комбинирование CoE, потоковой модели данных и трехуровневой системы памяти преодолевает "стену памяти" искусственного интеллекта. Мы описываем Samba-CoE, систему CoE с 150 экспертами и общим числом параметров в триллиона. Мы развертываем Samba-CoE на устройстве SambaNova SN40L Reconfigurable Dataflow Unit (RDU) - коммерческой архитектуре ускорителя потоков данных, спроектированной для предприятий для применения в выводе и обучении. Этот чип вводит новую трехуровневую систему памяти с распределенной SRAM на кристалле, HBM на пакете и DDR DRAM вне пакета. Выделенная сеть между RDU позволяет масштабироваться вверх и вширь по нескольким сокетам. Мы демонстрируем ускорение от 2 до 13 раз на различных тестах на восемь сокетах RDU по сравнению с базовой моделью без объединенных операций. Мы показываем, что для развертывания вывода CoE узел RDU с восемью сокетами сокращает машинное пространство до 19 раз, ускоряет время переключения модели на 15-31 раз и достигает общего ускорения в 3,7 раза по сравнению с DGX H100 и в 6,6 раза по сравнению с DGX A100.
Недавние прорывы в области крупных моделей подчеркнули критическое значение масштаба данных, меток и моделей. В данной статье мы представляем MS MARCO Web Search - первый крупномасштабный информационно насыщенный веб-набор данных, содержащий миллионы реальных меток запрос-документ, по которым пользователи кликали. Этот набор данных тесно имитирует распределение реальных веб-документов и запросов, предоставляет обширную информацию для различных видов последующих задач и стимулирует исследования в различных областях, таких как общие модели нейроиндексации конечного до конца, общие модели встраивания и информационные системы следующего поколения с крупными языковыми моделями. MS MARCO Web Search предлагает бенчмарк поиска с тремя задачами вызова веб-поиска, требующими инноваций как в области машинного обучения, так и в области исследования систем информационного поиска. Как первый набор данных, отвечающий требованиям крупных, реальных и информационно насыщенных данных, MS MARCO Web Search прокладывает путь для будущих достижений в области исследований в области искусственного интеллекта и систем. Набор данных MS MARCO Web Search доступен по ссылке: https://github.com/microsoft/MS-MARCO-Web-Search.
Замечательный прогресс Многомодельных Больших Языковых Моделей (MLLMs) привлек значительное внимание благодаря их выдающейся производительности в визуальных контекстах. Однако их способности преобразовывать визуальные фигуры в исполнимый код не были тщательно оценены. Для решения этой проблемы мы представляем Plot2Code, комплексный бенчмарк визуального кодирования, разработанный для справедливой и глубокой оценки MLLMs. Мы тщательно собрали 132 вручную отобранных высококачественных графиков matplotlib из шести типов графиков из общедоступных галерей matplotlib. Для каждого графика мы внимательно предлагаем его исходный код и описательную инструкцию, подготовленную GPT-4. Такой подход позволяет Plot2Code обширно оценить возможности MLLMs в написании кода для различных входных модалностей. Кроме того, мы предлагаем три автоматические метрики оценки, включая процент прохождения кода, соотношение совпадения текста и общую оценку GPT-4V, для детальной оценки выходного кода и отображаемых изображений. Вместо простого определения успеха или неудачи, мы используем GPT-4V для общей оценки между сгенерированными и эталонными изображениями, что показало согласованность с оценкой человека. Результаты оценки, включающие анализ 14 MLLMs, таких как собственный GPT-4V, Gemini-Pro и открытый Mini-Gemini, подчеркивают значительные вызовы, представленные Plot2Code. С помощью Plot2Code мы показываем, что большинство существующих MLLMs испытывают трудности с визуальным кодированием для графиков с плотным текстом, сильно полагаясь на текстовые инструкции. Мы надеемся, что результаты оценки визуального кодирования от Plot2Code направят будущее развитие MLLMs. Все данные, связанные с Plot2Code, доступны по ссылке https://huggingface.co/datasets/TencentARC/Plot2Code.
В данном отчете мы представляем Piccolo2, модель встраивания, превосходящую другие модели в комплексной оценке по 6 задачам на бенчмарке CMTEB, устанавливая новый уровень state-of-the-art. Piccolo2 в основном использует эффективный подход к обучению с использованием гибридной функции потерь для мультизадачности, эффективно используя текстовые данные и метки из разнообразных задач. Кроме того, Piccolo2 увеличивает размерность встраивания и использует MRL-обучение для поддержки более гибких векторных размерностей. Последнюю информацию о моделях Piccolo можно получить по ссылке: https://huggingface.co/sensenova/
Анимированные логотипы - это убедительный и всеобщий способ, которым индивиды и бренды представляют себя в онлайне. Ручное создание этих логотипов может потребовать значительного художественного мастерства и усилий. Для помощи начинающим дизайнерам в анимации логотипов существующие инструменты предлагают шаблоны и предустановленные анимации. Однако эти решения могут быть ограничены в своем выразительном диапазоне. Большие языковые модели имеют потенциал помочь начинающим дизайнерам создавать анимированные логотипы, генерируя код анимации, настроенный под их контент. В данной статье мы представляем LogoMotion, систему на основе LLM, которая принимает на вход слоистый документ и генерирует анимированные логотипы через визуально обоснованный синтез программ. Мы представляем техники создания HTML-представления холста, определения основных и вторичных элементов, синтеза кода анимации и визуальной отладки ошибок анимации. При сравнении с индустриальным стандартным инструментом мы обнаружили, что LogoMotion создает анимации, которые более осведомлены о контенте и качественно не уступают. Мы заключаем статью обсуждением последствий анимации, созданной с помощью LLM, для дизайна движения.
Разработка доменных моделей - одно из немногих мест, где требуется ручной труд человека в планировании искусственного интеллекта. Поэтому для упрощения планирования желательно автоматизировать процесс создания доменных моделей. В этом контексте мы исследуем, можно ли использовать большие языковые модели (LLM) для генерации доменных моделей планирования из простых текстовых описаний. Конкретно мы представляем фреймворк для автоматизированной оценки доменов, сгенерированных LLM, путем сравнения наборов планов для экземпляров домена. Наконец, мы проводим эмпирический анализ 7 больших языковых моделей, включая модели для кодирования и чатов, в 9 различных доменов планирования и на трех классах описаний доменов естественным языком. Наши результаты показывают, что LLM, особенно те с большим количеством параметров, демонстрируют умеренный уровень квалификации в создании правильных доменов планирования из описаний на естественном языке. Наш код доступен по ссылке https://github.com/IBM/NL2PDDL.