Ежедневно отобранные исследовательские статьи по ИИ с переводами
Исследования по масштабированию крупных языковых моделей (LLM) в основном сосредоточены на параметрах модели и размере обучающих данных, игнорируя роль размера словаря. Интуитивно большие словари позволяют более эффективную токенизацию, представляя предложения с меньшим количеством токенов, но они также увеличивают риск недообучения представлений для редких токенов. Мы исследуем, как размер словаря влияет на законы масштабирования LLM, обучая модели с 33M до 3B параметров на объеме до 500B символов с различными конфигурациями словаря. Мы предлагаем три дополняющих подхода для прогнозирования оптимального размера словаря для вычислений: анализ IsoFLOPs, оценку производной и параметрическое приближение функции потерь. Наши подходы сходятся к одному результату: оптимальный размер словаря зависит от доступного бюджета вычислений и что более крупные модели заслуживают более крупные словари. Однако большинство LLM используют слишком маленькие размеры словарей. Например, мы предсказываем, что оптимальный размер словаря для Llama2-70B должен был быть не менее 216K, в 7 раз больше, чем его словарь из 32K. Мы подтверждаем наши прогнозы эмпирически, обучая модели с 3B параметрами при различных бюджетах FLOPs. Принятие нашего прогнозируемого оптимального размера словаря последовательно улучшает результаты на практике по сравнению с широко используемыми размерами словарей. Увеличивая размер словаря с обычных 32K до 43K, мы улучшаем результаты на ARC-Challenge с 29.1 до 32.0 при том же объеме 2.3e21 FLOPs. Наша работа подчеркивает необходимость совместного рассмотрения параметров модели и размера словаря для эффективного масштабирования.
Законы масштабирования относительно объема обучающих данных и количества параметров позволяют нам предсказывать компромиссы между затратами и выгодой от предварительного обучения языковых моделей (ЯМ) в различных конфигурациях. В данной статье мы рассматриваем еще одно измерение масштабирования: объем данных, доступных в момент вывода. Конкретно, мы обнаружили, что увеличение размера хранилища данных, используемого моделью на основе поиска, монотонно улучшает языковое моделирование и несколько последующих задач без явной насыщенности, так что более маленькая модель, дополненная большим хранилищем данных, превосходит более крупную модель только на языковых задачах, требующих знаний. Построив кривые масштабирования, оптимальные с точки зрения вычислений, с различными размерами хранилища данных, модели и объемами предварительных данных, мы показываем, что использование более крупных хранилищ данных может значительно улучшить производительность модели при том же бюджете обучения. Мы проводим наше исследование, создавая хранилище данных MassiveDS объемом 1,4 триллиона токенов, которое является к настоящему времени самым крупным и разнообразным открытым хранилищем данных для моделей на основе поиска, и разрабатывая эффективный конвейер для изучения масштабирования хранилища данных в доступной вычислительно форме. Наконец, мы анализируем влияние улучшения поисковика, фильтрации качества хранилища данных и других выборов дизайна на наши наблюдаемые тенденции масштабирования. В целом, наши результаты показывают, что размер хранилища данных следует рассматривать как неотъемлемую часть компромиссов между эффективностью и производительностью ЯМ. Для упрощения будущих исследований мы предоставляем наше хранилище данных и код в открытом доступе по адресу https://github.com/RulinShao/retrieval-scaling.
Монокулярная динамическая реконструкция является сложной и давней проблемой компьютерного зрения из-за сильно недоопределенной природы задачи. Существующие подходы ограничены тем, что либо зависят от шаблонов, эффективны только в квазистатических сценах, либо не учитывают явным образом трехмерное движение. В данной работе мы представляем метод способный реконструировать общие динамические сцены, отличающийся явным, полносеквенчным трехмерным движением, из случайно захваченных монокулярных видео. Мы решаем недостаточно определенную природу проблемы с помощью двух ключевых идей: Во-первых, мы используем низкоразмерную структуру трехмерного движения, представляя движение сцены компактным набором базовых SE3 движений. Движение каждой точки выражается как линейная комбинация этих баз, облегчая мягкое разложение сцены на несколько жестко движущихся групп. Во-вторых, мы используем обширный набор данных, включая монокулярные карты глубины и долгосрочные 2D треки, и разрабатываем метод эффективного объединения этих шумных сигналов надзора, что приводит к глобально согласованному представлению динамической сцены. Эксперименты показывают, что наш метод достигает передового уровня производительности как в оценке трехмерного/двумерного движения на длинные расстояния, так и в синтезе нового вида на динамических сценах. Страница проекта: https://shape-of-motion.github.io/
Эта статья представляет длинноконтекстные модели кода Granite, поддерживающие эффективные контекстные окна до 128K токенов. Наше решение для увеличения длины контекста моделей кода Granite 3B/8B с 2K/4K до 128K состоит в легком постоянном предварительном обучении путем постепенного увеличения базовой частоты RoPE с упаковкой файлов на уровне репозитория и увеличением длины данных с длинным контекстом. Кроме того, мы также выпускаем модели, настроенные под инструкции, с поддержкой длинного контекста, которые получены путем дальнейшего донастройки базовых моделей с длинным контекстом на смешанном наборе лицензированных разрешений коротких и длинноконтекстных пар инструкция-ответ. При сравнении с оригинальными моделями кода Granite с коротким контекстом наши модели с длинным контекстом достигают значительных улучшений в задачах с длинным контекстом без заметного ухудшения производительности на стандартных бенчмарках завершения кода (например, HumanEval). Мы выпускаем все наши длинноконтекстные модели кода Granite под лицензией Apache 2.0 для использования в исследованиях и коммерческих целях.
Мы представляем метод генерации улиц-длинных последовательностей видов через сцену городского масштаба, синтезируемую на лету. Наша генерация зависит от языкового ввода (например, название города, погода), а также базовой карты/макета, содержащего желаемую траекторию. По сравнению с недавними моделями для генерации видео или синтеза 3D-видов, наш метод может масштабироваться до гораздо более длинных траекторий камеры, охватывающих несколько городских кварталов, сохраняя при этом визуальное качество и последовательность. Для достижения этой цели мы опираемся на недавние работы по диффузии видео, используемые в авторегрессивной структуре, которая легко масштабируется до длинных последовательностей. В частности, мы представляем новый метод временной импутации, который предотвращает отклонение нашего авторегрессивного подхода от распределения реалистичных изображений города. Мы обучаем нашу систему Streetscapes на убедительных данных-изображениях из Google Street View, вместе с контекстуальными картографическими данными, что позволяет пользователям генерировать виды города, зависящие от любого желаемого макета города, с управляемыми позами камеры. Пожалуйста, ознакомьтесь с дополнительными результатами на странице нашего проекта по адресу https://boyangdeng.com/streetscapes.
Оптимизация прямого предпочтения (Direct Preference Optimization, DPO) стала широко используемым методом обучения для настройки инструкций крупных языковых моделей (Large Language Models, LLMs). В данной работе мы исследуем мало изученный аспект DPO - его зависимость от эталонной модели или политики. Эти эталонные политики, обычно представленные в виде модели, которую необходимо дополнительно настраивать, важны, поскольку они могут устанавливать верхний предел эффективности DPO. Поэтому мы рассматриваем три связанных исследовательских вопроса в данной работе. Во-первых, мы исследуем оптимальную силу ограничения расхождения Кульбака-Лейблера в DPO, которое штрафует отклонения от эталонной политики, и обнаруживаем, что DPO чувствителен к этой силе. Затем мы исследуем необходимость эталонных политик для настройки инструкций, предоставляя как теоретические, так и эмпирические сравнения между DPO и связанными целями обучения, демонстрируя превосходство DPO. Кроме того, мы исследуем, приносит ли DPO пользу от более сильных эталонных политик, обнаруживая, что более сильная эталонная политика может привести к улучшению производительности, но только если она похожа на модель, которую настраивают. Наши результаты подчеркивают сбивающую с толку роль эталонных политик в DPO и предлагают практические рекомендации, а также выявляют открытые исследовательские вопросы для будущих исследований.
Несмотря на превосходные возможности Многомодальных Больших Языковых Моделей (MLLMs) в различных задачах, они все еще сталкиваются с существенными проблемами доверия. Однако текущая литература по оценке доверия MLLMs остается ограниченной, лишенной комплексной оценки, способной предложить глубокие исследования для будущих улучшений. В данной работе мы создаем MultiTrust, первый всесторонний и объединенный бенчмарк по доверию к MLLMs в пять основных аспектов: правдивость, безопасность, устойчивость, справедливость и конфиденциальность. Наш бенчмарк использует стратегию строгой оценки, которая учитывает как многомодальные риски, так и перекрестные воздействия, охватывая 32 разнообразные задачи с самостоятельно составленными наборами данных. Обширные эксперименты с 21 современными MLLMs раскрывают некоторые ранее не исследованные проблемы доверия и риски, подчеркивая сложности, вносимые многомодальностью, и указывая на необходимость развития передовых методологий для повышения их надежности. Например, типичные собственные модели все еще испытывают трудности с восприятием визуально запутанных изображений и уязвимы к многомодальному обходу защиты и атакам злоумышленников; MLLMs более склонны к разглашению конфиденциальной информации в тексте и раскрывают идеологические и культурные предвзятости даже при сопоставлении с несвязанными изображениями в выводе, что указывает на то, что многомодальность усиливает внутренние риски от базовых LLMs. Кроме того, мы представляем масштабный инструментарий для стандартизированных исследований доверия, с целью облегчить будущие прогрессивные достижения в этой важной области. Код и ресурсы доступны публично по адресу: https://multi-trust.github.io/.
В области цифрового творчества наше потенциальное умение создавать сложные 3D миры из воображения часто ограничивается ограничениями существующих цифровых инструментов, требующих обширной экспертизы и усилий. Для сокращения этого разрыва мы представляем CLAY, генератор 3D геометрии и материалов, разработанный для легкого превращения человеческого воображения в сложные 3D цифровые структуры. CLAY поддерживает классические текстовые или изображенческие входы, а также управление 3D-контролями от различных примитивов (многовидовые изображения, воксели, ограничивающие параллелепипеды, облака точек, неявные представления и т. д.). В его основе лежит масштабная генеративная модель, состоящая из многоуровневого вариационного автокодировщика (VAE) и минималистичного латентного диффузионного трансформера (DiT), для извлечения богатых 3D априорных знаний непосредственно из разнообразных 3D геометрий. В частности, он использует нейронные поля для представления непрерывных и полных поверхностей и использует геометрический генеративный модуль с чистыми блоками трансформатора в латентном пространстве. Мы представляем прогрессивную схему обучения для обучения CLAY на сверхбольшом наборе данных 3D-моделей, полученных через тщательно разработанный конвейер обработки, что приводит к генератору 3D геометрии с 1,5 миллиарда параметров. Для генерации внешнего вида CLAY стремится создавать текстуры физически основанного рендеринга (PBR), используя многовидовую модель диффузии материалов, способную генерировать текстуры разрешением 2K с диффузией, шероховатостью и металлическими модальностями. Мы демонстрируем использование CLAY для создания ряда управляемых 3D-активов, от набросков концептуальных дизайнов до активов, готовых к производству с сложными деталями. Даже новички могут легко использовать CLAY, чтобы оживить свои яркие 3D воображения, раскрывая безграничное творчество.
Большие языковые модели (LLM) могут предлагать отсутствующие элементы из перечисленных в запросе, что можно использовать для завершения списка или рекомендаций на основе истории пользователей. Однако их производительность снижается при представлении слишком большого количества элементов, поскольку они начинают предлагать элементы, уже включенные во входной список. Это происходит примерно при 100 элементах для флагманских LLM середины 2024 года. Мы оцениваем это явление как переполнение внимания как на синтетических проблемах (например, поиск отсутствующих чисел в заданном диапазоне переставленных целых чисел), так и в реалистичных сценариях рекомендации фильмов. Мы называем эту проблему переполнением внимания, поскольку предотвращение повторения требует одновременного обращения ко всем элементам. Хотя итерационные циклы могут смягчить эту проблему, их затраты увеличиваются с увеличением частоты повторений, влияя на способность языковых моделей извлекать новизну из длинных входных данных.
Существующие бенчмарки по поиску информации в основном состоят из запросов, направленных на получение информации (например, агрегированные вопросы из поисковых систем), где обычно достаточно ключевого или семантического поиска. Однако многие сложные запросы из реального мира требуют глубокого рассуждения для идентификации соответствующих документов, выходящих за пределы поверхностного сопоставления форм. Например, для поиска документации по вопросу о кодировании требуется понимание логики и синтаксиса используемых функций. Для более точной оценки поиска по таким сложным запросам мы представляем BRIGHT - первый бенчмарк по текстовому поиску, требующий интенсивного рассуждения для извлечения соответствующих документов. BRIGHT состоит из 1 398 запросов из реального мира, собранных из различных областей (таких как экономика, психология, робототехника, инженерия программного обеспечения, науки о Земле и т. д.), полученных из естественных и тщательно подобранных данных людей. Обширное тестирование показывает, что даже передовые модели поиска показывают плохие результаты на BRIGHT. Ведущая модель на доске лидеров MTEB [38], достигающая показателя 59.0 nDCG@10, показывает результат nDCG@10 18.0 на BRIGHT. Мы также демонстрируем, что добавление запросов с рассуждениями "Цепочка мыслей", созданными большими языковыми моделями (LLM), улучшает производительность на до 12.2 пункта. Более того, BRIGHT устойчив к утечкам данных во время предварительного обучения моделей, что мы подтверждаем, показывая схожую производительность даже при включении документов из бенчмарка в обучающие данные. Мы считаем, что BRIGHT открывает путь для будущих исследований по системам поиска в более реалистичных и сложных условиях. Наш код и данные доступны по адресу https://brightbenchmark.github.io.
Растущая сложность и высокие затраты, связанные с современным проектированием процессоров, привели к всплеску спроса на автоматизацию проектирования процессоров. Инструкционно настроенные большие языковые модели (LLM) продемонстрировали выдающуюся производительность в автоматическом создании кода для общеиспользуемых языков программирования, таких как Python. Однако эти методы терпят неудачу при работе с языками описания аппаратуры (HDL), такими как Verilog, из-за недостатка высококачественных данных для настройки инструкций, поскольку даже передовые LLM, такие как GPT-3.5, проявляют ограниченную производительность при генерации Verilog. Относительно этой проблемы мы отмечаем, что (1) Verilog-код, собранный из реального мира, имеет более высокое качество, чем тот, который генерируют LLM. (2) LLM, такие как GPT-3.5, отличаются в том, что они лучше подходят для краткого изложения кода на Verilog, чем для его генерации. Исходя из этих наблюдений, в данной статье представляется CodeV, серия открытых инструкционно настроенных LLM для генерации Verilog. Вместо того чтобы сначала генерировать описания, а затем получать соответствующий код от передовых LLM, мы подаем LLM код на Verilog и позволяем ему сгенерировать соответствующее описание на естественном языке путем многоуровневого краткого изложения. Экспериментальные результаты показывают, что CodeV относительно превосходит предыдущий открытый SOTA на 14,4% (BetterV в VerilogEval) и 11,3% (RTLCoder в RTLLM) соответственно, а также относительно превосходит предыдущий коммерческий SOTA GPT-4 на 22,1% в VerilogEval.
В области языкового моделирования модели, дополненные компонентами извлечения, выделяются как многообещающее решение для решения нескольких вызовов, стоящих перед обработкой естественного языка (NLP), включая закрепление знаний, интерпретируемость и масштабируемость. Несмотря на основное внимание на NLP, мы предполагаем, что парадигму усиления извлечения можно расширить на более широкий спектр машинного обучения (ML), таких как компьютерное зрение, прогнозирование временных рядов и вычислительная биология. Поэтому данная работа представляет формальную концепцию этой парадигмы, Усиленное извлечение в машинном обучении (REML), синтезируя литературу в различных областях в ML с согласованными обозначениями, которых не хватает в текущей литературе. Также мы обнаружили, что, хотя ряд исследований используют компоненты извлечения для усиления своих моделей, имеется недостаток интеграции с фундаментальными исследованиями по информационному поиску (IR). Мы сокращаем этот разрыв между классическими исследованиями по IR и современными исследованиями REML, исследуя каждый компонент, входящий в структуру REML. В конечном итоге цель данной работы - оснастить исследователей в различных областях с обширной, формально структурированной концепцией моделей с усилением извлечения, тем самым способствуя междисциплинарным будущим исследованиям.
Недавние достижения в области языковых моделей (LMs) стимулировали создание нескольких бенчмарков, разработанных для оценки общих возможностей этих моделей. Однако критической задачей является оценка достоверности самих бенчмарков. Это обычно делается с помощью тестирования согласованности бенчмарков (Benchmark Agreement Testing, BAT), где новые бенчмарки проверяются на соответствие установленным с использованием какого-либо метрического показателя согласованности (например, ранговой корреляции). Несмотря на важную роль BAT для создателей и пользователей бенчмарков, не существует стандартизированных процедур для такого тестирования согласованности. Этот недостаток может привести к недействительным выводам, способствуя недоверию к бенчмаркам и нарушая возможность правильного выбора подходящего бенчмарка для использования. Анализируя более 40 важных бенчмарков, мы демонстрируем, как некоторые недооцененные методологические выборы могут значительно влиять на результаты BAT, потенциально подрывая достоверность выводов. Для устранения этих несоответствий мы предлагаем набор лучших практик для BAT и демонстрируем, как использование этих методологий значительно повышает устойчивость и достоверность BAT. Для поощрения принятия и облегчения будущих исследований мы представляем BenchBench, пакет на языке Python для BAT, и выпускаем таблицу лидеров BenchBench, мета-бенчмарк, разработанный для оценки бенчмарков с использованием их коллег. Наши результаты подчеркивают необходимость стандартизированного BAT, обеспечивая устойчивость и достоверность оценок бенчмарков в развивающемся ландшафте исследований языковых моделей. Пакет BenchBench: https://github.com/IBM/BenchBench Таблица лидеров: https://huggingface.co/spaces/per/BenchBench
Данное исследование направлено на изучение применения техник обработки естественного языка (Natural Language Processing, NLP) и машинного обучения (Machine Learning, ML) для автоматизации кодирования медицинских писем с визуализированным объяснением и легковесными локальными настройками компьютера. В настоящее время в клинической практике кодирование является ручным процессом, который включает в себя присвоение кодов каждому состоянию, процедуре и лекарству в документах пациента (например, 56265001 сердечное заболевание с использованием кода SNOMED CT). Существуют предварительные исследования по автоматическому кодированию в этой области с использованием передовых моделей ML; однако из-за сложности и размера моделей реальное внедрение не достигнуто. Для дальнейшего облегчения возможности практики автоматического кодирования мы исследуем некоторые решения на локальном компьютере; кроме того, мы изучаем функцию объяснимости для прозрачности моделей искусственного интеллекта. Мы использовали общедоступную базу данных MIMIC-III и сетевые модели HAN/HLAN для целей предсказания кодов ICD. Мы также экспериментировали с сопоставлением между базами знаний ICD и SNOMED CT. В наших экспериментах модели предоставили полезную информацию для 97,98\% кодов. Результаты данного исследования могут пролить свет на внедрение автоматического клинического кодирования на практике, например, в больничных условиях, на локальных компьютерах, используемых медицинским персоналом, страница проекта https://github.com/Glenj01/Medical-Coding.
Большие языковые модели (LLM) имеют потенциал для полуавтоматизации некоторых анализов процессов майнинга (PM). В то время как коммерческие модели уже достаточно эффективны для многих аналитических задач, конкурентоспособный уровень открытых LLM в задачах PM неизвестен. В данной статье мы предлагаем PM-LLM-Benchmark, первый всесторонний бенчмарк для PM, сосредоточенный на предметных знаниях (специфичных для процесс-майнинга и конкретных процессов) и на различных стратегиях реализации. Мы также обращаем внимание на вызовы, связанные с созданием такого бенчмарка, включая общедоступность данных и оценочные предвзятости со стороны LLM. В целом, мы отмечаем, что большинство рассматриваемых LLM могут выполнять некоторые задачи по процесс-майнингу на удовлетворительном уровне, но небольшие модели, которые могли бы работать на периферийных устройствах, все еще недостаточны. Мы также приходим к выводу, что хотя предложенный бенчмарк полезен для выявления LLM, подходящих для задач процесс-майнинга, требуется дальнейшее исследование для преодоления оценочных предвзятостей и проведения более тщательного ранжирования конкурентоспособных LLM.