Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем LENS — модульный подход для решения задач компьютерного зрения, который использует возможности крупных языковых моделей (LLM). Наша система применяет языковую модель для анализа выходных данных набора независимых и высокоинформативных модулей зрения, предоставляющих исчерпывающую информацию об изображении. Мы оцениваем подход в чисто компьютерных задачах, таких как распознавание объектов в условиях нулевого и малого числа примеров, а также в задачах, сочетающих зрение и язык. LENS может быть применен к любой готовой LLM, и мы обнаруживаем, что LLM с использованием LENS демонстрируют высокую конкурентоспособность по сравнению с гораздо более крупными и сложными системами, при этом не требуя никакого мультимодального обучения. Мы открываем исходный код по адресу https://github.com/ContextualAI/lens и предоставляем интерактивную демонстрацию.
Генеративный ИИ и крупные языковые модели обладают огромным потенциалом для улучшения образования в области компьютерных наук, обеспечивая основу для технологий следующего поколения в обучении начальному программированию. Недавние исследования изучали эти модели в различных сценариях, актуальных для обучения программированию; однако эти работы ограничены по нескольким причинам, так как обычно рассматривают уже устаревшие модели или только конкретные сценарии. В результате отсутствует систематическое исследование, которое бы сравнивало современные модели для широкого набора сценариев обучения программированию. В нашей работе мы систематически оцениваем две модели — ChatGPT (на основе GPT-3.5) и GPT-4 — и сравниваем их производительность с работой человеческих преподавателей для различных сценариев. Мы проводим оценку на основе пяти задач по начальному программированию на Python и реальных программ с ошибками с онлайн-платформы, используя экспертные аннотации для анализа результатов. Наши результаты показывают, что GPT-4 значительно превосходит ChatGPT (на основе GPT-3.5) и приближается к уровню человеческих преподавателей в нескольких сценариях. Эти результаты также подчеркивают ситуации, где GPT-4 всё ещё испытывает трудности, что открывает перспективные направления для разработки методов улучшения производительности таких моделей.
Геномные (ДНК) последовательности содержат огромный объем информации, регулирующей экспрессию генов и синтез белков. По аналогии с моделями обработки естественного языка, исследователи предложили использовать базовые модели в геномике для извлечения обобщаемых признаков из немаркированных геномных данных, которые затем могут быть дообучены для решения таких задач, как идентификация регуляторных элементов. Из-за квадратичного масштабирования механизма внимания предыдущие модели на основе Transformer использовали контекст от 512 до 4 тысяч токенов (<0,001% человеческого генома), что существенно ограничивало моделирование дальнодействующих взаимодействий в ДНК. Кроме того, эти методы полагаются на токенизаторы для агрегации значимых единиц ДНК, теряя разрешение на уровне отдельных нуклеотидов, где даже незначительные генетические вариации, такие как однонуклеотидные полиморфизмы (SNP), могут полностью изменить функцию белка. Недавно была представлена Hyena, большая языковая модель, основанная на неявных свертках, которая по качеству сопоставима с механизмом внимания, но позволяет работать с более длинными контекстами и имеет меньшую временную сложность. Используя новые возможности Hyena для работы с длинными контекстами, мы представляем HyenaDNA — базовую геномную модель, предобученную на референсном геноме человека с длиной контекста до 1 миллиона токенов на уровне отдельных нуклеотидов, что в 500 раз превышает возможности предыдущих моделей, основанных на плотном механизме внимания. HyenaDNA масштабируется субквадратично по длине последовательности (обучение до 160 раз быстрее, чем Transformer), использует токены на уровне отдельных нуклеотидов и имеет полный глобальный контекст на каждом слое. Мы исследуем, какие возможности открывает более длинный контекст, включая первое применение обучения в контексте (in-context learning) в геномике для простой адаптации к новым задачам без обновления весов предобученной модели. На задачах дообучения, взятых из Nucleotide Transformer, HyenaDNA достигает наилучших результатов (state-of-the-art, SotA) на 12 из 17 наборов данных, используя модель с на порядки меньшим количеством параметров и данных для предобучения. На наборах данных GenomicBenchmarks HyenaDNA превосходит SotA на всех 8 наборах данных в среднем на +9 процентных пунктов по точности.
Настройка на инструкции раскрывает превосходные возможности крупных языковых моделей (LLM) для взаимодействия с людьми. Более того, недавние наборы данных, ориентированные на выполнение инструкций, включают изображения в качестве визуальных входных данных, собирая ответы на инструкции, основанные на изображениях. Однако модели, настроенные на визуальные инструкции, не могут хорошо понимать текстовые детали внутри изображений. Данная работа улучшает текущий процесс настройки на визуальные инструкции с использованием изображений, насыщенных текстом (например, постеры фильмов, обложки книг и т.д.). В частности, мы сначала используем общедоступные инструменты OCR для сбора результатов по 422K изображениям, насыщенным текстом, из набора данных LAION. Кроме того, мы используем текстовую версию GPT-4 с распознанными текстами и описаниями изображений для генерации 16K диалогов, каждый из которых содержит пары вопрос-ответ для изображений с текстом. Объединяя собранные нами данные с предыдущими многомодальными данными, ориентированными на выполнение инструкций, наша модель LLaVAR значительно улучшает возможности модели LLaVA на наборах данных VQA, основанных на тексте (улучшение точности до 20%), достигая точности 91,42% на ScienceQA. Оценка выполнения инструкций на основе GPT-4 также демонстрирует улучшение нашей модели как на естественных изображениях, так и на изображениях с текстом. Качественный анализ показывает, что LLaVAR обладает перспективными навыками взаимодействия (например, рассуждение, написание текста и детализация) с людьми на основе последнего реального онлайн-контента, сочетающего текст и изображения. Мы делаем наш код/данные/модели общедоступными по адресу https://llavar.github.io/.
Крупные языковые модели (LLMs) могут несправедливо отражать разнообразные глобальные взгляды на социальные вопросы. В данной статье мы разрабатываем количественную методику для оценки того, чьи мнения больше соответствуют ответам, генерируемым моделью. Сначала мы создаем набор данных GlobalOpinionQA, состоящий из вопросов и ответов из международных опросов, предназначенных для охвата разнообразных мнений по глобальным вопросам в разных странах. Затем мы определяем метрику, которая количественно оценивает сходство между ответами, сгенерированными LLM, и ответами людей, с учетом страны. Используя нашу методику, мы проводим три эксперимента на LLM, обученной быть полезной, честной и безопасной с использованием Конституционного ИИ. По умолчанию ответы LLM чаще соответствуют мнениям определенных групп населения, таких как жители США, а также некоторых европейских и южноамериканских стран, что подчеркивает возможность наличия предубеждений. Когда мы предлагаем модели учитывать перспективу конкретной страны, ответы смещаются в сторону большего сходства с мнениями указанных групп населения, но могут отражать вредные культурные стереотипы. Когда мы переводим вопросы GlobalOpinionQA на целевой язык, ответы модели не обязательно становятся наиболее похожими на мнения носителей этих языков. Мы публикуем наш набор данных для использования и дальнейшего развития. Наши данные доступны по адресу https://huggingface.co/datasets/Anthropic/llm_global_opinions. Также мы предоставляем интерактивную визуализацию по адресу https://llmglobalvalues.anthropic.com.
Денойзинговые диффузионные модели недавно продемонстрировали впечатляющие результаты в генеративных задачах. Обучаясь на мощных априорных знаниях, извлеченных из огромных коллекций тренировочных изображений, такие модели способны постепенно преобразовывать полный шум в чистое натуральное изображение через последовательность небольших шагов денойзинга, что делает их, казалось бы, хорошо подходящими для задачи денойзинга одиночных изображений. Однако эффективное применение денойзинговых диффузионных моделей для удаления реалистичного шума является более сложной задачей, чем может показаться, поскольку их формулировка основана на аддитивном белом гауссовом шуме, в отличие от шума в реальных изображениях. В данной работе мы представляем SVNR, новую формулировку денойзинговой диффузии, которая предполагает более реалистичную, пространственно-вариативную модель шума. SVNR позволяет использовать зашумленное входное изображение в качестве начальной точки для процесса денойзинговой диффузии, а также учитывать его в качестве условия для этого процесса. Для этого мы адаптируем процесс диффузии, чтобы каждый пиксель мог иметь собственное временное представление, и предлагаем схемы обучения и вывода, поддерживающие пространственно-вариативные временные карты. Наша формулировка также учитывает корреляцию, существующую между условием изображения и образцами вдоль модифицированного процесса диффузии. В наших экспериментах мы демонстрируем преимущества нашего подхода по сравнению с сильной базовой диффузионной моделью, а также с современным методом денойзинга одиночных изображений.
Способность автоматически обнаруживать и анализировать неудачные выполнения задач крайне важна для создания объяснимых и надежных роботизированных систем. В последнее время крупные языковые модели (LLM) продемонстрировали высокий уровень навыков здравого смысла при работе с текстовыми данными. Чтобы использовать возможности LLM для объяснения сбоев роботов, мы предлагаем фреймворк REFLECT, который преобразует мультисенсорные данные в иерархическое резюме прошлого опыта робота и запрашивает LLM с помощью прогрессивного алгоритма объяснения сбоев. На основе полученного объяснения планировщик исправления сбоев генерирует исполняемый план, позволяющий роботу устранить ошибку и завершить задачу. Для систематической оценки фреймворка мы создали набор данных RoboFail и показали, что наш подход на основе LLM способен генерировать информативные объяснения сбоев, которые способствуют успешному планированию исправлений. Сайт проекта: https://roboreflect.github.io/
Крупные языковые модели (LLM) демонстрируют впечатляющие возможности "из коробки" для широкого спектра задач, однако точность по-прежнему остается ключевой областью для улучшения, особенно в критически важных областях, таких как биомедицина. Эффективный метод калибровки уровня уверенности в ответах LLM необходим для автоматического обнаружения ошибок и облегчения проверки с участием человека. Важным источником сигналов для калибровки являются программные инструкции, заданные экспертами, которые часто доступны с минимальными затратами, но имеют свои ограничения, такие как шум и недостаточный охват. В данной статье мы представляем Парето-оптимальную структуру самоконтроля, которая может использовать доступные программные инструкции для систематической калибровки ответов LLM, присваивая каждому ответу оценку риска без дополнительных ручных усилий. Это достигается за счет обучения модели-гармонизатора, которая согласовывает выходные данные LLM с другими доступными источниками контроля, присваивая более высокие оценки риска наиболее неопределенным ответам LLM и способствуя исправлению ошибок. Эксперименты на стандартных задачах извлечения отношений в биомедицинской и общей областях демонстрируют перспективность этого подхода: предложенные нами оценки риска сильно коррелируют с реальной частотой ошибок LLM. Для наиболее неопределенных тестовых примеров динамическое формирование запросов на основе предложенных оценок риска приводит к значительному улучшению точности готовых LLM, превосходя результаты GPT-3 по сравнению с современными (SOTA) методами слабого контроля, а результаты GPT-4 — по сравнению с SOTA методами контролируемого обучения на сложных оценочных наборах данных.
Современные сквозные системы автоматического распознавания речи (ASR) часто используют акустический кодировщик на основе Transformer, который генерирует эмбеддинги с высокой частотой кадров. Однако такой подход неэффективен, особенно для длинных речевых сигналов, из-за квадратичной вычислительной сложности механизма self-attention. Для решения этой проблемы мы предлагаем новый метод — объединение смежных токенов (Adjacent Token Merging, A-ToMe), который постепенно объединяет соседние токены с высокими показателями сходства между их ключевыми значениями. Таким образом, общее количество временных шагов может быть сокращено, что ускоряет выполнение как кодировщика, так и совместной сети. Эксперименты на наборе данных LibriSpeech показывают, что наш метод позволяет сократить количество токенов на 57% и повысить скорость вывода на GPU на 70% без заметной потери точности. Кроме того, мы демонстрируем, что A-ToMe также является эффективным решением для сокращения токенов в задачах распознавания длинных речевых сигналов, где входная речь состоит из нескольких высказываний.