Ежедневно отобранные исследовательские статьи по ИИ с переводами
Современные модели языка с длинным контекстом (LLM) могут обрабатывать входные данные до 100 000 токенов, однако испытывают трудности при генерации выводов, превышающих даже скромную длину в 2 000 слов. Через контролируемые эксперименты мы обнаружили, что эффективная длина генерации модели по своей сути ограничена образцом, который она видела во время надзорной донастройки (SFT). Другими словами, их ограничение вывода обусловлено недостатком примеров длинных выводов в существующих наборах данных SFT. Для решения этой проблемы мы представляем AgentWrite, агентный конвейер, который декомпозирует ультрадлинные задачи генерации на подзадачи, позволяя стандартным LLM генерировать последовательные выводы, превышающие 20 000 слов. Используя AgentWrite, мы создаем набор данных LongWriter-6k, содержащий 6 000 данных SFT с длиной вывода от 2k до 32k слов. Интегрируя этот набор данных в обучение модели, мы успешно увеличиваем длину вывода существующих моделей до более чем 10 000 слов, сохраняя качество вывода. Мы также разрабатываем LongBench-Write, комплексный бенчмарк для оценки возможностей ультрадлинной генерации. Наша модель с 9 миллиардами параметров, дополнительно улучшенная через DPO, достигает передовых результатов на этом бенчмарке, превосходя даже гораздо более крупные собственные модели. В целом, наша работа демонстрирует, что существующие модели LLM с длинным контекстом уже обладают потенциалом для более широкого окна вывода - все, что вам нужно, это данные с расширенным выводом во время настройки модели для разблокирования этой возможности. Наш код и модели доступны по ссылке: https://github.com/THUDM/LongWriter.
Мы представляем Imagen 3, латентную модель диффузии, которая генерирует изображения высокого качества по текстовым подсказкам. Мы описываем наши оценки качества и ответственности. На момент оценки Imagen 3 предпочтительнее других передовых моделей (SOTA). Кроме того, мы обсуждаем вопросы безопасности и представления, а также методы, которые мы использовали для минимизации потенциального вреда от наших моделей.
Агенты крупных языковых моделей (LLM) показали большой потенциал в решении проблем реальной инженерии программного обеспечения (SWE). Самый передовой открытый агент SWE может решить более 27% реальных проблем GitHub в SWE-Bench Lite. Однако эти сложные фреймворки агентов обладают различными сильными сторонами, преуспевая в определенных задачах, но проявляя слабую производительность в других. Для полного использования разнообразия этих агентов мы предлагаем DEI (Diversity Empowered Intelligence), фреймворк, который использует их уникальную экспертизу. DEI функционирует как мета-модуль над существующими фреймворками агентов SWE, управляя коллективами агентов для улучшения решения проблем. Экспериментальные результаты показывают, что комитет агентов, управляемый DEI, способен превзойти производительность лучшего индивидуального агента на значительное расстояние. Например, группа открытых агентов SWE, с максимальной индивидуальной скоростью решения 27,3% в SWE-Bench Lite, может достичь скорости решения 34,3% с DEI, что означает улучшение на 25% и превосходство большинства закрытых решений. Наша наиболее успешная группа отличается скоростью решения 55%, занимая самое высокое место в SWE-Bench Lite. Наши результаты вносят вклад в растущее исследование коллективных AI систем и их потенциал в решении сложных задач инженерии программного обеспечения.
Быстрый рост научной литературы создает значительные вызовы для исследователей, стремящихся быть в курсе последних достижений в своих областях и погружаться в новые направления. Мы представляем OpenResearcher, инновационную платформу, которая использует техники искусственного интеллекта (ИИ) для ускорения процесса исследований путем ответа на разнообразные вопросы от исследователей. OpenResearcher построен на основе Retrieval-Augmented Generation (RAG) для интеграции больших языковых моделей (LLM) с актуальными, специфичными для области знаниями. Более того, мы разрабатываем различные инструменты для OpenResearcher, чтобы понимать запросы исследователей, искать в научной литературе, фильтровать полученную информацию, предоставлять точные и всесторонние ответы, а также самостоятельно совершенствовать эти ответы. OpenResearcher может гибко использовать эти инструменты для балансировки эффективности и результативности. В результате OpenResearcher позволяет исследователям экономить время и увеличивать свой потенциал для обнаружения новых идей и стимулирования научных открытий. Демонстрация, видео и код доступны по ссылке: https://github.com/GAIR-NLP/OpenResearcher.
Масштабирование крупных языковых моделей (LLM) революционизировало их возможности в различных задачах, однако этот рост должен быть сопровожден эффективными вычислительными стратегиями. Архитектура Mixture-of-Experts (MoE) выделяется своей способностью масштабировать размер модели без значительного увеличения затрат на обучение. Несмотря на их преимущества, текущие модели MoE часто демонстрируют неэффективность параметров. Например, предварительно обученная LLM на основе MoE с 52 миллиардами параметров может выполнять сравнимо с моделью стандартного типа с 6,7 миллиарда параметров. Будучи важной частью MoE, текущие маршрутизаторы в различных слоях независимо назначают токены, не используя историческую информацию о маршрутизации, что потенциально приводит к субоптимальным комбинациям токенов и экспертов, а также проблеме неэффективности параметров. Для устранения этой проблемы мы представляем Layerwise Recurrent Router for Mixture-of-Experts (RMoE). RMoE использует воротной рекуррентный блок (GRU) для установления зависимостей между решениями по маршрутизации на последовательных слоях. Такая рекуррентность по слоям может быть эффективно параллельно вычислена для входных токенов и вносит незначительные затраты. Наши обширные эмпирические оценки показывают, что языковые модели на основе RMoE последовательно превосходят спектр базовых моделей. Более того, RMoE интегрирует новый этап вычислений, ортогональный существующим методам, обеспечивая безупречную совместимость с другими архитектурами MoE. Наши анализы приписывают успехи RMoE его эффективному обмену информацией между слоями, что также улучшает выбор и разнообразие экспертов. Наш код доступен по ссылке https://github.com/qiuzh20/RMoE
Развитие больших языковых моделей приводит к формированию парадигмы предварительного обучения, за которым следует настройка, в рамках которой модель обычно предварительно обучается на большом корпусе текста и проходит этап настройки для согласования с предпочтениями человека или конечными задачами. В данной работе мы исследуем взаимосвязь между предварительным обучением и настройкой, выполняя настройку нескольких промежуточных контрольных точек предварительно обученных моделей. Наши результаты на 18 наборах данных показывают, что i) непрерывное предварительное обучение улучшает модель латентным образом, что проявляется после настройки; ii) с дополнительной настройкой наборы данных, на которых модель не проявляет способности, получают гораздо больше, чем те, на которых модель хорошо справляется на этапе предварительного обучения; iii) хотя модель значительно выигрывает от контролируемой настройки, она может забыть ранее известные знания об области и задачи, которые не были видны во время настройки; iv) модель проявляет высокую чувствительность к оценочным запросам после контролируемой настройки, но эту чувствительность можно смягчить дополнительным предварительным обучением.
Способность извлекать объектно-центрические абстракции из сложных визуальных сцен лежит в основе обобщения на уровне человека. Несмотря на значительный прогресс в методах обучения, ориентированных на объекты, обучение объектно-центрическим представлениям в трехмерном физическом мире остается важным вызовом. В данной работе мы предлагаем SlotLifter, новую модель объектно-центрического излучения, решающую задачи восстановления и декомпозиции сцены совместно с помощью подъема признаков, управляемого слотами. Такое решение объединяет представления обучения, ориентированные на объекты, и методы визуализации на основе изображений, предлагая передовую производительность в декомпозиции сцены и синтезе нового вида на четырех сложных синтетических и четырех сложных реальных наборах данных, превосходя существующие методы обучения объектно-центрическим представлениям в 3D мире на значительный уровень. Через обширные аблятивные исследования мы демонстрируем эффективность конструкции в SlotLifter, раскрывая ключевые идеи для потенциальных будущих направлений.
Вдохновленные акцентом Джеффри Хинтона на генеративном моделировании "Чтобы распознавать формы, сначала научитесь их создавать", мы исследуем применение 3D диффузионных моделей для классификации объектов. Используя оценки плотности от этих моделей, наш подход, Классификатор Диффузии для 3D объектов (DC3DO), позволяет классифицировать 3D формы без дополнительного обучения. В среднем наш метод достигает улучшения на 12.5 процента по сравнению с его мультивидовыми аналогами, демонстрируя превосходное мультимодальное мышление по сравнению с дискриминативными подходами. DC3DO использует классово-условную диффузионную модель, обученную на ShapeNet, и мы проводим выводы на облаках точек стульев и автомобилей. Эта работа подчеркивает потенциал генеративных моделей в классификации 3D объектов.
UniT - это новый подход к обучению тактильного представления, использующий VQVAE для изучения компактного скрытого пространства и служащий в качестве тактильного представления. Он использует тактильные изображения, полученные с помощью единственного простого объекта, для обучения представления с возможностью передачи и обобщения. Это тактильное представление может быть передано на различные последующие задачи, включая задачи восприятия и обучение политики манипуляции без предварительного обучения. Наше сравнение на задаче оценки позы 3D в руке показывает, что UniT превосходит существующие методы обучения визуального и тактильного представлений. Кроме того, эффективность UniT в обучении политики продемонстрирована на трех реальных задачах, включающих разнообразные манипулируемые объекты и сложные взаимодействия робота-объекта-окружения. Через обширные эксперименты показано, что UniT является простым в обучении, готовым к использованию, но широко эффективным методом обучения тактильного представления. Дополнительные детали можно найти в нашем открытом репозитории https://github.com/ZhengtongXu/UniT и на веб-сайте проекта https://zhengtongxu.github.io/unifiedtactile.github.io/.
Большие языковые модели (LLM) продемонстрировали мастерство в широком спектре задач. Однако многие LLM показывают значительные различия в производительности между языками с высоким и низким уровнем ресурсов. Для устранения этого вызова мы представляем FuxiTranyu, мультиязычную LLM с открытым исходным кодом, разработанную для удовлетворения потребностей исследовательского сообщества в сбалансированных и высокопроизводительных мультиязычных возможностях. Базовая модель FuxiTranyu-8B с 8 миллиардами параметров обучается с нуля на тщательно сбалансированном мультиязычном репозитории данных, содержащем 600 миллиардов токенов, охватывающих 43 естественных языка и 16 языков программирования. Помимо базовой модели, мы также разрабатываем две модели, настроенные на инструкции: FuxiTranyu-8B-SFT, которая донастраивается на разнообразном мультиязычном наборе инструкций, и FuxiTranyu-8B-DPO, которая дополнительно улучшается с помощью DPO на наборе предпочтений для повышения способности к выравниванию. Обширные эксперименты на широком спектре мультиязычных бенчмарков демонстрируют конкурентоспособную производительность FuxiTranyu по сравнению с существующими мультиязычными LLM, например, BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B и Mistral-7B-Instruct. Анализы интерпретируемости как на уровне нейронов, так и на уровне представлений показывают, что FuxiTranyu способна учиться согласованным мультиязычным представлениям на разных языках. Для стимулирования дальнейших исследований в области мультиязычных LLM и их рабочих механизмов мы выпускаем как базовые, так и настроенные на инструкции модели FuxiTranyu вместе с 58 контрольными точками предварительного обучения на платформах HuggingFace и Github.
Сжатие сценариев фильмов представляет собой сложную задачу, поскольку требует понимания длинных контекстов ввода и различных элементов, уникальных для кино. Большие языковые модели показали значительные успехи в сжатии документов, но часто испытывают трудности при обработке длинных контекстов ввода. Более того, хотя транскрипты телевизионных передач получили внимание в последних исследованиях, сжатие сценариев фильмов остается малоисследованным. Для стимулирования исследований в этой области мы представляем новый набор данных, MovieSum, для абстрактного сжатия сценариев фильмов. Этот набор данных включает 2200 сценариев фильмов вместе с их краткими описаниями сюжета из Википедии. Мы вручную отформатировали сценарии фильмов, чтобы представить их структурные элементы. По сравнению с существующими наборами данных, MovieSum обладает несколькими отличительными особенностями: (1) Он включает сценарии фильмов, которые длиннее сценариев телевизионных эпизодов. (2) Он вдвое больше по размеру, чем предыдущие наборы данных сценариев фильмов. (3) Он предоставляет метаданные с идентификаторами IMDb для облегчения доступа к дополнительным внешним знаниям. Мы также показываем результаты недавно выпущенных больших языковых моделей, примененных к сжатию нашего набора данных, чтобы предоставить подробную отправную точку.
Предварительно обученные языковые модели (LLM) продемонстрировали значительные возможности в различных традиционных задачах обработки естественного языка (NLP), таких как суммаризация и распознавание сущностей. В данной статье мы исследуем применение LLM для генерации высококачественных последовательностей белков. Конкретно, мы используем набор предварительно обученных LLM, включая Mistral-7B1, Llama-2-7B2, Llama-3-8B3 и gemma-7B4, для создания действительных последовательностей белков. Все эти модели доступны публично. В отличие от предыдущих работ в этой области, наш подход использует относительно небольшой набор данных, включающий 42 000 различных последовательностей человеческих белков. Мы переобучаем эти модели для обработки данных, связанных с белками, обеспечивая генерацию биологически возможных структур белков. Наши результаты показывают, что даже с ограниченными данными адаптированные модели проявляют эффективность, сравнимую с установленными моделями, сосредоточенными на белках, такими как различные варианты ProGen, ProtGPT2 и ProLLaMA, которые были обучены на миллионах последовательностей белков. Для проверки и количественной оценки производительности наших моделей мы проводим сравнительный анализ, используя стандартные метрики, такие как pLDDT, RMSD, TM-score и REU. Более того, мы обязуемся сделать обученные версии всех четырех моделей общедоступными, способствуя большей прозрачности и сотрудничеству в области вычислительной биологии.
Для людей и роботов чувство осязания, известное как тактильное восприятие, является критическим для выполнения задач манипулирования с контактом. Три ключевые проблемы в робототехническом тактильном восприятии - 1) интерпретация сигналов сенсоров, 2) генерация сенсорных сигналов в новых сценариях и 3) обучение политикам на основе сенсоров. Для визуотактильных сенсоров интерпретация была облегчена благодаря их тесной связи с визионными сенсорами (например, RGB-камерами). Однако генерация все еще затруднительна, поскольку визуотактильные сенсоры обычно включают контакт, деформацию, освещение и изображение, все это дорого симулировать; в свою очередь, обучение политикам оказалось сложным, поскольку симуляцию нельзя использовать для сбора данных в крупном масштабе. Мы представляем TacSL (таксель), библиотеку для симуляции и обучения визуотактильных сенсоров на основе GPU. TacSL может использоваться для симуляции визуотактильных изображений и извлечения распределений силы контакта более чем в 200 раз быстрее, чем предыдущий state-of-the-art, все в рамках широко используемого симулятора Isaac Gym. Более того, TacSL предоставляет набор инструментов для обучения, включающий несколько моделей сенсоров, среды для обучения с интенсивным контактом и алгоритмы онлайн/офлайн, которые могут облегчить обучение политик для приложений sim-to-real. На алгоритмической стороне мы представляем новый алгоритм обучения с подкреплением онлайн, называемый асимметричным актор-критик дистилляцией (TacSL), разработанный для эффективного и эффективного обучения политик на основе тактильных данных в симуляции, которые могут быть перенесены в реальный мир. Наконец, мы демонстрируем полезность нашей библиотеки и алгоритмов, оценивая выгоды дистилляции и мультимодального восприятия для задач манипулирования с контактом, и, что самое важное, выполняя перенос из симуляции в реальность. Дополнительные видео и результаты доступны на https://iakinola23.github.io/tacsl/.
Модели генерации изображений на основе диффузии значительно продвинули область синтеза контента искусства. Однако текущие методы стилизации портретов обычно требуют либо тонкой настройки модели на основе примеров, либо применения инверсии DDIM для возврата изображений в пространство шума, что существенно замедляет процесс генерации изображений. Для преодоления этих ограничений в данной статье представлена рамочная модель стилизации портретов без инверсии на основе моделей диффузии, которая осуществляет слияние содержательных и стилевых признаков всего лишь за четыре этапа выборки. Мы обнаружили, что модели латентной согласованности, использующие дистилляцию согласованности, могут эффективно извлекать репрезентативные признаки согласованности из зашумленных изображений. Для слияния признаков согласованности, извлеченных из содержательных и стилевых изображений, мы предлагаем технику контроля внимания улучшения стиля, которая тщательно объединяет содержательные и стилевые признаки в пространстве внимания целевого изображения. Более того, мы предлагаем стратегию слияния признаков для объединения избыточных признаков в признаках согласованности, тем самым уменьшая вычислительную нагрузку контроля внимания. Обширные эксперименты подтвердили эффективность нашей предложенной рамочной модели в улучшении эффективности и достоверности стилизации. Код доступен по ссылке https://github.com/liujin112/ZePo.
Обычная система анонимизации диктора на основе общего декодирования обычно разделяет речь на содержательные, дикторские и просодические особенности с использованием отдельных кодировщиков. В данной статье исследуется, как адаптировать такую систему, когда необходимо более полно сохранить новый атрибут речи, например, эмоцию. Хотя существующие системы хорошо анонимизируют вложения диктора, они не предназначены для сохранения эмоции. Рассматриваются две стратегии. Во-первых, показано, что интеграция вложений эмоции из предварительно обученного эмоционального кодировщика может помочь сохранить эмоциональные подсказки, хотя такой подход немного ущемляет защиту конфиденциальности. В качестве альтернативы мы предлагаем стратегию компенсации эмоции в качестве последнего шага постобработки, применяемую к анонимизированным вложениям диктора. Это скрывает исходную личность диктора и вновь вводит потерянные во время анонимизации вложений диктора эмоциональные черты. Конкретно, мы моделируем атрибут эмоции с использованием метода опорных векторов для изучения отдельных границ для каждой эмоции. Во время вывода исходное вложение диктора обрабатывается двумя способами: сначала - с помощью индикатора эмоции для прогнозирования эмоции и точного выбора соответствующего метода опорных векторов для эмоции; и вторым - с помощью анонимизатора диктора для скрытия характеристик диктора. Затем анонимизированное вложение диктора модифицируется вдоль соответствующей границы метода опорных векторов в направлении улучшенной эмоциональной составляющей для сохранения эмоциональных подсказок. Предложенные стратегии также ожидается, что будут полезны для адаптации общей системы анонимизации диктора на основе декодирования для сохранения других целевых парапсихологических атрибутов, с потенциалом для ряда последующих задач.