Ежедневно отобранные исследовательские статьи по ИИ с переводами
Продвижение границ субквадратичных архитектур для языковых моделей (LM) имеет решающее значение в быстро развивающейся области обработки естественного языка. Современные инновации, включая модели пространства состояний, изначально были встречены с энтузиазмом за превосходство над Transformer в задачах языкового моделирования. Однако эти модели выявили недостатки в ключевых способностях к обучению в контексте (In-Context Learning) — области, где Transformer традиционно демонстрирует превосходство. Модель Based появилась как гибридное решение, объединяющее линейный Transformer с ядром, вдохновлённым разложением Тейлора экспоненциальных функций, дополненным свёрточными сетями. Сохраняя мастерство Transformer в работе с контекстом, она стала серьёзным конкурентом в этой области. В нашей работе мы представляем простое, но элегантное изменение ядра Based, которое усиливает его способности к обучению в контексте, оценённые с помощью задачи Multi-Query Associative Recall, а также общий процесс языкового моделирования, что продемонстрировано на наборе данных Pile.
В данной статье рассматривается задача обработки длинных документов с использованием генеративных трансформаторных моделей. Для оценки различных подходов мы представляем BABILong — новый эталонный тест, предназначенный для проверки способностей моделей извлекать и обрабатывать распределённые факты в объёмных текстах. Наше исследование, включающее тестирование GPT-4 и RAG, показывает, что стандартные методы эффективны только для последовательностей длиной до 10^4 элементов. В то же время, доработка GPT-2 с использованием рекуррентных механизмов памяти позволяет модели справляться с задачами, включающими до 10^7 элементов. Этот результат представляет собой значительный прорыв, так как это на сегодняшний день самая длинная входная последовательность, обработанная любой открытой нейронной сетевой моделью, что демонстрирует существенное улучшение возможностей обработки длинных последовательностей.
Использование длительной истории взаимодействия пользователей имеет ключевое значение для персонализированных рекомендаций контента. Успех предобученных языковых моделей (PLM) в области обработки естественного языка (NLP) привел к их применению для кодирования истории пользователей и кандидатов на рекомендации, что позволяет рассматривать задачу рекомендаций контента как задачу семантического сопоставления текстов. Однако существующие подходы по-прежнему сталкиваются с трудностями при обработке очень длинных текстов истории пользователей и недостаточного взаимодействия между пользователями и элементами контента. В данной статье мы представляем основанную на контенте рекомендательную систему SPAR, которая эффективно решает задачу извлечения целостных интересов пользователей из длительной истории их взаимодействия. Это достигается за счет использования PLM, поли-внимательных слоев и механизмов разреженности внимания для кодирования истории пользователей в сессионном формате. Особенности пользователей и элементов контента эффективно объединяются для прогнозирования взаимодействия, при этом сохраняются независимые представления для обеих сторон, что делает модель удобной для практического развертывания. Кроме того, мы улучшаем профилирование пользователей, используя крупные языковые модели (LLM) для извлечения глобальных интересов из истории взаимодействия. Эксперименты на двух эталонных наборах данных демонстрируют, что наша система превосходит существующие современные методы (SoTA).
Крупные языковые модели (LLMs) стали доминирующим и важным инструментом для исследователей в области обработки естественного языка (NLP) в широком спектре задач. Сегодня многие исследователи используют LLMs для генерации синтетических данных, оценки задач, тонкой настройки, дистилляции и других исследовательских процессов, включающих модели в цикл. Однако при использовании этих моделей возникают проблемы, связанные с их масштабом, закрытым исходным кодом и отсутствием стандартизированных инструментов для этих новых и развивающихся процессов. Быстрый рост популярности этих моделей и связанные с ними уникальные вызовы уже оказали негативное влияние на открытую науку и воспроизводимость работ, использующих их. В данной статье мы представляем DataDreamer — библиотеку с открытым исходным кодом на Python, которая позволяет исследователям писать простой код для реализации мощных рабочих процессов с использованием LLMs. DataDreamer также помогает исследователям придерживаться лучших практик, которые мы предлагаем для поощрения открытой науки и воспроизводимости. Библиотека и документация доступны по адресу https://github.com/datadreamer-dev/DataDreamer.
Создание видео становится все более популярным, однако необходимые для редактирования экспертные знания и усилия часто становятся препятствием для новичков. В данной статье мы исследуем интеграцию больших языковых моделей (LLM) в процесс редактирования видео, чтобы снизить эти барьеры. Наше видение дизайна воплощено в системе LAVE, которая предоставляет помощь агентов на основе LLM и функции редактирования, дополненные языковыми возможностями. LAVE автоматически генерирует текстовые описания для видеоматериалов пользователя, что служит основой для обработки видео LLM и оказания помощи в задачах редактирования. Когда пользователь задает цели редактирования, агент планирует и выполняет соответствующие действия для их достижения. Кроме того, LAVE позволяет пользователям редактировать видео как через агента, так и с помощью прямого управления через интерфейс, обеспечивая гибкость и возможность ручной доработки действий агента. Наше исследование с участием восьми пользователей, от новичков до опытных редакторов, продемонстрировало эффективность LAVE. Результаты также пролили свет на восприятие пользователями предложенной парадигмы редактирования с помощью LLM и ее влияние на их творчество и ощущение соавторства. На основе этих выводов мы предлагаем рекомендации по дизайну, которые могут повлиять на будущее развитие систем редактирования контента с помощью агентов.
Автоматическая сравнительная оценка стала перспективным подходом для анализа качества ответов крупных языковых моделей (LLM). Однако анализ результатов, полученных с помощью этого метода, ставит задачи масштабируемости и интерпретируемости. В данной статье мы представляем LLM Comparator — новый инструмент визуальной аналитики для интерактивного анализа результатов автоматической сравнительной оценки. Этот инструмент поддерживает интерактивные рабочие процессы, позволяя пользователям понять, когда и почему одна модель работает лучше или хуже базовой модели, а также в чем заключаются качественные различия между ответами двух моделей. Мы разработали и развивали инструмент итеративно, тесно сотрудничая с исследователями и инженерами крупной технологической компании. В статье подробно описаны выявленные проблемы пользователей, процесс проектирования и разработки инструмента, а также проведенное наблюдательное исследование с участием специалистов, регулярно оценивающих свои модели.
Крупные языковые модели (LLM) становятся все более распространенными в разговорных системах благодаря их продвинутому пониманию и генеративным способностям в общих контекстах. Однако их эффективность в задачах, ориентированных на диалог (TOD), которые требуют не только генерации ответов, но и эффективного отслеживания состояния диалога (DST) в рамках конкретных задач и доменов, остается менее удовлетворительной. В данной работе мы предлагаем новый подход FnCTOD для решения задачи DST с использованием LLM через вызов функций. Этот метод улучшает zero-shot DST, позволяя адаптироваться к различным доменам без необходимости сбора больших объемов данных или настройки модели. Наши экспериментальные результаты демонстрируют, что наш подход достигает исключительной производительности как для моделей с умеренным количеством параметров с открытым исходным кодом, так и для проприетарных LLM: с использованием in-context prompting он позволяет различным моделям с 7B или 13B параметрами превзойти предыдущее состояние искусства (SOTA), достигнутое ChatGPT, и улучшает производительность ChatGPT, превышая SOTA на 5.6% по среднему значению JGA. Результаты для отдельных моделей GPT-3.5 и GPT-4 улучшаются на 4.8% и 14% соответственно. Мы также показываем, что путем тонкой настройки на небольшом наборе разнообразных диалогов, ориентированных на задачи, можно оснастить модели с умеренным количеством параметров, в частности модель LLaMA2-Chat с 13B параметрами, возможностями вызова функций и производительностью DST, сопоставимой с ChatGPT, сохраняя при этом их чат-возможности. Мы планируем открыть исходный код экспериментов и модели.
Диффузионные модели доказали свою высокую эффективность в генерации изображений и видео; однако они по-прежнему сталкиваются с проблемами композиции при создании изображений различных размеров из-за использования обучающих данных одного масштаба. Адаптация крупных предобученных диффузионных моделей для работы с более высоким разрешением требует значительных вычислительных и оптимизационных ресурсов, при этом достижение уровня генерации, сопоставимого с моделями низкого разрешения, остается труднодостижимым. В данной статье предлагается новая самокаскадная диффузионная модель, которая использует богатые знания, полученные из хорошо обученной модели низкого разрешения, для быстрой адаптации к генерации изображений и видео более высокого разрешения, применяя либо беспараметрические, либо экономичные методы настройки апсемплеров. Интегрируя последовательность мультимасштабных модулей апсемплеров, самокаскадная диффузионная модель может эффективно адаптироваться к более высокому разрешению, сохраняя исходные возможности композиции и генерации. Мы также предлагаем стратегию повторного планирования шума с использованием опорных точек для ускорения процесса вывода и улучшения локальных структурных деталей. По сравнению с полной тонкой настройкой, наш подход обеспечивает ускорение обучения в 5 раз и требует всего 0,002 млн дополнительных параметров настройки. Многочисленные эксперименты демонстрируют, что наш подход позволяет быстро адаптироваться к синтезу изображений и видео более высокого разрешения, выполняя тонкую настройку всего за 10 тыс. шагов, практически без увеличения времени вывода.
В данной работе демонстрируется, что прогрессивно выровненная языковая модель может эффективно связывать замороженные визуальные кодировщики и крупные языковые модели (LLM). Хотя фундаментальная архитектура и методы предварительного обучения визуальных кодировщиков и LLM были тщательно изучены, архитектура и стратегии обучения адаптеров для связи визуальных и языковых данных значительно различаются в последних исследованиях. Наша работа проводит глубокое исследование современной архитектуры воспринимающего ресемплера и создает надежный базовый уровень. Однако мы наблюдаем, что выравнивание визуальных и языковых данных с использованием воспринимающего ресемплера демонстрирует медленную сходимость и ограниченную масштабируемость при отсутствии прямого контроля. Для решения этой проблемы мы предлагаем PaLM2-VAdapter, использующий прогрессивно выровненную языковую модель в качестве адаптера для связи визуальных и языковых данных. По сравнению с сильным базовым уровнем с воспринимающим ресемплером, наш метод эмпирически показывает более быструю сходимость, более высокую производительность и улучшенную масштабируемость. Многочисленные эксперименты на различных задачах визуального ответа на вопросы (VQA) и генерации подписей для изображений и видео демонстрируют, что наша модель обладает современными возможностями визуального понимания и мультимодального рассуждения. Примечательно, что наш метод достигает этих результатов с использованием на 30~70% меньшего количества параметров по сравнению с современными крупными моделями для связи визуальных и языковых данных, что свидетельствует о значительном улучшении эффективности.
Реконструкция и визуализация 3D-объектов на основе крайне ограниченного числа ракурсов имеет критически важное значение для продвижения приложений 3D-визуализации и улучшения пользовательского опыта. Однако изображения, полученные с ограниченного числа ракурсов, содержат лишь минимальную 3D-информацию, что приводит к двум основным проблемам: 1) сложность в установлении многовидовой согласованности из-за недостаточного количества изображений для сопоставления; 2) частичное отсутствие или сильное сжатие информации об объекте из-за недостаточного охвата ракурсов. Для решения этих проблем мы предлагаем GaussianObject — фреймворк для представления и визуализации 3D-объектов с использованием гауссовых сплатов, который обеспечивает высокое качество рендеринга всего на основе 4 входных изображений. Сначала мы внедряем методы визуального каркаса и устранения "плавающих" артефактов, которые явно вводят структурные априорные знания в начальный процесс оптимизации, что помогает установить многовидовую согласованность и создает грубое представление объекта в виде гауссовых распределений. Затем мы строим модель восстановления гауссовых распределений на основе диффузионных моделей, чтобы восполнить недостающую информацию об объекте, где гауссовы распределения дополнительно уточняются. Мы разрабатываем стратегию самогенерации для получения пар изображений, используемых для обучения модели восстановления. Наш GaussianObject оценивается на нескольких сложных наборах данных, включая MipNeRF360, OmniObject3D и OpenIllumination, демонстрируя впечатляющие результаты реконструкции всего на основе 4 ракурсов и значительно превосходя предыдущие передовые методы.
Мы представляем Универсальный Интерфейс Манипуляции (Universal Manipulation Interface, UMI) — фреймворк для сбора данных и обучения политик, который позволяет напрямую переносить навыки из демонстраций, выполненных человеком в реальных условиях, на развертываемые политики роботов. UMI использует ручные захваты в сочетании с тщательно продуманным дизайном интерфейса, что обеспечивает портативный, недорогой и информационно насыщенный сбор данных для сложных двуручных и динамических манипуляций. Для облегчения обучения развертываемых политик UMI включает в себя специально разработанный интерфейс политик с учетом задержек на этапе вывода и представлением действий в виде относительных траекторий. Полученные в результате обучения политики являются аппаратно-независимыми и могут быть развернуты на различных роботизированных платформах. Благодаря этим особенностям, фреймворк UMI открывает новые возможности для манипуляций роботов, позволяя достигать обобщаемых на новые условия динамических, двуручных, точных и долгосрочных поведений без дополнительной дообучения, просто изменяя обучающие данные для каждой задачи. Мы демонстрируем универсальность и эффективность UMI в ходе всесторонних экспериментов в реальных условиях, где политики, обученные с помощью UMI, успешно обобщаются на новые среды и объекты при обучении на разнообразных человеческих демонстрациях. Аппаратное и программное обеспечение UMI доступно в открытом доступе по адресу https://umi-gripper.github.io.
Разнообразие контекстов, в которых используются крупные языковые модели (LLM), требует возможности модификации или настройки стандартного поведения моделей для учета тонких требований и предпочтений. Удобным интерфейсом для указания таких корректировок является высокоуровневая вербальная обратная связь, например: "Не используй эмодзи при составлении писем моему начальнику." Однако, хотя написание высокоуровневой обратной связи значительно проще, чем сбор аннотаций для обучения с подкреплением на основе человеческой обратной связи (RLHF), мы обнаруживаем, что простое предоставление модели такой обратной связи приводит к избыточному обобщению, применяемому в контекстах, где это не уместно. Мы исследуем проблему включения вербальной обратной связи без такого избыточного обобщения, что вдохновило нас на разработку нового метода — Контекстуализированные Критики с Оптимизацией Ограниченных Предпочтений (C3PO). C3PO использует фрагмент высокоуровневой обратной связи для создания небольшого синтетического набора данных предпочтений, указывающего, как обратная связь должна (и не должна) применяться. Затем модель тонко настраивается в соответствии с синтетическими данными предпочтений, минимизируя отклонение от исходной модели для запросов, где обратная связь неприменима. Наши экспериментальные результаты показывают, что наш подход эффективно применяет вербальную обратную связь к соответствующим сценариям, сохраняя существующее поведение для других контекстов. Для как человеческой, так и сгенерированной GPT-4 высокоуровневой обратной связи C3PO эффективно следует заданной обратной связи, сопоставимо с базовыми подходами в контексте, при этом снижая избыточное обобщение на 30%.