Ежедневно отобранные исследовательские статьи по ИИ с переводами
Крупные языковые модели для кода (Code LLM) активно развиваются. Новые и мощные модели выпускаются еженедельно, демонстрируя выдающиеся результаты в задаче генерации кода. Были предложены различные подходы для повышения производительности предварительно обученных Code LLM в генерации кода, такие как контролируемая тонкая настройка, настройка по инструкциям, обучение с подкреплением и другие. В данной статье мы предлагаем новую структуру RRTF (Rank Responses to align Test&Teacher Feedback), которая может эффективно и результативно улучшить предварительно обученные крупные языковые модели для генерации кода. В рамках этой структуры мы представляем PanGu-Coder2, который достигает 62,20% pass@1 на бенчмарке OpenAI HumanEval. Кроме того, в ходе обширной оценки на бенчмарках CoderEval и LeetCode мы показываем, что PanGu-Coder2 стабильно превосходит все предыдущие Code LLM.
Мы представляем TransNormerLLM — первую крупную языковую модель (LLM), основанную на линейном внимании, которая превосходит традиционные модели с softmax-вниманием как по точности, так и по эффективности. TransNormerLLM развивает предыдущую архитектуру линейного внимания TransNormer, внося в неё усовершенствования, включая позиционные эмбеддинги, ускорение линейного внимания, механизм гейтирования, тензорную нормализацию, ускорение и стабилизацию вывода. В частности, мы используем LRPE вместе с экспоненциальным затуханием, чтобы избежать проблем с размытием внимания, сохраняя при этом глобальные взаимодействия между токенами. Кроме того, мы предлагаем Lightning Attention — передовую технику, которая ускоряет линейное внимание более чем в два раза в режиме реального времени и сокращает использование памяти в четыре раза. Для дальнейшего повышения производительности TransNormer мы применяем механизм гейтирования для сглаживания обучения и новую схему тензорной нормализации, что приводит к впечатляющему ускорению более чем на 20%. Кроме того, мы разработали устойчивый алгоритм вывода, который обеспечивает численную стабильность и постоянную скорость вывода независимо от длины последовательности, демонстрируя превосходную эффективность как на этапе обучения, так и на этапе вывода. Масштабируемость лежит в основе дизайна нашей модели, позволяя беспрепятственно развертывать её на крупных кластерах и облегчая расширение до ещё более масштабных моделей, сохраняя при этом выдающиеся показатели производительности. Тщательная проверка дизайна нашей модели проведена через серию всесторонних экспериментов на нашем собственном корпусе данных, объём которого превышает 6 ТБ и содержит более 2 триллионов токенов. Для обеспечения качества и релевантности данных мы применяем новую стратегию самоочистки для фильтрации собранных данных. Наши предобученные модели будут опубликованы для содействия развитию сообщества в области эффективных LLM.
Мы представляем фреймворк для приобретения навыков роботами, который 1) эффективно масштабирует генерацию данных, помеченных языковыми метками, и 2) эффективно конденсирует эти данные в устойчивую многозадачную визуомоторную политику, обусловленную языком. Для (1) мы используем крупную языковую модель (LLM) для управления высокоуровневым планированием и планировщики на основе выборки (например, для движения или захвата) для генерации разнообразных и насыщенных траекторий манипуляций. Чтобы сделать процесс сбора данных более устойчивым, LLM также выводит фрагмент кода для условия успеха каждой задачи, что одновременно позволяет процессу сбора данных обнаруживать сбои и повторять попытки, а также автоматически маркировать траектории как успешные или неудачные. Для (2) мы расширяем подход к клонированию поведения на основе диффузионной политики для однозадачных сценариев до многозадачных с условием языка. Наконец, мы предлагаем новый многозадачный бенчмарк с 18 задачами в пяти областях для тестирования долгосрочного поведения, здравого смысла, использования инструментов и интуитивной физики. Мы обнаружили, что наша конденсированная политика успешно переняла устойчивое поведение повторных попыток из политики сбора данных, при этом улучшив абсолютные показатели успеха в среднем на 34,8% в пяти областях. Бенчмарк, код и качественные результаты доступны на нашем сайте https://www.cs.columbia.edu/~huy/scalingup/
Визуальное отслеживание объектов является фундаментальной задачей в области компьютерного зрения. В последнее время значительно возросшая мощность алгоритмов восприятия позволяет объединить методы отслеживания одного/нескольких объектов и подходы, основанные на ограничивающих прямоугольниках/масках. Среди них модель Segment Anything Model (SAM) привлекает особое внимание. В данном отчете мы представляем HQTrack — фреймворк для высококачественного отслеживания любых объектов в видео. HQTrack в основном состоит из видеосегментатора множества объектов (VMOS) и уточнителя масок (MR). При задании объекта для отслеживания в начальном кадре видео, VMOS распространяет маски объекта на текущий кадр. Результаты масок на этом этапе недостаточно точны, поскольку VMOS обучается на нескольких закрытых наборах данных для сегментации видеообъектов (VOS), что ограничивает способность модели обобщать сложные и нестандартные сцены. Для дальнейшего повышения качества масок отслеживания используется предобученная модель MR, которая уточняет результаты отслеживания. В качестве убедительного подтверждения эффективности нашей парадигмы, без использования каких-либо уловок, таких как аугментация данных во время тестирования и ансамбли моделей, HQTrack занимает 2-е место в соревновании по отслеживанию и сегментации визуальных объектов (VOTS2023). Код и модели доступны по адресу https://github.com/jiawen-zhu/HQTrack.
Медицина по своей природе является мультимодальной, включая богатые данные в виде текста, изображений, геномики и других форматов. Универсальные системы искусственного интеллекта (ИИ) в биомедицине, способные гибко кодировать, интегрировать и интерпретировать эти данные в больших масштабах, могут способствовать созданию значимых приложений — от научных открытий до оказания медицинской помощи. Для разработки таких моделей мы сначала создали MultiMedBench — новый мультимодальный биомедицинский бенчмарк. MultiMedBench охватывает 14 разнообразных задач, таких как ответы на медицинские вопросы, интерпретация изображений маммографии и дерматологии, генерация и суммирование радиологических отчетов, а также выявление геномных вариантов. Затем мы представляем Med-PaLM Multimodal (Med-PaLM M) — нашу концептуальную модель универсальной биомедицинской системы ИИ. Med-PaLM M представляет собой крупную мультимодальную генеративную модель, которая гибко кодирует и интерпретирует биомедицинские данные, включая клинический язык, изображения и геномику, используя один и тот же набор весов модели. Med-PaLM M демонстрирует результаты, сопоставимые или превосходящие современные достижения во всех задачах MultiMedBench, часто значительно опережая специализированные модели. Мы также приводим примеры обобщения на новые медицинские концепции и задачи в режиме zero-shot, позитивного переноса знаний между задачами и проявления способности к медицинскому рассуждению в режиме zero-shot. Для дальнейшего изучения возможностей и ограничений Med-PaLM M мы провели оценку радиологами отчетов, сгенерированных моделью (и человеком), по рентгенограммам грудной клетки и наблюдали обнадеживающие результаты на разных масштабах модели. В сравнительном ранжировании 246 ретроспективных рентгенограмм грудной клетки клиницисты отдали предпочтение отчетам Med-PaLM M вплоть до 40,50% случаев, что указывает на потенциальную клиническую полезность. Хотя для валидации этих моделей в реальных условиях требуется значительная работа, наши результаты представляют собой важный шаг на пути к разработке универсальных биомедицинских систем ИИ.
Генерация 3D-моделей из текста в последнее время привлекает значительное внимание, чему способствуют 2D диффузионные модели, обученные на миллиардах пар изображений и текстов. Существующие методы в основном полагаются на дистилляцию оценок для использования 2D диффузионных априорных знаний для управления генерацией 3D-моделей, таких как NeRF. Однако дистилляция оценок склонна к проблеме несогласованности видов, а неявное моделирование NeRF может приводить к произвольным формам, что делает генерацию 3D менее реалистичной и трудноконтролируемой. В данной работе мы предлагаем гибкую структуру Points-to-3D, которая устраняет разрыв между редкими, но свободно доступными 3D-точками и реалистичной, контролируемой по форме генерацией 3D, используя знания как из 2D, так и из 3D диффузионных моделей. Основная идея Points-to-3D заключается во введении контролируемых редких 3D-точек для управления генерацией 3D из текста. В частности, мы используем редкое облако точек, сгенерированное 3D диффузионной моделью Point-E, в качестве геометрического априори, основываясь на одном эталонном изображении. Для более эффективного использования редких 3D-точек мы предлагаем функцию потерь, основанную на управлении облаком точек, которая адаптивно направляет геометрию NeRF к соответствию с формой редких 3D-точек. Помимо управления геометрией, мы предлагаем оптимизировать NeRF для более согласованного по видам внешнего вида. Конкретно, мы выполняем дистилляцию оценок с использованием общедоступной 2D диффузионной модели изображений ControlNet, основываясь на тексте, а также на карте глубины изученной компактной геометрии. Качественные и количественные сравнения демонстрируют, что Points-to-3D улучшает согласованность видов и обеспечивает хорошую контролируемость формы для генерации 3D из текста. Points-to-3D предоставляет пользователям новый способ улучшения и контроля генерации 3D из текста.
Для художника или графического дизайнера пространственная компоновка сцены является важным элементом дизайна. Однако существующие модели диффузии текста в изображение предоставляют ограниченные возможности для включения пространственной информации. В данной статье представлен метод Composite Diffusion, который позволяет художникам создавать высококачественные изображения, комбинируя под-сцены. Художники могут задавать расположение этих под-сцен с помощью гибкого свободного сегментного макета. Они могут описывать содержание каждой под-сцены преимущественно с использованием естественного текста, а также дополнительно применять эталонные изображения или управляющие входные данные, такие как линейные рисунки, наброски, позы человека, контуры и многое другое. Мы предлагаем комплексный и модульный метод Composite Diffusion, который позволяет альтернативные способы генерации, компоновки и гармонизации под-сцен. Кроме того, мы стремимся оценить композитное изображение с точки зрения как качества изображения, так и достижения замысла художника. Мы утверждаем, что существующие метрики качества изображения не обеспечивают целостной оценки композитов. Для решения этой проблемы мы предлагаем новые критерии качества, особенно актуальные для генерации композитов. Мы считаем, что наш подход предоставляет интуитивный метод создания искусства. С помощью обширных пользовательских опросов, количественного и качественного анализа мы показываем, как он обеспечивает больший контроль над пространственной, семантической и творческой составляющими генерации изображений. Кроме того, наши методы не требуют переобучения или изменения архитектуры базовых моделей диффузии и могут работать в режиме plug-and-play с доработанными моделями.
Мы исследуем улучшение социальных диалоговых агентов путем обучения на основе естественных диалогов между пользователями и развернутой моделью, без дополнительных аннотаций. Для неявной оценки качества машинно-сгенерированных высказываний мы используем такие сигналы, как длина ответа пользователя, эмоциональная окраска и реакция на последующие человеческие высказывания в собранных диалоговых эпизодах. Наши эксперименты основаны на публично доступных данных развертывания модели BlenderBot (Xu et al., 2023). Человеческая оценка показывает улучшения в наших новых моделях по сравнению с базовыми ответами; однако мы обнаруживаем, что некоторые косвенные сигналы могут также приводить к генерации высказываний с нежелательными свойствами. Например, оптимизация для увеличения длины диалога может привести к более спорным или недружелюбным высказываниям по сравнению с базовой моделью, тогда как оптимизация для позитивной эмоциональной окраски или реакции может уменьшить такие проявления.
Недавние трансформаторы для обработки изображений, сверточные нейронные сети с большими ядрами и многослойные перцептроны достигли значительных успехов в широком спектре задач компьютерного зрения благодаря эффективному объединению информации в глобальном масштабе. Однако их эффективное развертывание, особенно на мобильных устройствах, по-прежнему сталкивается с серьезными трудностями из-за высоких вычислительных затрат механизмов самовнимания, больших ядер или полностью связанных слоев. В данной работе мы применяем классическую теорему о свертке к глубокому обучению для решения этой проблемы и показываем, что адаптивные частотные фильтры могут служить эффективными глобальными миксерами токенов. На основе этого инсайта мы предлагаем миксер токенов с адаптивной частотной фильтрацией (AFF). Этот нейронный оператор преобразует скрытое представление в частотную область с помощью преобразования Фурье и выполняет семантически адаптивную частотную фильтрацию через поэлементное умножение, что математически эквивалентно операции смешивания токенов в исходном скрытом пространстве с динамическим ядром свертки, размер которого равен пространственному разрешению этого скрытого представления. Мы используем AFF миксеры токенов в качестве основных нейронных операторов для построения легковесной нейронной сети, названной AFFNet. Многочисленные эксперименты демонстрируют эффективность предложенного нами AFF миксера токенов и показывают, что AFFNet достигает превосходного баланса между точностью и эффективностью по сравнению с другими легковесными сетевыми архитектурами в широком спектре задач компьютерного зрения, включая задачи визуального распознавания и плотного предсказания.
Область прогнозирования траекторий значительно расширилась в последние годы, отчасти благодаря выпуску многочисленных крупномасштабных наборов данных о реальных траекториях людей для автономных транспортных средств (АТС) и отслеживания движения пешеходов. Хотя такие наборы данных стали большим подспорьем для научного сообщества, каждый из них использует собственные уникальные форматы данных и API, что затрудняет для исследователей обучение и оценку методов на нескольких наборах данных. Чтобы устранить эту проблему, мы представляем trajdata: унифицированный интерфейс для работы с несколькими наборами данных о траекториях людей. В основе trajdata лежит простое, единообразное и эффективное представление данных о траекториях и картах, а также соответствующий API. В качестве демонстрации его возможностей в данной работе мы проводим всестороннее эмпирическое исследование существующих наборов данных о траекториях, предоставляя пользователям глубокое понимание данных, лежащих в основе большей части современных исследований прогнозирования движения пешеходов и АТС, и предлагая рекомендации для будущих наборов данных на основе этих выводов. trajdata распространяется под разрешительной лицензией (Apache 2.0) и доступен онлайн по адресу https://github.com/NVlabs/trajdata.