Ежедневно отобранные исследовательские статьи по ИИ с переводами
Одним из главных вызовов искусственного общего интеллекта является разработка агентов, способных вести научные исследования и открывать новые знания. Хотя передовые модели уже использовались в качестве помощников человеческим ученым, например, для генерации идей, написания кода или выполнения задач прогнозирования, они все еще выполняют лишь небольшую часть научного процесса. В данной статье представлена первая комплексная концепция полностью автоматического научного открытия, позволяющая передовым крупным языковым моделям проводить исследования независимо и делиться своими результатами. Мы представляем ИИ-ученого, который генерирует новые исследовательские идеи, пишет код, проводит эксперименты, визуализирует результаты, описывает свои выводы, составляя полноценную научную статью, а затем запускает симулированный процесс рецензирования для оценки. В принципе этот процесс может быть повторен для итеративного развития идей в открытом формате, действуя подобно человеческому научному сообществу. Мы демонстрируем его универсальность, применяя его к трем различным подобластям машинного обучения: моделированию диффузии, моделированию языка на основе трансформеров и изучению динамики обучения. Каждая идея реализуется и развивается в полноценную статью по стоимости менее $15 за статью. Для оценки сгенерированных статей мы разрабатываем и проверяем автоматизированного рецензента, который, как мы показываем, достигает почти человеческой производительности при оценке баллов статей. ИИ-ученый способен производить статьи, превышающие порог принятия на ведущей конференции по машинному обучению, как показывает наш автоматизированный рецензент. Этот подход означает начало новой эры в научных открытиях в области машинного обучения: привнесение трансформационных выгод агентов ИИ в весь исследовательский процесс самого ИИ и приближение нас к миру, где бесконечное доступное творчество и инновации могут быть освобождены для решения самых сложных проблем мира. Наш код открыт и доступен по ссылке https://github.com/SakanaAI/AI-Scientist
Данная статья представляет rStar - метод взаимного рассуждения через самостоятельное обучение, который значительно улучшает способности к рассуждению небольших языковых моделей (SLM) без настройки или использования более продвинутых моделей. rStar разделяет рассуждение на процесс самостоятельной генерации и дискриминации. Сначала целевая SLM дополняет поиск по дереву Монте-Карло (MCTS) богатым набором действий рассуждения, похожих на человеческие, для создания траекторий рассуждения более высокого качества. Затем другая SLM, с возможностями, аналогичными целевой SLM, действует как дискриминатор, проверяя каждую траекторию, сгенерированную целевой SLM. Взаимно согласованные траектории рассуждения считаются взаимно согласованными, следовательно, они более вероятно являются правильными. Обширные эксперименты с пятью SLM показывают, что rStar может эффективно решать разнообразные задачи рассуждения, включая GSM8K, GSM-Hard, MATH, SVAMP и StrategyQA. Замечательно, rStar повышает точность GSM8K с 12.51% до 63.91% для LLaMA2-7B, с 36.46% до 81.88% для Mistral-7B, с 74.53% до 91.13% для LLaMA3-8B-Instruct. Код будет доступен по ссылке https://github.com/zhentingqi/rStar.
Модели диффузии продемонстрировали выдающиеся и надежные способности как в генерации изображений, так и видео. Для достижения большего контроля над сгенерированными результатами исследователи вводят дополнительные архитектуры, такие как ControlNet, Адаптеры и ReferenceNet, для интеграции управляющих элементов. Однако текущие методы управляемой генерации часто требуют значительных дополнительных вычислительных ресурсов, особенно для генерации видео, и сталкиваются с проблемами в обучении или проявляют слабый контроль. В данной статье мы предлагаем ControlNeXt: мощный и эффективный метод для управляемой генерации изображений и видео. Сначала мы разрабатываем более простую и эффективную архитектуру, заменяя тяжелые дополнительные ветви с минимальными дополнительными затратами по сравнению с базовой моделью. Такая лаконичная структура также позволяет нашему методу без проблем интегрироваться с другими весами LoRA, обеспечивая изменение стиля без необходимости дополнительного обучения. Что касается обучения, мы уменьшаем до 90% обучаемых параметров по сравнению с альтернативами. Более того, мы предлагаем другой метод, называемый Кросс-нормализация (CN), в качестве замены для "нулевой свертки", чтобы достичь быстрой и стабильной сходимости обучения. Мы провели различные эксперименты с различными базовыми моделями на изображениях и видео, демонстрируя устойчивость нашего метода.
Med42-v2 представляет собой набор клинических больших языковых моделей (LLM), разработанных для преодоления ограничений общих моделей в области здравоохранения. Эти модели построены на архитектуре Llama3 и донастроены с использованием специализированных клинических данных. Они прошли многоэтапную настройку предпочтений для эффективного реагирования на естественные запросы. В то время как общие модели часто настраиваются на предпочтения, чтобы избегать ответов на клинические запросы в качестве предосторожности, Med42-v2 специально обучен преодолевать это ограничение, что позволяет его использование в клинических условиях. Модели Med42-v2 демонстрируют превосходную производительность по сравнению с оригинальными моделями Llama3 как в конфигурациях параметров 8B и 70B, так и с GPT-4 на различных медицинских бенчмарках. Эти LLM разработаны для понимания клинических запросов, выполнения задач рассуждения и предоставления ценной помощи в клинических средах. Модели теперь доступны публично по адресу https://huggingface.co/m42-health.
Мы представляем CogVideoX, модель трансформера большого масштаба, разработанную для генерации видео на основе текстовых подсказок. Для эффективного моделирования видеоданных мы предлагаем использовать 3D вариационный автоэнкодер (VAE) для сжатия видео как по пространственным, так и по временным измерениям. Для улучшения соответствия текста и видео мы предлагаем экспертный трансформер с адаптивным слоем нормализации экспертов для облегчения глубокого слияния между двумя модальностями. Применяя прогрессивную технику обучения, CogVideoX умеет создавать согласованные видео большой продолжительности, характеризующиеся значительными движениями. Кроме того, мы разработали эффективный конвейер обработки текстово-видео данных, включающий различные стратегии предварительной обработки данных и метод описания видео. Это значительно помогает улучшить производительность CogVideoX, повышая как качество генерации, так и семантическое соответствие. Результаты показывают, что CogVideoX демонстрирует передовую производительность как по множественным метрикам машинного обучения, так и по оценкам людей. Веса модели как 3D причинного VAE, так и CogVideoX доступны публично на https://github.com/THUDM/CogVideo.
Мы представляем FruitNeRF, унифицированную новую структуру подсчета фруктов, которая использует передовые методы синтеза изображений для прямого подсчета любого типа фруктов в 3D. Наша структура принимает неупорядоченный набор позированных изображений, снятых монокулярной камерой, и выделяет фрукты на каждом изображении. Чтобы сделать нашу систему независимой от типа фруктов, мы используем базовую модель, которая генерирует бинарные маски сегментации для любого фрукта. Используя обе модальности, RGB и семантическую, мы обучаем семантическое нейронное поле радиационной яркости. Через равномерную выборку объема неявного Фруктового Поля мы получаем облака точек только с фруктами. Применяя каскадное кластеризование к извлеченному облаку точек, наш подход достигает точного подсчета фруктов. Использование нейронных полей радиационной яркости обеспечивает значительные преимущества по сравнению с традиционными методами, такими как отслеживание объектов или оптический поток, поскольку сам подсчет осуществляется в 3D. Наш метод предотвращает двойной подсчет фруктов и избегает подсчета несущественных фруктов. Мы оцениваем нашу методологию, используя как реальные, так и синтетические наборы данных. Реальный набор данных состоит из трех яблонь с ручным подсчетом истинных значений, набора данных яблок с одним рядом и истинным местоположением фруктов, в то время как синтетический набор данных включает различные типы фруктов, включая яблоко, сливу, лимон, грушу, персик и манго. Кроме того, мы оцениваем производительность подсчета фруктов с использованием базовой модели по сравнению с U-Net.
Большие мультимодальные модели (LMM) открыли новую эру в искусственном интеллекте, объединяя возможности как в области языка, так и зрения для создания высококвалифицированных агентов визуального фундамента. Предполагается, что эти агенты будут превосходить в различных задачах и, возможно, приблизятся к общему искусственному интеллекту. Однако существующие бенчмарки не способны достаточно вызвать вызов или продемонстрировать полный потенциал LMM в сложных реальных средах. Для решения этой проблемы мы представляем VisualAgentBench (VAB) - обширный и новаторский бенчмарк, специально разработанный для обучения и оценки LMM в качестве визуальных агентов фундамента в различных сценариях, включая воплощенные, графические пользовательские интерфейсы и визуальный дизайн, с задачами, направленными на исследование глубины понимания и взаимодействия LMM. Через тщательное тестирование на девяти закрытых API LMM и восьми открытых моделях мы демонстрируем значительные, но все еще развивающиеся возможности агентов этих моделей. Кроме того, VAB создает набор данных для тренировки траекторий, составленный с использованием гибридных методов, включая решатели на основе программ, бутстраппинг агентов LMM и демонстрации человека, способствуя значительному улучшению производительности LMM через клонирование поведения. Наша работа нацелена не только на оценку существующих моделей, но и предоставляет прочное основание для будущего развития в области визуальных агентов фундамента. Код, данные для обучения и тестирования, а также часть донастроенных открытых LMM доступны по адресу https://github.com/THUDM/VisualAgentBench.
В данной статье мы представляем новый подход к созданию трехмерного аватара головы, способного обобщать данные из небольшого количества снимков в естественных условиях с высокой степенью реалистичности и анимируемой устойчивостью. Учитывая недоопределенность данной проблемы, важно внедрить предварительные знания. Поэтому мы предлагаем структуру, включающую этапы предварительного обучения и создания аватара. Этап предварительного обучения использует трехмерные предпосылки головы, полученные из масштабного набора данных динамических многозрительных изображений, а этап создания аватара применяет эти предпосылки для персонализации по небольшому количеству снимков. Наш подход эффективно улавливает эти предпосылки, используя сеть автокодировщика на основе гауссовского сплэттинга с моделированием динамики на основе частей. Наш метод использует кодирование с общей идентичностью с персонализированными латентными кодами для отдельных личностей для изучения атрибутов гауссовских примитивов. Во время этапа создания аватара мы достигаем быстрой персонализации головного аватара, используя стратегии инверсии и доводки. Обширные эксперименты показывают, что наша модель эффективно использует предпосылки головы и успешно обобщает их для персонализации по небольшому количеству снимков, достигая фотореалистичного качества рендеринга, согласованности многозрительных изображений и стабильной анимации.
Этот документ представляет UniPortrait, инновационную фреймворк персонализации изображений людей, объединяющую настройку одного и нескольких идентификаторов с высокой точностью лица, обширной редактируемостью лица, описанием свободной формы ввода и разнообразной генерацией макетов. UniPortrait состоит всего из двух модулей "подключи и используй": модуля встраивания идентификатора и модуля маршрутизации идентификатора. Модуль встраивания идентификатора извлекает универсальные редактируемые черты лица с стратегией разделения для каждого идентификатора и встраивает их в контекстное пространство моделей диффузии. Затем модуль маршрутизации идентификатора комбинирует и распределяет эти встраивания адаптивно в соответствующие области в синтезированном изображении, достигая настройки одного и нескольких идентификаторов. Благодаря тщательно разработанной двухэтапной схеме обучения UniPortrait достигает превосходных результатов как в настройке одного, так и нескольких идентификаторов. Количественные и качественные эксперименты демонстрируют преимущества нашего метода перед существующими подходами, а также его хорошую масштабируемость, например, универсальную совместимость с существующими инструментами управления генерацией. Страница проекта находится по адресу https://aigcdesigngroup.github.io/UniPortrait-Page/.
В последние годы архитектура трансформера стала фактическим стандартом для алгоритмов машинного обучения, применяемых в обработке естественного языка и компьютерного зрения. Несмотря на значительные доказательства успешного применения этой архитектуры в контексте обучения роботов, мы утверждаем, что обычные трансформеры не полностью используют структуру проблемы обучения роботов. Поэтому мы предлагаем Body Transformer (BoT), архитектуру, которая использует телесное воплощение робота, предоставляя индуктивный сдвиг, направляющий процесс обучения. Мы представляем тело робота как граф сенсоров и актуаторов и полагаемся на маскированное внимание для сбора информации по всей архитектуре. Результирующая архитектура превосходит обычный трансформер, а также классический многослойный персептрон, с точки зрения завершения задач, масштабируемости и вычислительной эффективности при представлении как имитационных, так и обучающих политик на основе обучения с подкреплением. Дополнительные материалы, включая открытый исходный код, доступны по адресу https://sferrazza.cc/bot_site.
Несмотря на свои недавние успехи, модели языка на основе трансформеров показывают удивительные режимы сбоя. Хорошо известным примером таких режимов сбоя является их неспособность к обобщению по длине: решение примеров проблем во время вывода, которые длиннее тех, что были увидены во время обучения. В данной работе мы дополнительно исследуем коренную причину этого сбоя, выполнив подробный анализ поведения модели на простой задаче четности. Наш анализ предполагает, что неудачи в обобщении по длине тесно связаны с неспособностью модели выполнять случайные обращения к памяти в пределах своего окна контекста. Мы представляем подтверждающие доказательства этой гипотезы, продемонстрировав эффективность методологий, которые обходят необходимость индексации или позволяют косвенный случайный доступ к токенам через адресацию на основе содержания. Мы также показываем, где и как неспособность выполнять случайный доступ к памяти проявляется через визуализацию карт внимания.