Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Исследователь в области искусственного интеллекта: к полностью автоматизированному открытому научному открытию
The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery

Aug 12

ByChris Lu, Cong Lu, Robert Tjarko Lange, Jakob Foerster, Jeff Clune, David Ha

128

Одним из главных вызовов искусственного общего интеллекта является разработка агентов, способных вести научные исследования и открывать новые знания. Хотя передовые модели уже использовались в качестве помощников человеческим ученым, например, для генерации идей, написания кода или выполнения задач прогнозирования, они все еще выполняют лишь небольшую часть научного процесса. В данной статье представлена первая комплексная концепция полностью автоматического научного открытия, позволяющая передовым крупным языковым моделям проводить исследования независимо и делиться своими результатами. Мы представляем ИИ-ученого, который генерирует новые исследовательские идеи, пишет код, проводит эксперименты, визуализирует результаты, описывает свои выводы, составляя полноценную научную статью, а затем запускает симулированный процесс рецензирования для оценки. В принципе этот процесс может быть повторен для итеративного развития идей в открытом формате, действуя подобно человеческому научному сообществу. Мы демонстрируем его универсальность, применяя его к трем различным подобластям машинного обучения: моделированию диффузии, моделированию языка на основе трансформеров и изучению динамики обучения. Каждая идея реализуется и развивается в полноценную статью по стоимости менее $15 за статью. Для оценки сгенерированных статей мы разрабатываем и проверяем автоматизированного рецензента, который, как мы показываем, достигает почти человеческой производительности при оценке баллов статей. ИИ-ученый способен производить статьи, превышающие порог принятия на ведущей конференции по машинному обучению, как показывает наш автоматизированный рецензент. Этот подход означает начало новой эры в научных открытиях в области машинного обучения: привнесение трансформационных выгод агентов ИИ в весь исследовательский процесс самого ИИ и приближение нас к миру, где бесконечное доступное творчество и инновации могут быть освобождены для решения самых сложных проблем мира. Наш код открыт и доступен по ссылке https://github.com/SakanaAI/AI-Scientist

Взаимное рассуждение делает более компактные LLM более эффективными в решении проблем.
Mutual Reasoning Makes Smaller LLMs Stronger Problem-Solvers

Aug 12

ByZhenting Qi, Mingyuan Ma, Jiahang Xu, Li Lyna Zhang, Fan Yang, Mao Yang

Данная статья представляет rStar - метод взаимного рассуждения через самостоятельное обучение, который значительно улучшает способности к рассуждению небольших языковых моделей (SLM) без настройки или использования более продвинутых моделей. rStar разделяет рассуждение на процесс самостоятельной генерации и дискриминации. Сначала целевая SLM дополняет поиск по дереву Монте-Карло (MCTS) богатым набором действий рассуждения, похожих на человеческие, для создания траекторий рассуждения более высокого качества. Затем другая SLM, с возможностями, аналогичными целевой SLM, действует как дискриминатор, проверяя каждую траекторию, сгенерированную целевой SLM. Взаимно согласованные траектории рассуждения считаются взаимно согласованными, следовательно, они более вероятно являются правильными. Обширные эксперименты с пятью SLM показывают, что rStar может эффективно решать разнообразные задачи рассуждения, включая GSM8K, GSM-Hard, MATH, SVAMP и StrategyQA. Замечательно, rStar повышает точность GSM8K с 12.51% до 63.91% для LLaMA2-7B, с 36.46% до 81.88% для Mistral-7B, с 74.53% до 91.13% для LLaMA3-8B-Instruct. Код будет доступен по ссылке https://github.com/zhentingqi/rStar.

ControlNeXt: Мощное и эффективное управление для генерации изображений и видео.
ControlNeXt: Powerful and Efficient Control for Image and Video Generation

Aug 12

ByBohao Peng, Jian Wang, Yuechen Zhang, Wenbo Li, Ming-Chang Yang, Jiaya Jia

Модели диффузии продемонстрировали выдающиеся и надежные способности как в генерации изображений, так и видео. Для достижения большего контроля над сгенерированными результатами исследователи вводят дополнительные архитектуры, такие как ControlNet, Адаптеры и ReferenceNet, для интеграции управляющих элементов. Однако текущие методы управляемой генерации часто требуют значительных дополнительных вычислительных ресурсов, особенно для генерации видео, и сталкиваются с проблемами в обучении или проявляют слабый контроль. В данной статье мы предлагаем ControlNeXt: мощный и эффективный метод для управляемой генерации изображений и видео. Сначала мы разрабатываем более простую и эффективную архитектуру, заменяя тяжелые дополнительные ветви с минимальными дополнительными затратами по сравнению с базовой моделью. Такая лаконичная структура также позволяет нашему методу без проблем интегрироваться с другими весами LoRA, обеспечивая изменение стиля без необходимости дополнительного обучения. Что касается обучения, мы уменьшаем до 90% обучаемых параметров по сравнению с альтернативами. Более того, мы предлагаем другой метод, называемый Кросс-нормализация (CN), в качестве замены для "нулевой свертки", чтобы достичь быстрой и стабильной сходимости обучения. Мы провели различные эксперименты с различными базовыми моделями на изображениях и видео, демонстрируя устойчивость нашего метода.

Med42-v2: Набор клинических моделей глубокого обучения.
Med42-v2: A Suite of Clinical LLMs

Aug 12

ByClément Christophe, Praveen K Kanithi, Tathagata Raha, Shadab Khan, Marco AF Pimentel

Med42-v2 представляет собой набор клинических больших языковых моделей (LLM), разработанных для преодоления ограничений общих моделей в области здравоохранения. Эти модели построены на архитектуре Llama3 и донастроены с использованием специализированных клинических данных. Они прошли многоэтапную настройку предпочтений для эффективного реагирования на естественные запросы. В то время как общие модели часто настраиваются на предпочтения, чтобы избегать ответов на клинические запросы в качестве предосторожности, Med42-v2 специально обучен преодолевать это ограничение, что позволяет его использование в клинических условиях. Модели Med42-v2 демонстрируют превосходную производительность по сравнению с оригинальными моделями Llama3 как в конфигурациях параметров 8B и 70B, так и с GPT-4 на различных медицинских бенчмарках. Эти LLM разработаны для понимания клинических запросов, выполнения задач рассуждения и предоставления ценной помощи в клинических средах. Модели теперь доступны публично по адресу https://huggingface.co/m42-health.

CogVideoX: Модели диффузии текста в видео с экспертным трансформером
CogVideoX: Text-to-Video Diffusion Models with An Expert Transformer

Aug 12

ByZhuoyi Yang, Jiayan Teng, Wendi Zheng, Ming Ding, Shiyu Huang, Jiazheng Xu, Yuanming Yang, Wenyi Hong, Xiaohan Zhang, Guanyu Feng, Da Yin, Xiaotao Gu, Yuxuan Zhang, Weihan Wang, Yean Cheng, Ting Liu, Bin Xu, Yuxiao Dong, Jie Tang

Мы представляем CogVideoX, модель трансформера большого масштаба, разработанную для генерации видео на основе текстовых подсказок. Для эффективного моделирования видеоданных мы предлагаем использовать 3D вариационный автоэнкодер (VAE) для сжатия видео как по пространственным, так и по временным измерениям. Для улучшения соответствия текста и видео мы предлагаем экспертный трансформер с адаптивным слоем нормализации экспертов для облегчения глубокого слияния между двумя модальностями. Применяя прогрессивную технику обучения, CogVideoX умеет создавать согласованные видео большой продолжительности, характеризующиеся значительными движениями. Кроме того, мы разработали эффективный конвейер обработки текстово-видео данных, включающий различные стратегии предварительной обработки данных и метод описания видео. Это значительно помогает улучшить производительность CogVideoX, повышая как качество генерации, так и семантическое соответствие. Результаты показывают, что CogVideoX демонстрирует передовую производительность как по множественным метрикам машинного обучения, так и по оценкам людей. Веса модели как 3D причинного VAE, так и CogVideoX доступны публично на https://github.com/THUDM/CogVideo.

FruitNeRF: Единая нейронная радиационная область для подсчета фруктов.
FruitNeRF: A Unified Neural Radiance Field based Fruit Counting Framework

Aug 12

ByLukas Meyer, Andreas Gilson, Ute Schmidt, Marc Stamminger

Мы представляем FruitNeRF, унифицированную новую структуру подсчета фруктов, которая использует передовые методы синтеза изображений для прямого подсчета любого типа фруктов в 3D. Наша структура принимает неупорядоченный набор позированных изображений, снятых монокулярной камерой, и выделяет фрукты на каждом изображении. Чтобы сделать нашу систему независимой от типа фруктов, мы используем базовую модель, которая генерирует бинарные маски сегментации для любого фрукта. Используя обе модальности, RGB и семантическую, мы обучаем семантическое нейронное поле радиационной яркости. Через равномерную выборку объема неявного Фруктового Поля мы получаем облака точек только с фруктами. Применяя каскадное кластеризование к извлеченному облаку точек, наш подход достигает точного подсчета фруктов. Использование нейронных полей радиационной яркости обеспечивает значительные преимущества по сравнению с традиционными методами, такими как отслеживание объектов или оптический поток, поскольку сам подсчет осуществляется в 3D. Наш метод предотвращает двойной подсчет фруктов и избегает подсчета несущественных фруктов. Мы оцениваем нашу методологию, используя как реальные, так и синтетические наборы данных. Реальный набор данных состоит из трех яблонь с ручным подсчетом истинных значений, набора данных яблок с одним рядом и истинным местоположением фруктов, в то время как синтетический набор данных включает различные типы фруктов, включая яблоко, сливу, лимон, грушу, персик и манго. Кроме того, мы оцениваем производительность подсчета фруктов с использованием базовой модели по сравнению с U-Net.

VisualAgentBench: Путь к созданию крупных мультимодальных моделей как визуальных основ агентов
VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents

Aug 12

ByXiao Liu, Tianjie Zhang, Yu Gu, Iat Long Iong, Yifan Xu, Xixuan Song, Shudan Zhang, Hanyu Lai, Xinyi Liu, Hanlin Zhao, Jiadai Sun, Xinyue Yang, Yu Yang, Zehan Qi, Shuntian Yao, Xueqiao Sun, Siyi Cheng, Qinkai Zheng, Hao Yu, Hanchen Zhang, Wenyi Hong, Ming Ding, Lihang Pan, Xiaotao Gu, Aohan Zeng, Zhengxiao Du, Chan Hee Song, Yu Su, Yuxiao Dong, Jie Tang

Большие мультимодальные модели (LMM) открыли новую эру в искусственном интеллекте, объединяя возможности как в области языка, так и зрения для создания высококвалифицированных агентов визуального фундамента. Предполагается, что эти агенты будут превосходить в различных задачах и, возможно, приблизятся к общему искусственному интеллекту. Однако существующие бенчмарки не способны достаточно вызвать вызов или продемонстрировать полный потенциал LMM в сложных реальных средах. Для решения этой проблемы мы представляем VisualAgentBench (VAB) - обширный и новаторский бенчмарк, специально разработанный для обучения и оценки LMM в качестве визуальных агентов фундамента в различных сценариях, включая воплощенные, графические пользовательские интерфейсы и визуальный дизайн, с задачами, направленными на исследование глубины понимания и взаимодействия LMM. Через тщательное тестирование на девяти закрытых API LMM и восьми открытых моделях мы демонстрируем значительные, но все еще развивающиеся возможности агентов этих моделей. Кроме того, VAB создает набор данных для тренировки траекторий, составленный с использованием гибридных методов, включая решатели на основе программ, бутстраппинг агентов LMM и демонстрации человека, способствуя значительному улучшению производительности LMM через клонирование поведения. Наша работа нацелена не только на оценку существующих моделей, но и предоставляет прочное основание для будущего развития в области визуальных агентов фундамента. Код, данные для обучения и тестирования, а также часть донастроенных открытых LMM доступны по адресу https://github.com/THUDM/VisualAgentBench.

HeadGAP: 3D-аватар головы с небольшим количеством обучающих примеров на основе обобщаемых гауссовых априорных данных
HeadGAP: Few-shot 3D Head Avatar via Generalizable Gaussian Priors

Aug 12

ByXiaozheng Zheng, Chao Wen, Zhaohu Li, Weiyi Zhang, Zhuo Su, Xu Chang, Yang Zhao, Zheng Lv, Xiaoyuan Zhang, Yongjie Zhang, Guidong Wang, Lan Xu

В данной статье мы представляем новый подход к созданию трехмерного аватара головы, способного обобщать данные из небольшого количества снимков в естественных условиях с высокой степенью реалистичности и анимируемой устойчивостью. Учитывая недоопределенность данной проблемы, важно внедрить предварительные знания. Поэтому мы предлагаем структуру, включающую этапы предварительного обучения и создания аватара. Этап предварительного обучения использует трехмерные предпосылки головы, полученные из масштабного набора данных динамических многозрительных изображений, а этап создания аватара применяет эти предпосылки для персонализации по небольшому количеству снимков. Наш подход эффективно улавливает эти предпосылки, используя сеть автокодировщика на основе гауссовского сплэттинга с моделированием динамики на основе частей. Наш метод использует кодирование с общей идентичностью с персонализированными латентными кодами для отдельных личностей для изучения атрибутов гауссовских примитивов. Во время этапа создания аватара мы достигаем быстрой персонализации головного аватара, используя стратегии инверсии и доводки. Обширные эксперименты показывают, что наша модель эффективно использует предпосылки головы и успешно обобщает их для персонализации по небольшому количеству снимков, достигая фотореалистичного качества рендеринга, согласованности многозрительных изображений и стабильной анимации.

UniPortrait: Объединенная структура для персонализации изображений одного или нескольких людей с сохранением их идентичности.
UniPortrait: A Unified Framework for Identity-Preserving Single- and Multi-Human Image Personalization

Aug 12

ByJunjie He, Yifeng Geng, Liefeng Bo

Этот документ представляет UniPortrait, инновационную фреймворк персонализации изображений людей, объединяющую настройку одного и нескольких идентификаторов с высокой точностью лица, обширной редактируемостью лица, описанием свободной формы ввода и разнообразной генерацией макетов. UniPortrait состоит всего из двух модулей "подключи и используй": модуля встраивания идентификатора и модуля маршрутизации идентификатора. Модуль встраивания идентификатора извлекает универсальные редактируемые черты лица с стратегией разделения для каждого идентификатора и встраивает их в контекстное пространство моделей диффузии. Затем модуль маршрутизации идентификатора комбинирует и распределяет эти встраивания адаптивно в соответствующие области в синтезированном изображении, достигая настройки одного и нескольких идентификаторов. Благодаря тщательно разработанной двухэтапной схеме обучения UniPortrait достигает превосходных результатов как в настройке одного, так и нескольких идентификаторов. Количественные и качественные эксперименты демонстрируют преимущества нашего метода перед существующими подходами, а также его хорошую масштабируемость, например, универсальную совместимость с существующими инструментами управления генерацией. Страница проекта находится по адресу https://aigcdesigngroup.github.io/UniPortrait-Page/.

Ваш контекст не является массивом: раскрывая ограничения случайного доступа в трансформерах
Your Context Is Not an Array: Unveiling Random Access Limitations in Transformers

Aug 10

ByMohammadReza Ebrahimi, Sunny Panchal, Roland Memisevic

Несмотря на свои недавние успехи, модели языка на основе трансформеров показывают удивительные режимы сбоя. Хорошо известным примером таких режимов сбоя является их неспособность к обобщению по длине: решение примеров проблем во время вывода, которые длиннее тех, что были увидены во время обучения. В данной работе мы дополнительно исследуем коренную причину этого сбоя, выполнив подробный анализ поведения модели на простой задаче четности. Наш анализ предполагает, что неудачи в обобщении по длине тесно связаны с неспособностью модели выполнять случайные обращения к памяти в пределах своего окна контекста. Мы представляем подтверждающие доказательства этой гипотезы, продемонстрировав эффективность методологий, которые обходят необходимость индексации или позволяют косвенный случайный доступ к токенам через адресацию на основе содержания. Мы также показываем, где и как неспособность выполнять случайный доступ к памяти проявляется через визуализацию карт внимания.

Трансформер тела: использование роботизированного воплощения для обучения стратегиям
Body Transformer: Leveraging Robot Embodiment for Policy Learning

Aug 12

ByCarmelo Sferrazza, Dun-Ming Huang, Fangchen Liu, Jongmin Lee, Pieter Abbeel

В последние годы архитектура трансформера стала фактическим стандартом для алгоритмов машинного обучения, применяемых в обработке естественного языка и компьютерного зрения. Несмотря на значительные доказательства успешного применения этой архитектуры в контексте обучения роботов, мы утверждаем, что обычные трансформеры не полностью используют структуру проблемы обучения роботов. Поэтому мы предлагаем Body Transformer (BoT), архитектуру, которая использует телесное воплощение робота, предоставляя индуктивный сдвиг, направляющий процесс обучения. Мы представляем тело робота как граф сенсоров и актуаторов и полагаемся на маскированное внимание для сбора информации по всей архитектуре. Результирующая архитектура превосходит обычный трансформер, а также классический многослойный персептрон, с точки зрения завершения задач, масштабируемости и вычислительной эффективности при представлении как имитационных, так и обучающих политик на основе обучения с подкреплением. Дополнительные материалы, включая открытый исходный код, доступны по адресу https://sferrazza.cc/bot_site.