Ежедневно отобранные исследовательские статьи по ИИ с переводами
Персонализация моделей генерации изображений по тексту направлена на внедрение пользовательского концепта в модель, что позволяет синтезировать его в различных контекстах. Однако современные методы в основном сосредоточены на изучении одного концепта из нескольких изображений с вариациями фона и поз, и испытывают трудности при адаптации к другим сценариям. В данной работе мы представляем задачу декомпозиции текстовой сцены: для одного изображения сцены, которое может содержать несколько концептов, мы стремимся извлечь отдельный текстовый токен для каждого концепта, обеспечивая детализированный контроль над генерируемыми сценами. Для этого мы предлагаем дополнять входное изображение масками, указывающими на наличие целевых концептов. Эти маски могут быть предоставлены пользователем или автоматически сгенерированы предварительно обученной моделью сегментации. Затем мы представляем новый двухэтапный процесс кастомизации, который оптимизирует набор специализированных текстовых вложений (дескрипторов), а также веса модели, достигая тонкого баланса между точным воспроизведением концептов и предотвращением переобучения. Мы используем маскированную диффузионную функцию потерь, чтобы позволить дескрипторам генерировать свои назначенные концепты, дополняя её новой функцией потерь на картах кросс-внимания для предотвращения переплетения. Также мы вводим стратегию обучения union-sampling, направленную на улучшение способности комбинирования нескольких концептов в генерируемых изображениях. Мы используем несколько автоматических метрик для количественного сравнения нашего метода с несколькими базовыми подходами и дополнительно подтверждаем результаты с помощью пользовательского исследования. Наконец, мы демонстрируем несколько приложений нашего метода. Страница проекта доступна по адресу: https://omriavrahami.com/break-a-scene/
Архитектура Transformer продемонстрировала впечатляющие результаты в различных исследовательских областях и стала основой многих моделей нейронных сетей. Однако понимание того, как она работает, остается ограниченным. В частности, остается загадкой, как представление формируется в процессе градиентного обучения при использовании простой функции потерь для предсказания. В данной работе мы анализируем динамику обучения с использованием стохастического градиентного спуска (SGD) для однослойного Transformer, состоящего из одного слоя самовнимания и одного декодирующего слоя, в задаче предсказания следующего токена, придерживаясь математической строгости. Мы раскрываем "черный ящик" динамического процесса, в котором слой самовнимания комбинирует входные токены, и выявляем природу лежащей в основе индуктивной предвзятости. Более конкретно, при допущениях (а) отсутствия позиционного кодирования, (б) длинной входной последовательности и (в) более быстрого обучения декодирующего слоя по сравнению со слоем самовнимания, мы доказываем, что самовнимание действует как дискриминативный алгоритм сканирования: начиная с равномерного внимания, оно постепенно уделяет больше внимания уникальным ключевым токенам для предсказания конкретного следующего токена и меньше внимания общим ключевым токенам, которые встречаются для разных следующих токенов. Среди уникальных токенов оно постепенно снижает веса внимания, следуя порядку от низкой до высокой совместной встречаемости ключевого и запрашиваемого токенов в обучающей выборке. Интересно, что этот процесс не приводит к ситуации "победитель получает все", а замедляется из-за фазового перехода, который контролируется скоростями обучения двух слоев, оставляя (почти) фиксированную комбинацию токенов. Мы проверяем эту динамику "сканирования и фиксации" на синтетических и реальных данных (WikiText).
Последние исследования демонстрируют потенциал улучшения способности крупных языковых моделей (LLM) решать задачи за счет использования внешних инструментов. Однако предыдущие работы в этом направлении зависят от наличия существующих инструментов. В данной работе мы делаем первый шаг к устранению этой зависимости, предлагая замкнутую структуру, называемую LLM как создатели инструментов (LATM), где LLM самостоятельно создают повторно используемые инструменты для решения задач. Наш подход состоит из двух ключевых этапов: 1) создание инструментов: LLM выступает в роли создателя инструментов, разрабатывая их для конкретных задач, где инструмент реализуется как утилитарная функция на Python. 2) использование инструментов: LLM выступает в роли пользователя инструментов, применяя инструмент, созданный разработчиком, для решения задач. Пользователь инструментов может быть как той же самой, так и другой LLM по сравнению с создателем инструментов. Создание инструментов позволяет LLM непрерывно генерировать инструменты, которые могут применяться к различным запросам, так что будущие запросы могут вызывать соответствующие API, когда это полезно для решения задач. Кроме того, разделение труда между LLM на этапах создания и использования инструментов открывает возможность достижения экономической эффективности без ухудшения качества создаваемых инструментов и решений задач. Например, учитывая, что создание инструментов требует более сложных возможностей, чем их использование, мы можем применять мощную, но ресурсоемкую модель в качестве создателя инструментов и легковесную, но экономически эффективную модель в качестве пользователя инструментов. Мы подтверждаем эффективность нашего подхода на множестве сложных задач на рассуждение, включая задачи из Big-Bench. С использованием GPT-4 в качестве создателя инструментов и GPT-3.5 в качестве пользователя инструментов, LATM может достичь производительности, сопоставимой с использованием GPT-4 для обоих этапов, при этом значительно снижая затраты на вывод.
В данной статье мы представляем ControlVideo — новый метод редактирования видео на основе текста. Используя возможности моделей диффузии для генерации изображений из текста и ControlNet, ControlVideo стремится повысить точность и временную согласованность видео, соответствующих заданному тексту, при сохранении структуры исходного видео. Это достигается за счет включения дополнительных условий, таких как карты границ, тонкой настройки ключевых кадров и временного внимания на паре исходное видео-текст с использованием тщательно разработанных стратегий. Проведено детальное исследование архитектуры ControlVideo, чтобы способствовать дальнейшим исследованиям в области однослойной настройки моделей диффузии для видео. Количественные результаты показывают, что ControlVideo превосходит ряд конкурентоспособных базовых методов по точности и согласованности, оставаясь при этом в соответствии с текстовым запросом. Кроме того, метод создает видео с высокой визуальной реалистичностью и точностью по отношению к исходному контенту, демонстрируя гибкость в использовании управляющих элементов, содержащих различную степень информации об исходном видео, а также потенциал для комбинирования нескольких управляющих элементов. Страница проекта доступна по адресу https://ml.cs.tsinghua.edu.cn/controlvideo/{https://ml.cs.tsinghua.edu.cn/controlvideo/}.
Идеи Минского о "сообществе разума" и Шмидхубера о "обучении мышлению" вдохновляют создание разнообразных сообществ крупных мультимодальных нейронных сетей (НС), которые решают задачи, взаимодействуя друг с другом в процессе "мозгового штурма". Современные реализации таких сообществ разума на основе НС включают крупные языковые модели (LLM) и других экспертов на основе НС, взаимодействующих через интерфейс естественного языка. Таким образом, они преодолевают ограничения отдельных LLM, улучшая мультимодальные рассуждения в условиях zero-shot. В этих сообществах разума на основе естественного языка (NLSOM) новые агенты — все использующие один и тот же универсальный символический язык — легко добавляются модульным образом. Чтобы продемонстрировать мощь NLSOM, мы собираем и экспериментируем с несколькими из них (до 129 участников), используя мозговые штурмы для решения практических задач ИИ: визуального ответа на вопросы, генерации подписей к изображениям, синтеза изображений из текста, 3D-генерации, эгоцентрического поиска, воплощённого ИИ и решения задач на основе языка. Мы рассматриваем это как отправную точку для создания гораздо более крупных NLSOM с миллиардами агентов, среди которых могут быть и люди. С появлением таких масштабных сообществ разнородных разумов многие новые исследовательские вопросы внезапно стали ключевыми для будущего искусственного интеллекта. Какой должна быть социальная структура NLSOM? Каковы будут (не)достатки монархической структуры по сравнению с демократической? Как можно использовать принципы экономики НС для максимизации общего вознаграждения в NLSOM, основанном на обучении с подкреплением? В этой работе мы определяем, обсуждаем и пытаемся ответить на некоторые из этих вопросов.
Социальная согласованность в системах искусственного интеллекта направлена на обеспечение того, чтобы эти модели действовали в соответствии с установленными общественными ценностями. Однако, в отличие от людей, которые достигают консенсуса в ценностных суждениях через социальное взаимодействие, современные языковые модели (ЯМ) обучаются жестко воспроизводить свой обучающий корпус в изоляции, что приводит к недостаточной обобщаемости в незнакомых сценариях и уязвимости к атакам со стороны злоумышленников. В данной работе представлена новая парадигма обучения, которая позволяет ЯМ обучаться на основе смоделированных социальных взаимодействий. По сравнению с существующими методиками, наш подход значительно более масштабируем и эффективен, демонстрируя превосходные результаты в тестах на согласованность и в оценках людей. Этот сдвиг парадигмы в обучении ЯМ приближает нас на шаг к созданию систем искусственного интеллекта, которые могут устойчиво и точно отражать социальные нормы и ценности.
Обучение на основе обратной связи от человека продемонстрировало свою эффективность в улучшении моделей генерации изображений по текстовым описаниям. Эти методы сначала обучают функцию вознаграждения, которая учитывает предпочтения людей в рамках задачи, а затем улучшают модели на основе этой функции. Несмотря на то, что относительно простые подходы (например, отбор с отклонением на основе оценок вознаграждения) уже были исследованы, тонкая настройка моделей генерации изображений с использованием функции вознаграждения остается сложной задачей. В данной работе мы предлагаем использовать онлайн-обучение с подкреплением (RL) для тонкой настройки моделей генерации изображений. Мы сосредотачиваемся на диффузионных моделях, определяя задачу тонкой настройки как проблему RL и обновляя предварительно обученные диффузионные модели генерации изображений с использованием градиента политики для максимизации вознаграждения, обученного на основе обратной связи. Наш подход, названный DPOK, интегрирует оптимизацию политики с регуляризацией по КЛ-дивергенции. Мы проводим анализ регуляризации по КЛ-дивергенции как для тонкой настройки с использованием RL, так и для тонкой настройки с учителем. В наших экспериментах мы показываем, что DPOK в целом превосходит тонкую настройку с учителем как по соответствию изображения и текста, так и по качеству изображений.
По мере того как диалоговые агенты становятся всё более человекообразными в своих проявлениях, крайне важно разработать эффективные способы описания их поведения на высоком уровне, не впадая в ловушку антропоморфизма. В данной статье мы выдвигаем на первый план концепцию ролевой игры. Рассмотрение поведения диалоговых агентов через призму ролевой игры позволяет нам использовать знакомые термины народной психологии, не приписывая языковым моделям человеческие характеристики, которых у них на самом деле нет. Таким образом рассматриваются два важных случая поведения диалоговых агентов: (кажущийся) обман и (кажущееся) самосознание.
Мы представляем PandaGPT — подход, позволяющий расширить возможности крупных языковых моделей за счет визуальных и аудиоинструкций. Наши пилотные эксперименты показывают, что PandaGPT способен выполнять сложные задачи, такие как генерация детальных описаний изображений, создание историй, вдохновленных видео, и ответы на вопросы, связанные с аудио. Более интересно то, что PandaGPT может одновременно обрабатывать мультимодальные входные данные и естественным образом объединять их семантику. Например, PandaGPT может связывать, как объекты выглядят на изображении/видео и как они звучат в аудио. Для этого PandaGPT объединяет мультимодальные энкодеры из ImageBind и крупные языковые модели из Vicuna. Примечательно, что для обучения PandaGPT требуются только выровненные пары изображение-текст. Благодаря мощным возможностям ImageBind встраивать данные из различных модальностей в одно пространство, PandaGPT демонстрирует эмерджентные, то есть zero-shot, кросс-модальные поведенческие паттерны для данных, отличных от изображений и текста (например, видео, аудио, данные глубины, тепловые и IMU). Мы надеемся, что PandaGPT станет первым шагом на пути к созданию ИИ общего назначения (AGI), способного воспринимать и понимать входные данные из различных модальностей целостно, как это делают люди. Страница нашего проекта доступна по адресу https://panda-gpt.github.io/.
Агенты принятия решений на основе больших языковых моделей (LLM) продемонстрировали способность к обобщению в различных задачах. Однако их производительность зависит от огромных объемов данных и вычислительных ресурсов. Мы утверждаем, что эта неэффективность связана с феноменом забывания, при котором модель запоминает свои поведенческие паттерны в параметрах в процессе обучения. В результате обучение на новой задаче может ухудшить производительность модели на предыдущих задачах. В отличие от неявного механизма памяти LLM, человеческий мозг использует распределенное хранение памяти, что помогает эффективно управлять и организовывать множество навыков, смягчая феномен забывания. Вдохновленные этим, мы предлагаем модуль внутренней рабочей памяти для хранения, объединения и извлечения информации для различных последующих задач. Результаты оценки показывают, что предложенный метод повышает эффективность обучения и обобщение как в играх Atari, так и в задачах манипуляции объектами в метамире. Более того, мы демонстрируем, что тонкая настройка памяти дополнительно улучшает адаптивность предложенной архитектуры.
Мы представляем Three Towers (3T) — гибкий метод для улучшения контрастивного обучения моделей, работающих с визуальными и текстовыми данными, за счет включения предобученных классификаторов изображений. Хотя контрастивные модели обычно обучаются с нуля, недавно метод LiT (Zhai et al., 2022) продемонстрировал улучшение производительности за счет использования предобученных эмбеддингов классификаторов. Однако LiT напрямую заменяет башню изображений замороженными эмбеддингами, исключая потенциальные преимущества контрастивного обучения башни изображений. В 3T мы предлагаем более гибкую стратегию, которая позволяет башне изображений извлекать пользу как из предобученных эмбеддингов, так и из контрастивного обучения. Для этого мы вводим третью башню, содержащую замороженные предобученные эмбеддинги, и стимулируем согласование между этой третьей башней и основными башнями изображений и текста. Эмпирически 3T стабильно превосходит LiT и базовый подход CLIP, обучаемый с нуля, в задачах поиска. В задачах классификации 3T надежно улучшает результаты по сравнению с базовым подходом, обучаемым с нуля, и, хотя он уступает LiT для моделей, предобученных на JFT, он превосходит LiT для предобучения на ImageNet-21k и Places365.
Авторегрессионные языковые модели обучаются путем минимизации кросс-энтропии распределения модели Q относительно распределения данных P — то есть минимизации прямой кросс-энтропии, что эквивалентно методу максимального правдоподобия (MLE). Мы наблюдали, что модели, обученные таким образом, могут "чрезмерно обобщать", в том смысле, что они генерируют текст, не похожий на человеческий. Более того, мы считаем, что обратная кросс-энтропия, то есть кросс-энтропия P относительно Q, лучше отражает то, как человек оценивал бы текст, сгенерированный моделью. Поэтому мы предлагаем обучение с использованием MixCE — целевой функции, которая комбинирует прямую и обратную кросс-энтропии. Мы оцениваем модели, обученные с этой целевой функцией, на синтетических данных (где P известно) и реальных данных, и показываем, что полученные модели генерируют более качественный текст без использования сложных стратегий декодирования. Наш код и модели доступны по адресу https://github.com/bloomberg/mixce-acl2023.
Крупные языковые модели (LLM) трансформируют общество и проникают в разнообразные приложения. В результате LLM будут часто взаимодействовать с нами и другими агентами. Поэтому понимание того, как LLM ведут себя в интерактивных социальных условиях, имеет большую общественную ценность. В данной работе мы предлагаем использовать поведенческую теорию игр для изучения кооперативного и координационного поведения LLM. Для этого мы позволили различным LLM (GPT-3, GPT-3.5 и GPT-4) играть в конечные повторяющиеся игры друг с другом и с другими, человеко-подобными стратегиями. Наши результаты показывают, что LLM в целом хорошо справляются с такими задачами, а также выявляют устойчивые поведенческие паттерны. В большом наборе игр с двумя игроками и двумя стратегиями мы обнаружили, что LLM особенно эффективны в играх, где выгодно учитывать собственные интересы, например, в семействе итеративных дилемм заключенного. Однако они демонстрируют субоптимальное поведение в играх, требующих координации. Поэтому мы дополнительно сосредоточились на двух играх из этих различных семейств. В канонической итеративной дилемме заключенного мы обнаружили, что GPT-4 действует особенно непрощающе, всегда предавая после того, как другой агент предал всего один раз. В игре "Битва полов" мы выяснили, что GPT-4 не может соответствовать поведению простой конвенции чередования вариантов. Мы подтверждаем, что эти поведенческие паттерны устойчивы при проверке на надежность. Наконец, мы показываем, как поведение GPT-4 можно изменить, предоставляя дополнительную информацию о другом игроке, а также прося его предсказать действия другого игрока перед принятием решения. Эти результаты обогащают наше понимание социального поведения LLM и прокладывают путь к поведенческой теории игр для машин.
Трансформеры демонстрируют впечатляющие способности к обобщению на задачах с фиксированной длиной контекста. Однако они не способны обобщать на последовательности произвольной длины, даже для, казалось бы, простых задач, таких как дублирование строки. Более того, простое обучение на более длинных последовательностях неэффективно из-за квадратичной вычислительной сложности глобального механизма внимания. В данной работе мы показываем, что эта проблема связана с тем, что позиционные кодировки оказываются вне распределения для более длинных последовательностей (даже для относительных кодировок), и представляем новое семейство позиционных кодировок, способных преодолеть эту трудность. Конкретно, наша схема рандомизированных позиционных кодировок моделирует позиции более длинных последовательностей и случайным образом выбирает упорядоченное подмножество, соответствующее длине последовательности. Наше масштабное эмпирическое исследование 6000 моделей на 15 задачах алгоритмического рассуждения показывает, что наш метод позволяет трансформерам обобщать на последовательности невиданной длины (увеличивая точность на тестовых данных в среднем на 12,0%).
Токенные эмбеддинги, представляющие собой отображение дискретных лексических символов в непрерывные векторы, лежат в основе любой языковой модели (LM). Однако значения лексических символов также могут определяться и даже переопределяться их структурной ролью в длинном контексте. В данной статье мы задаемся вопросом: возможно ли создать языковую модель, которая будет эффективной без использования фиксированных токенных эмбеддингов? Такая модель должна полностью полагаться на совместное появление и повторение токенов в контексте, а не на априорную идентичность любого токена. Чтобы ответить на этот вопрос, мы изучаем лексически инвариантные языковые модели, которые не зависят от лексических символов и, следовательно, не требуют фиксированных токенных эмбеддингов на практике. Во-первых, мы доказываем, что можно построить лексически инвариантную LM, которая сходится к истинной языковой модели с равномерной скоростью, полиномиальной по длине контекста, с постоянным множителем, который является сублинейным по размеру словаря. Во-вторых, чтобы построить такую модель, мы просто кодируем токены с использованием случайных гауссовских векторов, так что каждый токен отображается на одно и то же представление внутри каждой последовательности, но на разные представления между последовательностями. Эмпирически мы демонстрируем, что такая модель действительно может достичь перплексии, сравнимой с перплексией стандартной языковой модели, при условии достаточно длинного контекста. Мы также исследуем два свойства лексически инвариантных языковых моделей: во-первых, при работе с текстом, сгенерированным из подстановочного шифра английского языка, модель неявно реализует байесовское дешифрование в контексте и с высокой точностью выводит отображение на реальные токены. Во-вторых, она демонстрирует в среднем в 4 раза лучшую точность в синтетических задачах рассуждения в контексте. Наконец, мы обсуждаем регуляризацию стандартных языковых моделей в сторону лексической инвариантности и потенциальные практические применения.
Крупные языковые модели (LLM), такие как GPT-3, стали универсальными моделями, способными решать множество задач генерации или понимания естественного языка. В задаче машинного перевода (MT) несколько исследований изучали механизмы немногих примеров (few-shot prompting) для получения более качественных переводов с помощью LLM. Однако до сих пор сравнительно мало внимания уделялось тому, как такие переводы качественно отличаются от переводов, создаваемых стандартными моделями нейронного машинного перевода (NMT). В данной работе мы исследуем эти различия с точки зрения буквальности переводов, создаваемых двумя системами. Используя метрики буквальности, включающие выравнивание слов и монотонность, мы обнаруживаем, что переводы с английского языка (E-X), выполненные GPT, как правило, менее буквальны, при этом демонстрируя схожие или лучшие показатели по метрикам качества MT. Мы показываем, что этот вывод подтверждается и в человеческих оценках. Затем мы демонстрируем, что эти различия особенно заметны при переводе предложений, содержащих идиоматические выражения.
Мы представляем Backpacks: новую нейронную архитектуру, которая сочетает высокую производительность моделирования с интерфейсом для интерпретируемости и контроля. Backpacks обучают несколько неконтекстуальных векторов смыслов для каждого слова в словаре и представляют слово в последовательности как контекстно-зависимую, неотрицательную линейную комбинацию векторов смыслов в этой последовательности. Мы обнаруживаем, что после обучения векторы смыслов специализируются, каждый кодируя различные аспекты слова. Мы можем интерпретировать вектор смысла, анализируя его (неконтекстуальную, линейную) проекцию на выходное пространство, и вмешиваться в эти интерпретируемые элементы, чтобы изменять поведение модели предсказуемым образом. Мы обучаем языковую модель Backpack с 170 миллионами параметров на данных OpenWebText, достигая уровня потерь, сравнимого с GPT-2 small (124 миллиона параметров) Transformer. На оценках лексического сходства мы обнаруживаем, что векторы смыслов Backpack превосходят даже вложения слов Transformer LM с 6 миллиардами параметров. Наконец, мы представляем простые алгоритмы, которые вмешиваются в векторы смыслов для выполнения контролируемой генерации текста и устранения смещений. Например, мы можем редактировать словарь смыслов, чтобы он больше склонялся к определенной теме, или локализовать источник гендерного смещения в векторе смысла и глобально подавить этот смысл.
Обучение в контексте, способность модели обучаться на входных примерах на лету без необходимости обновления весов, является определяющей характеристикой крупных языковых моделей. В данной работе мы следуем подходу, предложенному в (Garg et al., 2022), чтобы лучше понять общность и ограничения обучения в контексте через призму простой, но фундаментальной задачи линейной регрессии. Ключевой вопрос, на который мы стремимся ответить, заключается в следующем: являются ли трансформеры более эффективными, чем некоторые естественные и более простые архитектуры, в выполнении обучения в контексте при различных сдвигах распределения? Для сравнения трансформеров мы предлагаем использовать простую архитектуру, основанную на множественных многослойных перцептронах (MLP). Мы обнаруживаем, что как трансформеры, так и множественные MLP демонстрируют обучение в контексте при оценках в рамках распределения, но трансформеры более точно имитируют производительность метода наименьших квадратов (OLS). Трансформеры также проявляют большую устойчивость к умеренным сдвигам распределения, в то время как множественные MLP дают сбои. Однако при сильных сдвигах распределения способности к обучению в контексте у обеих моделей снижаются.
Широко распространено мнение, что наиболее мощные языковые модели (LM) полагаются на комбинацию огромного масштаба, обучающих данных и обратной связи от человека для выполнения специализированных задач, таких как суммаризация и перефразирование, без какого-либо контроля. В данной статье мы утверждаем, что языковые модели могут научиться суммаризировать и перефразировать предложения без использования этих трех факторов. Мы представляем метод Impossible Distillation (Невозможная Дистилляция) — фреймворк, который дистиллирует набор данных для конкретной задачи непосредственно из готовой языковой модели, даже если сама модель не способна надежно решать эту задачу. Обучая студенческую модель на сгенерированном наборе данных и усиливая её возможности через само-дистилляцию, наш метод позволяет получить высококачественную модель и набор данных из низкокачественной учительской модели, без необходимости масштабирования или контроля. С помощью Impossible Distillation мы смогли дистиллировать модель на порядок меньшего размера (всего 770 млн параметров), которая превосходит GPT-3 с 175 млрд параметров как по качеству, так и по управляемости, что подтверждается автоматическими и человеческими оценками. Кроме того, в качестве полезного побочного продукта нашего подхода мы получаем DIMSUM+ — высококачественный набор данных, содержащий 3,4 млн суммаризированных и перефразированных предложений. Наши анализы показывают, что этот набор данных, будучи полностью сгенерированным языковой моделью, более разнообразен и эффективен для обобщения на неизвестные домены, чем все наборы данных, созданные человеком, включая Gigaword с 4 млн образцов.
Последние достижения в области генерации изображений по тексту позволили добиться значительного прогресса в генерации 3D-форм в условиях нулевого сэмплинга. Это стало возможным благодаря методике, называемой дистилляцией оценок, которая использует предварительно обученные диффузионные модели для генерации изображений по тексту с целью оптимизации параметров 3D-нейронного представления, например, Neural Radiance Field (NeRF). Несмотря на обнадеживающие результаты, существующие методы часто не способны сохранять геометрию сложных форм, таких как человеческое тело. Для решения этой проблемы мы представляем ZeroAvatar — метод, который вводит явный приоритет 3D-модели человеческого тела в процесс оптимизации. В частности, мы сначала оцениваем и уточняем параметры параметрической модели человеческого тела на основе одного изображения. Затем в процессе оптимизации мы используем позированную параметрическую модель в качестве дополнительного геометрического ограничения для регуляризации диффузионной модели, а также базового поля плотности. Наконец, мы предлагаем термин регуляризации текстуры, основанный на UV-координатах, чтобы дополнительно направлять завершение текстуры на невидимых частях тела. Мы демонстрируем, что ZeroAvatar значительно повышает устойчивость и 3D-согласованность оптимизации при генерации 3D-аватаров на основе изображений, превосходя существующие методы нулевого сэмплинга для преобразования изображений в 3D.
В большинстве современных исследований большие языковые модели (LLM) способны выполнять задачи рассуждения, генерируя цепочки мыслей под руководством специфических промптов. Однако всё ещё существует значительный разрыв между их способностью решать сложные задачи рассуждения и аналогичной способностью человека. В настоящее время большинство подходов сосредоточено на цепочках мыслей (COT) и использовании инструментов, не учитывая применение человеческих когнитивных структур. Известно, что при столкновении со сложными задачами рассуждения люди обычно задействуют различные когнитивные способности и взаимодействуют с инструментами, знаниями и информацией из внешней среды для выполнения сложных задач. В данной статье представлена новая интеллектуальная структура, названная OlaGPT. OlaGPT тщательно изучила когнитивную архитектуру и предлагает моделировать определённые аспекты человеческого познания. Эта структура включает аппроксимацию различных когнитивных модулей, таких как внимание, память, рассуждение, обучение, а также соответствующие механизмы планирования и принятия решений. Вдохновлённая активным механизмом обучения человека, она предлагает учебный модуль для записи предыдущих ошибок и экспертных мнений, а также динамического обращения к ним для усиления способности решать аналогичные задачи. В статье также описаны распространённые эффективные структуры рассуждения, используемые человеком для решения задач, и разработаны соответствующие шаблоны цепочек мыслей (COT). Предложен комплексный механизм принятия решений для максимизации точности модели. Эффективность OlaGPT была строго оценена на нескольких наборах данных для рассуждения, и результаты экспериментов показывают, что OlaGPT превосходит современные эталоны, демонстрируя превосходную производительность. Наша реализация OlaGPT доступна на GitHub: https://github.com/oladata-team/OlaGPT.