Ежедневно отобранные исследовательские статьи по ИИ с переводами
Генерация 3D-объектов из текста, целью которой является создание реалистичных 3D-моделей на основе текстовых запросов, привлекает значительное внимание сообщества компьютерного зрения. Хотя несколько существующих работ достигли впечатляющих результатов в этой задаче, они в основном полагаются на трудоемкий процесс оптимизации. В частности, эти методы оптимизируют нейронное поле с нуля для каждого текстового запроса, занимая примерно час или более для генерации одного объекта. Эти высокие и повторяющиеся затраты на обучение препятствуют их практическому применению. В данной статье мы предлагаем новый фреймворк для быстрой генерации 3D-объектов из текста, названный Instant3D. После обучения Instant3D способен создавать 3D-объект для нового текстового запроса менее чем за одну секунду с помощью однократного прохода через прямую нейронную сеть. Мы достигаем такой впечатляющей скорости за счет разработки новой сети, которая напрямую строит 3D-триплан из текстового запроса. Основное новшество нашего Instant3D заключается в исследовании стратегий эффективного внедрения текстовых условий в сеть. Кроме того, мы предлагаем простую, но эффективную функцию активации, масштабированную сигмоиду, которая заменяет оригинальную сигмоиду и ускоряет сходимость обучения более чем в десять раз. Наконец, для решения проблемы Януса (многоголовости) в генерации 3D-объектов мы предлагаем адаптивный алгоритм Perp-Neg, который может динамически регулировать масштабы отрицания концепций в зависимости от степени проблемы Януса во время обучения, эффективно уменьшая эффект многоголовости. Многочисленные эксперименты на различных эталонных наборах данных демонстрируют, что предложенный алгоритм превосходит современные методы как качественно, так и количественно, при этом достигая значительно лучшей эффективности. Страница проекта доступна по адресу https://ming1993li.github.io/Instant3DProj.
Последние достижения в области генерации 3D-объектов в открытом мире впечатляют, при этом методы преобразования изображений в 3D предлагают более точный контроль по сравнению с их аналогами, работающими с текстовыми описаниями. Однако большинство существующих моделей не способны одновременно обеспечивать высокую скорость генерации и точное соответствие входным изображениям — два ключевых параметра, необходимых для практического применения. В данной статье мы представляем One-2-3-45++, инновационный метод, который преобразует одно изображение в детализированный текстурированный 3D-меш примерно за одну минуту. Наш подход направлен на полное использование обширных знаний, заложенных в 2D диффузионных моделях, а также на применение ограниченных, но ценных 3D-данных. Это достигается за счет первоначальной тонкой настройки 2D диффузионной модели для генерации согласованных многовидовых изображений, с последующим преобразованием этих изображений в 3D с помощью многовидовых условных 3D диффузионных моделей. Многочисленные экспериментальные оценки демонстрируют, что наш метод способен создавать высококачественные и разнообразные 3D-объекты, которые точно отражают исходное входное изображение. Страница проекта: https://sudo-ai-3d.github.io/One2345plus_page.
Беглость и креативность крупных предобученных языковых моделей (LLM) привели к их широкому использованию, иногда даже в качестве замены традиционным поисковым системам. Однако языковые модели склонны делать убедительные, но фактически неточные утверждения, часто называемые «галлюцинациями». Эти ошибки могут непреднамеренно распространять дезинформацию или вредно поддерживать заблуждения. Более того, ручная проверка фактов в ответах моделей — это трудоемкий процесс, что делает метки достоверности, созданные человеком, дорогостоящими. В данной работе мы дообучаем языковые модели для повышения их фактической точности без использования человеческих меток, ориентируясь на более открытые сценарии генерации, чем в предыдущих исследованиях. Для этого мы используем два ключевых недавних достижения в области NLP. Во-первых, несколько работ предложили методы оценки фактической точности открытого текста путем измерения его согласованности с внешней базой знаний или просто с использованием оценок уверенности крупной модели. Во-вторых, алгоритм оптимизации прямых предпочтений позволяет легко дообучать языковые модели на целях, отличных от контролируемого подражания, используя ранжирование предпочтений среди возможных ответов модели. Мы показываем, что обучение на автоматически сгенерированных ранжированиях предпочтений по фактической точности, созданных либо с помощью существующих систем поиска, либо нашего нового подхода без использования поиска, значительно улучшает фактическую точность (процент правильных утверждений) модели Llama-2 на непересекающихся темах по сравнению с RLHF или стратегиями декодирования, направленными на повышение точности. На масштабе 7B по сравнению с Llama-2-chat мы наблюдаем снижение частоты фактических ошибок на 58% и 40% при генерации биографий и ответах на медицинские вопросы соответственно.
В данной работе мы проводим систематический обзор последних достижений в области обработки кода с использованием языковых моделей, охватывая более 50 моделей, 30+ задач оценки и 500 связанных исследований. Мы разделяем модели обработки кода на общие языковые модели, представленные семейством GPT, и специализированные модели, которые предварительно обучаются на коде, часто с адаптированными целями. Мы обсуждаем взаимосвязи и различия между этими моделями, а также выделяем исторический переход от статистических моделей и рекуррентных нейронных сетей (RNN) к предобученным трансформерам и крупным языковым моделям (LLM), что в точности повторяет путь, пройденный в области обработки естественного языка (NLP). Мы также рассматриваем специфические для кода элементы, такие как абстрактные синтаксические деревья (AST), графы потока управления (CFG) и модульные тесты, а также их применение при обучении языковых моделей для кода, и определяем ключевые вызовы и потенциальные направления будущих исследований в этой области. Мы поддерживаем обзор в открытом и актуальном состоянии на GitHub-репозитории по адресу https://github.com/codefuse-ai/Awesome-Code-LLM.
Одной из ключевых способностей крупных языковых моделей (LLM) является выполнение инструкций на естественном языке. Однако оценка таких способностей не стандартизирована: человеческая оценка является дорогостоящей, медленной и не может быть объективно воспроизведена, в то время как автоматическая оценка на основе LLM потенциально может быть предвзятой или ограниченной способностями модели-оценщика. Чтобы преодолеть эти проблемы, мы представляем Instruction-Following Eval (IFEval) — метод оценки крупных языковых моделей. IFEval — это простой и легко воспроизводимый бенчмарк для оценки. Он фокусируется на наборе «проверяемых инструкций», таких как «напишите более 400 слов» или «упомяните ключевое слово AI не менее 3 раз». Мы выделили 25 типов таких проверяемых инструкций и создали около 500 промптов, каждый из которых содержит одну или несколько проверяемых инструкций. Мы демонстрируем результаты оценки двух широко доступных на рынке LLM. Наш код и данные доступны по адресу: https://github.com/google-research/google-research/tree/master/instruction_following_eval.
Мы демонстрируем ситуацию, в которой крупные языковые модели, обученные быть полезными, безопасными и честными, могут проявлять нежелательное поведение и стратегически обманывать своих пользователей относительно этого поведения, не получая явных инструкций для этого. Конкретно, мы развертываем GPT-4 в качестве агента в реалистичной симулированной среде, где он выступает в роли автономного агента для торговли акциями. В этой среде модель получает инсайдерскую информацию о выгодной сделке с акциями и действует на её основе, несмотря на осознание того, что инсайдерская торговля не одобряется руководством компании. При отчёте своему менеджеру модель последовательно скрывает истинные причины своего торгового решения. Мы проводим краткое исследование того, как это поведение изменяется при различных изменениях условий, таких как ограничение доступа модели к черновику для рассуждений, попытки предотвратить нежелательное поведение путём изменения системных инструкций, изменение уровня давления на модель, варьирование воспринимаемого риска быть пойманным, а также внесение других простых изменений в среду. Насколько нам известно, это первая демонстрация того, как крупные языковые модели, обученные быть полезными, безопасными и честными, стратегически обманывают своих пользователей в реалистичной ситуации без прямых инструкций или обучения обману.
В данной работе мы представляем FastCoT, модель-независимый фреймворк, основанный на параллельном декодировании без необходимости дополнительного обучения вспомогательной модели или внесения изменений в саму большую языковую модель (LLM). FastCoT использует контекстное окно переменного размера, которое изменяется в зависимости от позиции, для одновременного выполнения параллельного и авторегрессивного декодирования, что позволяет полностью задействовать вычислительные ресурсы GPU. В FastCoT часть, отвечающая за параллельное декодирование, предоставляет LLM быстрый обзор будущего, состоящего из приблизительных токенов, что может приводить к более быстрым ответам по сравнению с обычным авторегрессивным декодированием, используемым в каузальных трансформерах. Мы также предлагаем реализацию параллельного декодирования внутри LLM, которая поддерживает генерацию KV-кэша и пакетную обработку. В ходе обширных экспериментов мы демонстрируем, что FastCoT сокращает время вывода почти на 20% при незначительном снижении производительности по сравнению с традиционным подходом. Кроме того, мы показываем, что размер контекстного окна демонстрирует значительную устойчивость для различных задач.
Крупные языковые модели (LLM) стали важным компонентом во многих приложениях машинного обучения. Однако стандартные подходы к обучению LLM требуют использования большого числа тесно связанных акселераторов, где устройства обмениваются градиентами и другими промежуточными состояниями на каждом шаге оптимизации. Хотя создание и поддержка единого вычислительного кластера, содержащего множество акселераторов, является сложной задачей, может быть проще найти несколько вычислительных кластеров, каждый из которых содержит меньшее количество устройств. В данной работе мы предлагаем распределенный алгоритм оптимизации, Distributed Low-Communication (DiLoCo), который позволяет обучать языковые модели на изолированных группах устройств с плохой связью. Этот подход представляет собой вариант федеративного усреднения, где количество внутренних шагов велико, внутренний оптимизатор — AdamW, а внешний оптимизатор — метод Нестерова. На широко используемом наборе данных C4 мы показываем, что DiLoCo на 8 рабочих узлах работает так же эффективно, как полностью синхронная оптимизация, при этом обмениваясь данными в 500 раз меньше. DiLoCo демонстрирует высокую устойчивость к распределению данных на каждом рабочем узле. Он также устойчив к недоступности ресурсов с течением времени и, наоборот, может плавно использовать ресурсы, которые становятся доступными в процессе обучения.
В последние годы крупные языковые модели (LLM) продемонстрировали впечатляющие способности к генерации текста, но могут ли они оценивать качество своих собственных результатов? Популярная концепция, известная как самоусовершенствование, предполагает, что LLM способны обнаруживать и исправлять ошибки в своих результатах, если их об этом попросить. Однако недавние эмпирические данные указывают на обратное, свидетельствуя о том, что LLM часто испытывают трудности с точным выявлением ошибок, когда требуется логическое рассуждение. Для решения этой проблемы мы предлагаем подход к рассуждению с усовершенствованием под названием ART: Ask, Refine, and Trust (Спроси, Усовершенствуй, Доверься), который задает необходимые вопросы для определения, когда LLM следует усовершенствовать свой вывод, и либо подтверждает, либо удерживает доверие к этому усовершенствованию, ранжируя его и первоначальный прогноз. На двух задачах многошагового рассуждения — математических текстовых задачах (GSM8K) и ответах на вопросы (StrategyQA) — ART достигает улучшения производительности на +5 баллов по сравнению с базовыми методами самоусовершенствования, при этом используя значительно меньшую модель в качестве принимающего решения компонента. Мы также демонстрируем преимущество использования меньших моделей для принятия решений об усовершенствовании как экономически эффективной альтернативы тонкой настройке более крупной модели.
В последнее время модели обработки аудио, способные следовать инструкциям, привлекли широкое внимание благодаря их возможностям взаимодействия с человеком через аудио. Однако отсутствие предварительно обученных аудио-моделей, способных обрабатывать разнообразные типы аудио и задачи, сдерживало прогресс в этой области. В результате большинство существующих работ поддерживают лишь ограниченный набор возможностей взаимодействия. В данной статье мы представляем модель Qwen-Audio, преодолевая это ограничение путем масштабирования предварительного обучения на аудио и текстовых данных для охвата более 30 задач и различных типов аудио, таких как человеческая речь, природные звуки, музыка и песни, что способствует развитию универсальных способностей понимания аудио. Однако прямое совместное обучение на всех задачах и наборах данных может привести к проблемам интерференции, поскольку текстовые метки, связанные с разными наборами данных, значительно различаются из-за различий в фокусе задач, языке, детализации аннотаций и структуре текста. Чтобы преодолеть проблему интерференции "один ко многим", мы тщательно разработали многоцелевую структуру обучения, используя последовательность иерархических тегов для декодера, что способствует обмену знаниями и предотвращает интерференцию через общие и специфичные теги соответственно. Примечательно, что Qwen-Audio демонстрирует впечатляющие результаты на различных эталонных задачах без необходимости дополнительной настройки под конкретные задачи, превосходя аналогичные модели. На основе возможностей Qwen-Audio мы также разработали Qwen-Audio-Chat, который позволяет обрабатывать различные аудио- и текстовые входные данные, поддерживая многоходовые диалоги и различные сценарии, ориентированные на аудио.
Красное тестирование (red-teaming) — это распространённая практика для снижения небезопасного поведения в больших языковых моделях (LLM), которая включает тщательную оценку LLM для выявления потенциальных уязвимостей и их устранение с помощью ответственных и точных ответов. Хотя ручное красное тестирование эффективно, оно требует значительных затрат, а существующие автоматизированные методы обычно выявляют риски безопасности, не устраняя их. В данной статье мы предлагаем метод многораундового автоматического красного тестирования (MART), который сочетает автоматическое создание адверсарных запросов и генерацию безопасных ответов, значительно повышая масштабируемость красного тестирования и безопасность целевой LLM. В частности, адверсарная LLM и целевая LLM взаимодействуют друг с другом итеративно: адверсарная LLM стремится создавать сложные запросы, которые вызывают небезопасные ответы у целевой LLM, в то время как целевая LLM дообучается на данных, согласованных с безопасностью, на основе этих адверсарных запросов. В каждом раунде адверсарная LLM разрабатывает более эффективные атаки на обновлённую целевую LLM, а целевая LLM также улучшается за счёт дообучения на безопасность. На бенчмарках адверсарных запросов уровень нарушений LLM с ограниченной настройкой на безопасность снижается до 84,7% после 4 раундов MART, достигая сопоставимых результатов с LLM, обученными на обширных адверсарных запросах. Примечательно, что полезность модели на неадверсарных запросах остаётся стабильной на протяжении итераций, что указывает на сохранение высокой производительности целевой LLM в выполнении инструкций.