Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем StdGEN, инновационный конвейер для создания семантически декомпозированных трехмерных персонажей высокого качества из одиночных изображений, обеспечивая широкие возможности применения в виртуальной реальности, играх и киноиндустрии и т. д. В отличие от предыдущих методов, которые сталкиваются с ограниченной декомпозируемостью, недостаточным качеством и длительными временами оптимизации, StdGEN обладает декомпозируемостью, эффективностью и эффективностью; т.е. он генерирует сложные детализированные трехмерные персонажи с разделенными семантическими компонентами, такими как тело, одежда и волосы, за три минуты. В основе StdGEN лежит наш предложенный Семантически-ориентированная Большая Модель Реконструкции (S-LRM), модель на основе трансформера, которая совместно восстанавливает геометрию, цвет и семантику из многовидовых изображений в прямом направлении. Вводится дифференцируемая многослойная схема извлечения семантической поверхности для получения сеток из гибридных неявных полей, восстановленных нашим S-LRM. Кроме того, в конвейер интегрирована специализированная эффективная модель диффузии многовидов и итерационный модуль улучшения поверхности многослойного уровня для облегчения генерации трехмерных персонажей высокого качества и декомпозируемости. Обширные эксперименты демонстрируют наше передовое качество в генерации трехмерных анимационных персонажей, превосходящее существующие базовые уровни существенно по геометрии, текстуре и декомпозируемости. StdGEN предлагает готовые к использованию семантически декомпозированные трехмерные персонажи и обеспечивает гибкую настройку для широкого спектра приложений. Страница проекта: https://stdgen.github.io
CLIP - одна из самых важных мультимодальных фундаментальных моделей сегодня. Что дает CLIP его возможности? Богатые сигналы надзора, предоставляемые естественным языком - носителем человеческих знаний, формируют мощное кросс-модальное пространство представлений. Однако с быстрыми достижениями в области крупных языковых моделей, таких как GPT-4 и LLaMA, границы понимания и генерации языка постоянно расширяются. Это порождает интригующий вопрос: можно ли использовать возможности крупных языковых моделей для дальнейшего улучшения обучения мультимодальных представлений? Потенциальные выгоды от интеграции крупных языковых моделей в CLIP очевидны. Сильное текстовое понимание крупных языковых моделей может фундаментально улучшить способность CLIP обрабатывать подписи к изображениям, радикально улучшая его способность обрабатывать длинные и сложные тексты, что является хорошо известным ограничением обычного CLIP. Более того, крупные языковые модели обучаются на обширном корпусе текста, обладая знаниями об открытом мире. Это позволяет им расширять информацию о подписях во время обучения, увеличивая эффективность процесса обучения. В данной статье мы предлагаем LLM2CLIP, новый подход, который использует мощь крупных языковых моделей для разблокировки потенциала CLIP. Путем настройки крупной языковой модели в пространстве подписей с помощью контрастного обучения мы извлекаем ее текстовые возможности в выходные векторы, значительно улучшая текстовую дискриминацию выходного слоя. Затем мы разрабатываем эффективный процесс обучения, где настроенная крупная языковая модель действует как мощный учитель для визуального кодера CLIP. Благодаря присутствию крупной языковой модели мы теперь можем включать более длинные и сложные подписи, не ограничиваясь окном контекста и ограничениями способностей текстового кодера обычного CLIP. Наши эксперименты демонстрируют, что данный подход приносит существенные улучшения в задачах кросс-модальности.
Большие языковые модели (LLM) продемонстрировали впечатляющие возможности, но все еще испытывают трудности с выполнением сложных задач рассуждения, требующих нескольких шагов. В то время как методы на основе подсказок, такие как Chain-of-Thought (CoT), могут улучшить рассуждения LLM во время вывода, оптимизация возможностей рассуждения во время обучения остается сложной задачей. Мы представляем LaTent Reasoning Optimization (LaTRO), принципиальную структуру, которая формулирует рассуждения как выбор из скрытого распределения и оптимизирует его с помощью вариационных подходов. LaTRO позволяет LLM одновременно улучшать как свой процесс рассуждения, так и способность оценивать качество рассуждений, не требуя внешней обратной связи или моделей вознаграждения. Мы проверяем LaTRO через эксперименты на наборах данных GSM8K и ARC-Challenge с использованием нескольких архитектур моделей. На GSM8K LaTRO улучшает точность нулевого прогона в среднем на 12,5% по сравнению с базовыми моделями и на 9,6% по сравнению с обучением с учителем по моделям Phi-3.5-mini, Mistral-7B и Llama-3.1-8B. Наши результаты свидетельствуют о том, что предварительно обученные LLM обладают скрытыми способностями к рассуждению, которые могут быть разблокированы и улучшены с помощью предложенного нами подхода оптимизации самосовершенствования. Код LaTRO доступен по адресу https://github.com/SalesforceAIResearch/LaTRO.
Параллелизм конвейера широко используется для масштабирования обучения больших языковых моделей на основе трансформера, было предпринято множество работ по улучшению его производительности и использования памяти. В данной статье мы обращаем внимание на часто пренебрегаемую проблему: слои словаря могут вызывать дисбаланс в вычислениях и использовании памяти на различных этапах конвейера, ухудшая проблемы с производительностью и памятью. Для решения этой проблемы мы равномерно разбиваем слои словаря по устройствам конвейера и группируем вычисления в проходы конвейера. Для снижения накладных расходов памяти активации мы предлагаем несколько алгоритмов для уменьшения барьеров взаимодействия в слоях словаря. Кроме того, мы используем обобщенный метод для интеграции Параллелизма Словаря с существующими расписаниями конвейера. Совмещая эти техники, наши методы эффективно балансируют вычисления и использование памяти параметров, при этом имеется лишь небольшой постоянный накладной расход памяти активации. Особенно стоит отметить, что при совмещении с расписаниями баланса памяти активации, такими как V-Half, наш подход достигает идеального баланса как в памяти, так и в вычислениях. Обширные оценки показывают, что наш метод достигает баланса между вычислениями и памятью независимо от размера словаря, что приводит к улучшению производительности на 5% до 51% по сравнению с наивными подходами, при этом значительно снижается пиковое использование памяти, особенно для сценариев с большим словарем. Наша реализация доступна в открытом доступе на https://github.com/sail-sg/VocabularyParallelism.
Для улучшения производительности больших языковых моделей (LLM) на конкретных задачах существенно проводить тонкую настройку, но это часто требует больших ресурсов из-за избыточных или неинформативных данных. Для решения этой проблемы мы представляем DELIFT (Data Efficient Language model Instruction Fine-Tuning) - новый алгоритм, который систематически оптимизирует выбор данных на трех ключевых этапах тонкой настройки: (1) настройка инструкций, (2) задачеспецифическая тонкая настройка (например, рассуждения, вопросно-ответные системы) и (3) непрерывная тонкая настройка (например, внедрение новых версий данных). В отличие от существующих методов, сосредотачивающихся на оптимизации одного этапа или полагающихся на вычислительно затратные расчеты градиента, DELIFT эффективно работает на всех этапах. Основой нашего подхода является метрика парного полезного действия, которая количественно оценивает, насколько выгоден образец данных для улучшения ответов модели на другие образцы, эффективно измеряя информационную ценность относительно текущих возможностей модели. Используя различные субмодулярные функции, применяемые к этой метрике, DELIFT выбирает разнообразные и оптимальные подмножества, которые полезны на всех этапах тонкой настройки. Эксперименты по различным задачам и масштабам моделей показывают, что DELIFT может сократить размер данных для тонкой настройки до 70%, не ухудшая производительность, обеспечивая значительные вычислительные экономии и превосходя существующие методы как по эффективности, так и по результативности.
Этот документ направлен на разработку единой системы генерации компьютерной поддержки проектирования (CAD), способной легко создавать CAD-модели на основе ввода пользователя в виде текстового описания, изображений, облаков точек или их комбинации. Для достижения этой цели мы представляем CAD-MLLM, первую систему, способную генерировать параметрические CAD-модели при условии мультимодального ввода. Конкретно, в рамках каркаса CAD-MLLM мы используем последовательности команд CAD-моделей, а затем применяем передовые большие языковые модели (LLM) для выравнивания пространства признаков между этими разнообразными мультимодальными данными и векторизованными представлениями CAD-моделей. Для облегчения обучения модели мы разрабатываем комплексный конвейер построения данных и аннотации, который оснащает каждую CAD-модель соответствующими мультимодальными данными. Наш недавно созданный набор данных, названный Omni-CAD, является первым мультимодальным набором данных CAD, содержащим текстовое описание, многоплоскостные изображения, точки и последовательность команд для каждой CAD-модели. Он содержит примерно 450 тыс. экземпляров и их последовательности построения CAD. Для тщательной оценки качества наших созданных CAD-моделей мы выходим за рамки текущих метрик оценки, сосредотачиваясь на качестве восстановления, представляя дополнительные метрики, оценивающие качество топологии и степень ограничения поверхности. Обширные экспериментальные результаты демонстрируют, что CAD-MLLM значительно превосходит существующие условные методы генерации и остается высокоустойчивым к шумам и отсутствующим точкам. Страницу проекта и дополнительные визуализации можно найти по ссылке: https://cad-mllm.github.io/
Появление больших языковых моделей (LLM), таких как GitHub Copilot, значительно увеличило производительность программистов, особенно в генерации кода. Однако эти модели часто испытывают затруднения при выполнении задач реального мира без тонкой настройки. По мере увеличения размеров и производительности LLM, тонкая настройка для специализированных задач становится все более дорогостоящей. Методы параметрически эффективной тонкой настройки (PEFT), которые настраивают только подмножество параметров модели, предлагают многообещающее решение, снижая вычислительные затраты на настройку LLM при сохранении их производительности. Существующие исследования исследовали применение PEFT и LLM для различных задач, связанных с кодом, и выяснили, что эффективность техник PEFT зависит от задачи. Применение техник PEFT в генерации модульных тестов остается недостаточно исследованным. Современное состояние дел ограничивается использованием LLM с полной тонкой настройкой для генерации модульных тестов. В данной статье исследуются как полная тонкая настройка, так и различные методы PEFT, включая LoRA, (IA)^3 и настройку запроса, на различных архитектурах и размерах моделей. Мы используем хорошо установленные наборы данных для оценки их эффективности в генерации модульных тестов. Наши результаты показывают, что методы PEFT могут обеспечить производительность, сравнимую с полной тонкой настройкой для генерации модульных тестов, делая специализированную тонкую настройку более доступной и экономически целесообразной. Особенно стоит отметить, что настройка запроса является наиболее эффективной с точки зрения затрат и использования ресурсов, в то время как подход LoRA приближается к эффективности полной тонкой настройки в нескольких случаях.
Современные языковые модели способны обрабатывать входные данные на различных языках и модальностях. Мы предполагаем, что модели обретают эту способность благодаря обучению общему пространству представлений разнородных типов данных (например, различные языки и модальности), которое помещает семантически схожие входные данные близко друг к другу, даже если они принадлежат к разным модальностям/языкам. Мы называем это семантической гипотезой центрального узла, следуя модели "центральный узел и лучи" из нейронауки (Паттерсон и др., 2007), которая утверждает, что семантические знания в человеческом мозге организованы через трансмодальный семантический "центральный узел", интегрирующий информацию из различных модальностей. Сначала мы показываем, что представления модели для семантически эквивалентных входных данных на разных языках схожи на промежуточных уровнях, и что это пространство может быть интерпретировано с использованием доминирующего языка предварительного обучения модели через призму логитов. Эта тенденция распространяется на другие типы данных, включая арифметические выражения, код и визуальные/аудио входы. Вмешательства в общем пространстве представлений одного типа данных также предсказуемо влияют на выходы модели в других типах данных, что указывает на то, что это общее пространство представлений не просто является следствием масштабного обучения на широком спектре данных, а что-то, что активно используется моделью во время обработки входных данных.
Модели видео-языка, донастроенные для конкретной задачи, часто улавливают ложные корреляции между характеристиками изображения и текстовыми атрибутами, что приводит к ухудшению производительности на этапе тестирования без обучения. Существующие подходы к устранению ложных корреляций (i) в основном работают на уровне глобального изображения, а не прямо на мелких характеристиках изображения, и (ii) в основном предназначены для унимодальных настроек. В данной работе мы представляем RaVL, который рассматривает проблему устойчивости моделей видео-языка с точки зрения мелких деталей, обнаруживая и уменьшая ложные корреляции с использованием локальных характеристик изображения, а не на уровне глобального изображения. При данном донастройке модели видео-языка RaVL сначала выявляет ложные корреляции, используя подход к кластеризации на уровне региона для определения точных характеристик изображения, влияющих на ошибки классификации без обучения. Затем RaVL уменьшает выявленные ложные корреляции с помощью новой функции потерь, учитывающей регионы, что позволяет модели видео-языка сосредоточиться на значимых областях и игнорировать ложные связи во время донастройки. Мы оцениваем RaVL на 654 моделях видео-языка с различными архитектурами, областями данных и выявленными ложными корреляциями. Наши результаты показывают, что RaVL точно выявляет (улучшение на 191% по сравнению с ближайшим базовым уровнем) и уменьшает (улучшение на 8.2% в точности классификации изображения в худшей группе) ложные корреляции. Качественные оценки на общедоступных и медицинских моделях видео-языка подтверждают наши результаты.
Технический долг (TD) - термин, используемый для описания дополнительной работы и затрат, возникающих, когда разработчики выбирают быстрое и простое решение проблемы, вместо более эффективного и хорошо спроектированного, но затратного подхода. Самоопределенные технические долги (SATD) - это конкретный тип технических долгов, которые разработчики намеренно документируют и признают, обычно через текстовые комментарии. Хотя эти самоопределенные комментарии являются полезным инструментом для выявления технических долгов, большинство существующих подходов сосредотачиваются на захвате важных токенов, связанных с различными категориями TD, игнорируя богатую информацию, встроенную в сам код. Недавние исследования сосредоточены на обнаружении SATD путем анализа комментариев, встроенных в исходный код, и мало работ, занимающихся техническими долгами, содержащимися в исходном коде. Чтобы заполнить такую пробел, в данном исследовании, через анализ комментариев и связанного с ними исходного кода из 974 проектов на Java, размещенных в корпусе Stack, мы составили первый в истории набор данных TD, выявленных по комментариям в коде, вместе с соответствующим исходным кодом. Через эмпирическую оценку мы обнаружили, что комментарии полученного набора данных помогают улучшить производительность прогностических моделей обнаружения SATD новейшего поколения. Что более важно, включение классифицированного исходного кода значительно повышает точность прогнозирования различных типов технического долга. В этом отношении наша работа двойная: (i) Мы считаем, что наш набор данных стимулирует будущую работу в области, вдохновляя на различные исследовательские вопросы, связанные с распознаванием технического долга; (ii) Предложенные классификаторы могут служить базовыми данными для других исследований по обнаружению TD с использованием составленного набора данных.