Ежедневно отобранные исследовательские статьи по ИИ с переводами
Несмотря на недавние достижения в области крупномасштабных моделей генерации изображений из текста, манипулирование реальными изображениями с использованием этих моделей остается сложной задачей. Основные ограничения существующих методов редактирования заключаются в том, что они либо не обеспечивают стабильного качества для широкого спектра изменений изображений, либо требуют трудоемкой настройки гиперпараметров или дообучения модели диффузии для сохранения специфического внешнего вида исходного изображения. Мы предлагаем новый подход, основанный на модифицированном процессе сэмплирования диффузии с использованием механизма управления. В данной работе мы исследуем технику самоконтроля для сохранения общей структуры входного изображения и внешнего вида его локальных областей, которые не должны подвергаться редактированию. В частности, мы явно вводим энергетические функции, сохраняющие композицию, которые направлены на сохранение локальных и глобальных структур исходного изображения. Кроме того, мы предлагаем механизм перемасштабирования шума, который позволяет сохранить распределение шума за счет балансировки норм управления без классификатора и предложенных нами направляющих в процессе генерации. Такой подход не требует дообучения модели диффузии и точного процесса инверсии. В результате предложенный метод обеспечивает быстрый и качественный механизм редактирования. В наших экспериментах мы показываем с помощью оценки людьми и количественного анализа, что предложенный метод позволяет достичь желаемого редактирования, которое более предпочтительно для людей, а также обеспечивает лучший баланс между качеством редактирования и сохранением исходного изображения. Наш код доступен по адресу https://github.com/FusionBrainLab/Guide-and-Rescale.
С момента появления ChatGPT крупные языковые модели (LLMs) демонстрируют выдающиеся результаты в различных задачах, но по-прежнему остаются в значительной степени системами типа «черного ящика». Как следствие, их разработка в основном опирается на подходы, основанные на данных, что ограничивает повышение производительности за счет изменений внутренней архитектуры и путей рассуждений. В результате многие исследователи начали изучать потенциальные внутренние механизмы LLM, стремясь определить суть узких мест в их рассуждениях, причем большинство исследований сосредоточено на головах внимания. Цель нашего обзора — пролить свет на внутренние процессы рассуждений LLM, сконцентрировавшись на интерпретируемости и базовых механизмах голов внимания. Сначала мы абстрагируем человеческий мыслительный процесс в виде четырехэтапной структуры: Вспоминание Знаний, Контекстная Идентификация, Скрытое Рассуждение и Подготовка Выражения. Используя эту структуру, мы систематически анализируем существующие исследования, чтобы выявить и классифицировать функции конкретных голов внимания. Кроме того, мы обобщаем экспериментальные методики, используемые для обнаружения этих специальных голов, разделяя их на две категории: методы, не требующие моделирования (Modeling-Free), и методы, требующие моделирования (Modeling-Required). Также мы описываем соответствующие методы оценки и бенчмарки. Наконец, мы обсуждаем ограничения текущих исследований и предлагаем несколько потенциальных направлений для будущей работы. Наш список литературы находится в открытом доступе по адресу https://github.com/IAAR-Shanghai/Awesome-Attention-Heads.
Фаззинг — это важная методика динамического анализа программ, предназначенная для поиска уязвимостей в сложном программном обеспечении. Фаззинг предполагает подачу целевой программе специально сформированных вредоносных входных данных, чтобы вызвать сбои, переполнения буфера, ошибки памяти и исключения. Эффективное создание вредоносных входных данных является сложной нерешенной проблемой, и лучшие подходы часто применяют равномерные случайные мутации к уже существующим корректным входным данным. В данной работе мы предлагаем использовать тонко настроенные большие языковые модели (FuzzCoder) для изучения паттернов во входных файлах на основе успешных атак с целью направления будущих исследований в области фаззинга. В частности, мы разрабатываем framework, который использует код-ориентированные LLM для управления процессом мутации входных данных при фаззинге. Процесс мутации формулируется как моделирование последовательность-к-последовательности, где LLM получает последовательность байтов и выводит мутированную последовательность байтов. FuzzCoder дорабатывается на созданном наборе инструкций (Fuzz-Instruct), где история успешного фаззинга собирается с помощью эвристического инструмента фаззинга. FuzzCoder способен предсказывать местоположения мутаций и стратегии изменений во входных файлах для провоцирования аномального поведения программы. Результаты экспериментов показывают, что FuzzCoder на основе AFL (American Fuzzy Lop) демонстрирует значительное улучшение по показателям эффективной доли мутаций (EPM) и количества сбоев (NC) для различных форматов входных данных, включая ELF, JPG, MP3 и XML.
С момента первых примеров онлайн-образования, когда курсы загружались на общедоступные платформы, этот способ масштабирования распространения знаний для охвата широкой аудитории вызвал активное обсуждение и широкое внедрение. Понимая, что персонализированное обучение仍有 значительный потенциал для улучшения, новые технологии ИИ постоянно интегрируются в этот формат, что привело к появлению разнообразных образовательных приложений на основе ИИ, таких как рекомендательные системы и интеллектуальные тьюторы. Появление интеллекта в больших языковых моделях (LLM) позволило строить эти образовательные усовершенствования на единой базовой модели, обеспечивая более глубокую интеграцию. В этом контексте мы предлагаем MAIC (Massive AI-empowered Course) — новую форму онлайн-образования, использующую управляемые LLM мульти-агентные системы для создания дополненной ИИ учебной среды, сочетающей масштабируемость и адаптивность. Помимо изучения концептуальной основы и технических инноваций, мы проводим предварительные эксперименты в Университете Цинхуа, одном из ведущих вузов Китая. На основе более 100 000 учебных записей 500 студентов мы получаем ряд ценных наблюдений и первоначальный анализ. Проект будет продолжать развиваться с целью создания комплексной открытой платформы, объединяющей исследования, технологии и приложения для изучения возможностей онлайн-образования в эпоху больших моделей ИИ. Мы представляем эту платформу как центр сотрудничества, объединяющий педагогов, исследователей и новаторов для совместного изучения будущего онлайн-образования на основе ИИ.
Создание высококачественных 3D-объектов по текстовым описаниям остается сложной задачей из-за высоких вычислительных затрат, дефицита 3D-данных и сложности представления 3D-информации. Мы представляем Geometry Image Diffusion (GIMDiffusion) — новую модель для генерации 3D-объектов по тексту, которая использует геометрические изображения для эффективного представления 3D-форм с помощью 2D-изображений, что позволяет обойтись без сложных 3D-ориентированных архитектур. Благодаря интеграции механизма Collaborative Control мы используем богатые априорные знания существующих моделей генерации изображений по тексту, таких как Stable Diffusion. Это обеспечивает надежную генерализацию даже при ограниченных объемах обучающих 3D-данных (что позволяет использовать только высококачественные данные для обучения), а также сохраняет совместимость с техниками управления, такими как IPAdapter. Таким образом, GIMDiffusion позволяет создавать 3D-ассеты со скоростью, сопоставимой с современными моделями генерации изображений по тексту. Сгенерированные объекты состоят из семантически значимых отдельных частей и включают внутренние структуры, что повышает как удобство использования, так и универсальность.
Мультимодальные большие языковые модели (MLLM) достигли значительных успехов в области понимания документов без использования OCR за счет увеличения поддерживаемого разрешения изображений документов. Однако это достигается ценой генерации тысяч визуальных токенов для одного изображения документа, что приводит к чрезмерному потреблению памяти GPU и замедлению времени вывода, особенно при понимании многстраничных документов. В данной работе для решения этих проблем мы предлагаем модуль High-resolution DocCompressor, который сжимает каждое изображение документа высокого разрешения до 324 токенов под руководством глобальных визуальных признаков низкого разрешения. Используя этот модуль сжатия, для усиления способности понимания многстраничных документов и баланса между эффективностью использования токенов и производительностью вопросно-ответных систем мы разработали DocOwl2 в рамках трехэтапной схемы обучения: предварительное обучение на одиночных изображениях, продолженное предварительное обучение на множественных изображениях и многозадачная тонкая настройка. DocOwl2 устанавливает новое состояние искусства в бенчмарках понимания многстраничных документов и сокращает задержку до первого токена более чем на 50%, демонстрируя передовые возможности в ответах на вопросы по многстраничным документам, объяснении с указанием страниц-доказательств и понимании кросс-страничной структуры. Кроме того, по сравнению с одноизобразивыми MLLM, обученными на аналогичных данных, наш DocOwl2 достигает сопоставимой производительности понимания одностраничных документов, используя менее 20% визуальных токенов. Наши код, модели и данные общедоступны по адресу https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2.
Распознавание формул представляет значительные трудности из-за сложной структуры и разнообразных обозначений математических выражений. Несмотря на постоянное совершенствование моделей распознавания формул, используемые ими метрики оценки, такие как BLEU и редакционное расстояние, по-прежнему имеют существенные ограничения. Они упускают из виду тот факт, что одна и та же формула имеет различные представления и высокочувствительна к распределению обучающих данных, что приводит к необъективности оценки распознавания формул. Для решения этой проблемы мы предлагаем метрику сопоставления на основе детектирования символов (Character Detection Matching, CDM), которая обеспечивает объективность оценки за счет расчета показателя на уровне изображения, а не на уровне LaTeX. В частности, CDM преобразует предсказанную моделью LaTeX-разметку и эталонную LaTeX-формулу в формулы в формате изображения, а затем использует методы извлечения визуальных признаков и локализации для точного посимвольного сопоставления с учетом пространственной информации. Такой метод, ориентированный на пространственное расположение и посимвольное сравнение, обеспечивает более точную и справедливую оценку по сравнению с предыдущими метриками BLEU и редакционного расстояния, которые полагаются исключительно на текстовое сопоставление символов. Экспериментально мы оценили различные модели распознавания формул с использованием метрик CDM, BLEU и ExpRate. Полученные результаты демонстрируют, что CDM в большей степени соответствует стандартам человеческой оценки и обеспечивает более справедливое сравнение различных моделей за счет устранения расхождений, вызванных разнообразными представлениями формул.
Растущая доступность данных реальных разговоров открывает перед исследователями уникальные возможности для изучения взаимодействий пользователей с чат-ботами. Однако значительный объем таких данных делает ручной анализ отдельных диалогов непрактичным. Для решения этой проблемы мы представляем WildVis — интерактивный инструмент, позволяющий проводить быстрый, гибкий и масштабируемый анализ бесед. WildVis предоставляет возможности поиска и визуализации в текстовом и эмбеддинговом пространствах на основе заданных критериев. Для работы с наборами данных масштаба миллионов диалогов мы реализовали оптимизации, включая построение поискового индекса, предварительное вычисление и сжатие эмбеддингов, а также кэширование для обеспечения отзывчивого взаимодействия с пользователем в течение секунд. Мы демонстрируем полезность WildVis на трех примерах: содействие исследованию злоупотреблений чат-ботами, визуализация и сравнение тематических распределений в различных наборах данных, а также выявление пользовательских паттернов коммуникации. WildVis имеет открытый исходный код и разработан с возможностью расширения, поддерживая подключение дополнительных наборов данных и настраиваемые функции поиска и визуализации.
Недавние исследования показали, что способности больших языковых моделей (LLM) к решению математических задач могут быть улучшены за счет интеграции внешних инструментов, таких как интерпретаторы кода, и применения многошаговых рассуждений по цепочке мыслей (CoT). В то время как современные методы сосредоточены на генерации синтетических данных и обучении с учителем (SFT), данная работа исследует дополнительный подход прямого обучения на основе предпочтений для дальнейшего повышения производительности модели. Однако существующие алгоритмы прямого обучения предпочтениям изначально разработаны для одношаговых чат-задач и не в полной мере учитывают сложности многошаговых рассуждений и интеграции внешних инструментов, необходимых для математических задач с использованием инструментов. Чтобы заполнить этот пробел, мы представляем многошаговую систему прямого обучения предпочтениям, адаптированную для данного контекста, которая использует обратную связь от интерпретаторов кода и оптимизирует предпочтения на уровне траекторий. Данная система включает многошаговый DPO и многошаговый KTO в качестве конкретных реализаций. Эффективность нашего подхода подтверждена в ходе обучения различных языковых моделей с использованием расширенного набора промптов из наборов данных GSM8K и MATH. Наши результаты демонстрируют значительное улучшение: производительность модели Gemma-1.1-it-7B, дообученной с учителем, повысилась с 77.5% до 83.9% на GSM8K и с 46.1% до 51.2% на MATH. Аналогичным образом, модель Gemma-2-it-9B улучшила свои показатели с 84.1% до 86.3% на GSM8K и с 51.0% до 54.5% на MATH.
Быстрое развитие и динамичный характер больших языковых моделей (LLM) затрудняют точную оценку их возможностей с помощью традиционных количественных бенчмарков. Мы предлагаем "табели успеваемости" — интерпретируемые человеком сводки на естественном языке, описывающие поведение модели в рамках конкретных навыков или тем. Мы разрабатываем систему оценки табелей по трем критериям: специфичность (способность различать модели), достоверность (точное отражение возможностей модели) и интерпретируемость (понятность и релевантность для человека). Также предлагается итеративный алгоритм генерации табелей без участия человека и исследуется его эффективность путем абляции различных вариантов проектирования. Эксперименты с популярными LLM показывают, что табели дают информацию, выходящую за рамки традиционных бенчмарков, и могут удовлетворить потребность в более интерпретируемой и целостной оценке языковых моделей.
Сегментация с открытым словарём представляет значительные трудности, поскольку требует сегментирования и распознавания объектов из открытого набора категорий в неограниченных условиях. Опираясь на успех мощных базовых моделей «компьютерное зрение–естественный язык» (ViL), таких как CLIP, недавние исследования были направлены на использование их возможностей zero-shot для распознавания невидимых категорий. Несмотря на заметное улучшение производительности, эти модели по-прежнему сталкиваются с ключевой проблемой генерации точных предложений масок для невидимых категорий и сценариев, что в конечном итоге приводит к неудовлетворительной производительности сегментации. Для решения этой задачи мы представляем новый подход FrozenSeg, предназначенный для интеграции пространственных знаний из базовой модели локализации (например, SAM) и семантических знаний, извлеченных из ViL-модели (например, CLIP), в синергетическую framework. Используя визуальный энкодер ViL-модели в качестве признакового бэкбона, мы внедряем пространственно-осведомлённые признаки в обучаемые запросы и признаки CLIP внутри трансформерного декодера. Кроме того, мы разрабатываем стратегию ансамбля предложений масок для дальнейшего повышения полноты и качества масок. Чтобы полностью использовать предварительно обученные знания, минимизируя при этом вычислительные затраты на обучение, мы замораживаем обе базовые модели, сосредотачивая усилия по оптимизации исключительно на лёгком трансформерном декодере для генерации предложений масок — узком месте производительности. Многочисленные эксперименты демонстрируют, что FrozenSeg улучшает state-of-the-art результаты на различных бенчмарках сегментации, будучи обученной исключительно на паноптических данных COCO и протестированной в режиме zero-shot. Код доступен по адресу https://github.com/chenxi52/FrozenSeg.
Крупные языковые модели (LLMs) коренным образом изменили ландшафт синтеза программ. Однако современные системы автодополнения кода на основе LLM часто генерируют ошибочный код, поскольку им не хватает соответствующего контекста, особенно при работе с определениями, отсутствующими в обучающих данных или находящимися далеко от позиции курсора. В данной статье показано, что тесная интеграция со структурой типов и привязок языка, предоставляемой его языковым сервером, позволяет решить эту проблему контекстуализации эффективным с точки зрения токенов способом. Короче говоря, мы утверждаем, что ИИ тоже нуждаются в IDE! В частности, мы интегрируем генерацию кода с помощью LLM в среду инкрементального проектирования программ Hazel. Языковой сервер Hazel идентифицирует тип и контекст типизации заполняемой "дыры", даже при наличии ошибок, гарантируя, что осмысленный эскиз программы всегда доступен. Это позволяет использовать для промптинга контекстную информацию со всего кодовой базы, которая не является лексически локальной для курсора и не обязательно находится в том же файле, но, вероятно, семантически близка к цели разработчика. Затем варианты автодополнения, синтезированные LLM, итеративно уточняются посредством дальнейшего диалога с языковым сервером. Для оценки этих методов мы представляем MVUBench, набор данных веб-приложений, построенных по принципу "модель-представление-обновление" (MVU). Эти приложения служат сложными задачами из-за их зависимости от специфичных для приложения структур данных. Мы обнаруживаем, что контекстуализация с использованием определений типов особенно эффективна. После представления наших идей в контексте Hazel мы воспроизводим наши методы и портируем MVUBench на TypeScript, чтобы подтвердить применимость этих методов к языкам с большими ресурсами. Наконец, мы описываем ChatLSP — консервативное расширение протокола языкового сервера (LSP), которое языковые серверы могут реализовать, чтобы предоставить возможности, используемые системами автодополнения кода на основе ИИ различной архитектуры для включения статического контекста при генерации промптов для LLM.