Ежедневно отобранные исследовательские статьи по ИИ с переводами
Трансформеры революционизировали машинное обучение, однако их внутренние механизмы остаются непрозрачными для многих. Мы представляем Transformer Explainer, интерактивный инструмент визуализации, разработанный для неспециалистов, чтобы изучить трансформеры через модель GPT-2. Наш инструмент помогает пользователям понять сложные концепции трансформеров, интегрируя обзор модели и обеспечивая плавные переходы между уровнями абстракции математических операций и структур модели. Он запускает живой экземпляр GPT-2 локально в браузере пользователя, давая возможность экспериментировать с собственным вводом и наблюдать в реальном времени, как внутренние компоненты и параметры трансформера взаимодействуют для предсказания следующих токенов. Наш инструмент не требует установки или специального оборудования, расширяя доступ общественности к современным техникам генеративного искусственного интеллекта. Наш инструмент с открытым исходным кодом доступен по адресу https://poloclub.github.io/transformer-explainer/. Видеодемонстрация доступна по ссылке https://youtu.be/ECR4oAwocjs.
Большие модели видео-языка (LVLM) способны обрабатывать разнообразные типы данных, такие как изображения, текст и физиологические сигналы, и могут быть применены в различных областях. В медицинской сфере LVLM имеют большой потенциал для предоставления существенной помощи в диагностике и лечении. Однако перед этим крайне важно разработать бенчмарки для оценки эффективности LVLM в различных медицинских приложениях. Существующие бенчмарки часто основаны на конкретной академической литературе, в основном сосредоточены на одной области и лишены различных уровней восприятия. В связи с этим они сталкиваются с определенными проблемами, включая ограниченную клиническую значимость, неполные оценки и недостаточное руководство для интерактивных LVLM. Для преодоления этих ограничений мы разработали GMAI-MMBench - наиболее полный общемедицинский бенчмарк для искусственного интеллекта с хорошо категоризированной структурой данных и множественными уровнями восприятия на сегодняшний день. Он создан на основе 285 наборов данных по 39 модальностям медицинских изображений, 18 клиническим задачам, 18 отделениям и 4 уровням восприятия в формате вопрос-ответ на визуальные данные (VQA). Кроме того, мы реализовали структуру лексического дерева, которая позволяет пользователям настраивать задачи оценки, удовлетворяя различные потребности в оценке и значительно поддерживая исследования и приложения в области медицинского искусственного интеллекта. Мы оценили 50 LVLM, и результаты показывают, что даже передовой GPT-4o достигает лишь точности в 52%, что указывает на значительные возможности для улучшения. Более того, мы выявили пять ключевых недостатков в текущих передовых LVLM, которые необходимо устранить для продвижения разработки лучших медицинских приложений. Мы уверены, что GMAI-MMBench стимулирует сообщество к созданию следующего поколения LVLM в направлении GMAI. Страница проекта: https://uni-medical.github.io/GMAI-MMBench.github.io/
Генерация 3D-контента является основой многих приложений компьютерной графики, включая видеоигры, кино, виртуальную и дополненную реальность и т. д. В данной статье предлагается новый подход на основе глубокого обучения для автоматической генерации интерактивных и играбельных 3D-игровых сцен, полностью по запросам пользователя, таким как рисунок от руки. Ввод на основе эскиза предлагает естественный и удобный способ передачи намерений пользователя при создании контента. Для преодоления вызова нехватки данных в процессе обучения (т. е. отсутствия больших обучающих данных 3D-сцен) наш метод использует предварительно обученную модель диффузии для шумоподавления 2D для генерации изображения сцены в качестве концептуального руководства. В этом процессе мы применяем изометрический режим проекции для исключения неизвестных поз камеры при получении компоновки сцены. Из сгенерированного изометрического изображения мы используем предварительно обученный метод понимания изображений для сегментации изображения на значимые части, такие как объекты над землей, деревья и здания, и извлечения компоновки 2D сцены. Эти сегменты и компоновки затем подаются на вход в генератор процедурного контента (PCG), такой как 3D-игровой движок, такой как Unity или Unreal, для создания 3D-сцены. Полученная 3D-сцена может быть легко интегрирована в среду разработки игр и готова к игре. Обширные тесты демонстрируют, что наш метод может эффективно генерировать высококачественные и интерактивные 3D-игровые сцены с компоновками, которые тесно соответствуют намерениям пользователя.
Широкий доступ к большим языковым моделям (LLM) для широкой публики значительно увеличил распространение машинно-сгенерированных текстов (MGT). Продвижения в области манипуляции запросами усугубили сложность определения происхождения текста (написан человеком или сгенерирован машиной). Это вызывает опасения относительно потенциального злоупотребления MGT, особенно в образовательных и академических областях. В данной статье мы представляем LLM-DetectAIve - систему, разработанную для детального обнаружения MGT. Она способна классифицировать тексты на четыре категории: написанные человеком, сгенерированные машиной, написанные машиной и человеком, а также написанные человеком и отредактированные машиной. В отличие от предыдущих детекторов MGT, выполняющих бинарную классификацию, введение двух дополнительных категорий в LLM-DetectAIve предлагает понимание различных степеней вмешательства LLM в процесс создания текста. Это может быть полезно в некоторых областях, таких как образование, где любое вмешательство LLM обычно запрещено. Эксперименты показывают, что LLM-DetectAIve может эффективно определить авторство текстового контента, доказывая свою полезность в улучшении целостности в образовании, академии и других областях. LLM-DetectAIve общедоступен по адресу https://huggingface.co/spaces/raj-tomar001/MGT-New. Видео, описывающее нашу систему, доступно по ссылке https://youtu.be/E8eT_bE7k8c.
Разработка монолингвистических языковых моделей для языков с низким и средним уровнем ресурсов продолжает затрудняться из-за сложностей в поиске высококачественных обучающих данных. В данном исследовании мы представляем новую стратегию переноса словаря между языками, называемую "транс-токенизация", разработанную для преодоления этого вызова и обеспечения более эффективной адаптации языка. Наш подход сосредотачивается на адаптации монолингвистической модели LLM с высоким уровнем ресурсов к невидимому целевому языку путем инициализации встраиваний токенов целевого языка с использованием взвешенного среднего значений семантически похожих встраиваний токенов из исходного языка. Для этого мы используем ресурс перевода, охватывающий как исходный, так и целевой языки. Мы проверяем наш метод с помощью Tweeties, серии транс-токенизированных LLM, и демонстрируем их конкурентоспособную производительность на различных задачах на нескольких языках, хоть и небольших, но разнообразных. Кроме того, мы представляем Hydra LLM, модели с несколькими заменяемыми головами языкового моделирования и таблицами встраиваний, которые дополнительно расширяют возможности нашей стратегии транс-токенизации. Создав Hydra LLM на основе мультиязычной модели TowerInstruct, мы разработали передовую модель машинного перевода для татарского языка в нулевом режиме, полностью обходя необходимость в высококачественных параллельных данных. Этот прорыв особенно значим для языков с низким уровнем ресурсов, таких как татарский, где высококачественные параллельные данные трудно найти. Снижая требования к данным и времени для обучения моделей высокого качества, наша стратегия транс-токенизации позволяет разрабатывать LLM для более широкого спектра языков, особенно тех, у которых ограниченные ресурсы. Мы надеемся, что наша работа вдохновит дальнейшие исследования и сотрудничество в области переноса словаря между языками и способствует укреплению языков на глобальном уровне.
Мы предлагаем новый метод - обратный перевод инструкций, для создания высококачественных синтетических данных, основанных на мировых знаниях, для выравнивания больших языковых моделей (БЯМ). Используя документы из веб-корпуса, мы генерируем и курируем синтетические инструкции с помощью подхода обратного перевода, предложенного Ли и др. (2023а), и переписываем ответы для дальнейшего улучшения их качества на основе исходных документов. Тонкая настройка с использованием полученных пар (обратно переведенная инструкция, переписанный ответ) дает более высокие показатели успешности на AlpacaEval, чем использование других распространенных наборов данных для инструкций, таких как Humpback, ShareGPT, Open Orca, Alpaca-GPT4 и Self-instruct. Мы также демонстрируем, что переписывание ответов с помощью БЯМ превосходит прямую дистилляцию, и две сгенерированные текстовые распределения имеют значительные различия в пространстве вложений. Дополнительный анализ показывает, что наши обратно переведенные инструкции имеют более высокое качество, чем другие источники синтетических инструкций, в то время как наши ответы более разнообразны и сложны, чем те, полученные из дистилляции. В целом мы приходим к выводу, что обратный перевод инструкций объединяет лучшее из двух миров - используя разнообразие и количество информации, найденной в сети, обеспечивая при этом качество ответов, необходимое для эффективного выравнивания.
Многозадачные языковые модели большого масштаба (MLLM), обладающие высокой производительностью, сильно зависят от качества данных. В данном исследовании представлен новый набор данных под названием Img-Diff, разработанный для улучшения точного распознавания изображений в MLLM путем использования принципов контрастного обучения и подписей к различиям на изображениях. Анализируя различия между объектами на похожих изображениях, мы ставим перед моделями задачу идентификации как совпадающих, так и различных компонентов. Мы используем модель Stable-Diffusion-XL и продвинутые техники редактирования изображений для создания пар похожих изображений, выделяющих замену объектов. Наш метод включает Генератор области различий для идентификации различий объектов, за которым следует Генератор подписей к различиям для подробных описаний различий. Результатом является относительно небольшой, но высококачественный набор данных образцов "замены объектов". Мы используем предложенный набор данных для доработки современных моделей MLLM, таких как MGM-7B, что приводит к всестороннему улучшению показателей производительности по сравнению с современными моделями, обученными на более масштабных наборах данных, во многих задачах по различию изображений и визуальному вопросно-ответному моделированию. Например, наши обученные модели значительно превосходят современные модели GPT-4V и Gemini на бенчмарке MMVP. Кроме того, мы исследуем альтернативные методы генерации данных по различию изображений путем "удаления объектов" и проводим тщательную оценку для подтверждения разнообразия, качества и устойчивости набора данных, представляя несколько идей о синтезе такого контрастного набора данных. Для поощрения дальнейших исследований и продвижения области синтеза мультимодальных данных и улучшения фундаментальных возможностей MLLM в понимании изображений мы выкладываем наши коды и набор данных на https://github.com/modelscope/data-juicer/tree/ImgDiff.
Мы представляем Puppet-Master, интерактивную видео-генеративную модель, которая может служить в качестве движущегося априорного распределения для динамики на уровне частей. На этапе тестирования, учитывая одно изображение и разреженный набор траекторий движения (т.е. перетаскиваний), Puppet-Master может синтезировать видео, изображающее реалистичное движение на уровне частей, верное заданным взаимодействиям перетаскивания. Это достигается путем донастройки крупномасштабной предварительно обученной модели диффузии видео, для которой мы предлагаем новую архитектуру условий для эффективного внедрения управления перетаскиванием. Более того, мы представляем механизм внимания "все-к-первому", замену для широко применяемых модулей пространственного внимания, который значительно улучшает качество генерации, решая проблемы внешнего вида и фона в существующих моделях. В отличие от других видео-генераторов, зависящих от движения, которые обучаются на видеозаписях из реальной жизни и в основном перемещают целый объект, Puppet-Master изучается на наборе данных Objaverse-Animation-HQ, новом наборе отобранных клипов движения на уровне частей. Мы предлагаем стратегию автоматического фильтрования неоптимальных анимаций и дополнения синтетических рендерингов содержательными траекториями движения. Puppet-Master хорошо обобщается на реальные изображения различных категорий и превосходит существующие методы в режиме нулевой настройки на реальном бенчмарке. Дополнительные результаты доступны на нашей странице проекта: vgg-puppetmaster.github.io.
Обнаружение головы человека, оценка ключевых точек и подгонка трехмерной модели головы - важные задачи с множеством применений. Однако традиционные реальные наборы данных часто страдают от предвзятости, конфиденциальности и этических проблем, и они были записаны в лабораторных условиях, что затрудняет обобщение обученных моделей. Здесь мы представляем VGGHeads - крупномасштабный синтетический набор данных, созданный с использованием моделей диффузии для обнаружения головы человека и оценки трехмерной сетки. Наш набор данных включает более 1 миллиона изображений высокого разрешения, каждое аннотировано подробными трехмерными сетками головы, точками на лице и ограничивающими рамками. Используя этот набор данных, мы представляем новую архитектуру модели, способную одновременно обнаруживать головы и восстанавливать трехмерные сетки головы из одного изображения за один шаг. Через обширные экспериментальные оценки мы демонстрируем, что модели, обученные на наших синтетических данных, достигают высокой производительности на реальных изображениях. Более того, универсальность нашего набора данных делает его применимым в широком спектре задач, предлагая общее и всестороннее представление о головах человека. Кроме того, мы предоставляем подробную информацию о процессе генерации синтетических данных, что позволяет их повторно использовать для других задач и областей.
Закрепление естественного языка в физических трехмерных средах является важным для развития воплощенного искусственного интеллекта. Существующие наборы данных и модели для трехмерного визуального закрепления в основном сосредотачиваются на идентификации и локализации объектов из статических, объектно-центрических описаний. Эти подходы не достаточно учитывают динамическую и последовательную природу задачного закрепления, необходимую для практических применений. В данной работе мы предлагаем новую задачу: Задача-ориентированное Последовательное Закрепление в трехмерных сценах, где агент должен следовать подробным пошаговым инструкциям для выполнения повседневных действий, находя последовательность целевых объектов в помещениях. Для облегчения этой задачи мы представляем SG3D, крупномасштабный набор данных, содержащий 22 346 задач с 112 236 шагами по 4 895 трехмерным сценам реального мира. Набор данных создан с использованием комбинации RGB-D сканов из различных наборов данных трехмерных сцен и автоматизированного процесса генерации задач, за которым следует верификация человеком для обеспечения качества. Мы адаптировали три передовые модели трехмерного визуального закрепления к задаче последовательного закрепления и оценили их производительность на SG3D. Наши результаты показывают, что в то время как эти модели хорошо справляются с традиционными бенчмарками, они сталкиваются с значительными трудностями в задаче ориентированного на задачу последовательного закрепления, подчеркивая необходимость дальнейших исследований в этой области.
Молекулярное представление является основополагающим элементом нашего понимания физического мира. Его важность простирается от основ химических реакций до разработки новых терапий и материалов. Предыдущие модели машинного обучения на молекулах использовали строки, отпечатки, глобальные характеристики и простые молекулярные графы, которые по своей природе являются информационно разреженными представлениями. Однако с увеличением сложности задач прогнозирования молекулярное представление должно кодировать информацию более высокой точности. В данной работе представлен новый подход к внедрению квантово-химической информации в молекулярные графы с помощью стереоэлектронных эффектов. Мы показываем, что явное добавление стереоэлектронных взаимодействий значительно улучшает производительность моделей машинного обучения на молекулах. Более того, представления, обогащенные стереоэлектроникой, могут быть изучены и применены с помощью индивидуального рабочего процесса двойного графового нейронной сети, позволяя их применение к любой последующей задаче машинного обучения на молекулах. Наконец, мы показываем, что изученные представления позволяют легко оценивать стереоэлектронику ранее недоступных систем, таких как целые белки, открывая новые пути для молекулярного дизайна.
Предсказание поведения программы без выполнения является важной и сложной задачей в области программной инженерии. Традиционные модели часто испытывают трудности в улавливании динамических зависимостей и взаимодействий в коде. В данной статье представлен новый фреймворк на основе машинного обучения под названием CodeFlowrepresents, который предсказывает покрытие кода и обнаруживает ошибки времени выполнения через обучение динамических зависимостей. Используя графы потока управления (CFGs), CodeFlowrepresents отображает все возможные пути выполнения и отношения между различными операторами, предлагая всестороннее понимание поведения программы. Он строит CFGs для изображения путей выполнения и изучает векторные представления для узлов CFG, улавливая статические зависимости потока управления. Кроме того, он изучает динамические зависимости через следы выполнения, отражающие взаимосвязи между операторами во время выполнения. Этот подход позволяет точно предсказывать покрытие кода и идентифицировать ошибки времени выполнения. Эмпирические оценки показывают значительное улучшение точности предсказания покрытия кода и эффективную локализацию ошибок времени выполнения, превосходя текущие модели.
При использовании языковых моделей (LMs) для решения сложных задач люди могут испытывать затруднения с пониманием решений, сгенерированных LM, и исправлением недостатков. Для помощи людям в их исправлении мы предлагаем автоматически декомпозировать сложные решения на несколько более простых частей, соответствующих конкретным подзадачам. Мы предлагаем новую цель для обучения декомпозиции задач, называемую помощническая ценность (AssistV), которая измеряет возможность и скорость для людей восстановить декомпозированное решение. Мы собрали набор данных из опыта людей по исправлению различных декомпозированных решений. Используя собранные данные как примеры в контексте, мы затем учимся критиковать, улучшать и ранжировать декомпозированные решения для улучшения AssistV. Мы проверяем наш метод на примере задач конкурсного программирования: в течение 177 часов исследования с участием людей наш метод позволяет неспециалистам решать на 33.3\% больше задач, ускоряет их в 3.3 раза и позволяет им сравняться с экспертами без помощи.