Ежедневно отобранные исследовательские статьи по ИИ с переводами
Предварительно обученные языковые модели лежат в основе нескольких приложений искусственного интеллекта, однако их высокая вычислительная стоимость для обучения ограничивает доступность. Инициативы, такие как BLOOM и StarCoder, нацелены на демократизацию доступа к предварительно обученным моделям для совместного развития сообщества. Однако такие существующие модели сталкиваются с вызовами: ограниченные мультиязычные возможности, постоянное предварительное обучение, вызывающее катастрофическое забывание, в то время как обучение с нуля требует больших вычислительных затрат, а также соответствие законам об искусственном интеллекте и развитии. В данной статье представлена модель Aurora-M, мультиязычная модель с открытым исходным кодом на 15 миллиардов параметров, обученная на английском, финском, хинди, японском, вьетнамском и коде. Непрерывно предварительно обученная из StarCoderPlus на 435 миллиардов дополнительных токенов, Aurora-M превосходит общее количество обучающих токенов в 2 триллиона. Это первая мультиязычная модель с открытым исходным кодом, донастроенная на инструкциях по безопасности, проверенных людьми, что выравнивает ее развитие не только с традиционными рассмотрениями красной команды, но и с конкретными опасениями, выраженными в Постановлении Президента Байдена-Харриса о безопасном, надежном и доверительном развитии и использовании искусственного интеллекта. Aurora-M тщательно оценивается на различных задачах и языках, демонстрируя устойчивость к катастрофическому забыванию и превосходя альтернативы в мультиязычных средах, особенно в оценках безопасности. Для поощрения ответственного развития мультиязычных моделей с открытым исходным кодом Aurora-M и ее варианты выпущены по адресу https://huggingface.co/collections/aurora-m/aurora-m-models-65fdfdff62471e09812f5407.
Одним из ключевых недостатков текущих моделей текст в изображение (T2I) является их неспособность последовательно создавать изображения, которые верно отражают пространственные отношения, указанные в текстовой подсказке. В данной статье мы предлагаем всестороннее исследование этого ограничения, разрабатывая при этом наборы данных и методы, обеспечивающие современные показатели производительности. Во-первых, мы обнаружили, что текущие наборы данных видео-языкового восприятия недостаточно хорошо представляют пространственные отношения; чтобы устранить этот узкий проход, мы создали SPRIGHT, первый крупномасштабный набор данных, сосредоточенный на пространственных отношениях, путем повторной подписи 6 миллионов изображений из 4 широко используемых наборов данных видео-восприятия. Через трехкратную оценку и анализ, мы обнаружили, что SPRIGHT в значительной степени улучшает существующие наборы данных в улавливании пространственных отношений. Для демонстрации его эффективности мы используем всего ~0.25% SPRIGHT и добиваемся улучшения на 22% в создании пространственно точных изображений, а также улучшения показателей FID и CMMD. Во-вторых, мы обнаружили, что обучение на изображениях, содержащих большое количество объектов, приводит к существенному улучшению пространственной согласованности. Значительно, мы достигли современного уровня на T2I-CompBench с пространственным показателем 0.2133, путем донастройки на <500 изображениях. Наконец, через ряд контролируемых экспериментов и абляций, мы документируем несколько результатов, которые, по нашему мнению, улучшат понимание факторов, влияющих на пространственную согласованность в моделях текст в изображение. Мы публично выпускаем наш набор данных и модель для поощрения дальнейших исследований в этой области.
Генерация трехмерного контента по текстовым подсказкам или одиночным изображениям недавно достигла значительного прогресса в качестве и скорости. Один из доминирующих парадигм включает в себя создание согласованных многозрительных изображений, за которым следует восстановление изображений с ограниченным обзором. Однако из-за сложности непосредственного деформирования сетчатого представления для приближения к целевой топологии большинство методологий изучают неявное представление (например, NeRF) во время восстановления изображений с ограниченным обзором и получают целевую сетку путем извлечения после обработки. Хотя неявное представление может эффективно моделировать богатую трехмерную информацию, его обучение обычно требует длительного времени сходимости. Кроме того, операция пост-извлечения из неявного поля также приводит к нежелательным визуальным артефактам. В данной статье мы предлагаем FlexiDreamer, новую рамочную систему генерации трехмерных изображений из одиночного изображения, которая восстанавливает целевую сетку в едином процессе. Используя гибкое градиентное извлечение, известное как FlexiCubes, наш метод обходит дефекты, вызванные пост-обработкой, и облегчает прямое приобретение целевой сетки. Кроме того, мы внедряем схему кодирования хэш-сетки с многоразрешением, которая постепенно активирует уровни кодирования в неявном поле в FlexiCubes для захвата геометрических деталей для оптимизации на каждом шаге. Следует отметить, что FlexiDreamer восстанавливает плотную трехмерную структуру из одного изображения с приблизительным временем в 1 минуту на одном графическом процессоре NVIDIA A100, превосходя предыдущие методологии значительно.
Генерация трехмерных сцен из пользовательских условий предлагает многообещающий подход для снижения трудозатрат в приложениях трехмерной графики. Предыдущие исследования требовали значительных усилий для достижения желаемой сцены из-за ограниченных условий управления. Мы предлагаем метод управления и генерации трехмерных сцен в мультимодальных условиях с использованием частичных изображений, информации о компоновке, представленной в виде верхнего вида, и текстовых подсказок. Комбинирование этих условий для генерации трехмерной сцены включает следующие значительные трудности: (1) создание больших наборов данных, (2) рефлексию взаимодействия мультимодальных условий и (3) зависимость от домена условий компоновки. Мы декомпозируем процесс генерации трехмерной сцены на генерацию двумерного изображения из заданных условий и генерацию трехмерной сцены из двумерных изображений. Генерация двумерного изображения достигается путем донастройки предварительно обученной модели текст-к-изображению с небольшим искусственным набором данных частичных изображений и компоновок, а генерация трехмерной сцены достигается путем оценки глубины с учетом компоновки и использования нейронных поля яркости (NeRF), тем самым избегая создания больших наборов данных. Использование общего представления пространственной информации с использованием изображений 360 градусов позволяет учитывать взаимодействия мультимодальных условий и снижает зависимость от домена управления компоновкой. Экспериментальные результаты качественно и количественно продемонстрировали, что предложенный метод способен генерировать трехмерные сцены в различных доменах, от внутренних до внешних, в соответствии с мультимодальными условиями.
Генеративные модели теперь широко используются графическими дизайнерами и художниками. Предыдущие работы показали, что эти модели запоминают и часто реплицируют контент из обучающих данных во время генерации. Поэтому с увеличением их распространения стало важным выполнять поиск по базе данных, чтобы определить, можно ли свойства изображения привести к конкретным обучающим данным, каждый раз перед использованием сгенерированного изображения в профессиональных целях. Существующие инструменты для этой цели сосредоточены на поиске изображений схожего семантического содержания. Тем временем многие художники интересуются воспроизведением стиля в моделях текст-изображение. Мы представляем фреймворк для понимания и извлечения описателей стиля изображений. Наш фреймворк включает в себя новый набор данных, созданный с использованием понимания того, что стиль является субъективным свойством изображения, захватывающим сложные, но значимые взаимодействия факторов, включая, но не ограничиваясь, цветами, текстурами, формами и т. д. Мы также предлагаем метод извлечения описателей стиля, которые могут быть использованы для атрибуции стиля сгенерированного изображения к изображениям, использованным в обучающем наборе данных модели текст-изображение. Мы демонстрируем многообещающие результаты в различных задачах поиска стиля. Мы также проводим количественный и качественный анализ атрибуции и сопоставления стилей в модели Stable Diffusion. Код и артефакты доступны по адресу https://github.com/learn2phoenix/CSD.
Мы представляем CosmicMan, модель основы текст-в-изображение, специализированную на создании высококачественных изображений людей. В отличие от текущих универсальных моделей основы, которые застряли в дилемме низкого качества и несоответствия текста и изображения для людей, CosmicMan позволяет создавать фотореалистичные изображения людей с тщательным внешним видом, разумной структурой и точным соответствием текста и изображения с детализированными плотными описаниями. В основе успеха CosmicMan лежат новые рефлексии и перспективы на данных и моделях: (1) Мы обнаружили, что качество данных и масштабируемый поток производства данных необходимы для окончательных результатов от обученных моделей. Поэтому мы предлагаем новую парадигму производства данных, Annotate Anyone, которая служит вечным двигателем данных для производства высококачественных данных с точными, но экономичными аннотациями со временем. На основе этого мы создали крупномасштабный набор данных, CosmicMan-HQ 1.0, с 6 миллионами высококачественных реальных изображений людей в среднем разрешении 1488x1255, с точными текстовыми аннотациями, происходящими из 115 миллионов атрибутов в различных гранулярностях. (2) Мы утверждаем, что модель основы текст-в-изображение, специализированная на людях, должна быть прагматичной - легкой в интеграции в задачи последующего этапа, эффективной в создании высококачественных изображений людей. Поэтому мы предлагаем моделировать отношение между плотными текстовыми описаниями и пикселями изображения декомпозированным образом и представляем обучающую структуру Decomposed-Attention-Refocusing (Daring). Она плавно декомпозирует признаки взаимного внимания в существующей модели диффузии текста-в-изображение и обеспечивает переориентацию внимания без добавления дополнительных модулей. Через Daring мы показываем, что явное дискретизирование непрерывного текстового пространства на несколько основных групп, соответствующих структуре человеческого тела, является ключом к решению проблемы несоответствия с легкостью.
Идеальная модель для плотного описания видео - предсказание подписей, локализованных во времени на видео - должна быть способна обрабатывать длинные входные видео, предсказывать богатые, подробные текстовые описания и производить выводы до завершения обработки всего видео. Однако текущие передовые модели обрабатывают фиксированное количество уменьшенных кадров и делают одно полное предсказание после просмотра всего видео. Мы предлагаем модель плотного описания видео в реальном времени, которая состоит из двух новых компонентов: Во-первых, мы предлагаем новый модуль памяти, основанный на кластеризации поступающих токенов, который может обрабатывать произвольно длинные видео, поскольку память имеет фиксированный размер. Во-вторых, мы разрабатываем алгоритм потокового декодирования, который позволяет нашей модели делать предсказания до завершения обработки всего видео. Наша модель достигает этой возможности потоковой обработки и значительно улучшает передовые показатели на трех бенчмарках плотного описания видео: ActivityNet, YouCook2 и ViTT. Наш код доступен по ссылке https://github.com/google-research/scenic.
Мы представляем Condition-Aware Neural Network (CAN), новый метод добавления управления к моделям генерации изображений. По аналогии с предыдущими методами условного управления, CAN управляет процессом генерации изображений путем динамического изменения веса нейронной сети. Это достигается путем введения модуля генерации весов, осведомленного о состоянии, который генерирует условные веса для сверточных/линейных слоев на основе входного условия. Мы тестируем CAN на генерации изображений с условиями классов в ImageNet и генерации текста в изображение на COCO. CAN последовательно обеспечивает значительные улучшения для моделей диффузионного трансформера, включая DiT и UViT. В частности, CAN в сочетании с EfficientViT (CaT) достигает значения 2.78 FID на ImageNet 512x512, превосходя DiT-XL/2 и требуя в 52 раза меньше MACs на этап выборки.
Техники моделирования предпочтений, такие как прямая оптимизация предпочтений (DPO), показали свою эффективность в улучшении способностей обобщения больших языковых моделей (LLM). Однако в задачах, связанных с следованием видеоинструкциям и предоставлением информативной обратной связи, особенно для обнаружения галлюцинаций в сгенерированных ответах, остается значительным вызовом. Предыдущие исследования исследовали использование больших мультимодальных моделей (LMMs) в качестве моделей вознаграждения для направления моделирования предпочтений, однако их способность точно оценивать достоверность сгенерированных ответов по сравнению с соответствующими видео не была окончательно установлена. В данной статье представлена новая методология, которая использует подробные подписи к видео в качестве замены видеоконтента, позволяя языковым моделям включать эту информацию в качестве подтверждающего доказательства для оценки предсказаний видео вопросно-ответных систем (QA). Наш подход продемонстрировал надежное соответствие механизму вознаграждения модели OpenAI GPT-4V, который принимает видеокадры в качестве входных данных. Более того, мы показываем, что применение этого настроенного вознаграждения через DPO значительно улучшает производительность мультимодальных моделей на видео задачах QA.
Недавние достижения в области больших языковых моделей (LLM) революционизировали область обработки естественного языка, постепенно расширяя свой спектр до мультимодального восприятия и генерации. Однако эффективное интегрирование возможностей прослушивания в LLM представляет существенные вызовы, особенно в отношении обобщения в различных контекстах и выполнения сложных слуховых задач. В данной работе мы представляем WavLLM, надежную и адаптивную речевую большую языковую модель с двойными кодировщиками и адаптером весов LoRA, осведомленным о запросе, оптимизированным двухэтапным подходом к обучению по учебному плану. Используя двойные кодировщики, мы разделяем различные типы речевой информации, используя кодировщик Whisper для обработки семантического содержания речи и кодировщик WavLM для захвата уникальных характеристик личности говорящего. В рамках учебного плана WavLLM сначала развивает свои базовые возможности, оптимизируясь на смешанных элементарных однозадачных задачах, а затем проходит продвинутое многозадачное обучение на более сложных задачах, таких как комбинации элементарных задач. Для улучшения гибкости и соблюдения различных задач и инструкций на втором этапе продвинутого многозадачного обучения вводится адаптер весов LoRA, осведомленный о запросе. Мы проверяем предложенную модель на универсальных речевых бенчмарках, включая задачи, такие как ASR, ST, SV, ER, а также применяем ее к специализированным наборам данных, таким как Gaokao English для понимания на слух для SQA и набор для оценки речевой цепочки мыслей (CoT). Эксперименты показывают, что предложенная модель достигает передовых результатов в широком спектре речевых задач одного размера модели, проявляя устойчивые возможности обобщения при выполнении сложных задач с использованием подхода CoT. Более того, наша модель успешно выполняет задачи Gaokao без специализированного обучения. Коды, модели, аудио и набор оценки Gaokao можно получить на aka.ms/wavllm.
Документ с богатым визуальным содержанием (VRD) использует визуальные особенности в сочетании с лингвистическими подсказками для распространения информации. Обучение пользовательского извлекателя, который идентифицирует именованные сущности в документе, требует большого количества экземпляров целевого типа документа, размеченных в текстовой и визуальной модальностях. Это дорогостоящее узкое место в корпоративных сценариях, где мы хотим обучать пользовательские извлекатели для тысяч различных типов документов масштабируемым способом. Предварительное обучение модели извлекателя на неразмеченных экземплярах целевого типа документа, за которым следует этап донастройки на размеченных человеком экземплярах, не работает в этих сценариях, так как превышает максимально допустимое время обучения, выделенное для извлекателя. Мы решаем этот сценарий, предлагая в данной статье метод обучения, чувствительный к шуму, или NAT. Вместо приобретения дорогостоящих документов, размеченных людьми, NAT использует слабо размеченные документы для обучения извлекателя масштабируемым способом. Чтобы избежать деградации качества модели из-за шумных, слабо размеченных образцов, NAT оценивает уверенность каждого обучающего образца и включает ее в качестве меры неопределенности во время обучения. Мы обучаем несколько современных моделей извлекателей с использованием NAT. Эксперименты на ряде общедоступных и корпоративных наборов данных показывают, что модели, обученные с помощью NAT, не только устойчивы в производительности - превосходят базовую модель обучения передачи до 6% по макро-F1 показателю, но и более эффективны в использовании меток - сокращают количество усилий человека, необходимых для достижения сопоставимой производительности до 73%.
Большие языковые модели (LLM) продемонстрировали впечатляющие возможности в понимании и генерации текста, что побудило исследовательские усилия в направлении видео-LLM для облегчения взаимодействия человека с ИИ на уровне видео. Однако вопрос эффективного кодирования и понимания видео в системах диалога на основе видео остается нерешенным. В данной статье мы исследуем простой, но неисследованный вопрос: можно ли передавать все пространственно-временные токены в LLM, делегируя тем самым задачу моделирования видеопоследовательности LLM? Удивительно, что такой простой подход приводит к значительным улучшениям в понимании видео. На основе этого мы предлагаем ST-LLM, эффективную базовую видео-LLM с моделированием пространственно-временной последовательности внутри LLM. Кроме того, чтобы решить проблемы нагрузки и стабильности, вводимые несжатыми видеотокенами в LLM, мы разрабатываем динамическую стратегию маскирования с индивидуальными целями обучения. Для особенно длинных видео мы также разработали глобально-локальный входной модуль для балансировки эффективности и эффективности. В результате мы используем LLM для эффективного пространственно-временного моделирования, сохраняя эффективность и стабильность. Обширные экспериментальные результаты подтверждают эффективность нашего метода. Через более лаконичную модель и обучающий конвейер ST-LLM устанавливает новый современный результат на VideoChatGPT-Bench и MVBench. Коды доступны по ссылке https://github.com/TencentARC/ST-LLM.