Ежедневно отобранные исследовательские статьи по ИИ с переводами
Способность к самокоррекции является весьма желательной характеристикой больших языковых моделей (LLM), однако она постоянно оказывается в значительной степени неэффективной в современных LLM. Существующие подходы к обучению самокоррекции требуют либо нескольких моделей, либо опираются на более способную модель или другие формы надзора. В этой связи мы разрабатываем многоходовой онлайн-подход к обучению с подкреплением (RL), SCoRe, который значительно улучшает способность LLM к самокоррекции, используя исключительно самогенерируемые данные. Для создания SCoRe мы сначала показываем, что варианты надзорного дообучения (SFT) на офлайн-следах коррекции, сгенерированных моделью, недостаточны для внедрения поведения самокоррекции. В частности, мы наблюдаем, что обучение через SFT страдает от несоответствия распределения между обучающими данными и собственными ответами модели или неявно предпочитает только определенный режим поведения коррекции, который часто неэффективен на этапе тестирования. SCoRe решает эти проблемы, обучаясь на собственном распределении самогенерируемых следов коррекции и используя соответствующую регуляризацию для направления процесса обучения на изучение стратегии самокоррекции, эффективной на этапе тестирования, вместо простого подгонки высокооцененных ответов для заданного запроса. Эта регуляризация предписывает выполнение первой фазы RL на базовой модели для создания инициализации политики, менее подверженной коллапсу, а затем использование бонуса вознаграждения для усиления самокоррекции во время обучения. Примененный к моделям Gemini 1.0 Pro и 1.5 Flash, мы обнаружили, что SCoRe достигает передовой производительности самокоррекции, улучшая самокоррекцию базовых моделей на 15.6% и 9.1% соответственно на бенчмарках MATH и HumanEval.
Предварительное обучение на масштабных высококачественных наборах данных является ключевым для улучшения способностей рассуждения крупных языковых моделей (LLM), особенно в специализированных областях, таких как математика. Несмотря на признанное значение, в области мультимодальных LLM в настоящее время отсутствует всеобъемлющий набор данных для предварительного обучения с открытым исходным кодом, специально разработанный для математического рассуждения. Для заполнения этой пробела мы представляем InfiMM-WebMath-40B, высококачественный набор данных с переплетенными изображениями и текстовыми документами. Он включает 24 миллиона веб-страниц, 85 миллионов связанных URL-адресов изображений и 40 миллиардов токенов текста, все тщательно извлеченных и отфильтрованных из CommonCrawl. Мы предоставляем подробный обзор нашего процесса сбора и обработки данных. Для демонстрации надежности InfiMM-WebMath-40B мы провели оценку как в настройках только текста, так и в мультимодальных настройках. Наши оценки на текстовых бенчмарках показывают, что, несмотря на использование всего 40 миллиардов токенов, наш набор данных значительно улучшает производительность нашей модели 1.3B, достигая результатов, сравнимых с DeepSeekMath-1.3B, который использует 120 миллиардов токенов для той же размерности модели. Тем не менее, с введением нашего мультимодального математического набора данных для предварительного обучения, наши модели устанавливают новый уровень качества среди моделей с открытым исходным кодом на мультимодальных математических бенчмарках, таких как MathVerse и We-Math. Мы предоставляем наши данные по ссылке https://huggingface.co/datasets/Infi-MM/InfiMM-WebMath-40B.
Появление больших языковых моделей (LLM) открыло путь для искусственных интеллектуальных поисковых систем, например, SearchGPT, демонстрируя новую парадигму взаимодействия человека с интернетом. Однако большинство существующих искусственных интеллектуальных поисковых систем ограничены текстовыми настройками, игнорируя мультимодальные запросы пользователей и тексто-изображенческую природу информации на веб-сайтах. Недавно большие мультимодальные модели (LMM) сделали впечатляющие успехи. Тем не менее, остается недостаточно исследованным, могут ли они функционировать как искусственные интеллектуальные поисковые системы, что оставляет открытым вопрос о потенциале LMM в мультимодальном поиске. Для этой цели мы сначала разрабатываем тонкую конвейерную систему, MMSearch-Engine, чтобы предоставить любым LMM возможности мультимодального поиска. Помимо этого, мы представляем MMSearch, комплексный бенчмарк для оценки производительности мультимодального поиска LMM. Составленный набор данных содержит 300 вручную собранных примеров, охватывающих 14 подобластей, которые не пересекаются с данными обучения текущих LMM, обеспечивая возможность получить правильный ответ только при поиске. С использованием MMSearch-Engine LMM оцениваются путем выполнения трех отдельных задач (повторный запрос, переранжирование и суммирование) и одной сложной задачи end-to-end с полным процессом поиска. Мы проводим обширные эксперименты на закрытых и открытых LMM. Среди всех протестированных моделей GPT-4o с MMSearch-Engine достигает лучших результатов, превосходя коммерческий продукт Perplexity Pro в задаче end-to-end, демонстрируя эффективность нашей предложенной конвейерной системы. Мы также представляем анализ ошибок, чтобы раскрыть, что текущие LMM все еще сталкиваются с трудностями в полном понимании мультимодальных поисковых задач, и проводим исследование абляции, чтобы указать на потенциал масштабирования вычислений во время тестирования для искусственной интеллектуальной поисковой системы. Мы надеемся, что MMSearch может предоставить уникальные идеи для направления будущего развития мультимодальных искусственных интеллектуальных поисковых систем. Страница проекта: https://mmsearch.github.io
Выбор наилучшего кодового решения из нескольких сгенерированных является важной задачей в генерации кода, которую можно выполнить, используя надежные валидаторы (например, тестовые случаи, написанные разработчиком) для помощи. Поскольку надежные тестовые случаи не всегда доступны и могут быть дорогими в построении на практике, исследователи предлагают автоматически генерировать тестовые случаи для оценки кодовых решений. Однако, когда и кодовые решения, и тестовые случаи являются правдоподобными и ненадежными, выбор наилучшего решения становится сложной задачей. Хотя некоторые эвристические стратегии были предложены для решения этой проблемы, они лишены крепкой теоретической гарантии, и остается открытым вопрос о существовании оптимальной стратегии выбора. Наша работа вносит два вклада. Во-первых, мы показываем, что в рамках байесовского подхода оптимальная стратегия выбора может быть определена на основе апостериорной вероятности наблюдаемых прохождений состояний между решениями и тестами. Проблема определения наилучшего решения затем формулируется как задача целочисленного программирования. Во-вторых, мы предлагаем эффективный подход для приближения этой оптимальной (но невычислимой) стратегии, где ошибка приближения ограничена правильностью предварительных знаний. Затем мы внедряем эффективные предварительные знания для настройки задач генерации кода. Как теоретические, так и эмпирические исследования подтверждают, что существующие эвристики ограничены в выборе наилучших решений с правдоподобными тестовыми случаями. Наша предложенная приближенная оптимальная стратегия B4 значительно превосходит существующие эвристики в выборе кодовых решений, сгенерированных крупными языковыми моделями (LLM) с тестами, сгенерированными LLM, достигая относительного улучшения производительности до 50% по сравнению с самой сильной эвристикой и до 246% по сравнению с случайным выбором в наиболее сложных сценариях. Наш код общедоступен по адресу https://github.com/ZJU-CTAG/B4.
Визуальные данные поступают в различных формах, начиная от небольших иконок всего нескольких пикселей до длинных видеороликов, охватывающих часы. Существующие мультимодальные LLM-модели обычно стандартизируют эти разнообразные визуальные входы до фиксированного разрешения для визуальных кодировщиков и выдают схожее количество токенов для LLM. Этот подход неоптимален для мультимодального понимания и неэффективен для обработки входов с длинным и коротким визуальным содержанием. Для решения проблемы мы предлагаем Oryx, унифицированную мультимодальную архитектуру для пространственно-временного понимания изображений, видеороликов и многозрительных 3D сцен. Oryx предлагает решение по запросу для плавной и эффективной обработки визуальных входов с произвольными пространственными размерами и временными длинами благодаря двум основным инновациям: 1) предварительно обученная модель OryxViT, способная кодировать изображения любого разрешения в LLM-совместимые визуальные представления; 2) динамический модуль сжатия, поддерживающий сжатие визуальных токенов от 1x до 16x по запросу. Эти конструктивные особенности позволяют Oryx обрабатывать крайне длинные визуальные контексты, такие как видеоролики, с низким разрешением и высоким сжатием, сохраняя при этом высокую точность распознавания для задач, таких как понимание документов с исходным разрешением и без сжатия. Помимо архитектурных улучшений, улучшенная кураторская работа с данными и специализированное обучение по извлечению длинных контекстов и пространственно-осведомленных данных помогают Oryx одновременно достичь сильных возможностей в понимании изображений, видеороликов и 3D-мультимодальности. Наша работа доступна в открытом доступе на https://github.com/Oryx-mllm/Oryx.
Мы предлагаем первую структуру видео-диффузии для цветизации видео с линейными чертами с использованием ссылочных данных. В отличие от предыдущих работ, основанных исключительно на моделях генерации изображений для раскрашивания кадр за кадром, наш подход использует масштабную предварительно обученную модель видео-диффузии для создания цветных анимационных видео. Этот подход обеспечивает более временно согласованные результаты и лучше справляется с большими движениями. Во-первых, мы представляем Sketch-guided ControlNet, который обеспечивает дополнительное управление для настройки модели диффузии изображения в видео для управляемого синтеза видео, позволяя создавать анимационные видео на основе линейных черт. Затем мы предлагаем Reference Attention для упрощения передачи цветов из опорного кадра в другие кадры с быстрыми и обширными движениями. Наконец, мы представляем новую схему последовательной выборки, включающую модуль наложенного смешивания и Prev-Reference Attention, для расширения модели видео-диффузии за пределы ее исходного фиксированного ограничения длины для длительной цветизации видео. Как качественные, так и количественные результаты демонстрируют, что наш метод значительно превосходит современные техники по качеству кадра и видео, а также временной согласованности. Более того, наш метод способен создавать высококачественные, длительные временно согласованные анимационные видео с большими движениями, что недостижимо в предыдущих работах. Наш код и модель доступны по адресу https://luckyhzt.github.io/lvcd.
Фаза предварительного обучения языковых моделей часто начинается с параметров, инициализированных случайным образом. С учетом текущих тенденций в масштабировании моделей обучение их большого количества параметров может быть чрезвычайно медленным и затратным. В отличие от этого, небольшие языковые модели дешевле обучать, но часто не могут достичь точности больших моделей. В данной статье мы исследуем увлекательную идею объединения этих двух различных режимов: можем ли мы разработать метод инициализации больших языковых моделей с использованием меньших предварительно обученных моделей? Принесет ли такая инициализация какие-либо преимущества в плане времени обучения и конечной точности? В данной статье мы представляем HyperCloning, метод, который может расширить параметры предварительно обученной языковой модели до параметров более крупной модели с увеличенными скрытыми измерениями. Наш метод гарантирует, что более крупная модель сохраняет функциональность меньшей модели. В результате более крупная модель уже наследует предсказательную силу и точность меньшей модели до начала обучения. Мы демонстрируем, что обучение такой инициализированной модели приводит к значительной экономии в плане часов GPU, необходимых для предварительного обучения больших языковых моделей.
Растущий спрос на высококачественные 3D-ресурсы в различных отраслях требует эффективного и автоматизированного создания 3D-контента. Несмотря на недавние достижения в области 3D-генеративных моделей, существующие методы все еще сталкиваются с проблемами скорости оптимизации, геометрической точности и нехваткой ресурсов для физически основанного рендеринга (PBR). В данной статье мы представляем 3DTopia-XL, масштабную собственную 3D-генеративную модель, разработанную для преодоления этих ограничений. 3DTopia-XL использует новаторское примитивное трехмерное представление, PrimX, которое кодирует детальную форму, альбедо и материальное поле в компактном тензорном формате, облегчая моделирование геометрии высокого разрешения с ресурсами PBR. На основе нового представления мы предлагаем генеративную структуру на основе Диффузионного Трансформера (DiT), которая включает в себя 1) Сжатие Примитивного Патча и 2) Латентную Диффузию Примитивов. 3DTopia-XL учится генерировать высококачественные 3D-ресурсы из текстовых или визуальных входных данных. Мы проводим обширные качественные и количественные эксперименты, чтобы продемонстрировать, что 3DTopia-XL значительно превосходит существующие методы в создании высококачественных 3D-ресурсов с мелкозернистыми текстурами и материалами, эффективно сокращая разрыв в качестве между генеративными моделями и прикладными задачами в реальном мире.
Методы генерации персонализированных изображений без настройки достигли значительного успеха в поддержании согласованности лиц, то есть идентичности, даже при наличии нескольких персонажей. Однако отсутствие целостной согласованности в сценах с несколькими персонажами затрудняет способность этих методов создавать связное повествование. В данной статье мы представляем StoryMaker, решение по персонализации, которое сохраняет не только согласованность лиц, но также одежды, причесок и фигур, тем самым облегчая создание истории через серию изображений. StoryMaker включает условия на основе идентичности лиц и обрезанных изображений персонажей, включая одежду, прически и фигуры. Конкретно, мы интегрируем информацию об идентичности лиц с обрезанными изображениями персонажей, используя Ресэмплер с учетом позиции воспринимающего (PPR), чтобы получить отличительные черты персонажей. Для предотвращения смешивания нескольких персонажей и фона мы отдельно ограничиваем области влияния кросс-внимания различных персонажей и фона с использованием потерь MSE с масками сегментации. Кроме того, мы обучаем сеть генерации с учетом поз, чтобы способствовать разделению от поз. Также используется LoRA для улучшения достоверности и качества. Эксперименты подчеркивают эффективность нашего подхода. StoryMaker поддерживает множество приложений и совместим с другими общественными плагинами. Наши исходные коды и веса модели доступны по адресу https://github.com/RedAIGC/StoryMaker.
Недавние методы генерации текстур достигают впечатляющих результатов благодаря мощным генеративным априорным знаниям, которые они используют из масштабных моделей диффузии текст-изображение. Однако абстрактные текстовые подсказки ограничены в предоставлении глобальной текстурной или формовой информации, что приводит к появлению размытых или несогласованных узоров при генерации текстуры. Для решения этой проблемы мы представляем FlexiTex, встраивая богатую информацию с помощью визуального руководства для создания текстуры высокого качества. Основу FlexiTex составляет модуль улучшения визуального руководства, который интегрирует более конкретную информацию из визуального руководства для уменьшения неоднозначности в текстовой подсказке и сохранения высокочастотных деталей. Для дальнейшего улучшения визуального руководства мы представляем модуль адаптации с учетом направления, который автоматически разрабатывает направленные подсказки на основе различных ракурсов камеры, избегая проблемы Януса и сохраняя семантическую глобальную согласованность. Благодаря визуальному руководству FlexiTex производит количественно и качественно достоверные результаты, демонстрируя свой потенциал для продвижения генерации текстур для прикладных задач в реальном мире.
Языковые модели (LMs) могут допускать ошибки, которые сложно обнаружить для людей, особенно когда задача сложная. RLHF, наиболее популярный метод после обучения, может усугубить эту проблему: для достижения более высоких наград LMs могут становиться лучше в убеждении людей в своей правоте даже тогда, когда они ошибаются. Мы изучаем это явление в рамках стандартного конвейера RLHF, называя его "U-SOPHISTRY", поскольку оно не предназначено разработчиками модели. Конкретно, мы просим ограниченных по времени (например, 3-10 минут) человеческих испытуемых оценить правильность выводов модели и рассчитать точность людей по сравнению с эталонными метками. В задаче вопрос-ответ (QuALITY) и задаче программирования (APPS) RLHF делает LMs лучше в убеждении наших испытуемых, но не в выполнении задачи правильно. RLHF также делает модель более сложной для оценки: ложноположительная оценка наших испытуемых увеличивается на 24,1% в QuALITY и на 18,3% в APPS. Наконец, мы показываем, что метод проникновения, передовой подход для обнаружения преднамеренной софистики (например, моделей с задними дверями), не обобщается на U-SOPHISTRY. Наши результаты подчеркивают важный режим отказа RLHF и призывают к дальнейшему исследованию в помощи людям в их выравнивании.
Настройка инструкций улучшает крупные языковые модели (LLM), выстраивая их в соответствии с предпочтениями людей в различных задачах. Традиционные подходы к созданию наборов данных для настройки инструкций сталкиваются с серьезными проблемами для языков с ограниченными ресурсами из-за зависимости от аннотации данных. В данной работе представлен новый метод, мультиязычные обратные инструкции (MURI), который генерирует высококачественные наборы данных для настройки инструкций для языков с ограниченными ресурсами без необходимости участия человеческих аннотаторов или существующих мультиязычных моделей. Используя обратные инструкции и трансляционный конвейер, MURI создает пары инструкция-вывод из существующих текстов, написанных на языках с ограниченными ресурсами. Этот метод обеспечивает культурную актуальность и разнообразие, используя тексты из различных родных областей и применяя фильтры для исключения неприемлемого контента. Наш набор данных, MURI-IT, включает более 2 миллионов пар инструкция-вывод на 200 языках. Оценка со стороны носителей языка и эксперименты по настройке с моделями mT5 демонстрируют эффективность подхода как для понимания естественного языка, так и для генерации открытого текста. Мы публично выпустили наборы данных и модели на https://github.com/akoksal/muri.
Мы представляем 3DGS-LM, новый метод, ускоряющий восстановление трехмерного гауссовского сплетения (3DGS) путем замены его оптимизатора ADAM на настроенный метод Левенберга-Марквардта (LM). Существующие методы сокращают время оптимизации путем уменьшения количества гауссов или улучшения реализации дифференцируемого растеризатора. Однако они все еще полагаются на оптимизатор ADAM для подгонки параметров гаусса сцены за тысячи итераций, что может занять до часа. Для этого мы заменяем оптимизатор на LM, который работает с дифференцируемым растеризатором 3DGS. Для эффективной параллелизации на GPU мы предлагаем структуру кэширования данных для промежуточных градиентов, позволяющую нам эффективно вычислять произведения Якоби-вектор в пользовательских ядрах CUDA. На каждой итерации LM мы вычисляем направления обновления из нескольких подмножеств изображений с использованием этих ядер и комбинируем их в взвешенное среднее. В целом, наш метод на 30% быстрее оригинального 3DGS при сохранении того же качества восстановления. Наша оптимизация также не зависит от других методов, ускоряющих 3DGS, что позволяет даже более быстрое ускорение по сравнению с обычным 3DGS.
Генерация видео с использованием моделей на основе диффузии ограничена высокими вычислительными затратами из-за итеративного процесса диффузии по кадрам. В данной работе представлена сеть Diffusion Reuse MOtion (Dr. Mo) для ускорения генерации латентного видео. Нашим ключевым открытием является то, что крупнозернистые шумы на ранних этапах денойзинга продемонстрировали высокую согласованность движения между последовательными кадрами видео. Исходя из этого наблюдения, Dr. Mo передает эти крупнозернистые шумы на следующий кадр, интегрируя тщательно разработанные, легкие межкадровые движения, устраняя массовую вычислительную избыточность в моделях диффузии по кадрам. Более чувствительные и мелкозернистые шумы все еще получаются на более поздних этапах денойзинга, что может быть важным для сохранения визуального качества. Таким образом, определение того, на каком промежуточном этапе следует переключиться с передачи на основе движения на денойзинг, может быть ключевой проблемой и важным компромиссом между эффективностью и качеством. Dr. Mo использует мета-сеть под названием Denoising Step Selector (DSS) для динамического определения желательных промежуточных этапов на протяжении кадров видео. Обширные оценки на задачах генерации и редактирования видео показали, что Dr. Mo может существенно ускорить модели диффузии в видеозадачах с улучшенным визуальным качеством.
Задача автоматической транскрипции аудио (Automated Audio Captioning, AAC) заключается в запросе моделей на генерацию естественноязыковых описаний аудиовхода. Оценка этих машинно-сгенерированных аудиоописаний является сложной задачей, требующей учета различных факторов, среди которых понимание аудиосцены, вывод звуковых объектов, временная согласованность и окружающий контекст сцены. В то время как текущие методы фокусируются на конкретных аспектах, они часто не способны обеспечить общую оценку, которая хорошо коррелирует с человеческим суждением. В данной работе мы предлагаем CLAIR-A, простой и гибкий метод, который использует возможности нулевой настройки крупных языковых моделей (Large Language Models, LLMs) для оценки кандидатских аудиоописаний, обращаясь напрямую к LLMs за оценкой семантического расстояния. В наших оценках CLAIR-A лучше предсказывает человеческие суждения о качестве по сравнению с традиционными метриками, с улучшением относительной точности на 5,8% по сравнению с метрикой, специфичной для области FENSE, и до 11% по сравнению с лучшей универсальной мерой на наборе данных Clotho-Eval. Более того, CLAIR-A предлагает большую прозрачность, позволяя языковой модели объяснить рассуждения за свои оценки, и данные объяснения оцениваются человеческими оценщиками на 30% лучше, чем те, которые предоставлены базовыми методами. CLAIR-A доступен публично по адресу https://github.com/DavidMChan/clair-a.