Ежедневно отобранные исследовательские статьи по ИИ с переводами
Языковые модели были эффективны в широком спектре приложений, однако наиболее сложные модели часто являются собственностью. Например, GPT-4 от OpenAI и различные модели от Anthropic являются дорогостоящими и потребляют значительное количество энергии. В отличие от этого, сообщество с открытым исходным кодом создало конкурентоспособные модели, такие как Llama3. Более того, узкоспециализированные меньшие языковые модели, такие как те, которые адаптированы для юридических, медицинских или финансовых задач, превзошли своих собственных аналогов. В данной статье представлен новый подход, который использует функциональные токены для интеграции нескольких моделей с открытым исходным кодом, каждая из которых оптимизирована для конкретных задач. Наш недавно разработанный модель Octopus v4 использует функциональные токены для интеллектуальной направленности запросов пользователей к наиболее подходящей вертикальной модели и переформатирования запроса для достижения лучшей производительности. Octopus v4, эволюция моделей Octopus v1, v2 и v3, превосходит в выборе и понимании параметров и переформатировании. Кроме того, мы исследуем использование графа в качестве универсальной структуры данных, которая эффективно координирует несколько моделей с открытым исходным кодом, используя возможности модели Octopus и функциональных токенов. Используйте наш репозиторий на GitHub (https://www.nexa4ai.com/) для опробования моделей Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) и вносите вклад в более крупный граф языковых моделей. Активировав модели с менее чем 10 миллиардами параметров, мы достигли SOTA MMLU показателя 74.8 среди моделей того же уровня.
Вдохновленные теоремой представления Колмогорова-Арнольда, мы предлагаем сети Колмогорова-Арнольда (KAN) в качестве многообещающей альтернативы многослойным перцептронам (MLP). В то время как у MLP фиксированные функции активации на узлах ("нейронах"), у KAN на рёбрах ("весах") находятся обучаемые функции активации. У KAN вообще нет линейных весов — каждый параметр веса заменяется одномерной функцией, параметризованной как сплайн. Мы показываем, что эта кажущаяся простая изменение делает KAN более эффективными по точности и интерпретируемости, чем MLP. В плане точности, гораздо более компактные KAN могут достичь сравнимой или даже более высокой точности, чем гораздо более крупные MLP при подгонке данных и решении ДУ. Теоретически и эмпирически KAN обладают более быстрыми законами масштабирования нейронов, чем MLP. В плане интерпретируемости KAN могут быть интуитивно визуализированы и легко взаимодействовать с людьми. Через два примера в математике и физике показано, что KAN могут быть полезными партнёрами, помогающими ученым (по новой) открывать математические и физические законы. В заключение, KAN представляют собой многообещающие альтернативы для MLP, открывая возможности для дальнейшего улучшения современных моделей глубокого обучения, которые сильно зависят от MLP.
Большие языковые модели, такие как GPT и Llama, обучаются с использованием потерь предсказания следующего токена. В данной работе мы предлагаем, что обучение языковых моделей на предсказание нескольких будущих токенов одновременно приводит к более высокой эффективности выборки. Более конкретно, на каждой позиции в обучающем корпусе мы просим модель предсказать следующие n токенов, используя n независимых выходных головок, работающих поверх общей модели. Рассматривая многотоковое предсказание как вспомогательную задачу обучения, мы измеряем улучшенные возможности на следующем уровне без дополнительных затрат времени на обучение как для кодовых, так и для естественных языковых моделей. Этот метод становится все более полезным для более крупных моделей и сохраняет свою привлекательность при обучении на протяжении нескольких эпох. Приросты особенно заметны на генеративных бенчмарках, таких как кодирование, где наши модели последовательно превосходят сильные базовые значения на несколько процентных пунктов. Наши модели с 13 миллиардами параметров решают на 12 % больше задач в HumanEval и на 17 % больше в MBPP, чем сравнимые модели с предсказанием следующего токена. Эксперименты на небольших алгоритмических задачах показывают, что многотоковое предсказание благоприятно для развития индуктивных голов и алгоритмических способностей рассуждения. Как дополнительное преимущество, модели, обученные с предсказанием 4 токенов, работают в 3 раза быстрее при выводе, даже с большими размерами пакетов.
В области персонализированной генерации изображений значительно улучшилась способность создавать изображения, сохраняя концепции. Создание изображения, естественно интегрирующего несколько концепций в цельное и визуально привлекательное композиционное целое, действительно может быть вызовом. В данной статье представлен подход "InstantFamily", который использует новый механизм маскированного кросс-внимания и мультимодальный стек встраивания для достижения генерации изображений с несколькими идентификаторами без обучения. Наш метод эффективно сохраняет идентификатор, поскольку использует глобальные и локальные признаки из предварительно обученной модели распознавания лиц, интегрированные с текстовыми условиями. Кроме того, наш механизм маскированного кросс-внимания обеспечивает точный контроль над множественными идентификаторами и композицией в созданных изображениях. Мы демонстрируем эффективность InstantFamily через эксперименты, показывающие его превосходство в генерации изображений с несколькими идентификаторами, а также решение известных проблем генерации изображений с несколькими идентификаторами. Кроме того, наша модель достигает передовых результатов как в сохранении одиночного, так и нескольких идентификаторов. Более того, наша модель обладает замечательной масштабируемостью с большим количеством сохраненных идентификаторов, чем была изначально обучена.
Методы итеративной оптимизации предпочтений недавно показали хорошие результаты для задач общего настройки инструкций, но обычно мало улучшают задачи рассуждения (Yuan et al., 2024, Chen et al., 2024). В данной работе мы разрабатываем итеративный подход, который оптимизирует предпочтения между конкурирующими кандидатами Цепочки Мыслей (CoT), оптимизируя победные и проигрышные шаги рассуждения, приводящие к правильному ответу. Мы обучаемся с использованием модифицированной функции потерь DPO (Rafailov et al., 2023) с дополнительным отрицательным логарифмическим членом, который мы считаем критически важным. Мы показываем улучшение рассуждения на протяжении повторяющихся итераций этой схемы. Несмотря на то, что мы полагаемся только на примеры в обучающем наборе, наш подход приводит к увеличению точности для Llama-2-70B-Chat с 55.6% до 81.6% на GSM8K (и 88.7% при большинстве голосов из 32 образцов), с 12.5% до 20.8% на MATH и с 77.8% до 86.7% на ARC-Challenge, что превосходит другие модели на основе Llama-2, не полагающиеся на дополнительные источники данных.
Мы увеличили длину контекста модели Llama-3-8B-Instruct с 8K до 80K с помощью донастройки QLoRA. Весь цикл обучения проходит очень эффективно и занимает 8 часов на одном GPU-сервере 8xA800 (80G). Полученная модель демонстрирует выдающиеся результаты на широком спектре задач оценки, таких как NIHS, поиск тем и понимание языка в длинном контексте; при этом она также успешно сохраняет исходные возможности в коротких контекстах. Драматическое увеличение контекста в основном обусловлено всего лишь 3.5K синтетическими обучающими образцами, сгенерированными GPT-4, что указывает на врожденный (но в значительной степени недооцененный) потенциал LLMs увеличивать исходную длину контекста. Фактически, длину контекста можно увеличить значительно за пределы 80K с использованием больших вычислительных ресурсов. Поэтому команда планирует публично опубликовать все ресурсы (включая данные, модель, процесс генерации данных, код обучения) для содействия будущим исследованиям сообщества: https://github.com/FlagOpen/FlagEmbedding.
Данная работа представляет MotionLCM, расширяя генерацию управляемого движения до уровня реального времени. Существующие методы пространственного управления в генерации движения на основе текста страдают от значительной неэффективности времени выполнения. Для решения этой проблемы мы предлагаем модель согласования латентного движения (MotionLCM) для генерации движения, основанную на модели латентного диффузии (MLD). Применяя одношаговый (или несколькими шагами) вывод, мы дополнительно улучшаем эффективность времени выполнения модели латентной диффузии движения для генерации движения. Для обеспечения эффективного управления мы внедряем сеть управления движением в латентное пространство MotionLCM и позволяем явным образом управлять сигналами управления (например, траекторией таза) в обычном пространстве движения для прямого контроля процесса генерации, аналогично управлению другими моделями диффузии без латентов для генерации движения. Применяя эти техники, наш подход может генерировать движения человека с текстом и сигналами управления в реальном времени. Экспериментальные результаты демонстрируют выдающиеся возможности генерации и управления MotionLCM, сохраняя при этом эффективность времени выполнения в реальном времени.
Существующие методы автоматической генерации подписей для визуального контента сталкиваются с такими проблемами, как недостаток деталей, галлюцинации контента и недостаточное следование инструкциям. В данной работе мы предлагаем VisualFactChecker (VFC), гибкую тренировочно-независимую конвейерную систему, которая генерирует качественные и детальные подписи как для 2D изображений, так и для 3D объектов. VFC состоит из трех этапов: 1) предложение, на котором модели генерации текста к изображениям предлагают несколько начальных подписей; 2) верификация, где большая языковая модель (LLM) использует инструменты, такие как обнаружение объектов и модели VQA, для проверки фактов в предложенных подписях; 3) генерация подписи, где LLM создает окончательную подпись, суммируя предложения подписей и результаты верификации проверки фактов. На этом этапе VFC способен гибко генерировать подписи в различных стилях, следуя сложным инструкциям. Мы проводим всестороннюю оценку подписей с использованием четырех метрик: 1) CLIP-Score для сходства изображения и текста; 2) CLIP-Image-Score для измерения сходства между оригинальным изображением и воссозданным изображением, сгенерированным моделью текст-к-изображению с использованием подписи; 3) исследование с участием людей на платформе Amazon Mechanical Turk; 4) GPT-4V для детальной оценки. Результаты оценки показывают, что VFC превосходит современные методы генерации подписей для 2D изображений на наборе данных COCO и 3D объектов на наборе данных Objaverse. Наше исследование демонстрирует, что путем объединения моделей с открытым исходным кодом в конвейерную систему мы можем достичь возможности генерации подписей, сравнимой с закрытыми моделями, такими как GPT-4V, несмотря на более чем 10-кратно меньший размер модели.
Мы предлагаем GS-LRM, масштабируемую модель большой реконструкции, способную предсказывать высококачественные трехмерные гауссовы примитивы по 2-4 представленным разреженным изображениям за 0,23 секунды на одном графическом процессоре A100. Наша модель имеет очень простую архитектуру на основе трансформера; мы разбиваем входные представленные изображения на патчи, передаем объединенные токены многопредставлений изображения через последовательность блоков трансформера и декодируем конечные параметры гауссова распределения на пиксель напрямую из этих токенов для дифференцируемого рендеринга. В отличие от предыдущих моделей большой реконструкции, которые могут только восстанавливать объекты, предсказывая гауссовы распределения на пиксель, GS-LRM естественным образом обрабатывает сцены с большими изменениями в масштабе и сложности. Мы показываем, что наша модель может работать как с захватом объектов, так и с захватом сцен, обучая ее соответственно на Objaverse и RealEstate10K. В обоих сценариях модели значительно превосходят современные базовые модели. Мы также демонстрируем применение нашей модели в последующих задачах генерации трехмерных объектов. Наш веб-сайт проекта доступен по адресу: https://sai-bi.github.io/project/gs-lrm/ .
После появления NeRFs 3D Gaussian Splatting (3D-GS) открыл путь к нейронной рендерингу в реальном времени, преодолевая вычислительную нагрузку объемных методов. После первоначальной работы 3D-GS несколько методов пытались достичь сжимаемой и высококачественной производительности. Однако, используя оптимизационную схему, не зависящую от геометрии, эти методы игнорируют врожденную трехмерную структуру сцены, что ограничивает экспрессивность и качество представления, приводя к различным плавающим точкам и артефактам. В данной работе мы предлагаем метод Gaussian Splatting, основанный на структуре (SAGS), который неявно кодирует геометрию сцены, что отражается на производительности рендеринга новых видов и снижает требования к хранению на бенчмарках. SAGS основан на локально-глобальном графовом представлении, которое облегчает обучение сложных сцен и обеспечивает значимые смещения точек, сохраняющие геометрию сцены. Кроме того, мы представляем легковесную версию SAGS, используя простую, но эффективную схему интерполяции средней точки, которая демонстрирует компактное представление сцены с уменьшением размера до 24 раз без использования каких-либо стратегий сжатия. Обширные эксперименты на нескольких бенчмарках показывают превосходство SAGS по сравнению с передовыми методами 3D-GS как по качеству рендеринга, так и по размеру модели. Кроме того, мы демонстрируем, что наш метод, ориентированный на структуру, может эффективно уменьшить плавающие артефакты и нерегулярные искажения предыдущих методов, обеспечивая точные карты глубины. Страница проекта: https://eververas.github.io/SAGS/.
Наборы данных по видению и языку являются важными как для исследований текст-к изображению (T2I), так и изображение-к тексту (I2T). Однако текущие наборы данных не содержат описаний с деталями высокой степени детализации, которые позволили бы моделям изучать более богатые ассоциации. Для заполнения этого пробела мы представляем набор данных "Описания связанных и контрастных изображений" (DOCCI), содержащий длинные, человеком аннотированные английские описания для 15 тыс. изображений, сделанных, отобранных и предоставленных одним исследователем с целью захвата ключевых вызовов, таких как пространственные отношения, подсчет, отображение текста, знание мира и другие. Мы инструктируем человеческих аннотаторов создавать исчерпывающие описания для каждого изображения; они в среднем составляют 136 слов и созданы для четкого различения каждого изображения от связанных или похожих. Каждое описание является высоко композиционным и обычно охватывает несколько вызовов. Через как количественный, так и качественный анализ мы демонстрируем, что DOCCI служит эффективным ресурсом для обучения генерации текста к изображению - модель PaLI 5B, донастроенная на DOCCI, показывает равные или превосходные результаты по сравнению с высокопроизводительными более крупными моделями, такими как LLaVA-1.5 7B и InstructBLIP 7B. Более того, мы показываем, что DOCCI является полезной площадкой для генерации текста к изображению, выявляя ограничения текущих моделей текст-к изображению в улавливании длинных описаний и деталей.
Генерация трехмерных сцен быстро стала сложным новым направлением исследований, стимулированным последовательными улучшениями моделей диффузии для генерации двумерных изображений. Большинство предыдущих работ в этой области создают сцены, путем итеративного склеивания вновь сгенерированных кадров с существующей геометрией. Эти работы часто зависят от предварительно обученных оценщиков монокулярной глубины для преобразования сгенерированных изображений в трехмерные, объединяя их с представлением сцены. Затем эти подходы часто оцениваются с помощью текстовой метрики, измеряющей сходство между сгенерированными изображениями и заданным текстовым запросом. В данной работе мы вносим два фундаментальных вклада в область генерации трехмерных сцен. Во-первых, мы отмечаем, что преобразование изображений в трехмерное пространство с помощью модели оценки монокулярной глубины является неоптимальным, поскольку игнорирует геометрию существующей сцены. Мы представляем новую модель завершения глубины, обученную с использованием дистилляции учителя и самообучения для изучения процесса трехмерного слияния, что приводит к улучшенной геометрической согласованности сцены. Во-вторых, мы вводим новую схему бенчмаркинга для методов генерации сцен, основанную на геометрии истинных данных, и таким образом измеряем качество структуры сцены.
Подходы на основе оптимизации, такие как сэмплирование дистилляции оценок (SDS), обещают в области генерации трехмерных объектов без обучения, но страдают от низкой эффективности, в основном из-за большого количества оценок функций (NFE), необходимых для каждого образца. В данной статье мы представляем итеративную реконструкцию на основе оценок (SIR), эффективный и общий алгоритм для генерации трехмерных объектов с использованием многопредставленной модели диффузии на основе оценок. Учитывая изображения, созданные моделью диффузии, SIR снижает количество оценок функций путем многократной оптимизации параметров трехмерной модели, в отличие от однократной оптимизации в SDS, имитируя процесс трехмерной реконструкции. С улучшениями, включая оптимизацию в пространстве пикселей, мы представляем эффективный подход под названием MicroDreamer, который обычно применим к различным трехмерным представлениям и задачам генерации трехмерных объектов. В частности, сохраняя сопоставимую производительность, MicroDreamer работает в 5-20 раз быстрее, чем SDS при генерации нейронного радиационного поля и требует около 20 секунд для создания сеток из трехмерного гауссовского разделения на одном графическом процессоре A100, сокращая время самого быстрого базового нулевого подхода, DreamGaussian, пополам. Наш код доступен по адресу https://github.com/ML-GSAI/MicroDreamer.
Современные исследования в области 3D, особенно в реконструкции и генерации, в значительной степени зависят от 2D изображений в качестве входных данных или наблюдения. Однако текущие конструкции для этого 2D-3D отображения требуют больших объемов памяти, что становится значительным узким местом для существующих методов и затрудняет появление новых приложений. В ответ на это мы предлагаем пару высокомасштабируемых компонентов для 3D нейронных полей: Lightplane Render и Splatter, которые значительно снижают использование памяти при 2D-3D отображении. Эти инновации позволяют обрабатывать намного больше и более высокого разрешения изображений с небольшими затратами памяти и вычислительными ресурсами. Мы демонстрируем их полезность в различных приложениях, начиная от оптимизации одиночных сцен с потерями на уровне изображения до реализации универсального конвейера для значительного масштабирования 3D реконструкции и генерации. Код: https://github.com/facebookresearch/lightplane.