HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

14 papers found

Осьминог v4: Граф языковых моделей
Octopus v4: Graph of language models

Apr 30

ByWei Chen, Zhiyuan Li

118

Языковые модели были эффективны в широком спектре приложений, однако наиболее сложные модели часто являются собственностью. Например, GPT-4 от OpenAI и различные модели от Anthropic являются дорогостоящими и потребляют значительное количество энергии. В отличие от этого, сообщество с открытым исходным кодом создало конкурентоспособные модели, такие как Llama3. Более того, узкоспециализированные меньшие языковые модели, такие как те, которые адаптированы для юридических, медицинских или финансовых задач, превзошли своих собственных аналогов. В данной статье представлен новый подход, который использует функциональные токены для интеграции нескольких моделей с открытым исходным кодом, каждая из которых оптимизирована для конкретных задач. Наш недавно разработанный модель Octopus v4 использует функциональные токены для интеллектуальной направленности запросов пользователей к наиболее подходящей вертикальной модели и переформатирования запроса для достижения лучшей производительности. Octopus v4, эволюция моделей Octopus v1, v2 и v3, превосходит в выборе и понимании параметров и переформатировании. Кроме того, мы исследуем использование графа в качестве универсальной структуры данных, которая эффективно координирует несколько моделей с открытым исходным кодом, используя возможности модели Octopus и функциональных токенов. Используйте наш репозиторий на GitHub (https://www.nexa4ai.com/) для опробования моделей Octopus v4 (https://huggingface.co/NexaAIDev/Octopus-v4) и вносите вклад в более крупный граф языковых моделей. Активировав модели с менее чем 10 миллиардами параметров, мы достигли SOTA MMLU показателя 74.8 среди моделей того же уровня.

KAN: Сети Колмогорова-Арнольда
KAN: Kolmogorov-Arnold Networks

Apr 30

ByZiming Liu, Yixuan Wang, Sachin Vaidya, Fabian Ruehle, James Halverson, Marin Soljačić, Thomas Y. Hou, Max Tegmark

114

Вдохновленные теоремой представления Колмогорова-Арнольда, мы предлагаем сети Колмогорова-Арнольда (KAN) в качестве многообещающей альтернативы многослойным перцептронам (MLP). В то время как у MLP фиксированные функции активации на узлах ("нейронах"), у KAN на рёбрах ("весах") находятся обучаемые функции активации. У KAN вообще нет линейных весов — каждый параметр веса заменяется одномерной функцией, параметризованной как сплайн. Мы показываем, что эта кажущаяся простая изменение делает KAN более эффективными по точности и интерпретируемости, чем MLP. В плане точности, гораздо более компактные KAN могут достичь сравнимой или даже более высокой точности, чем гораздо более крупные MLP при подгонке данных и решении ДУ. Теоретически и эмпирически KAN обладают более быстрыми законами масштабирования нейронов, чем MLP. В плане интерпретируемости KAN могут быть интуитивно визуализированы и легко взаимодействовать с людьми. Через два примера в математике и физике показано, что KAN могут быть полезными партнёрами, помогающими ученым (по новой) открывать математические и физические законы. В заключение, KAN представляют собой многообещающие альтернативы для MLP, открывая возможности для дальнейшего улучшения современных моделей глубокого обучения, которые сильно зависят от MLP.

Лучшие и быстрее большие языковые модели через множественное предсказание токенов.
Better & Faster Large Language Models via Multi-token Prediction

Apr 30

ByFabian Gloeckle, Badr Youbi Idrissi, Baptiste Rozière, David Lopez-Paz, Gabriel Synnaeve

Большие языковые модели, такие как GPT и Llama, обучаются с использованием потерь предсказания следующего токена. В данной работе мы предлагаем, что обучение языковых моделей на предсказание нескольких будущих токенов одновременно приводит к более высокой эффективности выборки. Более конкретно, на каждой позиции в обучающем корпусе мы просим модель предсказать следующие n токенов, используя n независимых выходных головок, работающих поверх общей модели. Рассматривая многотоковое предсказание как вспомогательную задачу обучения, мы измеряем улучшенные возможности на следующем уровне без дополнительных затрат времени на обучение как для кодовых, так и для естественных языковых моделей. Этот метод становится все более полезным для более крупных моделей и сохраняет свою привлекательность при обучении на протяжении нескольких эпох. Приросты особенно заметны на генеративных бенчмарках, таких как кодирование, где наши модели последовательно превосходят сильные базовые значения на несколько процентных пунктов. Наши модели с 13 миллиардами параметров решают на 12 % больше задач в HumanEval и на 17 % больше в MBPP, чем сравнимые модели с предсказанием следующего токена. Эксперименты на небольших алгоритмических задачах показывают, что многотоковое предсказание благоприятно для развития индуктивных голов и алгоритмических способностей рассуждения. Как дополнительное преимущество, модели, обученные с предсказанием 4 токенов, работают в 3 раза быстрее при выводе, даже с большими размерами пакетов.

Мгновенное семейство: маскированное внимание для генерации изображений с несколькими идентификаторами без обучения.
InstantFamily: Masked Attention for Zero-shot Multi-ID Image Generation

Apr 30

ByChanran Kim, Jeongin Lee, Shichang Joung, Bongmo Kim, Yeul-Min Baek

В области персонализированной генерации изображений значительно улучшилась способность создавать изображения, сохраняя концепции. Создание изображения, естественно интегрирующего несколько концепций в цельное и визуально привлекательное композиционное целое, действительно может быть вызовом. В данной статье представлен подход "InstantFamily", который использует новый механизм маскированного кросс-внимания и мультимодальный стек встраивания для достижения генерации изображений с несколькими идентификаторами без обучения. Наш метод эффективно сохраняет идентификатор, поскольку использует глобальные и локальные признаки из предварительно обученной модели распознавания лиц, интегрированные с текстовыми условиями. Кроме того, наш механизм маскированного кросс-внимания обеспечивает точный контроль над множественными идентификаторами и композицией в созданных изображениях. Мы демонстрируем эффективность InstantFamily через эксперименты, показывающие его превосходство в генерации изображений с несколькими идентификаторами, а также решение известных проблем генерации изображений с несколькими идентификаторами. Кроме того, наша модель достигает передовых результатов как в сохранении одиночного, так и нескольких идентификаторов. Более того, наша модель обладает замечательной масштабируемостью с большим количеством сохраненных идентификаторов, чем была изначально обучена.

Оптимизация предпочтений методом итеративного рассуждения
Iterative Reasoning Preference Optimization

Apr 30

ByRichard Yuanzhe Pang, Weizhe Yuan, Kyunghyun Cho, He He, Sainbayar Sukhbaatar, Jason Weston

Методы итеративной оптимизации предпочтений недавно показали хорошие результаты для задач общего настройки инструкций, но обычно мало улучшают задачи рассуждения (Yuan et al., 2024, Chen et al., 2024). В данной работе мы разрабатываем итеративный подход, который оптимизирует предпочтения между конкурирующими кандидатами Цепочки Мыслей (CoT), оптимизируя победные и проигрышные шаги рассуждения, приводящие к правильному ответу. Мы обучаемся с использованием модифицированной функции потерь DPO (Rafailov et al., 2023) с дополнительным отрицательным логарифмическим членом, который мы считаем критически важным. Мы показываем улучшение рассуждения на протяжении повторяющихся итераций этой схемы. Несмотря на то, что мы полагаемся только на примеры в обучающем наборе, наш подход приводит к увеличению точности для Llama-2-70B-Chat с 55.6% до 81.6% на GSM8K (и 88.7% при большинстве голосов из 32 образцов), с 12.5% до 20.8% на MATH и с 77.8% до 86.7% на ARC-Challenge, что превосходит другие модели на основе Llama-2, не полагающиеся на дополнительные источники данных.

Расширение контекста Llama-3 в десять раз за ночь.
Extending Llama-3's Context Ten-Fold Overnight

Apr 30

ByPeitian Zhang, Ninglu Shao, Zheng Liu, Shitao Xiao, Hongjin Qian, Qiwei Ye, Zhicheng Dou

Мы увеличили длину контекста модели Llama-3-8B-Instruct с 8K до 80K с помощью донастройки QLoRA. Весь цикл обучения проходит очень эффективно и занимает 8 часов на одном GPU-сервере 8xA800 (80G). Полученная модель демонстрирует выдающиеся результаты на широком спектре задач оценки, таких как NIHS, поиск тем и понимание языка в длинном контексте; при этом она также успешно сохраняет исходные возможности в коротких контекстах. Драматическое увеличение контекста в основном обусловлено всего лишь 3.5K синтетическими обучающими образцами, сгенерированными GPT-4, что указывает на врожденный (но в значительной степени недооцененный) потенциал LLMs увеличивать исходную длину контекста. Фактически, длину контекста можно увеличить значительно за пределы 80K с использованием больших вычислительных ресурсов. Поэтому команда планирует публично опубликовать все ресурсы (включая данные, модель, процесс генерации данных, код обучения) для содействия будущим исследованиям сообщества: https://github.com/FlagOpen/FlagEmbedding.

MotionLCM: Генерация движения с возможностью реального времени управления с помощью модели согласованности латентных переменных
MotionLCM: Real-time Controllable Motion Generation via Latent Consistency Model

Apr 30

ByWenxun Dai, Ling-Hao Chen, Jingbo Wang, Jinpeng Liu, Bo Dai, Yansong Tang

Данная работа представляет MotionLCM, расширяя генерацию управляемого движения до уровня реального времени. Существующие методы пространственного управления в генерации движения на основе текста страдают от значительной неэффективности времени выполнения. Для решения этой проблемы мы предлагаем модель согласования латентного движения (MotionLCM) для генерации движения, основанную на модели латентного диффузии (MLD). Применяя одношаговый (или несколькими шагами) вывод, мы дополнительно улучшаем эффективность времени выполнения модели латентной диффузии движения для генерации движения. Для обеспечения эффективного управления мы внедряем сеть управления движением в латентное пространство MotionLCM и позволяем явным образом управлять сигналами управления (например, траекторией таза) в обычном пространстве движения для прямого контроля процесса генерации, аналогично управлению другими моделями диффузии без латентов для генерации движения. Применяя эти техники, наш подход может генерировать движения человека с текстом и сигналами управления в реальном времени. Экспериментальные результаты демонстрируют выдающиеся возможности генерации и управления MotionLCM, сохраняя при этом эффективность времени выполнения в реальном времени.

Визуальный факт-чекер: обеспечение генерации подробных подписей высокой точности.
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

Apr 30

ByYunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui

Существующие методы автоматической генерации подписей для визуального контента сталкиваются с такими проблемами, как недостаток деталей, галлюцинации контента и недостаточное следование инструкциям. В данной работе мы предлагаем VisualFactChecker (VFC), гибкую тренировочно-независимую конвейерную систему, которая генерирует качественные и детальные подписи как для 2D изображений, так и для 3D объектов. VFC состоит из трех этапов: 1) предложение, на котором модели генерации текста к изображениям предлагают несколько начальных подписей; 2) верификация, где большая языковая модель (LLM) использует инструменты, такие как обнаружение объектов и модели VQA, для проверки фактов в предложенных подписях; 3) генерация подписи, где LLM создает окончательную подпись, суммируя предложения подписей и результаты верификации проверки фактов. На этом этапе VFC способен гибко генерировать подписи в различных стилях, следуя сложным инструкциям. Мы проводим всестороннюю оценку подписей с использованием четырех метрик: 1) CLIP-Score для сходства изображения и текста; 2) CLIP-Image-Score для измерения сходства между оригинальным изображением и воссозданным изображением, сгенерированным моделью текст-к-изображению с использованием подписи; 3) исследование с участием людей на платформе Amazon Mechanical Turk; 4) GPT-4V для детальной оценки. Результаты оценки показывают, что VFC превосходит современные методы генерации подписей для 2D изображений на наборе данных COCO и 3D объектов на наборе данных Objaverse. Наше исследование демонстрирует, что путем объединения моделей с открытым исходным кодом в конвейерную систему мы можем достичь возможности генерации подписей, сравнимой с закрытыми моделями, такими как GPT-4V, несмотря на более чем 10-кратно меньший размер модели.

GS-LRM: Большая модель восстановления для трехмерного гауссова сплетения.
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting

Apr 30

ByKai Zhang, Sai Bi, Hao Tan, Yuanbo Xiangli, Nanxuan Zhao, Kalyan Sunkavalli, Zexiang Xu

Мы предлагаем GS-LRM, масштабируемую модель большой реконструкции, способную предсказывать высококачественные трехмерные гауссовы примитивы по 2-4 представленным разреженным изображениям за 0,23 секунды на одном графическом процессоре A100. Наша модель имеет очень простую архитектуру на основе трансформера; мы разбиваем входные представленные изображения на патчи, передаем объединенные токены многопредставлений изображения через последовательность блоков трансформера и декодируем конечные параметры гауссова распределения на пиксель напрямую из этих токенов для дифференцируемого рендеринга. В отличие от предыдущих моделей большой реконструкции, которые могут только восстанавливать объекты, предсказывая гауссовы распределения на пиксель, GS-LRM естественным образом обрабатывает сцены с большими изменениями в масштабе и сложности. Мы показываем, что наша модель может работать как с захватом объектов, так и с захватом сцен, обучая ее соответственно на Objaverse и RealEstate10K. В обоих сценариях модели значительно превосходят современные базовые модели. Мы также демонстрируем применение нашей модели в последующих задачах генерации трехмерных объектов. Наш веб-сайт проекта доступен по адресу: https://sai-bi.github.io/project/gs-lrm/ .

SAGS: Структурно осведомленное трехмерное гауссовское наложение.
SAGS: Structure-Aware 3D Gaussian Splatting

Apr 29

ByEvangelos Ververas, Rolandos Alexandros Potamias, Jifei Song, Jiankang Deng, Stefanos Zafeiriou

После появления NeRFs 3D Gaussian Splatting (3D-GS) открыл путь к нейронной рендерингу в реальном времени, преодолевая вычислительную нагрузку объемных методов. После первоначальной работы 3D-GS несколько методов пытались достичь сжимаемой и высококачественной производительности. Однако, используя оптимизационную схему, не зависящую от геометрии, эти методы игнорируют врожденную трехмерную структуру сцены, что ограничивает экспрессивность и качество представления, приводя к различным плавающим точкам и артефактам. В данной работе мы предлагаем метод Gaussian Splatting, основанный на структуре (SAGS), который неявно кодирует геометрию сцены, что отражается на производительности рендеринга новых видов и снижает требования к хранению на бенчмарках. SAGS основан на локально-глобальном графовом представлении, которое облегчает обучение сложных сцен и обеспечивает значимые смещения точек, сохраняющие геометрию сцены. Кроме того, мы представляем легковесную версию SAGS, используя простую, но эффективную схему интерполяции средней точки, которая демонстрирует компактное представление сцены с уменьшением размера до 24 раз без использования каких-либо стратегий сжатия. Обширные эксперименты на нескольких бенчмарках показывают превосходство SAGS по сравнению с передовыми методами 3D-GS как по качеству рендеринга, так и по размеру модели. Кроме того, мы демонстрируем, что наш метод, ориентированный на структуру, может эффективно уменьшить плавающие артефакты и нерегулярные искажения предыдущих методов, обеспечивая точные карты глубины. Страница проекта: https://eververas.github.io/SAGS/.

DOCCI: Описания Связанных и Противоположных Изображений
DOCCI: Descriptions of Connected and Contrasting Images

Apr 30

ByYasumasa Onoe, Sunayana Rane, Zachary Berger, Yonatan Bitton, Jaemin Cho, Roopal Garg, Alexander Ku, Zarana Parekh, Jordi Pont-Tuset, Garrett Tanzer, Su Wang, Jason Baldridge

Наборы данных по видению и языку являются важными как для исследований текст-к изображению (T2I), так и изображение-к тексту (I2T). Однако текущие наборы данных не содержат описаний с деталями высокой степени детализации, которые позволили бы моделям изучать более богатые ассоциации. Для заполнения этого пробела мы представляем набор данных "Описания связанных и контрастных изображений" (DOCCI), содержащий длинные, человеком аннотированные английские описания для 15 тыс. изображений, сделанных, отобранных и предоставленных одним исследователем с целью захвата ключевых вызовов, таких как пространственные отношения, подсчет, отображение текста, знание мира и другие. Мы инструктируем человеческих аннотаторов создавать исчерпывающие описания для каждого изображения; они в среднем составляют 136 слов и созданы для четкого различения каждого изображения от связанных или похожих. Каждое описание является высоко композиционным и обычно охватывает несколько вызовов. Через как количественный, так и качественный анализ мы демонстрируем, что DOCCI служит эффективным ресурсом для обучения генерации текста к изображению - модель PaLI 5B, донастроенная на DOCCI, показывает равные или превосходные результаты по сравнению с высокопроизводительными более крупными моделями, такими как LLaVA-1.5 7B и InstructBLIP 7B. Более того, мы показываем, что DOCCI является полезной площадкой для генерации текста к изображению, выявляя ограничения текущих моделей текст-к изображению в улавливании длинных описаний и деталей.

Невидимый шов: Генерация плавных 3D сцен с заполнением глубины
Invisible Stitch: Generating Smooth 3D Scenes with Depth Inpainting

Apr 30

ByPaul Engstler, Andrea Vedaldi, Iro Laina, Christian Rupprecht

Генерация трехмерных сцен быстро стала сложным новым направлением исследований, стимулированным последовательными улучшениями моделей диффузии для генерации двумерных изображений. Большинство предыдущих работ в этой области создают сцены, путем итеративного склеивания вновь сгенерированных кадров с существующей геометрией. Эти работы часто зависят от предварительно обученных оценщиков монокулярной глубины для преобразования сгенерированных изображений в трехмерные, объединяя их с представлением сцены. Затем эти подходы часто оцениваются с помощью текстовой метрики, измеряющей сходство между сгенерированными изображениями и заданным текстовым запросом. В данной работе мы вносим два фундаментальных вклада в область генерации трехмерных сцен. Во-первых, мы отмечаем, что преобразование изображений в трехмерное пространство с помощью модели оценки монокулярной глубины является неоптимальным, поскольку игнорирует геометрию существующей сцены. Мы представляем новую модель завершения глубины, обученную с использованием дистилляции учителя и самообучения для изучения процесса трехмерного слияния, что приводит к улучшенной геометрической согласованности сцены. Во-вторых, мы вводим новую схему бенчмаркинга для методов генерации сцен, основанную на геометрии истинных данных, и таким образом измеряем качество структуры сцены.

МикроМечтатель: Генерация трехмерных изображений без обучения за 20 секунд с использованием итеративной реконструкции на основе оценки.
MicroDreamer: Zero-shot 3D Generation in sim20 Seconds by Score-based Iterative Reconstruction

Apr 30

ByLuxi Chen, Zhengyi Wang, Chongxuan Li, Tingting Gao, Hang Su, Jun Zhu

Подходы на основе оптимизации, такие как сэмплирование дистилляции оценок (SDS), обещают в области генерации трехмерных объектов без обучения, но страдают от низкой эффективности, в основном из-за большого количества оценок функций (NFE), необходимых для каждого образца. В данной статье мы представляем итеративную реконструкцию на основе оценок (SIR), эффективный и общий алгоритм для генерации трехмерных объектов с использованием многопредставленной модели диффузии на основе оценок. Учитывая изображения, созданные моделью диффузии, SIR снижает количество оценок функций путем многократной оптимизации параметров трехмерной модели, в отличие от однократной оптимизации в SDS, имитируя процесс трехмерной реконструкции. С улучшениями, включая оптимизацию в пространстве пикселей, мы представляем эффективный подход под названием MicroDreamer, который обычно применим к различным трехмерным представлениям и задачам генерации трехмерных объектов. В частности, сохраняя сопоставимую производительность, MicroDreamer работает в 5-20 раз быстрее, чем SDS при генерации нейронного радиационного поля и требует около 20 секунд для создания сеток из трехмерного гауссовского разделения на одном графическом процессоре A100, сокращая время самого быстрого базового нулевого подхода, DreamGaussian, пополам. Наш код доступен по адресу https://github.com/ML-GSAI/MicroDreamer.

Лайтплейн: высокомасштабируемые компоненты для нейронных трехмерных полей
Lightplane: Highly-Scalable Components for Neural 3D Fields

Apr 30

ByAng Cao, Justin Johnson, Andrea Vedaldi, David Novotny

Современные исследования в области 3D, особенно в реконструкции и генерации, в значительной степени зависят от 2D изображений в качестве входных данных или наблюдения. Однако текущие конструкции для этого 2D-3D отображения требуют больших объемов памяти, что становится значительным узким местом для существующих методов и затрудняет появление новых приложений. В ответ на это мы предлагаем пару высокомасштабируемых компонентов для 3D нейронных полей: Lightplane Render и Splatter, которые значительно снижают использование памяти при 2D-3D отображении. Эти инновации позволяют обрабатывать намного больше и более высокого разрешения изображений с небольшими затратами памяти и вычислительными ресурсами. Мы демонстрируем их полезность в различных приложениях, начиная от оптимизации одиночных сцен с потерями на уровне изображения до реализации универсального конвейера для значительного масштабирования 3D реконструкции и генерации. Код: https://github.com/facebookresearch/lightplane.

Визуальный факт-чекер: обеспечение генерации подробных подписей высокой точности.
Visual Fact Checker: Enabling High-Fidelity Detailed Caption Generation

Apr 30

ByYunhao Ge, Xiaohui Zeng, Jacob Samuel Huffman, Tsung-Yi Lin, Ming-Yu Liu, Yin Cui