HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

28 papers found

Технический отчет по Phi-4-Mini: Компактные, но мощные мультимодальные языковые модели с использованием смеси LoRA
Phi-4-Mini Technical Report: Compact yet Powerful Multimodal Language Models via Mixture-of-LoRAs

Mar 3

ByAbdelrahman Abouelenin, Atabak Ashfaq, Adam Atkinson, Hany Awadalla, Nguyen Bach, Jianmin Bao, Alon Benhaim, Martin Cai, Vishrav Chaudhary, Congcong Chen, Dong Chen, Dongdong Chen, Junkun Chen, Weizhu Chen, Yen-Chun Chen, Yi-ling Chen, Qi Dai, Xiyang Dai, Ruchao Fan, Mei Gao, Min Gao, Amit Garg, Abhishek Goswami, Junheng Hao, Amr Hendy, Yuxuan Hu, Xin Jin, Mahmoud Khademi, Dongwoo Kim, Young Jin Kim, Gina Lee, Jinyu Li, Yunsheng Li, Chen Liang, Xihui Lin, Zeqi Lin, Mengchen Liu, Yang Liu, Gilsinia Lopez, Chong Luo, Piyush Madan, Vadim Mazalov, Ali Mousavi, Anh Nguyen, Jing Pan, Daniel Perez-Becker, Jacob Platin, Thomas Portet, Kai Qiu, Bo Ren, Liliang Ren, Sambuddha Roy, Ning Shang, Yelong Shen, Saksham Singhal, Subhojit Som, Xia Song, Tetyana Sych, Praneetha Vaddamanu, Shuohang Wang, Yiming Wang, Zhenghao Wang, Haibin Wu, Haoran Xu, Weijian Xu, Yifan Yang, Ziyi Yang, Donghan Yu, Ishmam Zabir, Jianwen Zhang, Li Lyna Zhang, Yunan Zhang, Xiren Zhou

Мы представляем Phi-4-Mini и Phi-4-Multimodal — компактные, но высокопроизводительные языковые и мультимодальные модели. Phi-4-Mini — это языковая модель с 3,8 миллиардами параметров, обученная на высококачественных веб-данных и синтетических данных, которая значительно превосходит недавние модели с открытым исходным кодом аналогичного размера и соответствует производительности моделей вдвое большего размера в задачах, требующих сложных рассуждений, таких как математика и программирование. Этот результат достигнут благодаря тщательно подобранному рецепту синтетических данных с акцентом на высококачественные наборы данных по математике и программированию. По сравнению с предшественником, Phi-3.5-Mini, Phi-4-Mini имеет увеличенный размер словаря до 200 тысяч токенов для лучшей поддержки многоязычных приложений, а также групповое внимание запросов для более эффективной генерации длинных последовательностей. Phi-4-Multimodal — это мультимодальная модель, которая объединяет текстовые, визуальные и речевые/аудиовходные модальности в единую модель. Ее новаторский подход к расширению модальностей использует адаптеры LoRA и маршрутизаторы, специфичные для каждой модальности, что позволяет комбинировать различные модальности в нескольких режимах вывода без взаимного влияния. Например, она занимает первое место в рейтинге OpenASR на сегодняшний день, несмотря на то, что компонент LoRA для речевой/аудиомодальности имеет всего 460 миллионов параметров. Phi-4-Multimodal поддерживает сценарии, включающие (визуальные + языковые), (визуальные + речевые) и (речевые/аудио) входные данные, превосходя более крупные модели, работающие с визуальными и речевыми данными, в широком спектре задач. Кроме того, мы экспериментируем с дальнейшим обучением Phi-4-Mini для улучшения ее способностей к рассуждению. Несмотря на компактный размер в 3,8 миллиарда параметров, эта экспериментальная версия демонстрирует результаты рассуждений, сопоставимые или превосходящие значительно более крупные модели, включая DeepSeek-R1-Distill-Qwen-7B и DeepSeek-R1-Distill-Llama-8B.

Visual-RFT: Визуальная тонкая настройка с подкреплением
Visual-RFT: Visual Reinforcement Fine-Tuning

Mar 3

ByZiyu Liu, Zeyi Sun, Yuhang Zang, Xiaoyi Dong, Yuhang Cao, Haodong Duan, Dahua Lin, Jiaqi Wang

Тонкая настройка с подкреплением (Reinforcement Fine-Tuning, RFT) в крупных моделях рассуждений, таких как OpenAI o1, обучается на основе обратной связи по своим ответам, что особенно полезно в приложениях, где данные для тонкой настройки ограничены. Недавние работы с открытым исходным кодом, такие как DeepSeek-R1, демонстрируют, что обучение с подкреплением с проверяемыми наградами является ключевым направлением в воспроизведении o1. Хотя модель в стиле R1 показала успехи в языковых моделях, её применение в мультимодальных областях остается недостаточно изученным. Данная работа представляет Visual Reinforcement Fine-Tuning (Visual-RFT), который расширяет области применения RFT на визуальные задачи. В частности, Visual-RFT сначала использует крупные визуально-языковые модели (Large Vision-Language Models, LVLMs) для генерации нескольких ответов, содержащих токены рассуждений и итоговые ответы для каждого входного данных, а затем применяет предложенные функции проверяемых наград на основе визуального восприятия для обновления модели с помощью алгоритма оптимизации политики, такого как Group Relative Policy Optimization (GRPO). Мы разрабатываем различные проверяемые функции наград для различных задач восприятия, например, награду Intersection over Union (IoU) для обнаружения объектов. Экспериментальные результаты на задачах тонкой классификации изображений, обнаружения объектов с малым количеством примеров, обоснования рассуждений, а также на бенчмарках обнаружения объектов с открытым словарем демонстрируют конкурентоспособную производительность и улучшенную способность к обобщению Visual-RFT по сравнению с Supervised Fine-tuning (SFT). Например, Visual-RFT повышает точность на 24,3% по сравнению с базовым уровнем в задаче однократной тонкой классификации изображений с использованием около 100 образцов. В задаче обнаружения объектов с малым количеством примеров Visual-RFT также превосходит базовый уровень на 21,9 в настройке COCO с двумя примерами и на 15,4 в LVIS. Наш Visual-RFT представляет собой смену парадигмы в тонкой настройке LVLMs, предлагая эффективный по данным, управляемый наградами подход, который улучшает рассуждения и адаптируемость для задач, специфичных для конкретных областей.

Difix3D+: Улучшение 3D-реконструкций с помощью одношаговых диффузионных моделей
Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

Mar 3

ByJay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling

Нейронные поля излучения (NeRF) и 3D-гауссовское размытие (3D Gaussian Splatting) произвели революцию в задачах 3D-реконструкции и синтеза новых ракурсов. Однако достижение фотореалистичного рендеринга с экстремальных новых точек зрения остается сложной задачей, так как артефакты сохраняются в различных представлениях. В данной работе мы представляем Difix3D+, новый подход, предназначенный для улучшения 3D-реконструкции и синтеза новых ракурсов с использованием одношаговых диффузионных моделей. В основе нашего метода лежит Difix — одношаговая диффузионная модель изображений, обученная улучшать и удалять артефакты в рендеринге новых ракурсов, вызванные недостаточно ограниченными областями 3D-представления. Difix выполняет две ключевые функции в нашем подходе. Во-первых, он используется на этапе реконструкции для очистки псевдо-обучающих ракурсов, которые рендерятся из реконструкции и затем дистиллируются обратно в 3D. Это значительно улучшает недостаточно ограниченные области и повышает общее качество 3D-представления. Что еще важнее, Difix также выступает в роли нейронного усилителя на этапе вывода, эффективно устраняя остаточные артефакты, возникающие из-за несовершенного 3D-надзора и ограниченных возможностей современных моделей реконструкции. Difix3D+ является универсальным решением — одной моделью, совместимой как с NeRF, так и с 3DGS представлениями, и обеспечивает в среднем двукратное улучшение показателя FID по сравнению с базовыми методами, сохраняя при этом 3D-согласованность.

Когнитивные модели поведения, способствующие самообучению систем рассуждений, или Четыре привычки высокоэффективных STaR-систем
Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Mar 3

ByKanishk Gandhi, Ayush Chakravarthy, Anikait Singh, Nathan Lile, Noah D. Goodman

Вывод на этапе тестирования стал мощной парадигмой, позволяющей языковым моделям «думать» дольше и тщательнее о сложных задачах, подобно опытным экспертам-людям. Хотя обучение с подкреплением (RL) может способствовать самосовершенствованию языковых моделей в задачах с проверяемыми результатами, некоторые модели демонстрируют значительный прогресс, тогда как другие быстро достигают плато. Например, мы обнаружили, что Qwen-2.5-3B значительно превосходит Llama-3.2-3B при одинаковом обучении с подкреплением в игре Countdown. Это расхождение поднимает важный вопрос: какие внутренние свойства обеспечивают эффективное самосовершенствование? Мы представляем фреймворк для изучения этого вопроса, анализируя четыре ключевых когнитивных поведения — проверку, возврат к предыдущим шагам, постановку подцелей и обратный вывод, — которые используют как эксперты-люди, так и успешные языковые модели. Наше исследование показывает, что Qwen естественным образом демонстрирует эти рассуждения, тогда как Llama изначально их лишена. В систематических экспериментах с контролируемыми наборами данных мы обнаружили, что предварительное обучение Llama на примерах, содержащих эти рассуждения, позволяет добиться значительного улучшения в ходе RL, сопоставимого или превосходящего результаты Qwen. Важно отметить, что наличие рассуждений, а не правильность ответов, оказывается критическим фактором — модели, обученные на неправильных решениях, содержащих правильные шаблоны рассуждений, достигают сопоставимой производительности с моделями, обученными на правильных решениях. Наконец, использование продолженного предобучения на данных OpenWebMath, отфильтрованных для усиления рассуждений, позволяет модели Llama соответствовать траектории самосовершенствования Qwen. Наши результаты устанавливают фундаментальную связь между начальными рассуждениями и способностью к улучшению, объясняя, почему одни языковые модели эффективно используют дополнительные вычисления, тогда как другие достигают плато.

От часов к минутам: без потерь ускорение генерации сверхдлинных последовательностей до 100 тысяч токенов
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens

Feb 26

ByTong Wu, Junzhe Shen, Zixia Jia, Yuxuan Wang, Zilong Zheng

Генерация сверхдлинных последовательностей с использованием больших языковых моделей (LLM) становится все более важной, но остается крайне трудоемкой задачей, особенно для последовательностей длиной до 100 тысяч токенов. Хотя традиционные методы спекулятивного декодирования существуют, простое расширение их пределов генерации не ускоряет процесс и может быть вредным. В ходе детального анализа мы выявили три основные проблемы, препятствующие эффективной генерации: частую перезагрузку модели, динамическое управление ключевыми значениями (KV) и повторяющуюся генерацию. Для решения этих проблем мы представляем TOKENSWIFT — новый фреймворк, разработанный для существенного ускорения процесса генерации сверхдлинных последовательностей при сохранении исходного качества целевой модели. Экспериментальные результаты показывают, что TOKENSWIFT обеспечивает ускорение более чем в 3 раза для моделей различных масштабов (1.5B, 7B, 8B, 14B) и архитектур (MHA, GQA). Это ускорение позволяет сэкономить часы времени при генерации сверхдлинных последовательностей, что делает TOKENSWIFT масштабируемым и эффективным решением для беспрецедентных длин. Код доступен по адресу https://github.com/bigai-nlco/TokenSwift.

DiffRhythm: Невероятно быстрый и до смешного простой метод сквозной генерации полноформатных музыкальных композиций с использованием латентной диффузии
DiffRhythm: Blazingly Fast and Embarrassingly Simple End-to-End Full-Length Song Generation with Latent Diffusion

Mar 3

ByZiqian Ning, Huakang Chen, Yuepeng Jiang, Chunbo Hao, Guobin Ma, Shuai Wang, Jixun Yao, Lei Xie

Последние достижения в области генерации музыки привлекли значительное внимание, однако существующие подходы сталкиваются с серьезными ограничениями. Некоторые современные генеративные модели способны синтезировать либо вокальную дорожку, либо аккомпанемент. Хотя некоторые модели могут генерировать комбинацию вокала и аккомпанемента, они обычно полагаются на тщательно разработанные многоступенчатые каскадные архитектуры и сложные конвейеры обработки данных, что затрудняет масштабируемость. Кроме того, большинство систем ограничены генерацией коротких музыкальных фрагментов, а не полноценных песен. Широко используемые методы, основанные на языковых моделях, также страдают от медленной скорости вывода. Для решения этих проблем мы предлагаем DiffRhythm — первую модель генерации песен на основе латентной диффузии, способную синтезировать полные песни с вокалом и аккомпанементом продолжительностью до 4 минут 45 секунд всего за десять секунд, сохраняя высокую музыкальность и разборчивость. Несмотря на впечатляющие возможности, DiffRhythm отличается простотой и элегантностью: она устраняет необходимость в сложной подготовке данных, использует прямолинейную структуру модели и требует только текста песни и стилевого запроса на этапе вывода. Кроме того, её неавторегрессивная структура обеспечивает высокую скорость вывода. Эта простота гарантирует масштабируемость DiffRhythm. Мы также публикуем полный код для обучения вместе с предварительно обученной моделью на крупномасштабных данных, чтобы способствовать воспроизводимости и дальнейшим исследованиям.

OneRec: Объединение извлечения и ранжирования с генеративной рекомендательной системой и итеративным согласованием предпочтений
OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment

Feb 26

ByJiaxin Deng, Shiyao Wang, Kuo Cai, Lejian Ren, Qigen Hu, Weifeng Ding, Qiang Luo, Guorui Zhou

В последнее время генеративные рекомендательные системы, основанные на поиске, стали перспективной парадигмой. Однако большинство современных рекомендательных систем используют стратегию "извлечение и ранжирование", где генеративная модель выступает лишь в роли селектора на этапе извлечения. В данной статье мы предлагаем OneRec, который заменяет каскадную структуру обучения на единую генеративную модель. Насколько нам известно, это первая end-to-end генеративная модель, которая значительно превосходит современные сложные и тщательно разработанные рекомендательные системы в реальных сценариях. В частности, OneRec включает: 1) структуру "кодировщик-декодировщик", которая кодирует последовательности исторического поведения пользователя и постепенно декодирует видео, которые могут заинтересовать пользователя. Мы используем разреженную смесь экспертов (MoE) для масштабирования емкости модели без пропорционального увеличения вычислительных затрат. 2) подход к генерации на уровне сессии. В отличие от традиционного предсказания следующего элемента, мы предлагаем генерацию на уровне сессии, которая является более элегантной и контекстуально согласованной по сравнению с пошаговой генерацией, зависящей от ручных правил для корректного объединения результатов. 3) модуль итеративного согласования предпочтений в сочетании с оптимизацией прямых предпочтений (DPO) для повышения качества генерируемых результатов. В отличие от DPO в NLP, рекомендательная система обычно имеет только одну возможность отобразить результаты для каждого запроса пользователя, что делает невозможным одновременное получение положительных и отрицательных образцов. Для решения этой проблемы мы разработали модель вознаграждения для имитации генерации пользователя и настройки стратегии выборки. Многочисленные эксперименты показали, что ограниченное количество образцов DPO может согласовать предпочтения пользователя и значительно улучшить качество генерируемых результатов. Мы внедрили OneRec в основной сценарий Kuaishou, достигнув увеличения времени просмотра на 1,6%, что является существенным улучшением.

Когда языковая модель сомневается в своих ответах — и когда её неуверенность обоснована —
When an LLM is apprehensive about its answers -- and when its uncertainty is justified

Mar 3

ByPetr Sychev, Andrey Goncharov, Daniil Vyazhev, Edvard Khalafyan, Alexey Zaytsev

Оценка неопределенности имеет решающее значение для анализа работы крупных языковых моделей (LLM), особенно в высокорисковых областях, где неправильные ответы могут привести к серьезным последствиям. Многочисленные подходы рассматривают эту проблему, сосредотачиваясь на конкретном типе неопределенности и игнорируя другие. Мы исследуем, какие оценки, в частности энтропия на уровне токенов и подход "модель как судья" (MASJ), будут эффективны для задач с множественным выбором в различных тематических областях. Наши эксперименты охватывают три LLM: Phi-4, Mistral и Qwen разных размеров — от 1,5 млрд до 72 млрд параметров — и 14 тематик. В то время как MASJ демонстрирует результаты, сопоставимые с случайным предсказателем ошибок, энтропия ответов предсказывает ошибки модели в областях, зависящих от знаний, и служит эффективным индикатором сложности вопросов: для биологии ROC AUC составляет 0,73. Эта корреляция исчезает в областях, зависящих от логического мышления: для математических вопросов ROC-AUC равен 0,55. Более принципиально, мы выяснили, что мера энтропии требует определенного уровня рассуждений. Таким образом, энтропия, связанная с неопределенностью данных, должна быть интегрирована в рамки оценки неопределенности, в то время как MASJ требует доработки. Кроме того, существующие выборки MMLU-Pro смещены и должны быть сбалансированы по требуемому уровню рассуждений для различных поддоменов, чтобы обеспечить более справедливую оценку производительности LLM.

Liger: Линеаризация крупных языковых моделей в гейтированные рекуррентные структуры
Liger: Linearizing Large Language Models to Gated Recurrent Structures

Mar 3

ByDisen Lan, Weigao Sun, Jiaxi Hu, Jusen Du, Yu Cheng

Трансформеры с линейным рекуррентным моделированием обеспечивают обучение за линейное время и вывод с постоянным использованием памяти. Несмотря на продемонстрированную эффективность и производительность, предварительное обучение таких нестандартных архитектур с нуля остается затратным и рискованным. Линеаризация больших языковых моделей (LLM) преобразует предварительно обученные стандартные модели в линейные рекуррентные структуры, что позволяет более эффективно их развертывать. Однако современные методы линеаризации обычно вводят дополнительные модули карт признаков, которые требуют обширной тонкой настройки, и игнорируют механизмы гейтинга, используемые в передовых линейных рекуррентных моделях. Для решения этих проблем в данной статье представлен Liger, сокращение от Linearizing LLMs to gated recurrent structures. Liger — это новый подход для преобразования предварительно обученных LLM в линейные рекуррентные модели с гейтингом без добавления дополнительных параметров. Он перепрофилирует веса предварительно обученной матрицы ключей для создания разнообразных механизмов гейтинга, что способствует формированию различных рекуррентных структур с гейтингом, избегая необходимости обучения дополнительных компонентов с нуля. Используя легковесную тонкую настройку с помощью Low-Rank Adaptation (LoRA), Liger восстанавливает производительность линеаризованных рекуррентных моделей с гейтингом до уровня исходных LLM. Кроме того, мы представляем Liger Attention, внутрислойный гибридный механизм внимания, который значительно восстанавливает 93% производительности LLM на основе трансформеров при использовании 0,02% токенов предварительного обучения в процессе линеаризации, достигая конкурентоспособных результатов на множестве бенчмарков, что подтверждено на моделях с параметрами от 1B до 8B. Код доступен по адресу https://github.com/OpenSparseLLMs/Linearization.

Эффективное масштабирование во время тестирования с помощью самокалибровки
Efficient Test-Time Scaling via Self-Calibration

Feb 25

ByChengsong Huang, Langlin Huang, Jixuan Leng, Jiacheng Liu, Jiaxin Huang

Увеличение вычислительных ресурсов на этапе тестирования — это простой подход к повышению качества ответов в больших языковых моделях (LLM). Хотя методы Best-of-N и Self-Consistency с мажоритарным голосованием просты и эффективны, они требуют фиксированного числа сэмплированных ответов для каждого запроса, независимо от его сложности. Это может привести к избыточным вычислениям для простых вопросов и недостаточному исследованию для более сложных. В данной работе мы утверждаем, что уверенность модели в ответах может быть использована для повышения эффективности масштабирования на этапе тестирования. К сожалению, LLM известны своей излишней уверенностью и предоставляют ненадежные оценки достоверности. Чтобы устранить это ограничение, мы предлагаем метод Self-Calibration, который заключается в дистилляции уверенности, полученной с помощью Self-Consistency, в саму модель. Это позволяет получать надежные оценки достоверности на этапе тестирования за один прямой проход. Затем мы разрабатываем методы эффективного масштабирования на основе уверенности для обработки запросов различной сложности, такие как Early-Stopping для Best-of-N и Self-Consistency с калиброванной уверенностью. Эксперименты на трех LLM и шести наборах данных демонстрируют эффективность нашего подхода. В частности, применение Early Stopping на основе уверенности к Best-of-N повышает точность на MathQA с 81.0 до 83.6 при бюджете в 16 ответов, что подтверждает эффективность стратегии сэмплирования на основе уверенности на этапе вывода.

Kiss3DGen: Перепрофилирование моделей диффузии изображений для генерации 3D-ассетов
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation

Mar 3

ByJiantao Lin, Xin Yang, Meixi Chen, Yingjie Xu, Dongyu Yan, Leyi Wu, Xinli Xu, Lie XU, Shunsi Zhang, Ying-Cong Chen

Диффузионные модели достигли значительных успехов в генерации 2D-изображений. Однако качество и обобщаемость генерации 3D-контента остаются ограниченными. Современные методы часто требуют крупномасштабных 3D-активов для обучения, которые сложно собрать. В данной работе мы представляем Kiss3DGen (Keep It Simple and Straightforward in 3D Generation) — эффективный фреймворк для генерации, редактирования и улучшения 3D-объектов, перепрофилируя хорошо обученную диффузионную модель для 2D-изображений в целях 3D-генерации. В частности, мы дообучаем диффузионную модель для генерации «3D Bundle Image» — мозаичного представления, состоящего из многовидовых изображений и соответствующих им карт нормалей. Карты нормалей затем используются для реконструкции 3D-сетки, а многовидовые изображения обеспечивают текстурирование, что приводит к созданию полной 3D-модели. Этот простой метод эффективно преобразует задачу 3D-генерации в задачу генерации 2D-изображений, максимально используя знания, заложенные в предобученных диффузионных моделях. Кроме того, мы показываем, что наша модель Kiss3DGen совместима с различными техниками диффузионных моделей, что позволяет реализовать такие продвинутые функции, как редактирование 3D-объектов, улучшение сетки и текстуры и т.д. В ходе обширных экспериментов мы демонстрируем эффективность нашего подхода, показывая его способность эффективно создавать высококачественные 3D-модели.

Масштабный отбор данных для настройки инструкций
Large-Scale Data Selection for Instruction Tuning

Mar 3

ByHamish Ivison, Muru Zhang, Faeze Brahman, Pang Wei Koh, Pradeep Dasigi

Выбор высококачественных данных для обучения из более крупного набора является важным шагом при тонкой настройке языковых моделей на инструкциях, так как тщательно отобранные наборы данных часто приводят к созданию моделей, превосходящих те, что обучены на значительно больших, но более зашумленных наборах. Автоматизированные подходы к выбору данных для тонкой настройки на инструкциях обычно тестируются путем отбора небольших наборов данных (примерно 10 тыс. образцов) из небольших пулов (100–200 тыс. образцов). Однако популярные развернутые модели, настроенные на инструкциях, часто обучаются на сотнях тысяч или миллионах образцов, выбранных из еще более крупных пулов данных. Мы представляем систематическое исследование того, насколько хорошо методы выбора данных масштабируются в таких условиях, отбирая до 2,5 млн образцов из пулов объемом до 5,8 млн образцов и оценивая их на 7 разнообразных задачах. Мы показываем, что многие недавно предложенные методы уступают случайному выбору в этих условиях (при этом требуя больше вычислительных ресурсов), а некоторые даже демонстрируют снижение производительности при увеличении доступного пула данных для выбора. Однако мы обнаружили, что вариант метода выбора данных на основе представлений (RDS+), который использует взвешенное усреднение скрытых состояний предобученной языковой модели, стабильно превосходит более сложные методы во всех протестированных условиях — при этом оставаясь более вычислительно эффективным. Наши результаты подчеркивают, что свойства масштабируемости предлагаемых автоматизированных методов выбора данных требуют более тщательного изучения. Мы публикуем наш код, данные и модели по адресу https://github.com/hamishivi/automated-instruction-selection.

Спекулятивное выполнение ad-hoc запросов
Speculative Ad-hoc Querying

Mar 2

ByHaoyu Li, Srikanth Kandula, Maria Angels de Luis Balaguer, Aditya Akella, Venkat Arun

Анализ больших наборов данных требует оперативного выполнения запросов, однако выполнение SQL-запросов на огромных объемах данных может быть медленным. В данной статье исследуется возможность начала выполнения запроса еще до того, как пользователь завершит его ввод, что позволит результатам появляться практически мгновенно. Мы предлагаем систему SpeQL, которая использует большие языковые модели (LLM) для прогнозирования вероятных запросов на основе схемы базы данных, предыдущих запросов пользователя и его незавершенного запроса. Поскольку точное предсказание запроса невозможно, SpeQL спекулирует частичные запросы двумя способами: 1) предсказывает структуру запроса для предварительной компиляции и планирования запросов и 2) предварительно вычисляет временные таблицы меньшего размера, которые значительно меньше исходной базы данных, но, как предполагается, содержат всю необходимую информацию для ответа на окончательный запрос пользователя. Кроме того, SpeQL непрерывно отображает результаты для спекулятивных запросов и подзапросов в реальном времени, что способствует исследовательскому анализу. Проведенное исследование с участием пользователей показало, что SpeQL сокращает время выполнения задач, а участники отметили, что спекулятивное отображение результатов помогло им быстрее выявлять закономерности в данных. В ходе исследования SpeQL сократила задержку выполнения запросов пользователей до 289 раз, сохраняя при этом разумные накладные расходы в размере 4 доллара в час.

DuoDecoding: Аппаратно-ориентированное гетерогенное спекулятивное декодирование с динамическим формированием множественных последовательностей
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting

Mar 2

ByKai Lv, Honglin Guo, Qipeng Guo, Xipeng Qiu

Крупные языковые модели (LLMs) демонстрируют выдающуюся производительность в широком спектре задач; однако их процесс авторегрессивного генерации по токенам значительно замедляет скорость вывода. Спекулятивное декодирование предлагает перспективную структуру "черновик-затем-проверка", которая сокращает задержку генерации, сохраняя при этом точность распределения выходных данных. Тем не менее, модель черновика вносит дополнительные вычислительные затраты, становясь узким местом в производительности и увеличивая время до первого токена (TTFT). Предыдущие подходы для снижения нагрузки модели черновика в основном полагались на эвристики и, как правило, не могли соответствовать качеству языковых моделей черновика. Для решения этих проблем мы предлагаем DuoDecoding — новый подход, который стратегически распределяет модели черновика и целевой модели на CPU и GPU соответственно, обеспечивая параллельное декодирование при сохранении качества черновика. Наш метод включает аппаратно-оптимизированный бюджет черновика для минимизации времени простоя и использует динамическое многопоследовательное создание черновиков для повышения их качества. Эксперименты на семи задачах показывают, что DuoDecoding достигает ускорения задержки генерации до 2.61x, сокращая TTFT до 83% по сравнению с традиционным спекулятивным декодированием. Код доступен по адресу https://github.com/KaiLv69/DuoDecoding.

Qilin: Мультимодальный набор данных для информационного поиска с пользовательскими сессиями на уровне приложений
Qilin: A Multimodal Information Retrieval Dataset with APP-level User Sessions

Mar 1

ByJia Chen, Qian Dong, Haitao Li, Xiaohui He, Yan Gao, Shaosheng Cao, Yi Wu, Ping Yang, Chen Xu, Yao Hu, Qingyao Ai, Yiqun Liu

Сообщества, создающие пользовательский контент (UGC), особенно те, которые включают мультимодальный контент, улучшают пользовательский опыт за счет интеграции визуальной и текстовой информации в результаты (или элементы). Задача улучшения пользовательского опыта в сложных системах с услугами поиска и рекомендаций (S&R) привлекает значительное внимание как академических кругов, так и индустрии в последние годы. Однако отсутствие высококачественных наборов данных ограничивает прогресс исследований в области мультимодального S&R. Чтобы удовлетворить растущую потребность в разработке более совершенных услуг S&R, мы представляем новый набор данных для мультимодального поиска информации, названный Qilin. Этот набор данных собран с платформы Xiaohongshu, популярной социальной сети с более чем 300 миллионами активных пользователей в месяц и средним уровнем проникновения поиска свыше 70%. В отличие от существующих наборов данных, Qilin предлагает всеобъемлющую коллекцию пользовательских сессий с разнородными результатами, такими как заметки с изображениями и текстом, видеозаметки, коммерческие заметки и прямые ответы, что способствует разработке передовых мультимодальных нейронных моделей поиска в различных условиях задач. Чтобы лучше моделировать удовлетворенность пользователей и поддерживать анализ разнородного поведения пользователей, мы также собираем обширные контекстные сигналы на уровне приложения и подлинные отзывы пользователей. Примечательно, что Qilin содержит предпочитаемые пользователями ответы и связанные с ними результаты для поисковых запросов, активирующих модуль Deep Query Answering (DQA). Это позволяет не только обучать и оценивать конвейер Retrieval-augmented Generation (RAG), но и исследовать, как такой модуль влияет на поведение пользователей при поиске. Благодаря всестороннему анализу и экспериментам мы предоставляем интересные выводы и идеи для дальнейшего улучшения систем S&R. Мы надеемся, что Qilin внесет значительный вклад в развитие мультимодальных платформ с услугами S&R в будущем.

SampleMix: Стратегия смешивания данных предварительного обучения на уровне выборок с учетом координации качества и разнообразия данных
SampleMix: A Sample-wise Pre-training Data Mixing Strategey by Coordinating Data Quality and Diversity

Mar 3

ByXiangyu Xi, Deyang Kong, Jian Yang, Jiawei Yang, Zhengyu Chen, Wei Wang, Jingang Wang, Xunliang Cai, Shikun Zhang, Wei Ye

Существующие методы смешивания данных для предварительного обучения крупных языковых моделей (LLM) обычно следуют доменно-ориентированному подходу, представляющему собой процесс "сверху вниз", при котором сначала определяются веса доменов, а затем выполняется равномерная выборка данных в каждом домене. Однако такие подходы игнорируют значительные пересечения и общие черты между доменами, не обеспечивая контроля над глобальным разнообразием формируемого набора данных для обучения. Кроме того, равномерная выборка внутри доменов не учитывает тонкие, специфичные для каждого образца особенности, что может привести к субоптимальному распределению данных. Для устранения этих недостатков мы предлагаем новый подход к смешиванию данных на уровне отдельных образцов, основанный на парадигме "снизу вверх". Этот метод выполняет глобальную кросс-доменную выборку, систематически оценивая качество и разнообразие каждого образца, тем самым динамически определяя оптимальное распределение доменов. Комплексные эксперименты на множестве задач и оценка перплексии демонстрируют, что SampleMix превосходит существующие доменно-ориентированные методы. При этом SampleMix требует от 1,4 до 2,1 раза больше шагов обучения для достижения производительности базовых методов, что подчеркивает значительный потенциал SampleMix для оптимизации данных предварительного обучения.

VideoUFO: Масштабный пользовательский набор данных для генерации видео по текстовому описанию
VideoUFO: A Million-Scale User-Focused Dataset for Text-to-Video Generation

Mar 3

ByWenhao Wang, Yi Yang

Генеративные модели для преобразования текста в видео превращают текстовые запросы в динамический визуальный контент, предлагая широкий спектр применений в кинопроизводстве, игровой индустрии и образовании. Однако их реальная производительность часто не оправдывает ожидания пользователей. Одной из ключевых причин является то, что эти модели не обучались на видео, связанных с некоторыми темами, которые пользователи хотят создавать. В данной статье мы представляем VideoUFO — первый видеодатасет, специально созданный для соответствия фокусу пользователей в реальных сценариях. Помимо этого, наш VideoUFO также обладает следующими особенностями: (1) минимальное (0,29%) пересечение с существующими видеодатасетами и (2) видео, найденные исключительно через официальный API YouTube под лицензией Creative Commons. Эти два атрибута предоставляют будущим исследователям большую свободу для расширения источников обучения. VideoUFO включает более 1,09 миллиона видеоклипов, каждый из которых сопровождается как кратким, так и подробным описанием. В частности, с помощью кластеризации мы сначала выделили 1 291 тему, ориентированную на пользователей, из миллионного набора данных реальных текстовых запросов для создания видео, VidProM. Затем мы использовали эти темы для поиска видео на YouTube, разделили найденные видео на клипы и создали как краткие, так и подробные описания для каждого клипа. После проверки клипов на соответствие указанным темам у нас осталось около 1,09 миллиона видеоклипов. Наши эксперименты показывают, что (1) текущие 16 моделей для преобразования текста в видео не демонстрируют стабильной производительности по всем темам, ориентированным на пользователей; и (2) простая модель, обученная на VideoUFO, превосходит другие модели по темам с наихудшей производительностью. Датасет доступен публично по адресу https://huggingface.co/datasets/WenhaoWang/VideoUFO под лицензией CC BY 4.0.

CodeArena: Платформа для коллективной оценки генерации кода с использованием больших языковых моделей
CodeArena: A Collective Evaluation Platform for LLM Code Generation

Mar 3

ByMingzhe Du, Anh Tuan Luu, Bin Ji, Xiaobao Wu, Dong Huang, Terry Yue Zhuo, Qian Liu, See-Kiong Ng

Крупные языковые модели (LLM) трансформировали процесс генерации кода, объединив их выдающееся понимание естественного языка и синтаксиса программирования, что существенно повысило производительность разработчиков. Эти достижения стимулировали многочисленные усилия по количественной оценке их способностей в написании кода. Однако сохраняющиеся проблемы, такие как утечка данных в бенчмарках, рассеивание данных и ограниченная доступность систем, продолжают препятствовать своевременной и точной оценке. Для устранения этих ограничений мы представляем CodeArena — онлайн-фреймворк для оценки генерации кода LLM. Ключевым нововведением является коллективный механизм оценки, который динамически перекалибрует индивидуальные оценки моделей на основе общего результата всех участвующих моделей, смягчая смещения оценок, вызванные широко распространённой утечкой данных в бенчмарках. Кроме того, CodeArena обеспечивает открытый доступ ко всем представленным решениям и тестовым случаям, а также предоставляет API, удобные для автоматизации, чтобы упростить процесс оценки кода. Наши основные вклады: (1) коллективная система оценки для объективного анализа, (2) публичный репозиторий решений и тестовых случаев и (3) API, готовые к автоматизации, для бесшовной интеграции.

PodAgent: Комплексная платформа для генерации подкастов
PodAgent: A Comprehensive Framework for Podcast Generation

Mar 1

ByYujia Xiao, Lei He, Haohan Guo, Fenglong Xie, Tan Lee

Существующие методы автоматической генерации аудио сталкиваются с трудностями при создании подкастоподобных аудиопрограмм. Основные проблемы заключаются в глубокой генерации контента, а также в создании подходящего и выразительного голосового сопровождения. В данной статье представлен PodAgent — комплексный фреймворк для создания аудиопрограмм. PodAgent 1) генерирует информативный контент для обсуждения тем, используя систему многозадачного взаимодействия Host-Guest-Writer, 2) создает пул голосов для подходящего распределения ролей и 3) применяет метод синтеза речи, усиленный LLM, для генерации выразительной разговорной речи. Учитывая отсутствие стандартизированных критериев оценки для генерации подкастоподобного аудио, мы разработали комплексные руководства по оценке для эффективного анализа производительности модели. Результаты экспериментов демонстрируют эффективность PodAgent, значительно превосходящего прямое генерирование GPT-4 в создании диалогов для обсуждения тем, достигая точности соответствия голосов в 87,4% и создавая более выразительную речь с помощью LLM-управляемого синтеза. Демо-страница: https://podcast-agent.github.io/demo/. Исходный код: https://github.com/yujxx/PodAgent.

Форма слова имеет значение: семантическая реконструкция в языковых моделях при типоглицемии
Word Form Matters: LLMs' Semantic Reconstruction under Typoglycemia

Mar 3

ByChenxi Wang, Tianle Gu, Zhongyu Wei, Lang Gao, Zirui Song, Xiuying Chen

Читатели-люди способны эффективно понимать переставленные буквы в словах, явление, известное как типоглицемия, в основном полагаясь на форму слова; если одной формы слова недостаточно, они дополнительно используют контекстные подсказки для интерпретации. Хотя современные крупные языковые модели (LLM) демонстрируют схожие способности, лежащие в их основе механизмы остаются неясными. Чтобы исследовать это, мы проводим контролируемые эксперименты для анализа роли формы слова и контекстной информации в семантической реконструкции и изучаем паттерны внимания LLM. В частности, мы сначала предлагаем SemRecScore, надежную метрику для количественной оценки степени семантической реконструкции, и подтверждаем её эффективность. Используя эту метрику, мы изучаем, как форма слова и контекстная информация влияют на способность LLM к семантической реконструкции, идентифицируя форму слова как ключевой фактор в этом процессе. Кроме того, мы анализируем, как LLM используют форму слова, и обнаруживаем, что они полагаются на специализированные головы внимания для извлечения и обработки информации о форме слова, причем этот механизм остается стабильным при различных уровнях перестановки букв. Это различие между фиксированными паттернами внимания LLM, в основном сосредоточенными на форме слова, и адаптивной стратегией читателей-людей, балансирующей между формой слова и контекстной информацией, предоставляет идеи для улучшения производительности LLM путем внедрения человеко-подобных, контекстно-зависимых механизмов.

Искусственно созданные тональные языки: предотвращение машинного лингва-франка, выходящего за пределы человеческого понимания
AI-Invented Tonal Languages: Preventing a Machine Lingua Franca Beyond Human Understanding

Mar 2

ByDavid Noever

В данной статье исследуется возможность разработки крупными языковыми моделями (LLM) частных тональных языков для машинного взаимодействия (M2M). Вдохновленные криптофазией у человеческих близнецов (встречающейся у 50% близнецов) и естественными тональными языками, такими как китайский и вьетнамский, мы реализовали систему точного отображения символов в частоты, которая кодирует полный набор символов ASCII (32-126) с использованием музыкальных полутонов. Каждому символу присваивается уникальная частота, создавая логарифмическую прогрессию, начинающуюся с пробела (220 Гц) и заканчивающуюся тильдой (50 175,42 Гц). Это охватывает примерно 7,9 октав, причем символы с более высокими значениями намеренно отображаются на ультразвуковые частоты, выходящие за пределы человеческого восприятия (>20 кГц). Наш программный прототип демонстрирует это кодирование через визуализацию, аудиовоспроизведение и музыкальную нотацию ABC, позволяя анализировать плотность информации и скорость передачи. Тестирование показывает, что тональное кодирование может достигать скоростей передачи информации, превышающих человеческую речь, при этом частично выходя за пределы человеческого восприятия. Эта работа напрямую отвечает на опасения по поводу катастрофического развития частных языков в системах ИИ в ближайшие пять лет, предоставляя конкретный пример программного прототипа, демонстрирующего, как может функционировать такое взаимодействие, а также техническую основу для его возникновения, обнаружения и регулирования.

Общее рассуждение требует обучения рассуждать с самого начала.
General Reasoning Requires Learning to Reason from the Get-go

Feb 26

BySeungwook Han, Jyothish Pari, Samuel J. Gershman, Pulkit Agrawal

Крупные языковые модели (LLM) продемонстрировали впечатляющую практическую полезность, воплощая искусственный полезный интеллект (AUI). Однако их способность к адаптивному и устойчивому рассуждению — ключевым характеристикам искусственного общего интеллекта (AGI) — остается ограниченной. Хотя LLM, казалось бы, успешно справляются с задачами здравого смысла, программирования и математики, они испытывают трудности с обобщением алгоритмического понимания в новых контекстах. Наши эксперименты с алгоритмическими задачами на эзотерических языках программирования показывают, что рассуждения LLM переобучаются на тренировочных данных и обладают ограниченной переносимостью. Мы предполагаем, что основная проблема, лежащая в основе такой ограниченной переносимости, заключается в тесной связи рассуждений и знаний в LLM. Для перехода от AUI к AGI мы предлагаем разделить знания и рассуждения через три ключевых направления: (1) предварительное обучение рассуждениям с использованием обучения с подкреплением (RL) с нуля как альтернативу широко используемому предобучению на предсказании следующего токена, (2) использование учебного плана из синтетических задач для облегчения изучения априорного распределения рассуждений для RL, которое затем может быть перенесено на задачи обработки естественного языка, и (3) обучение более обобщаемым функциям рассуждений с использованием небольшого контекстного окна для снижения эксплуатации ложных корреляций между токенами. Такая система рассуждений, объединенная с обученной системой извлечения информации и большой внешней памятью в качестве хранилища знаний, может преодолеть ряд ограничений существующих архитектур в обучении рассуждениям в новых сценариях.

Прямая дискриминативная оптимизация: ваш правдоподобный визуальный генеративная модель на самом деле является дискриминатором GAN
Direct Discriminative Optimization: Your Likelihood-Based Visual Generative Model is Secretly a GAN Discriminator

Mar 3

ByKaiwen Zheng, Yongxin Chen, Huayu Chen, Guande He, Ming-Yu Liu, Jun Zhu, Qinsheng Zhang

Хотя правдоподобие-ориентированные генеративные модели, в частности диффузионные и авторегрессионные модели, достигли впечатляющей точности в визуальной генерации, цель максимального правдоподобия (MLE) изначально страдает от склонности к покрытию мод, что ограничивает качество генерации при ограниченной емкости модели. В данной работе мы предлагаем Direct Discriminative Optimization (DDO) как унифицированную структуру, которая объединяет обучение генеративных моделей на основе правдоподобия с целью GAN, чтобы обойти это фундаментальное ограничение. Наше ключевое наблюдение заключается в параметризации дискриминатора неявно с использованием отношения правдоподобия между обучаемой целевой моделью и фиксированной эталонной моделью, проводя параллели с философией Direct Preference Optimization (DPO). В отличие от GAN, такая параметризация устраняет необходимость совместного обучения генератора и дискриминатора, позволяя проводить прямое, эффективное и результативное тонкое настраивание хорошо обученной модели для раскрытия ее полного потенциала за пределами ограничений MLE. DDO может выполняться итеративно в режиме самообучения для постепенного улучшения модели, причем каждый раунд требует менее 1% эпох предварительного обучения. Наши эксперименты демонстрируют эффективность DDO, значительно улучшая предыдущую SOTA диффузионную модель EDM, снижая показатели FID с 1.79/1.58 до новых рекордов 1.30/0.97 на наборах данных CIFAR-10/ImageNet-64, а также последовательно улучшая как FID без управления, так и FID с усилением CFG для визуальных авторегрессионных моделей на ImageNet 256×256.

Реконструкция планировки помещения по редким видам без предварительной подготовки в эпоху предобученных моделей
Unposed Sparse Views Room Layout Reconstruction in the Age of Pretrain Model

Feb 24

ByYaxuan Huang, Xili Dai, Jianan Wang, Xianbiao Qi, Yixing Yuan, Xiangyu Yue

Оценка планировки помещения на основе изображений с нескольких точек зрения остается малоизученной областью из-за сложностей, возникающих в многовидовой геометрии, которая требует многоэтапных решений, таких как оценка внутренних и внешних параметров камеры, сопоставление изображений и триангуляция. Однако в области 3D-реконструкции прогресс в современных базовых моделях, таких как DUSt3R, сместил парадигму от традиционного многоэтапного процесса структуры из движения к сквозному одноэтапному подходу. В связи с этим мы представляем Plane-DUSt3R — новый метод оценки планировки помещения на основе нескольких видов, использующий базовую 3D-модель DUSt3R. Plane-DUSt3R интегрирует фреймворк DUSt3R и дообучается на наборе данных для планировки помещений (Structure3D) с модифицированной целью оценки структурных плоскостей. Генерируя однородные и лаконичные результаты, Plane-DUSt3R позволяет оценивать планировку помещения всего за один этап постобработки и с использованием результатов 2D-детекции. В отличие от предыдущих методов, которые полагаются на изображения с одной точки зрения или панорамные изображения, Plane-DUSt3R расширяет настройку для обработки изображений с нескольких точек зрения. Более того, он предлагает упрощенное сквозное решение, которое упрощает процесс и снижает накопление ошибок. Экспериментальные результаты показывают, что Plane-DUSt3R не только превосходит современные методы на синтетических данных, но также демонстрирует устойчивость и эффективность на реальных данных с различными стилями изображений, такими как мультфильмы. Наш код доступен по адресу: https://github.com/justacar/Plane-DUSt3R.

Обучение метрического расстояния авторегрессивным мультимодальным базовым моделям
Teaching Metric Distance to Autoregressive Multimodal Foundational Models

Mar 4

ByJiwan Chung, Saejin Kim, Yongrae Jo, Jaewoo Park, Dongjun Min, Youngjae Yu

По мере того как крупные языковые модели выходят за рамки обработки естественного языка и охватывают такие области, как математика, мультимодальное понимание и воплощенные агенты, токены всё чаще отражают метрические отношения, а не чисто лингвистический смысл. Мы представляем DIST2Loss — дистанционно-ориентированную структуру, предназначенную для обучения авторегрессивных дискретных моделей с использованием предопределенных дистанционных отношений между выходными токенами. В основе DIST2Loss лежит преобразование непрерывных распределений экспоненциального семейства, полученных из встроенных метрик расстояния, в дискретные категориальные цели оптимизации, совместимые с архитектурами моделей. Этот подход позволяет моделям изучать и сохранять значимые дистанционные отношения в процессе генерации токенов, оставаясь совместимыми с существующими архитектурами. Эмпирические оценки демонстрируют устойчивое улучшение производительности в различных мультимодальных приложениях, включая визуальное заземление, роботизированное манипулирование, генеративное моделирование вознаграждений и генерацию изображений с использованием векторно-квантованных признаков. Эти улучшения особенно заметны в условиях ограниченного объема обучающих данных, что подчеркивает эффективность DIST2Loss в условиях ограниченных ресурсов.

Почему веб-агенты ИИ более уязвимы, чем автономные языковые модели? Анализ безопасности
Why Are Web AI Agents More Vulnerable Than Standalone LLMs? A Security Analysis

Feb 27

ByJeffrey Yang Fan Chiang, Seungjae Lee, Jia-Bin Huang, Furong Huang, Yizheng Chen

Последние достижения в области веб-агентов с искусственным интеллектом продемонстрировали впечатляющие способности в решении сложных задач веб-навигации. Однако новые исследования показывают, что эти агенты проявляют большую уязвимость по сравнению с автономными большими языковыми моделями (LLM), несмотря на то, что и те, и другие построены на основе моделей, ориентированных на безопасность. Это расхождение вызывает особую обеспокоенность, учитывая большую гибкость веб-агентов ИИ по сравнению с автономными LLM, что может подвергать их более широкому спектру враждебных пользовательских воздействий. Для создания структуры, которая учитывает эти проблемы, данное исследование изучает основные факторы, способствующие повышенной уязвимости веб-агентов ИИ. В частности, это различие обусловлено многогранными различиями между веб-агентами ИИ и автономными LLM, а также сложными сигналами — нюансами, которые часто упускаются при использовании простых метрик оценки, таких как процент успешности. Для решения этих задач мы предлагаем анализ на уровне компонентов и более детальную, систематическую структуру оценки. Благодаря этому углубленному исследованию мы выявили три ключевых фактора, которые усиливают уязвимость веб-агентов ИИ: (1) встраивание целей пользователя в системный промпт, (2) генерация многошаговых действий и (3) наблюдательные способности. Наши результаты подчеркивают настоятельную необходимость повышения безопасности и устойчивости в проектировании агентов ИИ и предоставляют практические рекомендации для разработки целевых стратегий защиты.

CLEA: Агент с замкнутым циклом для повышения эффективности выполнения задач в динамических средах
CLEA: Closed-Loop Embodied Agent for Enhancing Task Execution in Dynamic Environments

Mar 2

ByMingcong Lei, Ge Wang, Yiming Zhao, Zhixin Mai, Qing Zhao, Yao Guo, Zhen Li, Shuguang Cui, Yatong Han, Jinke Ren

Крупные языковые модели (LLM) демонстрируют выдающиеся способности в иерархической декомпозиции сложных задач посредством семантического рассуждения. Однако их применение в воплощённых системах сталкивается с трудностями в обеспечении надёжного выполнения последовательностей подзадач и достижении успеха с первой попытки в долгосрочном выполнении задач. Для преодоления этих ограничений в динамических средах мы предлагаем архитектуру Closed-Loop Embodied Agent (CLEA) — новую систему, включающую четыре специализированные открытые LLM с функциональной декомпозицией для замкнутого управления задачами. Фреймворк включает два ключевых нововведения: (1) Интерактивный планировщик задач, который динамически генерирует исполняемые подзадачи на основе памяти о среде, и (2) Мультимодальный критик выполнения, использующий оценочную систему для вероятностной оценки выполнимости действий, запускающий механизмы иерархического перепланирования, когда возмущения среды превышают заданные пороги. Для проверки эффективности CLEA мы проводим эксперименты в реальной среде с манипулируемыми объектами, используя двух разнородных роботов для задач поиска, манипуляции и интеграции поиска с манипуляцией. В 12 испытаниях CLEA превосходит базовую модель, демонстрируя улучшение успешности на 67,3% и увеличение коэффициента завершения задач на 52,8%. Эти результаты показывают, что CLEA значительно повышает устойчивость планирования и выполнения задач в динамических средах.

RSQ: Обучение на важных токенах приводит к созданию более качественных квантованных языковых моделей
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs

Mar 3

ByYi-Lin Sung, Prateek Yadav, Jialu Li, Jaehong Yoon, Mohit Bansal

Послойное квантование является ключевой техникой для эффективного сжатия больших моделей без дорогостоящего переобучения. Традиционные методы обычно квантуют веса каждого слоя, "равномерно" оптимизируя потерю реконструкции слоя для всех выходных токенов. Однако в данной работе мы показываем, что более качественно квантованные модели могут быть получены путем приоритизации обучения на важных токенах (например, тех, которые имеют высокие оценки внимания). Основываясь на этом наблюдении, мы предлагаем метод RSQ (Rotate, Scale, then Quantize), который (1) применяет вращения (ортогональные преобразования) к модели для смягчения выбросов (элементов с исключительно большой величиной), (2) масштабирует признаки токенов в зависимости от их важности и (3) квантует модель с использованием фреймворка GPTQ с вычислением статистики второго порядка на основе масштабированных токенов. Для вычисления важности токенов мы исследуем как эвристические, так и динамические стратегии. На основе тщательного анализа всех подходов мы выбираем концентрацию внимания, которая использует оценки внимания каждого токена в качестве его важности, как наилучший метод. Мы демонстрируем, что RSQ стабильно превосходит базовые методы в различных задачах и для трех семейств моделей: LLaMA3, Mistral и Qwen2.5. Кроме того, модели, квантованные с помощью RSQ, показывают превосходную производительность в задачах с длинным контекстом, что дополнительно подчеркивает его эффективность. Наконец, RSQ демонстрирует универсальность в различных настройках, включая разные размеры моделей, калибровочные наборы данных, битовые точности и методы квантования.