Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

SmolLM2: Когда маленькое становится большим - Данные-центричное обучение небольшой языковой модели
SmolLM2: When Smol Goes Big -- Data-Centric Training of a Small Language Model

Feb 4

ByLoubna Ben Allal, Anton Lozhkov, Elie Bakouch, Gabriel Martín Blázquez, Guilherme Penedo, Lewis Tunstall, Andrés Marafioti, Hynek Kydlíček, Agustín Piqueres Lajarín, Vaibhav Srivastav, Joshua Lochner, Caleb Fahlgren, Xuan-Son Nguyen, Clémentine Fourrier, Ben Burtenshaw, Hugo Larcher, Haojun Zhao, Cyril Zakka, Mathieu Morlon, Colin Raffel, Leandro von Werra, Thomas Wolf

243

Хотя большие языковые модели способствовали прорывам во многих областях искусственного интеллекта, их внутреннее большое размерение делает их вычислительно дорогими и сложными для развертывания в условиях ограниченных ресурсов. В данной статье мы описываем разработку SmolLM2, передовой "небольшой" (1,7 миллиарда параметров) языковой модели (LM). Для достижения высокой производительности мы обучаем SmolLM2 на ~11 трлн токенов данных с использованием многоступенчатого процесса обучения, который смешивает веб-текст с специализированными математическими, кодовыми и инструкционными данными. Мы также представляем новые специализированные наборы данных (FineMath, Stack-Edu и SmolTalk) на этапах, где мы обнаружили, что существующие наборы данных являются проблематично малыми или низкого качества. Для обоснования наших проектных решений мы проводим как масштабные абляции, так и ручной процесс уточнения, который обновляет коэффициенты смешивания наборов данных на каждом этапе на основе производительности на предыдущем этапе. В конечном итоге мы демонстрируем, что SmolLM2 превосходит другие недавние небольшие LM, включая Qwen2.5-1.5B и Llama3.2-1B. Для облегчения будущих исследований по развитию LM, а также применения небольших LM, мы выпускаем как SmolLM2, так и все наборы данных, подготовленные в ходе этого проекта.

ЛИМО: Меньше - значит больше для рассуждений
LIMO: Less is More for Reasoning

Feb 5

ByYixin Ye, Zhen Huang, Yang Xiao, Ethan Chern, Shijie Xia, Pengfei Liu

Мы представляем фундаментальное открытие, которое вызывает сомнения в нашем понимании того, как сложное рассуждение возникает в больших языковых моделях. В то время как общепринятое мнение подразумевает, что для выполнения сложных задач рассуждения требуется обширный объем обучающих данных (>100 000 примеров), мы демонстрируем, что сложные математические способности рассуждения могут быть эффективно вызваны с удивительно небольшим количеством примеров. Через комплексные эксперименты наша предложенная модель LIMO демонстрирует беспрецедентную производительность в математическом рассуждении. Используя всего лишь 817 отобранных обучающих примеров, LIMO достигает точности 57,1% на AIME и 94,8% на MATH, улучшая результаты предыдущих моделей на основе SFT, которые составляли 6,5% и 59,2% соответственно, при этом используя всего 1% обучающих данных, необходимых для предыдущих подходов. LIMO демонстрирует исключительную обобщаемость за пределами распределения, достигая абсолютного улучшения на 40,5% по 10 разнообразным бенчмаркам, превосходя модели, обученные на 100 раз большем объеме данных, оспаривая представление о том, что SFT приводит к запоминанию, а не обобщению. На основе этих результатов мы предлагаем гипотезу о рассуждении "Меньше - Значит, Больше" (LIMO Hypothesis): в моделях основы, где предметные знания были всесторонне закодированы во время предварительного обучения, сложные способности рассуждения могут возникнуть через минимальные, но точно организованные демонстрации когнитивных процессов. Эта гипотеза утверждает, что порог вызова для сложного рассуждения определяется двумя ключевыми факторами: (1) полнотой закодированных знаний модели во время предварительного обучения и (2) эффективностью послеобучающих примеров в качестве "когнитивных шаблонов", показывающих модели, как использовать свою базу знаний для решения сложных задач рассуждения. Для обеспечения воспроизводимости и будущих исследований в области эффективного использования данных в рассуждении мы выпускаем LIMO в качестве всестороннего набора с открытым исходным кодом по адресу https://github.com/GAIR-NLP/LIMO.

Расшифровка длинных цепочек рассуждений в LLMs
Demystifying Long Chain-of-Thought Reasoning in LLMs

Feb 5

ByEdward Yeo, Yuxuan Tong, Morry Niu, Graham Neubig, Xiang Yue

Масштабирование вычислений вывода улучшает рассуждения в больших языковых моделях (LLM), с длинными цепочками мыслей (CoTs), позволяющими стратегии, такие как откат и коррекция ошибок. Обучение с подкреплением (RL) стало ключевым методом для развития этих способностей, однако условия, при которых возникают длинные CoTs, остаются неясными, и обучение RL требует тщательного выбора дизайна. В данном исследовании мы систематически исследуем механику длинного рассуждения CoT, выявляя ключевые факторы, способствующие генерации моделями длинных траекторий CoT. Через обширные эксперименты по обучению с учителем (SFT) и RL мы представляем четыре основных результатa: (1) Хотя SFT не является строго необходимым, он упрощает обучение и повышает эффективность; (2) Способности к рассуждению обычно появляются с увеличением вычислительных ресурсов для обучения, но их развитие не гарантировано, поэтому формирование вознаграждения критично для стабилизации роста длины CoT; (3) Масштабирование проверяемых сигналов вознаграждения критично для RL. Мы обнаружили, что использование шумных, извлеченных из веба решений с механизмами фильтрации обладает большим потенциалом, особенно для задач вне распределения (OOD), таких как рассуждения в области STEM; и (4) Основные способности, такие как коррекция ошибок, встроены в базовые модели, однако стимулирование этих навыков эффективно для сложных задач через RL требует значительных вычислительных ресурсов, и измерение их появления требует тонкого подхода. Эти исследования предоставляют практическое руководство по оптимизации стратегий обучения для улучшения длинного рассуждения CoT в LLM. Наш код доступен по ссылке: https://github.com/eddycmu/demystify-long-cot.

TwinMarket: Масштабируемая поведенческая и социальная симуляция для финансовых рынков
TwinMarket: A Scalable Behavioral and Social Simulation for Financial Markets

Feb 3

ByYuzhe Yang, Yifei Zhang, Minghao Wu, Kaidi Zhang, Yunmiao Zhang, Honghai Yu, Yan Hu, Benyou Wang

Изучение социального возникновения давно является центральной темой в социальных науках. Традиционные подходы к моделированию, такие как основанные на правилах модели агентов (ABM), испытывают трудности в улавливании разнообразия и сложности человеческого поведения, особенно иррациональных факторов, акцентированных в поведенческой экономике. Недавно большие языковые модели (LLM) агентов получили популярность как инструменты моделирования человеческого поведения в социальных науках и ролевых приложениях. Исследования показывают, что LLM могут учитывать когнитивные предвзятости, эмоциональные колебания и другие нерациональные влияния, обеспечивая более реалистичные симуляции социо-экономической динамики. В данной работе мы представляем TwinMarket, новую мультиагентную платформу, которая использует LLM для симуляции социо-экономических систем. Конкретно, мы исследуем, как индивидуальные поведенческие шаблоны, через взаимодействия и механизмы обратной связи, порождают коллективную динамику и восходящие явления. Через эксперименты в симулированной среде фондового рынка мы демонстрируем, как действия отдельных лиц могут провоцировать групповые поведенческие реакции, приводя к восходящим результатам, таким как финансовые пузыри и рецессии. Наш подход предоставляет ценные исследования сложного взаимодействия между индивидуальным принятием решений и коллективными социо-экономическими узорами.

Усиление мультимодального рассуждения с MCTS-автоматизированным структурированным мышлением
Boosting Multimodal Reasoning with MCTS-Automated Structured Thinking

Feb 4

ByJinyang Wu, Mingkuan Feng, Shuai Zhang, Ruihan Jin, Feihu Che, Zengqi Wen, Jianhua Tao

Мультимодальные модели большого языка (MLLM) обладают впечатляющими возможностями, однако сталкиваются с проблемами в сложном визуальном рассуждении. Недавние усилия направлены на улучшение рассуждений MLLM путем интеграции структурированного мышления, подобного OpenAI o1, через явные структуры поиска или дистилляцию под руководством учителя, однако часто возникают трудности с балансировкой производительности и эффективности. Критическим ограничением является их сильная зависимость от обширных данных и пространств поиска, что приводит к низкой эффективности извлечения неявных инсайтов и использования данных. Для решения этой проблемы мы предлагаем AStar, парадигму автоматизированного структурированного мышления для мультимодального рассуждения с помощью поиска в дереве Монте-Карло (MCTS). AStar автоматически выявляет высокоуровневые когнитивные рассуждения из ограниченных данных, используя иерархические структуры на основе MCTS. Основываясь на этих явных шаблонах, мы разрабатываем унифицированную рамку рассуждений, которая плавно интегрирует внутренние возможности рассуждения моделей и внешние руководящие принципы, обеспечивая эффективный вывод с минимальным количеством итераций по дереву. Эта новая парадигма достигает убедительного баланса между производительностью и эффективностью. Обширные эксперименты демонстрируют эффективность AStar, достигая высокой точности (54,0%) на бенчмарке MathVerse с 7B базовой моделью, превосходя GPT-4o (50,2%), сохраняя при этом значительную эффективность использования данных и вычислительных ресурсов.

LayerTracer: Синтез SVG в слоях, выровненный по когнитивным принципам, с использованием трансформера диффузии
LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer

Feb 3

ByYiren Song, Danze Chen, Mike Zheng Shou

Генерация многоуровневых SVG-изображений, соответствующих когнитивным процессам, остается сложной задачей из-за тенденции существующих методов к либо излишне упрощенным однослойным результатам, либо лишним дублированиям форм, вызванным оптимизацией. Мы предлагаем LayerTracer, основанный на диффузионном трансформере, который преодолевает эту проблему, изучая процессы создания многоуровневых SVG-изображений дизайнеров на основе нового набора данных последовательных операций дизайна. Наш подход работает в две фазы: сначала текстовый ДиТ генерирует многофазные растеризованные чертежи конструкции, имитирующие человеческие рабочие процессы. Затем векторизация по слоям с удалением дубликатов путей создает чистые, редактируемые SVG-изображения. Для векторизации изображений мы вводим условный механизм диффузии, который кодирует эталонные изображения в латентные токены, направляя иерархическую реконструкцию, сохраняя структурную целостность. Обширные эксперименты демонстрируют превосходное качество работы LayerTracer по сравнению с оптимизационными и нейронными базовыми моделями как по качеству генерации, так и по возможности редактирования, эффективно согласуя векторы, созданные ИИ, с профессиональным дизайнерским мышлением.

О Взломе Учителя в Дистилляции Языковой Модели
On Teacher Hacking in Language Model Distillation

Feb 4

ByDaniil Tiapkin, Daniele Calandriello, Johan Ferret, Sarah Perrin, Nino Vieillard, Alexandre Ramé, Mathieu Blondel

Посттренировка языковых моделей (ЯМ) все чаще опирается на следующие два этапа: (i) дистилляция знаний, где ЯМ обучается имитировать более крупную учительскую ЯМ, и (ii) обучение с подкреплением на основе обратной связи от человека (RLHF), где ЯМ выравнивается путем оптимизации модели вознаграждения. На втором этапе RLHF хорошо известной проблемой является взлом вознаграждения, когда ЯМ переоптимизирует модель вознаграждения. Такое явление соответствует закону Гудхарта и может привести к ухудшению производительности по истинной цели. В данной статье мы исследуем, может ли происходить аналогичное явление, которое мы называем взломом учителя, во время дистилляции знаний. Это может произойти потому, что учительская ЯМ сама по себе является неполным приближением истинного распределения. Для изучения этого мы предлагаем контролируемую экспериментальную установку, включающую: (i) оракульскую ЯМ, представляющую истинное распределение, (ii) учительскую ЯМ, дистиллированную из оракула, и (iii) студенческую ЯМ, дистиллированную из учителя. Наши эксперименты раскрывают следующие идеи. При использовании фиксированного офлайн набора данных для дистилляции происходит взлом учителя; более того, мы можем обнаружить его, наблюдая отклонения оптимизационного процесса от законов полиномиальной сходимости. В отличие от этого, применение техник генерации данных в реальном времени эффективно смягчает взлом учителя. Более точно, мы выявляем разнообразие данных как ключевой фактор в предотвращении взлома. В целом, наши результаты обеспечивают более глубокое понимание преимуществ и ограничений дистилляции для создания надежных и эффективных ЯМ.

Смешанный токен: комбинирование скрытых и текстовых токенов для улучшения лингвистического моделирования.
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning

Feb 5

ByDiJia Su, Hanlin Zhu, Yingchen Xu, Jiantao Jiao, Yuandong Tian, Qinqing Zheng

Большие языковые модели (LLM) проявляют себя великолепно в рассуждениях и планировании, когда обучены на данных цепочки мыслей (CoT), где пошаговый процесс мышления явно описан текстовыми токенами. Однако это приводит к длинным входным данным, где многие слова поддерживают текстовую связность, а не основную информацию рассуждений, и обработка этих данных требует значительных вычислительных ресурсов. В данной работе мы предлагаем гибридное представление процесса рассуждения, где мы частично абстрагируем начальные шаги рассуждений с использованием латентных дискретных токенов, сгенерированных VQ-VAE, что значительно сокращает длину следов рассуждений. Мы исследуем использование латентных абстракций следов в двух сценариях: 1) обучение модели с нуля для проблемы лабиринта поиска ключей, 2) дообучение LLM на этих гибридных данных с расширенным словарем, включающим невидимые латентные токены, как для логических, так и для математических задач рассуждений. Для облегчения эффективного обучения мы представляем простую процедуру обучения, которая случайным образом смешивает латентные и текстовые токены, что обеспечивает быструю адаптацию к новым латентным токенам. Наш подход последовательно превосходит базовые методы на различных бенчмарках.

Создание кода с самоотлаживанием под руководством большой языковой модели
Large Language Model Guided Self-Debugging Code Generation

Feb 5

ByMuntasir Adnan, Zhiwei Xu, Carlos C. N. Kuhn

Автоматическая генерация кода приобретает значительное значение в интеллектуальном программировании и развертывании систем. Однако текущие подходы часто сталкиваются с проблемами в вычислительной эффективности и отсутствием надежных механизмов для разбора кода и исправления ошибок. В данной работе мы предлагаем новую концепцию, PyCapsule, с простым, но эффективным двухагентным конвейером и эффективными модулями самодиагностики для генерации кода на Python. PyCapsule включает в себя сложное выводимое подсказками, итеративное обработку ошибок и тестирование случаев, обеспечивая высокую стабильность, безопасность и корректность генерации. Эмпирически PyCapsule достигает улучшения успешности до 5.7% на HumanEval, 10.3% на HumanEval-ET и 24.4% на BigCodeBench по сравнению с передовыми методами. Мы также наблюдаем снижение нормализованной успешности при увеличении попыток самодиагностики, что потенциально обусловлено ограниченной и зашумленной обратной связью об ошибках. PyCapsule демонстрирует более широкие влияния на продвижение легкой и эффективной генерации кода для систем искусственного интеллекта.

Вероятностный подход к масштабированию LLM во время вывода с использованием методов Монте-Карло на основе частиц
A Probabilistic Inference Approach to Inference-Time Scaling of LLMs using Particle-Based Monte Carlo Methods

Feb 3

ByIsha Puri, Shivchander Sudalairaj, Guangxuan Xu, Kai Xu, Akash Srivastava

Большие языковые модели (LLM) достигли значительного улучшения производительности за счет увеличения размеров моделей и/или данных. Однако недавние данные свидетельствуют о убывающей отдаче от таких подходов, что мотивирует увеличение вычислительных затрат во время вывода. Существующие методы масштабирования во время вывода, обычно с моделями вознаграждения, представляют задачу как проблему поиска, что обычно делает ее уязвимой для взлома вознаграждения в результате ошибок аппроксимации в моделях вознаграждения. В данной статье мы вместо этого представляем масштабирование во время вывода как задачу вероятностного вывода и используем методы на основе выборки для исследования типичного набора распределения состояний модели пространства состояний с приблизительной вероятностью, а не для прямой оптимизации ее моды. Мы предлагаем новый подход к масштабированию во время вывода, адаптируя методы Монте-Карло на основе частиц к этой задаче. Наша эмпирическая оценка показывает, что наши методы имеют скорость масштабирования на 4-16 раз выше по сравнению с нашими детерминированными аналогами поиска на различных сложных задачах математического рассуждения. Используя наш подход, мы показываем, что Qwen2.5-Math-1.5B-Instruct может превзойти точность GPT-4o всего за 4 прогонов, в то время как Qwen2.5-Math-7B-Instruct достигает уровня точности o1 всего за 32 прогона. Наша работа не только представляет эффективный метод масштабирования во время вывода, но также соединяет богатую литературу в вероятностном выводе с масштабированием во время вывода LLM для разработки более надежных алгоритмов в будущей работе. Код и дополнительная информация доступны на https://probabilistic-inference-scaling.github.io.

Взлом с использованием универсальных мульти-подсказок.
Jailbreaking with Universal Multi-Prompts

Feb 3

ByYu-Ling Hsu, Hsuan Su, Shang-Tse Chen

Большие языковые модели (LLM) наблюдали стремительное развитие в последние годы, революционизируя различные приложения и значительно повышая удобство и производительность. Однако наряду с их впечатляющими возможностями возникли этические проблемы и новые типы атак, такие как jailbreaking. В то время как большинство методов подсказок сосредотачиваются на оптимизации адверсивных входных данных для отдельных случаев, что приводит к повышенным вычислительным затратам при работе с большими наборами данных. Меньше исследований затрагивают более общую ситуацию обучения универсального атакующего, который может переноситься на невиденные задачи. В данной статье мы представляем JUMP, метод на основе подсказок, разработанный для jailbreaking LLM с использованием универсальных мульти-подсказок. Мы также адаптируем наш подход для защиты, который мы называем DUMP. Экспериментальные результаты демонстрируют, что наш метод оптимизации универсальных мульти-подсказок превосходит существующие техники.

Слияние больших языковых моделей на основе активации.
Activation-Informed Merging of Large Language Models

Feb 4

ByAmin Heyrani Nobari, Kaveh Alimohammadi, Ali ArjomandBigdeli, Akash Srivastava, Faez Ahmed, Navid Azizan

Слияние моделей, метод, который объединяет параметры и вложения нескольких тонко настроенных больших языковых моделей (LLM), предлагает многообещающий подход к улучшению производительности модели на различных задачах при сохранении вычислительной эффективности. В данной статье представлена техника слияния, основанная на активации (AIM), которая интегрирует информацию из пространства активации LLM в процесс слияния для улучшения производительности и устойчивости. AIM разработана как гибкое, дополняющее решение, применимое к любому существующему методу слияния. Она нацелена на сохранение важных весов базовой модели, опираясь на принципы непрерывного обучения (CL) и сжатия модели. Используя калибровочный набор, не зависящий от задачи, AIM выборочно придает приоритет важным весам во время слияния. Мы эмпирически демонстрируем, что AIM значительно улучшает производительность объединенных моделей на нескольких бенчмарках. Наши результаты показывают, что учет информации из пространства активации может привести к значительным усовершенствованиям в стратегиях слияния моделей для LLM с увеличением производительности на бенчмарках до 40\%.

Загадка для вас! Скрытый вывод членства для генерации с усилением поиска
Riddle Me This! Stealthy Membership Inference for Retrieval-Augmented Generation

Feb 1

ByAli Naseh, Yuefeng Peng, Anshuman Suri, Harsh Chaudhari, Alina Oprea, Amir Houmansadr

Метод "Поиск с восстановлением" (Retrieval-Augmented Generation, RAG) позволяет крупным языковым моделям (Large Language Models, LLMs) генерировать обоснованные ответы, используя внешние базы знаний, не изменяя параметры модели. Хотя отсутствие настройки весов предотвращает утечку через параметры модели, это вносит риск использования извлеченных документов инферентными атакующими в контексте модели. Существующие методы для определения членства и извлечения данных часто зависят от обхода защиты или тщательно разработанных неестественных запросов, которые могут быть легко обнаружены или предотвращены с помощью техник переписывания запросов, распространенных в системах RAG. В данной работе мы представляем "Атаку допроса" (Interrogation Attack, IA), метод определения членства, нацеленный на документы в хранилище данных RAG. Создавая естественно-текстовые запросы, на которые можно ответить только при наличии целевого документа, наш подход демонстрирует успешное определение членства всего с 30 запросами, оставаясь незаметным; прямые детекторы идентифицируют атакующие запросы из существующих методов в ~76 раз чаще, чем те, которые генерируются нашей атакой. Мы наблюдаем улучшение в 2 раза показателя TPR@1%FPR по сравнению с предыдущими атаками определения членства в различных конфигурациях RAG, все это обходится менее чем $0.02 за определение членства документа.

HackerRank-ASTRA: Оценка правильности и согласованности больших языковых моделей на многофайловых проектах с кросс-доменными проблемами.
HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems

Jan 31

ByJun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta

Оценка применимости крупных языковых моделей (КЯМ) в реальном мире предоставляет ценные идеи для их разработки и использования в задачах программирования. Существующие бенчмарки часто сосредотачиваются на отдельных задачах кодирования или конкретных библиотеках, игнорируя сценарии на основе проектов с несколькими файлами и не обеспечивая строгой оценки согласованности. Бенчмарк HackerRank-ASTRA представляет задачи по программированию на основе проектов, отражающие реальные сценарии. Он оценивает согласованность модели через 32 запуска (k = 32) и медианное стандартное отклонение, включая анализ на уровне таксономии для оценки возможностей поднавыков. Первоначальные оценки на 65 задачах показывают, что три лучшие модели - o1, o1-preview и Claude-3.5-Sonnet-1022 - достигли сравнимых средних баллов 75%, без статистически значимых различий в производительности. Заметно, что модель Claude-3.5-Sonnet-1022 продемонстрировала наивысшую согласованность по задачам, с низкой изменчивостью (SD = 0.0497), что статистически значимо по сравнению с другими моделями, подчеркивая ее надежность для задач разработки программного обеспечения в реальном мире.