Ежедневно отобранные исследовательские статьи по ИИ с переводами
Хотя большие языковые модели способствовали прорывам во многих областях искусственного интеллекта, их внутреннее большое размерение делает их вычислительно дорогими и сложными для развертывания в условиях ограниченных ресурсов. В данной статье мы описываем разработку SmolLM2, передовой "небольшой" (1,7 миллиарда параметров) языковой модели (LM). Для достижения высокой производительности мы обучаем SmolLM2 на ~11 трлн токенов данных с использованием многоступенчатого процесса обучения, который смешивает веб-текст с специализированными математическими, кодовыми и инструкционными данными. Мы также представляем новые специализированные наборы данных (FineMath, Stack-Edu и SmolTalk) на этапах, где мы обнаружили, что существующие наборы данных являются проблематично малыми или низкого качества. Для обоснования наших проектных решений мы проводим как масштабные абляции, так и ручной процесс уточнения, который обновляет коэффициенты смешивания наборов данных на каждом этапе на основе производительности на предыдущем этапе. В конечном итоге мы демонстрируем, что SmolLM2 превосходит другие недавние небольшие LM, включая Qwen2.5-1.5B и Llama3.2-1B. Для облегчения будущих исследований по развитию LM, а также применения небольших LM, мы выпускаем как SmolLM2, так и все наборы данных, подготовленные в ходе этого проекта.
Мы представляем фундаментальное открытие, которое вызывает сомнения в нашем понимании того, как сложное рассуждение возникает в больших языковых моделях. В то время как общепринятое мнение подразумевает, что для выполнения сложных задач рассуждения требуется обширный объем обучающих данных (>100 000 примеров), мы демонстрируем, что сложные математические способности рассуждения могут быть эффективно вызваны с удивительно небольшим количеством примеров. Через комплексные эксперименты наша предложенная модель LIMO демонстрирует беспрецедентную производительность в математическом рассуждении. Используя всего лишь 817 отобранных обучающих примеров, LIMO достигает точности 57,1% на AIME и 94,8% на MATH, улучшая результаты предыдущих моделей на основе SFT, которые составляли 6,5% и 59,2% соответственно, при этом используя всего 1% обучающих данных, необходимых для предыдущих подходов. LIMO демонстрирует исключительную обобщаемость за пределами распределения, достигая абсолютного улучшения на 40,5% по 10 разнообразным бенчмаркам, превосходя модели, обученные на 100 раз большем объеме данных, оспаривая представление о том, что SFT приводит к запоминанию, а не обобщению. На основе этих результатов мы предлагаем гипотезу о рассуждении "Меньше - Значит, Больше" (LIMO Hypothesis): в моделях основы, где предметные знания были всесторонне закодированы во время предварительного обучения, сложные способности рассуждения могут возникнуть через минимальные, но точно организованные демонстрации когнитивных процессов. Эта гипотеза утверждает, что порог вызова для сложного рассуждения определяется двумя ключевыми факторами: (1) полнотой закодированных знаний модели во время предварительного обучения и (2) эффективностью послеобучающих примеров в качестве "когнитивных шаблонов", показывающих модели, как использовать свою базу знаний для решения сложных задач рассуждения. Для обеспечения воспроизводимости и будущих исследований в области эффективного использования данных в рассуждении мы выпускаем LIMO в качестве всестороннего набора с открытым исходным кодом по адресу https://github.com/GAIR-NLP/LIMO.
Масштабирование вычислений вывода улучшает рассуждения в больших языковых моделях (LLM), с длинными цепочками мыслей (CoTs), позволяющими стратегии, такие как откат и коррекция ошибок. Обучение с подкреплением (RL) стало ключевым методом для развития этих способностей, однако условия, при которых возникают длинные CoTs, остаются неясными, и обучение RL требует тщательного выбора дизайна. В данном исследовании мы систематически исследуем механику длинного рассуждения CoT, выявляя ключевые факторы, способствующие генерации моделями длинных траекторий CoT. Через обширные эксперименты по обучению с учителем (SFT) и RL мы представляем четыре основных результатa: (1) Хотя SFT не является строго необходимым, он упрощает обучение и повышает эффективность; (2) Способности к рассуждению обычно появляются с увеличением вычислительных ресурсов для обучения, но их развитие не гарантировано, поэтому формирование вознаграждения критично для стабилизации роста длины CoT; (3) Масштабирование проверяемых сигналов вознаграждения критично для RL. Мы обнаружили, что использование шумных, извлеченных из веба решений с механизмами фильтрации обладает большим потенциалом, особенно для задач вне распределения (OOD), таких как рассуждения в области STEM; и (4) Основные способности, такие как коррекция ошибок, встроены в базовые модели, однако стимулирование этих навыков эффективно для сложных задач через RL требует значительных вычислительных ресурсов, и измерение их появления требует тонкого подхода. Эти исследования предоставляют практическое руководство по оптимизации стратегий обучения для улучшения длинного рассуждения CoT в LLM. Наш код доступен по ссылке: https://github.com/eddycmu/demystify-long-cot.
Изучение социального возникновения давно является центральной темой в социальных науках. Традиционные подходы к моделированию, такие как основанные на правилах модели агентов (ABM), испытывают трудности в улавливании разнообразия и сложности человеческого поведения, особенно иррациональных факторов, акцентированных в поведенческой экономике. Недавно большие языковые модели (LLM) агентов получили популярность как инструменты моделирования человеческого поведения в социальных науках и ролевых приложениях. Исследования показывают, что LLM могут учитывать когнитивные предвзятости, эмоциональные колебания и другие нерациональные влияния, обеспечивая более реалистичные симуляции социо-экономической динамики. В данной работе мы представляем TwinMarket, новую мультиагентную платформу, которая использует LLM для симуляции социо-экономических систем. Конкретно, мы исследуем, как индивидуальные поведенческие шаблоны, через взаимодействия и механизмы обратной связи, порождают коллективную динамику и восходящие явления. Через эксперименты в симулированной среде фондового рынка мы демонстрируем, как действия отдельных лиц могут провоцировать групповые поведенческие реакции, приводя к восходящим результатам, таким как финансовые пузыри и рецессии. Наш подход предоставляет ценные исследования сложного взаимодействия между индивидуальным принятием решений и коллективными социо-экономическими узорами.
Мультимодальные модели большого языка (MLLM) обладают впечатляющими возможностями, однако сталкиваются с проблемами в сложном визуальном рассуждении. Недавние усилия направлены на улучшение рассуждений MLLM путем интеграции структурированного мышления, подобного OpenAI o1, через явные структуры поиска или дистилляцию под руководством учителя, однако часто возникают трудности с балансировкой производительности и эффективности. Критическим ограничением является их сильная зависимость от обширных данных и пространств поиска, что приводит к низкой эффективности извлечения неявных инсайтов и использования данных. Для решения этой проблемы мы предлагаем AStar, парадигму автоматизированного структурированного мышления для мультимодального рассуждения с помощью поиска в дереве Монте-Карло (MCTS). AStar автоматически выявляет высокоуровневые когнитивные рассуждения из ограниченных данных, используя иерархические структуры на основе MCTS. Основываясь на этих явных шаблонах, мы разрабатываем унифицированную рамку рассуждений, которая плавно интегрирует внутренние возможности рассуждения моделей и внешние руководящие принципы, обеспечивая эффективный вывод с минимальным количеством итераций по дереву. Эта новая парадигма достигает убедительного баланса между производительностью и эффективностью. Обширные эксперименты демонстрируют эффективность AStar, достигая высокой точности (54,0%) на бенчмарке MathVerse с 7B базовой моделью, превосходя GPT-4o (50,2%), сохраняя при этом значительную эффективность использования данных и вычислительных ресурсов.
Генерация многоуровневых SVG-изображений, соответствующих когнитивным процессам, остается сложной задачей из-за тенденции существующих методов к либо излишне упрощенным однослойным результатам, либо лишним дублированиям форм, вызванным оптимизацией. Мы предлагаем LayerTracer, основанный на диффузионном трансформере, который преодолевает эту проблему, изучая процессы создания многоуровневых SVG-изображений дизайнеров на основе нового набора данных последовательных операций дизайна. Наш подход работает в две фазы: сначала текстовый ДиТ генерирует многофазные растеризованные чертежи конструкции, имитирующие человеческие рабочие процессы. Затем векторизация по слоям с удалением дубликатов путей создает чистые, редактируемые SVG-изображения. Для векторизации изображений мы вводим условный механизм диффузии, который кодирует эталонные изображения в латентные токены, направляя иерархическую реконструкцию, сохраняя структурную целостность. Обширные эксперименты демонстрируют превосходное качество работы LayerTracer по сравнению с оптимизационными и нейронными базовыми моделями как по качеству генерации, так и по возможности редактирования, эффективно согласуя векторы, созданные ИИ, с профессиональным дизайнерским мышлением.
Большие языковые модели (LLM) проявляют себя великолепно в рассуждениях и планировании, когда обучены на данных цепочки мыслей (CoT), где пошаговый процесс мышления явно описан текстовыми токенами. Однако это приводит к длинным входным данным, где многие слова поддерживают текстовую связность, а не основную информацию рассуждений, и обработка этих данных требует значительных вычислительных ресурсов. В данной работе мы предлагаем гибридное представление процесса рассуждения, где мы частично абстрагируем начальные шаги рассуждений с использованием латентных дискретных токенов, сгенерированных VQ-VAE, что значительно сокращает длину следов рассуждений. Мы исследуем использование латентных абстракций следов в двух сценариях: 1) обучение модели с нуля для проблемы лабиринта поиска ключей, 2) дообучение LLM на этих гибридных данных с расширенным словарем, включающим невидимые латентные токены, как для логических, так и для математических задач рассуждений. Для облегчения эффективного обучения мы представляем простую процедуру обучения, которая случайным образом смешивает латентные и текстовые токены, что обеспечивает быструю адаптацию к новым латентным токенам. Наш подход последовательно превосходит базовые методы на различных бенчмарках.
Посттренировка языковых моделей (ЯМ) все чаще опирается на следующие два этапа: (i) дистилляция знаний, где ЯМ обучается имитировать более крупную учительскую ЯМ, и (ii) обучение с подкреплением на основе обратной связи от человека (RLHF), где ЯМ выравнивается путем оптимизации модели вознаграждения. На втором этапе RLHF хорошо известной проблемой является взлом вознаграждения, когда ЯМ переоптимизирует модель вознаграждения. Такое явление соответствует закону Гудхарта и может привести к ухудшению производительности по истинной цели. В данной статье мы исследуем, может ли происходить аналогичное явление, которое мы называем взломом учителя, во время дистилляции знаний. Это может произойти потому, что учительская ЯМ сама по себе является неполным приближением истинного распределения. Для изучения этого мы предлагаем контролируемую экспериментальную установку, включающую: (i) оракульскую ЯМ, представляющую истинное распределение, (ii) учительскую ЯМ, дистиллированную из оракула, и (iii) студенческую ЯМ, дистиллированную из учителя. Наши эксперименты раскрывают следующие идеи. При использовании фиксированного офлайн набора данных для дистилляции происходит взлом учителя; более того, мы можем обнаружить его, наблюдая отклонения оптимизационного процесса от законов полиномиальной сходимости. В отличие от этого, применение техник генерации данных в реальном времени эффективно смягчает взлом учителя. Более точно, мы выявляем разнообразие данных как ключевой фактор в предотвращении взлома. В целом, наши результаты обеспечивают более глубокое понимание преимуществ и ограничений дистилляции для создания надежных и эффективных ЯМ.
Автоматическая генерация кода приобретает значительное значение в интеллектуальном программировании и развертывании систем. Однако текущие подходы часто сталкиваются с проблемами в вычислительной эффективности и отсутствием надежных механизмов для разбора кода и исправления ошибок. В данной работе мы предлагаем новую концепцию, PyCapsule, с простым, но эффективным двухагентным конвейером и эффективными модулями самодиагностики для генерации кода на Python. PyCapsule включает в себя сложное выводимое подсказками, итеративное обработку ошибок и тестирование случаев, обеспечивая высокую стабильность, безопасность и корректность генерации. Эмпирически PyCapsule достигает улучшения успешности до 5.7% на HumanEval, 10.3% на HumanEval-ET и 24.4% на BigCodeBench по сравнению с передовыми методами. Мы также наблюдаем снижение нормализованной успешности при увеличении попыток самодиагностики, что потенциально обусловлено ограниченной и зашумленной обратной связью об ошибках. PyCapsule демонстрирует более широкие влияния на продвижение легкой и эффективной генерации кода для систем искусственного интеллекта.
Большие языковые модели (LLM) достигли значительного улучшения производительности за счет увеличения размеров моделей и/или данных. Однако недавние данные свидетельствуют о убывающей отдаче от таких подходов, что мотивирует увеличение вычислительных затрат во время вывода. Существующие методы масштабирования во время вывода, обычно с моделями вознаграждения, представляют задачу как проблему поиска, что обычно делает ее уязвимой для взлома вознаграждения в результате ошибок аппроксимации в моделях вознаграждения. В данной статье мы вместо этого представляем масштабирование во время вывода как задачу вероятностного вывода и используем методы на основе выборки для исследования типичного набора распределения состояний модели пространства состояний с приблизительной вероятностью, а не для прямой оптимизации ее моды. Мы предлагаем новый подход к масштабированию во время вывода, адаптируя методы Монте-Карло на основе частиц к этой задаче. Наша эмпирическая оценка показывает, что наши методы имеют скорость масштабирования на 4-16 раз выше по сравнению с нашими детерминированными аналогами поиска на различных сложных задачах математического рассуждения. Используя наш подход, мы показываем, что Qwen2.5-Math-1.5B-Instruct может превзойти точность GPT-4o всего за 4 прогонов, в то время как Qwen2.5-Math-7B-Instruct достигает уровня точности o1 всего за 32 прогона. Наша работа не только представляет эффективный метод масштабирования во время вывода, но также соединяет богатую литературу в вероятностном выводе с масштабированием во время вывода LLM для разработки более надежных алгоритмов в будущей работе. Код и дополнительная информация доступны на https://probabilistic-inference-scaling.github.io.
Большие языковые модели (LLM) наблюдали стремительное развитие в последние годы, революционизируя различные приложения и значительно повышая удобство и производительность. Однако наряду с их впечатляющими возможностями возникли этические проблемы и новые типы атак, такие как jailbreaking. В то время как большинство методов подсказок сосредотачиваются на оптимизации адверсивных входных данных для отдельных случаев, что приводит к повышенным вычислительным затратам при работе с большими наборами данных. Меньше исследований затрагивают более общую ситуацию обучения универсального атакующего, который может переноситься на невиденные задачи. В данной статье мы представляем JUMP, метод на основе подсказок, разработанный для jailbreaking LLM с использованием универсальных мульти-подсказок. Мы также адаптируем наш подход для защиты, который мы называем DUMP. Экспериментальные результаты демонстрируют, что наш метод оптимизации универсальных мульти-подсказок превосходит существующие техники.
Слияние моделей, метод, который объединяет параметры и вложения нескольких тонко настроенных больших языковых моделей (LLM), предлагает многообещающий подход к улучшению производительности модели на различных задачах при сохранении вычислительной эффективности. В данной статье представлена техника слияния, основанная на активации (AIM), которая интегрирует информацию из пространства активации LLM в процесс слияния для улучшения производительности и устойчивости. AIM разработана как гибкое, дополняющее решение, применимое к любому существующему методу слияния. Она нацелена на сохранение важных весов базовой модели, опираясь на принципы непрерывного обучения (CL) и сжатия модели. Используя калибровочный набор, не зависящий от задачи, AIM выборочно придает приоритет важным весам во время слияния. Мы эмпирически демонстрируем, что AIM значительно улучшает производительность объединенных моделей на нескольких бенчмарках. Наши результаты показывают, что учет информации из пространства активации может привести к значительным усовершенствованиям в стратегиях слияния моделей для LLM с увеличением производительности на бенчмарках до 40\%.
Метод "Поиск с восстановлением" (Retrieval-Augmented Generation, RAG) позволяет крупным языковым моделям (Large Language Models, LLMs) генерировать обоснованные ответы, используя внешние базы знаний, не изменяя параметры модели. Хотя отсутствие настройки весов предотвращает утечку через параметры модели, это вносит риск использования извлеченных документов инферентными атакующими в контексте модели. Существующие методы для определения членства и извлечения данных часто зависят от обхода защиты или тщательно разработанных неестественных запросов, которые могут быть легко обнаружены или предотвращены с помощью техник переписывания запросов, распространенных в системах RAG. В данной работе мы представляем "Атаку допроса" (Interrogation Attack, IA), метод определения членства, нацеленный на документы в хранилище данных RAG. Создавая естественно-текстовые запросы, на которые можно ответить только при наличии целевого документа, наш подход демонстрирует успешное определение членства всего с 30 запросами, оставаясь незаметным; прямые детекторы идентифицируют атакующие запросы из существующих методов в ~76 раз чаще, чем те, которые генерируются нашей атакой. Мы наблюдаем улучшение в 2 раза показателя TPR@1%FPR по сравнению с предыдущими атаками определения членства в различных конфигурациях RAG, все это обходится менее чем $0.02 за определение членства документа.
Оценка применимости крупных языковых моделей (КЯМ) в реальном мире предоставляет ценные идеи для их разработки и использования в задачах программирования. Существующие бенчмарки часто сосредотачиваются на отдельных задачах кодирования или конкретных библиотеках, игнорируя сценарии на основе проектов с несколькими файлами и не обеспечивая строгой оценки согласованности. Бенчмарк HackerRank-ASTRA представляет задачи по программированию на основе проектов, отражающие реальные сценарии. Он оценивает согласованность модели через 32 запуска (k = 32) и медианное стандартное отклонение, включая анализ на уровне таксономии для оценки возможностей поднавыков. Первоначальные оценки на 65 задачах показывают, что три лучшие модели - o1, o1-preview и Claude-3.5-Sonnet-1022 - достигли сравнимых средних баллов 75%, без статистически значимых различий в производительности. Заметно, что модель Claude-3.5-Sonnet-1022 продемонстрировала наивысшую согласованность по задачам, с низкой изменчивостью (SD = 0.0497), что статистически значимо по сравнению с другими моделями, подчеркивая ее надежность для задач разработки программного обеспечения в реальном мире.