Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы представляем полный стек фреймворка, который масштабирует рассуждения в моделях, работающих с визуальными и языковыми данными (VLMs), для длинных видео, используя обучение с подкреплением. Мы решаем уникальные задачи, связанные с рассуждениями на длинных видео, интегрируя три ключевых компонента: (1) крупномасштабный набор данных LongVideo-Reason, содержащий 52 тыс. пар "видео-вопрос-ответ" с высококачественными аннотациями для рассуждений в различных областях, таких как спорт, игры и влоги; (2) двухэтапный процесс обучения, который расширяет возможности VLMs с помощью тонкой настройки с использованием цепочки рассуждений (CoT-SFT) и обучения с подкреплением (RL); и (3) инфраструктуру для обучения на длинных видео с использованием RL, названную Multi-modal Reinforcement Sequence Parallelism (MR-SP), которая включает параллелизм последовательностей и движок на основе vLLM, оптимизированный для длинных видео, с использованием кэшированных видео-эмбеддингов для эффективного выполнения и предварительного заполнения. В экспериментах модель LongVILA-R1-7B демонстрирует высокую производительность на бенчмарках для длинных видео, таких как VideoMME. Она также превосходит Video-R1-7B и даже сопоставима с Gemini-1.5-Pro в задачах временного рассуждения, рассуждения о целях и назначении, пространственного рассуждения и сюжетного рассуждения на нашем бенчмарке LongVideo-Reason-eval. Примечательно, что наша система MR-SP обеспечивает ускорение обучения RL на длинных видео до 2,1 раза. LongVILA-R1 демонстрирует стабильный рост производительности с увеличением количества входных кадров видео. LongVILA-R1 представляет собой уверенный шаг в направлении рассуждений на длинных видео в VLMs. Кроме того, мы публикуем нашу систему обучения для общего доступа, которая поддерживает RL-обучение на различных модальностях (видео, текст и аудио), различных моделях (VILA и Qwen серии) и даже моделях генерации изображений и видео. На одном узле с A100 (8 GPU) она поддерживает RL-обучение на видео продолжительностью до часа (например, 3600 кадров / около 256 тыс. токенов).
Хотя тонкая настройка диффузионных моделей предлагает мощный подход для адаптации предварительно обученных моделей к генерации конкретных объектов, она часто страдает от переобучения при ограниченном количестве обучающих данных, что ухудшает как способность к обобщению, так и разнообразие выходных данных. В данной статье рассматривается сложная, но наиболее значимая задача адаптации диффузионной модели с использованием всего одного изображения концепта, поскольку персонализация на основе одного изображения обладает наибольшим практическим потенциалом. Мы представляем T-LoRA, фреймворк для низкоранговой адаптации, зависящей от временного шага, специально разработанный для персонализации диффузионных моделей. В нашей работе мы показываем, что более высокие временные шаги диффузии более склонны к переобучению, чем низкие, что требует стратегии тонкой настройки, чувствительной к временному шагу. T-LoRA включает два ключевых нововведения: (1) динамическую стратегию тонкой настройки, которая регулирует обновления с ограничением ранга в зависимости от временного шага диффузии, и (2) технику параметризации весов, которая обеспечивает независимость компонентов адаптера через ортогональную инициализацию. Многочисленные эксперименты показывают, что T-LoRA и её отдельные компоненты превосходят стандартный LoRA и другие методы персонализации диффузионных моделей. Они достигают превосходного баланса между точностью воспроизведения концепта и соответствием тексту, подчеркивая потенциал T-LoRA в сценариях с ограниченными данными и ресурсами. Код доступен по адресу https://github.com/ControlGenAI/T-LoRA.
Модели, такие как OpenAI-o3, прокладывают путь в визуально обоснованном рассуждении, динамически ссылаясь на визуальные области, подобно тому, как человек "мыслит образами". Однако отсутствует эталонный тест для комплексной оценки этих возможностей. Чтобы устранить этот пробел, мы предлагаем TreeBench (Traceable Evidence Evaluation Benchmark) — диагностический эталон, построенный на трех принципах: (1) фокусированное визуальное восприятие тонких объектов в сложных сценах, (2) отслеживаемые доказательства через оценку ограничивающих рамок и (3) рассуждения второго порядка для проверки взаимодействий объектов и пространственных иерархий, выходящих за рамки простой локализации объектов. Отдавая приоритет изображениям с плотным расположением объектов, мы изначально отобрали 1 тыс. высококачественных изображений из SA-1B и привлекли восемь экспертов по LMM для ручной аннотации вопросов, вариантов ответов и правильных ответов для каждого изображения. После трех этапов контроля качества TreeBench состоит из 405 сложных визуальных вопросно-ответных пар, с которыми даже самые передовые модели справляются с трудом, ни одна из них не достигает точности 60%, например, OpenAI-o3 показывает лишь 54,87. Кроме того, мы представляем TreeVGR (Traceable Evidence Enhanced Visual Grounded Reasoning) — парадигму обучения для совместного контроля локализации и рассуждений с использованием обучения с подкреплением, что обеспечивает точную локализацию и объяснимые пути рассуждений. Инициализированная на основе Qwen2.5-VL-7B, она улучшает показатели на V* Bench (+16,8), MME-RealWorld (+12,6) и TreeBench (+13,4), доказывая, что отслеживаемость является ключом к прогрессу в визуально обоснованном рассуждении. Код доступен по адресу https://github.com/Haochen-Wang409/TreeVGR.
Последние достижения в области мультимодальных больших языковых моделей (MLLMs) продемонстрировали впечатляющие способности в интеграции зрения и языка для сложных рассуждений. В то время как большинство существующих бенчмарков оценивают модели в оффлайн-режиме с фиксированным набором предварительно записанных входных данных, мы представляем OST-Bench — бенчмарк, разработанный для оценки онлайн пространственно-временного понимания с точки зрения агента, активно исследующего сцену. Онлайн-аспект подчеркивает необходимость обработки и рассуждений на основе постепенно получаемых наблюдений, а пространственно-временной компонент требует интеграции текущих визуальных данных с исторической памятью для поддержки динамического пространственного рассуждения. OST-Bench лучше отражает вызовы реального воплощенного восприятия. Построенный на эффективном конвейере сбора данных, OST-Bench включает 1,4 тыс. сцен и 10 тыс. пар вопросов и ответов, собранных из ScanNet, Matterport3D и ARKitScenes. Мы оценили несколько ведущих MLLMs на OST-Bench и обнаружили, что они не справляются с задачами, требующими сложного пространственно-временного рассуждения. В онлайн-режиме их точность снижается по мере увеличения горизонта исследования и роста памяти. Дополнительный экспериментальный анализ выявил общие модели ошибок среди моделей и показал, что как сложные требования к пространственному рассуждению на основе подсказок, так и требования к долгосрочному извлечению памяти значительно снижают производительность моделей по двум отдельным направлениям, подчеркивая ключевые вызовы, которые необходимо решить для улучшения онлайн воплощенного рассуждения. Для стимулирования дальнейших исследований и разработок в этой области наши коды, набор данных и бенчмарк доступны. Страница проекта: https://rbler1234.github.io/OSTBench.github.io/.
Видео-ориентированные большие языковые модели (LLMs) достигают высокого уровня понимания видео за счет использования большого количества пространственно-временных токенов, но сталкиваются с квадратичным увеличением вычислительной сложности в зависимости от их количества. Для решения этой проблемы мы предлагаем метод объединения пространственно-временных токенов без необходимости обучения, названный STTM. Наше ключевое наблюдение заключается в использовании локальной пространственной и временной избыточности в видеоданных, которая ранее игнорировалась. STTM сначала преобразует каждый кадр в многогранулярные пространственные токены с помощью поиска от грубого к детальному в структуре квадродерева, а затем выполняет направленное попарное объединение по временной оси. Этот декомпозированный подход к объединению превосходит существующие методы сокращения токенов на шести бенчмарках для вопросно-ответных задач по видео. В частности, STTM обеспечивает ускорение в 2 раза при снижении точности всего на 0,5% при бюджете токенов в 50% и ускорение в 3 раза при снижении точности на 2% при бюджете в 30%. Кроме того, STTM не зависит от запроса, что позволяет повторно использовать кэш ключей и значений (KV cache) для разных вопросов к одному и тому же видео. Страница проекта доступна по адресу https://www.jshyun.me/projects/sttm.
Видео по своей природе представляют собой двумерные проекции динамичного трехмерного мира. Однако наш анализ показывает, что модели диффузии видео, обученные исключительно на сырых видеоданных, часто не способны уловить значимую геометрически осознанную структуру в своих изученных представлениях. Чтобы преодолеть этот разрыв между моделями диффузии видео и лежащей в основе трехмерной природой физического мира, мы предлагаем метод Geometry Forcing — простой, но эффективный подход, который побуждает модели диффузии видео усваивать скрытые трехмерные представления. Наше ключевое наблюдение заключается в том, чтобы направлять промежуточные представления модели к геометрически осознанной структуре, выравнивая их с признаками из предварительно обученной геометрической базовой модели. Для этого мы вводим два взаимодополняющих целевых критерия выравнивания: Angular Alignment, который обеспечивает направленную согласованность через косинусное сходство, и Scale Alignment, который сохраняет информацию, связанную с масштабом, путем регрессии ненормализованных геометрических признаков из нормализованного представления диффузии. Мы оцениваем Geometry Forcing на задачах генерации видео с условиями на вид камеры и на действия. Экспериментальные результаты показывают, что наш метод существенно улучшает визуальное качество и трехмерную согласованность по сравнению с базовыми методами. Страница проекта: https://GeometryForcing.github.io.
Крупные языковые модели (LLM) всё чаще используются в качестве агентов — систем, способных планировать, рассуждать и динамически вызывать внешние инструменты. Однако в области визуального мышления предыдущие подходы в основном ограничивались предопределёнными рабочими процессами и статическими наборами инструментов. В данном отчёте мы представляем PyVision — интерактивную многошаговую платформу, которая позволяет мультимодальным языковым моделям (MLLM) автономно создавать, выполнять и уточнять инструменты на основе Python, адаптированные к конкретной задаче, обеспечивая гибкое и интерпретируемое решение проблем. Мы разработали таксономию инструментов, созданных PyVision, и проанализировали их использование на разнообразных тестовых наборах. Количественные результаты показывают, что PyVision обеспечивает стабильное улучшение производительности: GPT-4.1 улучшается на +7,8% на V*, а Claude-4.0-Sonnet — на +31,1% на VLMsAreBlind-mini. Эти результаты указывают на более широкий сдвиг: динамическое создание инструментов позволяет моделям не только использовать инструменты, но и изобретать их, продвигаясь к более автономному визуальному мышлению.
В данной статье мы представляем LangSplatV2, который достигает высокоскоростного сплатинга многомерных признаков на скорости 476.2 кадров в секунду (FPS) и выполнения 3D-запросов с открытым словарем на скорости 384.6 FPS для изображений высокого разрешения, что обеспечивает ускорение в 42 раза и улучшение производительности в 47 раз по сравнению с LangSplat, а также повышение точности запросов. LangSplat использует метод Gaussian Splatting для встраивания 2D языковых признаков CLIP в 3D-пространство, значительно повышая скорость и обучая точное 3D языковое поле с семантикой SAM. Такие достижения в области 3D языковых полей крайне важны для приложений, требующих языкового взаимодействия в сложных сценах. Однако LangSplat пока не достигает производительности в режиме реального времени (8.2 FPS), даже с использованием современных GPU A100, что серьезно ограничивает его широкое применение. В этой статье мы сначала проводим детальный временной анализ LangSplat, выявляя тяжеловесный декодер как основное узкое место в скорости. Наше решение, LangSplatV2, предполагает, что каждый гауссовский элемент действует как разреженный код в глобальном словаре, что приводит к обучению 3D поля разреженных коэффициентов, полностью устраняя необходимость в тяжеловесном декодере. Используя эту разреженность, мы также предлагаем эффективный метод сплатинга разреженных коэффициентов с оптимизацией на CUDA, который обеспечивает рендеринг многомерных карт признаков высокого качества при затратах времени, сопоставимых с сплатингом ультранизкоразмерного признака. Наши экспериментальные результаты показывают, что LangSplatV2 не только достигает лучшей или сопоставимой точности запросов, но и значительно быстрее. Коды и демонстрации доступны на странице проекта: https://langsplat-v2.github.io.
Может ли предобученная нейронная сеть адаптировать свою архитектуру к различным входным данным без дополнительного дообучения? Нужны ли все слои для простых задач, и достаточно ли они эффективны для сложных? Мы обнаружили, что слои предобученной крупной языковой модели (LLM) можно манипулировать как отдельные модули для создания более эффективной и даже более компактной модели, адаптированной для каждого тестового образца. В частности, каждый слой предобученной модели можно пропустить/удалить или повторить несколько раз, как в рекуррентных нейронных сетях (RNN), и комбинировать с другими в произвольном порядке, формируя цепочку слоев (CoLa) для каждого образца. Это композиционное пространство значительно расширяет возможности существующих подходов, таких как зацикленные/рекуррентные предобученные модули, удаление слоев или сети с ранним выходом. Мы разработали протокол поиска по дереву Монте-Карло (MCTS) для исследования и определения оптимальной CoLa для каждого образца из тестов на математические и логические рассуждения. По сравнению со статической моделью фиксированной глубины, CoLa позволяет использовать короткие пути (быстрое мышление), повторение одних и тех же слоев (медленное мышление) или их комбинацию, предлагая более гибкие и динамичные архитектуры для различных входных данных. Мы провели детальный анализ оптимизированных с помощью MCTS CoLa, что привело к двум ключевым выводам: (1) Для более чем 75% образцов, правильно классифицированных исходной LLM, можно найти более короткие CoLa, что указывает на значительный потенциал повышения эффективности вывода; (2) Для более чем 60% образцов, изначально классифицированных неправильно, можно найти CoLa, обеспечивающие правильные предсказания, что указывает на значительный потенциал повышения производительности. Наши результаты подчеркивают недостатки использования фиксированной архитектуры предобученных LLM для вывода на различных образцах и прокладывают путь к раскрытию обобщающей способности адаптации глубины на этапе тестирования.
Несмотря на значительный прогресс, достигнутый в области генеративных моделей для видео, современные методы способны создавать видео продолжительностью всего 5–16 секунд, которые часто обозначаются как «длинные видео». Кроме того, видео длительностью более 16 секунд испытывают трудности с поддержанием последовательности внешнего вида персонажей и композиции сцен на протяжении всего повествования. В частности, длинные видео с несколькими субъектами по-прежнему не могут сохранить согласованность персонажей и плавность движений. Хотя некоторые методы способны генерировать видео длительностью до 150 секунд, они часто страдают от избыточности кадров и низкого временного разнообразия. В последних работах предпринимались попытки создания длинных видео с несколькими персонажами, повествовательной согласованностью и высоким уровнем детализации. Мы провели всестороннее изучение 32 статей, посвященных генерации видео, чтобы выявить ключевые архитектурные компоненты и стратегии обучения, которые стабильно обеспечивают эти качества. Также мы разработали новую всеобъемлющую таксономию существующих методов и представили сравнительные таблицы, классифицирующие статьи по их архитектурным решениям и характеристикам производительности.
Получение компактных и временно-осознанных визуальных представлений из динамических сцен является ключевым для успешного выполнения задач последовательного понимания сцен, таких как визуальное отслеживание и роботизированное манипулирование. В данной работе мы представляем Token Bottleneck (ToBo) — простой, но интуитивно понятный конвейер самообучения, который сжимает сцену в токен узкого места и предсказывает последующую сцену, используя минимальное количество патчей в качестве подсказок. Конвейер ToBo способствует изучению последовательных представлений сцен, консервативно кодируя эталонную сцену в компактный токен узкого места на этапе сжатия. На этапе расширения мы направляем модель на захват временной динамики, предсказывая целевую сцену с использованием токена узкого места вместе с несколькими целевыми патчами в качестве подсказок. Такая конструкция побуждает визуальную основу модели встраивать временные зависимости, что позволяет понимать динамические переходы между сценами. Многочисленные эксперименты в различных последовательных задачах, включая распространение меток в видео и манипуляции роботов в симулированных средах, демонстрируют превосходство ToBo над базовыми методами. Более того, развертывание нашей предварительно обученной модели на физических роботах подтверждает её устойчивость и эффективность в реальных условиях. Мы также подтверждаем масштабируемость ToBo для различных масштабов моделей.
Несмотря на впечатляющий прогресс в области языковых моделей (LMs) в последние годы, который во многом обусловлен переходом от специализированных моделей, разработанных для конкретных задач, к универсальным моделям, основанным на мощных архитектурах (например, Transformer), которые обучаются всему непосредственно из сырых данных, предварительные этапы обработки, такие как токенизация, остаются препятствием для создания истинно сквозных базовых моделей. Мы представляем набор новых методов, которые позволяют реализовать механизм динамического разбиения на фрагменты, автоматически обучающий стратегии сегментации, зависящие от содержания и контекста, совместно с остальной частью модели. Включение этого механизма в явную иерархическую сеть (H-Net) позволяет заменить (неявно иерархический) конвейер токенизации-LM-детокенизации единой моделью, обучаемой полностью сквозным образом. При сопоставимых вычислительных ресурсах и объеме данных H-Net с одним уровнем иерархии, работающая на уровне байтов, превосходит мощную языковую модель Transformer, работающую с BPE-токенами. Итеративное увеличение иерархии до нескольких уровней дополнительно повышает её производительность за счет моделирования нескольких уровней абстракции, демонстрируя значительно лучшее масштабирование с увеличением объема данных и соответствуя токенизированной модели Transformer вдвое большего размера. H-Net, предварительно обученная на английском языке, демонстрирует значительно повышенную устойчивость на уровне символов и качественно обучается осмысленным стратегиям разбиения на фрагменты, зависящим от данных, без использования эвристик или явного контроля. Наконец, преимущество H-Net перед токенизированными конвейерами ещё более усиливается в языках и модальностях с менее эффективными эвристиками токенизации, таких как китайский язык, программный код или последовательности ДНК (почти 4-кратное улучшение эффективности использования данных по сравнению с базовыми моделями), что демонстрирует потенциал истинно сквозных моделей, которые лучше обучаются и масштабируются на основе необработанных данных.
Бред, как его концептуализировал философ Гарри Франкфурт, относится к утверждениям, сделанным без учета их истинности. В то время как предыдущие работы исследовали галлюцинации и угодливость больших языковых моделей (LLM), мы предлагаем машинный бред как общую концептуальную рамку, которая позволяет исследователям охарактеризовать более широкое явление утраты правдивости в LLM и пролить свет на его основные механизмы. Мы вводим Индекс Бреда, новый метрический показатель, количественно оценивающий безразличие LLM к истине, и предлагаем дополнительную таксономию, анализирующую четыре качественные формы бреда: пустая риторика, уклончивость, уловки и непроверенные утверждения. Мы проводим эмпирические оценки на наборе данных Marketplace, наборе данных Политической Нейтральности и нашем новом бенчмарке BullshitEval (2400 сценариев, охватывающих 100 ИИ-ассистентов), специально разработанном для оценки машинного бреда. Наши результаты показывают, что тонкая настройка моделей с использованием обучения с подкреплением на основе человеческой обратной связи (RLHF) значительно усугубляет бред, а использование цепочки рассуждений (CoT) во время вывода заметно усиливает определенные формы бреда, особенно пустую риторику и уклончивость. Мы также наблюдаем распространенный машинный бред в политических контекстах, где уловки являются доминирующей стратегией. Наши выводы подчеркивают системные проблемы в согласовании ИИ и предоставляют новые инсайты для достижения более правдивого поведения LLM.
Большинство современных визуально-языковых моделей (VLM) кажутся ограниченными линейной разделимостью их визуальных эмбеддингов в задачах абстрактного рассуждения. В данной работе исследуется этот "линейный барьер рассуждения" путем введения понятия "Потолок линейной разделимости" (Linear Separability Ceiling, LSC), который представляет собой производительность простого линейного классификатора на визуальных эмбеддингах VLM. Мы обнаруживаем, что этот барьер широко распространен и обусловлен не слабым восприятием, а сбоями в путях рассуждения языковой модели. Мы демонстрируем, что это решаемая проблема согласования. Однако требуемое вмешательство зависит от задачи: активация существующих путей достаточна для семантических концепций, тогда как сложное реляционное рассуждение требует адаптации основных весов модели. Используя постфиксную настройку в качестве методологического контроля, мы находим убедительные доказательства наличия мощных, но неактивных путей рассуждения в VLM. Однако для сложных реляционных задач, требующих более глубокой адаптации, явное улучшение качества представления приводит к сбоям модели на новых форматах запросов, несмотря на хорошую разделимость эмбеддингов. В конечном итоге, данная работа предлагает новый подход к анализу VLM, показывая, что устойчивое рассуждение является вопросом целенаправленного согласования, а не просто улучшенного обучения представлениям.
Быстрое развитие ИИ-агентов вновь разожгло давнюю амбицию использовать их для ускорения научных открытий. Достижение этой цели требует глубокого понимания границ человеческих знаний. В связи с этим, "Последний экзамен человечества" (HLE) предоставляет исключительно сложный эталон для оценки научных ИИ-агентов. В данной работе мы стремимся создать базовую архитектуру для универсальных агентов и подтвердить их возможности через лидирующие результаты на HLE. Для этого мы представляем X-Master, агента с инструментами для рассуждений, разработанного для имитации человеческих исследователей путем гибкого взаимодействия с внешними инструментами в процессе рассуждений. Этот агент, руководствуясь концепцией кода как языка взаимодействия, может гибко использовать встроенные библиотеки Python и наши специализированные инструменты для усиления рассуждений. Мы дополнительно масштабируем его возможности через X-Masters, распределенную и многоуровневую агентскую систему, которая систематически улучшает широту и глубину рассуждений. Наше открытое решение, X-Masters, устанавливает новый рекорд на HLE с результатом 32,1%, превосходя OpenAI и Google Deep Research (26,6% и 26,9%) и становясь первым, кто превысил порог в 30%. Эта работа позволяет нам глубже понять решение сложных задач и накопить ценный опыт, который может способствовать будущим достижениям, направляя последующее обучение моделей.
Нейронные аудиокодеки и автоэнкодеры стали универсальными моделями для сжатия, передачи, извлечения признаков и генерации латентного пространства аудиоданных. Однако ключевым ограничением является то, что большинство из них обучаются для максимизации точности восстановления, часто пренебрегая специфической структурой латентного пространства, необходимой для оптимальной работы в различных прикладных задачах. Мы предлагаем простой пост-обработочный подход для решения этой проблемы путем модификации узкого места предварительно обученного автоэнкодера. Наш метод вводит "Re-Bottleneck" — внутреннее узкое место, обучаемое исключительно через потери в латентном пространстве для внедрения пользовательской структуры. Мы демонстрируем эффективность подхода в трех экспериментах. Во-первых, мы накладываем порядок на латентные каналы без ущерба для качества восстановления. Во-вторых, мы выравниваем латентные представления с семантическими эмбеддингами, анализируя влияние на последующее диффузионное моделирование. В-третьих, мы вводим эквивариантность, гарантируя, что операция фильтрации входного аудиосигнала напрямую соответствует определенному преобразованию в латентном пространстве. В итоге, наш подход Re-Bottleneck предлагает гибкий и эффективный способ настройки представлений нейронных аудиомоделей, позволяя им легко адаптироваться к разнообразным требованиям различных приложений с минимальными дополнительными затратами на обучение.
Преобладающая парадигма масштабирования больших языковых моделей (LLM) предполагает монолитное сквозное обучение — ресурсоемкий процесс, который отличается недостаточной гибкостью. В данной статье исследуется альтернативный, конструктивный подход к разработке моделей, основанный на использовании нетренируемых, детерминированных входных эмбеддингов. В предыдущей работе [1] мы показали, что высокоуровневое семантическое рассуждение может возникать в трансформерах при использовании замороженных эмбеддингов, полученных из визуальной структуры Unicode-глифов. Здесь мы демонстрируем, что этот фиксированный репрезентационный субстрат действует как универсальный «стыковочный порт», позволяющий реализовать два мощных и эффективных подхода к масштабированию: бесшовную модульную композицию и прогрессивное послойное наращивание. Во-первых, мы показываем, что специализированные модели, обученные на различных наборах данных (например, на русских и китайских текстах), могут быть объединены в единую, более мощную модель Mixture-of-Experts (MoE) после обучения без каких-либо архитектурных изменений. Это достигается простым усреднением их выходных логитов. Полученная MoE-модель демонстрирует немедленное улучшение производительности на тестах рассуждений, таких как MMLU, превосходя свои составные эксперты без катастрофического забывания. Во-вторых, мы представляем послойную конструктивную методику обучения, в которой глубокий трансформер «наращивается» путем постепенного добавления и обучения одного слоя за раз. Этот метод демонстрирует стабильную сходимость и четкую корреляцию между глубиной модели и возникновением сложных способностей к рассуждению, таких как те, что требуются для SQuAD. Наши результаты указывают на сдвиг парадигмы от монолитной оптимизации в сторону более биологического или конструктивного подхода к разработке ИИ, где сложность строится постепенно, а модули могут свободно комбинироваться. Это открывает новые возможности для ресурсоэффективного масштабирования, непрерывного обучения и создания более демократизированной экосистемы для разработки мощных систем ИИ. Мы публикуем весь код и модели, чтобы способствовать дальнейшим исследованиям.
Понимание места семантического представления в больших языковых моделях (LLM) имеет ключевое значение для интерпретируемости и инноваций в архитектуре. Доминирующая парадигма предполагает, что обучаемые входные эмбеддинги служат основополагающими "векторами смысла". В данной статье мы оспариваем эту точку зрения. Мы создаем модели Transformer, в которых слой эмбеддингов полностью заморожен, а векторы получены не из данных, а из визуальной структуры Unicode-глифов. Эти несемантические, предварительно вычисленные визуальные эмбеддинги остаются фиксированными на протяжении всего обучения. Наш метод совместим с любым токенизатором, включая новый Unicode-ориентированный токенизатор, который мы представляем для обеспечения универсального покрытия текста. Несмотря на отсутствие обучаемых, семантически инициализированных эмбеддингов, наши модели сходятся, генерируют связный текст и, что особенно важно, превосходят архитектурно идентичные модели с обучаемыми эмбеддингами на тесте MMLU (Massive Multitask Language Understanding). Мы связываем это с "репрезентационным вмешательством" в традиционных моделях, где слой эмбеддингов вынужден обучаться как структурным, так и семантическим признакам. Наши результаты показывают, что высокоуровневая семантика не является неотъемлемым свойством входных эмбеддингов, а представляет собой эмерджентное свойство композиционной архитектуры Transformer и масштаба данных. Это переосмысливает роль эмбеддингов: от контейнеров смысла к структурным примитивам. Мы публикуем весь код и модели для стимулирования дальнейших исследований.